Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Post on 01-Jan-2016

27 views 2 download

description

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam. Agenda. Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão. Introdução. - PowerPoint PPT Presentation

Transcript of Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Jim Lau; Ramices dos Santos SilvaDAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .

{jim; ramices} @das.ufsc.br

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Agenda

Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão

Introdução

O spam pode ser definido como o envio abusivo e não solicitado de mensagens de correio eletrônico

causa um grande desperdício de recursos – Custo: consome tempo de processamento e

espaço de armazenamento– Fraude: facilita o uso de fraude– Destituição do e-mail normal

Justificativa

Quando o spam é recebido em pequenas quantidades, pode causar aborrecimento aos destinatários

Para o recebimento de grandes quantidades de e-mail, o spam consome tempo e dificulta a descoberta de mensagens legítimas.

Freqüentemente possui conteúdo de linguagem pornográfica,que ofende a muitos destinatários.

Justificativa

Uma solução é a utilização de filtro de spam– Automáticos– Semi-automáticos

Amplamente utilizados por ISP´s(provedores) O problema em utilizar esses filtros é que não

se consegue obter 100% de precisão na taxa de detecção de spam

Com isso vários métodos têm sido propostos para a implementação de filtros de spam

Justificativa

O maior interesse tem sido no uso de técnicas de aprendizado de máquina.– Naive Bayes – Árvores de Decisão– Redes Neurais– Sistemas Nebulosos (Fuzzy)– Support Vector Machine – SVM– Sistemas Imunológicos Artificiais

Justificativa

Como conceito básico e comum a estes métodos é que os classificadores utilizam treinamento supervisionado de dados, realizado manualmente, que resulta em um melhor desempenho.

Precisava-se comparar técnicas para definir qual tem o melhor desempenho

Objetivo

O objetivo do trabalho estudado foi realizar uma análise comparativa do desempenho de diversas técnicas de Aprendizado de Máquina para uso em filtros de detecção de spam baseados em conteúdo As técnicas escolhidas foram: Neuro-Fuzzy, Redes Neurais utilizando Perceptron e MLP.

Detecção de Spam - Fatores

Fatores que contribuem para envio de spam– Facilidade no envio de e-mail: alguns programas

permitem enviar centenas de mensagens de e-mail e adquirir, milhares de contas válidas

– Endereços são de fácil obtenção: A maior parte das técnicas para filtragem de e-mail indesejado envolve filtros de mensagens baseadas no endereço do remetente

Detecção de Spam - Técnicas

Utilização de Filtros: As soluções automáticas removem o e-mail suspeito, enquanto que soluções semi-automáticas deixam que o usuário detecte

Medidas de contra ataque: Usuários podem responder às mensagens de spam para bombardear

Treinamento de Usuários: Uma das soluções existentes está relacionada ao gerenciamento de spam e treinamento de usuários sobre as opções existentes

Detecção de Spam - Filtros

Definidos pelos usuários: permitem a criação de regras pelos usuários

Cabeçalhos: analisam os cabeçalhos para detectar se são falsificados ou não

Conteúdo: tipo de filtro mais comum, verificam a ocorrência de palavras no corpo do e-mail.

E o problema do image spam?

Técnicas de Inteligência

Redes Neurais– As Redes Neurais além fornecem um caminho mais

fácil para modelar relações complexas, também oferecem adaptabilidade e habilidade de aprendizagem implícita. O fato das Redes Neurais funcionarem bem para Classificação de Textos implica em confiança para a aplicação em filtros de spam.

Técnicas de Inteligência

Redes Neurais– A propriedade mais importante das redes neurais é a

habilidade de aprender de seu ambiente e com isso melhorar seu desempenho. Isso é feito através de um processo iterativo de ajustes aplicado a seus pesos: o treinamento.

– Aprendizado supervisionado, não supervisionado e híbrido

Técnicas de Inteligência

Neuro-Fuzzy– Fuzzy: (sistema de lógica nebulosa) é uma

generalização da teoria dos conjuntos clássica e visa implementar uma forma de pensamento humano na máquina. Porém tem o problema da adaptabilidade.

– Já as Redes Neurais são eficientes para a detecção de padrões, entretanto não são boas para explicar como estes padrões são alcançados.

A limitação destas técnicas impulsionou a criação de sistemas neuro-fuzzy

Resultados

Foram realizadas comparações com diferentes algoritmos:– Neuro-Fuzzy com taxa ótima de aprendizado– Redes Neurais utilizando Perceptron– Redes Neurais utilizando MLP.

A ferramenta utilizada nesta comparação entre esses algoritmos foi o Matlab.

Resultados

Foi utilizado como base de dados um repositório de aprendizado de maquina da Universidade da Califórnia Irvine

Utilizou-se a mesma quantidade de padrões de treinamento (3500 padrões, 76%) e de validação (1101 padrões, 24% do total).

Foram processados utilizando a base de dados completa e

Com a mesma configuração, após a seleção dos atributos de maior relevância

Resultados

Os resultados foram analisados de acordo com:– os valores das taxas de acertos;– falsos positivos; e– falsos negativos.

Resultados

Neuro-Fuzzy– O treinamento Neuro-Fuzzy após a aplicação dos

coeficientes da correlação, os algoritmos foram processados novamente pela variação do número de funções de pertinência.

Neuro-Fuzzy (Sem correlação)

Neuro-Fuzzy (com correlação)

Neuro-Fuzzy (com X sem correlação)

Resultados

Perceptron Simples– Para esta técnica foram feitos dois experimentos– Também se considerou a base completa e a base

reduzida de acordo com a análise de correlação– Observou-se a diminuição do tempo de

treinamento em função da diminuição do número de neurônios de entrada da rede

Perceptron Simples(sem correlação)

Perceptron Simples(com correlação)

Perceptron (com X sem correlação)

Resultados

MPL– A observação dos resultados obtidos pelo

treinamento da rede MLP, mostra que a aplicação dos coeficientes de correlação acarretou em um aumento dos valores dos falsos positivos de uma média de 3,96% para uma média de 4,29%.

MPL (sem correlação)

MPL (com correlação)

MPL (com X sem correlação)

Análise Comparativa

Conclusão

Dificuldade com a implementação dos algoritmos propostos

Descoberta do comportamento destes algoritmos Várias execuções dos algoritmos, para diferentes

definições dos parâmetros Foram executados no mínimo seis vezes O trabalho foi facilitado pelas implementações de

redes neurais do Matlab

Jim Lau; Ramices dos Santos SilvaDAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .

{jim; ramices} @das.ufsc.br

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

?