Apresentação Spam Filter

download Apresentação Spam Filter

of 22

  • date post

    14-Aug-2015
  • Category

    Education

  • view

    69
  • download

    1

Embed Size (px)

Transcript of Apresentação Spam Filter

  1. 1. MINERAO DE DADOSSPAM FILTER2012Sistemas de Suporte DecisoJoo Ferreira | Ernesto Barbosa | Andr Morgado
  2. 2. ndice Spam Definio Parser Dificuldades Caractersticas Atributos considerados Regras Fluxo Resultados J48 Naive Bayes Regras de Associao ConclusesJoo Ferreira | Ernesto Barbosa | Andr Morgado
  3. 3. SPAMJoo Ferreira | Ernesto Barbosa | Andr Morgado
  4. 4. Spam - Definio Spam no mais do que uma mensagem de correioeletrnico no solicitada. A principal motivao para a prtica do spamming obaixo custo associado ao envio de mensagens eletrnicas.Joo Ferreira | Ernesto Barbosa | Andr Morgado
  5. 5. PARSERJoo Ferreira | Ernesto Barbosa | Andr Morgado
  6. 6. Dificuldades Como efetuar um Parser Quais atributos so necessrios analisar Que regras aplicar a cada um para validar se ou no spam Como criar o dataset para ser analisado no WEKAJoo Ferreira | Ernesto Barbosa | Andr Morgado
  7. 7. Caractersticas O nosso parser utiliza expresses regulares para retirar dosemails a informao que ns achamos necessria. Aps retirar a informao, testa se a informao est conformealgumas regras que definimos. Cada regra que no seja satisfeita, implica uma penalizaopara esse email. Existe um valor mximo que um email no pode ultrapassar, demodo a evitar ser considerado spam.Joo Ferreira | Ernesto Barbosa | Andr Morgado
  8. 8. Caractersticas Aps avaliar todas as regras, ele posteriormente gera o dataset de treino. Em seguida, utilizando o weka, classifica as instncias de um dataset de teste, segundo o que aprendeu. Todas as novas instncias, so depois adicionadas ao dataset de treino.Joo Ferreira | Ernesto Barbosa | Andr Morgado
  9. 9. Atributos considerados Message-ID From To Bcc Cc Nmero de total de contatos Nmero de contatos no repetidos HtmlJoo Ferreira | Ernesto Barbosa | Andr Morgado
  10. 10. Regras No nosso projeto para considerarmos os emails como spam tinham de ter algumas das seguintes caractersticas: !To && (Bcc || Cc) Message-ID #To >10 || #Cc >10 Body == HTML #Total Contactos > Contactos Assunto = viagra, medicamentos, meds, porno Assunto = From = no-replyJoo Ferreira | Ernesto Barbosa | Andr Morgado
  11. 11. Fluxo de Sistema EmailsJoo Ferreira | Ernesto Barbosa | Andr Morgado
  12. 12. RESULTADOSJoo Ferreira | Ernesto Barbosa | Andr Morgado
  13. 13. J48Joo Ferreira | Ernesto Barbosa | Andr Morgado
  14. 14. AdaBoostM1 + J48 Joo Ferreira | Ernesto Barbosa | Andr Morgado
  15. 15. Bagging + J48Joo Ferreira | Ernesto Barbosa | Andr Morgado
  16. 16. NaiveBayes Joo Ferreira | Ernesto Barbosa | Andr Morgado
  17. 17. Bagging + NaiveBayesJoo Ferreira | Ernesto Barbosa | Andr Morgado
  18. 18. AdaBoostM1 + NaiveBayes Joo Ferreira | Ernesto Barbosa | Andr Morgado
  19. 19. Regras Estas foram as regras de associao que o WEKA conseguiu retirar do nosso dataset: To = true and #Contacts Ham (108.0 / 8.0) Cc = false : Spam (17.0) To = false : Spam (8.0) #Contacts