Organização e Recuperação de Informação: Classificação de textos...

169
Classifica¸c˜ ao de textos Naive Bayes Teoria de Naive Bayes Avalia¸ ao de classifica¸ ao de textos Conte´ udo Classifica¸c˜ ao de textos & Naive Bayes 1 / 48

Transcript of Organização e Recuperação de Informação: Classificação de textos...

Page 1: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Conteudo

Classificacao de textos & Naive Bayes 1 / 48

Page 2: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Conteudo

Classificacao de textos: definicao & relevancia para ORI

Classificacao de textos & Naive Bayes 1 / 48

Page 3: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Conteudo

Classificacao de textos: definicao & relevancia para ORI

Naive Bayes: classificador de textos

Classificacao de textos & Naive Bayes 1 / 48

Page 4: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Conteudo

Classificacao de textos: definicao & relevancia para ORI

Naive Bayes: classificador de textos

Teoria: derivacao da regra de classificacao de Naive Bayes

Classificacao de textos & Naive Bayes 1 / 48

Page 5: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Conteudo

Classificacao de textos: definicao & relevancia para ORI

Naive Bayes: classificador de textos

Teoria: derivacao da regra de classificacao de Naive Bayes

Avaliacao de classificacao de textos: como saber se estafuncionando

Classificacao de textos & Naive Bayes 1 / 48

Page 6: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Outline

1 Classificacao de textos

2 Naive Bayes

3 Teoria de Naive Bayes

4 Avaliacao de classificacao de textos

Classificacao de textos & Naive Bayes 2 / 48

Page 7: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

A tarefa de classificacao de textos: filtragem de emails

spam

De: "UFU Contas Suporte Tecnico c©2013 " <[email protected]>

Assunto: Caro UFU Usuario (Urgente!).

Caro UFU Usuario

Estamos atualizando nosso banco de dados dos EUA e centro conta de e-mail.

Estamos a excluir todas as contas de webmail n~ao utilizados da UFU e criar

mais espaco para novas contas. Para garantir que voce n~ao experimenta

interrupc~ao do servico durante este perıodo, voce precisa clicar no link

de validac~ao abaixo e preencher as informac~oes yourUFU:

Validac~ao Link:

http://webxxxs.3owl.com/secure_login.html

Voce recebera uma confirmac~ao de uma nova senha alfanumerica que so e

valida durante este perıodo e podem ser alteradas por esse processo.

Pedimos desculpas por qualquer inconveniente que isso possa custar-lhe.

Por favor, responda a este e-mail para que possamos dar-lhe melhores

servicos online com o nosso webmail funcionalidade e melhorias novo e

melhorado.

=================================================

Classificacao de textos & Naive Bayes 3 / 48

Page 8: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Classificacao de textos & Naive Bayes 4 / 48

Page 9: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Considerando:

Um espaco de documentos X

Classificacao de textos & Naive Bayes 4 / 48

Page 10: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Considerando:

Um espaco de documentos X

Documentos sao representados nesse espaco – tipicamentealgum tipo de espaco de alta-dimensionalidade.

Classificacao de textos & Naive Bayes 4 / 48

Page 11: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Considerando:

Um espaco de documentos X

Documentos sao representados nesse espaco – tipicamentealgum tipo de espaco de alta-dimensionalidade.

Um conjunto fixo de classes C = {c1, c2, . . . , cJ}

Classificacao de textos & Naive Bayes 4 / 48

Page 12: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Considerando:

Um espaco de documentos X

Documentos sao representados nesse espaco – tipicamentealgum tipo de espaco de alta-dimensionalidade.

Um conjunto fixo de classes C = {c1, c2, . . . , cJ}

As classes/rotulos sao definidas de acordo com a necessidadeda aplicacao: (e.g., spam vs. nao-spam).

Classificacao de textos & Naive Bayes 4 / 48

Page 13: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Considerando:

Um espaco de documentos X

Documentos sao representados nesse espaco – tipicamentealgum tipo de espaco de alta-dimensionalidade.

Um conjunto fixo de classes C = {c1, c2, . . . , cJ}

As classes/rotulos sao definidas de acordo com a necessidadeda aplicacao: (e.g., spam vs. nao-spam).

Um conjunto de treinamento de D documentos rotuladosCada documento rotulado 〈d , c〉 ∈ X× C

Classificacao de textos & Naive Bayes 4 / 48

Page 14: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao de classificacao de textos: treinamento

Considerando:

Um espaco de documentos X

Documentos sao representados nesse espaco – tipicamentealgum tipo de espaco de alta-dimensionalidade.

Um conjunto fixo de classes C = {c1, c2, . . . , cJ}

As classes/rotulos sao definidas de acordo com a necessidadeda aplicacao: (e.g., spam vs. nao-spam).

Um conjunto de treinamento de D documentos rotuladosCada documento rotulado 〈d , c〉 ∈ X× C

Usando um algoritmo de aprendizado podemos aprender umclassificador γ que mapeia documentos para classes:

γ : X→ C

Classificacao de textos & Naive Bayes 4 / 48

Page 15: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao formal de classificacao de textos:

aplicacao/testes

Classificacao de textos & Naive Bayes 5 / 48

Page 16: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Definicao formal de classificacao de textos:

aplicacao/testes

Considerando: uma descricao d ∈ X de um documento

Determinar: γ(d) ∈ C, isto e, a classe e a mais apropriada para d

Classificacao de textos & Naive Bayes 5 / 48

Page 17: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificacao de topicos

classes:

conj.treino:

conj.teste:

regioes industrias interesses

γ(d ′) =China

primeira

cia aerea

privada

chinesa

Inglaterra China aves cafe eleicoes esportes

Londres

trafego

Big Ben

Parlamento

a Rainha

Windsor

Beijing

Olimpıadas

Muralha

turismo

comunista

Mao

frango

alimento

patos

pate

gripe

aviaria

graoes

torragem

robusta

arabica

colheita

Quenia

votos

recontagem

2o turno

cargo

campanha

comerciais

baseball

campo

futebol

ataque

capitao

time

d ′

Classificacao de textos & Naive Bayes 6 / 48

Page 18: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exercıcio

Classificacao de textos & Naive Bayes 7 / 48

Page 19: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exercıcio

Encontrar exemplos do uso de classificacao de textos emrecuperacao de informacao

Classificacao de textos & Naive Bayes 7 / 48

Page 20: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Classificacao de textos & Naive Bayes 8 / 48

Page 21: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Identificacao de idioma (classes: ingles vs. frances etc.)

Classificacao de textos & Naive Bayes 8 / 48

Page 22: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Identificacao de idioma (classes: ingles vs. frances etc.)

Deteccao automatica de paginas de spam web

Classificacao de textos & Naive Bayes 8 / 48

Page 23: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Identificacao de idioma (classes: ingles vs. frances etc.)

Deteccao automatica de paginas de spam web

Deteccao automatica de conteudo sexualmente explıcito

Classificacao de textos & Naive Bayes 8 / 48

Page 24: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Identificacao de idioma (classes: ingles vs. frances etc.)

Deteccao automatica de paginas de spam web

Deteccao automatica de conteudo sexualmente explıcito

Buscas contınuas (e.g., Alertas do Google)

Classificacao de textos & Naive Bayes 8 / 48

Page 25: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Identificacao de idioma (classes: ingles vs. frances etc.)

Deteccao automatica de paginas de spam web

Deteccao automatica de conteudo sexualmente explıcito

Buscas contınuas (e.g., Alertas do Google)

Deteccao de sentimento: avaliacao de filme/produto epositiva ou negativa

Classificacao de textos & Naive Bayes 8 / 48

Page 26: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplos de como motores de busca usam classificacao

Identificacao de idioma (classes: ingles vs. frances etc.)

Deteccao automatica de paginas de spam web

Deteccao automatica de conteudo sexualmente explıcito

Buscas contınuas (e.g., Alertas do Google)

Deteccao de sentimento: avaliacao de filme/produto epositiva ou negativa

Funcao de ranking sem informacao de retorno: documento erelevante ou nao relevante

Classificacao de textos & Naive Bayes 8 / 48

Page 27: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao de textos & Naive Bayes 9 / 48

Page 28: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao manual (usado pelo Yahoo no comeco da Web ePubMed)

Classificacao de textos & Naive Bayes 9 / 48

Page 29: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao manual (usado pelo Yahoo no comeco da Web ePubMed)

http://web.archive.org/web/20000302001544/http://www.cade.com.br/

Classificacao de textos & Naive Bayes 9 / 48

Page 30: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao manual (usado pelo Yahoo no comeco da Web ePubMed)

http://web.archive.org/web/20000302001544/http://www.cade.com.br/

Acuracia alta se feito por especialistas

Classificacao de textos & Naive Bayes 9 / 48

Page 31: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao manual (usado pelo Yahoo no comeco da Web ePubMed)

http://web.archive.org/web/20000302001544/http://www.cade.com.br/

Acuracia alta se feito por especialistas

Consistente quando problema e time de especialistas epequeno

Classificacao de textos & Naive Bayes 9 / 48

Page 32: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao manual (usado pelo Yahoo no comeco da Web ePubMed)

http://web.archive.org/web/20000302001544/http://www.cade.com.br/

Acuracia alta se feito por especialistas

Consistente quando problema e time de especialistas epequeno

Classificacao manual para problemas grandes e difıcil eproibitivo

Classificacao de textos & Naive Bayes 9 / 48

Page 33: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 1. Manual

Classificacao manual (usado pelo Yahoo no comeco da Web ePubMed)

http://web.archive.org/web/20000302001544/http://www.cade.com.br/

Acuracia alta se feito por especialistas

Consistente quando problema e time de especialistas epequeno

Classificacao manual para problemas grandes e difıcil eproibitivo

→ necessitamos de metodos automaticos para classificacao

Classificacao de textos & Naive Bayes 9 / 48

Page 34: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 2. Baseado em regras

Classificacao de textos & Naive Bayes 10 / 48

Page 35: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 2. Baseado em regras

E.g., Alertas do Google funciona com regras

Classificacao de textos & Naive Bayes 10 / 48

Page 36: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 2. Baseado em regras

E.g., Alertas do Google funciona com regras

Comum: combinacoes booleanas

Classificacao de textos & Naive Bayes 10 / 48

Page 37: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 2. Baseado em regras

E.g., Alertas do Google funciona com regras

Comum: combinacoes booleanas

Acuracia e alta, se regra foi refinada com o tempo porespecialista

Classificacao de textos & Naive Bayes 10 / 48

Page 38: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 2. Baseado em regras

E.g., Alertas do Google funciona com regras

Comum: combinacoes booleanas

Acuracia e alta, se regra foi refinada com o tempo porespecialista

Construir e manter um sistema de classificacao com regraspode ser problematico e caro

Classificacao de textos & Naive Bayes 10 / 48

Page 39: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Uma regra de classificacao complexa

Classificacao de textos & Naive Bayes 11 / 48

Page 40: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Uma regra de classificacao complexa

Classificacao de textos & Naive Bayes 11 / 48

Page 41: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 3. estatısticos

Classificacao de textos & Naive Bayes 12 / 48

Page 42: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 3. estatısticos

classificacao de textos como um problema de aprendizado

Classificacao de textos & Naive Bayes 12 / 48

Page 43: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 3. estatısticos

classificacao de textos como um problema de aprendizado

(i) Aprendizado supervisionado de uma funcao de classificacaoγ e (ii) aplicacao de γ para classificar novos documentos

Classificacao de textos & Naive Bayes 12 / 48

Page 44: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Metodos de classificacao: 3. estatısticos

classificacao de textos como um problema de aprendizado

(i) Aprendizado supervisionado de uma funcao de classificacaoγ e (ii) aplicacao de γ para classificar novos documentos

Veremos para isso: Naive Bayes

Classificacao de textos & Naive Bayes 12 / 48

Page 45: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Outline

1 Classificacao de textos

2 Naive Bayes

3 Teoria de Naive Bayes

4 Avaliacao de classificacao de textos

Classificacao de textos & Naive Bayes 13 / 48

Page 46: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador probabilıstico: Naive Bayes

Computar a probabilidade de um documento d sendo umaclasse c da seguinte forma:

P(c |d) ∝ P(c)∏

1≤k≤nd

P(tk |c)

Classificacao de textos & Naive Bayes 14 / 48

Page 47: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador probabilıstico: Naive Bayes

Computar a probabilidade de um documento d sendo umaclasse c da seguinte forma:

P(c |d) ∝ P(c)∏

1≤k≤nd

P(tk |c)

nd e o tamanho do documento. (numero de tokens)

Classificacao de textos & Naive Bayes 14 / 48

Page 48: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador probabilıstico: Naive Bayes

Computar a probabilidade de um documento d sendo umaclasse c da seguinte forma:

P(c |d) ∝ P(c)∏

1≤k≤nd

P(tk |c)

nd e o tamanho do documento. (numero de tokens)

P(tk |c) e a probabilidade condicional do termo tk ocorrer emum documento da classe c

Classificacao de textos & Naive Bayes 14 / 48

Page 49: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador probabilıstico: Naive Bayes

Computar a probabilidade de um documento d sendo umaclasse c da seguinte forma:

P(c |d) ∝ P(c)∏

1≤k≤nd

P(tk |c)

nd e o tamanho do documento. (numero de tokens)

P(tk |c) e a probabilidade condicional do termo tk ocorrer emum documento da classe c

P(tk |c) pode ser vista como uma medida de quanta evidenciatk contribui para que c seja da classe correta

Classificacao de textos & Naive Bayes 14 / 48

Page 50: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador probabilıstico: Naive Bayes

Computar a probabilidade de um documento d sendo umaclasse c da seguinte forma:

P(c |d) ∝ P(c)∏

1≤k≤nd

P(tk |c)

nd e o tamanho do documento. (numero de tokens)

P(tk |c) e a probabilidade condicional do termo tk ocorrer emum documento da classe c

P(tk |c) pode ser vista como uma medida de quanta evidenciatk contribui para que c seja da classe correta

P(c) e a probabilidade a priori de c .

Classificacao de textos & Naive Bayes 14 / 48

Page 51: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador probabilıstico: Naive Bayes

Computar a probabilidade de um documento d sendo umaclasse c da seguinte forma:

P(c |d) ∝ P(c)∏

1≤k≤nd

P(tk |c)

nd e o tamanho do documento. (numero de tokens)

P(tk |c) e a probabilidade condicional do termo tk ocorrer emum documento da classe c

P(tk |c) pode ser vista como uma medida de quanta evidenciatk contribui para que c seja da classe correta

P(c) e a probabilidade a priori de c .

Se os termos de um documento nao dao evidencia clara paraclasse vs. outra, escolhemos a classe c com maior P(c).

Classificacao de textos & Naive Bayes 14 / 48

Page 52: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classe com probabilidade a posteriori maxima

Objetivo da classificacao Naive Bayes e encontrar a melhorclasse

Classificacao de textos & Naive Bayes 15 / 48

Page 53: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classe com probabilidade a posteriori maxima

Objetivo da classificacao Naive Bayes e encontrar a melhorclasse

A melhor classe e a mais provavel ou classe de maximaprobabilidade a posteriori (MAP) cmap:

cmap = argmaxc∈C

P(c |d) = argmaxc∈C

P(c)∏

1≤k≤nd

P(tk |c)

Classificacao de textos & Naive Bayes 15 / 48

Page 54: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Fazendo o logaritmo

Classificacao de textos & Naive Bayes 16 / 48

Page 55: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Fazendo o logaritmo

Multiplicar muitas probabilidades pequenas resulta em erro deponto flutuante

Classificacao de textos & Naive Bayes 16 / 48

Page 56: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Fazendo o logaritmo

Multiplicar muitas probabilidades pequenas resulta em erro deponto flutuante

Como log(xy) = log(x) + log(y), podemos somar o logaritmodas probabilidades em vez de multiplicar

Classificacao de textos & Naive Bayes 16 / 48

Page 57: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Fazendo o logaritmo

Multiplicar muitas probabilidades pequenas resulta em erro deponto flutuante

Como log(xy) = log(x) + log(y), podemos somar o logaritmodas probabilidades em vez de multiplicar

Como log e uma funcao monotonica, a classe com pontuacaomais alta nao muda

Classificacao de textos & Naive Bayes 16 / 48

Page 58: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Fazendo o logaritmo

Multiplicar muitas probabilidades pequenas resulta em erro deponto flutuante

Como log(xy) = log(x) + log(y), podemos somar o logaritmodas probabilidades em vez de multiplicar

Como log e uma funcao monotonica, a classe com pontuacaomais alta nao muda

Na pratica, calculamos:

cmap = argmaxc∈C

[log P(c) +∑

1≤k≤nd

log P(tk |c)]

Classificacao de textos & Naive Bayes 16 / 48

Page 59: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Classificacao de textos & Naive Bayes 17 / 48

Page 60: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Classificacao de textos & Naive Bayes 17 / 48

Page 61: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Interpretacao:

Classificacao de textos & Naive Bayes 17 / 48

Page 62: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Interpretacao:

nd e o numero de tokens no documento d

Classificacao de textos & Naive Bayes 17 / 48

Page 63: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Interpretacao:

nd e o numero de tokens no documento d

Cada parametro condicional log P(tk |c) e um peso que indicao quao bom indicador o termo tk e para c

Classificacao de textos & Naive Bayes 17 / 48

Page 64: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Interpretacao:

nd e o numero de tokens no documento d

Cada parametro condicional log P(tk |c) e um peso que indicao quao bom indicador o termo tk e para c

A probabilidade a priori log P(c) e um peso que indica afrequencia relativa de c

Classificacao de textos & Naive Bayes 17 / 48

Page 65: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Interpretacao:

nd e o numero de tokens no documento d

Cada parametro condicional log P(tk |c) e um peso que indicao quao bom indicador o termo tk e para c

A probabilidade a priori log P(c) e um peso que indica afrequencia relativa de c

A soma do log de probabilidades e os pesos dos termos e entaouma medida de quanta evidencia ha para o documento ser daclasse c

Classificacao de textos & Naive Bayes 17 / 48

Page 66: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Classificador Naive Bayes

Regra de classificacao:

cmap = argmaxc∈C

[ log P(c) +∑

1≤k≤nd

log P(tk |c)]

Interpretacao:

nd e o numero de tokens no documento d

Cada parametro condicional log P(tk |c) e um peso que indicao quao bom indicador o termo tk e para c

A probabilidade a priori log P(c) e um peso que indica afrequencia relativa de c

A soma do log de probabilidades e os pesos dos termos e entaouma medida de quanta evidencia ha para o documento ser daclasse c

Selecionamos a classe com maior evidencia cMAP

Classificacao de textos & Naive Bayes 17 / 48

Page 67: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Classificacao de textos & Naive Bayes 18 / 48

Page 68: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Estimar parametros P(c) e P(tk |c) a partir dos dados detreino: como?

Classificacao de textos & Naive Bayes 18 / 48

Page 69: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Estimar parametros P(c) e P(tk |c) a partir dos dados detreino: como?

Prior:

P(c) =Nc

N

Classificacao de textos & Naive Bayes 18 / 48

Page 70: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Estimar parametros P(c) e P(tk |c) a partir dos dados detreino: como?

Prior:

P(c) =Nc

N

Nc : numero de docs na classe c ; N: numero total de docs

Classificacao de textos & Naive Bayes 18 / 48

Page 71: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Estimar parametros P(c) e P(tk |c) a partir dos dados detreino: como?

Prior:

P(c) =Nc

N

Nc : numero de docs na classe c ; N: numero total de docs

Probabilidades condicionais:

P(t|c) =Tc,t∑

t′∈V Tc,t′

Classificacao de textos & Naive Bayes 18 / 48

Page 72: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Estimar parametros P(c) e P(tk |c) a partir dos dados detreino: como?

Prior:

P(c) =Nc

N

Nc : numero de docs na classe c ; N: numero total de docs

Probabilidades condicionais:

P(t|c) =Tc,t∑

t′∈V Tc,t′

Tc,t e o numero de tokens de t nos documentos de treino daclasse c (inclui multiplas ocorrencias)

Classificacao de textos & Naive Bayes 18 / 48

Page 73: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Estimacao de parametros 1: maxima verossimilhanca

Estimar parametros P(c) e P(tk |c) a partir dos dados detreino: como?

Prior:

P(c) =Nc

N

Nc : numero de docs na classe c ; N: numero total de docs

Probabilidades condicionais:

P(t|c) =Tc,t∑

t′∈V Tc,t′

Tc,t e o numero de tokens de t nos documentos de treino daclasse c (inclui multiplas ocorrencias)

Usamos a premissa de independencia de Naive Bayes aqui:P(tk1 |c) = P(tk2 |c), independencia da posicao

Classificacao de textos & Naive Bayes 18 / 48

Page 74: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

O problema com estimativas de maxima verossimilhanca:

zeros

Classificacao de textos & Naive Bayes 19 / 48

Page 75: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

O problema com estimativas de maxima verossimilhanca:

zeros

C=China

X1=Beijing X2=e X3=Taipei X4=aderem X5=OMC

P(China|d) ∝ P(China) · P(Beijing|China) · P(e|China)

· P(Taipei|China) · P(aderem|China) · P(OMC|China)

Se OMC nunca ocorrer na classe China no conjunto detreinamento:

P(OMC|China) =TChina,OMC∑t′∈V TChina,t′

=0∑

t′∈V TChina,t′= 0

Classificacao de textos & Naive Bayes 19 / 48

Page 76: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

O problema com estimativas de maxima verossimilhanca:

zeros

C=China

X1=Beijing X2=e X3=Taipei X4=aderem X5=OMC

P(China|d) ∝ P(China) · P(Beijing|China) · P(e|China)

· P(Taipei|China) · P(aderem|China) · P(OMC|China)

Se OMC nunca ocorrer na classe China no conjunto detreinamento:

P(OMC|China) =TChina,OMC∑t′∈V TChina,t′

=0∑

t′∈V TChina,t′= 0

Classificacao de textos & Naive Bayes 19 / 48

Page 77: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Problema com estimativas de max. verossimilhanca: zeros

Se nao ha ocorrencias de OMC nos documentos na classeChina, temos uma estimativa:

P(OMC|China) =TChina,OMC∑t′∈V TChina,t′

= 0

Classificacao de textos & Naive Bayes 20 / 48

Page 78: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Problema com estimativas de max. verossimilhanca: zeros

Se nao ha ocorrencias de OMC nos documentos na classeChina, temos uma estimativa:

P(OMC|China) =TChina,OMC∑t′∈V TChina,t′

= 0

→ Teremos P(China|d) = 0 para qualquer documento quecontem OMC!

Classificacao de textos & Naive Bayes 20 / 48

Page 79: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Evitar zeros: suavizacao somar-um

Classificacao de textos & Naive Bayes 21 / 48

Page 80: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Evitar zeros: suavizacao somar-um

Antes:

P(t|c) =Tc,t∑

t′∈V Tc,t′

Classificacao de textos & Naive Bayes 21 / 48

Page 81: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Evitar zeros: suavizacao somar-um

Antes:

P(t|c) =Tc,t∑

t′∈V Tc,t′

Agora: somar um para cada contador para evitar zeros:

P(t|c) =Tc,t + 1∑

t′∈V (Tc,t′ + 1)=

Tc,t + 1

(∑

t′∈V Tc,t′) + B

Classificacao de textos & Naive Bayes 21 / 48

Page 82: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Evitar zeros: suavizacao somar-um

Antes:

P(t|c) =Tc,t∑

t′∈V Tc,t′

Agora: somar um para cada contador para evitar zeros:

P(t|c) =Tc,t + 1∑

t′∈V (Tc,t′ + 1)=

Tc,t + 1

(∑

t′∈V Tc,t′) + B

B = |V | e o tamanho do vocabulario

Classificacao de textos & Naive Bayes 21 / 48

Page 83: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Resumo: Naive Bayes

Classificacao de textos & Naive Bayes 22 / 48

Page 84: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Resumo: Naive Bayes

Estimar parametros do corpus de treino usando suavizacaosoma-um

Classificacao de textos & Naive Bayes 22 / 48

Page 85: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Resumo: Naive Bayes

Estimar parametros do corpus de treino usando suavizacaosoma-um

Para um novo documento, para cada classe, calcular a somade (i) log das probabilidades a priori e (ii) logs dasprobabilidades condicionais dos termos

Classificacao de textos & Naive Bayes 22 / 48

Page 86: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Resumo: Naive Bayes

Estimar parametros do corpus de treino usando suavizacaosoma-um

Para um novo documento, para cada classe, calcular a somade (i) log das probabilidades a priori e (ii) logs dasprobabilidades condicionais dos termos

Atribuir o documento para a classe com maior pontuacao

Classificacao de textos & Naive Bayes 22 / 48

Page 87: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: treino

Classificacao de textos & Naive Bayes 23 / 48

Page 88: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: treino

NB = Naive BayesTreinoMultinomialNB(C,D)1 V ← ExtrairVocabulario(D)2 N ← ContaDocs(D)3 for each c ∈ C

4 do Nc ← ContaDocsNaClasse(D, c)5 priori [c]← Nc/N6 textoc ← ConcatenaTextoTodosDocsNaClasse(D, c)7 for each t ∈ V

8 do Tc,t ← ContaTokensDeTermo(textoc , t)9 for each t ∈ V

10 do probcond [t][c]←Tc,t+1∑

t′(T

c,t′+1)

11 return V , priori , probcond

Classificacao de textos & Naive Bayes 23 / 48

Page 89: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: teste

Classificacao de textos & Naive Bayes 24 / 48

Page 90: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: teste

AplicarMultinomialNB(C,V , priori , probcond , d)1 W ← ExtrairTokensDeDoc(V , d)2 for each c ∈ C

3 do pontuacao[c]← log priori [c]4 for each t ∈W

5 do pontuacao[c]+ = log probcond [t][c]6 return argmaxc∈C pontuacao[c]

Classificacao de textos & Naive Bayes 24 / 48

Page 91: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exercıcio

docID palavras no documento em c = China?

conj. treino 1 Chines Beijing Chines sim2 Chines Chines Shanghai sim3 Chines Macao sim4 Toquio Japao Chines nao

conj. testes 5 Chines Chines Chines Toquio Japao ?

Estimar parametros do classificador de Naive BayesClassificar documentos de teste

Classificacao de textos & Naive Bayes 25 / 48

Page 92: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplo: estimacao de parametros

Classificacao de textos & Naive Bayes 26 / 48

Page 93: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplo: estimacao de parametros

Probabilidades a priori: P(c) = 3/4 e P(c) = 1/4Probabilidades condicionais:

P(Chines|c) = (5 + 1)/(8 + 6) = 6/14 = 3/7

P(Toquio|c) = P(Japao|c) = (0 + 1)/(8 + 6) = 1/14

P(Chines|c) = (1 + 1)/(3 + 6) = 2/9

P(Toquio|c) = P(Japao|c) = (1 + 1)/(3 + 6) = 2/9

Os denominadores sao (8 + 6) e (3 + 6) porque os tamanhos detextc e textc sao 8 e 3 e porque a constante B e 6 como ovocabulario consiste de seis termos

Classificacao de textos & Naive Bayes 26 / 48

Page 94: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplo: classificacao

Classificacao de textos & Naive Bayes 27 / 48

Page 95: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplo: classificacao

P(c |d5) ∝ 3/4 · (3/7)3 · 1/14 · 1/14 ≈ 0.0003

P(c |d5) ∝ 1/4 · (2/9)3 · 2/9 · 2/9 ≈ 0.0001

Entao o classificador atribui o documento de teste para classe c =China.A razao para essa decisao de classificacao e que as tres ocorrenciasdo indicador positivo Chines em d5 supera as ocorrencias de doisindicadores negativos Japao e Toquio.

Classificacao de textos & Naive Bayes 27 / 48

Page 96: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

Classificacao de textos & Naive Bayes 28 / 48

Page 97: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

modo complexidade de tempo

treino Θ(|D|Lave + |C||V |)teste Θ(La + |C|Ma) = Θ(|C|Ma)

Lave: tamanho medio de um documento de treino, La:tamanho de um documeto de teste, Ma: numero de termosdistintos no doc de teste D: conj. treino, V : vocabulario, C:conj. de classes

Classificacao de textos & Naive Bayes 28 / 48

Page 98: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

modo complexidade de tempo

treino Θ(|D|Lave + |C||V |)teste Θ(La + |C|Ma) = Θ(|C|Ma)

Lave: tamanho medio de um documento de treino, La:tamanho de um documeto de teste, Ma: numero de termosdistintos no doc de teste D: conj. treino, V : vocabulario, C:conj. de classesΘ(|D|Lave) e o tempo que leva para calcular todas ascontagens

Classificacao de textos & Naive Bayes 28 / 48

Page 99: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

modo complexidade de tempo

treino Θ(|D|Lave + |C||V |)teste Θ(La + |C|Ma) = Θ(|C|Ma)

Lave: tamanho medio de um documento de treino, La:tamanho de um documeto de teste, Ma: numero de termosdistintos no doc de teste D: conj. treino, V : vocabulario, C:conj. de classesΘ(|D|Lave) e o tempo que leva para calcular todas ascontagensΘ(|C||V |) e o tempo que leva para obter parametros from thecounts.

Classificacao de textos & Naive Bayes 28 / 48

Page 100: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

modo complexidade de tempo

treino Θ(|D|Lave + |C||V |)teste Θ(La + |C|Ma) = Θ(|C|Ma)

Lave: tamanho medio de um documento de treino, La:tamanho de um documeto de teste, Ma: numero de termosdistintos no doc de teste D: conj. treino, V : vocabulario, C:conj. de classesΘ(|D|Lave) e o tempo que leva para calcular todas ascontagensΘ(|C||V |) e o tempo que leva para obter parametros from thecounts.Geralmente : |C||V | < |D|Lave

Classificacao de textos & Naive Bayes 28 / 48

Page 101: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

modo complexidade de tempo

treino Θ(|D|Lave + |C||V |)teste Θ(La + |C|Ma) = Θ(|C|Ma)

Lave: tamanho medio de um documento de treino, La:tamanho de um documeto de teste, Ma: numero de termosdistintos no doc de teste D: conj. treino, V : vocabulario, C:conj. de classesΘ(|D|Lave) e o tempo que leva para calcular todas ascontagensΘ(|C||V |) e o tempo que leva para obter parametros from thecounts.Geralmente : |C||V | < |D|LaveTempo de teste tambem e linear (no tamanho para odocumento de teste)

Classificacao de textos & Naive Bayes 28 / 48

Page 102: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Complexidade de tempo de Naive Bayes

modo complexidade de tempo

treino Θ(|D|Lave + |C||V |)teste Θ(La + |C|Ma) = Θ(|C|Ma)

Lave: tamanho medio de um documento de treino, La:tamanho de um documeto de teste, Ma: numero de termosdistintos no doc de teste D: conj. treino, V : vocabulario, C:conj. de classesΘ(|D|Lave) e o tempo que leva para calcular todas ascontagensΘ(|C||V |) e o tempo que leva para obter parametros from thecounts.Geralmente : |C||V | < |D|LaveTempo de teste tambem e linear (no tamanho para odocumento de teste)Entao: Naive Bayes e linear no tamanho do conjunto de treinoe no documento de teste

Classificacao de textos & Naive Bayes 28 / 48

Page 103: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Outline

1 Classificacao de textos

2 Naive Bayes

3 Teoria de Naive Bayes

4 Avaliacao de classificacao de textos

Classificacao de textos & Naive Bayes 29 / 48

Page 104: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: analise

Classificacao de textos & Naive Bayes 30 / 48

Page 105: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: analise

Queremos ver melhor as propriedades de Naive Bayes.

Classificacao de textos & Naive Bayes 30 / 48

Page 106: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: analise

Queremos ver melhor as propriedades de Naive Bayes.

Derivaremos a regra de classificacao . . .

Classificacao de textos & Naive Bayes 30 / 48

Page 107: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes: analise

Queremos ver melhor as propriedades de Naive Bayes.

Derivaremos a regra de classificacao . . .

. . . e faremos as premissas explicitamente

Classificacao de textos & Naive Bayes 30 / 48

Page 108: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Derivacao da regra de Naive Bayes

Classificacao de textos & Naive Bayes 31 / 48

Page 109: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Derivacao da regra de Naive Bayes

Queremos encontrar a classe que e mais provavel para um dadodocumento:

cmap = argmaxc∈C

P(c |d)

Aplicar regra de Bayes P(A|B) = P(B|A)P(A)P(B) :

cmap = argmaxc∈C

P(d |c)P(c)

P(d)

Ignorar denominador uma vez que P(d) e igual para todas asclasses:

cmap = argmaxc∈C

P(d |c)P(c)

Classificacao de textos & Naive Bayes 31 / 48

Page 110: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Muitos parametros / esparsidade

cmap = argmaxc∈C

P(d |c)P(c)

= argmaxc∈C

P(〈t1, . . . , tk , . . . , tnd 〉|c)P(c)

Classificacao de textos & Naive Bayes 32 / 48

Page 111: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Muitos parametros / esparsidade

cmap = argmaxc∈C

P(d |c)P(c)

= argmaxc∈C

P(〈t1, . . . , tk , . . . , tnd 〉|c)P(c)

Ha muitos parametros P(〈t1, . . . , tk , . . . , tnd 〉|c), um paracada combinacao unica de uma classe e sequencia de palavras

Classificacao de textos & Naive Bayes 32 / 48

Page 112: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Muitos parametros / esparsidade

cmap = argmaxc∈C

P(d |c)P(c)

= argmaxc∈C

P(〈t1, . . . , tk , . . . , tnd 〉|c)P(c)

Ha muitos parametros P(〈t1, . . . , tk , . . . , tnd 〉|c), um paracada combinacao unica de uma classe e sequencia de palavras

Precisarıamos um numero muito grande de exemplos detreinamento para estimar esse numero de parametros.

Classificacao de textos & Naive Bayes 32 / 48

Page 113: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Muitos parametros / esparsidade

cmap = argmaxc∈C

P(d |c)P(c)

= argmaxc∈C

P(〈t1, . . . , tk , . . . , tnd 〉|c)P(c)

Ha muitos parametros P(〈t1, . . . , tk , . . . , tnd 〉|c), um paracada combinacao unica de uma classe e sequencia de palavras

Precisarıamos um numero muito grande de exemplos detreinamento para estimar esse numero de parametros.

Esse e o problema da esparsidade dos dados.

Classificacao de textos & Naive Bayes 32 / 48

Page 114: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Premissa da independencia condicional de Naive Bayes

Para reduzir o numero de parametros para um tamanho razoavel,usamos a premissa da independencia condicional de Naive Bayes:

P(d |c) = P(〈t1, . . . , tnd 〉|c) =∏

1≤k≤nd

P(Xk = tk |c)

Supomos que a probabilidade de observar a conjuncao de atributose igual ao produto de probabilidades individuais P(Xk = tk |c).obter de antes as estimativas para essas probabilidadescondicionais : P(t|c) =

Tc,t+1(∑

t′∈VTc,t′

)+B

Classificacao de textos & Naive Bayes 33 / 48

Page 115: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Modelos generativos

Classificacao de textos & Naive Bayes 34 / 48

Page 116: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Modelos generativos

C=China

X1=Beijing X2=e X3=Taipei X4=aderem X5=OMC

P(c |d) ∝ P(c)∏

1≤k≤ndP(tk |c)

Gerar uma classe com probabilidade P(c)

Classificacao de textos & Naive Bayes 34 / 48

Page 117: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Modelos generativos

C=China

X1=Beijing X2=e X3=Taipei X4=aderem X5=OMC

P(c |d) ∝ P(c)∏

1≤k≤ndP(tk |c)

Gerar uma classe com probabilidade P(c)

Gerar cada uma das palavras (nas suas respectivas posicoes ),condicional na classe, mas independente entre si , comprobabilidade P(tk |c)

Classificacao de textos & Naive Bayes 34 / 48

Page 118: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Modelos generativos

C=China

X1=Beijing X2=e X3=Taipei X4=aderem X5=OMC

P(c |d) ∝ P(c)∏

1≤k≤ndP(tk |c)

Gerar uma classe com probabilidade P(c)

Gerar cada uma das palavras (nas suas respectivas posicoes ),condicional na classe, mas independente entre si , comprobabilidade P(tk |c)

Para classificar docs, “reprojetamos” esse processo eencontramos a classe que e mais provavel de ter gerado odocumento.

Classificacao de textos & Naive Bayes 34 / 48

Page 119: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Segunda premissa de independencia

Classificacao de textos & Naive Bayes 35 / 48

Page 120: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Segunda premissa de independencia

P(Xk1 = t|c) = P(Xk2 = t|c)

Classificacao de textos & Naive Bayes 35 / 48

Page 121: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Segunda premissa de independencia

P(Xk1 = t|c) = P(Xk2 = t|c)

Por exemplo, para um documento na classe Inglaterra, aprobabilidade de ter rainha na primeira posicao dodocumento e a mesma de ter na ultima posicao

Classificacao de textos & Naive Bayes 35 / 48

Page 122: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Segunda premissa de independencia

P(Xk1 = t|c) = P(Xk2 = t|c)

Por exemplo, para um documento na classe Inglaterra, aprobabilidade de ter rainha na primeira posicao dodocumento e a mesma de ter na ultima posicao

As duas premissas de independencia nos leva ao modelo decolecao de palavras.

Classificacao de textos & Naive Bayes 35 / 48

Page 123: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Um modelo de Naive Bayes: modelo de Bernoulli

UAlaska=0 UBeijing=1 U India=0 Uaderem=1 UTaipei=1 UOMC=1

C=China

Classificacao de textos & Naive Bayes 36 / 48

Page 124: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Violacao das premissas de independencia de Naive Bayes

Classificacao de textos & Naive Bayes 37 / 48

Page 125: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Violacao das premissas de independencia de Naive Bayes

Independencia condicional:

P(〈t1, . . . , tnd 〉|c) =∏

1≤k≤nd

P(Xk = tk |c)

Classificacao de textos & Naive Bayes 37 / 48

Page 126: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Violacao das premissas de independencia de Naive Bayes

Independencia condicional:

P(〈t1, . . . , tnd 〉|c) =∏

1≤k≤nd

P(Xk = tk |c)

Independencia posicional:

Classificacao de textos & Naive Bayes 37 / 48

Page 127: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Violacao das premissas de independencia de Naive Bayes

Independencia condicional:

P(〈t1, . . . , tnd 〉|c) =∏

1≤k≤nd

P(Xk = tk |c)

Independencia posicional:

P(Xk1 = t|c) = P(Xk2 = t|c)

Classificacao de textos & Naive Bayes 37 / 48

Page 128: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Violacao das premissas de independencia de Naive Bayes

Independencia condicional:

P(〈t1, . . . , tnd 〉|c) =∏

1≤k≤nd

P(Xk = tk |c)

Independencia posicional:

P(Xk1 = t|c) = P(Xk2 = t|c)

As premissas de independencia nao sao realmente verificadasem documentos escritos em linguagem natural

Classificacao de textos & Naive Bayes 37 / 48

Page 129: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Violacao das premissas de independencia de Naive Bayes

Independencia condicional:

P(〈t1, . . . , tnd 〉|c) =∏

1≤k≤nd

P(Xk = tk |c)

Independencia posicional:

P(Xk1 = t|c) = P(Xk2 = t|c)

As premissas de independencia nao sao realmente verificadasem documentos escritos em linguagem natural

Como e possıvel Naive Bayes funcionar se essas premissas naosao apropriadas?

Classificacao de textos & Naive Bayes 37 / 48

Page 130: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Porque Naive Bayes funciona?

Naive Bayes pode funcionar bem apesar das premissas deindependencia nao serem respeitadas

Classificacao de textos & Naive Bayes 38 / 48

Page 131: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Porque Naive Bayes funciona?

Naive Bayes pode funcionar bem apesar das premissas deindependencia nao serem respeitadasExemplo:

c1 c2 classe escolhida

prob. verdadeira P(c |d) 0.6 0.4 c1

P(c)∏

1≤k≤ndP(tk |c) 0.00099 0.00001

estimativa NB P(c |d) 0.99 0.01 c1

Classificacao de textos & Naive Bayes 38 / 48

Page 132: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Porque Naive Bayes funciona?

Naive Bayes pode funcionar bem apesar das premissas deindependencia nao serem respeitadasExemplo:

c1 c2 classe escolhida

prob. verdadeira P(c |d) 0.6 0.4 c1

P(c)∏

1≤k≤ndP(tk |c) 0.00099 0.00001

estimativa NB P(c |d) 0.99 0.01 c1Contagem duplicada de evidencia causa subestimacao (0.01) esuperestimacao (0.99).

Classificacao de textos & Naive Bayes 38 / 48

Page 133: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Porque Naive Bayes funciona?

Naive Bayes pode funcionar bem apesar das premissas deindependencia nao serem respeitadasExemplo:

c1 c2 classe escolhida

prob. verdadeira P(c |d) 0.6 0.4 c1

P(c)∏

1≤k≤ndP(tk |c) 0.00099 0.00001

estimativa NB P(c |d) 0.99 0.01 c1Contagem duplicada de evidencia causa subestimacao (0.01) esuperestimacao (0.99).Classificacao deve predizar a classe e nao necessariamente asprobabilidades

Classificacao de textos & Naive Bayes 38 / 48

Page 134: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Porque Naive Bayes funciona?

Naive Bayes pode funcionar bem apesar das premissas deindependencia nao serem respeitadasExemplo:

c1 c2 classe escolhida

prob. verdadeira P(c |d) 0.6 0.4 c1

P(c)∏

1≤k≤ndP(tk |c) 0.00099 0.00001

estimativa NB P(c |d) 0.99 0.01 c1Contagem duplicada de evidencia causa subestimacao (0.01) esuperestimacao (0.99).Classificacao deve predizar a classe e nao necessariamente asprobabilidadesNaive Bayes e horrıvel para estimacao as probabilidades . . .

Classificacao de textos & Naive Bayes 38 / 48

Page 135: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Porque Naive Bayes funciona?

Naive Bayes pode funcionar bem apesar das premissas deindependencia nao serem respeitadasExemplo:

c1 c2 classe escolhida

prob. verdadeira P(c |d) 0.6 0.4 c1

P(c)∏

1≤k≤ndP(tk |c) 0.00099 0.00001

estimativa NB P(c |d) 0.99 0.01 c1Contagem duplicada de evidencia causa subestimacao (0.01) esuperestimacao (0.99).Classificacao deve predizar a classe e nao necessariamente asprobabilidadesNaive Bayes e horrıvel para estimacao as probabilidades . . .. . . mas funciona bem para predicao de classes

Classificacao de textos & Naive Bayes 38 / 48

Page 136: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)

Classificacao de textos & Naive Bayes 39 / 48

Page 137: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexos

Classificacao de textos & Naive Bayes 39 / 48

Page 138: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexosMais robusto para mudanca de conceitos (alteracao dedefinicao de classe com o tempo) que metodos maiscomplexos

Classificacao de textos & Naive Bayes 39 / 48

Page 139: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexosMais robusto para mudanca de conceitos (alteracao dedefinicao de classe com o tempo) que metodos maiscomplexosMelhor que metodos como arvores de decisao quando temosmuitos atributos igualmente importantes

Classificacao de textos & Naive Bayes 39 / 48

Page 140: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexosMais robusto para mudanca de conceitos (alteracao dedefinicao de classe com o tempo) que metodos maiscomplexosMelhor que metodos como arvores de decisao quando temosmuitos atributos igualmente importantesUm bom nıvel de desempenho para classificacao de textos(mas nao o melhor)

Classificacao de textos & Naive Bayes 39 / 48

Page 141: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexosMais robusto para mudanca de conceitos (alteracao dedefinicao de classe com o tempo) que metodos maiscomplexosMelhor que metodos como arvores de decisao quando temosmuitos atributos igualmente importantesUm bom nıvel de desempenho para classificacao de textos(mas nao o melhor)Otimo se premissas de independencia forem verdadeiras(nunca verdade para textos, mas verdade para algunsdomınios)

Classificacao de textos & Naive Bayes 39 / 48

Page 142: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexosMais robusto para mudanca de conceitos (alteracao dedefinicao de classe com o tempo) que metodos maiscomplexosMelhor que metodos como arvores de decisao quando temosmuitos atributos igualmente importantesUm bom nıvel de desempenho para classificacao de textos(mas nao o melhor)Otimo se premissas de independencia forem verdadeiras(nunca verdade para textos, mas verdade para algunsdomınios)Muito rapido

Classificacao de textos & Naive Bayes 39 / 48

Page 143: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes funciona bem

Naive Bayes tem sido aplicado em competicoes (e.g.,KDD-CUP 97)Mais robusto para termos nao relevantes que metodos maiscomplexosMais robusto para mudanca de conceitos (alteracao dedefinicao de classe com o tempo) que metodos maiscomplexosMelhor que metodos como arvores de decisao quando temosmuitos atributos igualmente importantesUm bom nıvel de desempenho para classificacao de textos(mas nao o melhor)Otimo se premissas de independencia forem verdadeiras(nunca verdade para textos, mas verdade para algunsdomınios)Muito rapidoBaixos requisitos de armazenamento

Classificacao de textos & Naive Bayes 39 / 48

Page 144: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Outline

1 Classificacao de textos

2 Naive Bayes

3 Teoria de Naive Bayes

4 Avaliacao de classificacao de textos

Classificacao de textos & Naive Bayes 40 / 48

Page 145: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Avaliacao no corpus Reuters

classes:

conj.treino:

conj.teste:

regioes industrias interesses

γ(d ′) =China

primeira

privada

Chines

cia aerea

Inglaterra China aves cafe eleicoes esportes

Londres

trafego

Big Ben

Parlamento

a Rainha

Windsor

Beijing

Olimpıadas

Muralha

turismo

comunismo

Mao

frango

alimento

patos

pate

gripe

aviaria

graos

torragem

robusta

arabica

colheita

Quenia

votos

recontagem

2o turno

cargo

campanha

comerciais

baseball

campo

futebol

ataque

capitao

time

d ′

Classificacao de textos & Naive Bayes 41 / 48

Page 146: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplo: Corpus Reuters

sımbolo estatıstica valor

N documentos 800,000L media. # tokens por documento 200M palavras 400,000

Classificacao de textos & Naive Bayes 42 / 48

Page 147: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Exemplo: Corpus Reuters

sımbolo estatıstica valor

N documentos 800,000L media. # tokens por documento 200M palavras 400,000

tipo de classe numero exemplos

regiao 366 Inglaterra, Chinaindustria 870 aves, cafeinteresses 126 eleicoes, esportes

Classificacao de textos & Naive Bayes 42 / 48

Page 148: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Um documento do corpus Reuters

Classificacao de textos & Naive Bayes 43 / 48

Page 149: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Um documento do corpus Reuters

Classificacao de textos & Naive Bayes 43 / 48

Page 150: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Avaliando classificacao

Classificacao de textos & Naive Bayes 44 / 48

Page 151: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Avaliando classificacao

Avaliacao precisa ser feita em conjunto de testes que sejaindependente dos dados de treino , i.e., conjuntos de treino eteste sao disjuntos

Classificacao de textos & Naive Bayes 44 / 48

Page 152: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Avaliando classificacao

Avaliacao precisa ser feita em conjunto de testes que sejaindependente dos dados de treino , i.e., conjuntos de treino eteste sao disjuntos

Facil obter bom desempenho em um conjunto de teste queestava disponıvel durante o treino.

Classificacao de textos & Naive Bayes 44 / 48

Page 153: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Avaliando classificacao

Avaliacao precisa ser feita em conjunto de testes que sejaindependente dos dados de treino , i.e., conjuntos de treino eteste sao disjuntos

Facil obter bom desempenho em um conjunto de teste queestava disponıvel durante o treino.

Medidas: Precisao, recuperacao, F1, acuracia de classificacao

Classificacao de textos & Naive Bayes 44 / 48

Page 154: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Precisao P and recuperacao R

na classe nao na classepredito como estar na classe verd. positivos (VP) falso positives (FP)predito como nao estar classe falso negativos (FN) verd. negativos (VN)

TP, FP, FN, TN sao contagens de documentos. A soma dosquatro numeros e igual ao numero de documentos

precisao:P = TP/(TP + FP)

recuperacao:R = TP/(TP + FN)

Classificacao de textos & Naive Bayes 45 / 48

Page 155: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Uma medida combinada : F

F1 equilibrar taxa de precisao e recuperacao

Classificacao de textos & Naive Bayes 46 / 48

Page 156: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Uma medida combinada : F

F1 equilibrar taxa de precisao e recuperacao

F1 =1

121P+ 1

21R

=2PR

P + R

Classificacao de textos & Naive Bayes 46 / 48

Page 157: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Uma medida combinada : F

F1 equilibrar taxa de precisao e recuperacao

F1 =1

121P+ 1

21R

=2PR

P + R

Media de P e R : 1F= 1

2(1P+ 1

R)

Classificacao de textos & Naive Bayes 46 / 48

Page 158: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Classificacao de textos & Naive Bayes 47 / 48

Page 159: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Classificacao de textos & Naive Bayes 47 / 48

Page 160: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Classificacao de textos & Naive Bayes 47 / 48

Page 161: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Classificacao de textos & Naive Bayes 47 / 48

Page 162: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Calcular F1 para cada uma das classes em C

Classificacao de textos & Naive Bayes 47 / 48

Page 163: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Calcular F1 para cada uma das classes em C

Medias desses F1 para cada classe C

Classificacao de textos & Naive Bayes 47 / 48

Page 164: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Calcular F1 para cada uma das classes em C

Medias desses F1 para cada classe C

Micro-media

Classificacao de textos & Naive Bayes 47 / 48

Page 165: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Calcular F1 para cada uma das classes em C

Medias desses F1 para cada classe C

Micro-media

Computar TP, FP, FN para cada classe de C

Classificacao de textos & Naive Bayes 47 / 48

Page 166: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Calcular F1 para cada uma das classes em C

Medias desses F1 para cada classe C

Micro-media

Computar TP, FP, FN para cada classe de C

Somar esses C numeros (e.g., todos os TP sao somados)

Classificacao de textos & Naive Bayes 47 / 48

Page 167: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Media: Micro vs. Macro

Agora temos uma medida de avaliacao (F1) para uma classe.

Mas tambem queremos um numero unico que mede odesempenho agregado sobre todas as classes na colecao

Macro-media

Calcular F1 para cada uma das classes em C

Medias desses F1 para cada classe C

Micro-media

Computar TP, FP, FN para cada classe de C

Somar esses C numeros (e.g., todos os TP sao somados)Computar F1 para os TP, FP, FN somados

Classificacao de textos & Naive Bayes 47 / 48

Page 168: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes vs. outros metodos

(a) NB Rocchio kNN SVMmicro-media-L (90 classes) 80 85 86 89macro-media (90 classes) 47 59 60 60

(b) NB Rocchio kNN arvores SVMearn 96 93 97 98 98acq 88 65 92 90 94money-fx 57 47 78 66 75grain 79 68 82 85 95crude 80 70 86 85 89trade 64 65 77 73 76interest 65 63 74 67 78ship 85 49 79 74 86wheat 70 69 77 93 92corn 65 48 78 92 90micro-media(top 10) 82 65 82 88 92micro-media-D (118 classes) 75 62 n/a n/a 87

Medida de avaliacao: F1

Classificacao de textos & Naive Bayes 48 / 48

Page 169: Organização e Recuperação de Informação: Classificação de textos …albertini/1sem2013/ori/slides/13bayes... · 2013-08-29 · Classifica¸c˜ao de textos Naive Bayes Teoria

Classificacao de textos Naive Bayes Teoria de Naive Bayes Avaliacao de classificacao de textos

Naive Bayes vs. outros metodos

(a) NB Rocchio kNN SVMmicro-media-L (90 classes) 80 85 86 89macro-media (90 classes) 47 59 60 60

(b) NB Rocchio kNN arvores SVMearn 96 93 97 98 98acq 88 65 92 90 94money-fx 57 47 78 66 75grain 79 68 82 85 95crude 80 70 86 85 89trade 64 65 77 73 76interest 65 63 74 67 78ship 85 49 79 74 86wheat 70 69 77 93 92corn 65 48 78 92 90micro-media(top 10) 82 65 82 88 92micro-media-D (118 classes) 75 62 n/a n/a 87

Medida de avaliacao: F1Naive Bayes funciona bem, mas alguns metodos sao consistentemente melhores (e.g., SVM).

Classificacao de textos & Naive Bayes 48 / 48