CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros...

23
CIn/UFPE 1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE

Transcript of CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros...

Page 1: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 1

Categorização de Documentos e Preparação de Dados

Mariana Lara NevesFlávia Barros (participação mínima)

CIn/UFPE

Page 2: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 2

RoteiroIntroduçãoCategorização de DocumentosConstrução Manual do ClassificadorConstrução Automática do ClassificadorComparação das AbordagensReferências

Page 3: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 3

Categorização de DocumentosDefinição: atribuição de uma ou mais classes pré-

definidas aos documentos

Objetivos: Organizar os documentos Facilitar a sua busca automática

Page 4: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 4

Categorização de DocumentosDocumentos

Classe 1

Classe 2

Classe 3

Page 5: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 5

Categorização de DocumentosClassificação Manual: Leitura dos documentos por um

especialista

Construção Manual do Classificador: Sistemas baseados em conhecimento

Base de Regras escrita manualmente

Construção Automática do Classificador: Algoritmos de aprendizagem automática

Page 6: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 6

Construção do ClassificadorConjunto de treinamento: Aquisição do conhecimento ou

Treinamento do algoritmo Ajuste do sistema

Conjunto de teste: Diferente do conjunto de treinamento Avaliação do desempenho do sistema

Page 7: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 7

Construção Manual do Classificador

Sistema baseado em Conhecimento: Base de conhecimento Máquina de Inferência (ex.: JEOPS)

Testese

Validação

Nível deConhecimento

Aquisiçãodo

Conhecimento

Nível Lógico

Formulaçãoda Base de

Conhecimento

Nível deImplementação

Construçãoda Base de

Conhecimento

Page 8: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 8

Base de Conhecimento: Regras de Produção

Exemplo: Regras para o reconhecimento de um

bloco de citação em uma página de publicação (CitationFinder)

Construção Manual do Classificador

SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

Page 9: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 9

Construção Automática do Classificador

Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento.

Ajuste dos resultados pelo desenvolvedor

Dados classificadosDados de

treinamentoClassificador Comparador

Page 10: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 10

Construção Automática do Classificador

DocumentosRepresentação Inicial

Redução da Dimensãoou

Seleção de Termos

Representação FinalIndução

ConhecimentoAdicional

Categorização

Page 11: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 11

Representação Inicial dos Documentos

Pré-processamento Selecionar termos que vão representar o

documento Stoplist, stemming, thesaurus, termos

compostos, ... Associar pesos aos termos

Pesos booleanos, pesos com freqüência de ocorrência, TF-IDF, TF-IDF normalizado, considerar formatação do texto, ...

Page 12: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 12

Representação Inicial dos Documentos

Montar uma tabela (matriz) onde: linhas indicam os termos que ocorrem

no conjunto de documentos colunas indicam o número dos

documentos do conjunto O elemento tij indica o peso do termo i

para o documento j O centróide do documento j é facilmente extraído dessa matriz Coluna j !!!

Page 13: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 13

Redução da Dimensão da Representação Inicial

Objetivo: Reduzir o tamanho dos centróides para

diminuir o risco de super-especialização do classificador gerado (overfitting)

Abordagens: Seleção de um subconjunto de termos Indução Construtiva

Tipos de Redução: Global: considera um conjunto de termos para

todas as classes Local: considera um conjunto de termos para

cada classes

Page 14: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 14

Seleção dos TermosCada termo recebe uma “relevância”, que é usada para ordenar a lista de termosOs “n” primeiros termos mais relevantes são utilizados para treinar o algoritmoVárias técnicas: Freqüência de ocorrência nos documentos

Redução global A relevância do termo é dada pela sua

freqüência de ocorrência no conjunto de documentos

Outras (redução local) Entropia, Coeficiente de Correlação, χ2 , ...

Page 15: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 15

Seleção dos Termos: Entropia (mutual information)

A relevância do termo Wi para a classe Cj é medida pela diferença de entropia dessa classe antes e depois do uso desse termo na sua predição

c

jjj CPCPH

12 )(log)(

c

jijij WCPWCPH

12 )|(log)|('

(incerteza inicial)

(incerteza final)

HHE ' (qtd. de incerteza removida)

Page 16: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 16

Seleção dos Termos: Coeficiente de Correlação

Coeficiente de Correlação entre o termo t e a classe Cj :

)()()()()(

nrnrnnrr

nrnr

NNNNNNNNNNNNNC

Nr+ = documentos relevantes para Cj que contêm o termo tNr- = documentos relevantes para Cj que não contêm t

Nn- = documentos não relevantes para Cj que não contêm tNn+ = documentos não relevantes para Cj que contêm t

χ2:mede a dependência entre um termo t e a classe Cj

22 C

Page 17: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 17

Indução ConstrutivaObjetivo: Obter novos termos (pela combinação dos termos

originais) que maximizem a precisão dos resultadosClustering: Técnica usada para agrupar termos originais de

acordo com o grau de relacionamento semântico entre eles O relacionamento pode ser dado, por exemplo, pela

co-ocorrência dos termos no conjunto de treinamento Cada cluster gerado passa a ser usado como um

novo “termo” Assim, termos redundantes são removidos

Page 18: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 18

Abordagem Simbólica: Árvores de Decisão Indução de Regras

Abordagem Numérica: Aprendizagem Bayesiana Redes Neurais Artificiais Aprendizagem Baseada em Instâncias

Construção Automática de Classificadores

Page 19: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 19

Comparação das Abordagens Tempo

de Trein. Tempo de Class.

Sistema Extens.

Interp. do Resul

Repr. do Conhec.

Regras Manuais Lento Rápido Sim Sim Simb.

(regras) Árvores de Decisão Rápido Rápido Não Razoável Simb.

(árvore) Indução de Regras Rápido Rápido Não Sim Simb.

(regras)

Page 20: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 20

Comparação das Abordagens Tempo

de Trein. Tempo de Class.

Sistema Extens.

Interp. do Resul

Repr. do Conhec.

Apr. Bas. Instâncias - Lento Não Não Num.

(distân.) Aprendiz. Bayesiana Rápido Rápido Não Não Num.

(probab.) Redes Neurais Lento Rápido Não Não Num.

(pesos)

Page 21: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 21

ReferênciasCategorização de Documentos:

Sebastiani, F. A Tutorial on Automated Text Categorization. Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp. 7-35. 1999.

Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March 1996.

Sistemas Baseados em Conhecimento: Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for

Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp. 48-64. 1990.

Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.

Page 22: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 22

ReferênciasAprendizagem de Máquina: Aprendizagem Bayesiana (Naive Bayes): McCallum, A. K.; Nigam, K.; Rennie, J. & Seymore, K. Automating

the Construction of Internet Portals with Machine Learning. Information Retrieval Journal, volume 3, pages 127-163. 2000.

Redes Neurais: Wiener, E.; Pedersen, J. O. & Weigend, A. S. A Neural Network

Approach to Topic Spotting. In Proceedings of the 4th Symposium on Document Analysis and Information Retrieval (SDAIR 95), pages 317-332, Las Vegas, NV, USA, April 24-26. 1995.

Aprendizagem Baseada em Instâncias: Masand, B; Linoff, G. & Waltz, D. Classifying News Stories using

Memory Based Reasoning. Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval, pp. 59-65, Denmark. 1992.

Page 23: CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

CIn/UFPE 23

ReferênciasAprendizagem de Máquina (cont.): Árvores de Decisão: Lewis, D. D. & Ringuette, M. A Comparison of Two Learning Algorithms

for Text Categorization. In Third Annual Symposium on Document Analysis and Information Retrieval, pp. 81-93. 1994.

Indução de Regras: Apté, C.; Damerau, F. & Weiss, S. Automated Learning of Decision Rules

for Text Categorization. ACM Transactions on Information Systems, Vol. 12, No. 3, July 1994, pages 233-151. 1994.

Seleção de Termos: Ng, H. T.; Goh, W. B. & Low, K. L. Feature Selection, Perceptron learning

and a Usability Case Study for Text Categorization. Proceedings of SIGIR-97, 20th ACM International Conference on Research and Development in Information Retrieval, pp. 67-73, Philadelphia, PA, USA. 1997.

Maron, M. E. Automatic Indexing: An Experimental Inquiry. Journal of ACM, 8: 404-417. 1961.