CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de...

26
CIn/UFPE 1 Classificação de Textos

Transcript of CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de...

Page 1: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

CIn/UFPE 1

Classificação de Textos

Page 2: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

2

RoteiroIntroduçãoAbordagem ManualAbordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade Algoritmos Avaliação

Referências

Page 3: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

3

Classificação de TextoDefinição: atribuição de uma ou mais classes pré-

definidas aos documentos de textoExemplos: E-mail a ser classificado como SPAM ou

NÃO-SPAMObjetivos: Organizar os documentos Facilitar a sua busca automática

Page 4: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

4

AplicaçõesClassificação e indexação de documentos Ex.: Categorização de páginas Web

Sistemas de recomendação e filtragem Ex.: Filtros de spam

Sistemas de extração de informação Ex.: Extração em referências bibliográficas

etc…

Page 5: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

5

AbordagensClassificação Manual: Leitura dos documentos por um

especialistaConstrução Manual do Classificador: Sistemas baseados em conhecimento

Base de Regras escrita manualmente

Construção Automática do Classificador: Algoritmos de Aprendizagem de Máquina

Page 6: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

6

Sistemas Baseados em Conhecimento

Componentes básicos: Base de conhecimento Máquina de Inferência (ex.: JEOPS)

Testese

Validação

Nível deConhecimento

Aquisiçãodo

Conhecimento

Nível Lógico

Formulaçãoda Base de

Conhecimento

Nível deImplementação

Construçãoda Base de

Conhecimento

Page 7: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

7

Base de Conhecimento: Regras de Produção

Exemplo: Regras para o reconhecimento de um

bloco de citação em uma página de publicação (CitationFinder)

SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

Sistemas Baseados em Conhecimento

Page 8: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

8

Prós e Contras de ClassificadoresBaseados em Conhecimento

PRÓS:Melhor desempenho

Em especial, em sistemas integrados a extratores

Vantagens de soluções declarativas

Melhor legibilidade Conhecimento pode

ser comunicado entre agentes

Extensibildade

CONTRAS:Requerem um extensivo esforço para criar bases de conhecimentos

Processo custoso e lento

Pouco reuso Exceto em ontologias Normalmente, todo o

processo de engenharia de conhecimento é repetido a cada novo domínio

Page 9: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

9

Abordagem de Aprendizado de Máquina

Classificador gerado automaticamente através da apresentação de textos

previamente classificados ao algoritmo de aprendizado

Refinamento do processo de aprendizado pelo desenvolvedor

Classificador(ex.: conjunto

de regras)

Textos classificados (etiquetados)- Dados detreinamento

Algoritmo Avaliação

Page 10: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

Abordagem de Aprendizado de Máquina

Representação

Representação dos documentos(e.g. lista de termos)

Redução da dimensionalidade

Seleção ou extração de características

Aprendizado

TextosEtiquetados

Indução do classificador

Classificador

Corpus de treinamento

Page 11: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

11

Representação de TextosExemplo de treinamento corresponde a um texto etiquetado (previamente classificado)Textos devem ser representados através de características apropriadasAbordagens para representação Bag of Words (com TF-IDF) Características do domínio Características linguísticas

Page 12: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

12

Representação de Textos

Bag of Words (com TF-IDF) Lista de termos presentes no corpus de

treinamento associados a pesos Pesos definidos comumente com TF-IDF

IDF estimado através da freqüência dos termos no corpus de treinamento

Alguns trabalhos usam somente TF Recomenda-se eliminação de stopwords

e aplicação de stemming

Page 13: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

13

Representação de TextosCaracterísticas do domínio Ex.: termos de um vocabulário

controlado, padrões de formatação, expressões regulares,...

Características lingüísticas Ex.: substantivos, sintagmas nominais,

nomes próprios,...

Page 14: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

14

Redução de DimensionalidadeObservações importantes: Mesmo para uma base pequena de

documentos, o número de características distintas pode ser muito alto

Alta dimensão de atributos prejudicar desempenho de certos algoritmos e torna aprendizado menos eficiente

Abordagens Seleção de Atributos Extração de Atributos

Page 15: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

15

Redução de DimensionalidadeSeleção de Atributos Seleção de subconjunto de termos relevantes

dentre os termos existentes Wrappers e Filtros

Vantagem: preserva as dimensões originaisExtração de Atributos Criação de atributos através de combinações

numéricas dos atributos existentes Ex.: LSI, PCA, ICA,....

Vantagem: bom desempenho com número pequeno de dimensões

Page 16: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

16

Redução de DimensionalidadeSeleção de Atributos

Abordagem de Filtros Ordenam atributos através de critérios de

relevância Ex.: Information Gain, Correlação, Chi-

Quadrado, Mutual Information

Abordagem de Wrappers Buscam subconjuntos de atributos que

maximizam precisão do classificador Ex.: Forward-selection e Backward-elimination

Bom desempenho, porém com custo alto

Page 17: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

17

Aprendizado de MáquinaAlgoritmos

Grande número de algoritmos pode ser aplicado ao problema de classificação de textoAlgoritmos freqüentemente usados na literatura Naive Bayes kNN Árvores de Decisão Redes Neurais Artificiais

Page 18: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

18

Aprendizado de Máquina Naive Bayes

Estima probabilidades das classes dados os valores de atributos E combina essas probabilidades para

gerar classificações de novos exemplosVantagens: Treinamento rápido e pouca

sensibilidade a atributos irrelevantesDesvantagens: Sensibilidade a atributos redundantes Assume independência dos atributos

Page 19: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

19

Aprendizado de Máquina kNN

Gera classificações para novos exemplos a partir das classes definidas em exemplos similaresVantagens: Treinamento muito rápido Podem ter bom desempenho mesmo com

um número pequeno de exemplosDesvantagens: Sensibilidade a atributos irrelevantes Classificação de novos exemplos pode ser

lenta

Page 20: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

20

Aprendizado de Máquina Árvores de Decisão

Nós de decisão que recorrentemente maximizam a separação de exemplos de classes diferentesVantagens: Têm mecanismo interno de seleção de

atributos Conhecimento fácil de interpretar

Desvantagens: Treinamento lento comparado, por

exemplo, a kNN e Naive Bayes

Page 21: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

21

Aprendizado de Máquina Redes Neurais Artificiais

Conjunto de unidades conectadas entre si através de pesos numéricos Camada de entrada recebe valores dos atributos e Camada de saída estima valores das classes

Vantagens: Bom desempenho comparados a outros algoritmos

Desvantagens: Treinamento lento Necessidade de estimação de parâmetros

como tamanho da arquitetura e taxas de aprendizado

Page 22: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

22

Avaliação de Classificadores Hold-Out

Defina uma amostra de textos para treinamento dos algoritmos e outra amostra para teste do classificador geradoEm alguns casos, definir um conjunto de validação para estimar parâmetros dos algoritmos durante treinamento

Page 23: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

23

Avaliação de Classificadores Validação Cruzada K-Fold

O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e

validaçãoIterativo A parte selecionada para testes é trocada

até que todas tenham sido escolhidas

Page 24: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

24

Avaliação de Classificadores Validação Cruzada K-Fold

Conjunto de exemplos

Page 25: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

25

Conclusões - TendênciasRepresentação de Textos e Redução de DimensionalidadeAlgoritmos Support Vector MachinesAprendizagem Ativa para Classificação de TextoCombinação de Classificadores

Page 26: CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade.

26

ReferênciasSebastiani, F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002.