CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de...
-
Upload
luiz-gustavo-canto-morais -
Category
Documents
-
view
215 -
download
1
Transcript of CIn/UFPE1 Classificação de Textos. 2 Roteiro Introdução Abordagem Manual Abordagem de...
CIn/UFPE 1
Classificação de Textos
2
RoteiroIntroduçãoAbordagem ManualAbordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade Algoritmos Avaliação
Referências
3
Classificação de TextoDefinição: atribuição de uma ou mais classes pré-
definidas aos documentos de textoExemplos: E-mail a ser classificado como SPAM ou
NÃO-SPAMObjetivos: Organizar os documentos Facilitar a sua busca automática
4
AplicaçõesClassificação e indexação de documentos Ex.: Categorização de páginas Web
Sistemas de recomendação e filtragem Ex.: Filtros de spam
Sistemas de extração de informação Ex.: Extração em referências bibliográficas
etc…
5
AbordagensClassificação Manual: Leitura dos documentos por um
especialistaConstrução Manual do Classificador: Sistemas baseados em conhecimento
Base de Regras escrita manualmente
Construção Automática do Classificador: Algoritmos de Aprendizagem de Máquina
6
Sistemas Baseados em Conhecimento
Componentes básicos: Base de conhecimento Máquina de Inferência (ex.: JEOPS)
Testese
Validação
Nível deConhecimento
Aquisiçãodo
Conhecimento
Nível Lógico
Formulaçãoda Base de
Conhecimento
Nível deImplementação
Construçãoda Base de
Conhecimento
7
Base de Conhecimento: Regras de Produção
Exemplo: Regras para o reconhecimento de um
bloco de citação em uma página de publicação (CitationFinder)
SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)
Sistemas Baseados em Conhecimento
8
Prós e Contras de ClassificadoresBaseados em Conhecimento
PRÓS:Melhor desempenho
Em especial, em sistemas integrados a extratores
Vantagens de soluções declarativas
Melhor legibilidade Conhecimento pode
ser comunicado entre agentes
Extensibildade
CONTRAS:Requerem um extensivo esforço para criar bases de conhecimentos
Processo custoso e lento
Pouco reuso Exceto em ontologias Normalmente, todo o
processo de engenharia de conhecimento é repetido a cada novo domínio
9
Abordagem de Aprendizado de Máquina
Classificador gerado automaticamente através da apresentação de textos
previamente classificados ao algoritmo de aprendizado
Refinamento do processo de aprendizado pelo desenvolvedor
Classificador(ex.: conjunto
de regras)
Textos classificados (etiquetados)- Dados detreinamento
Algoritmo Avaliação
Abordagem de Aprendizado de Máquina
Representação
Representação dos documentos(e.g. lista de termos)
Redução da dimensionalidade
Seleção ou extração de características
Aprendizado
TextosEtiquetados
Indução do classificador
Classificador
Corpus de treinamento
11
Representação de TextosExemplo de treinamento corresponde a um texto etiquetado (previamente classificado)Textos devem ser representados através de características apropriadasAbordagens para representação Bag of Words (com TF-IDF) Características do domínio Características linguísticas
12
Representação de Textos
Bag of Words (com TF-IDF) Lista de termos presentes no corpus de
treinamento associados a pesos Pesos definidos comumente com TF-IDF
IDF estimado através da freqüência dos termos no corpus de treinamento
Alguns trabalhos usam somente TF Recomenda-se eliminação de stopwords
e aplicação de stemming
13
Representação de TextosCaracterísticas do domínio Ex.: termos de um vocabulário
controlado, padrões de formatação, expressões regulares,...
Características lingüísticas Ex.: substantivos, sintagmas nominais,
nomes próprios,...
14
Redução de DimensionalidadeObservações importantes: Mesmo para uma base pequena de
documentos, o número de características distintas pode ser muito alto
Alta dimensão de atributos prejudicar desempenho de certos algoritmos e torna aprendizado menos eficiente
Abordagens Seleção de Atributos Extração de Atributos
15
Redução de DimensionalidadeSeleção de Atributos Seleção de subconjunto de termos relevantes
dentre os termos existentes Wrappers e Filtros
Vantagem: preserva as dimensões originaisExtração de Atributos Criação de atributos através de combinações
numéricas dos atributos existentes Ex.: LSI, PCA, ICA,....
Vantagem: bom desempenho com número pequeno de dimensões
16
Redução de DimensionalidadeSeleção de Atributos
Abordagem de Filtros Ordenam atributos através de critérios de
relevância Ex.: Information Gain, Correlação, Chi-
Quadrado, Mutual Information
Abordagem de Wrappers Buscam subconjuntos de atributos que
maximizam precisão do classificador Ex.: Forward-selection e Backward-elimination
Bom desempenho, porém com custo alto
17
Aprendizado de MáquinaAlgoritmos
Grande número de algoritmos pode ser aplicado ao problema de classificação de textoAlgoritmos freqüentemente usados na literatura Naive Bayes kNN Árvores de Decisão Redes Neurais Artificiais
18
Aprendizado de Máquina Naive Bayes
Estima probabilidades das classes dados os valores de atributos E combina essas probabilidades para
gerar classificações de novos exemplosVantagens: Treinamento rápido e pouca
sensibilidade a atributos irrelevantesDesvantagens: Sensibilidade a atributos redundantes Assume independência dos atributos
19
Aprendizado de Máquina kNN
Gera classificações para novos exemplos a partir das classes definidas em exemplos similaresVantagens: Treinamento muito rápido Podem ter bom desempenho mesmo com
um número pequeno de exemplosDesvantagens: Sensibilidade a atributos irrelevantes Classificação de novos exemplos pode ser
lenta
20
Aprendizado de Máquina Árvores de Decisão
Nós de decisão que recorrentemente maximizam a separação de exemplos de classes diferentesVantagens: Têm mecanismo interno de seleção de
atributos Conhecimento fácil de interpretar
Desvantagens: Treinamento lento comparado, por
exemplo, a kNN e Naive Bayes
21
Aprendizado de Máquina Redes Neurais Artificiais
Conjunto de unidades conectadas entre si através de pesos numéricos Camada de entrada recebe valores dos atributos e Camada de saída estima valores das classes
Vantagens: Bom desempenho comparados a outros algoritmos
Desvantagens: Treinamento lento Necessidade de estimação de parâmetros
como tamanho da arquitetura e taxas de aprendizado
22
Avaliação de Classificadores Hold-Out
Defina uma amostra de textos para treinamento dos algoritmos e outra amostra para teste do classificador geradoEm alguns casos, definir um conjunto de validação para estimar parâmetros dos algoritmos durante treinamento
23
Avaliação de Classificadores Validação Cruzada K-Fold
O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e
validaçãoIterativo A parte selecionada para testes é trocada
até que todas tenham sido escolhidas
24
Avaliação de Classificadores Validação Cruzada K-Fold
Conjunto de exemplos
25
Conclusões - TendênciasRepresentação de Textos e Redução de DimensionalidadeAlgoritmos Support Vector MachinesAprendizagem Ativa para Classificação de TextoCombinação de Classificadores
26
ReferênciasSebastiani, F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002.