Extração da Informação

41
Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Levemente modificado por Flávia Barros

description

Extração da Informação. Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha. Índice. Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão. Motivação. Problema: Documentos na Web Web-service -> Banco de Dados. - PowerPoint PPT Presentation

Transcript of Extração da Informação

Page 1: Extração da Informação

Extração da Informação

Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Levemente modificado por Flávia Barros

Page 2: Extração da Informação

Índice

Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão

Page 3: Extração da Informação

Motivação

Problema:

Vasta quantidade de documentos textuais na Web Como apresentar ao usuário apenas o que interessa?

Como transmitir os dados entre Web services e bases de dados existentes? Necessário definir templates

Page 4: Extração da Informação

Motivação O que se quer?

Respostas relevantes para o usuário Não apenas links para documentos

Gerar resumos/sumários de textos

Minerar dados

Preencher Base de dados e Bases de conhecimento

Page 5: Extração da Informação

Introdução

O que é EI?

Busca identificar dados relevantes presentes nos documentos sem estruturação precisa.

Conversão para estruturas tabulares

Exibição dos dados de forma legível

Page 6: Extração da Informação

Introdução

Sistema de

Extração de

Informação

Sistema de

Extração de

Informação

Page 7: Extração da Informação

Exemplo de Sistema de EI

Page 8: Extração da Informação

Breve História

JASPER (1980s) Sistema para finanças

MUC-Message Understanding Conference [final da década de 80]

Internet/Web [década de 90]

Page 9: Extração da Informação

EI x Processamento de Linguagem Natural (PLN)

Processamento de Linguagem Natural Completa análise dos documentos Complexidade algorítmica alta

Extração de Informação Interesse em partes especificas do texto Menor esforço computacional

Page 10: Extração da Informação

Mineração na web

Page 11: Extração da Informação

Recuperação de informação x EI Recuperação de Informação

Recuperação de documentos relevantes ao usuário baseando-se em cálculos estatísticos sobre os termos que ocorrem no documento.

Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras.

Extração de Informação Extrai informações relevantes baseando-se no provável

domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do

domínio Busca derivar conhecimento de documentos recuperados

segundo a forma como o documento está estruturado e representado.

Page 12: Extração da Informação

Processo de extração de informação

Trata o problema de extração de dados relevantes a partir de uma coleção de documentos.

Os dados a serem extraídos são previamente definidos em um template (formulário)

CriaçãoDos slots

Documentocom tags

Tabelas com campos pré-definidos ou templates

Page 13: Extração da Informação

Processo de extração de informação

Documento

Reconhecimento de

entidadesAnálise Léxica e Morfológica

Análise Sintática

Análise de relacionamentos e contexto

Análise semântica

Inferência

Informação

estruturada e

contexto

Extração individual

Integração

Page 14: Extração da Informação

ClusterizaçãoAssociaçãoClassificação

Processo de extração de informaçãoEI

Segmentação

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Cluster A

Cluster B

Cluster C

Page 15: Extração da Informação

Abordagens para Sistema de EI

Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens: Engenharia de conhecimento Aprendizagem de Máquina

As abordagens são diferenciadas pela forma com que as regras são definidas

Page 16: Extração da Informação

Engenharia de conhecimento Construção de regras é feita manualmente. Requer que um especialista em sistemas de

Extração de Informação participe efetivamente da criação das regras.

Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai trabalhar.

Precisão nos resultados é maior. O tempo de desenvolvimento é maior

Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Page 17: Extração da Informação

Aprendizagem de Máquina Utiliza algoritmos de Inteligência Artificial

Algoritmos de treinamento automático Para indução de regras de extração

Um corpus de documentos etiquetados é usado para treinamento e vallidação das regras induzidas

Tempo menor de desenvolvimento Boa precisão nos resultados Não é extensível Difícil adaptação a novos domínios/problemas

Requer novo processo de treinamento

Page 18: Extração da Informação

Técnicas para Sistemas de EI

Processamento de Linguagem Natural – PLN Wrappers

Page 19: Extração da Informação

Processamento de Linguagem Natural - PLN

Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação

Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos

Page 20: Extração da Informação

Visão Geral

Nível Morfológico: estudo da constituição das palavras em elementos básicos;

Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença;

Nível Semântico: determinação do significado e inter-relacionamento semântico das palavras;

Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças;

Nível Pragmático: Visa determinar o objetivo do uso da língua

Page 21: Extração da Informação

Nível Morfológico

A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras

eats eat + s verbo, singular, 3rd persdog dog nome, singular

Page 22: Extração da Informação

Nível Sintático A análise sintática faz uso do dicionário gerado pela

análise morfológica procurando mostrar relacionamento entre palavras.

As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica

Tem como saída a representação da sentença que representa as dependências entre palavras

As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes

‘The dog chased the cat.’ ‘The cat chased the dog.’

Page 23: Extração da Informação

Nível Semântico

Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado

O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença

Desambigüidade semântica

A cabeça une-se ao tronco pelo pescoçoEle é o cabeça da rebeliãoSabrina tem boa cabeça

Page 24: Extração da Informação

Nível Discursivo

Analisa textos maiores que sentenças Foca nas propriedades do texto como um

todo, determinando significado através das conexões de sentenças

Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam

Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios

Page 25: Extração da Informação

Nível Pragmático

Foca no significado que vai além do contexto do texto

Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as

resoluções necessitam de um conhecimento global

Os vereadores recusaram receber os manifestantes, porque eles temiam o confrontoOs vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

Page 26: Extração da Informação

Wrappers

Maior desenvolvimento da WEB nos anos 90. Necessidade de sistemas mais eficientes com

capacidade suficiente para extrair informação dos textos da WEB.

Extraem a informação de documentos e a exportam como parte de uma estrutura de dados.

Page 27: Extração da Informação

Wrappers

Textos são principalmente: Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida,

permitem a ocorrência de variações na ordem dos dados.

Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.

Page 28: Extração da Informação

Técnicas de Extração

Autômatos finitos

Casamento de padrões

Classificadores de texto

Modelos de Markov escondidos (HMM)

Page 29: Extração da Informação

Autômatos Finitos

Bons para textos estruturados.

Definidos manualmente ou aprendidos automaticamente.

Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais

(categorização) Transducers

Page 30: Extração da Informação

Casamento de Padrões

Textos estruturados, semi-estruturados e livres.

Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações.

ER mais intuitivas do que autômatos.

Page 31: Extração da Informação

Classificadores de Texto

Textos semi-estruturados

Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras)

Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Page 32: Extração da Informação

Modelos de Markov Escondidos (HMM)

Textos livres e semi-estruturados.

Verifica a ocorrência de padrões em sequência no texto de entrada.

Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente.

Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Page 33: Extração da Informação

Construção de wrappers

Automática Define regras de extração com um corpus de

treinamento com de técnicas de aprendizagem de máquina.

Semi-automática Auxiliado por ferramentas, o usuário especifica a

estrutura e o contexto dos dados a serem extraídos.

Manual Mais demorada e trabalhosa, porém com maior precisão

nos dados extraídos.

Page 34: Extração da Informação

Desafios

Técnicas de Extração “Dividir pra Conquistar” Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem

Page 35: Extração da Informação

Desafios

Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia

Page 36: Extração da Informação

Aplicações de EI

Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo

Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Page 37: Extração da Informação

Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes

Page 38: Extração da Informação

Dúvidas

Page 39: Extração da Informação

Referências MANFREDINI, V. H.; Proposta de uma Técnica de

Extração de Informação de Arquivos de Log de Servidores Proxy

Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados

http://en.wikipedia.org/wiki/Information_extraction

Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

Page 40: Extração da Informação

Referências

Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf

Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO

Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR

http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

Page 41: Extração da Informação

Referências

www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409

MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc