CIn/UFPE Extração baseada em PLN (Processamento de Linguagem Natural) Flávia Barros Jacques Robin...

45
CIn/UFPE Extração baseada em PLN (Processamento de Linguagem Natural) Flávia Barros Jacques Robin Fred Freitas Centro de Informática - UFPE

Transcript of CIn/UFPE Extração baseada em PLN (Processamento de Linguagem Natural) Flávia Barros Jacques Robin...

  • Slide 1
  • CIn/UFPE Extrao baseada em PLN (Processamento de Linguagem Natural) Flvia Barros Jacques Robin Fred Freitas Centro de Informtica - UFPE
  • Slide 2
  • CIn/UFPE Roteiro PLN Morfologia Sintaxe Semntica Anlise do Discurso Extrao com PLN Exemplos AutoSlog LIEP Extratores com SBC x Extratores com Aprendizado
  • Slide 3
  • CIn/UFPE Processamento de Linguagem Natural H 20 anos atrs... os dados estavam ordenadamente armazenados em Bancos de Dados Hoje: os dados esto armazenados em forma de texto e.g., Internet Como ter acesso a esses dados? Processamento de Linguagem Natural (PLN) !!! tem por objetivo interpretar e gerar frases isoladas ou textos em alguma lngua natural congrega estudos da Lingstica e da Cincia da Computao.
  • Slide 4
  • CIn/UFPE Arquitetura de Sistemas para PLN
  • Slide 5
  • CIn/UFPE Processamento Morfolgico Morfologia: estuda, atravs dos morfemas a estrutura (ou forma) das palavras e suas leis de formao e inflexo. Processamento morfolgico no PLN: Decompe as palavras da frase de entrada em radical + morfema gramatical morfologia inflexional: menina = menin + a --- cadeiras = cadeira + s morfologia derivativa: fazia = faz + ia --- desfaz = des + faz
  • Slide 6
  • CIn/UFPE Processamento Morfolgico Anlise morfolgica: armazenam-se apenas os radicais, morfemas gramaticais e regras morfolgicas de formao das palavras central na construo de verificadores ortogrficos automticos mecanismos de busca na Web (search engines) para fazer busca pelo radical da palavra traduo automtica auxilia na derivao da classe gramatical da palavra qualquer aplicao com lxico e gramtica de grande tamanho
  • Slide 7
  • CIn/UFPE Processamento Sinttico Sintaxe: estuda as regras que governam a formao de frases de uma determinada lngua. Processamento sinttico no PLN derivao da estrutura sinttica da frase -- Parsing Parser: algoritmo que mapeia uma frase na sua estrutura sinttica com base no lxico (dicionrio) e na gramtica do sistema.
  • Slide 8
  • CIn/UFPE Processamento Sinttico Frases so formadas por constituintes palavras ou sintagmas que constituem a frase. Sintagma: grupo de palavras classificado de acordo com a categoria sinttica de seu elemento ncleo Exemplo: SN (s. nominal) - Joo; o menino; a ma verde; o gato de rabo longo. SV (s. verbal) - chove; chegou cedo; tem estado doente; falaram de Maria a Pedro. SP (s. preposicional) - para voc; de Maria a Pedro. SAdv (s. adverbial) - cedo; muito rapidamente.
  • Slide 9
  • CIn/UFPE Parsing Etapas de processamento: rotular cada palavra com sua categoria sinttica (POS- tagging) mesa: substantivo; casa: subst. ou verbo delimitar constituintes sintticos - sintagmas (bracketing) rotular os constituintes com categorias sintticas SN (sintagma nominal), SV (sintagma verbal), etc rotular os constituintes com sua funo sinttica sujeito, objeto, predicado,... identificar dependncias estruturais entre os constituintes orao coordenada, subordinada,...
  • Slide 10
  • CIn/UFPE O Lxico Dicionrio com os termos utilizados pelo sistema. Existem variados formalismos para representao dos lxicos. A representao do lxico deve estar de acordo com a da gramtica do sistema. Exemplos de entradas de um lxico em PATR-II (Shieber 1984): mesa = substantivo = feminio = singular = yes comprou = verbo = pretrito-perfeito = singular = 3 = yes = SN
  • Slide 11
  • CIn/UFPE A Gramtica Define, atravs de regras, quais so as cadeias de palavras vlidas para o sistema. Sistemas de PLN tratam um sub-conjunto de uma lngua natural. Existem diversos formalismos para a representao de gramticas. Exemplos de regras de uma gramtica em PATR-II: este formalismo oferece mecanismos para verificao de concordncia gnero e nmero, por exemplo. SN Subst Adj = SN Det Subst =
  • Slide 12
  • CIn/UFPE A Gramtica Essa verificao feita em termos de categorias sintticas, e no de uma lista exaustiva de frases. lnguas naturais possuem um nmero infinito de frases gramaticalmente corretas. a BC mais portvel dos sistemas de PLN essencialmente independente do domnio.
  • Slide 13
  • CIn/UFPE Resultado da Anlise Sinttica F -> SN, SV. SN -> Det, Subst. SV -> Verbo, SN. Det -> o Subst ->menino, chapu Verbo -> usa SN Det NSV VSN Det N O menino usa o chapu.
  • Slide 14
  • CIn/UFPE Ambigidade no nvel Sinttico Frases onde as palavras podem assumir categorias sintticas diferentes, a depender da interpretao: I saw her duck Time flies like an arrow Ambigidade estrutural: Eu vi o banco da praa Eu vi o rapaz no parque com o binculo. (1) O rapaz estava com o binculo (2) Eu estava com o binculo
  • Slide 15
  • CIn/UFPE Interpretao Semntica Estrutura sinttica apenas no basta! frases com palavras e estruturas sintticas diferentes, porm com mesmo significado: (1) Eu dei um livro a Maria. (2) Maria recebeu um livro de mim. receber e dar conceito semntico de transferncia Controle de inferncia Eu vi uma baleia grande eu vi uma baleia eu vi algo grande Eu vi uma baleia pequena eu vi algo pequeno???
  • Slide 16
  • CIn/UFPE Interpretao Semntica Semntica estuda o significado das palavras e como elas se combinam para formar o significado das frases. Objetivo: Mapear a estrutura lingstica da frase nos conceitos do domnio que a frase pode expressar. problema: ambigidade Ela estava em minha companhia (1) companhia = empresa (2 ) companhia = pessoa ( i.e., ela estava comigo)
  • Slide 17
  • CIn/UFPE Restries de Seleo Restries de seleo so atribudas s palavras no lxico: menino [+humano], [+masculino], [-adulto] pensamento [+abstrato] cabo [+vivente], [+humano], [+adulto] cabo [+concreto], [+inanimado] jovem = Substantivo modificado pelo adjetivo [+vivente] morrer = Substantivo sujeito do verbo [+vivente] Exemplo: o cabo jovem o cabo longo
  • Slide 18
  • CIn/UFPE Restries de Seleo Ontologias Restries de seleo definem classes semnticas de palavras, que podem ser organizadas em hierarquias de tipos (representadas por ontologias). [Sowa 99]
  • Slide 19
  • CIn/UFPE Gramticas de Casos Formalismo muito utilizado no processamento semntico de frases. Papis temticos, ou casos, so atribudos aos constituintes da frase. Papis temticos so determinados pelo verbo, o constituinte central da frase. Exemplo de entrada lexical para o verbo entregar: entregar, Verbo argumentos: agente, tema, beneficirio Eu entreguei a carta a Pedro.
  • Slide 20
  • CIn/UFPE O Modelo do Domnio Fornece o contexto enciclopdico do sistema. Armazena conhecimento a respeito das entidades, relaes, eventos, lugares e datas do domnio da aplicao. O conhecimento representado em uma Ontologia do domnio, em um (ou mais de um) formalismo de IA e.g., Lgica de Predicados, Redes Semnticas, Frames, Scripts. Interpretao do contedo implcito das palavras.
  • Slide 21
  • CIn/UFPE Processamento Automtico do Discurso Problema: Antnio quer fazer uma festa de formatura na sua casa. Ele a limpou e arrumou ontem. Qual o referente do pronome a ? festa e casa apresentam os mesmos traos morfolgicos (fem, sing) e sintticos (subs). o que nos ajuda a optar por casa o nosso conhecimento do mundo (ou senso comum).
  • Slide 22
  • CIn/UFPE Processamento Automtico do Discurso Como possvel resolver automaticamente problemas desta natureza? Foram desenvolvidos teorias lingsticas e algoritmos computacionais para representar, interpretar e gerar discurso, a fim de construir sistemas de PLN capazes de manter um dilogo com o usurio. Discurso: qualquer produo lingstica composta por mais de uma frase.
  • Slide 23
  • CIn/UFPE Discurso tem Estrutura (a) Joo e Maria saram para comprar um cortador de grama novo (b) porque o deles foi roubado. (c) Maria viu os homens que o roubaram. (d) Ela os seguiu at o final da rua, (e) mas eles fugiram num caminho. (f) Depois de procurar no shopping center, (g) eles concluram que no tm dinheiro para um novo. (h) A propsito, Joo perdeu o emprego, (i) por isso ele est sem dinheiro. (j) Finalmente, eles decidiram comprar um cortador usado.
  • Slide 24
  • CIn/UFPE Anlise do Discurso Estuda os princpios que governam a produo de seqncias estruturadas de frases = discurso escrito ou falado. O discurso formado por segmentos unidades lingsticas que contm uma ou mais frases consecutivas que tratam do mesmo assunto (o foco daquele trecho do discurso). Qual a importncia de se identificar a estrutura do discurso? entre outras, a identificao dos referentes de pronomes e diticos (e.g., hoje, aqui, agora).
  • Slide 25
  • CIn/UFPE Anlise do Discurso Como determinar automaticamente a fronteira entre segmentos? analisando a superfcie do texto em busca de marcadores discursivos e.g., "A propsito", "Bem", "Como eu ia dizendo", "Em resumo", etc. analisando o "contedo semntico" do, em busca de identificar mudanas de foco.
  • Slide 26
  • CIn/UFPE O Modelo do Discurso Fornece o contexto discursivo. construdo dinamicamente durante o processamento do discurso. Armazena informaes sobre as frases previamente processadas. Central na interpretao e gerao de pronomes e diticos. Geralmente, consiste em uma pilha contendo as caratersticas sintticas e semnticas das entidades j introduzidas no discurso. Essa pilha deve espelhar a estrutura do discurso, indicando onde comea e termina cada segmento.
  • Slide 27
  • CIn/UFPE Extrao baseada em PLN
  • Slide 28
  • CIn/UFPE Estrutura geral Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Preenchimento de Templates Anlise de Discurso Tokenizao
  • Slide 29
  • CIn/UFPE Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso Preenchimento de Templates Segmentao das Palavras Diviso em segmentos (estruturas) Pre-processamento ignorar partes do texto
  • Slide 30
  • CIn/UFPE Anlise Lxica Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso Preenchimento de Templates Classificao Morfolgica (artigo, verbo, substantivo). Reconhecimento de nomes prprios, empresas, datas,... Etiquetagem automtica
  • Slide 31
  • CIn/UFPE Anlise Sinttica Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso Preenchimento de Templates Construo arvore sinttica Grupos Nominais Grupos Verbais Anlise sinttica parcial
  • Slide 32
  • CIn/UFPE Construo de Padres Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso Preenchimento de Templates Dicionrio de padres de Extrao Especfico ao Domnio Automtica X Manual eficincia, portabilidade, treinamento, alteraes ad hoc
  • Slide 33
  • CIn/UFPE Anlise de Discurso Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso Preenchimento de Templates Relaes entre sentenas do texto. Correferncia Ligaes entre palavras.
  • Slide 34
  • CIn/UFPE Preenchimento dos Templates Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso Preenchimento de Templates Preenches os dados em templates especificados pela aplicao. Objetos ou tabelas
  • Slide 35
  • CIn/UFPE Extrao com PLN Modelo do domnio (portvel) Ontologias com papis lingistcos e semnticos conceitos e relacionamentos do domnio sendo tratado Extraem dados declarativos Podem usar aprendizado Na aquisio de conhecimento No refinamento de conhecimento -> melhor performance Shallow Parsing Gramticas representados como autmatos finitos
  • Slide 36
  • CIn/UFPE Ontologia do Domnio (Hierarquia) - Terrorismo -
  • Slide 37
  • CIn/UFPE SAN SALVADOR, 10 JAN 90 (AFP) -- [TEXT] OFFICIAL SOURCES HAVE REPORTED THAT SEVERAL GUERRILLA ATTACKS AND HEAVY FIGHTING TOOK PLACE THE EVENING OF 9 JANUARY AND THIS MORNING THROUGHOUT THE COUNTRY, AND AS A RESULT, THREE SOLDIERS WERE KILLED AND THREE OTHERS INJURED. ALLEGED GUERRILLA URBAN COMMANDOS LAUNCHED TWO HIGHPOWER BOMBS AGAINST A CAR DEALERSHIP IN DOWNTOWN SAN SALVADOR THIS MORNING. A POLICE REPORT SAID THAT THE ATTACK SET THE BUILDING ON FIRE, BUT DID NOT RESULT IN ANY CASUALTIES ALTHOUGH ECONOMIC LOSSES ARE HEAVY. DURING THE EVENING OF 9 JANUARY, GUERRILLA URBAN COMMANDOS BOMBED TWO ELECTRICITY FACILITIES IN DIFFERENT PLACES IN SAN SALVADOR, WHICH CAUSED POWER OUTAGES IN SOME AREAS OF THE CAPITAL. MEANWHILE, THE ARMED FORCES PRESS COMMITTEE (COPREFA) REPORTED TODAY THAT THREE ARMY SOLDIERS WERE KILLED RECENTLY IN CLASHES AGAINST MEMBERS OF THE FARABUNDO MARTI NATIONAL LIBERATION FRONT (FMLN) IN DIFFERENT PARTS OF THE CENTRAL AND EASTERN REGIONS OF THE COUNTRY. THE WAR BULLETIN BY COPREFA STATED THAT THE CLASHES, IN WHICH THREE MEMBERS OF THE GENERAL JUAN RAMON BELLOSO BATTALION WERE INJURED, TOOK PLACE IN SAN JOSE GUAYABAL, IN THE CENTRAL CUSCATLAN DEPARTMENT, AND IN SANTA ELENA IN THE EASTERN USULUTAN DEPARTMENT.
  • Slide 38
  • CIn/UFPE 0. message: id dev-muc3-0018 (nccosc) 1. message: template 1 2. incident: date 10 jan 90 3. incident: location el salvador: san salvador (city) 4. incident: type bombing 5. incident: stage of execution accomplished 6. incident: instrument id "highpower bombs" 7. incident: instrument type bomb: "highpower bombs" 8. perp: incident category terrorist act 9. perp: individual id "guerrilla urban commandos" 10. perp: organization id -11. perp: organization confidence -12. phys tgt: id "car dealership" 13. phys tgt: type commercial: "car dealership" 14. phys tgt: number 1: "car dealership" 15. phys tgt: foreign nation -16. phys tgt: effect of incident some damage: "car dealership" 17. phys tgt: total number -18. hum tgt: name -19. hum tgt: description -20. hum tgt: type -21. hum tgt: number -22. hum tgt: foreign nation -23. hum tgt: effect of incident no injury or death: "-" 24. hum tgt: total number -
  • Slide 39
  • CIn/UFPE [Riloff 94] Exemplo de extrao pelo AutoSlog [Riloff 94] The priest was murdered by the guerrillas. Name:target-subject-passive-verb-bombed Name:target-subject-passive-verb-bombed Trigger:murdered Trigger:murdered Variable Slots:(target (*SUBJECT* 1)) Variable Slots:(target (*SUBJECT* 1)) Constraints:(class phys-target *SUBJECT*) Constraints:(class phys-target *SUBJECT*) Constant Slots:(type murder) Constant Slots:(type murder) Enabling Conditions:((passive)) Enabling Conditions:((passive))
  • Slide 40
  • CIn/UFPE Caso que o reconheceu
  • Slide 41
  • CIn/UFPE AutoSlog Textos so anotados previamente Anotao semi-automtica garante rapidez ao processo Padres so aprendidos Padres so selecionados estatisticamente Por frequncia de ocorrncia Por corretude score = relevance rate * log2 (frequency)
  • Slide 42
  • CIn/UFPE Resultados Dicionrio da MUC-4\ construo manual 389 definies ~1500 pessoas-hora requer anotadores experientes performed well Dicionrio gerado pelo AutoSlog dictionary construo automtica 450 definies 5 pessoas-hora (!!) requer pouco treinamento 98% da performance do MUC-4
  • Slide 43
  • CIn/UFPE LIEP [Huffman 95] Aprende regras de extrao Uma regra para vrios itens TARGET-was-bombed-by-PERPETRATOR: noun-group( TRGT, head( isa(physical-target) ) ), noun-group( PERP, head( isa(perpetrator) ) ) verb-group( VG, type(passive), head(bombed) ) preposition( PREP, head(by) ) subject( TRGT, VG ), post-verbal-prep( VG, PREP ), prep-object( PREP, PERP ) => bombing-event( BE, target(TRGT), agent(PERP) )
  • Slide 44
  • CIn/UFPE Aquisio de conhecimento X Sistemas com aprendizado Aquisio de conhecimento No so conceitualmente dificeis de desenvolver Tm melhor performance So trabalhosos de construir Difcil manuteno Requer Expertise Sistemas com aprendizado Solues mais portveis No precisam de expertise Cobertura sobre os exemplos Exemplos de treinamento podem no existir Anotao trabalhoso e requer alguma expertise
  • Slide 45
  • CIn/UFPE Quando usar? Aquisio de conhecimento Recursos (lxicos, etc) disponveis Poucos dados Padres podem mudar de desenvolver Precisa-se de tima performance Co-referncia Sistemas com aprendizado Recursos (lxicos, etc) disponveis Padres difceis Dificuldades de programar regras Padres estveis Boa performance aceitvel