Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo...

Post on 19-Apr-2015

107 views 1 download

Transcript of Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo...

Sistemas de Pergunta e Resposta

Equipe:Artur Luis do Nascimento

Eudes Pimentel CanutoMarcelo Victor Calado de Sousa Costa

Márcio Bernardino Fernandes Lima da Cunha

Roteiro

• Introdução• Motivação• Histórico • Sistemas de Pergunta-Resposta• Sistemas de Pergunta-Resposta

Atuais• Estudo de Caso• Conclusão

Introdução

• Um sistema de Pergunta-Resposta é um programa capaz de receber como entrada uma pergunta em linguagem natural e retornar a resposta esperada.

• A base de dados pesquisada pode conter dados estruturados ou documentos sem nenhuma estruturação.

Motivação

• O usuário deseja fazer uma pergunta em linguagem natural e obter a resposta correta no contexto do documento onde ela ocorre.

• Os engenhos de busca convencionais negligenciam a semântica da pergunta e dos documentos indexados, o que os torna inadequados para esse tipo de aplicação.

Histórico

• Em 1965, vários sistemas de Pergunta-Resposta foram analisados:– Front-ends em Linguagem Natural para

Bancos de Dados• Ex: Baseball, Lunar

– Sistemas de Diálogo Interativo• Ex: Jupiter

– Compreensão de Texto• QUALM

• Normalmente usavam bases proprietárias

Recuperação de Informação

• É o processo de recuperar de uma base documentos relevantes.

• RI está relacionada com sistemas de pergunta-respostas.

• Sistemas de RI retornam documentos, e não respostas objetivas.

Recuperação de Informação

• RI é relevante para sistemas de pergunta-resposta por dois motivos principais:– As técnicas tradicionais de RI foram

estendidas para não só retornar documentos relevantes.

– A comunidade de RI desenvolveu uma sólida metodologia para avaliação dos seus sistemas.

Extração de Informação

• Consiste em uma atividade de preencher templates pré-definidos a partir de documentos em linguagem natural.

• EI pode ser vista como uma forma limitada de sistemas de pergunta-resposta.

Arquitetura Genérica

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Análise da Pergunta

• A pergunta precisa ser convertida num formato (ou em alguns formatos).

• A pergunta pode ser interpretada: – No contexto de um diálogo em

andamento.– Sob a óptica de um modelo do usuário

que o sistema eventualmente possua.

Análise da Pergunta

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Pré-Processamento da Coleção de Documentos

• A coleção de documentos precisa ser processada a priori para que seja convertida num formato adequado para o processamento em tempo real.

Pré-Processamento da Coleção de Documentos

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Seleção de Documentos Candidatos

• Um subconjunto do total dos documentos da base é selecionado.

Seleção de Documentos Candidatos

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Extração das Respostas

• Através da utilização de representações adequadas da pergunta e de cada documento candidato, as respostas candidatas são extraídas e repassadas ao módulo seguinte.

Extração das Respostas

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Construção do Resultado

• Esse módulo recebe as respostas candidatas e deve ordená-las.

• O resultado que é retornado ao usuário pode ser influenciado: – Pelo contexto de um possível diálogo

em andamento.– Pelo modelo do usuário que o sistema

eventualmente tenha.

Construção do Resultado

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Modelo do Usuário

Contexto do Diálogo

Documentos Pré-Processados

Resposta Candidata

Sistemas de Pergunta-Resposta Atuais

• As primeiras pesquisas na área de Pergunta-Resposta foram desenvolvidas em meados dos anos 60.

• Desde então, pesquisas na área com focos diferentes foram realizadas.

Sistemas de Pergunta-Resposta Atuais

• Atualmente, a maior parte das pesquisas na área tem um escopo bem definido:– Desenvolver sistemas capazes de responder

as perguntas dos usuários através de busca numa coleção de documentos não-estruturados.

• Essa tendência é motivada principalmente pelas competições anuais organizadas pelo TREC.

Arquitetura de Sistemas de PR Atuais

• Dois módulos normalmente não estão presentes:– Contexto do Diálogo– Modelo do Usuário

• Não são necessários para que os tipos de perguntas que os sistemas tratam atualmente sejam respondidas.

Contexto do Diálogo

• O Sistema deve guardar informações relativas as perguntas anteriores.

• Exemplo:– Quando foi o decretado o impeachment de

Fernando Collor?• Em 1992.

– Qual foi a importância da participação popular para isso?

• ...

Modelo do Usuário

• Busca da informação baseada no perfil do usuário.

• Exemplo:– Um usuário que em seu perfil é fã de futebol

faz a seguinte pergunta ao sistema:• Quem foi o campeão brasileiro de 1987?

– SPORT

Arquitetura de Sistemas de PR Atuais

• Tem o objetivo de responder uma pergunta mediante pesquisa em uma base de documentos não-estruturados.

• Geralmente apresentam 7 módulos:– Análise da Pergunta, Pré-Processamento da

Coleção de Documentos, Seleção de Documentos Candidatos, Extração das Respostas e Construção do Resultado.

• Como foi destacado anteriormente, não costumam possuir os módulos que armazenam o contexto do diálogo em andamento e o modelo do usuário.

Arquitetura de Sistemas de PR Atuais

Usuário

Documentos

Referências aos Documentos

Consulta

Trechos Candidatos

Representação da Pergunta

Representação da Pergunta

Resposta

Pergunta

Análise da Pergunta

Seleção de Documentos Candidatos

Pré-Processamento da Coleção de Documentos

Extração das Respostas

Contrução do Resultado

Coleção de Documentos

Documentos Pré-Processados

Resposta Candidata

Análise da Pergunta

Análise

da

Pergunta

Pergunta Representação da Pergunta

Usuário

• Entrada: uma pergunta expressa em linguagem natural realizada pelo usuário e taxonomia de tipos.

• Saída: uma ou mais representações da pergunta, que serão usadas em fases subseqüentes.– Identificação de sua taxonomia.

Taxonomia de Tipos

Análise da Pergunta

• Como forma de simplificar o processamento, podem-se impor restrições à linguagem utilizada.

• Utilizando um subconjunto da linguagem natural, com limitações sobre o vocabulário e a sintaxe.

• Apresentando ao usuário um formulário com campos pré-definidos, através do qual ele deve construir sua pergunta.

Simplifica enormemente o processo de interpretação da pergunta.Limita bastante a expressividade das perguntas que o usuário pode formular.

Análise da Pergunta

• Classificação da pergunta de acordo com uma taxonomia de tipos semânticos da entidade procurada pela pergunta.

• Determinação de novas restrições sobre a entidade de resposta. Por exemplo:– Identificação de palavras-chave na pergunta

que serão usadas no processo de casamento com sentenças que contêm as respostas candidatas;

– Identificação de relações (sintáticas e semânticas) que podem existir entre uma entidade na resposta candidata e entidades presentes na pergunta.

Taxonomia de Tipos de Pergunta

• Servem para classificar as perguntas dos usuários no sistema.

• Pode ser complexa ou simples:– Sendo essa escolha uma decisão de projeto

que deve ser analisada pela equipe de pesquisa e desenvolvimento do sistema.

• Devem ser suficientemente genéricas para cobrir todas as possíveis perguntas dos usuários.

Taxonomia de Tipos de Pergunta

• As perguntas são classificadas de acordo com essa lista segundo dois métodos:– indução de regras de decisão – um algoritmo heurístico baseado em regras

• Exemplos de categorias:• Pessoa• Lugar• Data• Numero• Definição• Organização• ...

Taxonomia de Tipos de Pergunta

Exemplo de taxonomia de tipos complexa apresentada por Pasça e Harabagiu

Taxonomia de Tipos de Pergunta

• Construção de taxonomia de tipos complexas envolve vários passos, além da utilização de ferramentas léxico-semânticas como o WoedNet.

Classificação da Pergunta

• Uma vez criada uma taxonomia dos possíveis tipos de pergunta, é necessário um algoritmo para efetivamente realizar a classificação.

• Uma abordagem bastante intuitiva para a classificação é observar a principal palavra interrogativa da pergunta, a wh-word.

• Por exemplo:– quando indica a procura por uma data– onde por um lugar– quem por uma pessoa– ...

Classificação da Pergunta

• Entretanto, essa abordagem pode não ser suficiente, já que várias das wh-words, como qual ou que, não contêm muita informação sobre o tipo semântico da resposta. Por exemplo:– Qual o nome da capital da Itália?– Qual é o carro mais rápido do mundo?– Qual era a nacionalidade de Che Guevara?

• São iniciadas pela mesma wh-word (“qual”)• Porém procuram por uma entidade diferente:

– Lugar– Objeto– Nacionalidade,

Classificação da Pergunta

• Para isso são necessárias técnicas para classificação da pergunta:– Técnicas Heurísticas– Técnicas Baseadas em Aprendizagem de

Máquina

Técnicas Heurísticas

• A maioria dos trabalhos na área de Pergunta-Resposta utiliza abordagens essencialmente heurísticas para a classificação das perguntas.

• Essa técnica apresenta a vantagem de ter uma implementação bastante simples e um alto grau de precisão na classificação.

• O framework geral de algoritmos baseados nessas técnicas será mostrado a seguir:

Técnicas Heurísticas – Passo 1

• Através da análise da wh-word da pergunta, tentar inferir imediatamente o tipo de resposta esperado.

• Através dessa regra de associação simples é possível classificar perguntas iniciadas por wh-words que são boas discriminantes, como:– ‘por que’ (indica uma razão) – ‘onde’ (lugar) – ‘quando’ (data)– ...

Técnicas Heurísticas – Passo 2

• Caso o tipo não possa ser completamente determinado no Passo 1, através da utilização de um parser, o núcleo do primeiro sintagma nominal da pergunta após a wh-word é extraído de forma a se determinar a que classe ele está associado.

• Exemplo:– Qual é a capital do Brasil?– O sintagma nominal após a wh-word é “... é a

capital do Brasil”, cujo núcleo é “capital”.– Através da utilização de uma ferramenta que

consegue mapear palavras em tipos semânticos, um sistema de Pergunta-Resposta poderia classificar a pergunta acima na classe “Lugar”.

Técnicas de Aprendizagem de Máquina

• Apesar da aplicação de técnicas heurísticas, como aquelas apresentadas na seção anterior, ser uma abordagem clássica para o problema de classificação da pergunta, existem trabalhos que propõem técnicas diferentes.

• Utilizada, tanto para construção da taxonomia de tipos quanto para a classificação das perguntas.

Técnicas de Aprendizagem de Máquina

• A taxonomia é construída em dois níveis de hierarquia:– O primeiro nível, mais genérico, possibilita

que a classificação seja realizada mais facilmente

– As classes definidas no segundo nível provêem uma especificação mais precisa das categorias.

• O classificador pode utilizar um conjunto de treinamento com cerca de 6.000 perguntas manualmente classificadas.

Outras Etapas de Análise da Pergunta

• Uma vez identificado o tipo da entidade procurada, o restante do processo de análise da pergunta se resume a identificar restrições adicionais a que as respostas candidatas deverão satisfazer.

• Esse processo pode ser realizado através da extração de palavras-chave do restante da pergunta, que serão usadas no casamento da pergunta com as sentenças que contêm as respostas candidatas.– Esse conjunto de palavras-chave pode,

adicionalmente, ser expandido através do uso de sinônimos ou palavras relacionadas

Pré-Processamento da Coleção de Documentos

• Como as perguntas devem ser processadas em tempo real através de pesquisas em coleções de documentos de texto da ordem dos gigabytes, um pré processamento off-line dos dados é necessário.

• Alto custo da estrutura computacional necessária para se manter uma base com as informações vindas desse pré-processamento.

• O processamento sobre a coleção de documentos geralmente é realizada por engenhos de busca.

Seleção de Documentos Candidatos

• Responsável pela identificação dos documentos que provavelmente contém a resposta para a pergunta do usuário

• Escolha do tipo de engenho de busca

Seleção de Documentos Candidatos

• Principais componentes desse módulo

– Construtor de Queries• responsável por construir queries eficazes a partir

da pergunta do usuário, que serão enviadas ao(s) engenho(s) de busca utilizado(s).

– Seletor de Trechos• deve selecionar, a partir dos documentos

recuperados, as passagens que mais provavelmente contêm as respostas.

Construtor de Queries

•Papel fundamental em qualquer sistema de pergunta-resposta

•Deve ser capaz de recuperar documentos onde a resposta procurada ocorra sob diversas construções diferentes

Construtor de Queries

• Modificação de Verbos• Expansão de Termos• Remoção de Palavras Irrelevantes

(Stopwords)• Identificação de Termos Compostos• Reescrita da Pergunta

Modificação de Verbos

• Em perguntas em inglês com um verbo auxiliar “do” e um verbo principal, a resposta deve ocorrer num trecho que contém o verbo principal na forma conjugada. Ex.: “When did Nixon visit China?”

• Dessa forma, uma query poderia ser construída com os termos “Nixon visited China in...”.

Expansão de Termos

• Dada uma pergunta, é possível que os trechos de documentos com sua resposta contenham sinônimos de termos usados na pergunta, ou palavras semanticamente relacionadas a esses termos

• Por exemplo, se uma pergunta foi identificada como sendo da categoria INTERVALO DE TEMPO, os seguintes termos são adicionados à query: horas, minutos, semanas, ...

Remoção de Palavras Irrelevantes (Stopwords)

• Palavras como pronomes, artigos, preposições, conjunções e interjeições são removidas

• Além da exclusão de stopwords, pode haver também a exclusão de palavras comuns

Identificação de Termos Compostos

• Alguns termos compostos, como os substantivos próprios, são atômicos e devem ser tratados dessa forma

• Esses termos podem ser identificados através de:– Identificação de expressões entre

aspas ou iniciadas por letra maiúscula na pergunta

– Identificação de sintagmas nominais. Ex.: “What is question answering?” -> “question answering”

Reescrita da Pergunta

• É feita através da movimentação das palavras, cujo objetivo é achar a ordem em que a resposta poderá ocorrer

• Duas formas de movimentações:– Entre sujeito e verbo auxiliar

• Ex.: “Who was the first American in space?” ->“was the first American in space” e

“the first American in space was”

– Entre sujeito e verbo• Ex.:“Who shot JFK?” -> “shot JFK”

Seleção de Trechos Candidatos

• É necessário que se selecionem os trechos dos documentos selecionados que serão posteriormente processados, em busca de possíveis respostas para a pergunta do usuário

• Pode ser realizada de duas formas: – Utilização dos resumos de documentos

retornados pelos engenhos de busca – Busca, no documento inteiro, de trechos

que foram julgados importantes.

Busca de Trechos Candidatos no Documento

• A identificação desses trechos é feita através de variações da seguinte técnica: define-se uma janela de tamanho fixo e ordenam-se as janelas de acordo com a quantidade de termos importantes que elas contêm

• Quantidade de termos importantes– Regras simples– Métodos mais sofisticados como idf

(inverse document frequency)

Utilização de Resumos dos Engenhos de Busca

• Diversos sistemas de Pergunta-Resposta utilizam apenas os resumos retornados pelos engenhos de busca para localizar respostas para a pergunta do usuário

• Principais Vantagens– Eficiência– O processo de identificação de trechos

candidatos é simplificado

Extração das Respostas

• Deve ser capaz de efetuar a identificação de possíveis respostas nos trechos selecionados.

• Existem duas tendências neste módulo– Baseada no uso de técnicas e

ferramentas lingüísticas– Baseada no uso de padrões superficiais

de texto

Técnicas Lingüísticas

• Uma das técnicas lingüísticas mais utilizadas é, através do uso de named entity recognizers.Ex.:Pergunta: Quem é o presidente da Venezuela?Trecho Candidato: Hugo Chávez, atual presidente da Venezuela, é conhecido por...

Técnicas Baseadas em Padrões de Texto

• Os trechos candidatos são comparados com uma série de indicadores (padrões) pré-definidos, que têm pesos associados previamente

• Esses padrões têm estrutura similar à de expressões regulares adicionando-se elementos correspondentes a listas de termos

Técnicas Híbridas

• Há um problema com o uso de padrões puramente textuais

• Têm surgido trabalhos com o objetivo de tornar a técnica de padrões mais genérica. São usadas ferramentas de processamento de linguagem natural, como named entity recognizers em conjunto com padrões

Construção do Resultado

• Tem como função construir uma lista ordenada com as respostas candidatas, de acordo com a probabilidade de cada uma ser a correta. Apresenta duas técnicas:– Normalização das respostas– Ordenamento das respostas

Normalização das Respostas

• Respostas candidatas semanticamente idênticas (ou equivalentes) podem estar escritas de formas diferentes

• Torna-se necessária a normalização (único formato) dessas respostas para posteriormente elas serem ordenadas

Ordenamento das Respostas

• Técnicas– Votação– Votação + Outras Técnicas

• Associação de pesos ao trecho que contém a resposta candidata

• Conceito de qualidade ou autoridade dos documentos (Google)

• ...

• Apresentação da resposta

Pergunte!Uma Interface em Português para

Pergunta-Reposta na Web

Pergunte!

• Sistema PR voltado para Língua Portuguesa

• Trabalho de Mestrado de Juliano RabeloCIn – UFPE 2004

• Utiliza a Web como fonte de informação

Arquitetura do Pergunte!

Módulo de Análise da pergunta

• Entrada: Uma pergunta em linguagem natural sem restrições– Como o sistema não possui módulos de perfil do

usuário nem de suporte a diálogo a pergunta submetida não é acompanhada de entradas implícitas.

• Saída: Conjunto de representações da pergunta que serão utilizadas nos estágios subseqüentes.– Classe da pergunta – Termos atômicos– Classes morfológicas das palavras

Exemplo do processamento do módulo

Detalhamento do módulo 1/3

•Classificação das Perguntas–Definição da Taxonomia de Tipos

•12 categorias: Localização, Data, Quantidade, Razão, Porque_Famoso, Modo, Definição, Tradução, Função, Abreviação, Abreviação_Expansão e Nome

–O classificador de perguntas

Detalhamento do Módulo 2/3

• POS-Tagging– Atribuição de classes morfológicas – POS-Tagger treinado para português- Utilização dentro do próprio módulo

(classificação) e no módulo de seleção de documentos candidatos (Const. De Queries)

– Diversas técnicas de implementação de POS-Taggers:

• Baseadas em métodos estatísticos• Modelos de Markov• Árvores de decisão estatísticas• Baseadas em regras

Detalhamento do Módulo 3/3

• Identificação de termos atômicos– Utilização de Heurísticas para

determinação dos termos– Representação da pergunta desse

submódulo serve de entrada para os módulos:

• Seleção de documentos candidatos• Módulo de extração de respostas

– Alguns termos sem identificação• Solução: Utilização de ferramentas linguísticas como

parsers ou NP-Chunkers.

Módulo de Seleção de Documentos Candidatos

Módulo de Seleção de Documentos Candidatos

• Iteração com os engenhos de busca

• Construção de Queries– Papel fundamental em qualquer

sistema de Pergunta-Resposta– Construção de várias queries

diferentes• Reescrita da Pergunta• Termos atômicos • Termos simples

Ordem de relevância

Módulo de Seleção de Documentos Candidatos

• Várias queries• Reescrita da pergunta (mais restritivas, porém mais

precisas)– Ex: Qual é o princípio ativo do Tylenol?– “é o princípio ativo do Tylenol”– “o princípio ativo do Tylenol é”– “o princípio ativo do Tylenol”

• Termos atômicos– Ex: Quem escreveu “O Encontro Marcado”?– “escreveu” AND “O Encontro Marcado”

• Termos simples– “escreveu” AND “Encontro” AND “Marcado”

Módulo de Seleção de Documentos Candidatos

• Seleção de trechos– Utilização de resumos ou dos

documentos inteiros

– Identificação de trechos dos documentos retornados que serão utilizados no Módulo de extração de respostas.

– Uso de stoplist

Módulo de Extração das Respostas

Módulo de Extração das Respostas

• Usa a abordagem de padrões de texto– Não precisa de ferramentas lingüísticas

(parsers, taggers, WordNet...)– Obteve os melhores resultados nas

competições do TREC

• Padrões estáticos• Padrões dinâmicos

Padrão Estático

• Pergunta: Onde está localizado o Cristo Redentor? (tipo: Localização)

• Trecho Candidato: “Construído em 1931, o Cristo Redentor fica no topo do morro do Corcovado, no Rio de Janeiro.”

• Alguns padrões correspondentes ao tipo Localização:– fica no “RESPOSTA”– se situa na “RESPOSTA”– estão localizados em “RESPOSTA”

Padrão Dinâmico

• Pergunta: Quem é o recordista mundial dos 100 metros rasos? (tipo: Nome)

• Queries do tipo Reescrita da Pergunta:– “é o recordista mundial dos 100 metros rasos”– “O recordista mundial dos 100 metros rasos é”– “O recordista mundial dos 100 metros rasos”

• Trecho candidato: “Tim Montgomery, o recordista mundial dos 100 metros rasos, foi o primeiro atleta a alcançar a marca de...”

• Padrões dinâmicos construídos para a pergunta acima:– “RESPOSTA” é o recordista mundial dos 100 metros rasos– o recordista mundial dos 100 metros rasos é “RESPOSTA”– “RESPOSTA” o recordista mundial dos 100 metros rasos– o recordista mundial dos 100 metros rasos “RESPOSTA”

Módulo de Construção do Resultado

Módulo de Construção do Resultado

• Normalização das respostas

– Clustering das respostas candidatas• Baseado no Modelo do Espaço de Vetores

– Centróide + medida do co-seno• Datas agrupadas de maneira especial

– Ordenamento das respostas

Protótipo

• Seguiu a arquitetura apresentada• Orientado a objetos em Java• Reusabilidade, extensibilidade e

modularidade• Metodologia de desenvolvimento

baseada em conceitos de XP• Alguns padrões de projeto foram

aplicados

Testes

• Corpus de 417 perguntas criado a partir do TREC 11– A tradução procurou manter o nível de

dificuldade– Perguntas literalmente traduzidas

• When was the telegraph invented? • Quando o telégrafo foi inventado?

– Perguntas com pequenas adaptações• How high is Mount Kinabalu?• Qual a altura do Monte Kinabalu?

– Perguntas inteiramente reformuladas• What is the democratic party symbol?• Qual é o símbolo do PT?• What river is called “China’s Sorrow”?• Que rio é chamado de “Rio da Integração Nacional”

Resultados

•Classificador de perguntas: 99,04% de acertos

–Taxonomia simples

•Sistema:

Respostas Pergunte! usando

Certas Erradas Sem Resposta

Docs. Completos 250 (59,95%) 82 (19,66%) 85 (20,38%)

Descrição 226 (54,19%) 99 (23,74%) 92 (22,06%)

Conclusão

Contribuições

• Criação do primeiro sistema de Pergunta-Resposta em português na Web– Pode ser estendido ou reutilizado como

um framework em sistemas de Pergunta-Resposta em português

• Construção de um corpus de perguntas em português

Dificuldades encontradas

• Falta de um corpus em português• Limitação de recursos lingüísticos• Poucos documentos em português

na Web• Dificuldades de ordem técnica

– Diversas ferramentas foram utilizadas: JTidy, HttpClient, Castor, jUnit...

Perguntas

?

OBRIGADO!