Redes Bayesianas para Recuperação de Informação Estruturada
49
Redes Bayesianas para Recuperação de Informação Estruturada Carlos Estombelo (estombelo @ gmail.com) Adolfo Neto (adolfo.usp @ gmail.com) Projeto Tidia-Ae (FAPESP) Laboratório de Informática em Saúde e ImagCom (LISI) Departamento de Física e Matemática (DFM) Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto (FFCLRP) USP – Ribeirão Preto Ribeirão Preto, 21 de setembro de 2007
-
Upload
adolfo-neto -
Category
Technology
-
view
1.566 -
download
6
description
Redes Bayesianas para Recuperação de Informação Estruturada, Adolfo Neto e Carlos Estombelo
Transcript of Redes Bayesianas para Recuperação de Informação Estruturada
- 1. Redes Bayesianas para Recuperao de Informao Estruturada Carlos Estombelo (estombelo @ gmail.com) Adolfo Neto (adolfo.usp @ gmail.com) Projeto Tidia-Ae (FAPESP) Laboratrio de Informtica em Sade e ImagCom (LISI) Departamento de Fsica e Matemtica (DFM) Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto (FFCLRP) USP Ribeiro Preto Ribeiro Preto, 21 de setembro de 2007
- 2. Roteiro
- Motivao
- Objetivo
- Proposta dos Autores do Artigo
- Problemas Encontrados na Abordagem dos Autores do Artigo
- Nossa Proposta
- Outros Artigos
- 3. Motivao
- Busca
-
- Temos uma coleo de documentos estruturados e uma consulta
-
- Queremos encontrar as partes de documentos na coleo que satisfazem a consulta
-
- Queremos uma lista ordenada (por relevncia em relao consulta) de partes de documentos
- Classificao
-
- Categorizar documentos estruturados
- Linking
-
- Estabelecer ligaes entre partes de documentos estruturados
- 4. Motivao: Busca
- Por exemplo, temos uma coleo de documentos estruturados sobre doenas tropicais
- Fazemos a consulta mosquito da dengue
- Queremos que o sistema retorne algo como:
-
- Doc[345]/Sec[3]/P[1] 0,91
-
- Doc[378]/Sec[5] 0,855
-
- Doc[345]/Sec[3]/P[3] 0,745
-
- Doc[387] 0,65
- 5. Objetivo
- Implementar um sistema de recuperao de informao em colees de documentos estruturados utilizando redes bayesianas
- Por que Redes Bayesianas? So bastante utilizadas em Aprendizagem de Mquina .
- 6. Atividade Inicial
- Estudar abordagens que utilizem redes bayesianas na implementao de sistemas de consultas em colees de documentos estruturados
-
- Descobrir como representada a coleo de documentos
-
- Entender como construda a rede bayesiana
-
-
- Ler os artigos e olhar o cdigo-fonte das aplicaes disponveis
-
- 7. Artigo Estudado
- A Bayesian Framework for XML Information Retrieval: Searching and Learning with the INEX Collection
- Information Retrieval, Springer (Qualis A)
- Volume 8, Number 4 / December, 2005
- Benjamin Piwowarski e Patrick Gallinari
- http://www.springerlink.com/content/gn25xp4p35j88205
- 8. Proposta dos Autores do Artigo
- Framework genrico (adaptvel a diferentes tipos de documentos estruturados e colees)
- Modelo que permita considerar diferentes tarefas de accesso a informao em um nico formalismo
- Modelo que permita executar sofisticadas inferncias
-
- Falta de informao
-
- Existe incerteza
- Parmetros do modelo aprendidos a partir dos dados.
- FOCO: treinamento da RB estruturada usando como critrio de treinamento a entropia cruzada.
- Recuperao de Informao distribuda
- 9. Siglas
- BN = Bayesian Network = Rede Bayesiana
- INEX = Initiative for the Evaluation of XML Retrieval = Iniciativa para a Avaliao da Recuperao em XML
- ML = Maximum Likelihood = Mxima Verossimilhana
- EM = Expectation/Estimation Maximization = Maximizao de Expectativa/Esperana
- CE = Cross Entropy = Entropia Cruzada
- DOXEL = Document Element = Elemento de Documento
- 10. EPSIR
- Experimental Platform for Structured Information Retrieval
- Sistema implementado por Benjamin Piwowarski
- Implementao em C/C++
- Define linguagem de scripts para obter maior flexibilidade
- Utiliza a base de documentos avaliados do INEX 2003
- 11. Fases do Desenvolvimento do EPSIR Algoritmo de Aprendizagem Consultas Avaliadas do INEX 2003 Tabelas de Parmetros da Rede Bayesiana do EPSIR Consulta Qualquer EPSIR RP hs e ERR TREINAMENTO: EXECUO: Consultas Avaliadas do INEX 2003 EPSIR Lista pontuada de doxels AVALIAO DE DESEMPENHO:
- 12. Escala bidimensional INEX
- Exaustividade (Ex): descreve o grau que o documento DISCUTE o tpico requisitado
- Especificidade (Sp): descreve o grau que o documento FOCA sobre o tpico requisitado.
- 13. Aprendizagem com Redes Bayesianas
- Treinar Redes Bayesianas para Recuperao de Informao Estruturada (RIE/SIR) uma tarefa desafiadora de aprendizagem de mquina.
- 14. Aprendizagem com Redes Bayesianas
- Dificuldades
-
- Heterogeneidade no conjunto de dados:
-
-
- grande variabilidade no contedo e comprimento dos dxeis
-
-
-
- a quantidade de exemplos de treinamento na base de dados do INEX relativamente pequena com relao a esta variabilidade (30 consultas)
-
- 15. Aprendizagem com Redes Bayesianas
- Dificuldades
-
- A fase de treinamento exige uma rotulao coerente do conjunto de dados
-
-
- A avaliao de consultas para o INEX uma tarefa tediosa e no trivial
-
-
-
- As avaliaes do INEX 2003 no so completas, coerentes e homogneas
-
-
-
- Elas podem levar a julgamentos contraditrios
-
-
- Ranking uma tarefa mais difcil do que classificao uma vez que os valores relativos dos scores so importantes
- 16. Aprendizagem com Redes Bayesianas
- Treinar a BN uma aplicao no-standard de aprendizagem de mquina
- Tal situao geralmente exige experimentos extensivos com diferentes modelos e bastante tuning com os parmetros de aprendizagem antes de encontrar uma soluo apropriada
- 17. Aprendizagem com Redes Bayesianas Na figura vemos a independncia na rede bayesiana: conhecendo a relevncia de um peridico, a relevncia da coleo de peridicos no tem nenhuma influncia na relevncia dos artigos deste peridico. Sejam X e Y independentes dado Z ento: P(X|Y,Z) = P(X|Z). Isto quer dizer que se o objetivo saber a probabilidade de X ento tanto faz o valor de Y se voc ja sabe o valor de Z. No caso deste trabalho seria: P(Xi | pai(Xi))
- 18. Aprendizagem com Redes Bayesianas Na figura vemos um pedao de uma rede bayesiana utilizada para representar uma consulta sobre uma base de documentos. Os ns Baseline model i for Nj (Mi) representam a relevncia dos ns relativamente a uma consulta usando um modelo como o Okapi.
- 19. Aprendizagem com Redes Bayesianas No modelo a probabilidade que o elemento X esteja no estado {I, B, E} depende somente do estado de seu pai e do resultados dos modelos baseline (R, -R) Tabela de probabilidades condicionais associadas ao n X [Parmetros a serem aprendidos] Para reduzir ou limitar o nmero de parmetros livres, os doxel se agrupam em categorias e estes doxel utilizaram a mesma tabela de probabilidades condicionais
- 20. Aprendizagem com Redes Bayesianas
- O treinamento de uma BN geralmente feito maximizando a probabilidade do modelo em relao a um conjunto de treinamento.
- Diferentes algoritmos podem ser utilizados para isso.
- Um dos mais populares o algoritmo EM (Estimation-Maximisation) - Dempster e outros, 1977
- Learning Probabilistic Networks, PJ Krause, 1998, faz uma reviso dos algoritmos de treinamento para BNs
- 21. Aprendizagem com Redes Bayesianas
- Neste trabalho, para cada consulta, o conjunto de variveis com evidncia consiste de todas as variveis associadas a ns com um julgamento de relevncia.
- Todos os outros estados de variveis so desconhecidos ou escondidos na terminologia de BNs.
- Mtodos iterativos como EM tm que ser usados para treinamento.
- 22. Aprendizagem com Redes Bayesianas
- O algoritmo permite o aprendizado das probabilidades condicionais: a probabilidade dos dados aumenta regularmente com as iteraes do EM
- Porm, experimentos feitos com maximum likelihood EM no INEX levaram a resultados desapontadores.
- 23. Aprendizagem com Redes Bayesianas
- Proposta dos Autores - usar outro critrio de treinamento: a entropia cruzada (CE) entre uma distribuio alvo e a distribuio aprendida pela BN
- Este critrio permitiu atingir uma performance mais satisfatria, o que foi promissor
- Reflete mais aproximadamente o objetivo de aprendizagem para SIR, e permite um treinamento mais rpido do que o algoritmo EM
- Para aprender as probabilidades condicionais dos ns com CE, um mapeamento precisa ser definido entre uma avaliao e seu valor de varivel associada ao n.
- 24. Mapeamento
- Mapeando a escala de relevncia do INEX para a distribuio de probabilidade dos estados da BN:
- 25. O Algoritmo de Treinamento
- O critrio de treinamento a entropia cruzada entre os valores das variveis alvo (como definidos pelo mapeamento anterior) e os valores calculados pela BN:
- Q( )=- q peso(q) j vj V P T (X j =v j |q)logP (X j =v j |q)
- Onde P a probabilidade a ser estimada
- E P T a distribuio alvo
- 26. O Algoritmo de Treinamento
- Normalizamos a contribuio de cada consulta fazendo:
-
- Peso(q) = (quantidade de ns acessados) -1
- A somatria de q sobre o conjunto de todas as consultas de treinamento
- A somatria de j sobre o conjunto de todas as variveis X j com uma distribuio de probabilidade conhecida P T (X j =v j |q) para v j V.
- 27. O Algoritmo de Treinamento
- O conjunto de variveis X j corresponde ao conjunto de doxels com uma avaliao conhecida no conjunto de documentos de treinamento.
- Comparado ML, este critrio fornece uma aproximao melhor da distribuio desejada nos diferentes ns e neste sentido est mais prximo do objetivo de aprendizagem para SIR.
- 28. O Algoritmo de Treinamento
- A minimizao de Q( ) pode ser efetuada via gradient descent (descida em gradiente ou gradiente descendente)
- A derivada de erro com relao ao parmetro :
- 29. O Algoritmo de Treinamento
- A frmula de atualizao para o parmetro :
- 30. O Algoritmo de Treinamento
- Onde:
-
- a taxa de aprendizagem
-
- As primeiras somatrias sobre q, j e v so as mesmas
-
- Na segunda somatria ( l anc(j)), para cada valor v j de varivel X j com avaliao conhecida, somamos todas as contribuies, com relao a um dado parmetro , dos seus pares ancestrais (X l , pai X pa(l) ) onde X l um ancestral de X j .
- 31. O Algoritmo de Treinamento
- Onde:
-
- Esta contribuio modulada pelo termo de erro
-
- e pela probabilidade de que X j esteja no estado v j se seus ancestrais X l e X pa(l) estiverem respectivamente nos estados v l e v pa(l) .
- 32. O Algoritmo de Treinamento
- A implementao do algoritmo segue diretamente da frmula anterior:
-
- Loop nas consultas
-
- Loop em cada n da BN para o qual temos uma avaliao para a consulta
-
- Loop nos valores diferentes da varivel anterior
- Todos os parmetros so atualizados em paralelo
- 33. O Algoritmo de Treinamento
- Treinar um n apenas exige o conhecimento dos valores dos seus ancestrais, o que leva a um algoritmo de treinamento muito mais rpido do que o EM.
- A razo que o critrio de CE definido apenas para as variveis para as quais existe uma avaliao.
- 34. Experimentos
- 30 consultas do INEX 2003 divididas em dois conjuntos (A e B) de 15 consultas cada
- Cada conjunto foi usado alternadamente para treinamento e teste: treinamento foi feito com A e teste com B, e vice-versa.
- Em todos os experimentos a curva de erro para CE claramente diminuiu tanto para treinamento como para teste, significando que o algoritmo de fato otimiza de forma efetiva o critrio de CE.
- 35. Experimentos
- Isto significa que o erro rapidamente chega a um mnimo, depois de aproximadamente 1000 iteraes.
- 36. Problemas Encontrados na Abordagem dos Autores do Artigo
- Depende de uma coleo de documentos estruturados avaliada (INEX)
- Esta coleo no de livre acesso
- No existe uma medida padro de performance do SRI devido a que no existe um objetivo bem definido na aprendizagem.
- A quantidade de exemplos de treinamento na base de dados do INEX relativamente pequena com relao a esta variabilidade (30 consultas)
- 37. Problemas Encontrados na Abordagem dos Autores do Artigo
- A coleo INEX 2007 diferente da coleo INEX 2003, na INEX 2007 no tem mais a exaustividade, somente existe a escala de especificidade e aps o usurio avaliar o documento com o sistema de avaliao, este calcula um valor entre 0 e 1 para esta especifidade com relao ao documento.
- 38. Nossa Proposta
- Estudar com profundidade a abordagem EPSIR
- Implementar uma verso adaptada ao INEX 2007 do algoritmo utilizado pelo EPSIR
- Testar com a base do INEX 2007
-
- como existe somente a especificidade entre 0 e 1, poderamos discretizar essa faixa .
- Pesquisar formas de melhorar o algoritmo
-
- Aps a montagem bsica o sistema a proposta de utilizar uma entropia diferente (Tsallis).
-
- Continuar focando em um treinamento robusto com a coleo INEX 2007.
- Implementar, testar e comparar
- Publicar os resultados obtidos
- 39. Outros artigos
- Classificao:
-
- A Belief Networks-Based Generative Model for Structured Documents. An Application to the XML Categorization. Ludovic Denoyer and Patrick Gallinari. 2003.
-
- Calcula a probabilidade de que um documento faa parte de uma categoria utilizando informaes estruturais
-
- Utiliza o algoritmo EM para aprender os parmetros da rede bayesiana (algoritmo que foi descartado no trabalho sobre busca)
- 40. Outros artigos
- Classificao:
-
- Outro artigo:
-
-
- Bayesian network model for semi-structured document classification. Ludovic Denoyer and Patrick Gallinari. 2004.
-
- 41. Outros artigos
- Linking:
-
- Collaborative Knowledge Management: Evaluation of Automated Link Discovery in the Wikipedia. Wei Che Huang, Andrew Trotman e Shlomo Geva. 2007
-
- Descrio da Link-the-Wiki Track no INEX 2007
- 42.
- 43. FIM!
- 44. Slides Extras
- 45. Aprendizagem com Redes Bayesianas com EM
- Para o treinamento de ML com este modelo, cada varivel X deve tomar um e apenas um valor entre I, B ou E.
- As avaliaes do INEX so numa escala bidimensional (Exaustividade, Especificidade) com 4 valores possveis em cada dimenso
- Desses 4x4 valores possveis, apenas 10 so vlidos
- Cada uma dessas 10 avaliaes deve ento ser mapeada no espao tridimensional V={I, B, E}
- Dito de outra forma, para cada avaliao de doxel X, associamos valores alvo 1 ou 0 para as probabilidades
- P(X=vx | variveis pai de X na BN, q) para vx V
- Perdemos uma grande parte da informao presente nas avaliaes uma vez que o espao de avaliaes com 10 dimenses mapeado em um espao V tridimensional
- 46. Aprendizagem com Redes Bayesianas com EM
- Porm, para estes experimentos diferentes, o desempenho medido com highly specific inex_eval ou ERR foi menor do que a obtida com Okapi D-P ou D-T sozinhos.
- Possveis razes:
-
- Pequena quantidade de doxels avaliados na coleo
-
- A rotulao de variveis observadas na BN para o algoritmo ML reduz a quantidade de informao
- 47. Aprendizagem com Redes Bayesianas com EM
- A distribuio de probabilidade alvo apenas uma aproximao bastante crua do objetivo de aprendizagem que deveria refletir o ranking desejado dos doxels.
- Aprender uma distribuio de probabilidade mais adequada iria envolver um modelo de BN mais complexo, que incluiria variveis randmicas reais.
- Isto seria proibitivo para SIR.
- 48. O Algoritmo de Treinamento
- Diferentes algoritmos de gradiente poderiam ter sido utilizados.
- Para os experimentos foi usado um algoritmo de gradiente descendente simples ( simple gradient descent algorithm ) onde a taxa de aprendizagem foi configurada automaticamente por uma busca em linha ( line search ).
- 49. O Algoritmo de Treinamento
- Foi usado o algoritmo de Armijo que encontra o maior epsilon para o qual:
- =0.3 nos experimentos.
- Valor inicial de 0.1 para (0)
- Dividir este valor por 2 at que a desigualdade acima seja verificada.
- Os parmetros foram ento atualizados para + (opt) Q().