1. Redes Bayesianas para Recuperao de Informao Estruturada
Carlos Estombelo (estombelo @ gmail.com) Adolfo Neto (adolfo.usp @
gmail.com) Projeto Tidia-Ae (FAPESP) Laboratrio de Informtica em
Sade e ImagCom (LISI) Departamento de Fsica e Matemtica (DFM)
Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto (FFCLRP)
USP Ribeiro Preto Ribeiro Preto, 21 de setembro de 2007
2. Roteiro
Motivao
Objetivo
Proposta dos Autores do Artigo
Problemas Encontrados na Abordagem dos Autores do Artigo
Nossa Proposta
Outros Artigos
3. Motivao
Busca
Temos uma coleo de documentos estruturados e uma consulta
Queremos encontrar as partes de documentos na coleo que
satisfazem a consulta
Queremos uma lista ordenada (por relevncia em relao consulta)
de partes de documentos
Classificao
Categorizar documentos estruturados
Linking
Estabelecer ligaes entre partes de documentos estruturados
4. Motivao: Busca
Por exemplo, temos uma coleo de documentos estruturados sobre
doenas tropicais
Fazemos a consulta mosquito da dengue
Queremos que o sistema retorne algo como:
Doc[345]/Sec[3]/P[1] 0,91
Doc[378]/Sec[5] 0,855
Doc[345]/Sec[3]/P[3] 0,745
Doc[387] 0,65
5. Objetivo
Implementar um sistema de recuperao de informao em colees de
documentos estruturados utilizando redes bayesianas
Por que Redes Bayesianas? So bastante utilizadas em
Aprendizagem de Mquina .
6. Atividade Inicial
Estudar abordagens que utilizem redes bayesianas na implementao
de sistemas de consultas em colees de documentos estruturados
Descobrir como representada a coleo de documentos
Entender como construda a rede bayesiana
Ler os artigos e olhar o cdigo-fonte das aplicaes
disponveis
7. Artigo Estudado
A Bayesian Framework for XML Information Retrieval: Searching
and Learning with the INEX Collection
Framework genrico (adaptvel a diferentes tipos de documentos
estruturados e colees)
Modelo que permita considerar diferentes tarefas de accesso a
informao em um nico formalismo
Modelo que permita executar sofisticadas inferncias
Falta de informao
Existe incerteza
Parmetros do modelo aprendidos a partir dos dados.
FOCO: treinamento da RB estruturada usando como critrio de
treinamento a entropia cruzada.
Recuperao de Informao distribuda
9. Siglas
BN = Bayesian Network = Rede Bayesiana
INEX = Initiative for the Evaluation of XML Retrieval =
Iniciativa para a Avaliao da Recuperao em XML
ML = Maximum Likelihood = Mxima Verossimilhana
EM = Expectation/Estimation Maximization = Maximizao de
Expectativa/Esperana
CE = Cross Entropy = Entropia Cruzada
DOXEL = Document Element = Elemento de Documento
10. EPSIR
Experimental Platform for Structured Information Retrieval
Sistema implementado por Benjamin Piwowarski
Implementao em C/C++
Define linguagem de scripts para obter maior flexibilidade
Utiliza a base de documentos avaliados do INEX 2003
11. Fases do Desenvolvimento do EPSIR Algoritmo de Aprendizagem
Consultas Avaliadas do INEX 2003 Tabelas de Parmetros da Rede
Bayesiana do EPSIR Consulta Qualquer EPSIR RP hs e ERR TREINAMENTO:
EXECUO: Consultas Avaliadas do INEX 2003 EPSIR Lista pontuada de
doxels AVALIAO DE DESEMPENHO:
12. Escala bidimensional INEX
Exaustividade (Ex): descreve o grau que o documento DISCUTE o
tpico requisitado
Especificidade (Sp): descreve o grau que o documento FOCA sobre
o tpico requisitado.
13. Aprendizagem com Redes Bayesianas
Treinar Redes Bayesianas para Recuperao de Informao Estruturada
(RIE/SIR) uma tarefa desafiadora de aprendizagem de mquina.
14. Aprendizagem com Redes Bayesianas
Dificuldades
Heterogeneidade no conjunto de dados:
grande variabilidade no contedo e comprimento dos dxeis
a quantidade de exemplos de treinamento na base de dados do
INEX relativamente pequena com relao a esta variabilidade (30
consultas)
15. Aprendizagem com Redes Bayesianas
Dificuldades
A fase de treinamento exige uma rotulao coerente do conjunto de
dados
A avaliao de consultas para o INEX uma tarefa tediosa e no
trivial
As avaliaes do INEX 2003 no so completas, coerentes e
homogneas
Elas podem levar a julgamentos contraditrios
Ranking uma tarefa mais difcil do que classificao uma vez que
os valores relativos dos scores so importantes
16. Aprendizagem com Redes Bayesianas
Treinar a BN uma aplicao no-standard de aprendizagem de
mquina
Tal situao geralmente exige experimentos extensivos com
diferentes modelos e bastante tuning com os parmetros de
aprendizagem antes de encontrar uma soluo apropriada
17. Aprendizagem com Redes Bayesianas Na figura vemos a
independncia na rede bayesiana: conhecendo a relevncia de um
peridico, a relevncia da coleo de peridicos no tem nenhuma
influncia na relevncia dos artigos deste peridico. Sejam X e Y
independentes dado Z ento: P(X|Y,Z) = P(X|Z). Isto quer dizer que
se o objetivo saber a probabilidade de X ento tanto faz o valor de
Y se voc ja sabe o valor de Z. No caso deste trabalho seria: P(Xi |
pai(Xi))
18. Aprendizagem com Redes Bayesianas Na figura vemos um pedao
de uma rede bayesiana utilizada para representar uma consulta sobre
uma base de documentos. Os ns Baseline model i for Nj (Mi)
representam a relevncia dos ns relativamente a uma consulta usando
um modelo como o Okapi.
19. Aprendizagem com Redes Bayesianas No modelo a probabilidade
que o elemento X esteja no estado {I, B, E} depende somente do
estado de seu pai e do resultados dos modelos baseline (R, -R)
Tabela de probabilidades condicionais associadas ao n X [Parmetros
a serem aprendidos] Para reduzir ou limitar o nmero de parmetros
livres, os doxel se agrupam em categorias e estes doxel utilizaram
a mesma tabela de probabilidades condicionais
20. Aprendizagem com Redes Bayesianas
O treinamento de uma BN geralmente feito maximizando a
probabilidade do modelo em relao a um conjunto de treinamento.
Diferentes algoritmos podem ser utilizados para isso.
Um dos mais populares o algoritmo EM (Estimation-Maximisation)
- Dempster e outros, 1977
Learning Probabilistic Networks, PJ Krause, 1998, faz uma
reviso dos algoritmos de treinamento para BNs
21. Aprendizagem com Redes Bayesianas
Neste trabalho, para cada consulta, o conjunto de variveis com
evidncia consiste de todas as variveis associadas a ns com um
julgamento de relevncia.
Todos os outros estados de variveis so desconhecidos ou
escondidos na terminologia de BNs.
Mtodos iterativos como EM tm que ser usados para
treinamento.
22. Aprendizagem com Redes Bayesianas
O algoritmo permite o aprendizado das probabilidades
condicionais: a probabilidade dos dados aumenta regularmente com as
iteraes do EM
Porm, experimentos feitos com maximum likelihood EM no INEX
levaram a resultados desapontadores.
23. Aprendizagem com Redes Bayesianas
Proposta dos Autores - usar outro critrio de treinamento: a
entropia cruzada (CE) entre uma distribuio alvo e a distribuio
aprendida pela BN
Este critrio permitiu atingir uma performance mais satisfatria,
o que foi promissor
Reflete mais aproximadamente o objetivo de aprendizagem para
SIR, e permite um treinamento mais rpido do que o algoritmo EM
Para aprender as probabilidades condicionais dos ns com CE, um
mapeamento precisa ser definido entre uma avaliao e seu valor de
varivel associada ao n.
24. Mapeamento
Mapeando a escala de relevncia do INEX para a distribuio de
probabilidade dos estados da BN:
1 0 0 Ex 0 Sp 0 0.5 0.5 0 Ex 1 Sp 1 0.5 0.25 0.25 Ex 1 Sp 2 0.5 0
0.5 Ex 1 Sp 3 0.25 0.75 0 Ex 2 Sp 1 0.25 0.375 0.375 Ex 2 Sp 2 0.25
0 0.75 Ex 2 Sp 3 0 1 0 Ex 3 Sp 1 0 0.5 0.5 Ex 3 Sp 2 0 0 1 Ex 3 Sp
3 I B E P(X=...)
25. O Algoritmo de Treinamento
O critrio de treinamento a entropia cruzada entre os valores
das variveis alvo (como definidos pelo mapeamento anterior) e os
valores calculados pela BN:
Q( )=- q peso(q) j vj V P T (X j =v j |q)logP (X j =v j
|q)
Onde P a probabilidade a ser estimada
E P T a distribuio alvo
26. O Algoritmo de Treinamento
Normalizamos a contribuio de cada consulta fazendo:
Peso(q) = (quantidade de ns acessados) -1
A somatria de q sobre o conjunto de todas as consultas de
treinamento
A somatria de j sobre o conjunto de todas as variveis X j com
uma distribuio de probabilidade conhecida P T (X j =v j |q) para v
j V.
27. O Algoritmo de Treinamento
O conjunto de variveis X j corresponde ao conjunto de doxels
com uma avaliao conhecida no conjunto de documentos de
treinamento.
Comparado ML, este critrio fornece uma aproximao melhor da
distribuio desejada nos diferentes ns e neste sentido est mais
prximo do objetivo de aprendizagem para SIR.
28. O Algoritmo de Treinamento
A minimizao de Q( ) pode ser efetuada via gradient descent
(descida em gradiente ou gradiente descendente)
A derivada de erro com relao ao parmetro :
onde as somatrias so as mesmas da frmula de Q( ) .
29. O Algoritmo de Treinamento
A frmula de atualizao para o parmetro :
30. O Algoritmo de Treinamento
Onde:
a taxa de aprendizagem
As primeiras somatrias sobre q, j e v so as mesmas
Na segunda somatria ( l anc(j)), para cada valor v j de varivel
X j com avaliao conhecida, somamos todas as contribuies, com relao
a um dado parmetro , dos seus pares ancestrais (X l , pai X pa(l) )
onde X l um ancestral de X j .
31. O Algoritmo de Treinamento
Onde:
Esta contribuio modulada pelo termo de erro
e pela probabilidade de que X j esteja no estado v j se seus
ancestrais X l e X pa(l) estiverem respectivamente nos estados v l
e v pa(l) .
32. O Algoritmo de Treinamento
A implementao do algoritmo segue diretamente da frmula
anterior:
Loop nas consultas
Loop em cada n da BN para o qual temos uma avaliao para a
consulta
Loop nos valores diferentes da varivel anterior
Todos os parmetros so atualizados em paralelo
33. O Algoritmo de Treinamento
Treinar um n apenas exige o conhecimento dos valores dos seus
ancestrais, o que leva a um algoritmo de treinamento muito mais
rpido do que o EM.
A razo que o critrio de CE definido apenas para as variveis
para as quais existe uma avaliao.
34. Experimentos
30 consultas do INEX 2003 divididas em dois conjuntos (A e B)
de 15 consultas cada
Cada conjunto foi usado alternadamente para treinamento e
teste: treinamento foi feito com A e teste com B, e
vice-versa.
Em todos os experimentos a curva de erro para CE claramente
diminuiu tanto para treinamento como para teste, significando que o
algoritmo de fato otimiza de forma efetiva o critrio de CE.
35. Experimentos
Isto significa que o erro rapidamente chega a um mnimo, depois
de aproximadamente 1000 iteraes.
36. Problemas Encontrados na Abordagem dos Autores do Artigo
Depende de uma coleo de documentos estruturados avaliada
(INEX)
Esta coleo no de livre acesso
No existe uma medida padro de performance do SRI devido a que
no existe um objetivo bem definido na aprendizagem.
A quantidade de exemplos de treinamento na base de dados do
INEX relativamente pequena com relao a esta variabilidade (30
consultas)
37. Problemas Encontrados na Abordagem dos Autores do Artigo
A coleo INEX 2007 diferente da coleo INEX 2003, na INEX 2007 no
tem mais a exaustividade, somente existe a escala de especificidade
e aps o usurio avaliar o documento com o sistema de avaliao, este
calcula um valor entre 0 e 1 para esta especifidade com relao ao
documento.
38. Nossa Proposta
Estudar com profundidade a abordagem EPSIR
Implementar uma verso adaptada ao INEX 2007 do algoritmo
utilizado pelo EPSIR
Testar com a base do INEX 2007
como existe somente a especificidade entre 0 e 1, poderamos
discretizar essa faixa .
Pesquisar formas de melhorar o algoritmo
Aps a montagem bsica o sistema a proposta de utilizar uma
entropia diferente (Tsallis).
Continuar focando em um treinamento robusto com a coleo INEX
2007.
Implementar, testar e comparar
Publicar os resultados obtidos
39. Outros artigos
Classificao:
A Belief Networks-Based Generative Model for Structured
Documents. An Application to the XML Categorization. Ludovic
Denoyer and Patrick Gallinari. 2003.
Calcula a probabilidade de que um documento faa parte de uma
categoria utilizando informaes estruturais
Utiliza o algoritmo EM para aprender os parmetros da rede
bayesiana (algoritmo que foi descartado no trabalho sobre
busca)
40. Outros artigos
Classificao:
Outro artigo:
Bayesian network model for semi-structured document
classification. Ludovic Denoyer and Patrick Gallinari. 2004.
41. Outros artigos
Linking:
Collaborative Knowledge Management: Evaluation of Automated
Link Discovery in the Wikipedia. Wei Che Huang, Andrew Trotman e
Shlomo Geva. 2007
Descrio da Link-the-Wiki Track no INEX 2007
42.
43. FIM!
44. Slides Extras
45. Aprendizagem com Redes Bayesianas com EM
Para o treinamento de ML com este modelo, cada varivel X deve
tomar um e apenas um valor entre I, B ou E.
As avaliaes do INEX so numa escala bidimensional
(Exaustividade, Especificidade) com 4 valores possveis em cada
dimenso
Desses 4x4 valores possveis, apenas 10 so vlidos
Cada uma dessas 10 avaliaes deve ento ser mapeada no espao
tridimensional V={I, B, E}
Dito de outra forma, para cada avaliao de doxel X, associamos
valores alvo 1 ou 0 para as probabilidades
P(X=vx | variveis pai de X na BN, q) para vx V
Perdemos uma grande parte da informao presente nas avaliaes uma
vez que o espao de avaliaes com 10 dimenses mapeado em um espao V
tridimensional
46. Aprendizagem com Redes Bayesianas com EM
Porm, para estes experimentos diferentes, o desempenho medido
com highly specific inex_eval ou ERR foi menor do que a obtida com
Okapi D-P ou D-T sozinhos.
Possveis razes:
Pequena quantidade de doxels avaliados na coleo
A rotulao de variveis observadas na BN para o algoritmo ML
reduz a quantidade de informao
47. Aprendizagem com Redes Bayesianas com EM
A distribuio de probabilidade alvo apenas uma aproximao
bastante crua do objetivo de aprendizagem que deveria refletir o
ranking desejado dos doxels.
Aprender uma distribuio de probabilidade mais adequada iria
envolver um modelo de BN mais complexo, que incluiria variveis
randmicas reais.
Isto seria proibitivo para SIR.
48. O Algoritmo de Treinamento
Diferentes algoritmos de gradiente poderiam ter sido
utilizados.
Para os experimentos foi usado um algoritmo de gradiente
descendente simples ( simple gradient descent algorithm ) onde a
taxa de aprendizagem foi configurada automaticamente por uma busca
em linha ( line search ).
49. O Algoritmo de Treinamento
Foi usado o algoritmo de Armijo que encontra o maior epsilon
para o qual:
=0.3 nos experimentos.
Valor inicial de 0.1 para (0)
Dividir este valor por 2 at que a desigualdade acima seja
verificada.
Os parmetros foram ento atualizados para + (opt) Q().