O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico,...

17
O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon

Transcript of O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico,...

Page 1: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

O sistema CaGE e a participação no segundo HAREM

Bruno Martins

Instituto Superior Técnico, Technical University of Lisbon

Page 2: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Motivação• As referências geográficas e temporais ocorrem com abundância sobre

documentos textuais (e.g., páginas Web, RSS feeds, …)

• A extracção da informação geo-temporal (e.g., nomes de locais e nomes de períodos temporais) presente nos textos pode servir de suporte para serviços de indexação/pesquisa/navegação com base em critérios geo-temporais.

• Ambiguidade é o maior problema:• Diferentes nomes para o mesmo local• Locais diferentes com o mesmo nome• Mesmo nome para locais e outras entidades• Variações ao longo do tempo e do espaço

O sistema CaGE aborda o problema do reconhecimento e desambiguação

de referências geo-temporais

Associar as referências presentes nos textos a entradas num almanaque

Page 3: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Resumo da apresentação

• Motivação

• Apresentação do sistema CaGE

• Especificidades das referências geo-temporais

• Um serviço Web com base no sistema CaGE

• Participação no HAREM 2 e resultados obtidos

• Conclusões e trabalho futuro

Page 4: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Apresentação do sistema CaGE

• Reconhecimento de entidades mencionadas com base em dicionários (i.e., almanaques) e regras

• Extensão para desambiguação de nomes de locais e nomes de períodos temporais, com base em heurísticas e um almanaque específico desenvolvido no projecto DIGMAP

• Extensão para atribuição de âmbitos geográficos a documentos, com base nos locais reconhecidos no texto

Não necessita dados de treino (apenas dicionários específicos), fácil de adaptar a outras línguas e tarefas de reconhecimento.

Page 5: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Dicionários usados pelo sistema CaGE

• Nomes de pessoas, organizações e periodos temporais– Base de dados REPENTINO (REPositório para reconhecimento de ENtidades NOmeadas)

– Internet Movie DataBase– Wikipedia (e.g., listas de períodos temporais e de nomes comuns)– ECAI TimePeriod directory (traduções para Português)– Dicionários distribuídos com o sistema de IE/REM Balie

• Nomes de locais– GeoNET (combinação do GeoNET-PT e ML)– Base de dados disponibilizada pelo www.geonames.org– Nomes no almanaque do projecto DIGMAP– Lista de excepções construída manualmente

Page 6: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Funcionamento do CaGE

• Reconhecimento de entidades mencionadas– Atomização dos textos– Janela deslizante sobre os átomos identificados no texto (até 6 palavras)– EMs começam com maiúsculas e não ocorrem apenas no início de frases.– Mapeamento da EM máxima com entidades presentes nos dicionários– Expressões regulares para algumas entidades temporais (e.g., datas)

• Ambiguidade entre vários tipos de entidades– Regras desenvolvidas manualmente, utilizando palavras adjacentes– Classificação round-robin entre os vários tipos possíveis

• Tratamento das entidades geográficas e temporais– Desambiguação e “grounding” com base em almanaque específico

Page 7: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

O almanaque usado na desambiguação das referências geo-temporais

• Base de dados de locais e períodos temporais– Nomes, coordenadas, períodos, relações e outras informações

• Pode ser acedido por um serviço Web XML (interface ADL)• Integra dados de múltiplas fontes (e.g. geonames.org)

http://gaz.digmap.eu/

Estatística Valor

Locais 7,034,538

Nomes de locais 15,026,983

Tipos de locais 210

Periodos temporais 1,989

Nomes periodos temp. 3,782

Locais com coordenadas 66,211,38

Tipos de relações 5

Locais com relações 431,397

Número de relações 866,019

Relações entre locais e periodos 1,989

Page 8: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Específicidades das referências geográficas e temporais

• Desambiguação e grounding das referências a locais– Pesquisar no almanaque os locais com o mesmo nome e tipo– Ordenar possibilidades com base na heurística “um sentido por defeito”

• Locais mais gerais (e.g., países e continentes) têm preferência

– Ajustes com base na heurística “referências relacionadas”• Locais no mesmo documento estão semanticamente relacionados (e.g., parte-de)

• Desambiguação e grouding das referências temporais– Regras para converter as representações textuais das datas– Pesquisar no almanaque os nomes de períodos temporais

• Atribuição de âmbitos aos documentos– Entrada no almanaque que melhor combina os locais reconhecidos– Intervalo de tempo que cobre os vários intervalos reconhecidos no texto

Page 9: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Atribuição de âmbitos geográficos

EuropaEuropa

EspanhaEspanha PortugalPortugal

MadridMadrid BarcelonaBarcelona LisboaLisboa PortoPortoweightx weighty

(weightx*0.75)+(weighty*0.75)

(weightx*0.752)+(weighty*0.752)

• Algoritmo simples que explora as relações hierárquicas (Amitay et al., 2005)

• Pesos iniciais correspondentes às ocorrências no texto são propagados através das relações hierárquicas definidas entre as entradas do almanaque

• Função quadrática para ajustar os pesos de acordo com o nível hierárquico

Page 10: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Um serviço Web baseado no CaGE• Serviço Web XML online em http://geoparser.digmap.eu

– Serviço segue a OGC’s Geoparser draft implementation specification– Suporta ainda os formatos HAREM, geoRSS and SpatialML (com XSLTs)

• Interface para exploração de feeds RSS com TimeLines+Mapas• Locais e períodos temporais ligados a entradas no almanaque

– Nomes de locais e âmbitos dos documentos associados a coordenadas– Períodos temporais e âmbitos temporais associados a intervalos de tempo

Page 11: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Participação no segundo HAREM

• Quatro runs submetidas ao segundo HAREM

1. Vários dicionários, locais no almanaque específico• Apenas os locais presentes no almanaque usado na desambiguação e

grounding foram anotados pelo sistema

2. Vários dicionários, excepto lista de excepções

3. Apenas dicionários de locais e períodos temporais• Não eram reconhecidos os restantes tipos de entidades

4. Vários dicionários

Page 12: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Resultados experimentais

• Resultados obtidos no primeiro HAREM– Versão anterior do sistema CaGE lidando apenas com reconhecimento de locais– Dicionários baseados apenas no GeoNET

• Resultados obtidos no HAREM2, cenário 2– Considera vários tipos de entidades (i.e., locais, tempo, organizações e pessoas) e sub-

tipos para as entidades do tipo local

• Resultados obtidos no HAREM2, cenário 5– Considera apenas entidades do tipo local, excepto o sub-tipo VIRTUAL

• Experiências focando na atribuição de âmbitos– Experiências com 511 documentos (i.e., registos bibliográficos do projecto DIGMAP)

manualmente atribuídos a âmbitos geográficos e temporais

Page 13: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Resultados no primeiro HAREM

• Participação num cenário limitado à identificação de entidades do tipo local• Semelhante ao cenário selectivo 5 do segundo HAREM

Resultados modestos obtidos no HAREM e no MiniHAREM, com uma diferença de cerca de 0.1 em termos da medida-F para com o melhor sistema participante

Page 14: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Resultados no cenário selectivo 2

Classificação Posição Precisão Abrangência Medida-F MaxCD MaxSis

4 14 0.4264 0.407 0.4164 10489.2103 10012.6786

1 16 0.4277 0.4025 0.4148 10489.2103 9871.3095

2 17 0.4226 0.4059 0.4141 10489.2103 10074.4286

3 20 0.3883 0.35 0.3682 10489.2103 9455.5744

Melhores resultados 0.7347 0.5893 0.6325

Identificação Posição Precisão Abrangência Medida-F Sobre-ger Sub-ger TotalEMCD TotalEMSis

4 16 0.4615 0.4553 0.4584 0.5385 0.5447 5538.3333 5463.5

1 17 0.4643 0.452 0.4581 0.5357 0.548 5538.3333 5391.5

2 18 0.4576 0.4547 0.4562 0.5424 0.5453 5538.3333 5503.5

3 20 0.4225 0.3929 0.4072 0.5775 0.6071 5538.3333 5151.1667

Melhores resultados 0.8561 0.7127 0.6813

Diferença de aprox. 0.2 em termos da medida-F para com o melhor resultado

Page 15: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Resultados no cenário selectivo 5

Identificação Posição Precisão Abrangência Medida-F Sobre-ger Sub-ger TotalEMCD TotalEMSis

4 11 0.5198 0.6788 0.5888 0.4802 0.3212 1418 1851.5

2 12 0.5091 0.6802 0.5823 0.4909 0.3198 1418 1894.5

1 13 0.5049 0.6781 0.5788 0.4951 0.3219 1418 1904.5

3 14 0.5084 0.6689 0.5777 0.4916 0.3311 1418 1865.5

Melhores resultados 0,7186 0,7856 0,6572

Classificação Posição Precisão Abrangência Medida-F MaxCD MaxSis

4 11 0.5267 0.5844 0.554 2087.8214 2316.5774

2 12 0.5196 0.5851 0.5504 2087.8214 2351.3274

1 13 0.5147 0.5802 0.5455 2087.8214 2353.747

3 14 0.5178 0.5754 0.5451 2087.8214 2319.8274

Melhores resultados 0,7080 0,70236 0,6246

Diferença de aprox. 0.1 na medida-F para o melhor resultado

Diferença de aprox. 0.1 na medida-F em relação ao MiniHAREM

Resultados ligueiramente melhores que no cenário selectivo 2

Page 16: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Resultados na atribuição de âmbitos• Documentos na colecção de teste manualmente atribuídos a uma caixa delimitadora

• Medir a diferença entre os âmbitos geográficos atribuídos manual- e automaticamente

•A baseline 1 corresponde ao âmbito mais frequente e baseline 2 à área mais abrangente

Âmbitos geográficos atribuídos a mais de 75% dos documentos, e em mais de 50% dos casos com um erro inferior a 25Km

Page 17: O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Conclusões e Trabalho Futuro

O sistema CaGE e a participação no segundo HAREM– Reconhecer referências geo-temporais em documentos textuais.– Atribuir âmbitos aos documentos com base nas referências.– Disponível como um serviço Web produzindo anotações XML.– Resultados modestos no segundo HAREM.

Trabalho futuro• Melhorar precisão e abrangência do sistema

– Almanaques já têm uma boa cobertura, o foco deve estar em regras.

• Melhor avaliação da atribuição de âmbitos a documentos.• Melhorar tratamento de referências temporais (TimeML).