Mapeamento de Thesauri

23
Mapeamento de Thesauri Daniela F. Brauner

description

Mapeamento de Thesauri. Daniela F. Brauner. Agenda. Introdução Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta. Introdução. Interoperabilidade. Milhares de provedores de informação (fontes de dados): Esquemas diferentes - PowerPoint PPT Presentation

Transcript of Mapeamento de Thesauri

Page 1: Mapeamento de  Thesauri

Mapeamento de Thesauri

Daniela F. Brauner

Page 2: Mapeamento de  Thesauri

Agenda

• Introdução

– Interoperabilidade

– Mapeamentos

• Em nível de esquema

• Em nível de dados

• Abordagens existentes

• Abordagem proposta

Page 3: Mapeamento de  Thesauri

Introdução

• Milhares de provedores de informação (fontes de dados):

– Esquemas diferentes

– Categorias diferentes para classificação dos dados (≠ thesauri)

• Solução proposta:

– Dados estruturados

– Ontologias para descrever a semântica

– Computadores capazes de “entender” estes dados

– (mesma proposta da Web Semântica!)

• ...e os problemas continuam:

– Natureza descentralizada da Web

– Cada provedor de informação usando sua própria ontologia

Interoperabilidade

Page 4: Mapeamento de  Thesauri

Introdução

• Busca por “city” no Swoogle

• 722 resultadosi.e. definições diferentes

Interoperabilidade

Page 5: Mapeamento de  Thesauri

Introdução

ADL GazetteerGEOnet

Find all cities called

“Rio de Janeiro”

Mapeamentos

Page 6: Mapeamento de  Thesauri

Introdução

ADL GazetteerGEOnet

Mediator

GEOnet Wrapper

ADL Wrapper

Basic Architecture of A Data Integration System

Find all cities called

“Rio de Janeiro”

Mapeamentos

Page 7: Mapeamento de  Thesauri

Introdução

ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG

67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15

76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333?

?? ?

GE

On

et

AD

L

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

? ?

• Schema-level mapping

Mapeamentos

Find all cities called

“Rio de Janeiro” • Data-level mapping

Page 8: Mapeamento de  Thesauri

Abordagens existentes

• ILA [Etzioni, 2000]

• SEMINT [Syan et al., 2000]

• AnchorPrompt [Musen and Noy, 2001]

• Cupid [Madhavan et al., 2001]

• LSD [Doan et al., 2001]

• SimilarityFlooding [Melnik et al., 2002]

• PROM [Doan et al., 2003]

• GLUE [Doan et al., 2003]

• CATO [Felicissimo, 2004]

• iMAP [Dhamankar et al., 2004]

• ...

Page 9: Mapeamento de  Thesauri

Administrative areaPopulated placesPolitical areasCountriesCitiesCapitals...

ADL

FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp

AREA area ADM1 first-order administrative divisionADM2 second-order administrative divisionADM3 third-order administrative divisionADM4 fourth-order administrative divisionADMD administrative divisionADMF administrative facilityPPL populated placePPLA seat of a first-order administrative divisionPPLC capital of a political entityPPLL populated localityPPLQ abandoned populated placePPLR religious populated placePPLS populated placesPPLW destroyed populated placePPLX section of populated place...

GEOnet

FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm

Abordagens existentes

• Utilizando os nomes dos termos

Page 10: Mapeamento de  Thesauri

Cities

Populated places

Capitals

Administrative area

Political areas

Countries

ADL

FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start

Country

GeopoliticalEntity

CapitalCityOfRegion

GeographicalAgent

City

OpenCyc

FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm

Abordagens existentes

IndependentCountry

• Utilizando as estruturas das árvores

Page 11: Mapeamento de  Thesauri

Cities

Populated places

Capitals

Administrative area

Political areas

Countries Country

GeopoliticalEntity

CapitalCityOfRegion

GeographicalAgent

City

Exemplos: Instância ADL OpenCyc

Rio Grande, RS – Brazil Populated Places City

Smithers, BC – Canada Populated Places City

Rio de Janeiro, RJ – Brazil Populated Places City

São Paulo, SP – Brazil Populated Places City

Cardiff – Wales Populated Places CapitalCityOfRegion

Asmara – Eritrea Capitals CapitalCityOfRegion

Rome – Italy Capitals CapitalCityOfRegion

Brussels – Belgium Capitals CapitalCityOfRegion

ADL OpenCyc

Abordagens existentes

IndependentCountry

?

Page 12: Mapeamento de  Thesauri

Abordagens existentes

• Estratégia de tradução do Google

– Sistema “aprende” através de traduções existentes

“My name is Daniela. I am 26 years old.”

“Mein name ist Daniela. Ich bin 26 Jahre alt.”

“Meu nome é Daniela. Eu tenho 26 anos.”

“Mi nombre es Daniela. Yo tengo 26 años.”

http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de

http://www.inf.puc-rio.br/~dani/eshttp://www.inf.puc-rio.br/~dani/br

Page 13: Mapeamento de  Thesauri

Abordagens existentes

• 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos

hieróglifos

egípcio

demótico

(Copta)

grego

http://www.thebritishmuseum.ac.uk

Page 14: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando as descrições dos termos dos thesauri

– Removemos algumas stop-words

– Mapeamos conceitos com maior ocorrência de palavras em comum

Bay

Indentations of a coastline or shoreline

enclosing a part of a body of water;

body of water partly

surrounded by land

Bay

a coastal indentation between two

capes or headlands, larger than a cove

but smaller than a gulf?

Page 15: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando as descrições dos termos dos thesauri

Peninsula

an elongate area of land projecting into

a body of water and nearly surrounded

by water

GEOnet(4) Peninsula: land, body, water, surrounded(3) Island: land, surrounded, water(2) Pool: body, water

≠Bay

Indentations of a coastline or shoreline

enclosing a part of a body of water;

body of water partly

surrounded by land

Page 16: Mapeamento de  Thesauri

Waterfall

a perpendicular or very steep descent

of the water of a stream

Waterfall

perpendicular or very steep falls of

water in the course of a stream.

Abordagens existentes

• Utilizando representação formal

– Criamos 3 ontologias: ADL, GEO e concepts

Page 17: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando instâncias

– Identificar mapeamentos entre os dados (instâncias iguais)

– Verificar freqüência de “casamentos” entre os termos dos thesauri

ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG

67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15

76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333GE

On

et

AD

L

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

Page 18: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando instâncias

– Identificar mapeamentos entre os dados (instâncias iguais)

– Verificar freqüência de “casamentos” entre os termos dos thesauri

• Etapas:1. Levantamento dos dados

a. Definição dos conjuntos de treinamento e teste

2. Treinamento a. Cruzamento das instâncias de treinamento (definir freqüências)

b. Cálculo das probabilidades de alinhamento

3. Teste e validação

Page 19: Mapeamento de  Thesauri

Abordagens existentes

Etapas concluídas:

1. Conjunto de exemplos:

– Instâncias brasileiras:

• ADL: 17.991

• GEOnet: 87.608

2. Treinamento:

– Instâncias mapeadas pelos valores de LAT/LON

– 221 pares identificados (~16%)

– Ex:

– Termos dos thesauri:

• ADL: 210

• GEOnet: 642

Combinações possíveis: 134.820

ADL (a) GEOnet (b) nab P(b|a)

bays BAY 38 0,61

bays BCH 1 0,01

bays COVE 6 0,09

bays ISL 8 0,12

bays PPL 4 0,06

bays PT 3 0,04

bays STM 2 0,03

P( b | a ) =nab

na

Page 20: Mapeamento de  Thesauri

Abordagem proposta

• Mediador “espertinho”

(utilizando técnicas de aprendizagem de máquina)

• Aprende em 2 momentos:

– A priori (offline)

– A posteriori (runtime)

• Aprende a partir de:

– Consultas dos usuários

– Análise das respostas das consultas dos usuários

Page 21: Mapeamento de  Thesauri

Abordagem proposta

ADL GazetteerGEOnet

Aprendendo a partir das consultas dos usuários

Brainy Mediator

Select PPL From GEOnet Within “-54, -34 -52.5, -33”

Mediator

GEOnet Wrapper

ADL Wrapper

Select populated places From ADL Within “-54, -34 -52.5, -33”

Ahááá!!!PPL ≡

PopulatedPlaces

Select PPL From GEOnet Within “-54, -34 -52.5, -33”

Select populated places From ADL Within “-54, -34 -52.5, -33”

Page 22: Mapeamento de  Thesauri

Abordagem proposta

ADL GazetteerGEOnet

Aprendendo a partir das respostas das consultas dos usuários

Brainy Mediator

Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33”

Mediator

GEOnet Wrapper

ADL Wrapper

Cache

ADL GEOnet n P(b|a)

bays BAY 38 0,61

bays BCH 1 0,01

bays COVE 6 0,09

bays ISL 8 0,12

bays PPL 4 0,06

bays PT 3 0,04

bays STM 2 0,03

Page 23: Mapeamento de  Thesauri

Mapeamento de Thesauri

Daniela F. Brauner