Download - Mapeamento de Thesauri

Transcript
Page 1: Mapeamento de  Thesauri

Mapeamento de Thesauri

Daniela F. Brauner

Page 2: Mapeamento de  Thesauri

Agenda

• Introdução

– Interoperabilidade

– Mapeamentos

• Em nível de esquema

• Em nível de dados

• Abordagens existentes

• Abordagem proposta

Page 3: Mapeamento de  Thesauri

Introdução

• Milhares de provedores de informação (fontes de dados):

– Esquemas diferentes

– Categorias diferentes para classificação dos dados (≠ thesauri)

• Solução proposta:

– Dados estruturados

– Ontologias para descrever a semântica

– Computadores capazes de “entender” estes dados

– (mesma proposta da Web Semântica!)

• ...e os problemas continuam:

– Natureza descentralizada da Web

– Cada provedor de informação usando sua própria ontologia

Interoperabilidade

Page 4: Mapeamento de  Thesauri

Introdução

• Busca por “city” no Swoogle

• 722 resultadosi.e. definições diferentes

Interoperabilidade

Page 5: Mapeamento de  Thesauri

Introdução

ADL GazetteerGEOnet

Find all cities called

“Rio de Janeiro”

Mapeamentos

Page 6: Mapeamento de  Thesauri

Introdução

ADL GazetteerGEOnet

Mediator

GEOnet Wrapper

ADL Wrapper

Basic Architecture of A Data Integration System

Find all cities called

“Rio de Janeiro”

Mapeamentos

Page 7: Mapeamento de  Thesauri

Introdução

ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG

67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15

76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333?

?? ?

GE

On

et

AD

L

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

? ?

• Schema-level mapping

Mapeamentos

Find all cities called

“Rio de Janeiro” • Data-level mapping

Page 8: Mapeamento de  Thesauri

Abordagens existentes

• ILA [Etzioni, 2000]

• SEMINT [Syan et al., 2000]

• AnchorPrompt [Musen and Noy, 2001]

• Cupid [Madhavan et al., 2001]

• LSD [Doan et al., 2001]

• SimilarityFlooding [Melnik et al., 2002]

• PROM [Doan et al., 2003]

• GLUE [Doan et al., 2003]

• CATO [Felicissimo, 2004]

• iMAP [Dhamankar et al., 2004]

• ...

Page 9: Mapeamento de  Thesauri

Administrative areaPopulated placesPolitical areasCountriesCitiesCapitals...

ADL

FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp

AREA area ADM1 first-order administrative divisionADM2 second-order administrative divisionADM3 third-order administrative divisionADM4 fourth-order administrative divisionADMD administrative divisionADMF administrative facilityPPL populated placePPLA seat of a first-order administrative divisionPPLC capital of a political entityPPLL populated localityPPLQ abandoned populated placePPLR religious populated placePPLS populated placesPPLW destroyed populated placePPLX section of populated place...

GEOnet

FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm

Abordagens existentes

• Utilizando os nomes dos termos

Page 10: Mapeamento de  Thesauri

Cities

Populated places

Capitals

Administrative area

Political areas

Countries

ADL

FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start

Country

GeopoliticalEntity

CapitalCityOfRegion

GeographicalAgent

City

OpenCyc

FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm

Abordagens existentes

IndependentCountry

• Utilizando as estruturas das árvores

Page 11: Mapeamento de  Thesauri

Cities

Populated places

Capitals

Administrative area

Political areas

Countries Country

GeopoliticalEntity

CapitalCityOfRegion

GeographicalAgent

City

Exemplos: Instância ADL OpenCyc

Rio Grande, RS – Brazil Populated Places City

Smithers, BC – Canada Populated Places City

Rio de Janeiro, RJ – Brazil Populated Places City

São Paulo, SP – Brazil Populated Places City

Cardiff – Wales Populated Places CapitalCityOfRegion

Asmara – Eritrea Capitals CapitalCityOfRegion

Rome – Italy Capitals CapitalCityOfRegion

Brussels – Belgium Capitals CapitalCityOfRegion

ADL OpenCyc

Abordagens existentes

IndependentCountry

?

Page 12: Mapeamento de  Thesauri

Abordagens existentes

• Estratégia de tradução do Google

– Sistema “aprende” através de traduções existentes

“My name is Daniela. I am 26 years old.”

“Mein name ist Daniela. Ich bin 26 Jahre alt.”

“Meu nome é Daniela. Eu tenho 26 anos.”

“Mi nombre es Daniela. Yo tengo 26 años.”

http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de

http://www.inf.puc-rio.br/~dani/eshttp://www.inf.puc-rio.br/~dani/br

Page 13: Mapeamento de  Thesauri

Abordagens existentes

• 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos

hieróglifos

egípcio

demótico

(Copta)

grego

http://www.thebritishmuseum.ac.uk

Page 14: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando as descrições dos termos dos thesauri

– Removemos algumas stop-words

– Mapeamos conceitos com maior ocorrência de palavras em comum

Bay

Indentations of a coastline or shoreline

enclosing a part of a body of water;

body of water partly

surrounded by land

Bay

a coastal indentation between two

capes or headlands, larger than a cove

but smaller than a gulf?

Page 15: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando as descrições dos termos dos thesauri

Peninsula

an elongate area of land projecting into

a body of water and nearly surrounded

by water

GEOnet(4) Peninsula: land, body, water, surrounded(3) Island: land, surrounded, water(2) Pool: body, water

≠Bay

Indentations of a coastline or shoreline

enclosing a part of a body of water;

body of water partly

surrounded by land

Page 16: Mapeamento de  Thesauri

Waterfall

a perpendicular or very steep descent

of the water of a stream

Waterfall

perpendicular or very steep falls of

water in the course of a stream.

Abordagens existentes

• Utilizando representação formal

– Criamos 3 ontologias: ADL, GEO e concepts

Page 17: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando instâncias

– Identificar mapeamentos entre os dados (instâncias iguais)

– Verificar freqüência de “casamentos” entre os termos dos thesauri

ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG

67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15

76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333GE

On

et

AD

L

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

Page 18: Mapeamento de  Thesauri

Abordagens existentes

• Utilizando instâncias

– Identificar mapeamentos entre os dados (instâncias iguais)

– Verificar freqüência de “casamentos” entre os termos dos thesauri

• Etapas:1. Levantamento dos dados

a. Definição dos conjuntos de treinamento e teste

2. Treinamento a. Cruzamento das instâncias de treinamento (definir freqüências)

b. Cálculo das probabilidades de alinhamento

3. Teste e validação

Page 19: Mapeamento de  Thesauri

Abordagens existentes

Etapas concluídas:

1. Conjunto de exemplos:

– Instâncias brasileiras:

• ADL: 17.991

• GEOnet: 87.608

2. Treinamento:

– Instâncias mapeadas pelos valores de LAT/LON

– 221 pares identificados (~16%)

– Ex:

– Termos dos thesauri:

• ADL: 210

• GEOnet: 642

Combinações possíveis: 134.820

ADL (a) GEOnet (b) nab P(b|a)

bays BAY 38 0,61

bays BCH 1 0,01

bays COVE 6 0,09

bays ISL 8 0,12

bays PPL 4 0,06

bays PT 3 0,04

bays STM 2 0,03

P( b | a ) =nab

na

Page 20: Mapeamento de  Thesauri

Abordagem proposta

• Mediador “espertinho”

(utilizando técnicas de aprendizagem de máquina)

• Aprende em 2 momentos:

– A priori (offline)

– A posteriori (runtime)

• Aprende a partir de:

– Consultas dos usuários

– Análise das respostas das consultas dos usuários

Page 21: Mapeamento de  Thesauri

Abordagem proposta

ADL GazetteerGEOnet

Aprendendo a partir das consultas dos usuários

Brainy Mediator

Select PPL From GEOnet Within “-54, -34 -52.5, -33”

Mediator

GEOnet Wrapper

ADL Wrapper

Select populated places From ADL Within “-54, -34 -52.5, -33”

Ahááá!!!PPL ≡

PopulatedPlaces

Select PPL From GEOnet Within “-54, -34 -52.5, -33”

Select populated places From ADL Within “-54, -34 -52.5, -33”

Page 22: Mapeamento de  Thesauri

Abordagem proposta

ADL GazetteerGEOnet

Aprendendo a partir das respostas das consultas dos usuários

Brainy Mediator

Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33”

Mediator

GEOnet Wrapper

ADL Wrapper

Cache

ADL GEOnet n P(b|a)

bays BAY 38 0,61

bays BCH 1 0,01

bays COVE 6 0,09

bays ISL 8 0,12

bays PPL 4 0,06

bays PT 3 0,04

bays STM 2 0,03

Page 23: Mapeamento de  Thesauri

Mapeamento de Thesauri

Daniela F. Brauner