Mapeamento de Thesauri
description
Transcript of Mapeamento de Thesauri
Mapeamento de Thesauri
Daniela F. Brauner
Agenda
• Introdução
– Interoperabilidade
– Mapeamentos
• Em nível de esquema
• Em nível de dados
• Abordagens existentes
• Abordagem proposta
Introdução
• Milhares de provedores de informação (fontes de dados):
– Esquemas diferentes
– Categorias diferentes para classificação dos dados (≠ thesauri)
• Solução proposta:
– Dados estruturados
– Ontologias para descrever a semântica
– Computadores capazes de “entender” estes dados
– (mesma proposta da Web Semântica!)
• ...e os problemas continuam:
– Natureza descentralizada da Web
– Cada provedor de informação usando sua própria ontologia
Interoperabilidade
Introdução
• Busca por “city” no Swoogle
• 722 resultadosi.e. definições diferentes
Interoperabilidade
Introdução
ADL GazetteerGEOnet
Find all cities called
“Rio de Janeiro”
Mapeamentos
Introdução
ADL GazetteerGEOnet
Mediator
GEOnet Wrapper
ADL Wrapper
Basic Architecture of A Data Integration System
Find all cities called
“Rio de Janeiro”
Mapeamentos
Introdução
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333?
?? ?
GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
? ?
• Schema-level mapping
Mapeamentos
Find all cities called
“Rio de Janeiro” • Data-level mapping
Abordagens existentes
• ILA [Etzioni, 2000]
• SEMINT [Syan et al., 2000]
• AnchorPrompt [Musen and Noy, 2001]
• Cupid [Madhavan et al., 2001]
• LSD [Doan et al., 2001]
• SimilarityFlooding [Melnik et al., 2002]
• PROM [Doan et al., 2003]
• GLUE [Doan et al., 2003]
• CATO [Felicissimo, 2004]
• iMAP [Dhamankar et al., 2004]
• ...
Administrative areaPopulated placesPolitical areasCountriesCitiesCapitals...
ADL
FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp
AREA area ADM1 first-order administrative divisionADM2 second-order administrative divisionADM3 third-order administrative divisionADM4 fourth-order administrative divisionADMD administrative divisionADMF administrative facilityPPL populated placePPLA seat of a first-order administrative divisionPPLC capital of a political entityPPLL populated localityPPLQ abandoned populated placePPLR religious populated placePPLS populated placesPPLW destroyed populated placePPLX section of populated place...
GEOnet
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
• Utilizando os nomes dos termos
Cities
Populated places
Capitals
Administrative area
Political areas
Countries
ADL
FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start
Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
OpenCyc
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
IndependentCountry
• Utilizando as estruturas das árvores
Cities
Populated places
Capitals
Administrative area
Political areas
Countries Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
Exemplos: Instância ADL OpenCyc
Rio Grande, RS – Brazil Populated Places City
Smithers, BC – Canada Populated Places City
Rio de Janeiro, RJ – Brazil Populated Places City
São Paulo, SP – Brazil Populated Places City
Cardiff – Wales Populated Places CapitalCityOfRegion
Asmara – Eritrea Capitals CapitalCityOfRegion
Rome – Italy Capitals CapitalCityOfRegion
Brussels – Belgium Capitals CapitalCityOfRegion
ADL OpenCyc
Abordagens existentes
IndependentCountry
?
Abordagens existentes
• Estratégia de tradução do Google
– Sistema “aprende” através de traduções existentes
“My name is Daniela. I am 26 years old.”
“Mein name ist Daniela. Ich bin 26 Jahre alt.”
“Meu nome é Daniela. Eu tenho 26 anos.”
“Mi nombre es Daniela. Yo tengo 26 años.”
http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de
http://www.inf.puc-rio.br/~dani/eshttp://www.inf.puc-rio.br/~dani/br
Abordagens existentes
• 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos
hieróglifos
egípcio
demótico
(Copta)
grego
http://www.thebritishmuseum.ac.uk
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
– Removemos algumas stop-words
– Mapeamos conceitos com maior ocorrência de palavras em comum
Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
Bay
a coastal indentation between two
capes or headlands, larger than a cove
but smaller than a gulf?
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
Peninsula
an elongate area of land projecting into
a body of water and nearly surrounded
by water
GEOnet(4) Peninsula: land, body, water, surrounded(3) Island: land, surrounded, water(2) Pool: body, water
≠Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
Waterfall
a perpendicular or very steep descent
of the water of a stream
Waterfall
perpendicular or very steep falls of
water in the course of a stream.
Abordagens existentes
• Utilizando representação formal
– Criamos 3 ontologias: ADL, GEO e concepts
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
• Etapas:1. Levantamento dos dados
a. Definição dos conjuntos de treinamento e teste
2. Treinamento a. Cruzamento das instâncias de treinamento (definir freqüências)
b. Cálculo das probabilidades de alinhamento
3. Teste e validação
Abordagens existentes
Etapas concluídas:
1. Conjunto de exemplos:
– Instâncias brasileiras:
• ADL: 17.991
• GEOnet: 87.608
2. Treinamento:
– Instâncias mapeadas pelos valores de LAT/LON
– 221 pares identificados (~16%)
– Ex:
– Termos dos thesauri:
• ADL: 210
• GEOnet: 642
Combinações possíveis: 134.820
ADL (a) GEOnet (b) nab P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
P( b | a ) =nab
na
Abordagem proposta
• Mediador “espertinho”
(utilizando técnicas de aprendizagem de máquina)
• Aprende em 2 momentos:
– A priori (offline)
– A posteriori (runtime)
• Aprende a partir de:
– Consultas dos usuários
– Análise das respostas das consultas dos usuários
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Select populated places From ADL Within “-54, -34 -52.5, -33”
Ahááá!!!PPL ≡
PopulatedPlaces
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Select populated places From ADL Within “-54, -34 -52.5, -33”
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das respostas das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Cache
ADL GEOnet n P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
Mapeamento de Thesauri
Daniela F. Brauner