Post on 11-Jan-2016
description
Interoperabilidade e Semântica na Web
Ana Maria de Carvalho Moura
anamoura@ime.eb.br
Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil
Ana Maria Moura - 2001
SumárioWeb: evolução históriaMecanismos de buscaSemântica na WebMetadadosTecnologias de suporte à interoperabilidade
XML RDF
Acesso/extração/integração de informação na Web
Conclusões e tendências
Ana Maria Moura - 2001
A Web: como tudo começou
1990 - CERN Idéia: tornar o conhecimento accessível a
todos e de forma amigávelWWW Consortium (W3C) - 1994 - Berners-Lee
objetivos: dar suporte à evolução da tecnologia da informação:
infraestrutura - redes, gráfico, interfaceencorajar cooperação na indústria: desenvolvimento de
interfaces e plataformas padrões
Ana Maria Moura - 2001
A Web: um pouco de história
1993 Mosaic: 50 sites1994: primeiras máquinas de busca
(webcrawler, wwww)
1996: US$ 1 bilhão compras na Internet (150 países)
1997: 1 milhão de sites1998: 300mil provedores2000: + de 1 bilhão de páginas Web
Ana Maria Moura - 2001
Gerações Web
1a geração: páginas HTML criadas manualmente
2a geração: geração automática de páginas HTML p/
processamento humano(leitura, browsing, formulários
3a geração: Web semântica: informação processada por
agentes ou robôs
Ana Maria Moura - 2001
Grande problema !!!
Como achar o que se deseja?
Ana Maria Moura - 2001
Problemas na Web Aumento exponencial do número de documentos
eletrônicos publicados na Web;
Problema de “precisão”das atuais ferramentas de pesquisa de informações na Web, que retornam um número grande de documentos não relevantes;
Problemas p/ identificar, descrever e localizar de forma mais eficiente os recursos na Web;
Ferramentas mais eficientes de ajuda à navegação
Como integrar recursos na Web?
Ana Maria Moura - 2001
Pesquisa e Recuperação na Web
Pesquisa em diretório pesquisa hierárquica, por assunto indexação manual ex: yahoo, cade, Encyclopedia
britannica,...
Ana Maria Moura - 2001
Pesquisa e Recuperação na Web
Máquinas de Busca pesquisa p/ palavra chave (“ache documentos que
contém a string XML “)
robôs percorrem estrutura de hipertexto e recuperam documentos referenciados
documentos recuperados são analisados e indexados (lista-invertida)
uso de banco de dados p/ pesquisa 2000: + 500 milhões de páginas e + 300
máquinas de buscaExemplos: lycos, google, infoseek, altavista, excite,
hotbot, TodoBr ....
Ana Maria Moura - 2001
Pesquisa e Recuperação na Web
Diretórios com Máquinas de Busca Pesquisa por palavra chave e por
assunto ao longo do percurso hierárquico,
máquina de busca (pesquisa por palavra chave)
ex: yahoo, magellan
Ana Maria Moura - 2001
Pesquisa e Recuperação na Web
Múltiplos mecanismos de busca (meta-search) combina e processa resultados de
várias máquinas de busca
ex: metacrawler: utiliza Altavista, directHit,Excite, FindWhat, Google, Lycos,.....
Ana Maria Moura - 2001
Principais problemas dessas ferramentas
Ferramentas de Pesquisa: indexam páginas individuais e não recursos de informação
pouca precisão do conjunto resultado de uma pesquisa
palavras-chaves extraídas do conteúdo do documento sem informações sobre o contexto no qual estavam inseridas
inexistência de informações padronizadas descrevendo os itens do conjunto resultado de uma pesquisa
inexistência de controle quanto a qualidade dos documentos indexados
consultas pouco expressivas
Ana Maria Moura - 2001
Principais problemas dessas ferramentas
Ferramentas de Folheio: falta de padronização dos esquemas de
classificação empregados só organiza recursos: não trata seus
relacionamentos a catalogação de recursos é custosa e
centralizada
Ana Maria Moura - 2001
Linguagens Web
Usam topologia da Web em consultas p/ controlar navegação e obter melhores respostas: navegação e pesquisa WebSQL, W3QL
Consultam conteúdo do documento a partir da estrutura e constrói novos documentos WebLog
Ana Maria Moura - 2001
WebSQLExplora estrutura e topologia do documentosemântica clara baseada num modelo de grafo
virtualvisão relacional da Web:
documento(url, titulo,texto,type, lenght,modif)ex: encontre todos os documentos html sobre XML
select d.url, d.titulofrom Documento d such that d mentions “XML”where d.type=“text.html”
Ana Maria Moura - 2001
Outras linguagens W3QL
parecida com WebSQL: foco em interoperabilidade - uso com outras ferramentas
WebLog documento baseado em estrutura html linguagem baseada em lógica p/ consulta e
reestruturação da informação
EX: obtenha todos os links p/ documentos html e os títulos correspondentesans.html[title ’all citations’, hlink ->>L, occurs ->>T]:-
dblp_pages[hlink ->>L],href(L,U), U[title ->>T].
Ana Maria Moura - 2001
Semântica na Web
Semântica capacidade da informação ser processável por máquina
Descrever propriedades e relacionamentossobre itens (metadados) na Web
Metadados, RDF, ontologias
Ana Maria Moura - 2001
Visão semântica da Web
Depende da capacidade de promover intercâmbio de informações
? Interoperabilidade
semântica
estrutural
sintática
Ana Maria Moura - 2001
Interoperabilidade
SemânticaUma arquitetura é capaz de prover interoperabilidade semântica quando possibilita a compreensão de cada descritor do recurso (independentemente da forma com que foi descrito) e suas associações com outros;
EstruturalUma arquitetura é capaz de prover interoperabilidade estrutural quando provê representação para modelo de dados distintos, permitindo especificar tipos e possíveis valores para cada forma de representação;
SintaxeUma arquitetura é capaz de prover interoperabilidade de sintaxe quando provê um regras precisas para promover o transporte de informações na Web.
Ana Maria Moura - 2001
Metadado
Meta: significa “algo que descreve ...”
e.g. meta-object, meta-information, metadata, meta-modelo
Meta - Meta significa “algo que descreve algo que descreve...”
Metadados dados que descrevem o conteúdo, estrutura,
representação e contexto de algum conjunto de dados
Ana Maria Moura - 2001
ExemplosFichas de uma biblioteca tradicionalCatálogos de SGBDsTags em páginas HTML, XMLDicionários de Ferramentas CASEDescritores de Bibliotecas DigitaisDescritores de imagens, videoDescritores de documentos na web...
Ana Maria Moura - 2001
Dado X Metadado
dados s/autor
Termos e Condições
Críticas:O Globo
A B
C
Titanic
Produtores
Termos econdições
dadosadministr
Ana Maria Moura - 2001
Onde está a fronteira?
Contexto A: dado: Críticas de O Globo metadado: dados s/ autor(A), termos e condições de acesso(A)
Contexto B: dado: filme Titanic metadado: críticas de O Globo(A), Produtores (B) e
termos e condições (C) Contexto C: dado: termos e condições metadado:dados administrat.(C)
Ana Maria Moura - 2001
Uso de Metadados Gerência de Recursos de Informação Corporativos Computer-aided design Projeto e gerência de Data Warehouses Gerência de documentos Gerência de dados científicos e grandes bases
estatísticas Gerência de recursos na Web Integração de BD Heterogêneos Projeto e gerência de Workflow Integração de recursos na Web ...
Ana Maria Moura - 2001
Papel do metadado na Web
Identificar Localizar (informação s/ identif. recurso,
assunto, descrição,... ) Descrever (que informação será expressa?
depende do tipo de recurso, objetivos)
Recuperar Utilizar Recursos de Informação
Ana Maria Moura - 2001
Localização de recursos na Web
Processo compreende duas fases:Localização: a partir de de critérios de seleção (assunto, data,
autor,…)
Exame: os metadados relativos aos recursos candidatos são verificados pelo usuário para seleção dos recursos desejados
Metadados são empregados para: encontrar informações relevantes encontrar uma informação já conhecida encontrar novas informações auxiliar na análise da conveniência de uso do objeto possibilitar consultas campo a campo
Ana Maria Moura - 2001
Recuperação de recursos na Web
Recuperação: acesso aos recursos de informação selecionados pelo usuário
Metadados são empregados para: possibilitar a negociação de formato entre cliente e servidor
(conversão automática de formato - ex: MIME)possibilitar a negociação dos custos envolvidos na transferência
do objeto selecionado para o cliente: período de acesso, tempo de acesso, formato desejado, quem está solicitando acesso, etc.
possibilitar o conhecimento prévio do conteúdo do documento possibilitar privacidade expressando de forma mais
adequada “termos e condições” para acesso e uso de um recurso, etc.
Ana Maria Moura - 2001
A Web hoje
Mecanismo de identificação: Uniform Resource Locator (“URL”) ex: http://www.rpi.edu/decemb/contents.html
Principais problemas: referências a recursos pendentes na Web inexistência de mecanismos de balanceamento automático de
carga na rede, c/ redirecionamento automático p/ outro servidor; lentidão na recuperação de recursos, devido a inexistência de
“caches” dos recursos mais utilizados; baixa tolerância do sistema à falhas, devido a impossibilidade de
redirecionamento p/ outros servidores.
Ana Maria Moura - 2001
Metadados na Web hoje
Metadados embutidos no recurso:Declaração <Meta> da linguagem HTML: <META NAME=“autor” CONTENT=“Cassia Barreto”Tags embutidos no XML: <livro> <titulo> Do Fortran à
Internet </titulo>Metadados como anexo ao recurso:Cabeçalho do Protocolo HTTP: emitidos pelo servidor ao cliente
“Expires: Mon, 13 may 1998 09:13:25 GMT”Metadados mantidos separados do recurso:Plataforma PICS (Plataform for Internet: Content Selection) rótulos para
avaliação de conteúdo
Ana Maria Moura - 2001
Soluções Propostas (W3C)
Padrões de metadadosXMLRDFOntologias
Ana Maria Moura - 2001
Padrões de Metadados
Objetivos: Conj. termos p/ descrição de uma ou mais
categorias de recursos Obter resultados mais precisos no processo
de busca de recursos de informação na web estabelecimento de padrões de metadados,
modelos e protocolos e sua integração a mecanismos de busca na web
Ana Maria Moura - 2001
Catalogação bibliográfica
MARC (Machine Readable Catalogue) anos 60
TEI (Text Encoding Initiative - 1994)
EAD (Encoding Archival Description -1993)
RFC1807 (Request for Comments)
Ana Maria Moura - 2001
Infraestrutura global da informação
GILS (Government Information Locator Service 1996)
busca de informação em agências governamentais
Ana Maria Moura - 2001
Descoberta de Recursos na Web
metadados utilizados no contexto de robôs(Harvest, por.ex.), dando suporte a administradores de sites;
dados indexados coletados por ferramentas automáticas não têm formato padrão: nenhuma semântica
IAFA (Internet Anonymous Ftp Archive - 1995) - grupo IETF (internet Engineering Task Force)
SOIF (Summary Object Interchange Format -1994)
Dublin Core (DC -1995)
Ana Maria Moura - 2001
Dublin Core
(DLOs): documentos vistos como objetos associado a arquiteturas de metadados
Objetivos: descrever as propriedades dos objetos permitir descritores extras específicos a um domínio a descrição de elementos é opcional todos os elementos do DC podem se repetir elementos autos explicativos
padrão W3C
Ana Maria Moura - 2001
Descritores do DC (15) Subject tópico relacionado ao objeto descrito Title nome do objeto Author responsáveis pelo conteúdo intelectual do objeto Publisher agente responsável por tornar o objeto disponível OtherAgent pessoas que contribuíram de forma significativa para o
conteúdo intelectual do objeto Date data de publicação ObjectType gênero do objeto Form formato de dado do objeto Identifier identifica o recurso de forma única Relation indica um tipo de relacionamento com outros objetos Source objetos dos quais o objeto descrito é derivado Language idioma relativo ao conteúdo intelectual do objeto Coverage localização espacial e duração temporal do objeto Rights contém ou referencia direitos de propriedade Description contém uma descrição textual do objeto
Ana Maria Moura - 2001
Dados geográficos/ dados ambientais
FDGC (Federal Geographic Data Committee- 1994)
UDK (Environmental Data Catalogue - 1998)
Ana Maria Moura - 2001
Tecnologias de suporte à interoperabilidade
Padrão W3C:
padrões de metadados: DC XML arquitetura RDF
Ana Maria Moura - 2001
Por que XML?
Padrão w3C: ++ conteúdo !!! SGML Standard Generalized Markup
Language (Goldfarb, Mosher, Lorie -1974) SGML
HTML XML-1996
Ana Maria Moura - 2001
HTML: sérias limitações
Em relação ao acoplamento com BDs geralmente soluções proprietárias nenhum protocolo p/ publicação de dados
SQL: não adequada p/ Web
não possui formato de intercâmbio: HTML é apenas um formato de apresentação!
mistura apresentação e conteúdonenhuma estrutura, semântica, restrições de
integridadeperde informação sobre a estrutura (esquema) de
BDs
Ana Maria Moura - 2001
HTML<h1> Bibliography </h1>
<p> <i> Principles of Distributed Database Systems </i>
Ozsu, Valduriez
<br> Prentice Hall, 1999
<p> <i> Data on the Web </i>
Abiteboul, Buneman, Vianu
<br> Morgan Kaufmann, 1999
Ana Maria Moura - 2001
HTML: descreve apresentação
Ana Maria Moura - 2001
The Golden Rule
“Content must be abstract and independent from storage and rendition”
aplicações dinâmicas (“rendition” difere conforme a mídia, consulta ou perfil do usuário)
integração de dados heterogêneos (de diferentes fontes)
Ana Maria Moura - 2001
XML: Extended Markup LanguageObjetivos
representar a semântica dos dados de forma estruturada (dados e metadados)
padrão para representar e intercambiar dados estruturados na Internet
permitir modelar dados heterogêneos gerados a partir de BDs ou processadores de texto, de forma que máquinas de busca possam localizá-los e processar documentos ou registros heterogêneos
consultar conteúdo de documentos na Web
suporta a regra dourada (“the golden rule”)
Ana Maria Moura - 2001
XML descreve conteúdo
<bibliografia>
<livro> <titulo> Principles of Distributed Database Systems </ titulo>
<autor> Ozsu </author> <author> Valduriez </autor>
<editor> Prentice Hall </ editor >
<ano> 1999 </ ano >
</ livro >
< livro > < titulo > Data on the Web </ titulo >
<autor> Abiteboul </autor> <autor> Buneman </autor>
<autor> Vianu </autor>
< editor > Morgan Kaufmann </ editor >
<ano> 1999 </ ano >
</livro>
Ana Maria Moura - 2001
Em XML...Usuários definem suas próprias
marcações (tags)Um documento XML não provê nenhum
comando de exibição stylesheets (XLS) p/ converter em HTML
Estruturas podem ser aninhadas Um documento XML pode conter uma
descrição opcional de sua gramática (DTD)
Ana Maria Moura - 2001
XML
Sintaxe: elementos, atributos, entidades, documentos
válidosÉ um modelo de dados semi-estruturadosDefinição de tipos de documentos
tipos de dados, esquemas DTD, namespacesXML- Schema
metadados com RDF
Ana Maria Moura - 2001
Terminologia
Marcações (tags): livro, título, autor (atributos únicos) Início de marcação: <livro> Fim de marcação: </livro>
Todos os dados são texto: PCDATA (parsed character data)
Elementos: <livro> …</livro>, <autor>….</autor> elemento vazio: <ano></ano>
Um documento XML: uma única raiz Restrições fracas
Ana Maria Moura - 2001
Exemplo
<casa> <quarto>Alessandro <armario/> </quarto> <quarto>Fabio</quarto> <quarto>Leonardo</quarto> <cozinha></cozinha></casa>
Marcador de inícioMarcador de início
Marcador de fimMarcador de fim
<armario> é subelemento de <quarto> que é subelemento de <casa>
Não existe limite na profundidade de hierarquia
<armario> é subelemento de <quarto> que é subelemento de <casa>
Não existe limite na profundidade de hierarquia
Marcador vazioMarcador vazio
Ana Maria Moura - 2001
AtributosPropriedades das marcações
pares constituídos de: (nome, valor)Exemplo:< livro lang= “Ingles” preco= “US$ 60.00”><titulo> Principles of Distributed Database Systems
</titulo><autor> Ozsu </author><autor> Valduriez </autor>…</livro>
<lang> English </lang>
Ana Maria Moura - 2001
Outro exemplo
Atributos - [nome, valor].
<pessoa endereco=“Rua Jaguare 303” cidade=“Niteroi”>Andre</pessoa>
É possível utilizar indistintamente elementos e atributos <pessoa>
Andre
<endereco> Rua Jaguare 303 </endereco>
<cidade>Niteroi</cidade>
</pessoa>
Ana Maria Moura - 2001
Observações
O único tipo de dado que pode ser definido para um atributo é a seqüência de caracteres.
Os elementos podem conter sub-elementos, portanto, podem ser usados para definir objetos complexos.
Cada atributo só pode aparecer uma única vez dentro de um elemento,
Um elemento pode conter N sub-elementos.
Ana Maria Moura - 2001
Alternativas p/ representar dados< livro lang= “Ingles” preco= “US$ 60.00”
titulo= “Principles of Distributed Database Systems” autor=“Ozsu Valduriez”>
….</livro>< livro lang= “Ingles”>
<preco= “US$ 60.00”><titulo>Principles of Distributed Database Systems
</titulo>….
</ livro >
Ana Maria Moura - 2001
EntidadesUnidade do texto XML com um nome
pode ser referenciado entre múltiplos documentos níveis de granularidade arbitrários (palavra,
sentença, parágrafo, capítulo, volume, etc.) conteúdo armazenado em arquivo, BDs,…
Provê independência de dados elementos especificam estrutura lógica entidades especificam estrutura física
Um doc. XML pode ser dividido em pedaços ( o parser gera uma estrutura linear)
Ana Maria Moura - 2001
Exemplos
Abreviação<!ENTITY xml “eXtended Markup Language”> declaração externa<!ENTITY ime-def “http://www.ime.eb.br/artigo.xml”> referência<P> XML(&XML) representa um padrão para
intercâmbio de dados na Web. No depto de Computação do &ime-def pesquisadores estão começando a…
</P>
Ana Maria Moura - 2001
Identificadores e referências
Elementos podem ter identificadores únicos, podendo ser utilizados como referências
<pessoa id=“01”> <nome> Navathe </nome> </pessoa><pessoa id=“02”> <nome> Elmasri </nome> </pessoa><livro> <titulo> Fundamental of Database Systems
</titulo><autores idref=“01 02”/><editor>Mc GrawHill </editor><ano> 2000 </ano>
</livro>
Ana Maria Moura - 2001
XML : sob uma perspectiva relacional
Tabela relacional: documento XML em 3 níveis - raiz, tabela, coluna
Ex: Livro(titulo, editor, ano)<raiz>
<livro> tabela<titulo> Fundamentals of Dadabase.... <titulo> <editor> McGrawHill <editor> <ano> 2000 <ano>
</livro> <livro> ...........</livro>
1 Tupla !
Ana Maria Moura - 2001
XML: modelo de dados semi-estruturados
Livro
Titulo Editor Ano
McGrawHillFundamentals of ...
2000
Pessoa
Nome
Navathe
Pessoa
Nome
Elmasriidref
Autores
• nenhum esquema• dados não tipados• grafo rotulado
•cada nó tag•folha =tag + texto•arco rotulado = referência
Ana Maria Moura - 2001
Document Type Definition(DTD)
DTDs representam metadados! define a estrutura lógica do documento
define a gramática: combinações válidas de palavras
é definida em uma linguagem a parte conjunto de restrições muito limitado
não permite a criação de tipos de dados não permite restrição de intervalos para dados
garante documentos válidos documentos bem formados em conformidade
com o DTD (parser)
Ana Maria Moura - 2001
Um DTD define a estrutura do conteúdo
1
0.. *
1.. *
1.. * 1.. *
1.. *
Diferentes possibilidades de DTDs !!!
Artigo
Autor 1
Instituição
Autor n
Instituição
...
Artigo
Instituição 1
Autor 1
Autor n...
1 2
Instituição n
Autor 1
Autor p...
3
Autor
Instituição
Artigo 1
....
Artigo x
instituicao
artigo
autor
UML
Ana Maria Moura - 2001
DTD
bd
livro1 livro2 livro3
tit autor ano
…..
A ordem dos elementos deve ser respeitada!!!
Ana Maria Moura - 2001
Exemplo de um DTD
<!DOCTYPE bd [
<!ELEMENT bd (livro)*>
<!ELEMENT livro (titulo,autor,ano,editora)>
<!ELEMENT titulo (#PCDATA)>
<!ELEMENT autor (#PCDATA)>
<!ELEMENT ano (#PCDATA)>
<!ELEMENT editora (#PCDATA)>
]>
Ana Maria Moura - 2001
DTD p/ um esquema relacional
Tab1(m,n), Tab2(p)<!DOCTYPE bd [
<!ELEMENT bd (tab1*, tab2*)>
<!ELEMENT tab1((m,n)|(n,m))>
<!ELEMENT tab2 (p)>
<!ELEMENT m(#PCDATA)>
<!ELEMENT n(#PCDATA)>
<!ELEMENT p(#PCDATA)>
]>
Ordem das colunas
irrelevante!
Ana Maria Moura - 2001
Atributos e referências em DTD
<!DOCTYPE bd DTD version 1.3> <!ELEMENT bd(pessoa*, livro*)><!ELEMENT pessoa(nome)><!ATTLIST pessoa id ID #required><!ELEMENT nome(#PCDATA)><!ELEMENT livro(titulo)><!ELEMENT titulo(#PCDATA)> <!ATTLIST livro
autor IDREFS #REQUIRED
idioma(#PCDATA)>#IMPLIED>
<?XML version=“1.0”encoding=“UTF-8” standalone= “no”?><!DOCTYPE db SYSTEM bd.dtd><bd><pessoa id=“01”> <nome> Ozsu </nome></pessoa> <pessoa id=“02”> <nome> Valduriez </nome> </pessoa><livro autor=“01 02”idioma=“Engl”> <titulo> Principles of…</titulo></livro> </bd>
Ana Maria Moura - 2001
Limitações do DTDImpõe ordem (verbose)não aceita tipagem de dados (somente
PCDATA)Elementos são globais: não permite nome de
livro, nome de pessoa em diferentes estruturasuso de namespacesnenhuma restrição no tipo IDREF
não há como expressar chaves, ou dizer que um atributo autor é um identificador de pessoa
Ana Maria Moura - 2001
Namespaces
Define o vocabulário utilizado num esquema nomes de atributos c/ prefixo xmlns seguido de
um atributo valor do atributo é uma URL
Exemplo:<livro xmlns:isbn= “www.isbn-org.org/def”><titulo> Fundamentals of… </titulo>
<numero> 10 </numero><isbn:numero>12345456 </isbn:number>
</livro>
Ana Maria Moura - 2001
Proposta W3c
XML Schema substituir DTD mais tipos de dados: string, integer,
real, time, date… namespaces
Ana Maria Moura - 2001
XML: estilo, formatação e transformação
XML define estrutura e conteúdo de documento, não define apresentação
Linguagem de estilo: define regras para a exibição de um documento XML -XSL: extended style language)
Linguagem de transformação: define regras para a transformação de uma linguagem XML em outra linguagem XML. Ex: transformação de XML em HTML.
Ana Maria Moura - 2001
Estilo
Browser XML
XML
XML XSL
Ana Maria Moura - 2001
Transformação/Formatação
Processador XSL
WML PDF HTML
XML XSL
Ana Maria Moura - 2001
Linguagens de Consulta
As linguagens de consulta XML baseiam-se em caminhos de expressão Xpath Xlink Xpointer
Ana Maria Moura - 2001
Expressões de caminho (path)/ elemento raiz/bd um elemento abaixo da raizbd /livro um livro num bdbd // livro um livro em qq
profundidade@price um atributo preçobd / livro /@preco um atributo preço num bdbd / livro[@ preco] livros com um determinado
preçobd / livro[@ preco =’10’] livros com preço 10// livro /parag[2] o 20 parágrafo de um livro qq nível
Ana Maria Moura - 2001
Outras linguagens ...Lorel(Abiteboul, Widom 1997)XML- QL (At&T Labs - 1998)XQL (Microsoft - 1998)Yatl (Cluet, Simeon - INRIA, 1999)XSL (W3C, 1998)XML-GL (Ceri et al. - 1999)Quilt (Chamberlin et al - 2000)...
Ana Maria Moura - 2001
XQL
Microsoft, Texeluso de XpathExemplo1. //livro[@language=“english”]/autor
<autor>A1</autor> <autor>A2</autor>
2. bd/livro[autor/@ano>1995]
Ana Maria Moura - 2001
Inspirados no SQL:XML- QL
Projeto Strudel (At&T) baseada em expressões regulares cláusula where (seleção) templates p/ construir dados
Exemplo:where <livro idioma=“english”>
<editor> Mc Graw Hill </><autor> $A</> </>in “www.abc.com/bd.xml”
construct $A
Resposta: conjunto de autores
<autor>A1</autor> <autor>A2</autor>
Ana Maria Moura - 2001
XML- QL
where <livro idioma=$L> <editor> Prentice Hall </> <autor> $A </> </>in “www.ime.eb.br/bd.xml”
construct <result><autor>$A </><idioma>$L </> </>
Resultado:<result><autor>A1</autor><idioma>L1</idioma> </result><result><autor>A2</autor><idioma>L2</idioma> </result>
Ana Maria Moura - 2001
Junção por valor em XML- QL
Autores que publicaram no mínimo 2 livros
where <livro>$B1 </> in “www.ime.eb.br/bd.xml”<autor>$A </> in $B1<livro>$B2 </>in “www.ime.eb.br/bd.xml”<autor>$A </> in $B2B1!=B2
construct <autor>$A </>
Ana Maria Moura - 2001
Lorel
baseado no OEM (Object Exchange Model)
extensão OQL p/ OEM
Select xml(result:$b)from from $b in livro.autorwhere $b.nome= “Ozsu” and and
$b.@ano >1995
Ana Maria Moura - 2001
Yatl
conversão de dados e integração modelo dados: árvores ordenadas, referências, nósRecupere títulos de livros publicados in 1995 por
Prentice Hall
make result[$t]match <<bd.xml>> with livro[@ano[$a],
titulo[$t] editor[$e]]
where $e=“Prentice-Hall” and $a=1995
Ana Maria Moura - 2001
Quilt
características de OQL,XML-QL, Lorel, XQL
limitações: junção, expressões regulares(full), Xpath
for $b in document(http:// www.ime.eb.br/bd.xml”)//livro, $a in $b/autor and $e in $e/editor
where $a/nome=“Ozsu” and $e/“Prentice Hall”return $b
Ana Maria Moura - 2001
XSL
XSL Transformations(XSLT), recomendação W3C
regras de transformação XML XMLprograma XSLT é um documento XML!mais usado como ling. de apresentação<xsl:template match=“/”>
<xsl:for each select=“livro[autor/nome=“Ozsu”]”><xsl:value_of />
<xsl:for each> <xsl:template>
Ana Maria Moura - 2001
Resource Description Format (RDF) - W3C
Características:Modelo de metadados simples e expressivo:
trata dados/metadados de forma uniforme
Provê interoperabilidade na Web (XML)Meio de integração entre diferentes padrões de
metadados
Expressa vocabulários distintos com base em um modelo de dados e sintaxe comuns
Ana Maria Moura - 2001
RDF: visão em camadas
Descrição de recursos
Aplicação RDF
RDF Schema
RDF básico(statements)
instância de
instância de
instância de
(meta-metamodelo)
(metamodelo)
(modelo)
(dados)
descreve
descreve
descreve
Ana Maria Moura - 2001
Modelo RDF básico Define um formalismo para a definição de recursos estrutura: DLG(Directed Labeled Graph) sintaxe: utiliza a linguagem XML Componentes básicos:
recursos: qualquer recurso que pode ser descrito segundo o modelo RDF
propriedades(properties): representa um atributo (ou relacionamento) de um recurso
declarações (statements): corresponde a associação entre um recurso específico, uma propriedade qualquer e o valor dessa propriedade para esse recurso(predicado, subject, object)
literais: conjunto de elementos que não são recursos (strings)
Ana Maria Moura - 2001
RDF: estrutura básica
Recurso Valorpropriedade
http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Ana Maria
Documento
Valor
autora
Representação de um documento em RDF
Statement
sujeito predicado
Ana Maria Moura - 2001
RDF
http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Ana Maria
Documento Valordc:creator
Metadados<?xml version=“1.0”><rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator>Ana Maria</dc: creator> <dc:subject> metadados</s:subject> </rdf: Description> </rdf: RDF>
dc:subject
Ana Maria Moura - 2001
Entidade estruturadahttp://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Metadados
dc:subject
Ana Maria
anamoura@ime.eb.br
mod:nome
mod:e-mail
<rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> xmlns:mod=“http://www.ime.eb.br/de9/sgdc_w/xyz/definition <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator>Ana Maria</dc: creator> <mod:nome>Ana Maria</mod:nome> <mod:e-mail>anamoura@ime.eb.br</ mod :e-mail> <dc:subject> metadados</dc:subject> </rdf: Description> </rdf: RDF>
dc:creator
recurso anônimo
A pessoa cujo nome é Ana Mariae e-mail ana... é criadora do recursohttp//.... entitulado Metadados
Ana Maria Moura - 2001
Propriedade como um outro recurso
http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Metadadosdc:subject
http://fotos/ana/
Ana Maria
anamoura@ime.eb.br
mod:nome
mod:e-mail
dc:creator
Ana Maria Moura - 2001
Propriedade como um outro recurso
<rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> xmlns:mod=“http://www.ime.eb.br/de9/sgdc_w/xyz/definition <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator> “ http://fotos/ana”</ dc: creator > <dc:subject> metadados</ dc:subject > </rdf:Description><rdf: Description about= “ http://fotos/ana”> <mod:nome>Ana Maria</mod:nome> <mod:e-mail>anamoura@ime.eb.br</mod:e-mail> </rdf: Description> </rdf: RDF>
outro recurso
Ana Maria Moura - 2001
Coleções em RDF
http://curso/top.avanc.bd/turma
rdf:bag
/alunos/Veronica
/alunos/Eduardo
/alunos/Leticia
/alunos/Eduardo
rdf:type
rdf:_1
rdf:_4
…..
• rdf: Bag• rdf: Sequence• rdf: Alternative
alunos
Ana Maria Moura - 2001
RDF/XML com um Bag
<rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:s = “http://minhas definicoes#”><rdf: Description about=“http://curso/top.avanc.bd/turma”<s:alunos> <rdf:bag> <rdf:li resource= “/alunos/Veronica”> <rdf:li resource= “/alunos/Leticia”> <rdf:li resource= “/alunos/Tania”> <rdf:li resource= “/alunos/Eduardo”> </rdf:bag></s:alunos></rdf: Description> </rdf: RDF>
Ana Maria Moura - 2001
RDF Schema (RDFS) Objetivo
provê um sistema de tipos para a declaração de propriedades de recursos (título, autor, etc.), dos relacionamentos entre essas propriedades, das classes de recursos em que essas propriedades se aplicam e das combinações possíveis entre classes e propriedades.
Enfoque: representação de objetos e classes de objetos representação de propriedades/ relacionamentos de objetos
Ana Maria Moura - 2001
RDF Schema (RDFS)
Modelo de dados: estruturado segundo o modelo de dados básico
da RDF, ou seja, como recursos e propriedades facilita a descrição de domínios específicos sintaxe empregada: linguagem XML elementos do RDF Schema definidos no namespace
rdfs
Ana Maria Moura - 2001
Elementos do RDF Schema
rdfs:Class rdfs:Resource rdfs:subClassOf rdfs:subPropertyOf rdfs:domain: propriedade de rdf:property, indica a
que classe uma propriedade pertence (atributo de) rdfs:range: propriedade de rdf:property, especifica
os valores permitidos de uma determinada propriedade de uma ou mais classes.
Ana Maria Moura - 2001
RDFSClasses de objetos: rdfs:Resource, rdfs:Property, rdf:Class, rdfs:ConstraintResource, rdfs:ConstraintProperty
Nomes de propriedades / relacionamentos: rdf:type, rdfs: subClassOf, rdfs:subPropertyOf, rdfs:range, rdfs:domain
Ana Maria Moura - 2001
Hierarquia de Classes
Ana Maria Moura - 2001
Exemplo de aplicação no RDF Schema
rdfs:Resource
rdfs:Class
xyz:Automóvel
s = rdfs:subClassOf t = rdf:type s t s
t
t s
xyz:VeículoDePassageiro
t s
xyz:Caminhão
t `marca
`modelo
d
dliteral
r
r
autommarcamodelo
veic.pass caminhao
Ana Maria Moura - 2001
Camadas de modelagem
t
Junção das Camadas RDF Básico e Esquema RDF
Camada de Instanciação dos Recursos
Camada de Aplicação RDF
t
xyz:marca
Chevrolet
Corsa
t
xyz:marcaxyz:modelo
t
stt
s
rdfs:Class
xyz:Automóvel
rdfs:Resource
t
xyz:modelo
http://www.ime.transp/Veiculos
rdf:Property
Descrição de Recursos
Aplicação RDF
Descreve
Descreve
Esquema RDF
Descreve
Objetos do domínio do usuário
Modelo
Metamodelo
Meta-Metamodelo
Descreve
Descreve
Descreve
RDF Básico
Ana Maria Moura - 2001
Consultas em RDF
Linguagens de consulta p/ XML não fornecem suporte a esquemas RDF
Propostas: RDF Query (Malhotra, 1998 - IBM)ex: Achar todos recursos de uma coleção
<rdfquery><rdfq:From eachresource=”http:// www.ime.transp/Veiculos "/></rdfquery>
Ana Maria Moura - 2001
RDF query
Consulta ao metadado estrutural de um recurso
<rdfq:rdfquery><rdfq:From eachResource="http:// www.ime.transp/Veiculos "/><rdfq:Select><rdfq:Property name= "modelo"/></rdfq:Select></rdfq:From></rdfq:rdfquery>
Ana Maria Moura - 2001
Linguagens com serviço de inferência
total suporte de descrições RDFbase de conhecimento extraída a
partir de triplas (resource, property, value) em lógica de 1a ordem SilRI (W3C) - Frame logic Metalog (W3C)
regras de inferência no esquema RDF
Ambas ainda não passam de propostas
Ana Maria Moura - 2001
BDs Web
Sistemas de BDs projetados para usuários Web casuais, que desejam consultar informações integradas da Web.
Serviços relevantes:facilidade de acesso à informação na Webconsultas complexas em um grande
número de sites Web
Ana Maria Moura - 2001
Desafios de um projeto de BDs Web
Sob ponto de vista do usuário: independência lógica: usuários ocasionais
devem ser capazes de formular consultas ad-hoc não cabe a usuários localizar/relacionar sites e
resolver diferenças de apresentação de cada site independência de navegação: cada site com
suas características específicas de consulta e recuperação
Sob ponto de vista do projetista sites são autônomos
Ana Maria Moura - 2001
BDWeb X BDs
EsquemaConceitual/Externo
EsquemaLógico
EsquemaFísico
BD
SQL/QBE
EsquemaConceitual/Externo
EsquemaLógico
EsquemaVirtual Físico
interface ad-hoc
Web
independêncialógica
independênciade site
fonte: Florescu, Freire -tutorial SBBD 2000
Ana Maria Moura - 2001
Construindo um BD Web
Localizar informaçãoExtrair fontes de informação (Wrappers)
extrair esquemas (RDF, por exemplo) modelos Web
Integrar fontes esquema + integração semântica (uso de
ontologias)
Processar de consultas
Ana Maria Moura - 2001
Extraindo informação
Mediador
wrapper wrapper wrapper.....
Site Web Site Web Site Web
• acesso à informação•WebVCR (Freire et al wwww99) •Mapping by example ( Davalcu et al Sigmod99)
• extração da informação•NoDose (Adelberg, Sigmod98)• Ariadne (Knoblock et al AAAI97)• W4F (Sahuguet et al. -VLDB99)•XML/RDF : simplifica extração
• descrição da informação
•protocolo http
•80% dados escondidos(formulários...)
Ana Maria Moura - 2001
Integrando fontes Similar aos mediadores Como integrar:
materializar X dado virtual visão local X visão global relacional X XML linguagens de integração (XML, Datalog, ....)
Integração semântica
Ana Maria Moura - 2001
Integração semântica
Problema: garantir mesmo conceito a partir de representações diferentes
EsquemaConceitual
EsquemaLógico1
EsquemaLógico2
EsquemaLógico n.....
Site Web Site Web Site Web
Ana Maria Moura - 2001
Como integrar diferentes representações de um mesmo conceito?
Temperaturascid ano valorRJ 1998 30SP 1998 25SP 1999 34
Temperaturascid 1998 1999RJ 30 30SP 25 34
Temp_1998
cid valor
RJ 30SP 25
Temp_1999
cid valor
RJ 30SP 34
Ano: valor Ano: atributo
Ano: tabela
Ana Maria Moura - 2001
Integração semântica
Ex. de sistemas integradores: TSIMMIS e Information Manifold Araneus e Web Integrator Yat (baseado em XML)
RDF + ontologias é um caminho
Ana Maria Moura - 2001
Processamento de consultas
Otimização complexa nenhuma informação sobre cardinalidade,
distribuição, índices padrão de acesso limitado
Informação redundante nas fontesDisponibilidade dos dados é
imprevisívelTaxa de carga dos dados muito variável
Ana Maria Moura - 2001
Sumário e conclusões Visão dos conceitos importantes para permitir
interoperabilidade na Web Máquinas de busca são serviços importantes, mas
ainda muito limitadas: necessidade de mecanismos de consultas ad-hoc
Tecnologia XML muitos desafios p/ a comunidade de BDs muitas linguagens de consulta iniciativas importantes da W3C:
RDF é um caminho para integração: provê interoperabilidade sintática, estrutural mas ainda requer algo mais (ontologias) para interop. semântica)
Ana Maria Moura - 2001
TendênciasGerenciamento de dados XML (atualização,
indexação, armazenamento em SGBDs RO e BDs nativos)
Visões XML de SGBDsROMecanismos de busca que combinem pesquisa
estruturada com pesquisa full-textBenchmarks XMLRDF + ontologias + XMLLinguagens de consulta RDF .....
Ana Maria Moura - 2001
Bibliografia T. Berners-Lee, J. Hendler, O. Lassila. The Semantic Web,
http://www.scientificamerican.com/2001/0501issue/0501berners-lee.html, 2001 Bergamaschi S., Castano S., Vincini M. Semantic Integration of Semistructured and
Structured Data Sources. SIGMOD Record, março 1999. A. Bonifati, S. Ceri. Comparative Analysis of Five XML Query Languages,
Dipartimento di Elettronica e Informazione, Politecnico di Milano, http://citeseer.nj.nec.com/325897-html, accessed in 2001.
David P. Habib and Robert L. Balliot. How to Search the World Wide Web: A Tutorial for Beginners and Non-Experts. http://204.17.98.73/midlib/tutor.htm#GSE, 2000.
Kansas City Publication Library. Introduction to Search Engines. http://www.kcpl.lib.mo.us/search/srchengines.htm, 2001.
G. Karvounarakis. RDF Query Languages: A state-of-the-art, http://www.ics.forth.gr/proj/isst/RDF/RQL/rdfql.html, 2000.
A. Malhotra, N. Sundaresan. RDF Query Specification, http://www.w3.org/TandS/QL/QL98/pp/rdfquery.html#jCentral, 1998.
A.M. C. Moura, M.L. M. Campos and C.M.Barreto. A Survey on Metadata for Describing and Retrieving Internet Resources. World Wide Web Journal, Vol 1, Baltzer Science Publishers BV, 221-240, Jan. 1999.
Ana Maria Moura - 2001
Bibliografia
S. Rayavarapu. W3C Query Languages, http://www.coe.neu.edu/~srayavar/W3CQL/ql.htm, 2001Resource Description Framework (RDF) Model and Sintax Specification 1.0 - W3C Recommendation 22 February 1999, http://www.w3.org/TR/1999/REC-rdf-syntaxe-19990222, 1999.
Resource Description Framework (RDF) Model and Syntax Specification – W3C Recommendation 27 March 2000, http://www.w3.org/TR/2000/CR-rdf-schema-20000327, 2000.
Freire J., Florescu D. Querying the Web, tutorial realizado no Simpósio Brasileiro de Banco de Dados, J. Pessoa PB, Brazil, 2000.
Bergamaschi S., Castano S., Vincini M. Semantic Integration of Semistructured and Structured Data Sources. SIGMOD Record, março 1999.
Fernandez M., Simeon J., Wadler O.XML Query Languages: Experiences and Exemplars,
http://www-db.research.bell-Labs.com/simeon/xquery.html Molina G. H., Papakonstantinou Y., Quass D. The TSIMMIS Approach to Mediation:
Data Model and Languages. Journal of Intelligent Information Systems [online], 1997.
Available at: http://www.db.stanford.edu/tsimmis/publication.html.