Post on 18-Dec-2014
description
Anotação semântica em documentos não estruturados
Celso Araujo FontesProfessoras: Maria Claudia R. Cavalcanti, D.Sc. e
Ana Maria de Carvalho Moura, Dr. Ing
SC 214202 – maio de 2010 Sistemas de Banco de Dados, Profa. Maria Claudia
Instituto Militar de EngenhariaCurso de Mestrado em Sistemas e Computação
Introdução
Existem hoje bilhões de documentos na Web e ainda milhões de páginas em intranets, sendo acessados por 1,5 bilhões de usuários no mundo [1].
A maior parte destas informações é construída apenas para o consumo humano.
Vem à tona a necessidade do gerenciamento desse conteúdo, no que diz respeito à dificuldade na busca, organização, acesso e manutenção das informações.
Problemas da Web Atual
Busca da Informação
Problema de “precisão” das atuais ferramentas de pesquisa
– Navegação através de links e uso de palavras chaves p/ busca
– Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente [2]
Problemas da Web Atual
A falta de meta dados na web inibe um processamento por máquina mais inteligente.
Metadados
Metadados permitem descrever informações, auxiliando na identificação, localização e gerenciamento dos dados (BONIFACIO, 2002).
Ontologias
Segundo Grubber (GRUBBER, 1992), uma ontologia é uma especificação explícita de uma conceituação. A conceituação é uma abstração simplificada do domínio em que desejamos representar para algum propósito.
No campo da Filosofia, as ontologias têm sido utilizadas para tentar descrever domínios naturais (as coisas naturais do mundo) e a existência dos seres e coisas em si, desvendando, desta forma, o significado das coisas no mundo (LIMA e SCHWABE, 2004).
Web Semântica
A web semântica é “uma extensão da web atual, em que a informação é dada com um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação”. [Bernes-Lee, 2001]
Web Semântica e Ontologias
Evolução natural de esforços anteriores– Metadados na Web– Padrões de Metadados– Arquiteturas de Metadados– RDF e RDFS foram os precursores das ontologias na Web– Rápida evolução das demais iniciativas
DAML OIL DAML+OIL OWL OWL2
Web Semântica – Representação do Conhecimento
RDF RDFS OWL OWL2
O que significa chamar uma tecnologia de “semântica” ?
Pretende:– Representar conhecimento– Compartilhar um entendimento comum em relação ao
significado– Ser apropriada para a ligação de recursos sob diferentes
esquemas de representação– Estabelecer associações entre os itens que não estão
explicitas– Apoiar inferência sobre o conhecimento para gerar mais
conhecimento
Problema
Dados estruturados para interpretação por máquina normalmente são distribuídos num formato distinto e separado do conteúdo original e a correspondência entre eles é bastante limitada (ADIDA et al., 2008).
RDF, OWL e outros formatos XML são complexos para interpretação da maioria das pessoas
Solução
Visando incorporar metadados ricos a um documento e manter o seu conteúdo visual legível ao ser humano, foram propostos padrões de anotação semântica.– Objetivo: utilizar um conjunto de descritores,
relacionados a um vocabulário, para “anotar” informações de um documento da internet, expressando o significado do conteúdo neles descritos.
Anotação Semântica
“Esquema específico para geração e uso de metadados, possibilitando novos métodos de acesso a informação” [Popov et al., 2003].
“A anotação semântica de um documento descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia” [Eller, 2008].
Na figura abaixo, podem ser observadas as anotações semânticas referentes a um texto simples. As entidades presentes no texto são associadas à sua definição semântica:
Exemplo de marcação semântica. Fonte: [7] com adaptações
Anotação Semântica
Características Relacionadas para Análise dos Padrões de Anotação Semântica
Uso de vocabulários customizados DRY Compatibilidade com HTML Compatibilidade com XHTML Utilização somente de atributos nativos do HTML e XHTML Suporte ao Blank Node Utilização de namespaces Suporte a Literal simples Suporte a Literal XML Suporte à Literal tipada Suporte a CURIE Referência a nodos não descendentes
Microformat
É um conjunto limitado de especificações utilizado para descrever informações em documentos web. [PEREIRA, 2009]
Suas especificações ou vocabulários se dividem em duas categorias:
– Padrões aceitos: validados pela comunidade e utilizados conforme descrito nas especificações;
– Propostas emergentes: projetos que se encontram em processo de desenvolvimento, estando suas especificações sujeitam a alterações até sua aceitação final (RAMOS et al., 2009).
Microformat (Exemplo)
<div class="vcard">
<span class="given-name">Celso Fontes</span>trabalha no
<span class="org">Detran RJ</span>
</div>
_vcard
“Celso Fontes”
“Detran RJ”
given-name
org
Microformat
Vantagens– Simplicidade– Popularidade (Twitter, Facebook, Flickr...) – Utiliza atributos nativos do HTML
Desvantagens– Restrito a um pequeno número de vocabulários– Não suporta o HTML5 100%
eRDF (Embedded RDF)
Baseado em alguns princípios do Microformat, porém permite a anotação a utilização vocabulários arbitrários em suas anotações semânticas [Nowack, 2005]
eRDF (Exemplo)
<link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" />
<p id="celso" class="-foaf-Person">
<span class="foaf-name">Celso Araujo</span> estuda
anotações
</p>
#celso
“Celso Araujo”
foaf-name
foaf:Personrdf:type
eRDF
Vantagens– Permite a utilização de vocabulários arbitrários
Desvantagens– Não possui suporte explícito a recursos anônimos
(Blank Nodes)– Não possui suporte a literal XML e Tipada
RDFa (Resource Description Framework – in – attributes)
Recomendação da W3C para anotação semântica em documentos XHMTL 1.1 [W3C, 2008].
Definido como “A collection of attributes and processing rules for extending XHTML to support RDF”
RDFa
<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/">
Informações sobre
<span property="foaf:name">Celso</span>
<div />
_blanknode1
“Celso Araujo”
foaf:Personrdf:typeOf
foaf:name
RDFa
Vantagens– Blank Nodes– CURIEs– Suporte a literal XML e Tipada
Desvantagens– Adição de novos elementos ao XHMTL (about,
property, resource, datatype, typeof)– Suporte apenas ao XHTML 1.1 (suporte ao HTML
encontra-se em fase de rascunho)
Microdata
Padrão da W3C para anotação semântica em documentos HTML5 [W3C, 2008].
Esta especificação é resultado das investigações de Ian Hickson sobre os problemas que o RDFa consegue resolver em contrapartida a sua complexidade (STUDHOLME, 2010).
Microdata (Exemplo)
<div itemscope itemref="a b"></div> <p id="a"> Meu nome é: <span itemprop="name">Celso</span></p>. Sou aluno da professora<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>
<span itemprop="name">Maria</span>,Também conhecida como: <span itemprop=“nickname">Yoko</span>
</div>
_blanknode1
“Celso Araujo”“Yoko”
“Maria”
name
#MariaClaudia
nickname
namealunoDe
Microdata
Vantagens– Mais simples que o RDFa– Flexibilidade para referência entre nodos
Desvantagens– Imaturo (poucas ferramentas, exemplos etc…)
Comparativo
Microformatos eRDF RDFa Microdata
Uso de vocabulários customizados NÃO* SIM SIM SIM
DRY SIM SIM SIM SIM
Compatibilidade com HTML SIM SIM SIM** SIM***
Compatibilidade com XHTML SIM SIM SIM**** SIM
Utilização somente de atributos nativos do HTML e XHTML
SIM SIM NÃO NÃO***
Suporte ao Blank Node NÃO NÃO SIM SIM
Utilização de namespaces NÃO SIM SIM SIM
Suporte a Literal simples SIM SIM SIM SIM
Suporte a Literal XML NÃO NÃO SIM NÃO
Suporte à Literal tipada SIM NÃO SIM SIM
Suporte a CURIE NÃO NÃO SIM NÃO
Referência a nodos não filho NÃO NÃO NÃO SIM
Ferramentas de Anotação Semântica
São sistemas que provêem anotação semântica sobre um conteúdo qualquer com o auxílio de um vocabulário através de extração automática, sugestões de anotações ou interfaces gráficas para a anotação manual (SEMANTICWEB, 2008).
Ferramentas de Anotação Semântica
Annotea GATE KIM OpenCalais Zemanta SMORE Ontos TextWise
Comparativo
Tipo Representação da Anotação
Armazenamento da Anotação
Referência com o Vocabulário
Referência entre termo e Anotação
Entrada de Vocabulários Arbitrários
Plataforma
Annotea Manual Não intrusiva
RDF/XML Xpointer SIM SIM Desktop
GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop
KIM Automática Não intrusiva
SIM* SIM Híbrida
OpenCalais Automática Não intrusiva
RDF/XML, JSON, Microformat e SimpleFormat
URIS SIM NÃO Web
Zemanta Automática Não intrusiva
XML, JSON, WNJSON, RDF/XML
URL NÃO NÃO Web
SMORE Manual Não intrusiva
RDF/XML URIS NÃO SIM Desktop
Ontos Automática Não intrusiva
JSON URIS NÃO SIM*** Web
TextWise Automática Não intrusiva
JSON e XML URIS NÃO NÃO Web
Ferramentas de Extração Semântica
Ferramentas capazes de indexar metadados contidos em ontologias ou documentos com anotações semânticas.
Também conhecidas como ferramentas de “busca semântica”
Sindice
Sindice (Semantic Web Index) é uma ferramenta de busca semântica que coleta dados de documentos RDF e de páginas web com anotações no padrão microformatos ou RDFa.
Yahoo Search Monkey
SearchMonkey é um serviço do Yahoo! que permite desenvolvedores e proprietários de sites utilizarem dados estruturados de forma a tornar as buscas pelo Yahoo! mais úteis e visualmente atraentes, direcionando o tráfego mais relevante para os seus sites (YAHOO, 2010).
Google Rich Snippets
O Google Rich Snippets é uma nova abordagem de apresentação dos resultados de pesquisa do Google (Figura 10) visando destacar alguns dados estruturados incorporados em páginas da web (GOEL et al., 2009).
Características Relacionadas para Análise dos Ferramentas de Extração Semântica
Padrões de Anotação Vocabulários suportados Uso de vocabulários arbitrários
Comparativo
Google Rich Snippets
Sindice Yahoo! SearchMonkey
Padrões de Anotações
RDFa SIM SIM SIM
Microformatos SIM SIM SIM
eRDF NÃO NÃO SIM
Microdata SIM NÃO NÃO
Vocabulários Suportados
hCalendar, hReview, hProduct,
hCard, Facebook Share e YahooSearch Monkey Media
XFN, hCard, hCalendar,
hReview, Rel-License,
hListing e hResume
Dublin Core, Foaf, hCard, hCalendar, hReview, SIOC, GoodRelations,
Dbpedia, Freebase, hFeed e XFN
Uso de Vocabulários Arbitrários NÃO ??? SIM
Bibliografia
1. IWS – Internet World Stats. 2009. Disponível em: http://www.internetworldstats. com/pr/edi038.htm.
2. MOURA, ANA. 2004. Introdução a Web Semântica. http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm
3. LUIZA, Maria. O Papel de Ontologias em Sistemas de Informação.
4. Bernes-Lee T. The Semantic Web. http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2
5. Perreira H. Microformatshttp://revolucao.etc.br/archives/microformats
6. Nowack B. Embedded RDF (eRDF) Parser for PHPhttp://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php
7. POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D., GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://www.ontotext.com/kim/>. Acesso em 25 ago 2009