Síntese Web Semântica U F P E Maio 2009

14
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE ARTES E COMUNICAÇÃO CURSO DE GESTÃO DA INFORMAÇÃO SÍNTESE: WEB SEMÂNTICA SEMINÁRIO DE RECUPERAÇÃO DA INFORMAÇÃO MAIO / 2009

description

 

Transcript of Síntese Web Semântica U F P E Maio 2009

Page 1: Síntese  Web  Semântica    U F P E Maio 2009

UNIVERSIDADE FEDERAL DE PERNAMBUCOCENTRO DE ARTES E COMUNICAÇÃOCURSO DE GESTÃO DA INFORMAÇÃO

SÍNTESE: WEB SEMÂNTICASEMINÁRIO DE RECUPERAÇÃO DA INFORMAÇÃO

MAIO / 2009

PROF. FÁBIO ASSIS PINHO

EQUIPE: AÍLTON PEDRO / AURÉLIO FERNANDO / CLODOALDO SANTOS/ CORINA NASCIMENTO / JOSÉ ANICETO / JOSÉ RICARDO / RAFAEL RODRIGO.

Page 2: Síntese  Web  Semântica    U F P E Maio 2009

Síntese: WEB SEMÂNTICA

A INTERNETDurante a Guerra Fria (décadas de 60/70) a grande preocupação dos

EUA era o de perder informação que eram hospedadas em pontos estratégicos. Foi criado um sistema que interligasse todos esses pontos estratégicos, uma rede considerada à prova de bombardeios, pois o sistema não caía caso um dos pontos fosse atingido, desenvolvido pela ARPANET (Advanced Research Projects Agency Network).

No final dos anos 80, a Internet passa a ser vista como um eficiente veículo de comunicação mundial, sendo usada intensamente pela comunidade acadêmica.

A ARPANET utilizou no início o protocolo NCP (Network Control Protocol) que passou a ser inadequado com o crescimento da rede, sendo criada então o protocolo TCP/IP (Transfer Control Protocol/Internet Protocol) tendo como uma vantagem o crescimento praticamente ilimitado da rede.

Em 1989, Tim Berners-Lee com sua equipe elaborou um ambiente gráfico para utilização da Internet denominada World Wide Web (W W W) que possibilitava a propagação de textos, imagens estáticas, áudio, vídeos e animações de forma integrada.

No Brasil a 1ª fase da Internet restringiu-se ao âmbito acadêmico, e só em 1996 a Internet brasileira deixou de ser privilégio das universidades e passou a ser explorada comercialmente.

Estrutura e Componentes da WEBO desenvolvimento da WEB, só foi possível a partir da definição de

padrões abertos, onde podemos destacar o http (Hypertext Transfer Protocol), que pode ser entendido como um conjunto de regras definidas para a comunicação entre os componentes da WEB.

Outro componente fundamental é o Identificador Único de Recurso (URI), que codifica nomes de recursos e respectivos endereços na Internet, o qual pode ser representado pelos conceitos de URL (Localizador Único de Recurso) e URN (Nome Único de Recurso). A URI é composta por três partes: protocolo, localizador de recurso e o nome do recurso. Ex.: http:// www.ufpe.br/dci /site

As páginas da WEB são desenvolvidas utilizando linguagens de marcação, dentre as quais pode ser destacada a HTML (Hypertext Markup Language). A HTML representa os dados de forma simples, priorizando a apresentação de conteúdos e não possibilita a descrição de estruturas semânticas. Por não atribuir significado ao conteúdo das páginas, dificulta a recuperação de informações pois traz grande volume de dados não relevantes.

Arquitetura e estruturação da Web Semântica

Na proposta de desenvolvimento da Web Semântica, é sugerida uma arquitetura de 3 camadas:

1. A camada esquema: que estrutura os dados e define seu significado;2. A camada ontologia: que define as relações entre os dados;

Page 3: Síntese  Web  Semântica    U F P E Maio 2009

3. A camada lógica: que define mecanismos para fazer inferências sobre os dados.

Figura 1: Arquitetura da Web Semântica.

1. A camada de Estrutura

A camada de estrutura provê uma forma de definir os dados do documento e o significado associado a esses dados. Trata também da estruturação e disposição dos dados de forma que os programas que rodam na web possam fazer inferência a partir dos mesmos.Para que haja a representação do conhecimento são necessárias três condições:

Interoperabilidade Estrutural : Permite que os dados sejam representados de forma distinta, permitindo especificar tipos e possíveis valores para cada forma de representação;

Interoperabilidade Sintática : Constitui-se de regras precisas que permitem intercâmbio de dados na Web;

Interoperabilidade Semântica: Possibilita a compreensão e associação entre os dados.

2. A camada Ontologia

Duas bases de dados podem utilizar terminologias diferentes para referir-se _a mesma informação, resultando em divergências em um conjunto semântico de

Page 4: Síntese  Web  Semântica    U F P E Maio 2009

dados. Pode ocorrer também de uma mesma terminologia estar sendo utilizada com significados diferentes, por aplicações distintas.Para tratar esses conflitos, existe a camada de ontologia que define mecanismos capazes de estabelecer um padrão entre as páginas da web.

3. A camada Lógica

São através da camada lógica que são possíveis os relacionamentos de informação e as inferências de conhecimento da Web Semântica. As regras de inferência fornecem aos agentes (programas) poder de raciocinar sobre os termos e seus significados, que foram definidos na camada esquema e de raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua definição na camada ontologia

Agentes: Os agentes são sistemas computacionais capazes de interagir autonomamente para atingir os objetivos do seu criador. Os agentes possuem algumas características como autonomia, reatividade (percebem o ambiente tomam as decisões), têm comportamento colaborativo, possuem objetivos, são Flexíveis, sociáveis e têm a capacidade de aprender.A Web Semântica possuirá vários agentes interagindo entre si, compreendendo, trocando ontologias, adquirindo novas capacidades racionais quando adquirirem novas ontologias e formando cadeias que facilitam a comunicação e a ação humana.

Arquitetura da Web Semântica

A primeira proposta divulgada publicamente sobre a arquitetura da Web Semântica foi publicada no ano de 2000 pelo W3C através de seu mentor Tim Berners-Lee. No início havia a preocupação em desenvolver linguagens computacionais para estruturar recursos informacionais e descrever aspectos semânticos inerentes a esses recursos.

Após a padronização pelo W3C do XML como linguagem computacional padrão, os engenheiros de software começaram a perceber que não era suficiente apenas descrever os recursos informacionais sintaticamente, mas desenvolver tecnologias que permitissem descrever o significado das informações.

A recomendação XML foi divulgada em 1998 pelo W3C, baseando-se também no padrão SGML, assim como a linguagem HTML. Porém, a XML foi criada não como uma linguagem de uso especial, mas sim, como metalinguagem genérica, constituindo uma tecnologia básica capaz de possibilitar o desenvolvimento de outras linguagens computacionais.

Um dos fatores que dificultaram inicialmente a disseminação da XML foi uma concepção equivocada de que esta se apresentava como uma linguagem sucessora da HTML, pois embora a XML resolva alguns dos problemas da HTML, ela foi desenvolvida com um propósito diferente: enquanto a linguagem HTML tem como função principal formatar e exibir o conteúdo de um documento, a linguagem XML possui a função específica de apenas estruturar as informações, não se preocupando com a maneira como estas serão exibidas.

Page 5: Síntese  Web  Semântica    U F P E Maio 2009

Assim, a XML permite a criação de marcações definidas pelo próprio usuário, diferentemente da HTML, podendo ser considerada como um sistema gramatical para construção de linguagens de marcação personalizadas.

RDF é uma linguagem de propósito geral para representação de informações contidas nos recursos Web. Nesse contexto, RDF pode ser vista como uma tecnologia de capacitação para modelagem semântica, como uma ‘linguagem montadora’ genérica, sobre a qual podem ser criadas linguagens específicas do domínio e da tarefa”.

O modelo e a especificação da sintaxe RDF foram propostos em fevereiro de 1999 pelo W3C, com o intuito de possibilitar uma maior interoperabilidade no ambiente Web, oferecendo um padrão aberto para a descrição de recursos. Deste modo, o padrão RDF possibilita uma ampla gama de aplicações, permitindo que sejam feitas declarações a respeito de praticamente qualquer tipo de objeto, desde que este possa ser identificado a partir de um URI.

O RDF permite descrever declarações a respeito de recursos, não exigindo modificações nos mesmos, de modo que uma declaração RDF é uma entidade separada do recurso ao qual ela se refere, podendo inclusive constituir outro recurso. Nesta perspectiva, pode haver muitas declarações RDF distribuídas pela Web referindo-se ao mesmo recurso, descrevendo diferentes propriedades, ou mesmo contextualizando-o a partir de domínios diferentes.

A OWL é uma linguagem computacional utilizada para o desenvolvimento de ontologias, a qual se originou a partir da junção das especificações das linguagens DAML e OIL, sendo denominada inicialmente como DAML+OIL. Assim, desde fevereiro de 2004 a OWL é recomenda pelo W3C como linguagem padrão para o desenvolvimento de ontologias.

A OWL é indicada para ser utilizada em situações onde as informações contidas em documentos necessitem ser processadas de forma automatizada, e não apenas apresentadas para seres humanos, pois a OWL permite descrever formalmente o significado dos termos utilizados em um documento e seus respectivos relacionamentos, possibilitando representações mais abrangentes que as linguagens RDF e RDF Schema, favorecendo uma maior interoperabilidade.

Nesse contexto, pode-se considerar OWL como um padrão que na realidade abarca três tipos de linguagens com diferentes níveis de expressividade, conforme apresentado a seguir:

OWL Lite – Projetada para permitir uma fácil implementação, fornecendo aos usuários um subconjunto funcional baseado em classificações hierárquicas e restrições simples, possibilitando inclusive a migração de sistemas baseados em tesauros e taxonomias para o formato de ontologias.

OWL DL – Projetada para suportar implementações baseadas em Lógica Descritiva, fornecendo um subconjunto que possua propriedades desejáveis em sistemas que necessitem ontologias com um maior nível de detalhamento e restrições.

OWL Full – Projetada para possibilitar o máximo de expressividade enquanto mantém completude computacional, de modo que, diferentemente da OWL DL, pode violar restrições da Lógica Descritiva

Page 6: Síntese  Web  Semântica    U F P E Maio 2009

com o objetivo de ser compatível com o maior número possível de bancos de dados e sistemas de representação do conhecimento.

A WEB Semântica no âmbito da Recuperação da InformaçãoO caos hoje encontrado na internet com inúmeros artigos e notícias, que

em muito não ajudam a encontrar o que de fato se deseja, pode estar com os dias contados “muitos anos ainda”, com a reformulação do modo de pesquisa que os sites de busca irão “adotar” talvez tenhamos as informações mais coerentes e condizentes com o que queremos.

Hoje para se encontrar algum artigo, muitas vezes temos que acessar várias páginas a fim de encontrarmos realmente o que precisamos, a dificuldade de localização dar-se pelo modo como o “artigo” é armazenado e classificado, não dando uma interpretação de forma “humana”.

A web 3.0 ou Web Semântica esta estruturada nesta perspectiva de controlar melhor as informações na internet e proporcionar ao individuo tudo de forma ordenada, minimizando a quantidade de busca.

Baseado na linguagem computacional flexível XML, associada a formatos de metadados Dublin Core e MARC, garantem uma informação padronizada. Porem o padrão RDF será a grande ferramenta que deverá ser adotada nas páginas da web 3.0 por garantir uma interatividade homem máquina.

A WEB Semântica: A WEB se aproxima de uma grande SRIA partir dos conceitos de sistemas de recuperação de informações e das

tecnologias apresentadas, vamos entender um pouco mais o grande panorama da Web Semântica, com a ilustração a seguir (figura 1). Na figura 1, que ilustra o roadmap da Web Semântica (SemanticWeb.Org, 2001), podemos entender como as tecnologias se articulam entre si e como a Web Semântica aproxima a Web da funcionalidade plena de um sistema de recuperação de informações. Vamos associar as várias entidades representadas e suas funcionalidades associadas a seguir.

Page 7: Síntese  Web  Semântica    U F P E Maio 2009

No âmbito da representação e indexação dos documentos, temos as ferramentas e tecnologias para anotação semântica das páginas web (Web-Page annotation Tools) e para construção de ontologias compartilhadas (Ontology Construction Tools). Estas ferramentas possibilitarão a existência cada vez mais ampla e disseminada de páginas web marcadas semanticamente (Annotated Web-Pages) com metadados descritos em namespaces de domínio público (Metadata Repository) e com conteúdo semântico compartilhado em seu significado pelas comunidades e usuários da web através das ontologias. As ontologias criadas serão articuladas entre si por meio de ferramentas específicas e meta-ontologias (Ontologies Articulation Toolkits). Com uma estratégia padronizada de indexação, podemos projetar sistemas mais funcionais para recuperação da informação armazenada.

No âmbito da recuperação e uso dos documentos, os agentes, associados aos mecanismos de busca e inferência (Inference Engine) executarão o harvesting (colheita) de informações nos documentos anotados semanticamente de maneira eficaz, porque serão capazes de “compreender” seus conteúdos, de modo que a informação seja mais significativamente utilizada pelos usuários (humanos e não humanos) da Web. Estes poderão acessar estas novas tecnologias por meio dos portais comunitários (community portals) ou mesmo dos portais corporativos das organizações. Podemos esperar que a Web tenha grande melhoria dos índices de revocação e precisão no atendimento das necessidades de informação, porque a semântica embutida nos documentos permitirá aos dispositivos de recuperação evitar os problemas comuns de polissemia e sinonímia, além de considerar as informações em seus contextos de significado.A infra-estrutura da Internet e as intranets, no âmbito das várias organizações, serão os dispositivos responsáveis pelo armazenamento e os canais por onde ocorre a disseminação dos documentos, neste grande sistema de informação.

As tecnologias para implementação, assim como os protótipos destas ferramentas, já se encontram disponíveis, e o processo de atualização da Web está em pleno curso. A Web Semântica não trata de uma revolução, mas sim de uma evolução da Web como a conhecemos hoje. Trata-se principalmente da adoção de padrões de metadados e de compartilhamento destes padrões,

de forma que possamos melhor utilizar o vasto repositório de informações disponível da Web de maneira mais produtiva, ágil e significativa.

Contextualizando a Web Semântica no Âmbito da Ciência da Informação

A Ciência da Informação tem como um de seus objetivos estudar e desenvolver métodos e técnicas para o melhoramento dos processos de armazenamento, organização e recuperação de informação, considerando também aspectos científicos e profissionais que obtém dimensões sociais e humanas, que se apresenta com maior relevância do que os aspectos tecnológicos.

Observamos que estudos realizados para o desenvolvimento de novas tecnologias de informação no âmbito da Ciência da Informação são encontradas na vertente da recuperação da informação, onde ambas as áreas se unem para proporcionar aos usuários uma recuperação satisfatória.

Contudo, identificamos um conflito entre Ciência da Informação e

Page 8: Síntese  Web  Semântica    U F P E Maio 2009

Ciência da Computação a respeito de teorias que conceitue o objeto de estudo de ambas as áreas, ou seja, a informação. A primeira defende que a informação é um significado transmitido a um ser consciente por meio de uma mensagem inscrita em um suporte espaço-temporal: impresso, sinal-elétrico, onda sonora etc. Já a segunda defende que o conceito de informação tradicionalmente restringi-se ao conceito relacionado com a teoria da Matemática da Informação apresentado como transmissão de mensagem e troca de sinais a qual não se preocupa com a semântica dos dados.

A Ciência da Computação preocupa-se o desenvolvimento dos sistemas computacionais e com a recuperação quantitativa de informações, enquanto que a Ciência da Informação preocupa-se com a natureza das informações, assim como sua comunicação e uso pelos humanos.

No âmbito da área de Ciência da Informação é evidente a presença de componentes semânticos em tal processo, pois para o usuário as informações recuperadas possuem um significado semântico implícito.

Assim, o projeto Web Semântica baseia-se na possibilidade de categorias que possam ser interpretadas automaticamente pelos computadores.

Ontologias como Instrumentos de Representação

Com o grande aumento na quantidade de recursos informacionais, é necessário relacioná-los e organizá-los de maneira adequada, com isso observa-se a necessidade de instrumentos que possibilitem descrever níveis de relacionamentos mais avançados e que possam ser processados de forma automatizada por computadores os quais vem sendo denominados como ontologias.

As ontologias são sistemas de conceitos existente na Web Semântica emergente como uma forma de representar a semântica dos documentos, permitindo que a semântica possa ser utilizada por aplicações web e agentes inteligentes. Ontologias podem revelar-se muito úteis para a comunidade como uma forma de estruturar e definir o significado de termos, os metadados, que são atualmente recolhidos e padronizados. Usando ontologias, as aplicações futuras podem vir a ser “inteligentes”, no sentido de que se possa trabalhar com mais precisão a um nível conceitual humano.

As ontologias funcionam de maneira muito parecida com o nosso cérebro, relacionando identidades similares e agrupando-as em classes diferentes. Um telefone, por exemplo, se enquadra em diversos grupos: telefones, aparelhos eletrônicos, instrumentos de comunicação e assim por diante.

Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no dia-a-dia, como cruzar informações automaticamente, de sistemas diferentes e buscar informações sem que seja solicitado, através de um tipo de poder de compreensão (limitado, claro)

Uma ontologia pode assumir vários formatos, mas necessariamente deve incluir um vocabulário de termos e alguma especificação de seu significado. Elas devem obter em seu campo conceitos e umas indicações de como estes deverão estar inter-relacionados.

No âmbito da Ciência da Informação têm ocorrido estudos para identificar convergências e divergências existentes às ontologias e os

Page 9: Síntese  Web  Semântica    U F P E Maio 2009

instrumentos convencionais de representação da informação, sendo identificada uma principal diferença que seria a capacidade de compreensível pelas máquinas, proporcionadas pelas ontologias.

Então vemos que a diferença entre as ontologias e os tesauros é que a primeira tem maior variedade de relações entre conceitos, elas permitem descrever formalmente relações semânticas complexas, obtendo assim, um maior nível de expressividade e proporcionado tanto a humanos como a máquinas interpretar tais relações, já o tesauros são ferramentas com poucas relações semânticas e que são interpretadas apenas por usuários humanos. No entanto, vemos que há semelhanças entre ontologias e tesauros sendo ambos os instrumentos formulados a partir de um sistema de conceitos.

Portanto, são de grande importância os estudos feitos pela Ciência da Informação abordando os aspectos de lógicos, explícitos e abrangentes das ontologias na prática e realidade da recuperação da informação.

A Web Semântica sobre o prisma da Ciência da Informação

O objetivo da Web Semântica é possibilitar a criação de categorias para a classificação dos recursos informacionais disponíveis no ambiente web.

No projeto Web Semântica, a Ciência da Informação pode contribuir para o seu desenvolvimento, pois os instrumentos de representação utilizados pela Ciência da Informação podem servir como essência para o desenvolvimento de novos tipos de instrumentos de representação da informação no ambiente digital.Exemplo:O formato MARC 21 (Machine Readable Cataloging) e a sua versão XML. Sua principal diferença está na estrutura utilizada para organizar os dados bibliográficos e catalográficos.

A seguir dois projetos cujo desenvolvimento de tecnologias no âmbito de bibliotecas digitais, utilizando tecnologias relacionadas ao projeto web semânticas.

• MarcOnt: Permite a criação de uma ontologia capaz de tornar-se padrão de representação de informações para bibliotecas digitais, possibilitando a descrição semântica dos conteúdos.

• Jerome DL: Permite descrever os recursos a partir da linguagem computacional RDF e a realização de buscas semânticas baseadas em ontologias, possibilitando uma melhora na precisão das buscas.

Considera-se que as tecnologias ligadas ao projeto Web Semânticas e os instrumentos de representação de informações desenvolvidos no âmbito da área de Ciência da Informação possuem como objetivo comum, propiciar meios mais adequados de representar e organizar os conteúdos informacionais, possibilitando responder de maneira mais eficiente às buscas realizadas pelos usuários finais

Referências[1] Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web. Scientific American, pages 35{43, May 2001.

Page 10: Síntese  Web  Semântica    U F P E Maio 2009

[2] Carla Gomes de Faria and Ros_ario Girardi. Uma análise da web semântica e suas implicacões no acesso _a informação. Universidade Federal do Maranhão.[3] James Hendler. Agents and semantic web. Scientic American, pages 30{37, April 2001.[4] Bruno Viana Rezende and Marcelo Peixoto Bax. Projeto indexa: ferramentas de auxílio à divulgação de informações na web. http://www.dcc.ufmg.br/~nivio/cv/cv.ps.RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos interdisciplinares da gestão de recursos informacionais no âmbito da Ciência da Informação;The New York Time, Museu belga revela a internet de papel do início do século 20;OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os profissionais da informação;http://www.abranet.org.br/historiadainternet/ocomeco.htmBogo, Kellen Cristina. A História da Internet

Disciplina: Recuperação da InformaçãoProfessor: Fábio Pinho

Equipe:

Ailton PedroAurélio FernandoClodoaldo dos SantosCorina NascimentoJosé AnicetoJosé RicardoRafael Rodrigo