Web Semântica Apresentação de Slides
description
Transcript of Web Semântica Apresentação de Slides
WEB SEMÂNTICARecuperação da Informação
Prof. Fábio Assis PinhoProf. Fábio Assis Pinho.
UNIVERSIDADE FEDERAL DE PERNAMBUCO
Recuperação da Informação:
Prof. Fábio Assis PinhoApresentação:
•Ailton Pedro
•Aurélio Fernando
•Clodoaldo Santos
•Corina Nascimento
•José Aniceto
•José Ricardo
•Rafael Rodrigo
WEB WEB SEMÂNTICASEMÂNTICA
Maio / 2009
“A Web Semântica é uma extensão da Web atual, onde a informação possui um
significado claro e bem definido, possibilitando uma melhor interação entre
computadores e pessoas”.
WEB WEB SEMÂNTICASEMÂNTICA
Berners Lee.
A História da Web
Corina Nascimento
A História da Internet
Fatos históricos• Biblioteca de Alexandria, criada por Ptolomeu I (289
a.C.);• Mundaneum, idealizado por Paul Otlet e Henri de La
Fontaine, eles começaram a coletar dados de todos os livros, revistas, artigos já publicados, usando cartões de índice de 7 a 12 cm (o que havia de mais avançado na tecnologia de armazenamento)criando um banco de dados com mais de 12 milhões de entradas individuais ;
• Memex, máquina capaz de estocar grande quantidade de informação de forma fácil que permitisse uma rápida recuperação. Nunca foi construída, embora Vannevar Bush a enxergasse como a extensão natural das tecnologias existentes em 1945;
• Projeto Xanadu, criado por Theodore Nelson imaginando uma imensa rede de informações acessível em tempo real, contendo todo o saber literário e científico do mundo.
A Evolução da Internet
• Durante a Guerra Fria, o departamento de defesa dos EUA, pensou em um sistema que interligasse vários pontos, de modo que não centralizasse o comando,(Anos 60/70);
• 1969 surge a ARPAnet (Advanced Research Projects Agency), rede que interligava originalmente vários centros de pesquisa;
• Início dos anos 80, foi desenvolvida uma nova utilidade para a ARPnet, interligar laboratórios e universidade nos EUA, surgiu o nome Internet;
• Final dos anos 80, a Internet passa a ser vista como um eficiente veículo de comunicação mundial, onde cientistas e acadêmicos passaram a utilizá-la mais intensamente (existia apenas em formato de texto, antigos arquivos Gopher;
• O Protocolo de comutação de pacotes originais usado pela ARPAnet era o NCP (Network Control Protocol), mudado para o TCP/IP (Transfer Control Protocol/Internet Protocol) desenvolvido pela UNIX.
• Anos 90, Tim Berners-Lee com sua equipe de pesquisadores, teve a idéia de desenvolver um sistema de hipertexto que deveria funcionar em redes de computadores;
• 1991, esses pesquisadores tiveram a idéia de criar a Word Wide Web (maior parte das informações em formato de texto, com poucos desenhos)
• 1992 foi criado o Mosaic (capaz de interpretar gráficos e realizar navegações através de links), primeiro navegador para Internet, para sistema X Windows
• Em seguida apareceram versões do Mosaic para Macintosh e Microsoft Windows;
• Nos dias atuais os padrões com o qual as páginas são programadas são definidas pela W3C (World Wide Web Consortium), consórcio liderado por Tim Beeners-Lee, do qual fazem parte empresas como Microsoft, Apple, Sun e Netscape.
A Evolução da Internet
• A 1ª fase restringiu-se ao âmbito acadêmico;• Em 1987 pesquisadores e técnicos da
EMBRATEL se reuniram na USP, para discutir a montagem de uma rede que interligasse universidades brasileiras e internacionais;
• Em 1989 foi criada a RNP (Rede Nacional de Pesquisa), com o objetivo inicial de construir uma infraestrutura de rede nacional de âmbito acadêmico;
• Em 1991, a FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) estabeleceu a primeira conexão utilizando o padrão TCP/IP, permitindo a administração de domínio “.br” e a distribuição de endereços IP para todo o país.
A Evolução da Internet no Brasil
A Evolução da Internet no Brasil
• Em 1995, teve início o processo de abertura da Internet no país, por meio da EMBRATEL e da RNP;
• Em 1996, depois de autorizado pelo ministro das Comunicações, a Internet brasileira deixou de ser um privilégio de universidades e passou a ser explorada comercialmente.
Números
• Tempo que novas tecnologias levaram para atingir 50 milhões de usuários no mundo:– Rádio 38 anos– Computador 16 anos– Televisão 13 anos– TV a cabo 10 anos– Internet 4 anos
Estrutura e componentes da WEB
• O desenvolvimento da WEB, só foi possível a partir da definição de padrões abertos;
• Ao utilizar padrões disponíveis para todos, tornou-se mais fácil a adaptação das diferentes redes ou diferentes equipamentos utilizados;
• Já que sua proposta é a interconexão de redes de diversos tipos;
• Entre os padrões abertos, pode-se destacar o HTTP (Hypertext Transfer Protocol), que pode ser entendido como um conjunto de regras definidas para a comunicação entre os componentes da WEB.
• Outro componente fundamental na Internet é o Identificador Único de Recurso(URI), codifica nomes dos recurso e respectivos endereços na Internet
• Um URI é um padrão que pode ser representado pelos conceitos de URL (Localizador Único de Recurso) e URN (Nome Único de Recurso)
Estrutura e componentes da WEB
• URI é formado por basicamente três partes:
Protocolo
Nome do Recurso
Localização do Recurso (Indicando o Servidor)
200.146.172.1
http://www.ufpe.br/dci/site
Estrutura e componentes da WEB
• Para disponibilização de recursos informacionais no ambiente WEB, são utilizados documentos informacionais chamados páginas WEB;
• Estas páginas são desenvolvidas utilizando linguagens computacionais denominadas linguagens de marcação;
• Ao invés de utilizar comandos e funções para realização de tarefas, utiliza “tags”, para marcar o conteúdo do documento;
Estrutura e componentes da WEB
• A HTML (Hypertext Markup Language´) é considerada como a linguagem padrão para o desenvolvimento de páginas da WEB
• Derivada da linguagem SGML (Standard Generalized Markup Language)
• Utiliza o padrão ASCII, considerado como um formato de texto simples, que pode ser identificado de qualquer computador;
• A HTML representa os dados de forma simples, priorizando o modo de apresentação de conteúdos.Não possibilita a descrição de estruturas semânticas;
• Para marcar um trecho de texto informando que é um parágrafo, em HTML deve utilizar os tags <P> e </P> no início e no final do parágrafo.
• Um fator de limitação da HTML é que ela impossibilita a atribuição de significados aos conteúdos das páginas, trazendo assim um grande volume de dados não relevantes, dificultando a recuperação de informações. Falta de extensibilidade;
Estrutura e componentes da WEB
WEB SEMÂNTICA
• Vem se apresentando como a solução para ordenar o caos informacional existente na web;
• Possibilitará a compreensão e o gerenciamento dos conteúdos armazenados na web;
• O fantasma da perda de informação ou mensagens do tipo “Error 404: Not Found” deverão inexistir, ou estar sob controle;
• Para implementação ou reorganização da WEB SEMÂNTICA há um contingente de pesquisadores trabalhando no W3C, em países como EUA, França e Japão, com a missão de alavancar a web ao seu potencial máximo.
Arquitetura da Web Semântica Parte 1
Aurélio Fernando
IntroduçãoA internet tornou-se um fenômeno mundial, sendo possível acessar informações em diversas partes do mundo instantaneamente. O volume destas informações alcançaram números impressionantes nos dias atuais.Entretanto o vasto número de documentos Web e a falta de padronização dessas informações originaram um problema para os usuários na hora de navegar na Internet e assim achar as informações desejadas. Esse problema é chamado de Information Overload. Esse problema é caracterizado quando uma pessoa, ao realizar uma consulta, obtém um número excessivo de informações como resposta e não consegue absorvê-las ou tratá-las, tendo que examinar todos os documentos resultantes para encontrar as informações desejadas. Como a maior parte das informações disponíveis na Internet, está disposta em linguagem natural, sendo compreensíveis apenas por humanos, houve a necessidade de uma semântica que permitisse uma padronização das informações sendo possível o processamento dessas informações por humanos e máquinas, surgindo assim a idéia do desenvolvimento da Web Semântica.
O termo "Semântica" é definido como sendo o estudo do sentido das palavras.
Arquitetura• A Web Semântica introduz estrutura e significado ao
conteúdo disponível na internet, visando transformar uma rede de documentos em uma rede de dados, compreensível tanto para humanos quanto para computadores, de maneira a possibilitar que os últimos cooperem melhor durante a realizacão de tarefas, ou quando da realização de um serviço aos usuários.
• O principal desafio da Web Semântica é criar uma linguagem que consiga expressar o significado e ao mesmo tempo estabelecer regras para processar esse significado de forma a inferir novos dados e regras. As regras para o processamento do significado devem ser exportadas para a web afim de permitir que outros sistemas inteligentes possam interagir.
Na proposta de desenvolvimento da Web Semântica é sugerida uma arquitetura de 3 camadas:
Arquitetura
•A camada de Estrutura: que estrutura os dados e define seu significado;
•A camada ontologia: que define as relações entre os dados;
•A camada lógica: que define mecanismos para fazer inferências sobre os dados.
Dados
Regras de I nferência
Cam ada deEstrutura
Cam ada Lógica
W eb Sem ântica
Cam ada deOntologia
…
Arquitetura• Disposição das
camadas
Arquitetura
Dados
Regras de Inferência
CamadadeEstrutura
Camada Lógica
Web Semântica
CamadadeOntologia
…
Camada de Estutura
ArquiteturaA camada A camada de Estrutura:de Estrutura:• A camada de estrutura provê uma forma de definir os dados
do documento e o significado associado a esses dados. Trata também da estruturação e disposição dos dados de forma que os programas que rodam na web possam fazer inferência a partir dos mesmos.
Para que haja a representacão do conhecimento são necessarias três condições:
Interoperabilidade estrutural: Permite que os dados sejam representados de forma distinta, permitindo especicar tipos e possíveis valores para cada forma de representação;
Interoperabilidade sintática: Constitui- se de regras precisas que permitem o intercâmbio de dados na Web;
Interoperabilidade Semântica: Possibilita a compreensão e associação entre os dados.
Para atender esses requisitos, utiliza-se XML e RDF.
Arquitetura
Dados
Regras de Inferência
CamadadeEstrutura
Camada Lógica
Web Semântica
CamadadeOntologia
…
Camada de Ontologia
Arquitetura
A camada OntologiaA camada Ontologia::
• Duas bases de dados podem utilizar terminologias diferentes para referir-se a mesma informação, resultando em divergências em um conjunto semântico de dados. Pode ocorrer também de uma mesma terminologia estar sendo utilizada com signicados diferentes, por aplicações distintas.
• Para tratar esses conflitos, existe a camada de ontologia que define mecanismos capazes de
estabelecer um padrão entre as páginas da web.
Ontologia• A utilização das triplas <objeto, atributo, valor> garante
a definição únicas dos conceitos, no entanto, o mesmo conceito pode ser expresso de forma diferente e em linguagens diferentes.
• Por exemplo, duas bases de dados podem armazenar os mesmos conceitos utilizando terminologias distintas. Para que a informação existente possa ser processada e relacionada é necessário que exista uma definição da relação entre os conceitos contidos em diferentes documentos. Para isso são utilizadas as ontologias.
• Uma ontologia pode ser definida como um conjunto de termos de conhecimento incluindo o vocabulário, interconexões semânticas e simples regras de inferência.
Ontologia
• Com a introdução de ontologias, passa-se de um domínio de conceitos isolados na web, próprios de cada aplicação específica, para conceitos universalmente conhecidos entre as aplicações. As ontologias permitem expressar regras permitindo a um programa deduzir signicados da informação guardados no documento, ou seja, permitem manipular os termos de uma maneira mais útil e eficiente.
• Uma ontologia envolve a definição de uma hierarquia de classes e subclasses para os conceitos envolvidos.
Arquitetura
Camada Lógica
Dados
Regras de Inferência
CamadadeEstrutura
Camada Lógica
Web Semântica
CamadadeOntologia
…
Arquitetura• É através da camada lógica que são possíveis os
relacionamentos de informação e as inferências de conhecimento da Web Semântica. As regras de inferência fornecem aos agentes(programas) poder de raciocinar sobre os termos e seus significados, que foram definidos na camada esquema e de raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua definição na camada ontologia.
• Os agentes são sistemas computacionais capazes de interagir autonomamente para atingir os objetivos do seu criador. Os agentes possuem algumas características como autonomia, reatividade (percebem
• o ambiente tomam as decisões), têm comportamento colaborativo, possuem objetivos, são flexíveis, sociáveis e têm a capacidade de aprender.
• A Web Semântica possuirá vários agentes interagindo entre si, compreendendo, trocando ontologias, adquirindo novas capacidades racionais quando adquirirem novas ontologias e formando cadeias
Fonte: Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web. Scientic American, pages 35{43, May 2001.
Arquitetura da Web Semântica Parte 2
AÍlton Pedro
Arquitetura Web Semântica
• Primeira proposta divulgada publicamente no ano de 2000 pelo W3C (Tim Berners-Lee)
• Preocupação em desenvolver linguagens computacionais para estruturar recursos e descrever aspectos semânticos
• Não era suficiente apenas descrever os recursos informacionais sintaticamente, mas desenvolver tecnologias que permitissem descrever o significado das informações
• URI (Uniform Resource Identifier) – forma como identificamos um ponto de conteúdo na internet
Linguagens de Representação de Recursos Informacionais
• Principais Linguagens Computacionais Padronizadas pelo W3C:– XML (Extensible Markup Language)
– RDF (Resource Description Framework)
– OWL (Web Ontology Language)
Linguagens de Representação de Recursos Informacionais
• XML– Objetivos da linguagem:
1. Direta e Objetiva2. Suporta ampla gama de
aplicativos3. Compatível com SGML4. Fácil de desenvolver
programas5. Número de recursos
adicionais mínimos6. Documetos legíveis e claros7. Preparado rapidamente8. Design formal e conciso9. Documentos fáceis de
serem criados10. A concisão na marcação é
de importância mínima
Importante característica: permite aoautor do documento a definição dassuas próprias marcas, o que confereao XML habilidades semânticas quepossibilitam melhorias nos processosde recuperação e disseminação dainformação
• RDF– Modelo para descrever
recursos– Baseado em um modelo
de grafo no lugar de árvore
– Sintaxe: (Sujeito, Predicado, Objeto)
– Usa XML como sintaxe– Melhora a descoberta, o
acesso e o gerenciamento das informações da Web
Linguagens de Representação de Recursos Informacionais
• OWL– Recomendada pelo W3C para o
desenvolvimento de ontologias, definida a partir de:
• RDF e RDF Schema• DAML+OIL
– Estrutura baseada nos seguintes elementos básicos:
• Namespaces; Cabeçalhos; Classes; Indivíduos; Propriedades; Restrições
Linguagens de Representação de Recursos Informacionais
• OWL lite:– versão simplificada de OWL– oferece primariamente hierarquias e restrições
simples• OWL DL
– aumenta a expressividade, mantendo decidibilidade
• OWL Full– expressividade, sem garantia de decidibilidade
Linguagens de Representação de Recursos Informacionais
CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA INFORMAÇÃO
José Aniceto
• A Ciência da Informação tem como um de seus objetivos estudar e desenvolver métodos e técnicas para o melhoramento dos processos de armazenamento, organização e recuperação de informação, considerando também aspectos científicos e profissionais que obtém dimensões sociais e humanas, que se apresenta com maior relevância do que os aspectos tecnológicos.
CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA
INFORMAÇÃO.
DIFERENTES CONCEITOS AO SE REFERIR AO TERMO INFORMAÇÃO.
CIÊNCIA DA INFORMAÇÃO X
CIÊNCIA DA COMPUTAÇÃO.
• No âmbito da área de Ciência da Informação é evidente a presença de componentes semânticos em tal processo, pois para o usuário as informações recuperadas possuem um significado semântico implícito.
• O projeto Web Semântica baseia-se na possibilidade de categorias que possam ser interpretadas automaticamente pelos computadores.
ONTOLOGIAS COMO INSTRUMENTOS DE REPRESENTAÇÃO
• Com o grande aumento na quantidade de recursos informacionais, é necessário relaciona-los e organiza-los de maneira adequada, com isso observo-se a necessidade de instrumentos que possibilitem descrever níveis de relacionamentos mais avançados e que possam ser processados de forma automatizada por computadores os quais vem sendo denominados como ontologias.
MODELOS CONCEITUAIS AUTOMÁTICOS
• As ontologias funcionam de maneira muito parecida com o nosso cérebro.
• Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no dia-a-dia, com limites, é claro.
• Uma ontologia pode assumir vários formatos, mas necessariamente deve incluir um vocabulário de termos e alguma especificação de seu significado. Elas devem obter em seu campo conceitos e uma indicação de como estes deverão estar inter-relacionados.
TESAURO X
ONTOLOGIAS
A Web Semântica sob o prisma da Ciência da Informação
José Ricardo
A Web Semântica sob o prisma da ciência da Informação
• Objetivo da Web Semântica• A contribuição da Ciência da Informação para o projeto
web semântico.• Exemplo:
• O formato Marc 21 (Machine Readable Cataloging) Originado em 1998 e a sua versão em XML.
Exemplos
• É possível identificar atualmente alguns projetos que têm como
• principal objetivo o desenvolvimento de novas tecnologias no âmbito de bibliotecas
• digitais utilizando-se das tecnologias relacionadas ao projeto Web Semântica, entre os
• quais pode-se destacar o JeromeDL e o MarcOnt.
JeromeDL
• Reconnecting Digital Libraries and the Semantic Web, o projeto JeromeDL
• consiste de uma biblioteca digital de código aberto baseada nas principais tecnologias presentes no projeto Web Semântica, permitindo a descrição de recursos a partir da linguagem computacional RDF e a realização de buscas semânticas baseadas em ontologias, possibilitando uma melhora considerável na precisão das buscas e um maior nível de interoperabilidade.
http://library.deri.ie/
MarcOnt
• o principal objetivo deste projeto é criar uma ontologia capaz de tornar-se um padrão de representação de informações para bibliotecas digitais, possibilitando a descrição dos aspectos semânticos dos conteúdos e favorecendo a integração de bibliotecas. Assim, está em fase de desenvolvimento e avaliação a ontologia MarcOnt, desenvolvida utilizando-se a linguagem OWL, de modo que se espera que tal ontologia seja compatível com o formato MARC 21, permitindo que as descrições semânticas possam ser convertidas para outros formatos, possibilitando grande interoperabilidade e o reaproveitamento das bases de conhecimento, por meio da incorporação de outras ontologias que sigam os mesmos critérios.
http://www.marcont.org/
Ciência da Informação e Web semântica
• Juntas propriciam meios mais adequados de representar e organizar conteúdos informacionais, possibilitando responder de maneira mais eficiente às buscas realizadas pelos usuários finais.
RECUPERAÇÃO DA INFORMAÇÃO NAWEB SEMÂNTICA
Clodoaldo Santos& Rafael Rodrigo
OBJETIVOS
DIMINUIR O CAOS DE EXCESSO DE INFORMAÇÕES
ESTRUTURAR A INFORMAÇÃO COM BASES SÓLIDAS
DINAMIZAR O RELACONAMENTO HOMEM-MÁQUINA
MELHOR QUALIDADE DE REVOCAÇÃO E PRECISÃO
O QUE FALTA ?
CONHECIMENTO MAIS APROFUNDADO DOS PROGRMADORES DE PÁGINAS WEB
ADOÇÃO DA TECNOLOGIA PELOS SITES DE BUSCA
INFRA ESTRUTURA PARA ARMAZENAMENTO E DISSEMINAÇÃO
ATUALIZAÇÃO DA WEB
COMO RECUPERAR
• Estratégia:Arte de aplicar os meios disponíveis com vista à consecução de objetivos
específicos.
• Busca:Procura com o fim de encontrar alguma coisa
• Tática:Processo empregado para sair-se bem num empreendimento
ESTRATÉGIA DE BUSCA
Oldroyd & Citroen (1977) identificaram três grandes etapas para decisão no processo de planejamento da estratégia de busca: decisão sobre qual a melhor base de dados para um determinado tema; decisão referente à seleção dos termos de busca e sua adequação para a base a ser consultada; decisão sobre a formulação lógica da estratégia.
É sabido que a maior parte dos usuários, ao realizar uma busca, acredita possuir uma boa compreensão dos próprios problemas. A tarefa do intermediário junto aos sistemas é ajudar o usuário a definir e especificar o problema, com termos e conceitos que são apropriados para aquela fonte de informação específica que será utilizada para a busca. Ou seja, os termos usados em uma determinada área do conhecimento devem ajustar-se àqueles usados nas bases de dados mais relevantes que serão consultadas.
ESTRATÉGIA DE BUSCA – ETAPAS
• 1ª Etapa: Discussão do tópico geral da pesquisa
É útil perguntar como os resultados da busca irão ser aplicados, porque a resposta pode mudar a direção ou a ênfase da busca.
• 2ª Etapa: Conhecimentos básicos sobre os instrumentos de busca
Isto pode ajudar a definir o tópico e gerar uma lista das palavras chave a serem usadas na estratégia de busca
• 3ª Etapa: Formulação “provisória” da estratégia de busca
A busca estará bem definida se o intermediário for capaz de assegurar a
recuperação de todas as citações para vários termos. Porem, é desejável que para informações mais complexas, seja usado pelo menos dois conjuntos de termos.
ESTRATÉGIA DE BUSCA – ETAPAS
• 4ª Etapa: Compreensão da lógica dos conjuntos de termos
O uso da interseção de mais de dois conjuntos de termos deve ser evitado, porque, embora os resultados possam ser bem precisos, eles serão limitadores e podem provocar uma possível exclusão de informações relevantes.
• 5ª Etapa: Interdisciplinaridade
Realizar a expansão da busca em outros campos, aumentando consequentemente as possibilidades de documentos de interesse virem a ser recuperados.
ESTRATÉGIA DE BUSCA – ETAPAS
• 6ª Etapa: Eliminação de termos indesejados
Os termos indesejados serão excluídos do resultado da busca depois de se ver o impacto dessa exclusão no resultado total da busca. A decisão para excluir termos nem sempre é fácil e, visualmente, depende da especificação do tópico.
• 7ª Etapa: Especificação dos parâmetros relevantes para a execução da busca
Todos os parâmetros relevantes devem ser considerados para se determinarem os limites da busca. Deve a busca ser limitada nos anos mais recentes? Quais as bases de dados que provavelmente irão fornecer as mais relevantes citações? O pesquisador quer todas as citações que mencionam uma autoridade particular ou somente as que são autorizadas por uma pessoa particular?
FUNCIONALIDADE
UTILIZAR O VASTO REPOSITÓRIO DE INFORMAÇÕES DISPONÍVEL DA WEB DE MANEIRA MAIS PRODUTIVA, ÁGIL E SIGNIFICATIVA.
PROPORCIONAR AO INDIVÍDUO TUDO DE FORMA ORDENADA, MINIMIZANDO A QUANTIDADE DE BUSCA.
Referências• RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos
interdisciplinares da gestão de recursos informacionais no âmbito da Ciência da Informação;
• The New York Time, Museu belga revela a internet de papel do início do século 20;
• OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os profissionais da informação;
• http://www.abranet.org.br/historiadainternet/ocomeco.htm• Bogo, Kellen Cristina. A História da Internet
Referências