Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Gestão e Recuperação de Informação

Informação Estruturada

José Borbinha – DEI/IST

Informação => Recursos

Informação?• Como informação iremos considerar

daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.

• Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...

Como se define um recurso?• Definição simples: Um recurso de informação poderá ser tudo

aquilo a que se pode atribuir um identificador!!!

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– ..

• A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...

Identificadores e géneros de recursos:

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– .. Mais exemplos ...???...

• Géneros de recursos:– Uma página web!– ...qualquer coisa...– Um livro!– Uma pessoa ou organização!– Um ficheiro num computador!– Uma pessoa ou organização!– Uma pessoa ou organização!– Uma pessoa!– Um automóvel!– .. ??? ...

Voltando ao problema genérico da Gestão e Recuperação de Informação

O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir:

– Espaços de identificadores, para todos os recursos– Atributos que possam ser processados sobre os recursos

(eventualmente, os identificadores de um recurso podem ser atributos seus)

– Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos

– Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores

Atributos => Metadados

Sobre os Atributos– Podemos fazer uma analogia dizendo que no

problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...)

– Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso!

– (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.

Exemplos de atributos/metadadosTítulo = A Morgadinha dos Canaviais

<autor>Jaime Silva<autor>

id := 123-xpto-h3d4

Género: Dissertação

Type = JPEG2000

Data de Edição - 29 de Fevereiro de 2004

102 ## $aPT

700 #1 $aHalpern$bManuel Júdice$f1932-

Metadados podem ser criados

– Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca!

– Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...

“Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)

Objectos de informação estruturados

podem facilitar a extracção de metadados!!!

Que tipos de metadados podemos ter?

– Descritivos• título, nome do autor, assunto, data de

criação, ...– Técnicos

• formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ...

– Administrativos• Password de acesso, responsável pela compra

ou licenciamento, ...

– ...aqueles que o negócio precisar...

Voltando à criação de Metadados

• Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...

Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)

Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)

Mais metadados

• <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

• <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml">• <head>• <title>Instituto Superior Técnico</title>• <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />• <meta name="keywords" content="ensino, ensino superior, universidade, instituto,

ciência, instituto superior técnico, investigação e desenvolvimento" />• <meta name="description" content="O Instituto Superior Técnico é a maior escola de

engenharia, ciência e tecnologia em Portugal." />• <meta name="author" content="Instituto Superior Técnico" />• <meta http-equiv="pragma" content="no-cache" />• <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" />• <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" />• <link rel="stylesheet" type="text/css" media="print" href="css/print.css" />• <script src="/js/flash.js" type="text/javascript"></script>• <script src="/js/flash.vbs" type="text/vbscript"></script>• <script src="http://www.google-analytics.com/urchin.js" type="text/javascript">• </script>• <script type="text/javascript">• _uacct = "UA-182539-2";• urchinTracker();• </script>• </head>• <body>• ...

Mais sobre extracção de metadados

Há mesmo um negócio na extracção de metadados...

A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)

Ponto de ordem:• Metadados são estruturas de informação sobre recursos que

podem servir de suporte à gestão, pesquisa e acesso a esses recursos

• Metadados podem existir independentes dos recursos ou existir integrados nos mesmos

• Metadados podem ser criados:– Manualmente– Automaticamente:

• Durante os processos de criação dos recursos• Posteriormente à criação dos recursos, extraídos dos

mesmos

Metadados e Esquemas

Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos:

– XMP - Extensible Metadata Platform• http://xml.coverpages.org/xmp.html

– MARC Standards• http://www.loc.gov/marc/

– UNIMARC• http://www.unimarc.info/bibliographic/2.3/en/summary

– Dublin Core Metadata Initiative• http://dublincore.org/

– MPEG-7 / MPEG-21 DIDL• http://www.chiariglione.org/mpeg/

– etc...

Dos Metadados aos Serviços...

O que se pode fazer então com os metadados?• Em cenários bem definidos, podem ser simplesmente “despejados” para uma

base de dados, criando serviços de Precision=Recall=1

A propósito, um registo UNIMARC (codificado em MarcXchange)

O que se pode fazer então com os metadados?• Em cenários menos bem definidos (mais “Information Retrieval”), podem-se

usar os registos de metadados como fontes para serviços na mesma:

Partilha de Metadados• Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços

baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...).

• A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!!

• No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...)

• Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação...

• Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)

OAI - Open Archives Initiative

OAI-PMHProtocol for Metadata Harvesting

(http://www.oaforum.org/tutorial/image/structure-model.gif)

Web-Services segundo o modelo

REST...

No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50...

http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg

Servidores Z39.50 em bibliotecas Portuguesas:

O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)

TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

Próximas aulas...

MPEG...

DocBook

Dublin Core...

UNIMARC

MARC21ONIX

XML RDFDocument Schemas Metadata Registries

......

Perguntas?

Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Documents

Transcript of Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

SIG outros sistemas de informação...Introdução aos Sistemas de Informação Geográfica Alexandre Gonçalves DECivil - IST alexandre.goncalves@tecnico.ulisboa.pt Aula 1 Sistemas

Ist eclesiologia - 01

Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST.

Ist gonorreia tricomoniase

Ist inês e carla

Bolonha no IST

Modelação Aula T06 Engenharia de Requisitos Modelos Estrutural e Dinâmico Exercícios José Borbinha.

Exercicios IST Resolvidos

Modelação Aulas T22-23 Modelação de Processos José Borbinha.

Unified Modeling Language (UML) - Introdução - Alberto Manuel Rodrigues da Silva Prof. DEI/IST/UTL Análise e Concepção de Sistemas de Informação.

Modelação Aula T01 – Mapas Cognitivos José Borbinha.

EUTROFIZAÇÃO IST, 2004

Unified Modeling Language (UML) - Modelação da Dinâmica - Alberto Silva / José Borbinha Análise e Concepção de Sistemas de Informação.

1 Unified Modeling Language (UML) - Modelação da Estrutura - Alberto Silva / José Borbinha Análise e Concepção de Sistemas de Informação.

Guia Académico IST

Modelo matricial Introdução aos - Autenticação...Introdução aos Sistemas de Informação Geográfica Alexandre Gonçalves DECivil - IST alexandre.goncalves@tecnico.ulisboa.pt

IST EstMetalicas

Gestão e Recuperação de Informação Informação Geográfica - Introdução José Borbinha – DEI/IST.

CriptografiaCriptografiaee SegurançaSegurançaeemmRede Rede ...borges/ist/SIN/cap01.pdf · considerar 3 aspectos de segurança da informação: ataque à ataque à segurançasegurança

Gestão e Recuperação de Informação Informação Geográfica – Normas, iniciativas e entidades de referência... José Borbinha – DEI/IST.