Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Post on 07-Apr-2016

217 views 3 download

Transcript of Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Gestão e Recuperação de Informação

Informação Estruturada

José Borbinha – DEI/IST

2

Informação => Recursos

3

Informação?• Como informação iremos considerar

daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.

• Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...

4

Como se define um recurso?• Definição simples: Um recurso de informação poderá ser tudo

aquilo a que se pode atribuir um identificador!!!

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– ..

• A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...

5

Identificadores e géneros de recursos:

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– .. Mais exemplos ...???...

• Géneros de recursos:– Uma página web!– ...qualquer coisa...– Um livro!– Uma pessoa ou organização!– Um ficheiro num computador!– Uma pessoa ou organização!– Uma pessoa ou organização!– Uma pessoa!– Um automóvel!– .. ??? ...

6

Voltando ao problema genérico da Gestão e Recuperação de Informação

O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir:

– Espaços de identificadores, para todos os recursos– Atributos que possam ser processados sobre os recursos

(eventualmente, os identificadores de um recurso podem ser atributos seus)

– Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos

– Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores

7

Atributos => Metadados

8

Sobre os Atributos– Podemos fazer uma analogia dizendo que no

problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...)

– Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso!

– (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.

9

Exemplos de atributos/metadadosTítulo = A Morgadinha dos Canaviais

<autor>Jaime Silva<autor>

id := 123-xpto-h3d4

Género: Dissertação

Type = JPEG2000

Data de Edição - 29 de Fevereiro de 2004

102 ## $aPT

700 #1 $aHalpern$bManuel Júdice$f1932-

10

Metadados podem ser criados

– Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca!

– Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...

11

“Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)

Objectos de informação estruturados

podem facilitar a extracção de metadados!!!

12

Que tipos de metadados podemos ter?

– Descritivos• título, nome do autor, assunto, data de

criação, ...– Técnicos

• formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ...

– Administrativos• Password de acesso, responsável pela compra

ou licenciamento, ...

– ...aqueles que o negócio precisar...

13

Voltando à criação de Metadados

• Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...

14

Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)

15

Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)

16

Mais metadados

• <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

• <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml">• <head>• <title>Instituto Superior T&eacute;cnico</title>• <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />• <meta name="keywords" content="ensino, ensino superior, universidade, instituto,

ciência, instituto superior técnico, investigação e desenvolvimento" />• <meta name="description" content="O Instituto Superior Técnico é a maior escola de

engenharia, ciência e tecnologia em Portugal." />• <meta name="author" content="Instituto Superior Técnico" />• <meta http-equiv="pragma" content="no-cache" />• <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" />• <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" />• <link rel="stylesheet" type="text/css" media="print" href="css/print.css" />• <script src="/js/flash.js" type="text/javascript"></script>• <script src="/js/flash.vbs" type="text/vbscript"></script>• <script src="http://www.google-analytics.com/urchin.js" type="text/javascript">• </script>• <script type="text/javascript">• _uacct = "UA-182539-2";• urchinTracker();• </script>• </head>• <body>• ...

17

Mais sobre extracção de metadados

18

Mais sobre extracção de metadados

19

Há mesmo um negócio na extracção de metadados...

20

A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)

21

Ponto de ordem:• Metadados são estruturas de informação sobre recursos que

podem servir de suporte à gestão, pesquisa e acesso a esses recursos

• Metadados podem existir independentes dos recursos ou existir integrados nos mesmos

• Metadados podem ser criados:– Manualmente– Automaticamente:

• Durante os processos de criação dos recursos• Posteriormente à criação dos recursos, extraídos dos

mesmos

22

Metadados e Esquemas

Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos:

– XMP - Extensible Metadata Platform• http://xml.coverpages.org/xmp.html

– MARC Standards• http://www.loc.gov/marc/

– UNIMARC• http://www.unimarc.info/bibliographic/2.3/en/summary

– Dublin Core Metadata Initiative• http://dublincore.org/

– MPEG-7 / MPEG-21 DIDL• http://www.chiariglione.org/mpeg/

– etc...

23

24

25

26

27

28

Dos Metadados aos Serviços...

29

O que se pode fazer então com os metadados?• Em cenários bem definidos, podem ser simplesmente “despejados” para uma

base de dados, criando serviços de Precision=Recall=1

30

A propósito, um registo UNIMARC (codificado em MarcXchange)

31

O que se pode fazer então com os metadados?• Em cenários menos bem definidos (mais “Information Retrieval”), podem-se

usar os registos de metadados como fontes para serviços na mesma:

32

Partilha de Metadados• Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços

baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...).

• A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!!

• No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...)

• Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação...

• Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)

33

OAI - Open Archives Initiative

34

OAI-PMHProtocol for Metadata Harvesting

(http://www.oaforum.org/tutorial/image/structure-model.gif)

Web-Services segundo o modelo

REST...

35

No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50...

http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg

36

37

Servidores Z39.50 em bibliotecas Portuguesas:

38

O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)

39

TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

40

Próximas aulas...

RSS

MPEG...

METS

SMIL

DocBook

ATOM

Dublin Core...

UNIMARC

MARC21ONIX

XML RDFDocument Schemas Metadata Registries

......

...

GML

41

Perguntas?