Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

41
Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST

Transcript of Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Page 1: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Gestão e Recuperação de Informação

Informação Estruturada

José Borbinha – DEI/IST

Page 2: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

2

Informação => Recursos

Page 3: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

3

Informação?• Como informação iremos considerar

daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.

• Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...

Page 4: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

4

Como se define um recurso?• Definição simples: Um recurso de informação poderá ser tudo

aquilo a que se pode atribuir um identificador!!!

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– ..

• A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...

Page 5: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

5

Identificadores e géneros de recursos:

• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– .. Mais exemplos ...???...

• Géneros de recursos:– Uma página web!– ...qualquer coisa...– Um livro!– Uma pessoa ou organização!– Um ficheiro num computador!– Uma pessoa ou organização!– Uma pessoa ou organização!– Uma pessoa!– Um automóvel!– .. ??? ...

Page 6: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

6

Voltando ao problema genérico da Gestão e Recuperação de Informação

O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir:

– Espaços de identificadores, para todos os recursos– Atributos que possam ser processados sobre os recursos

(eventualmente, os identificadores de um recurso podem ser atributos seus)

– Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos

– Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores

Page 7: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

7

Atributos => Metadados

Page 8: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

8

Sobre os Atributos– Podemos fazer uma analogia dizendo que no

problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...)

– Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso!

– (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.

Page 9: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

9

Exemplos de atributos/metadadosTítulo = A Morgadinha dos Canaviais

<autor>Jaime Silva<autor>

id := 123-xpto-h3d4

Género: Dissertação

Type = JPEG2000

Data de Edição - 29 de Fevereiro de 2004

102 ## $aPT

700 #1 $aHalpern$bManuel Júdice$f1932-

Page 10: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

10

Metadados podem ser criados

– Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca!

– Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...

Page 11: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

11

“Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)

Objectos de informação estruturados

podem facilitar a extracção de metadados!!!

Page 12: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

12

Que tipos de metadados podemos ter?

– Descritivos• título, nome do autor, assunto, data de

criação, ...– Técnicos

• formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ...

– Administrativos• Password de acesso, responsável pela compra

ou licenciamento, ...

– ...aqueles que o negócio precisar...

Page 13: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

13

Voltando à criação de Metadados

• Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...

Page 14: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

14

Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)

Page 15: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

15

Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)

Page 16: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

16

Mais metadados

• <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

• <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml">• <head>• <title>Instituto Superior T&eacute;cnico</title>• <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />• <meta name="keywords" content="ensino, ensino superior, universidade, instituto,

ciência, instituto superior técnico, investigação e desenvolvimento" />• <meta name="description" content="O Instituto Superior Técnico é a maior escola de

engenharia, ciência e tecnologia em Portugal." />• <meta name="author" content="Instituto Superior Técnico" />• <meta http-equiv="pragma" content="no-cache" />• <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" />• <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" />• <link rel="stylesheet" type="text/css" media="print" href="css/print.css" />• <script src="/js/flash.js" type="text/javascript"></script>• <script src="/js/flash.vbs" type="text/vbscript"></script>• <script src="http://www.google-analytics.com/urchin.js" type="text/javascript">• </script>• <script type="text/javascript">• _uacct = "UA-182539-2";• urchinTracker();• </script>• </head>• <body>• ...

Page 17: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

17

Mais sobre extracção de metadados

Page 18: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

18

Mais sobre extracção de metadados

Page 19: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

19

Há mesmo um negócio na extracção de metadados...

Page 20: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

20

A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)

Page 21: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

21

Ponto de ordem:• Metadados são estruturas de informação sobre recursos que

podem servir de suporte à gestão, pesquisa e acesso a esses recursos

• Metadados podem existir independentes dos recursos ou existir integrados nos mesmos

• Metadados podem ser criados:– Manualmente– Automaticamente:

• Durante os processos de criação dos recursos• Posteriormente à criação dos recursos, extraídos dos

mesmos

Page 22: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

22

Metadados e Esquemas

Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos:

– XMP - Extensible Metadata Platform• http://xml.coverpages.org/xmp.html

– MARC Standards• http://www.loc.gov/marc/

– UNIMARC• http://www.unimarc.info/bibliographic/2.3/en/summary

– Dublin Core Metadata Initiative• http://dublincore.org/

– MPEG-7 / MPEG-21 DIDL• http://www.chiariglione.org/mpeg/

– etc...

Page 23: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

23

Page 24: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

24

Page 25: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

25

Page 26: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

26

Page 27: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

27

Page 28: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

28

Dos Metadados aos Serviços...

Page 29: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

29

O que se pode fazer então com os metadados?• Em cenários bem definidos, podem ser simplesmente “despejados” para uma

base de dados, criando serviços de Precision=Recall=1

Page 30: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

30

A propósito, um registo UNIMARC (codificado em MarcXchange)

Page 31: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

31

O que se pode fazer então com os metadados?• Em cenários menos bem definidos (mais “Information Retrieval”), podem-se

usar os registos de metadados como fontes para serviços na mesma:

Page 32: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

32

Partilha de Metadados• Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços

baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...).

• A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!!

• No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...)

• Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação...

• Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)

Page 33: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

33

OAI - Open Archives Initiative

Page 34: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

34

OAI-PMHProtocol for Metadata Harvesting

(http://www.oaforum.org/tutorial/image/structure-model.gif)

Web-Services segundo o modelo

REST...

Page 35: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

35

No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50...

http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg

Page 36: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

36

Page 37: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

37

Servidores Z39.50 em bibliotecas Portuguesas:

Page 38: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

38

O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)

Page 39: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

39

TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

Page 40: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

40

Próximas aulas...

RSS

MPEG...

METS

SMIL

DocBook

ATOM

Dublin Core...

UNIMARC

MARC21ONIX

XML RDFDocument Schemas Metadata Registries

......

...

GML

Page 41: Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

41

Perguntas?