Download - Pesquisa e Arquivo da Web Portuguesa Daniel Gomes [email protected] FCCN.

Transcript
Page 1: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

Pesquisa e Arquivo da Web Portuguesa

Daniel [email protected]

FCCN

Page 2: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

2

Estrutura da apresentação

• 1ª parte– Como surgiu e como funciona o tumba!

• 2ª parte – Projecto de arquivo da web portuguesa

Page 3: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

3

Como surgiu o tumba?• 1999-2000 – Projecto de pesquisa sobre noticias.• 2000-2001 – Projecto de recolha de publicações online

com a BN.• 2001 – Tumba!: investigação

– 5 pessoas – 4 PCs velhos para suportar o sistema– Problemas para a FCUL

• 2002 – Apoio da FCCN, serviço público gratuito• 2006 – Ainda estamos vivos (?!)

– Com a ajuda de novos alunos– Grande rotatividade: 17 alunos já passaram pelo projecto

Page 4: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

4

Para que tem servido?

• Para aprender– Como é que funciona o Google?

• Para ensinar– Como é que funciona o Google:

• Serviço público com 3 fins– Motor de busca da comunidade portuguesa– Arquivo da Web Portuguesa– Recurso de investigação

• Ao vivo em www.tumba.pt

Page 5: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

5

Page 6: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

6

Page 7: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

7

O que aconteceu a seguir ao Enter?

• O gnomo verde foi buscar as páginas à web?

• Não.

Page 8: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

8

Levantando o véu

Web

Batedor Repositório Índice Ordenação Apresentação

Page 9: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

9

Batedor (crawler)

WebRepositórioCrawler

Sementes(URLs)

Page 10: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

10

Recolha• Duas listas:

– URLs por recolher– URLs recolhidos

1. Pega num URLA dos URLs por recolher2. Recolhe e guarda a páginaA no repositório3. Extrai os URLs dos links da páginaA

4. Insere os novos URLs nos URLs por recolher.5. Insere o URLA nos URLs recolhidos

– Para não voltar lá.

Page 11: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

11

Problemas

• Milhões de páginas para recolher– Requer muitos computadores e rede

• Há pessoas que não gostam das visitas– Robots Exclusion Protocol

• A web é um caos– O crawler está sempre a avariar-se.– Qualidade crescente devido a browsers mais

rigorosos

Page 12: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

12

Exemplo: simulem o crawler a extrair links de uma página HTML

<html><head><title>Página de teste</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"></head><body><p>Bem vindos!</p><p>Experimentem o<a href="http://www.tumba.pt"> motor de busca tumba!</a>.</p><p>Vejam também a minha<a href="http://xldb.fc.ul.pt/daniel/"> página pessoal</a>.</p></body></html>

Dica: os links estão próximos dos href

Page 13: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

13

O crawler recolhe 3 páginas

http://xldb.fc.ul.pt/teste

http://xldb.fc.ul.pt/daniel/ http://www.tumba.pt

Page 14: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

14

Exemplo: simulem o crawler a extrair links de um Flash

CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1ÆÈ^^<89>B٥ž¥!Yr,ÉVª#<8D>^XÙ<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<92><9D>B<85>VI²<9B>ßóESCÔ9=<9F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_×÷{]÷=÷Ï^GH<97>^A,$` ^F^L<82><90>±<9B>°^@H^GÒ^M^FÀ˹<84>{ <89><97><9B><8B><9B><9F><8F>W@XNDXHHXIRz¥<9C>¶<8A>îF-^UM^M=<93>Ý^Vz[ì^M54·yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^DÃÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G ^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/`18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô ^BVNì«}<97>*^_9<9D>N<94>Ü|«Jpû³^Q)<95>}~

• Não percebem nada?• O crawler também não.• Só o programa da Macromedia é que percebe

Page 15: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

15

O crawler recolhe apenas 1 página

• Estas páginas não são recolhidas• Não aparecem nos resultados dos motores de busca

http://www.hpinformatica.net/menu.swf

./servicos.html ./produtos.html ./contactos.html

Page 16: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

16

Indexação

• Para acelerar, as pesquisas são feitas sobre índices e não sobre as páginas armazenadas

Web

Crawler Repositório Índice Ordenação Apresentação

Page 17: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

17

Índice remissivo de um livro

Termo PáginasArquivo.........4, 10, 12, 99, 123Biblioteca......1, 11, 20, 33Correio..........32, 54, 94...

Page 18: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

18

Motor de busca: Índice remissivo da web

Termo Páginas (URLs) Arquivo.........1,188 milhõesBiblioteca......301 milCorreio..........303 mil...• Mesmo o índice é muito grande• E tem de ser rápido! Porque os utilizadores esperam apenas alguns segundos pela resposta a uma pesquisa

Page 19: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

19

E agora?

Page 20: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

20

Dividir para conquistar

• Construção do índice– Dividem-se as páginas por várias máquinas– Cada máquina

• Extrai o texto das suas páginas• Constrói um índice• Responde a parte das pesquisas

Page 21: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

21

Quando se pesquisa

ÍndiceA-H

ÍndiceI-Q

ÍndiceR-Z

Servidor 1

Servidor 2

Servidor 3

Servidor Web

Tumba!

Browser

arquivo

portuguesa

web

arquivo da web portuguesa

Então e o “da”?-Stop-words-Ocupam muito espaço-Sem significado

Page 22: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

22

Hardware do tumba!• Computadores

– 6 chaços (P200, 128 MB)– 10 servidores (com uns aninhos)

• Internet: FCCN 30 Mbps ATM• Rede local: 1 Gbps (recente)

Page 23: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

23

SoftwarePlataforma:• Linux• Oracle – meta-dados• BerkeleyDB – índices• Hsql – crawlers• Httpd, tomcat, struts• Wiki• CVS• Bugzilla

Linguagens:• Java• C++ • Perl, bash scripts, SQL

Page 24: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

24

Desempenho do Tumba!

• Até 20 000 queries /dia • 10 milhões de documentos – a maior

recolha da web portuguesa!• 95% respondidas em menos de 0.5 seg. –

com 3 servidores

Page 25: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

25

Como obter os melhores resultados na primeira página?

Web

Batedor Repositório Índice Ordenação Apresentação

Page 26: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

26

Resultados ordenados por relevância

Combinação de vários factores

PageRankFrequência

no documento

Frequênciana Web

Textos das âncoras

Partes importantes

dodocumento

Page 27: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

27

Como se mede a relevância• Quanto maior a frequência de um termo da pesquisa num

documento, maior a relevância.

• Quanto maior a frequência de um termo da pesquisa na Web, menor a relevância.

• Quanto maior for documento em número de palavras, menor a relevância.

• Quanto maior o PageRank de um documento, maior a relevância

• Quanto maior a frequência de um termo da pesquisa em partes importantes da página (ex: o título), maior a relevância

Usada uma formula que

combina todos estes

parâmetros

Documentos mais relevantes

retornados em primeiro lugar!

Page 28: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

28

Problemas com lista ordenada de resultados

• Pesquisas com vários “sentidos” possíveis– Jaguar (o animal ou o carro desportivo)– Benfica (o clube de futebol ou o local)– …

• Problema para as vossas pós-graduações.– Clustering– Semantic Web e Ontologias– Resultados personalizados

Page 29: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

2ª parte: Arquivo da Web Portuguesa

Page 30: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

30

A era digital começou (já há alguns anos)

• A Web é a maior fonte de informação construída– Jornais, livros, documentação técnica– Informação publicada exclusivamente na Web

• A informação na Web é efémera – Gerações futuras poderão testemunhar uma “Idade

das Trevas” digital• Temos que começar a arquivar

– Propósitos históricos– Provas em casos judiciais

Page 31: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

31

Requisitos de um arquivo da Web

• A forma de arquivo tradicional requer demasiada intervenção humana– Não é compatível com a dimensão da Web

• Recolha e armazenamento automático– Intervenção humana mínima

• Dispendioso em larga escala– Internet Archive (www.archive.org)

Page 32: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

32

Arquivos web nacionais• Dividir para conquistar: cada país arquiva a sua

web– 11 da U. E.: Alemanha, Áustria, Dinamarca,

Finlândia, França, Grécia, Lituânia, Holanda, Suécia, Reino Unido e República Checa.

– 6 externos: Austrália, Canadá, Estados Unidos da América, Japão, Nova Zelândia e Noruega.

• Necessários critérios para definir limites das webs nacionais

• Necessárias arquitecturas de sistema e software específico para suportar o arquivo da web

Page 33: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

33

Estrutura da apresentação

– Introdução• Proposta para o arquivo da web

portuguesa• Conclusões

Page 34: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

34

Contexto

• Projecto de I & D– É necessária investigação para seguir a

evolução da web• Duração de 2 anos• Necessária visão a longo prazo

Page 35: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

35

Principais objectivos

• Iniciar o “depósito legal” da web portuguesa

• Serviço público de acesso ao arquivo• Formação de recursos humanos• Disseminação da informação arquivada

para preservação

Page 36: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

36

Benefícios nacionais • Português como língua da web• Capacidade local de tratamento de informação

da web– Segurança nacional não pode depender do

estrangeiro• Exportação do saber-fazer

– Arquivo da Web é tecnologia de ponta.• Dados para a Ciência

– Sociologia, prospecção de dados, processamento da língua

• Provas judiciais

Page 37: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

37

Principais desafios

• Recrutamento de mão-de-obra qualificada• Tecnologia específica pouco madura• Boa abrangência da Web portuguesa• Pesquisa eficiente num arquivo histórico

– É um problema em aberto– Apresentação de conteúdos

• Preservação da informação• Financiamento e continuidade a longo prazo• Má qualidade da Web portuguesa

– Web ≠ Internet

Page 38: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

38

O que arquivar?

• Sites sob .PT (1ª fase)– Estamos a perder metade da web portuguesa– Alguns utilizadores ficarão insatisfeitos

• Tipos GIF, JPEG e HTML– 95% dos conteúdos publicados

• Espaço necessário estimado– 250 GB por recolha

• Recolhas trimestrais

Page 39: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

39

Como arquivar?

• Meta-dados que permitam preservar e aceder à informação– Estratégia de conversão de formatos

• Espaço de armazenamento incremental• Acessibilidade à informação por pessoas

e máquinas• Ferramentas de gestão e preservação

Page 40: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

40

Tecnologias

• Não existe software comercial de arquivo da web

• Adoptar soluções de código aberto– Alteração para o contexto da web– Maior garantia de preservação– Gratuitas– Existem para o arquivo da Web!

Page 41: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

41

Exemplos de tecnologias para arquivo

• Internet Archive– Archive-access project (

http://archive-access.sourceforge.net/)– Heritrix crawler– Formatos ARC e WARC

• NutchWAX (Nutch + Web Archive eXtensions) – Nutch: motor de busca de código-aberto para a web

• WERA (Web aRchive Access) – Archive viewer application– Antigo Nordic Web Archive

Page 42: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

42

Boas notícias• Conseguiu-se fazer

um protótipo usável com:– 3 pessoas– Máquinas velhas– Boa vontade

• Existe conhecimento nacional acerca do assunto

• Contacto com o IA

Page 43: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

43

Dados arquivados no protótipo

• Recolhidos da web portuguesa e migrados de recolhas do tumba!

• Conteúdos maioritariamente textuais• Intervalo de tempo de 4 anos (2002-2006)• 57 milhões de conteúdos,1.5 TB de dados

– 1º passo: migrar os conteúdos para o novo sistema de arquivo

Page 44: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

44

Conclusões

• Arquivo da web nacional está atrasado• Não existe um critério único para delimitar

a web portuguesa– Espalhada fora do domínio .PT

• Um arquivo necessita de ser pesquisável eficientes ou a informação arquivada “morre” por estar inacessível

• Arquivar a web tem interesse nacional• Arquivar a web é complexo• Arquivar a web portuguesa é possível

Page 45: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN.

Obrigado pela atenção.

Daniel [email protected]