Pesquisa no Passado - Arquivo.ptsobre.arquivo.pt/wp-content/uploads/pesquisa-no-passado.pdf ·...
Transcript of Pesquisa no Passado - Arquivo.ptsobre.arquivo.pt/wp-content/uploads/pesquisa-no-passado.pdf ·...
Pesquisa no Passado
Miguel Costa Engenheiro, Investigador, Aluno de Doutoramento
Faculdade de Letras da UL - 21 de Maio, 2012
2
Do Papel ao Digital
• Enciclopédia Britannica abandona edição impressa
ao fim de 244 anos
• Livros → E-Books
• Diários → Blogs
• Álbuns de fotos → Flick
• Cartas → Redes Sociais
3
Evolução da World Wide Web
• 1995: 11,4 milhões
• 1997: 200 milhões
• 1998: 800 milhões
• 2005: 19,2 mil milhões
• 2008: 1 bilião
• 2012: ???
0
200
400
600
800
1000
1995 1997 1998 2005 2008
co
nte
úd
os
(m
ilh
õe
s)
anos
4
Muitas Tecnologias Novas
RSS
Flash
Móvel
5
A Web é Efémera
• 50 dias - 50% dos documentos são alterados
(Cho and Garcia-Molina. 2000)
• 1 ano - 80% dos documentos ficam inacessíveis
(Ntoulas, Cho and Olson. 2004)
• 27 meses - 13% citações para a Web desaparecem
(http://webcitation.org/. 2007)
6
404 - Página Não Encontrada
7
Iniciativas de Arquivos da Web
• +77 iniciativas em 39 países
• +193 mil milhões de documentos desde 1996
8
Arquivo da Web Portuguesa
• Disponível desde 2010: http://arquivo.pt
• Mil milhões de documentos
– pesquisáveis por endereço (URL) e texto
– entre 1996 e 2011
9
Pesquisa por Endereço (URL)
2010
10
2005
11
2000
12
13
Pesquisa Textual
14
Pesquisa Textual
Complementar aos Motores de Busca
Hoje
2011 2010 …
2000
1996 …
…
Arquivo da
Web
Tem
po
15
Casos de Uso
• Utilizador visita Favorito desaparecido
• Jornalista revisita notícia passada
• Webmaster recupera versão perdida do site
• Historiador analisa documentos digitais
• Web designer faz portfólio de sites antigos
• Professor recupera slides
• Outros?
16
17
Onde está a Informação?
18
Como é feito a Pesquisa?
Pesquisa Resultados
19
Recolha de Dados
• Automática a partir de um conjunto de endereços
• Recursivamente são seguidas ligações e arquivados os
conteúdos
Web Crawlers
20
Recolha de Dados
• Automática a partir de um conjunto de endereços
• Iterativamente são seguidas ligações e arquivados os
conteúdos
Web Crawlers
21
Preservação de Dados
Adicionar
metadados
“Curar” dados
Localização 1
Localização 2
Replicar Migrar ou
Emular
22
Como é feito a Pesquisa?
Pesquisa Resultados
Recolha
Preservação
23
Indexação
<HTML>
O rio era frio …
</HTML>
Documento 1
<HTML>
O frio que …
</HTML>
Documento 2
rio 1
frio 1 2
era 1
Extração Criação de
estruturas de dados
Ficheiro Invertido
24
Recuperação
rio frio @ [1996, 2000]
rio 1
frio 1 2
era 1
rio 599
frio 1041
765 era 321
rio 4033
frio 2078
3012 era 2045 3455
2090
1996
2000
2004
1841
1841
25
Ordenação
3.039.553
26
Objetivo
Relevante Não Relevante
Maximizar Relevância
Para todas as pesquisas
27
Ordenação
Extração de Sinais de Relevância
Criação de Funções de Relevância
Seleção de Funções de Relevância
Combinação de Funções (Modelo)
Extração de Sinais de Relevância
28
Sinais de Relevância
• Os termos da pesquisa estão:
– quantas vezes no título?
– próximo entre eles no texto?
• A página:
– tem muitas versões diferentes?
– tem muitos links a apontar para ela?
• Os utilizadores:
– clicaram quantas vezes a página?
– quanto tempo viram a página?
29
Ordenação
Extração de Sinais de Relevância
Criação de Funções de Relevância
Seleção de Funções de Relevância
Combinação de Funções (Modelo)
30
Modelar os Sinais de Relevância
0 500 10000
0.2
0.4
0.6
0.8
1
valo
r
nº. versões
𝑓 𝑣𝑡𝑑 =𝑙𝑜𝑔10(𝑥)
𝑙𝑜𝑔10(𝑦)= 𝑙𝑜𝑔𝑦(𝑥)
Parâmetros: x = nº. versões da página d y = máximo nº. de versões
Exemplo de nº. de versões:
31
Ordenação
Extração de Sinais de Relevância
Criação de Funções de Relevância
Seleção de Funções de Relevância
Combinação de Funções (Modelo)
32
Selecionar Funções
• Com bons resultados
• Não redundantes
• Computacionalmente leves
33
Ordenação
Extração de Sinais de Relevância
Criação de Funções de Relevância
Seleção de Funções de Relevância
Combinação de Funções (Modelo)
34
Combinar Funções
ℎ 𝑑 = 𝑛 ∗ 𝑓𝑛(𝑑)
𝑝
𝑛=1
35
Como é feito a Pesquisa?
Pesquisa Resultados
Recolha Indexação
Apresentação
Preservação
Recuperação
Ordenação
Para saber Mais
• Ver: http://sobre.arquivo.pt/
– publicações
– vídeos
• Seguir notícias: http://sobre.arquivo.pt/news
• RSS feeds
36
Colaborar
• Seguir recomendações para autores
– Não esconder ligações
– Usar formatos adequados
• Sugerir sítios web portugueses para arquivo
• Fornecer conteúdos históricos
•Divulgar!
37
Desafios e Projetos
• Pesquisa de imagens
• Classificação automática de conteúdos
• Etiquetagem comunitária de conteúdos
• Reconhecimento de entidades mencionadas
• Para saber mais: http://www.arquivo.pt/propostas
38
40
1996: SAPO
1998: Abertura da EXPO 98
41
2001: Figo melhor jogador do mundo
42
2003: Portugal apoia a guerra no Iraque
43
2004: Grécia vence Euro 2004
44
O que faz a FCCN? www.fccn.pt
45
Serviços de Rede Segurança & Serviços à
Comunidade DNS Serviços
Avançados
Gestão da rede de Investigação e Ensino Nacional