Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo...
Transcript of Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo...
Arquivar a Web
1.Porquê?2.Como?3.Colaborar!
Internet originou invenções para transmitir informação
Web passou a ser ferramenta de publicação
1. Transmissão de informação entre cientistas– Transmissão de dados– Transmissão termina com recepção da informação
2. Publicação em larga escala
Problema: informação publicada na Web é efémera
• Acessível durante pouco tempo• Passado 1 ano
– 80% dos conteúdos foram alterados ou desapareçam (Ntoulas, 2004)
Quem se lembra da Expo 98?
Quando o Figo ganhou o prémio de melhor jogador?
Mas isso foi há “muito” tempo…www.publico.pt num dia
www.publico.pt no dia seguinte
O modelo de publicação na Web está incompleto
• Faltam Arquivos que garantam persistência de acesso à informação ao longo do tempo
Surge assim o interesse pela criação de Arquivos da Web
• 1996 – Internet Archive (Mundial)• 1996 – Kulturarw (Suécia)• 2001 – Nedlib (UE)
– Digital Deposit (Portugal)• 16 países com iniciativas nacionais• 2006 – Tomba (Portugal/FCUL)• 2007 – Arquivo da Web Portuguesa
(Portugal/FCCN)
Casos de uso para Arquivos da Web
• Jornalista documenta artigo• Webmaster recupera versão perdida de página• Historiador analisa documentos digitais• Utilizador da Web visita Favorito quebrado
• Outros?
Arquivar a WebComo?
Depósito imposto ao autor
• Analogia com depósito legal clássico− Imaturidade/inexistência de tecnologias
• Custos elevados para autores− Difícil de impor legalmente− As leis têm fronteiras, a Internet não.
• Analogia com motores de busca− Tecnologia adaptável
• Custo de mais 1 visitante
Recolha activa pelo Arquivo
Como é feita a recolha?
index.html
contacts.html about.html
• Automática a partir de um conjunto de endereços
• Iterativamente são seguidas ligações e arquivados os conteúdos
O que arquivar?
E se esta adolescente se tornar numa…
• Cantora famosa?(que era “marrona”)
• Nobel da Física? (que tinha dificuldade em Matemática)
Devemos arquivar este blog?
• Qualquer critério de selecção é subjectivo• Tudo pode ser interessante• Tentar arquivar o máximo possível
Arquivos da Web já guardam a informação publicada
• Falta garantir acesso eficiente à informação arquivada
Wayback Machine
Implica conhecer endereço onde estava a informação
Queremos é “Googlar” o passado!
Googlar o passado é diferente
Presente• Conteúdos online
– Redirecção para a Web actual
• Pesquisas por termo • Apresentação de
resultados dentro de umadimensão temporal
Passado• Conteúdos offline
– Reprodução de conteúdo arquivado
• Pesquisa por <termo, intervalo de tempo>
• Apresentação de resultados dentro de múltiplas dimensões temporais
“Pequenas” diferenças que implicam grandes alterações
Caso de estudoAplicação do “PageRank”
num arquivo da Web
PageRank: pressupostos
• Cada página é identificada por um endereço único (URL)
• Páginas importantes se recebem:– Muitas ligações– Ligações de páginas importantes
Cálculo de “PageRank”
2003
2004
2005
2006
2007
2008
2009
6URLA
1URLB 7
URLC
1URLD
8URLE
tempo
Cálculo de PageRank sobre arquivo
2003
2004
2005
2006
2007
2008
2009
6URLA
1URLB
URLC
URLD
URLE
tempo
6URLA
6URLA
6URLA
1URLB
1URLB
1URLB
URLC
URLC
URLC
URLD
URLE
URLE
URLD
Computação de PageRank dados históricos é pesada
2003
2004
2005
2006
2007
2008
2009
6URLA
1URLB
URLC
URLD
URLE
tempo
6URLA
6URLA
6URLA
1URLB
1URLB
1URLB
URLC
URLC
URLC
URLD
URLE
URLE
URLD
Ligações inter-temporais
• URLE é importante em 2009?– Apenas 1 ligação em 2009– Maioria das ligações recebidas
entre 2003 e 2005– Conteúdo pode ter mudado
completamente
• Temos que adaptar PageRank ao arquivo– Apenas ligações dentro do
“mesmo tempo”– Recolhas não são instantâneas– “Mesmo tempo” significa:
• Mesmo dia, mês, ano?2003
2004
2005
2006
2007
2008
2009
tempo
20URLE
1URLB
1URLA
2URLC
4URLE
5URL
1URLA
Solução do Arquivo: mesmo mês
2003
2004
2005
2006
2007
2008
2009
tempo
20URLE
1URLB
1URLA
2URLC
1URLE
1URL
1URLA
Mesmo mês
Mesmo mês + Não considera ligações para o passado nem para o futuro
+ Menos ligações => computação mais leve
- É necessário agrupar versões por mês
- Porém...
Acumulação de ligações provenientes no mesmo mês do
mesmo URL
PR sobre arquivo • Sempre o mesmo URLAque aponta para o URLB
• URLA é arquivado frequentemente– Jornal diário
• URLB é arquivado 1 vez por ano– Página da editora
7/10/2004
8/10/2004
9/10/2004
tempo
18URLB
6URLA
6URLA
6URLA
Solução do Arquivo: apenas a versão do URL com data mais próxima
7/10/2004
8/10/2004
9/10/2004
tempo
6URLB
6URLA
6URLA
6URLA
Como avaliar as nossas “soluções”?
• Nenhuma será perfeita– Podem melhorar ou piorar os resultados
• Avaliação é obrigatória• Recuperação de Informação convencional
– Text REtrieval Conference• Conjunto de dados (.GOV)• Conjunto de pesquisas
– Número de baixas durante a guerra no Iraque
• Conjunto de respostas relevantes – Identificadores das páginas
– Permite avaliar comparativamente as “soluções”
Problema: não há bancadas de testes para dados temporais
• A Web é recente, não tinha história– Problema novo!
• Aproximação adoptada– Criar uma bancada para dados Web temporais
(proposta de mestrado)• Procure resultados acerca das baixas na guerra
do Iraque de 90-91– Analisar logs das pesquisas
• Nº cliques nas posições cimeiras
Muitos problemas a resolver na pesquisa temporal
União faz a força: Archive-Accessproject
– Liderado pelo Internet Archive– Criação/adaptação de ferramentas: Heritrix, NutchWAX
NutchWAX não está pronto-a-usar
• Versão PT– Inexistente
• Grafismo– Pouco cuidado
• Resposta– 40M URLs, >20s
• Relevância– Baixa
AWP: NutchWAX + 2 anos de trabalho
• Versão PT– OK– Correcção de charsets
• Grafismo– Melhoria de
usabilidade
• Resposta– 130M URLs, <5s
Melhoria no acesso a conteúdos arquivados
• Teste– Acesso à página arquivada do http://parlamento.pt/
de 18 Janeiro 2001– http://www.webpagetest.org/– AWP vs. Internet Archive
• Resultado– AWP: 9s vs. Internet Archive: 28s
• Porém– AWP tem menos carga
AWP: NutchWAX + 2 anos de trabalho
• Relevância– Reestruturação dos
índices para guardarem mais características das páginas
• nº de ligações recebidas
– Novo algoritmo de ordenação
Distância entre termos passou a ser considerada
• Pesquisa: Presidente República
1. “O Presidente do clube…um espectador disse que era uma república das bananas”
2. “O Presidente da República comunicou que…”
• O resultado 2 passou a ser considerado mais relevante
E ainda…
Integração de colecções externas
2009
2008
2005
2003
2001
Colaborar!
rARC: Todos podemos colaborar!
Cliente rARC
Cliente rARC
Cliente rARC
Servidor rARC Repositório de conteúdos
Recuperar cópias
Cliente rARC
Cliente rARC
Cliente rARC
Servidor rARC Repositório de conteúdos
Estimativas e resultados iniciais
• PCs normais têm 100 GB de disco
• 4,5 milhões de portugueses usam a Internet
• Se cada um contribuir com 10% (10 GB)– 4,5M contribuidores (10%) 45 PB 22 500
recolhas
– 45 000 (0,1%) 450 TB 225 recolhas
• 1 recolha da Web portuguesa = ~ 2TB─ Já temos uma replicada!
─ Média de 21 GB doados por contribuidor
Como aderir?
Contribuidores
Localização das cópias
Colaborar todos os dias
• Seguir recomendações para autores– Não esconder ligações– Usar formatos adequados
• Sugerir sítios web portugueses para arquivo• Fornecer conteúdos históricos
•Divulgar!
Desafios e projectos
• Pesquisa de imagens• Classificação automática de conteúdos• Bancada de teste para resultados de pesquisas
– Para saber mais: www.arquivo.pt/propostas
Conclusões
• Arquivar a Web é importante• Não basta guardar a informação publicada• Garantir que se mantém acessível
Todos podemos colaborar