Pesquisa e Arquivo da Web Portuguesa Daniel Gomes [email protected] FCCN.

of 45 /45
Pesquisa e Arquivo da Web Portuguesa Daniel Gomes [email protected] FCCN

Embed Size (px)

Transcript of Pesquisa e Arquivo da Web Portuguesa Daniel Gomes [email protected] FCCN.

  • Pesquisa e Arquivo da Web PortuguesaDaniel [email protected]

  • Estrutura da apresentao1 parteComo surgiu e como funciona o tumba!2 parte Projecto de arquivo da web portuguesa

  • Como surgiu o tumba?1999-2000 Projecto de pesquisa sobre noticias.2000-2001 Projecto de recolha de publicaes online com a BN.2001 Tumba!: investigao5 pessoas 4 PCs velhos para suportar o sistemaProblemas para a FCUL2002 Apoio da FCCN, servio pblico gratuito2006 Ainda estamos vivos (?!)Com a ajuda de novos alunosGrande rotatividade: 17 alunos j passaram pelo projecto

  • Para que tem servido?Para aprenderComo que funciona o Google?Para ensinarComo que funciona o Google:Servio pblico com 3 finsMotor de busca da comunidade portuguesaArquivo da Web PortuguesaRecurso de investigao Ao vivo em www.tumba.pt

  • O que aconteceu a seguir ao Enter?O gnomo verde foi buscar as pginas web?No.

  • Levantando o vuWebBatedorRepositriondiceOrdenaoApresentao

  • Batedor (crawler)WebRepositrioSementes (URLs)

  • RecolhaDuas listas:URLs por recolherURLs recolhidosPega num URLA dos URLs por recolherRecolhe e guarda a pginaA no repositrioExtrai os URLs dos links da pginaAInsere os novos URLs nos URLs por recolher.Insere o URLA nos URLs recolhidosPara no voltar l.

  • ProblemasMilhes de pginas para recolherRequer muitos computadores e redeH pessoas que no gostam das visitasRobots Exclusion ProtocolA web um caosO crawler est sempre a avariar-se.Qualidade crescente devido a browsers mais rigorosos

  • Exemplo: simulem o crawler a extrair links de uma pgina HTML

    Pgina de teste

    Bem vindos!Experimentem o motor de busca tumba!.Vejam tambm a minha

    pgina pessoal.

    Dica: os links esto prximos dos href

  • O crawler recolhe 3 pginashttp://xldb.fc.ul.pt/testehttp://xldb.fc.ul.pt/daniel/http://www.tumba.pt

  • Exemplo: simulem o crawler a extrair links de um FlashCWS^F^U^@^@xWy
  • O crawler recolhe apenas 1 pginaEstas pginas no so recolhidasNo aparecem nos resultados dos motores de buscahttp://www.hpinformatica.net/menu.swf./servicos.html./produtos.html./contactos.html

  • IndexaoPara acelerar, as pesquisas so feitas sobre ndices e no sobre as pginas armazenadasWebCrawlerRepositriondiceOrdenaoApresentao

  • ndice remissivo de um livroTermoPginasArquivo.........4, 10, 12, 99, 123Biblioteca......1, 11, 20, 33Correio..........32, 54, 94...

  • Motor de busca: ndice remissivo da webTermo Pginas (URLs) Arquivo.........1,188 milhesBiblioteca......301 milCorreio..........303 mil... Mesmo o ndice muito grande E tem de ser rpido! Porque os utilizadores esperam apenas alguns segundos pela resposta a uma pesquisa

  • E agora?

  • Dividir para conquistarConstruo do ndiceDividem-se as pginas por vrias mquinasCada mquina Extrai o texto das suas pginasConstri um ndiceResponde a parte das pesquisas

  • Quando se pesquisandiceA-HndiceI-QndiceR-ZServidor 1Servidor 2Servidor 3Servidor WebTumba!Browserarquivoportuguesawebarquivo da web portuguesaEnto e o da?-Stop-wordsOcupam muito espaoSem significado

  • Hardware do tumba!Computadores6 chaos (P200, 128 MB)10 servidores (com uns aninhos)Internet: FCCN 30 Mbps ATMRede local: 1 Gbps (recente)

  • SoftwarePlataforma:LinuxOracle meta-dadosBerkeleyDB ndicesHsql crawlersHttpd, tomcat, strutsWikiCVSBugzilla

    Linguagens:JavaC++ Perl, bash scripts, SQL

  • Desempenho do Tumba!At 20 000 queries /dia 10 milhes de documentos a maior recolha da web portuguesa!95% respondidas em menos de 0.5 seg. com 3 servidores

  • Como obter os melhores resultados na primeira pgina?WebBatedorRepositriondiceOrdenaoApresentao

  • Resultados ordenados por relevncia Combinao de vrios factoresPageRankFrequnciano documentoFrequnciana WebTextos das ncorasPartes importantesdodocumento

  • Como se mede a relevnciaQuanto maior a frequncia de um termo da pesquisa num documento, maior a relevncia.

    Quanto maior a frequncia de um termo da pesquisa na Web, menor a relevncia.

    Quanto maior for documento em nmero de palavras, menor a relevncia.

    Quanto maior o PageRank de um documento, maior a relevncia

    Quanto maior a frequncia de um termo da pesquisa em partes importantes da pgina (ex: o ttulo), maior a relevnciaUsada uma formula que combina todos estes parmetros

    Documentos mais relevantes retornados em primeiro lugar!

  • Problemas com lista ordenada de resultadosPesquisas com vrios sentidos possveisJaguar (o animal ou o carro desportivo)Benfica (o clube de futebol ou o local)Problema para as vossas ps-graduaes.ClusteringSemantic Web e OntologiasResultados personalizados

  • 2 parte: Arquivo da Web Portuguesa

  • A era digital comeou (j h alguns anos)

    A Web a maior fonte de informao construdaJornais, livros, documentao tcnicaInformao publicada exclusivamente na WebA informao na Web efmera Geraes futuras podero testemunhar uma Idade das Trevas digitalTemos que comear a arquivarPropsitos histricosProvas em casos judiciais

  • Requisitos de um arquivo da WebA forma de arquivo tradicional requer demasiada interveno humanaNo compatvel com a dimenso da WebRecolha e armazenamento automticoInterveno humana mnimaDispendioso em larga escalaInternet Archive (www.archive.org)

  • Arquivos web nacionaisDividir para conquistar: cada pas arquiva a sua web11 da U. E.: Alemanha, ustria, Dinamarca, Finlndia, Frana, Grcia, Litunia, Holanda, Sucia, Reino Unido e Repblica Checa.6 externos: Austrlia, Canad, Estados Unidos da Amrica, Japo, Nova Zelndia e Noruega.Necessrios critrios para definir limites das webs nacionaisNecessrias arquitecturas de sistema e software especfico para suportar o arquivo da web

  • Estrutura da apresentaoIntroduoProposta para o arquivo da web portuguesaConcluses

  • ContextoProjecto de I & D necessria investigao para seguir a evoluo da webDurao de 2 anosNecessria viso a longo prazo

  • Principais objectivosIniciar o depsito legal da web portuguesaServio pblico de acesso ao arquivoFormao de recursos humanosDisseminao da informao arquivada para preservao

  • Benefcios nacionais Portugus como lngua da webCapacidade local de tratamento de informao da webSegurana nacional no pode depender do estrangeiroExportao do saber-fazerArquivo da Web tecnologia de ponta.Dados para a CinciaSociologia, prospeco de dados, processamento da lnguaProvas judiciais

  • Principais desafiosRecrutamento de mo-de-obra qualificadaTecnologia especfica pouco maduraBoa abrangncia da Web portuguesaPesquisa eficiente num arquivo histrico um problema em abertoApresentao de contedosPreservao da informaoFinanciamento e continuidade a longo prazoM qualidade da Web portuguesa Web Internet

  • O que arquivar?Sites sob .PT (1 fase)Estamos a perder metade da web portuguesaAlguns utilizadores ficaro insatisfeitosTipos GIF, JPEG e HTML95% dos contedos publicadosEspao necessrio estimado250 GB por recolhaRecolhas trimestrais

  • Como arquivar?Meta-dados que permitam preservar e aceder informaoEstratgia de converso de formatosEspao de armazenamento incrementalAcessibilidade informao por pessoas e mquinasFerramentas de gesto e preservao

  • TecnologiasNo existe software comercial de arquivo da webAdoptar solues de cdigo abertoAlterao para o contexto da webMaior garantia de preservaoGratuitasExistem para o arquivo da Web!

  • Exemplos de tecnologias para arquivoInternet ArchiveArchive-access project (http://archive-access.sourceforge.net/)Heritrix crawlerFormatos ARC e WARCNutchWAX (Nutch + Web Archive eXtensions) Nutch: motor de busca de cdigo-aberto para a webWERA (Web aRchive Access) Archive viewer applicationAntigo Nordic Web Archive

  • Boas notciasConseguiu-se fazer um prottipo usvel com:3 pessoasMquinas velhasBoa vontadeExiste conhecimento nacional acerca do assuntoContacto com o IA

  • Dados arquivados no prottipoRecolhidos da web portuguesa e migrados de recolhas do tumba!Contedos maioritariamente textuaisIntervalo de tempo de 4 anos (2002-2006)57 milhes de contedos,1.5 TB de dados1 passo: migrar os contedos para o novo sistema de arquivo

  • ConclusesArquivo da web nacional est atrasadoNo existe um critrio nico para delimitar a web portuguesaEspalhada fora do domnio .PT Um arquivo necessita de ser pesquisvel eficientes ou a informao arquivada morre por estar inacessvelArquivar a web tem interesse nacionalArquivar a web complexoArquivar a web portuguesa possvel

  • Obrigado pela ateno.Daniel [email protected]

    Mostly web pages but also PDF, PS or DOC contentsIncremental crawlsHome pages of the last crawl were used as seeds