Pesquisando bilhões de documentos em milésimos de segundo
-
Upload
hermano-soares -
Category
Technology
-
view
1.446 -
download
2
description
Transcript of Pesquisando bilhões de documentos em milésimos de segundo
Pesquisando Bilhões de documentos em milésimos de segundo.
Hermano Soares
Agenda
Palestrante A Necessidade Cenário não aplicável Cenário Aplicável Apache Lucene Apache Solr Arquiteturas Estudo Caso Fechamento
Hermano Soares
Diretor técnico na Itsway Sistemas Trabalha c/ desenvolvimento a 10 anos Especialista em todas plataformas do Java
( EE, SE,ME ) Desenvolvedor Microsoft .NET 7 certificações Sun: SCJA, SCJP, SCJD,
SCWCD, SCBCD, SCEA, SCMAD Bacharel em SI
A Necessidade
Motor de busca Busca textual arbitrária Altíssima performance (<1s) Integração com qualquer linguagem de
programação
Cenário: não aplicável
A importância da pesquisa é baixa, o foco do software é outro
O numero de usuários acessando é baixo ex: <100
O volume do acervo é pequeno(200.000rows) e seu crescimento é 5% ao ano.
Tempo de resposta para o usuário até 3s é aceitável.
Cenário: aplicável
Pesquisa é de grande valor aos usuários
O tempo de resposta é muito importante
O número de usuário concorrentes é alto (ex: 10.000)
A pesquisa precisa atender a critérios Web 2.0
Categorização (Facet)
Categorização (Facet/Highlight)
Nuvem de tags
A TECNOLOGIA
Apache Lucene
Motor de Busca textual Alta perfomance Suporte a facet (categorias) Suporte highlight ( grifar resultados) Suporte spellchecker (Você quis dizer ...) Suporte stopwords (termos dispensaveis) Diversos algoritmos de busca textual Open Source e Free
Apache Lucene
Apache Solr Servidor HTTP de Pesquisa textual, construido sob o Lucene. Suporte a todas as features do lucene Suporte a replicação: Master-Slave Independente de Linguagem/SO (WS) Open source Escrito em Java Dispensa escrever código Java Configurável via xml Suporte Operações: SELECT/ADD/DELETE Cache Estatísticas Suggestions Interface web de Administração e Query (Ferramenta)
Arquitetura SOLR
Schema.xml
Stopwords.txt
dos, em, que, por, de, do, da, sao, teve, se ,os , na, ou, sua, como, das, ha, etc
Synonyms.txt
Carro = veiculo Gordo = obeso Morrer = falecer Bonito = belo
Spellings.txt
Entaum=entao Aham=sim Blz=ok
protwords.txt
Lista de Termos indesejáveis, ofensivos, vulgares, sexuais, etc
Operações
Interface: Webservice REST
Arquitetura de Alta Disponibilidade
Replicação
Arquitetura Mundo Real Escalável
Estudo de Caso
Estudo de Caso
Evento: Apache Lucene EuroCon 2010 Empresa: Attensity Group Projeto: Social Media Monitoring Pais: Europa Objetivo:
6-12 months of Twitter, blogs, Youtube, Facebook, Google Buzz
Successfully scaled Solr to 3+ billion documents.
40+ Solr servers Amazon EC2 3 billion documents
http://2010.lucene-eurocon.org/
Fechamento
Como saber o melhor cenário? Expectativa do volume de usuários
Críticidade do tempo de resposta
Importância de uma pesquisa eficiente e relevante.