Pesquisando bilhões de documentos em milésimos de segundo

Pesquisando Bilhões de documentos em milésimos de segundo.

Hermano Soares

Agenda

Palestrante A Necessidade Cenário não aplicável Cenário Aplicável Apache Lucene Apache Solr Arquiteturas Estudo Caso Fechamento

Hermano Soares

Diretor técnico na Itsway Sistemas Trabalha c/ desenvolvimento a 10 anos Especialista em todas plataformas do Java

( EE, SE,ME ) Desenvolvedor Microsoft .NET 7 certificações Sun: SCJA, SCJP, SCJD,

SCWCD, SCBCD, SCEA, SCMAD Bacharel em SI

A Necessidade

Motor de busca Busca textual arbitrária Altíssima performance (<1s) Integração com qualquer linguagem de

programação

Cenário: não aplicável

A importância da pesquisa é baixa, o foco do software é outro

O numero de usuários acessando é baixo ex: <100

O volume do acervo é pequeno(200.000rows) e seu crescimento é 5% ao ano.

Tempo de resposta para o usuário até 3s é aceitável.

Cenário: aplicável

Pesquisa é de grande valor aos usuários

O tempo de resposta é muito importante

O número de usuário concorrentes é alto (ex: 10.000)

A pesquisa precisa atender a critérios Web 2.0

Categorização (Facet)

Categorização (Facet/Highlight)

Nuvem de tags

A TECNOLOGIA

Apache Lucene

Motor de Busca textual Alta perfomance Suporte a facet (categorias) Suporte highlight ( grifar resultados) Suporte spellchecker (Você quis dizer ...) Suporte stopwords (termos dispensaveis) Diversos algoritmos de busca textual Open Source e Free

Apache Lucene

Apache Solr Servidor HTTP de Pesquisa textual, construido sob o Lucene. Suporte a todas as features do lucene Suporte a replicação: Master-Slave Independente de Linguagem/SO (WS) Open source Escrito em Java Dispensa escrever código Java Configurável via xml Suporte Operações: SELECT/ADD/DELETE Cache Estatísticas Suggestions Interface web de Administração e Query (Ferramenta)

Arquitetura SOLR

Schema.xml

Stopwords.txt

dos, em, que, por, de, do, da, sao, teve, se ,os , na, ou, sua, como, das, ha, etc

Synonyms.txt

Carro = veiculo Gordo = obeso Morrer = falecer Bonito = belo

Spellings.txt

Entaum=entao Aham=sim Blz=ok

protwords.txt

Lista de Termos indesejáveis, ofensivos, vulgares, sexuais, etc

Operações

Interface: Webservice REST

Arquitetura de Alta Disponibilidade

Replicação

Arquitetura Mundo Real Escalável

Estudo de Caso

Estudo de Caso

Evento: Apache Lucene EuroCon 2010 Empresa: Attensity Group Projeto: Social Media Monitoring Pais: Europa Objetivo:

6-12 months of Twitter, blogs, Youtube, Facebook, Google Buzz

Successfully scaled Solr to 3+ billion documents.

40+ Solr servers Amazon EC2 3 billion documents

http://2010.lucene-eurocon.org/

Fechamento

Como saber o melhor cenário? Expectativa do volume de usuários

Críticidade do tempo de resposta

Importância de uma pesquisa eficiente e relevante.

Dúvidas ?

Email: [email protected]

Site: www.itsway.com.br

Pesquisando bilhões de documentos em milésimos de segundo

Technology

Transcript of Pesquisando bilhões de documentos em milésimos de segundo