NEScrawler Aércio Cavalcanti – [email protected] Afonso Ferreira - [email protected] Vilmar Santos...

22
NEScrawler Aércio Cavalcanti – [email protected] Afonso Ferreira - [email protected] Vilmar Santos - [email protected]

Transcript of NEScrawler Aércio Cavalcanti – [email protected] Afonso Ferreira - [email protected] Vilmar Santos...

Page 1: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

NEScrawler

Aércio Cavalcanti – [email protected]

Afonso Ferreira - [email protected]

Vilmar Santos - [email protected]

Page 2: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Roteiro

• Introdução• Para que serve o NEScrawler?• Por que usar o NEScrawler?• Estrutura do Sistema• Funcionamento• Alguns Resultados• Conclusão

Page 3: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Introdução (I)

• NESCoFE• Pouca informação para ser utilizada pelo NESCoFE• Busca manual da informação• Solução? Automatização

Page 4: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Introdução (II)

• O que foi feito pra automatizar? – NEScrawler

• A automatização foi uma boa saída?

Page 5: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

Para Que?

Page 6: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Para que serve o NEScrawler?

• Adquirir grande quantidade de páginas com informações de músicas

• Extrair informação sobre as músicas• Integrar essas informações

Page 7: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

Por Que?

Page 8: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Por que usar o NEScrawler?

• Falta de dados para NESCoFE• Modo eficiente de recuperar e integrar informação• Resultados bastante satisfatórios• Facilidade de uso

Page 9: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

Estrutura do Sistema

Page 10: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Arquitetura

Page 11: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

Funcionamento

Page 12: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

BarnesAndNoble (I)

Page 13: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

BarnesAndNoble (II)

Page 14: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

BarnesAndNoble (III)

Page 15: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

BarnesAndNoble (IV)

Page 16: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Alguns Resultados

• Grande quantidade de dados... Aproximadamente 25.000 músicas na base de dados, extraídas de barnesandnoble.com

• Estrutura bem definida

Page 17: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

MUSICore

www.cin.ufpe.br/~acmf/musicore

Page 18: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

MUSICore (I)

Page 19: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

MUSICore (II)

Page 20: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Conclusão

• Apesar de dificuldades, automatizar foi uma boa saída• Bastante informação, de apenas uma fonte • Da seca a enxurrada• Necessidade de abordagem híbrida?

Page 21: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Dúvidas ? ? ?

Page 22: NEScrawler Aércio Cavalcanti – acmf@cin.ufpe.br Afonso Ferreira - agaf@cin.ufpe.br Vilmar Santos - vvf@cin.ufpe.br.

{acmf,agaf,vsn}@cin.ufpe.br

Referências

• Barnes and Noble – www.bn.com.br• Data Mining: Concepts and techniques – Han & Kamber• Modern Information Retrieval. Baeza-Yates & Ribeiro-

Neto. Addison-Wesley, 1999.• Salgado, A. C., Lóscio, B. F., Integração de Dados na Web