Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData...

30
Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Transcript of Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData...

Page 1: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Gerência de Dados na Web: Especial Big Data

ONDUXHadoop: Extração de dados em BigData

Universidade Federal do AmazonasInstituto de Computação

André Porto

Page 2: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Roteiro IntroduçãoMotivaçãoONDUXONDUXHadoopResultados ObtidosConclusãoHands on

Page 3: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

IntroduçãoAbundância de registros não estruturados na

Web em forma textual.Endereços postais.Citações Científicas.Anúncios de Imóveis.Artigos Científicos.Ofertas de produtos.Etc…

Page 4: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

DesafiosEnorme quantidade de dados

Dados semi-estruturados

Domínios diversificados

Grande esforço humano

Page 5: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Pra que extrair isso tudo??

Page 6: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.
Page 7: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.
Page 8: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.
Page 9: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.
Page 10: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Motivação Informações Textuais

Ricas de informações e não estruturadasNecessidade de recuperar informaçõesEstruturar em bancos de dadosMineração de Dados.Comparação de Registros.FiltrosConsulta complexas

Page 11: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Como extrair?ONDUX(Cortez@SIGMOD`10)

Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.

Page 12: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

ONDUXEntradas

Registros que se deseja classificar.Base de Conhecimento.

SaídasRegistros rotulados.Possibilidade de armazenamento em

arquivos estruturados(CSV e XML).

Page 13: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado

3G Câmera 5MP 16GB Android 4.3 R$ 799,00

Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00

Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00

Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00

Page 14: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Exemplo de Base de ConhecimentoXML

Par (Atributo, Exemplo de Valor)

<outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros>

<processador> Processador Single Core </processador>

<processador> Quad Core </processador>

<sistema_operacional> Android 4.3 </sistema_operacional>

<modelo> Galaxy SIII I9300 </modelo>

<modelo> Optimus Hub E510 </modelo>

<cor> Preto </cor>

<marca> Nokia </marca>

<marca> LG </marca>

Page 15: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Funcionamento

Page 16: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Blocking

Smartphone

Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi

4G Por: R$ 2.899,00

Page 17: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Matching

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

??? Câmera Processador

Outros Preço

Quad Core

???

Page 18: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Modelo

PSM

Categoria

Marca

Cor

???Câmera

Processador

Outros

Preço

Início

Fim

90%

65%

82%

57%35%

90% 12%

21%55%

9%

45%17%

67% 44%

8%

98%

78%55%

94%

35%

13%

Page 19: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Reinforcement

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

SO Câmera Processador

Outros Preço

Quad Core

Outros

Page 20: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

ONDUX HadoopPossibilidade de utilizar BigData

Melhoria na extração de dados

Foco na etapa Matching e ReinforcementGeração de blocosDetectar AmbiguidadePSM sem ruídos

Page 21: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

ONDUX HadoopHadoop Single Node

Versão 1.2.1

Framework MapReduceEntrada: Blocos rotuladosSaída: Montagem de registros filtrados

Page 22: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

ONDUX HadoopMatching gera entrada do Hadoop

smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 …

valorBloco – atributo – posição – score : id_registro

Page 23: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

MapReduceMAP

IDRegistro : quádrupla

Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que

limiar(0.15) Remove ruídos no PSM

Page 24: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

ONDUXHadoop

ONDUX

Dados Extraídos

Page 25: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

MapReduceReduce

Page 26: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Avaliação 150 registros

51 registros modificados como novo PSMTotal de 164 rotulações82 blocos por implementação

Avaliação ManualGanho de 65%!

Implementação Corretos Errados

Normal 7 75

Hadoop 20 62

Page 27: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Trabalhos Futuros Gerar mais de um bloco por termo para detectar

ambiguidades

Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico.

Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho

Desenvolver Matching dentro do Hadoop

Page 28: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

ConclusãoGrandes possibilidades de melhoria do ONDUX

PSM sem ruído consegue melhorar a extração de dados

Implementação em Hadoop possibilita utilização em grande escala de dados

Page 29: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Obrigado.

Page 30: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto.

Hands On