Gerência de Dados na Web: Especial Big Data

Post on 01-Jan-2016

12 views 0 download

description

ONDUXHadoop: Extração de dados em BigData. Universidade Federal do Amazonas Instituto de Computação. Gerência de Dados na Web: Especial Big Data. André Porto. Roteiro. Introdução Motivação ONDUX ONDUXHadoop Resultados Obtidos Conclusão Hands on. Introdução. - PowerPoint PPT Presentation

Transcript of Gerência de Dados na Web: Especial Big Data

Gerência de Dados na Web: Especial Big Data

ONDUXHadoop: Extração de dados em BigData

Universidade Federal do AmazonasInstituto de Computação

André Porto

Roteiro IntroduçãoMotivaçãoONDUXONDUXHadoopResultados ObtidosConclusãoHands on

IntroduçãoAbundância de registros não estruturados na

Web em forma textual.Endereços postais.Citações Científicas.Anúncios de Imóveis.Artigos Científicos.Ofertas de produtos.Etc…

DesafiosEnorme quantidade de dados

Dados semi-estruturados

Domínios diversificados

Grande esforço humano

Pra que extrair isso tudo??

Motivação Informações Textuais

Ricas de informações e não estruturadasNecessidade de recuperar informaçõesEstruturar em bancos de dadosMineração de Dados.Comparação de Registros.FiltrosConsulta complexas

Como extrair?ONDUX(Cortez@SIGMOD`10)

Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.

ONDUXEntradas

Registros que se deseja classificar.Base de Conhecimento.

SaídasRegistros rotulados.Possibilidade de armazenamento em

arquivos estruturados(CSV e XML).

Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado

3G Câmera 5MP 16GB Android 4.3 R$ 799,00

Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00

Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00

Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00

Exemplo de Base de ConhecimentoXML

Par (Atributo, Exemplo de Valor)

<outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros>

<processador> Processador Single Core </processador>

<processador> Quad Core </processador>

<sistema_operacional> Android 4.3 </sistema_operacional>

<modelo> Galaxy SIII I9300 </modelo>

<modelo> Optimus Hub E510 </modelo>

<cor> Preto </cor>

<marca> Nokia </marca>

<marca> LG </marca>

Funcionamento

Blocking

Smartphone

Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi

4G Por: R$ 2.899,00

Matching

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

??? Câmera Processador

Outros Preço

Quad Core

???

Modelo

PSM

Categoria

Marca

Cor

???Câmera

Processador

Outros

Preço

Início

Fim

90%

65%

82%

57%35%

90% 12%

21%55%

9%

45%17%

67% 44%

8%

98%

78%55%

94%

35%

13%

Reinforcement

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

SO Câmera Processador

Outros Preço

Quad Core

Outros

ONDUX HadoopPossibilidade de utilizar BigData

Melhoria na extração de dados

Foco na etapa Matching e ReinforcementGeração de blocosDetectar AmbiguidadePSM sem ruídos

ONDUX HadoopHadoop Single Node

Versão 1.2.1

Framework MapReduceEntrada: Blocos rotuladosSaída: Montagem de registros filtrados

ONDUX HadoopMatching gera entrada do Hadoop

smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 …

valorBloco – atributo – posição – score : id_registro

MapReduceMAP

IDRegistro : quádrupla

Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que

limiar(0.15) Remove ruídos no PSM

ONDUXHadoop

ONDUX

Dados Extraídos

MapReduceReduce

Avaliação 150 registros

51 registros modificados como novo PSMTotal de 164 rotulações82 blocos por implementação

Avaliação ManualGanho de 65%!

Implementação Corretos Errados

Normal 7 75

Hadoop 20 62

Trabalhos Futuros Gerar mais de um bloco por termo para detectar

ambiguidades

Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico.

Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho

Desenvolver Matching dentro do Hadoop

ConclusãoGrandes possibilidades de melhoria do ONDUX

PSM sem ruído consegue melhorar a extração de dados

Implementação em Hadoop possibilita utilização em grande escala de dados

Obrigado.

Hands On