Interoperabilidade com BigData Hadoop para Windows Azure

68

description

O que é BigData e BI ? O que é um Cientista de Dados ? O que é Hadoop ? O que é a HortonWoks Haddoop ? Criando um Cluster Hadoop no Windows Azure? Integrando com Power BI Apresentação de Case de uso.

Transcript of Interoperabilidade com BigData Hadoop para Windows Azure

Page 1: Interoperabilidade com BigData Hadoop  para Windows Azure
Page 2: Interoperabilidade com BigData Hadoop  para Windows Azure

Interoperabilidade com

BigData Hadoop para

Windows AzureAlessandro de Oliveira Binhara

Data Scientist – Horton Works System Integrator

Page 3: Interoperabilidade com BigData Hadoop  para Windows Azure

Agenda

O que é BigData e BI ?

O que é um Cientista de Dados ?

O que é Hadoop ?

O que é a HortonWoks Haddoop ?

Criando um Cluster Hadoop no Windows Azure?

Integrando com Power BI

Apresentação de Case de uso.

Page 4: Interoperabilidade com BigData Hadoop  para Windows Azure
Page 5: Interoperabilidade com BigData Hadoop  para Windows Azure

Por que??? BigData ??? CloudComputing??

Em 2001 : Centenas de milhares de dólares para sequenciar um Gene

Atualmente: menos de 6 mil dólares por Gene

Atualmente o sequenciamento gerar cerca de 50petabyte de dados.

1 semana para decodificar 1 Gene

Atualmente: Se Faz o sequenciamento de 100 Gene por dia

Page 6: Interoperabilidade com BigData Hadoop  para Windows Azure

O que é BigData ?

Page 7: Interoperabilidade com BigData Hadoop  para Windows Azure

O que é Um Cientista de Dados ?

O cientista de dados é um especialista em análise de

informações. A característica mais importante desse

profissional, portanto, é a capacidade analítica. Por isso,

quem tem uma sólida formação em matemática e lógica,

como engenheiros, economistas, estatísticos e

matemáticos, é forte candidato a se sair bem na carreira.

“Ter um consistente background em matemática é

fundamental, senão a pessoa tem que suar muito para

preencher a lacuna", diz o professor Renato Souza,

responsável pelo mestrado de modelagem matemática da

informação, da Fundação Getulio Vargas do Rio de Janeiro

(FGV-RJ), lançado em 2011.Salário mediano anual em

milhares de dólares dividido

pelos grupos identificados.

Fonte: O'Reilly.

Page 8: Interoperabilidade com BigData Hadoop  para Windows Azure

Curiosidades sobre ZetaBytes

Page 9: Interoperabilidade com BigData Hadoop  para Windows Azure

Não confunda os conceitos

CloudComputing – computação em nuvem

BigData – Armazenamento e Processamento de Grandes

Volumes de Dados

BI Businnes Inteligence – Apresentar a informações de

forma clara, sendo a fonte de inteligencia para os

negocios

Cientista de Dados – é a pessoa capaz de orquestrar todos

esses conceitos apresentando o valor que a empresa quer

das informações

Page 10: Interoperabilidade com BigData Hadoop  para Windows Azure
Page 11: Interoperabilidade com BigData Hadoop  para Windows Azure

O que é Hadoop ?

O Apache Hadoop é um projeto desenvolvimento como

open-source software para escalável , confiável e com

processamento distribuído. Um sistema escalável e

confiável para armazenamento compartilhado e análises.

Ele automaticamente trata da replicação de dados e das

falhas em cada nó. Ele faz o trabalho duro, o

desenvolvedor pode se concentrar em processamento da

lógica de dados Permite que os aplicativos usem petabytes

de dados em paralelo.

Page 12: Interoperabilidade com BigData Hadoop  para Windows Azure

Por que ?

Requisitos

500M+ usuário únicos por mês

Bilhões de eventos interessantes por

dia

Necessidade de scalabilidade massiva

PB’s de storage, milhares de

arquivos, 1000’s de nós

Necessidade de ter baixo custo

Uso de hardware comum

Compartilhar recursos com vários

projetos

Fornecer escala quando necessário

Precisa de infraestrutura confiável

Deve ser capaz de lidar com falhas - hardware, software, networking

A falha é esperada, e não uma exceção

Transparente para as aplicações

muito caro para construir confiabilidade em cada aplicação

A infra-estrutura do Hadoopprove essas capacidade.

Page 13: Interoperabilidade com BigData Hadoop  para Windows Azure

Características

Um sistema escalável e confiável para armazenamento

compartilhado e análises.

Ele automaticamente trata da replicação de dados e da

falhas em cada nó.

Ele faz o trabalho duro - desenvolvedor pode se

concentrar em processamento da lógica de dados

Permite que os aplicativos usem petabytes de dados em

paralelo

Page 14: Interoperabilidade com BigData Hadoop  para Windows Azure

Eco Sistema

Hadoop Core

Distributed File System

MapReduce Framework

Pig (criado pelo Yahoo!)

Parallel Programming Language e Runtime

Hbase (criado pelo Powerset)

Table storage for semi-structured data

Zookeaper (criado pelo Yahoo!)

Coordinating distributed systems

Hive (criado pelo Facebook)

SQL-like query language and metastore

Page 15: Interoperabilidade com BigData Hadoop  para Windows Azure

Hadoop no FaceBook

Cluster em produção

4800 cores, 600 máquina, 16GB por máquina – Abril/2009

8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009

4 SATA discos de 1 TB por máquina

2 níveis de rede hierarquica, 40 máquinas por rack

Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009

Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB

raw storage.

Atualmente eles moveram 30PB de para um novo Cluster

Todos os dias o Facebook recebe 380milhões de novas fotos

Page 16: Interoperabilidade com BigData Hadoop  para Windows Azure

Cluster no Yahoo

É investidor da HortonWorks

Atualmente o Yahoo tem um cluster com mais de 42mil máquinas

Page 17: Interoperabilidade com BigData Hadoop  para Windows Azure

HDFS – Hadoop File System

Inspirado em GFS

Projetado para trabalhar com arquivos muito grandes

Executado em hardware commodity

Streaming de acesso a dados

Replicação e localidade

Page 18: Interoperabilidade com BigData Hadoop  para Windows Azure

HDFS- MapReduce Data Flow

Page 19: Interoperabilidade com BigData Hadoop  para Windows Azure

O que é MapReduce

MapReduce é um modelo de programação e

implementação associados para o processamento e

geração de grandes conjuntos de dados (Jeffrey Dean e

Sanjay Ghemawat, 2004)

A ideia tem mais de 40 anos

Baseado em um modelo de programação funcional (como Lisp, Ml, etc)

Processamento de dados base em batch

A abstração limpa para programadores

Paralelização automática e distribuição

Tolerância a falhas

Page 20: Interoperabilidade com BigData Hadoop  para Windows Azure

Exemplo Simplifica de Map/Reduce

map (String key, String value):

// key: nome documento

// value: Conteudo documento

for each word w in value:

EmitIntermediate(w, "1");

reduce(String key, Iterator values):

// key: a palavra

// values: a lista de valores

int result = 0;

for each v in values:

result += ParseInt(v);

Emit(AsString(result));

Page 21: Interoperabilidade com BigData Hadoop  para Windows Azure

Funcionamento do Map/Reduce

Page 22: Interoperabilidade com BigData Hadoop  para Windows Azure

Arquitetura Moderna

Page 23: Interoperabilidade com BigData Hadoop  para Windows Azure

HDP: Enterprise Hadoop Distribution

Hortonworks

Data Platform (HDP)

Enterprise Hadoop

A única 100% open source e

completa

Classe empresarial, provado e

testado em escala

Ecossistema endossado para

garantir a interoperabilidade

Page 24: Interoperabilidade com BigData Hadoop  para Windows Azure

Uso Comum do Hadoop

1. SocialEntenda como seus clientes se sentem sobre a sua marca

e produtos – agora

2. ClickstreamCapturar e analisar as pistas de dados visitantes do site e

otimizar seu site

3. Sensor/MachineDescobrir padrões nos dados que fluem automaticamente

a partir de sensores e máquinas remotas

4. GeolocationAnalisar dados baseados em localização para gerenciar as

operações onde ocorrem

5. Server LogsLog de pesquisa para diagnosticar falhas no processo e

prevenir violações de segurança

6. Unstructured (text, video, pictures, etc..)Compreender padrões de texto através de milhões de

produtos de trabalho não estruturados: páginas web, e-

mails, vídeos, fotos e documentos

Valor

Page 25: Interoperabilidade com BigData Hadoop  para Windows Azure

Demonstração HortonWorks

Gera sentimento em relação o IronMan 3

Coleta do Stream do Twitter

Dados do Twiter são salvos pelo flume no hadoop

Com uma tabela de classificação de sentimento

É processada a base e gerar informações a respeito do filme

Page 26: Interoperabilidade com BigData Hadoop  para Windows Azure
Page 27: Interoperabilidade com BigData Hadoop  para Windows Azure

Por que Hadoop no Windows De acordo com a IDC Windows Server tem 73% em 2012

Hadoop foi tradicionalmente construído para servidores Linux de

forma que há um grande número de organizações carentes

De acordo com o estudo de 2012 Barclays CIO big data supera

Virtualização como tendência N º 1 iniciativas de gastos

Crescimento de dados não estruturados superior a 80% ano / ano

na maioria das empresas

Apache Hadoop é a plataforma de dados defato grande. Para o

processamento de grandes quantidades de dados não estruturados

Complementar às tecnologias existentes da Microsoft

Há uma enorme comunidade de desenvolvedores do Windows

inexplorado e parceiros do ecossistema

Forte parceria Microsoft-Hortonworks e 18 meses de

desenvolvimento

Page 28: Interoperabilidade com BigData Hadoop  para Windows Azure

HortonWorks Data Platform for Windows

HDP é a primeira e únição hadoop para Windows e Linux

Empresa de suporte Apache Hadoop no Windows

Permite mesma experiência para Hadoop no Windows e Linux

Mais parceiros, mais desenvolvedores para Hadoop

Nativa Apache Hadoop disponível para o Windows ecossistema

Mais opções para o Windows focada organizações

Hortonworks foco: Empresa Apache Hadoop para todas as

plataformas

Distribuição pronta para produção confiável Confiável para on-premise

Hadoop em implantações do Windows

Construído com investimentos conjuntos e com contribuições da

Microsoft

Relacionamento engenharia profunda garante integração e desempenho

máximo

Page 29: Interoperabilidade com BigData Hadoop  para Windows Azure

Interoperability com Microsoft Tools Integrado com ferramentas da Microsoft

para análise de dados grande nativa

Conectores bidirecionais para SQL Server e SQL Azure através Sqoop

Integração ODBC Excel através Hive

Dirigindo-se a demanda por Hadoop no Windows

Ideal para clientes Windows com? Hadoopexperiência operacional

Permite que as cargas de trabalho do Hadoop mais comuns na empresa

Refinamento de dados e ETL para descarregar? De grande volume de dados de desembarque

Exploração de dados para a descoberta de novas oportunidades de negócios

Enriquecimento de dados para entrega sintonizado multado e mecanismos de recomendação

Page 30: Interoperabilidade com BigData Hadoop  para Windows Azure
Page 31: Interoperabilidade com BigData Hadoop  para Windows Azure

Por dentro do HDP for Windows

Hortonworks

Data Platform (HDP)

For Windows

100% Open Source Enterprise

Hadoop

Component and version

compatible with HDInsight

Availability

Beta release available now

GA early 2Q 2013

Page 32: Interoperabilidade com BigData Hadoop  para Windows Azure

TreinamentosPresencias, On-line e Semipresenciais

Curso: Apache Hadoop Essencial (8horas )

Curso: Introdução ao Futuro Cientista de Dados (8h)

Curso: DataScientist e BigData for Bussines (16h)

Curso: Apache Hadoop Fundamental (24h)

Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)

Treinamento Apache Sqoop (8h)

Treinamento Apache Cassandra (16h)

Treinamento HBase (16h)

Treinamento Hive (16h)

Treimento Mahout (16h)

Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout(30h)

Curso de Splunk (16h)

Curso Pig e Pig Latin (16h)

Curos de Programaçao em MapReducecom Java e C# (16h)

Curso de Flume (16h)

Page 33: Interoperabilidade com BigData Hadoop  para Windows Azure

Criando Cluster

no Azure

Page 34: Interoperabilidade com BigData Hadoop  para Windows Azure

O que é windows Azure

É plataforma de hardware e Software da microsoft

Page 35: Interoperabilidade com BigData Hadoop  para Windows Azure

Data Center Azure

Page 36: Interoperabilidade com BigData Hadoop  para Windows Azure
Page 37: Interoperabilidade com BigData Hadoop  para Windows Azure

HDInsight – Hadoop Eco System

Page 38: Interoperabilidade com BigData Hadoop  para Windows Azure

Azure Blob

Page 39: Interoperabilidade com BigData Hadoop  para Windows Azure

Criando seu Cluster Hadoop no Azure

Page 40: Interoperabilidade com BigData Hadoop  para Windows Azure

Definido o Tamanho do Cluster

Page 41: Interoperabilidade com BigData Hadoop  para Windows Azure

Interface Administrativa

Page 42: Interoperabilidade com BigData Hadoop  para Windows Azure

Interface Administrativa

Page 43: Interoperabilidade com BigData Hadoop  para Windows Azure

Interface Administrativa

Page 44: Interoperabilidade com BigData Hadoop  para Windows Azure

InterFace Hive

Page 45: Interoperabilidade com BigData Hadoop  para Windows Azure

Jobs

Page 46: Interoperabilidade com BigData Hadoop  para Windows Azure

Job Info

Page 47: Interoperabilidade com BigData Hadoop  para Windows Azure

Exemplo de Hadoop no Azure

Page 48: Interoperabilidade com BigData Hadoop  para Windows Azure

Map Reduce em C#

Page 49: Interoperabilidade com BigData Hadoop  para Windows Azure

Map

Page 50: Interoperabilidade com BigData Hadoop  para Windows Azure

Reduce

Page 51: Interoperabilidade com BigData Hadoop  para Windows Azure

Maximise sua escolha para o Hadoop

Use HDP para Windows para no local de implantação no Windows Server

Ideal para usuários de Windows com experiência Hadoop

Perfeito próximo passo para aqueles que estão prontos para se deslocar de POC

para produção

Use HDInsight para Microsoft ferramentas e gerenciamento e

provisionamento

Serviço HDInsight que oferece todos os benefícios do Windows Azure (por exemplo,

elasticidade e de baixo custo) - disponível em Visualizar hoje

HDInsight Servidor para a plena integração do Hadoop com ferramentas da

Microsoft no local - Developer Preview disponível hoje

Escolha completa interoperabilidade e implantação em todas as

plataformas

Implementar aplicações de dados grandes que funcionam on-premise e nuvem

Ao alavancar open source HDP, permite a interoperabilidade transparente entre

ambientes: Linux, Windows, Windows Azure

Page 52: Interoperabilidade com BigData Hadoop  para Windows Azure

Cases !

Page 53: Interoperabilidade com BigData Hadoop  para Windows Azure

Sistema de Recomendação

Sistema de Recomendação de Produtos

Vitrines inteligentes para lojas online

Aumento em 60% o volume de faturamento das lojas

Cluster com 70nós

Mais de 1.5 milhões de transações por segundo

Page 54: Interoperabilidade com BigData Hadoop  para Windows Azure

Case Uniter

45 mil alunos

Crescimento da Base 1GB por dia

Preocessamento do dados 2 semanas

Com upload para cloud diários 1 hora

Processamento em 12 maquinas com PIG

Tempo de processamento baixou para 1 horas por

dia

Page 55: Interoperabilidade com BigData Hadoop  para Windows Azure

Sistema

BigData China

Page 56: Interoperabilidade com BigData Hadoop  para Windows Azure

Arquitetura

ODBC

DRIVER

HBASE

HDFS

HCATOLOG

MAPREDUCE

HIVE

PIG

Apache

Tomcat

WEB Service

StarGATE

EXCEL

FLUMEServer Local

De Captura

Server Local

De Captura

Server Local

De Captura

Page 57: Interoperabilidade com BigData Hadoop  para Windows Azure

Captura e Processamento dos Vídeos

As imagens são capturadas e processadas em

tempo real.

Podemos notar as marcações realizadas pelo

software de análise.

Ele consegue identificar os carros em movimentos

e verificar várias infrações, como :

Velocidade acima de 10% do limite

Velocidade acima de 20% do limite

Avanço de Sinal

Caminhão fora de horário

Sobre a faixa de pedestre

Page 58: Interoperabilidade com BigData Hadoop  para Windows Azure

Etapa 2 – Transmissão Via WebServices

Page 59: Interoperabilidade com BigData Hadoop  para Windows Azure

Gravando dados no Hadoop

Page 60: Interoperabilidade com BigData Hadoop  para Windows Azure

Etapa 5 - Consulta dos dados

Usando PowerPivot , geramos os relatórios que são consultas diretamente na

base do HBASE , via ODBC da HortonWorks.

Page 61: Interoperabilidade com BigData Hadoop  para Windows Azure

Tabelas do HBase vista pelo Excel via

ODBC

Page 62: Interoperabilidade com BigData Hadoop  para Windows Azure

Etapa 6 – Construção dos relatórios

Foram construídos uma série de relatórios:

Número de Eventos por câmera

Número de Eventos por mês

Numero de Eventos por semana

Número de eventos por Infrações

Por tipo de evento

Por Posição geográfica no mapa

Page 63: Interoperabilidade com BigData Hadoop  para Windows Azure

Exemplo de Relatório

asd

Page 64: Interoperabilidade com BigData Hadoop  para Windows Azure

Exemplo de Relatório

asd

Page 65: Interoperabilidade com BigData Hadoop  para Windows Azure

Exemplo de Relatório

asd

Page 66: Interoperabilidade com BigData Hadoop  para Windows Azure

Exemplo de Relatório

asd

Page 67: Interoperabilidade com BigData Hadoop  para Windows Azure

Fotos Georeferenciados

Page 68: Interoperabilidade com BigData Hadoop  para Windows Azure

Perguntas ???

[email protected]

@binhara

www.azuris.com.br