Download - BIGDATA: Da teoria à Pratica

Transcript
Page 1: BIGDATA: Da teoria à Pratica

http://Checchia.NEThttp://Checchia.NET

BIG DATA:Do Conceito à Prática

Daniel ChecchiaConsultor de [email protected]

Page 2: BIGDATA: Da teoria à Pratica

2

Daniel Checchia…. Quem??

• +30 anos em Tecnologia

• Passagem por todos os grandes e-Commerce nacionais (americanas.com, shoptime.com, submarino.com, pontofrio.com), empresas de internet (imovelweb.com, zap.com.br) e startups (psafe.com, sitepx.com).

• Especializado em Arquitetura Corporativa, Infraestrutura, segurança e Cloud Computing.

• “T-Rex” evoluído

Page 3: BIGDATA: Da teoria à Pratica

3

O que eu faço….

Planejamento Estratégico TI Arquitetura Corporativa de TI Consultoria Estratégica Mentoring para Startups CTO Virtual ou On Demand Hands on

Lavo Passo Cozinho....

Page 4: BIGDATA: Da teoria à Pratica

4

Big data é como sexo no colegial: “Ninguém faz, mas

todo mundo diz que faz. Então todos pensam que

alguém está fazendo e dizem que fazem também”

Jay Kidd, CTO da NetApp

Page 5: BIGDATA: Da teoria à Pratica

5

Alguns Projetos BigData

[2011] Psafe.com (Lockbox):• 480 Servidores (64Gb RAM, 32Tb SATA)

• Distribuídos em 3 DCs

• 16 Racks por DC

• 10 Servidores por Rack

• Hadoop HDFS

[2013] SitePX (ElasticSearch):• +5.000.000 Documentos

• Distribuídos em 10 instâncias AWS (Auto-Scalling)

• Resultados de busca em 0.4 Segundos

Page 6: BIGDATA: Da teoria à Pratica

6

“enquadrando” bigdata

Page 7: BIGDATA: Da teoria à Pratica

7

Os 5 'Vs' do Big Data

• Volume (volume)

• Velocidade (velocity)

• Variedade (variety)

• Veracidade (veracity)

• Valor (value)

Page 8: BIGDATA: Da teoria à Pratica

8

Premissas para BigData

• Lidar com volumes extremamente grandes de dados

• Mais variados tipos

• Distribuição de processamento

• Elasticidade

• Escalabilidade

Page 9: BIGDATA: Da teoria à Pratica

9

Bancos Relacionais (ACID)

• Atomicidade: toda transação deve ser atômica, isto é, só pode ser considerada efetivada se executada completamente;

• Consistência: todas as regras aplicadas ao banco de dados devem ser seguidas;

• Isolamento: nenhuma transação pode interferir em outra que esteja em andamento ao mesmo tempo;

• Durabilidade: uma vez que a transação esteja concluída, os dados consequentes não podem ser perdidos.

Problema: Muito restritivo para uma solução de Big Data. A elasticidade, por exemplo, pode ser

inviabilizada pela atomicidade e pela consistência.

Page 10: BIGDATA: Da teoria à Pratica

10

Categorias NoSQL

• Orientado a documentos (MongoDB, CouchDB)

• Bancos de dados chave/valor (DynamoDB, Redis)

• Bancos de dados de grafos (Neo4j)

• Etc

Page 11: BIGDATA: Da teoria à Pratica

11

Soluções em bigdata

Page 12: BIGDATA: Da teoria à Pratica

12

Hadoop

• Mantido pela Apache Foundation

• Open Source

• Desenvolvido para Processamento e análise de grandes volumes de Dados

• Maiores Colaboradores:• Facebook• Google• Yahoo!• IBM

Page 13: BIGDATA: Da teoria à Pratica

13

Ecosistema Hadoop

Page 14: BIGDATA: Da teoria à Pratica

14

Arquitetura Hadoop

Page 15: BIGDATA: Da teoria à Pratica

15

Hadoop Cluster

Page 16: BIGDATA: Da teoria à Pratica

16

“Particionamento”

Page 17: BIGDATA: Da teoria à Pratica

17

Alta Disponibilidade

Page 18: BIGDATA: Da teoria à Pratica

18

Bigdata na Prática

Page 19: BIGDATA: Da teoria à Pratica

19

Sobre o Splunk

O Splunk é um mecanismo para os dados de máquina. Ele coleta, indexa e aproveita os dados de máquina gerados por todos os seus sistemas e infraestrutura

de TI, sejam eles físicos, virtuais ou em nuvem.

Page 20: BIGDATA: Da teoria à Pratica

20

Logstash

• O Logstash é um sistema para gerenciamento e agregação de logs.

• Com ele, podemos coletar logs, aplicar filtros e tratar as mensagens e armazenar para uso posterior, como visualização, estatística e alertas.

• Você consegue agregar logs de diferentes máquinas e aplicações em um ponto central e ver diversas informações relacionadas através de uma interface Web.

Page 21: BIGDATA: Da teoria à Pratica

21

ElasticSearch

• Servidor de buscas distribuído

• Baseado em REST

• Open Source

• Baseado no Apache Lucene

• Programado em Java (1 Jar)

• Pode manter sua base local e

Distribuída ou armazenar no Hadoop

(Nosso Caso)

Page 22: BIGDATA: Da teoria à Pratica

22

Kibana

• Kibana é um frontend HTML / JS

• Desenvolvido para criação de

dashboards para seus dados

• Integração total com Logstash, Apache

Flume, Fluentd e outros

• Análise em tempo real do fluxo de

dados

• Altamente escalável

Page 23: BIGDATA: Da teoria à Pratica

23

Kibana Exemplos

Page 24: BIGDATA: Da teoria à Pratica

24

Kibana Exemplos

Page 25: BIGDATA: Da teoria à Pratica

25

Kibana Exemplos

Page 26: BIGDATA: Da teoria à Pratica

26

Kibana Exemplos

Page 27: BIGDATA: Da teoria à Pratica

27

Kibana Exemplos

Page 28: BIGDATA: Da teoria à Pratica

28

Kibana Exemplos

Page 29: BIGDATA: Da teoria à Pratica

29

Demo online Kibana

http://demo.kibana.org/#/dashboard

Page 30: BIGDATA: Da teoria à Pratica

30

Obrigado!!

Daniel Checchia

[email protected]

@checchia

Skype: daniel.checchia

(11) 3010-0140