Webinar: Introdução a Big data

Post on 07-Jan-2017

705 views 3 download

Transcript of Webinar: Introdução a Big data

© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Thiago Paulino, Solutions Architect

03 Março, 2016

Introdução a Big DataOpções de analytics na AWS & Casos de uso

Conteúdo

• Introdução de Big Data em AWS• Big Data Analytics Opções na AWS

• Padrões de uso e anti-padrões• Performance & Custos• Durabilidade & Escalabilidade• Interfaces

• Construindo soluções Big Data – Abordagem AWS

• Cenários de exemplo

Big Data na AWS

Disponibilidade Imediata. Deploy instantâneo. Sem compra de hardware, sem infra-estrutura para manter e escalar.

Seguro e confiável. Desenhado para atender requisitos rigorosos de segurança. Auditoria continua, incluindo certificações : ISO 27001, FedRAMP, DoD CSM, and PCI DSS.

Capilaridade de serviços. Mais de 50 serviços e centenas de funcionalidades para suportar virtualmente qualquer workload de big data.

Centenas de parceiros e soluções. Obtenha ajuda de nossos parceiros de consultoria ou escolha entre centenas de ferramentas em nosso marktplace

Real-timeAmazon Kinesis Firehose

Object StorageAmazon S3

RDBMSAmazon RDS

NoSQLDynamoDB

Hadoop EcosystemAmazon EMR

Real-timeAWS Lambda

Amazon Kinesis Analytics

Data WarehousingAmazon Redshift

Machine LearningAmazon Machine

Learning

Business Intelligence & Data VisualizationAmazon QuickSight

Real-timeAmazon Kinesis Streams

Elastic Search AnalyticsAmazon ElasticSearch

Coleta Armazenamento Análise & Processamento

Visualização

Data ImportAmazon Import/Export

Snowball

IoTAmazon IoT

Ampla capacidade e integração

Petabyte (capacidade)

Processamento paralelo

Relacional data warehouse

Gerenciado, zero admin

Menos de $1,000/TB/Year

RápidoBaratoSimples

Amazon Redshift

Amazon Redshift• Padrões de uso

• Dados de vendas• Dado históricos• Dados de jogos• Dados de redes sociais• Dados de campanha de publicidade

• Performance• Processamento paralelo massivo• Armazenamento colunar• Compressão de dados• Mapeamento • Discos diretamente conectados

• Modelo de custo• Sem investimento inicial ou contratos• Backup gratuíto (storage equivalente a 100% do

storage provisionado)

Com armazenamento colunar, você acessa apenas o dado que você precisa.

Amazon Redshift

• Escalabilidade & Elasticidade• Aumentar ou Diminuir - Número ou tipo de

node com alguns clicks

• Durabilidade e disponibilidade• Replicação• Backup • Automated recovery para falhas de discos &

nodes• Interfaces

• JDBC/ODBC interface com ferramentas de BI/ETL

• Amazon S3 ou DynamoDB

• Anti-padrões• Pequenos datasets• OLTP• Dados não estruturados• Blob Data

10 GigE(HPC)

IngestionBackupRestore

SQL Clients/BI Tools

128GB RAM

16TB disk

16 cores

Amazon S3

JDBC/ODBC

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

LeaderNode

streaming de dados

Processamento em tempo real

Armazene terabytes de dados

por hora

Amazon Kinesis

Amazon Kinesis Streams• Padrões de uso – Streaming de

dados, ingestão e processamento• Data analytics em tempo real• Ingestão de dados e processamento ex.

logs• Métricas e reports em tempo real

• Performance• Throughput baseado em shards

• Modelo de custo• Sem investimento inicial ou contratos

•Pague pelo que usar•Custo hora por shard•Cobrança por 1 million de transações

PUT

Amazon Kinesis Streams

• Escalabilidade e Elasticidade•Aumente o número de shards

• Durabilidade e Disponibilidade• Replicação• Cursor preservation

• Interfaces•Input – data in•Output – data out•Kinesis Firehose

• Anti-padrões•Pequenas taxas de transferência•Armazenamento de longo prazo

Inicie cluster em minutos

Pague por hora e economize com

instâncias spot

MapReduce, Apache Spark, Presto

Amazon EMR

Amazon EMR• Padrões de uso

• Processamento de log and analytics • Grande ETL e movimentacao de dados• Risk modeling and threat analytics• Sucesso de publicidade and click stream

analytics• Genoma• Análise preditiva• Ad-hoc data mining and analytics

• Performance • Tipo de instância• Número de instâncias

• Cost model• Pague pelas horas de execução• EC2 instance e EMR

Amazon EMR

• Escalabilidade e Elasticidade• Resize de cluster• Adicione instâncias core ou task

• Durabilidade e Disponibilidade• Tolerância a falha slave node (HDFS) • Backup com S3 para resiliência do master

node• Interfaces

• Hive, Pig, Spark, Hbase, Impala, Hunk, Presto, etc..

• Anti-padrões• Pequenos data sets• ACID (Atomicity, Consistency, Isolation and

Durability)

NoSQL database totalmente

gerenciado

Um dígito de Millisecond de latência

para escalar

Suporte a documento e chave-valor

AmazonDynamoDB

Amazon DynamoDB• Padrões de uso

• Mobile apps, jogos, digital ad serving, votaçao em tempo real, rede de sensores, ingestão de logs

• Controle de acesso a conteudo web, carrinho de compras para e-commerce

• Gerenciamento de sessões web• Performance

• SSD• Provisione throughput por tabela

• Escalabilidade e Elasticidade•Sem limite de dados armazenados•Aumentar ou diminuir a capacidade de leitura e

escrita por tabela• Modelo de custo

• Pague pelo que usar• Provisione throughput (por hora)• Indexe dados armazenados (por GB por mês)• Data transfer in or out (por GB por mês)

Provisioned read/write performance per table. Predictable high performance scaled via console or API

Amazon DynamoDB

• Durabilidade e Disponibilidade• Três Availability Zones (AZ)

• Interfaces• AWS Console• API’s• SDK’s

• Anti-padrões• Applicação de bancos de dados relacional• Joins e/ou transações complexas• BLOB data• Muitos dados com pouco I/O

AZ-A

AZ-B

AZ-C

Serviço gerenciado projetado para tornar mais fácil para os desenvolvedores o uso de machine learning

Baseado na mesma tecnologia ML usado há anos por cientistas de dados internos da Amazon

Amazon Machine Learning é altamente escalavel e utiliza padrões de ML. (Análise preditiva)

Amazon Machine Learning

Amazon Machine Learning

• Padrões de uso• Alertas de transações suspeitas• Personalize application content• Predição de atividade do usuário• Analise rede social

• Modelo de custo• Pague pelo que usar• Sem gerenciamento de instâncias, apenas

serviço• Performance

• Predições em tempo real Real-time predictions projetado para responder em pelo menos 100ms

• 200 transações por segundo

Amazon Machine Learning• Durabilidade e Disponibilidade

• Sem janela de manutençao• Desenhado para multiplas AZ’s

• Escalabilidade e Elasticidade• Modelo de treino de ate100GB• Multiplo jobs simultâneos

• Interfaces• Origem de dados a partir do S3, RDS e

Redshift• Intereção ML via console, SDKs, e ML

API• Anti-padrões

• Grandes Data Sets > 100GB• Sequência de predição ou tasks não

supervisionada

Orientado a eventos, computaçao 100% gerenciada

Sem gestão de infra-estrutura

Escalabilidade automática

AWS Lambda

AWS Lambda• Padrões de uso

• Procesamento de arquivos em tempo real• Extract, Transform, Load (ETL)

• Performance• Processamento de eventos em milliseconds

• Modelos de custo• Pague pelo que usar• Sem gerênciamento de instâncias, pague

apenas pelo serviço• Lambda free tier incluí 1Milhão de

requisições gratuitas

AWS Lambda• Durabilidade e Disponibilidade

• Sem janelas de manutenção ou downtime agendado

• Funções Async são executadas até 3 times caso falhem

• Escalabilidade e Elasticidade• Alta concorrência de execuções

simultânea• AWS Lambda Aloca dinamicamente

capacidade para executar os eventos.• Interfaces

• Lambda suportas Java, Node.js, e Python

• Execução por evento ou agendas• Anti-padrões

• Execuções longas de aplicações• Aplicações Stateful no Lambda

Instale um cluster de Elasticsearch em

minutos

Integrado com Logstash and Kibana

Escale o seu cluster Elasticsearch

perfeitamente

Amazon Elasticsearch

Service

Amazon Elasticsearch• Padrões de uso

• Análise de logs• Análise de stream de dados e/ou updates de

outros serviços AWS• Prover uma busca rica e uma boa experiência de

uso/navegação• Monitorar o uso de aplicações mobile

• Performance• Depende de multiplos fatores, incluindo tipo de

instância, workload, index, número de shards no cluster, replicas de leitura

• Configurações de disco – instance storage ou EBS storage

• Modelos de custo• Pague pelo que usar• Pague somente pela instância de elasticsearch e

disco utilizado

Amazon Elasticsearch• Durabilidade e Disponibilidade

• Zone Awareness• Snapshots automático e manual.

• Escalabilidade e Elasticidade• Adicione e remova instâncias• Altere os volumes EBS conforme

crescimento• Interfaces

• AWS Console• API’s• SDK’s• Kibana and Logstash (ELK Stack)

• Anti-padrões• OLTP• Workloads que precisam de mais de 5TB de

armazenamento

Elasticsearch + Logstash + Kibana = real-time analytics & visualization

Construa visualizações

Performance para processamento ad-hoc

Compartilhamento de dasboards(storyboards)

Acesso nativo com as principais

plataformas mobile

Amazon QuickSight

Introdução Amazon QuickSight

Serviço em Cloud de Business Intelligence com 1/10th do custo de um software de BI tradicional

Sem esforço de TI. Sem modelagem dimensional

Auto-discovery de fonte de dados (AWS)

Rapido, processamento paralelo, Calculos em

memória

100% gerenciado

Available in Previewaws.amazon.com/quicksight

Aumente ou diminua conforme

necessidade.

Pague somente pelo que usar.

Multipla opções.

Construa sua própria aplicação big

data.

Amazon EC2

Abordagem AWS

• Flexivel. Use a melhor ferramenta para cada tarefa• Estrutura de dados, latência, alta capacidade de rede, padrões

de acesso.

• Escalável. Imutável (Tarefa única)• Execuções Batch/velocidade (Camadas)

• Mínimo de administração. Serviços AWS gerenciados• Sem ou com administração mínima

• Baixo custo. Big data ≠ big cost

Scenario 1: Enterprise Data Warehouse

Scenario 2: Capture e analise dados de sensores

Scenario 3: Análise de sentimento de rede social

Big Data Cenários

Cenário 1: Enterprise Data Warehouse

Data Warehouse Architecture

Data Sources

AmazonS3

AmazonEMR

AmazonS3

AmazonRedshift

AmazonQuickSight

Cenário 2: Capture e analise dados de sensores

Data Sources

AmazonS3

AmazonRedshift

AmazonQuickSight

AmazonKinesisEnabled

App

AmazonKinesisEnabled

App

AmazonDynamoDB

RepostingDashboard

Customer Access

AmazonKinesis

1

2 3 4 5

6 7 8 9

Cenário 3: Análise de sentimento Rede social

Social Media Data

AmazonEC2

AmazonLambda

AmazonML

AmazonKinesis

AmazonS3

AmazonSNS

1 2 4 5 6

3 7

Próximos passos• Assine o feed do AWS Big Data Blog

blogs.aws.amazon.com/bigdata

• Leia mais sobre o assunto, tutoriais, guias e laboratórios aws.amazon.com/big-data

• Registre-se para os próximos Webinarsaws.amazon.com/about-aws/events/monthlywebinarseries