TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Post on 15-Apr-2017

90 views 3 download

Transcript of TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Globalcode – Open4education

BigData – Google BigQuery: Estudo de Caso globo.com

Guilherme Balestieri Bedindev @ globo.com

BigData Globo.com

Decisões a partir de dados (data-driven)

BigData Globo.com

Conteúdo personalizado

Recomendação

Real time

BigData Globo.com

Relatórios

Comportamento

Offline

Tendências

Métricas

Qual o tempo médio de permanência dos usuários em

na página?

BigData Globo.com

3 bilhões de eventos diários

PáginaVídeo

Matérias

Impressões

Cluster Globo.com

cluster de processamento

real time

offline

bancos chave-valor

relatórios

BigData Globo.com

Time de data science

Relatórios

Processo interativo

BigData Globo.com

Somente para offline: relatórios

Processo interativo com usuários

Volume muito grande de dados

Alternativas

Amazon Redshift

Paga por instância de HW

SQL

Ecossistema Amazon

Integração com ferramentas

Desempenho

Google BigQuerySQL like

Ecossistema Google

Paga por processamento e espaço em disco

Simplicidade

Desempenho

Inserir dados por Streaming

Sem índices: tudo é rápido

Configurações de infra-estrutura

Google BigQuery

Arquivos com dados do dia

Dados importados por Job

Tabelas com dados do dia

Job: prepara dados

Dados

Dados agrupados por dia

Job: envia dados do dia

Envia dados do dia no formato AVRO

Remove dados do dia no formato AVRO

Job: importa no BigQuery

Importa dados do dia via job

Tabela do dia

Tabelas por dia

mydata.20140319

mydata.20150321

mydata.20140320

Como se fosse uma única tabela concatenada

Comparação

Selecionar os hits na home do G1 feitos por iPhone de um dia

e persistir o resultado

BigQuery: 25s Cluster (10 cores): 3h

Ambiente

Python e R

Notebook Jupyter

Biblioteca BigQuery

Exemplo: pacotes Go mais usados

https://cloud.google.com/bigquery/public-data/github

Exemplo: pacotes Go mais usados

Exemplo: pacotes Go mais usados

Google BigQuery

Manter: $0.02 por GB ao mês

Dados descompactados

90 dias sem edição $0.01

Google BigQuery

Processar: $5 por TB

Depende dos dados que a query usa

Cache por 24h

Google BigQuery

Streaming: $0.01 por 200MB

JOB: gratuito

Enviar

Volume

~12 meses de dados

~10TB compactados

~43TB descompactados

~8TB de crescimento ao mês descompactado

~ $860

~ $160

Melhorias

Tratar os dados para diminuir tamanho

Janela de dados

Usar estruturas aninhadas (registro)

Tabela de domínio

Biblioteca de estudos mais comuns

Considerações

Estimar custos

JOB para importar os dados

Automatizar a importação dos dados

É possível realizar as análises em SQL?

Conexão internet: upload

Vagas

Perguntas

?