TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

27
Globalcode – Open4education BigData – Google BigQuery: Estudo de Caso globo.com Guilherme Balestieri Bedin dev @ globo.com

Transcript of TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Page 1: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Globalcode – Open4education

BigData – Google BigQuery: Estudo de Caso globo.com

Guilherme Balestieri Bedindev @ globo.com

Page 2: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

BigData Globo.com

Decisões a partir de dados (data-driven)

Page 3: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

BigData Globo.com

Conteúdo personalizado

Recomendação

Real time

Page 4: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

BigData Globo.com

Relatórios

Comportamento

Offline

Tendências

Métricas

Qual o tempo médio de permanência dos usuários em

na página?

Page 5: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

BigData Globo.com

3 bilhões de eventos diários

PáginaVídeo

Matérias

Impressões

Page 6: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Cluster Globo.com

cluster de processamento

real time

offline

bancos chave-valor

relatórios

Page 7: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

BigData Globo.com

Time de data science

Relatórios

Processo interativo

Page 8: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

BigData Globo.com

Somente para offline: relatórios

Processo interativo com usuários

Volume muito grande de dados

Page 9: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Alternativas

Amazon Redshift

Paga por instância de HW

SQL

Ecossistema Amazon

Integração com ferramentas

Desempenho

Google BigQuerySQL like

Ecossistema Google

Paga por processamento e espaço em disco

Simplicidade

Desempenho

Inserir dados por Streaming

Sem índices: tudo é rápido

Configurações de infra-estrutura

Page 10: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Google BigQuery

Arquivos com dados do dia

Dados importados por Job

Tabelas com dados do dia

Page 11: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Job: prepara dados

Dados

Dados agrupados por dia

Page 12: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Job: envia dados do dia

Envia dados do dia no formato AVRO

Remove dados do dia no formato AVRO

Page 13: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Job: importa no BigQuery

Importa dados do dia via job

Tabela do dia

Page 14: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Tabelas por dia

mydata.20140319

mydata.20150321

mydata.20140320

Como se fosse uma única tabela concatenada

Page 15: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Comparação

Selecionar os hits na home do G1 feitos por iPhone de um dia

e persistir o resultado

BigQuery: 25s Cluster (10 cores): 3h

Page 16: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Ambiente

Python e R

Notebook Jupyter

Biblioteca BigQuery

Page 17: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Exemplo: pacotes Go mais usados

https://cloud.google.com/bigquery/public-data/github

Page 18: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Exemplo: pacotes Go mais usados

Page 19: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Exemplo: pacotes Go mais usados

Page 20: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Google BigQuery

Manter: $0.02 por GB ao mês

Dados descompactados

90 dias sem edição $0.01

Page 21: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Google BigQuery

Processar: $5 por TB

Depende dos dados que a query usa

Cache por 24h

Page 22: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Google BigQuery

Streaming: $0.01 por 200MB

JOB: gratuito

Enviar

Page 23: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Volume

~12 meses de dados

~10TB compactados

~43TB descompactados

~8TB de crescimento ao mês descompactado

~ $860

~ $160

Page 24: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Melhorias

Tratar os dados para diminuir tamanho

Janela de dados

Usar estruturas aninhadas (registro)

Tabela de domínio

Biblioteca de estudos mais comuns

Page 25: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Considerações

Estimar custos

JOB para importar os dados

Automatizar a importação dos dados

É possível realizar as análises em SQL?

Conexão internet: upload

Page 26: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Vagas

Page 27: TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com

Perguntas

?