Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga...

66

description

Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala A Samba Tech é uma startup fundada em 2004 e atualmente líder na América Latina em gestão e distribuição profissional de vídeos online. Atualmente suporta um tráfego anual de 15PB, garantindo a entrega e análise de mais de 400 milhões de video views/mês. Os vídeos entregues pela Samba Tech atingem 1 a cada 10 usuários únicos no Brasil e geram cerca de 2 Bilhões de requisições mensais. Será tema desta palestra os desafios e soluções adotadas na construção de uma ferramenta para análise dos dados de consumo dos vídeos administrados através da plataforma da empresa. Com um grande volume de requisições, a solução exigiu uma arquitetura de alto desempenho, confiável e elástica para gerar informações precisas para tomada de decisões estratégicas dos clientes. Lídio Ramalho CTO da Samba Tech. Chief Technology Officer da Samba Tech, é bacharel em Ciência da Computação pela UFMG, especializado em Cloud Computing, Redes de computadores e arquitetura de sistemas. É arquiteto de software e líder da equipe de WebOperations da empresa.

Transcript of Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga...

Page 1: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala
Page 2: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Agenda

• Intro • Migrando de relatório para uma solução de BI • Under the Hood • Lições aprendidas

Page 3: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala
Page 4: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala
Page 5: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Reporting

Analytics&

Page 6: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

No Início - Report

Fornecer informações de usoEstatísticas e dados gerais

Page 7: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

• Número de Visualizações • Número de Visualizações Completas • Retenção por quartil • Tráfego • Número de Uploads, etc…

No Início - Report

Page 8: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

No Início - Report

+ Dados

Page 9: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

!

• Problema: Custo Elevado • Apresentava bom desempenho

• Problema: Instabilidade, interações entre aplicações • Aplicações com perfis muito diferentes convivendo num

mesmo cluster. • Crescimento expressivo no volume de dados e requisições

• Problema: crescimento acelerado da base, administração do banco.

No Início - Então decidimos coletar mais dados - Java, Python e Mysql

V1

Page 10: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

O Problema mudou?

Rever os objetivos

O problema mudou?

Page 11: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

FEYNMAN PROBLEM-SOLVING ALGORITHM

Murray Gell-Mann

“ http://drtomcrick.com/2011/04/26/feynman-problem-solving-algorithm/

Feynman

Page 12: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

FEYNMAN PROBLEM-SOLVING ALGORITHM1. Write down the problem.

Murray Gell-Mann

“ http://drtomcrick.com/2011/04/26/feynman-problem-solving-algorithm/

Page 13: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

FEYNMAN PROBLEM-SOLVING ALGORITHM1. Write down the problem. 2. Think very hard.

Murray Gell-Mann

Page 14: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

FEYNMAN PROBLEM-SOLVING ALGORITHM1. Write down the problem. 2. Think very hard. 3. Write down the answer

Murray Gell-Mann

Page 15: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

+Perguntas+ Dados

+ Clientes+Segmentos

O problema - BI

Page 16: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Processamento de dados

Page 17: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Foco na Inovação e construção da solução Somos uma startup

Page 18: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Manter foco na Inovação Flexível e Escalonável SLA Alto Pagar de acordo com o uso Baixo custo de administração de infra

Objetivos

Page 19: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

A visualização dos dados deve ser clara e objetiva.

Objetivos

Design agrega valor!

Page 20: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Analytics geralGe ral

Page 21: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Analytics detalhes de consumo da mediaVI

DEO

Page 22: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Em altaEM

ALTA

Page 23: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Perfil da audiênciaQUEM

Page 24: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Samba facts Dados de volume do analytics

Page 25: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Small Sharp Tools

Filosofia Unix

Page 26: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETARData Pipeline

PROCESSAR INFORMAR

Data Pipeline - STTM

Sambatech Tracking Model

COLETOR APIPROCESSADOR

Page 27: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

STTM - Solução

Dynamo Amazon SQS

S3Data and Logs

Glacier

COLETOR API

PROCESSADOR

AGREGADOR

SUMARIZADOR

HTTP IN HTTP OUT

EMRData Processing

Page 28: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETARData Pipeline

PROCESSAR INFORMAR

Data Pipeline - STTM

INFORMAR

COLETOR

Page 29: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Coleta de dados - STTM

GET sttm.gif http://sttm.sambatech.com.br/collector/__sttm.gif?sttms=12de2304-74f2-80f0-8b8b-909ec4c4f158&sttmu=123a232saa111kkkk3&sttmm=p07,r07,p08,r08,p09,r09,p10,r10&sttmw=pid:310/cat:5219/mid:b1e9b34ce8f6d8e73d5793a80387967d&sttmk=ae810ebc7f0654c4fadc50935adcf5ec&&sttmsg=org:www.mydomain.com.br&sttmm=play

COLETOR

Response

35 Bytes

Page 30: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR - Objetivos

• Rápido • Simples e Escalável • Confiável e Consistente

Page 31: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR

Page 32: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR

COLETOR

HTTP IN

Logger

Msg Builder

Page 33: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR

COLETOR

HTTP IN

Logger

Msg Builder

Amazon SQS

Page 34: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR

COLETOR

HTTP IN

Logger

Msg Builder

Amazon SQS

S3Data and Logs

Glacier

Page 35: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR

Amazon SQS

S3Data and Logs

Glacier

COLETOR

HTTP IN

Logger

Msg Builder

GIF

Page 36: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETOR

Page 37: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Comunicação

Amazon SQS

• Assincronia e Controle de fluxo • Sem perdas de mensagens • Log de mensagens não processadas. • Escalável sob demanda • Alto SLA • Gerenciado • Custo relativamente Baixo • Não suporta AMQP

Page 38: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETARData Pipeline

PROCESSAR INFORMAR

Data Pipeline

INFORMARPROCESSARCOLETAR

PROCESSADOR

Page 39: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Processador

Dynamo Amazon SQS

PROCESSADOR

AGREGADOR

SUMARIZADOR

EMRData Processing

Page 40: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Agregador

Dynamo Amazon SQS

AGREGADOR

Builder

Msg Agreg

Page 41: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Porque Dynamo

• Baixa Latência • Alta performance • Gerenciado • Escalável • Alto SLA • Multi A/Z • Hot Keys Problem

Dynamo

Page 42: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Agregador

Amazon SQS

AGREGADOR

Builder

Msg Agreg

Page 43: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Agregador

Amazon SQS

AGREGADOR

Builder

Msg Agreg

Auto scaling GroupInstances

APP SrvAgregation

Page 44: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Hot Keys Problem

Dynamo

AGREGADOR

Builder

Msg Agreg

Registro

Writ

es0

27.5

55

82.5

110

Time

1 2 3 4 5 6

Write Capacity

Page 45: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Hot Keys Problem

Dynamo

AGREGADOR

Builder

Msg Agreg

Split Keys

Page 46: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Hot Keys Problem

Writ

es0

27.5

55

82.5

110

Time

1 2 3 4 5 6

Write Capacity

Dynamo

AGREGADOR

Builder

Msg Agreg

Split Keys

Page 47: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Hot Keys Problem

Dynamo

AGREGADOR

Builder

Msg Agreg

Split Keys

Tabelas Diarias

Page 48: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Processador

Dynamo Amazon SQS

PROCESSADOR

AGREGADOR

SUMARIZADOR

EMRData Processing

Page 49: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Sumarizador

Dynamo

EMRData Processing

Sumarizador

Page 50: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

!

• Escalável • Controle de Custos • Managed • Hadoop como serviço • Map Reduce Engine • Bom gerenciamento de capacidade • Integração com S3 e Dynamo

EMRData Processing

Porque EMR

Page 51: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Diarias

Dynamo EMRData Processing

Sumarizador

Load

Sumarizador

Page 52: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Diarias

Dynamo EMRData Processing

Sumarizador Merge Keys

Sumarizador

Jobs

Page 53: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Sumarizadas Minutos

Horas

Dynamo EMRData Processing

Sumarizador

Save

Sumarizador

Page 54: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

1. Run job 2. Find Bottoleneck 3. Optimize

Sumarizador

Dynamo

EMRData Processing

Sumarizador x/diaNetwork

Page 55: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Sumarizador

Dynamo

EMRData Processing

Sumarizador

Alive Cluster

x/dia

Page 56: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Conhecer bem o problema e os dados é essencial.

Otimizações locais são eficientes!

Page 57: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

COLETARData Pipeline

PROCESSAR INFORMAR

Data Pipeline

INFORMARINFORMARCOLETAR

API

Page 58: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

API - Rest

Dynamo

API

CDN

Page 59: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Analytics - Solução

Page 60: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

RECAP

Dynamo Amazon SQS

S3Data and Logs

Glacier

COLETOR API

PROCESSADOR

AGREGADOR

SUMARIZADOR

HTTP IN HTTP OUT

EMRData Processing

Page 61: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Lições aprendidas

As aplicações são focadas, pequenas e conectadas por uma fila ou datastore.

O output de uma é input para a outra.

Page 62: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Cus

to

0

0.25

0.5

0.75

1

Latência (H)

0 1 3 6 12 24

100%

57%46%

40% 38% 37%

Latência vs Custo

Custo estimado Por Requisição

Latência vs Custo

Page 63: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Custo

0

0.25

0.5

0.75

1

Latência(H)

0 1 3 6 12 24

100%

57%

46%40% 38% 37%

Latência vs Custo

Custo estimado Por Requisição

Latência vs Custo

Page 64: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

Manter foco na Inovação Flexível e Escalonável SLA Alto Pagar de acordo com o uso Baixo custo de administração de infra

Objetivos

Page 65: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

• Soluções gerenciadas ajudam a manter o foco no problema, mas podem trazer limitações inesperadas.

• Arquitetura flexíveis ajudam a responder rapidamente a limitações.

!

!!

COnclusão

Page 66: Samba Tech Analytics: Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala

LIDIO RAMALHO, [email protected]!

@lidioramalho