Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

27
Plataforma de BigData da Globo. com (Sistema de Recomendação) Experiência de desenvolvimento Ciro Cavani Personalização Globo.com Rio BigData Meetup 21/10/2014

description

A proposta dessa palestra é fundamentar alguns conceitos de BigData e explorar a dinâmica de como tratar um grande volume de dados para extrair valor. A ideia é apresentar a solução de dados na Plataforma de BigData da Globo.com usada pelo Sistema de Recomendação e comentar a experiência do seu desenvolvimento.

Transcript of Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Page 1: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Plataforma de BigData da Globo.com (Sistema de Recomendação)

Experiência de desenvolvimento

Ciro CavaniPersonalização

Globo.com

Rio BigData Meetup 21/10/2014

Page 2: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Sobre mim...● Final da Geração X ● Engenharia de Computação no ITA● Startup Mercado Financeiro, PeixeUrbano● Globo.com, Personalização● PUC-RJ

Page 3: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Globo.com e BigData?BigData é a tecnologia que permite tratar um grande volume de dados para produção de valor, conhecimento.

A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo.

O time de Personalização desenvolve a Plataforma de BigData usada no Sistema de Recomendação para captura de dados e analise do perfil dos usuários.

BigData agora é uma prioridade na Globo.com como uma nova área da empresa que deve crescer e desenvolver novos Produtos de Dados.

Page 4: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Page 5: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Page 6: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Page 7: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Page 8: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Page 9: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Agenda1. Recomendação

(problema)2. Plataforma de Dados

(solução)3. Produção de Valor

(visão)

Page 10: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Agenda1. Recomendação

(problema)2. Plataforma de Dados

(solução)3. Produção de Valor

(visão)

Page 11: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

ExpectativaAumentar a permanência do usuário no site, aumentar o número de páginas consumidas, aumentar o engajamento do usuário (comentários, compartilhamentos, …)Ser capaz de personalizar o conteúdo da Globo.com em diversos Produtos, de forma contextualizada.

Como a gente resolve esse problema? é BigData?

Page 12: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

RecomendaçãoFiltrar o que é relevante para o Usuário.Modelagem de Usuário, Conteúdo, Contexto.Avaliação da Recomendação.

InspiraçãoNetflix, Google News, New York Times, LinkedIn, Amazon

Page 13: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

UsuárioIdentidade.Conhecimento sobre o Usuário.Gostos, Interesses, Mudanças.

O que é relevante para um Usuário?

Page 14: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

ConteúdoJornalismo, Esporte, Pessoas, Eventos, Vídeos, Filmes, Publicidade…

Qual a dinâmica desse conteúdo? Quais características são mais relevantes? Como usar esse conhecimento?

Page 15: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Recomendação é BigData?Dados sobre milhões de Usuários com acessos diários (implícito e explícito), histórico.Dados sobre milhares de Documentos produzidos todo dia, metadados.Algoritmos de Recomendação cruzando grande parte desses dados, produzindo modelos.

Page 16: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Agenda1. Recomendação

(problema)2. Plataforma de Dados

(solução)3. Produção de Valor

(visão)

Page 17: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Plataforma de DadosComo armazenar grande quantidade de dados e ainda fazer processamento intensivo com esses dados?Como capturar cada interação que os milhões de usuários fazem nos sites e ainda reagir ‘instantaneamente’?Como validar e ter ‘certeza’ de que as mudanças estão melhorando as métricas?

Page 18: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

HadoopHadoop2 é dois sistemas:● HDFS, sistema de

arquivos distribuído;● YARN, sistema de

execução distribuído.

HBase, Pig, Mahout, Solr

imagem: http://hortonworks.com/hadoop/yarn/

Page 19: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

KafkaCluster de distribuição de mensagens (bilhões de mensagens por dia) criado pelo LinkedIn.

O Kafka se destaca em: Performance - alto throughput (recebimento, consumo); Escalabilidade - muitos consumidores, isolamento entre consumidores; Mensagens pequenas, não estruturadas / opacas (bytes).

image: http://hortonworks.com/hadoop/kafka/

Page 20: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

AB

Teste A/B, Monitoramento de desempenho dos algoritmos em Produção

Page 21: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

MOEMOE (Metric Optimization Engine) is an efficient way to optimize a system’s parameters, when evaluating parameters is time-consuming or expensive.

How does MOE work?1. Build a Gaussian Process (GP)

with the historical data2. Optimize the hyperparameters

of the Gaussian Process3. Find the point(s) of highest

Expected Improvement (EI)4. Return the point(s) to sample,

then repeat

image: http://yelp.github.io/MOE

Page 22: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Agenda1. Recomendação

(problema)2. Plataforma de Dados

(solução)3. Produção de Valor

(visão)

Page 23: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Produção de ValorAgora que você existe, me fale dos seus problemas?

Compartilhando a Plataforma de BigDataConsulta Ad-hoc e Interativa aos DadosFomentando Novos Produtos de Dados

Page 24: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Hadoop como ServiçoIsolamento entre AplicaçõesConsulta interativa a DadosFront-end Amigável (Não-programadores)

imagem: http://gethue.com/

Page 25: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Sparkhttp://spark.apache.org/Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala and Python, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.

Page 26: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Mais DadosData science is the study of the generalizable extraction of knowledge from data, yet the key word is science. It incorporates varying elements and builds on techniques and theories from many fields(...) with the goal of extracting meaning from data and creating data products.The subject is not restricted to only big data, although the fact that data is scaling up makes big data an important aspect of data science.

fonte: http://en.wikipedia.org/wiki/Data_science

Page 27: Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

Globo.comGostou?

Quer Trabalhar na Globo.com?Estamos Contratando

https://github.com/globocom/IWantToWorkAtGloboCom

[email protected]://www.linkedin.com/in/cirocavani