Palestra Ciência de Dados

Post on 23-Jan-2017

20 views 0 download

Transcript of Palestra Ciência de Dados

Muito além dos dados:

Como os Cientistas de Dados estão dominando o mercado global

SobreDiego Cardoso Alves - Linkedin: diegocardosoalves

Engenheiro da Computação pela Unifei-MG

Mestrando em Engenharia da Computação pela Unicamp

Engenheiro de Software no Instituto de Pesquisas Eldorado

Desenvolvedor Android e entusiasta de Ciência de Dados

Artigo publicado na IEEE Services 2016 - San Francisco USA

O que essa palestra NÃO vai ser

★ Não será uma palestra técnica

★ Não será uma palestra motivacional

★ Você não vai sair daqui um Cientista de Dados

O que essa palestra vai ser

★ O que é um Cientista de Dados e qual sua importância

★ Cases envolvendo Ciência de Dados

★ As habilidades esperadas de um Cientista de Dados

★ Onde procurar recursos para ir em busca dessas habilidades

Cientista de Dados

Pessoa que é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.

Cientista de DadosCientista de Dados é um profissional híbrido, um cientista da computação com habilidades de programação , extração e gerenciamento de dados juntamente com um estatístico que sabe como dar sentido a informações supostamente não relacionadas.

Rotina de um Cientista de Dados

Encontrar Problema Buscar Dados Limpar e ExplorarDados

Comunicar Resultados Validar Hipótese Estabelecer

Hipótese

Hipótese Incorreta

Volume de dados

Total de dados sendo capturados e gravados pelas indústrias dobra a

cada 1.2 anos.

A Google sozinha processa em média 40 mil queries por

segundo.

A cada minuto são enviados 204

milhões de emails.

A cada minuto são gerados 1.8 milhões de likes no Facebook e

enviados 278 mil tweets.

Se você gravasse todo conteúdo criado em 1 dia em DVD’s, você

poderia empilhá-los e alcançar a

lua. Obs: 2 vezes.

Youtube recebe 100 horas de vídeo a cada

minuto.

Volume de dados

Filtragem de dados

Desafios

Dados não estruturados

Processamento necessário

Visualização da informação

Privacidade de dados

Importância

Maior precisão

Decisões com mais confiança

Maior eficiência operacional

Redução de custos

Redução de riscos

Mudança de mercado

Novas correlações

Tendências de negócios no local

Prevenção de doenças

Detecção de fraudes

Combate à criminalidade

Recomendações personalizadas

Cases de Ciência de dados

Alemanha, Copa do Mundo ● 12 jogadores

● Parceria SAP e Alemanha

● Análise de dados dos jogadores, performance dos times e estratégias

● Difícil tarefa de analisar dados aparentemente não relacionados

Starbucks vs Consumidor vs Local● Análise de localidade

● Análise de preferências do consumidor

● Estudo de tráfego das ruas

● Possibilidade de abrir nova Starbucks próxima à uma existente.

Apostadores● Análise de apostas de jogos.● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,

jogadores, momentos das partidas que determinados pontos ocorrem.○ Número muito grande de informações e conexões entre as mesmas.○ Dados sendo atualizados em tempo real.

● Bons modelos trazem chance de retorno nas apostas maior do que zero.● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos

de predição de resultados.

● 25% dos americanos possuem múltiplas doenças crônicas.

● Pessoas com múltiplas doenças crônicas tem risco maior de mortalidade e de má-qualidade de vida.

● Philips tem investido cada vez mais na coleta de dados sobre as pessoas e do ambiente.

● Dados detalhados obtidos em tempo real (paciente e ambiente) dão uma visão completa sobre o estado do paciente e permite ao médico dar um melhor diagnóstico.

Philips HealthCare

Rede de hotéis utiliza Data Science para aumentar reservas

Rede de hotéis utiliza Data Science para aumentar reservas

● Informações de clima● Informações de cancelamentos de

vôos● Hora do dia● Localização de hotéis e aeroportos● Condições de tráfego

Seguradoras● Análise de fraude de clientes em tempo real● Mais informações sobre as pessoas e conexões do que antigamente ● Diversas fontes de informações● Perda financeira para a seguradora muito menor

Spotify● Milhões de usuários

● Análise de preferências do consumidor

● Recomendação de playlists e lançamentos

● Predição dos ganhadores do Grammy Awards.

○ 4 de 6 ganhadores

Netflix● “Existem 33 milhões de

diferentes versões do Netflix.”

● Comportamento de uso para cada usuário.

● Recomendação de filmes e séries baseado no histórico e correlação entre usuários.

● Predição das atividades futuras dos usuários.

Netflix● Quando você pausa e retorna.● Quais dias você assiste.● Quais horários você assiste.● Onde você assiste.● Quando você para de assistir a

uma série.● Tempo que leva para procura

de um filme e qual o comportamento nesta procura.

● Melhores categorias que você gosta de assistir.

• Interesse em determinar em qual estágio da gravidez estavam seus clientes.

• Dependendo do estágio, determinados itens são mais procurados do que outros.

• Uma semana de gravidez faz diferença, ou seja, precisão é importante.

• Modelos para obter um melhor retorno com cupons de desconto.

• Grande número de dados tanto estruturados quanto não estruturados.

• Pró: Entregar ofertas altamente direcionadas.

• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam enviando para ela cupons para roupas de bebê e berços?!?!”

• A filha estava realmente grávida, mas o pai não sabia.

Quais habilidades para um Cientista de dados ?

E onde posso encontrá-las ?

Habilidades

Habilidades:

Programação

Linguagens

Linguagem feita para estatísticos.

Amplamente usada no meio acadêmico.

Forte no mercado, recebe grandes investimentos.

Diversas bibliotecas estatísticas prontas, facilita parte da análise

R

Linguagens

Versátil e fácil de aprender.

Comunidade muito forte de bibliotecas gerais.

Fácil para análise e produção.

Python

Linguagens - Recursos

Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers Data Camp - Intro to R | Coursera - R Programming | R-Cookbook

Especialização Python ( Universidade de Michigan) | Python (CodeAcademy) | Python Class (Google) | Codewars, Codility, HackerRank

R

Python

Banco de Dados

Grande disponibilidade de SGBD.

PostgreSQL, MongoDB, MySQL, etc

SQL vs NoSQL

Databases | SQL Tutorial

Aquisição e Limpeza de dados

80% do processo é gasto entre aquisição e limpeza de dados

Inconsistência de dados é algo comum

Sem dados não há Ciência de Dados

Model Building and Validation | Cleaning data in R | Data Mining

Machine Learning

Permite criar modelos complexos e poderosos.

Sistemas de recomendação, Aprendizado Dinâmico.

Redes Neurais, KNN, Máquinas de vetor suporte.

Intro to Machine Learning | Supervised ML | Unsupervised ML | Machine Learning especialization | Machine Learning

Algoritmos

Eficiência faz diferença !

Saber implementar algoritmos paralelizáveis.

Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) | Especialização (UC San Diego)

Habilidades:

Estatística & Matemática

Distribuição e Otimização

Saber qual distribuição representa melhor o problema.

Fatoração matricial.

Autovalores e autovetores.

Métodos para minimizar uma função específica.

MIT - Linear Algebra | Convex Otimization | Intro to Statistics

Visualização de Dados

Comunicação de resultados.

Representação mais que duas dimensões.

Representação de diversas variavéis.

Udacity - Data Visualization and D3.js | Flowing Data

Visualização de Dados

Conhecimento de Domínio

Mercado Financeiro

Saúde

Ecologia

Marketing

LogísticaPsicologia

PolíticaBiologia

Esportes

Correlação não é Causalidade !

Faço graduação, como ter tempo?

Adapte seu currículo !

Concluindo

Um cientista de dados é um generalista, não um especialista

Muitas habilidades não triviais para estudar.

Inúmeras oportunidades de criar impacto.

Extremamente desafiador, muito divertido.

É preciso ir além do comum !

Dúvidas?

Obrigado!

Contato: diegocardalves@gmail.com