Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
-
Upload
bruno-rocha -
Category
Software
-
view
1.297 -
download
1
Transcript of Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
brunorocha.org
Data DeveloperTrabalhando com Data Science
não sendo um cientista!
DATA MINING
MACHINE LEARNING
DATA MATCHING
BIG DATA
RECOMMENDATION
NLP
REST APITEXT PARSING
brunorocha.org
Data ScienceUai, que trem é esse?
brunorocha.org
A lenda da fralda e da cerveja
brunorocha.org
Um funcionário do WalMart notou que a venda de fraldas descartáveis estava associada à de cerveja.
Ele notou que os compradores homens, que saíam à noite para comprar fraldas, aproveitavam para levar algumas latinhas para casa.
Ele sugeriu que os produtos fossem postos lado a lado. Resultado: a venda de cervejas disparou durante as noites.
brunorocha.org
Um funcionário do WalMart notou…
- Não escala- Não distribui- Não tem precisão- ...
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
- Passivo- Manual (Dependente do Analista)
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
- Passivo- Manual (Dependente do Analista)
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
- Passivo- Manual (Dependente do Analista)- Muito útil e relevante mas não
resolve todos os problemas
- Crawling- Mining- Parsing- APIs- Notebooks- Algoritmos- ML- Linguagens- BigData
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A
Grande quantidade de sinais a serem analisados.
- Local do produto- Local da entrada- Tamanho do carrinho
- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...
Entrada B
brunorocha.org
SupermercadoEntrada A
Features e sinais:
- Local do produto- Local da entrada- Tamanho do carrinho
- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...
Entrada B
brunorocha.org
Data Science é sobre encontrar, classificar e correlacionar padrões em um conjunto de dados e utilizar essas análises de dados para:
- Business Inteligence- Monitoramento- Análises preditivas- Recomendações- Detecção de novas combinações e novos padrões- Dominar o mundo- Acabar com a fome mundial- Curar doenças- ...
brunorocha.org
Data Science is not always evil
Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html
- Triagem médica- Correlação entre exames - Recomendação de tratamentos- Detecção e predição de epidêmias- Otimização da fabricação de medicamentos e equipamentos- Diminuição/Abolição de testes em animais- Gerenciamento de desastres- Diagnóstico inteligente- Monitoramento e preservação ambiental- Recomendar filmes legais no NetFlix- Recomendar a próxima empresa em que você pode trabalhar!
brunorocha.org
Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is Learning
brunorocha.org
"Dadólogo"Ciência dos dados
Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is LearningBiólogoCiência da Vida
=
brunorocha.org
"Dadólogo"Ciência dos dados
Dadólogo é um termo feio, mas soa melhor do que "cientista de dados", não??
Ou você já viu um "podólogo" ser chamado de cientista de pés?
brunorocha.org
O Data ScientistIn god we trust: All others bring data!
● Profissional cientista das áreas de estatística, matemática, fisica, computação.● Conhecimentos teóricos avançados e boa desenvoltura prática em computação.● Mestre das estruturas de dados.● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century/ ● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A
(2015).● Requisitado em todas as industrias de Startups a MultiNacionais.● Sobram vagas e faltam profissionais qualificados e interessados.
brunorocha.org
O quê que o Python tem a ver com isso?
brunorocha.org
Other languages in Data Science- R- Julia- Scala- Java- Lua/Torch- Matlab- Go- ...
brunorocha.org
So…
Why Python?UAI
brunorocha.org
brunorocha.org
Python pode ser usada em todas as etapas do trabalho, desde a captura de dados até a apresentação das análises!
brunorocha.org
Coletar:
Armazenar:
Apresentar:
Automatizar, escalar, distribuir:
SQL*
Agregar, Consultar e Analisar:
NLP NER
brunorocha.org
O Dilema do Full Stack Developer
O desenvolvedor supermanque "em teoria" resolve todos os problemas end-to-end mas ninguém sabe quando ele vai sair voando ou se vai morrer no final.
brunorocha.org
O Dilema do Ben 10 Developer
OU
Que se transforma em mais de 10 monstros para tentar resolver problemas mas acaba tendo crises de identidade durante o projeto.
brunorocha.org
X
Trabaia pa carai…. ou …. ficá di boa?
ou melhor! Contar com ajuda para fazer as duas coisas!
brunorocha.org
- Devops (infra, provisionamento, monitoramento, escalabilidade, cloud)- Engenharia e Arquitetura- Web, APIs e integrações- Project Leadership- Data Mining- Database Administration- P & D- Data Science Algorithms- Fazer café- Atender telefone- Vender- …- candidatos??
brunorocha.org
O Homer Simpsom Developer
Doh… achei que seria mais fácil e que eu ia dar conta de entregar tudo em X dias….
O que eu faço agora? qual banco de dados eu uso? qual linguagem é melhor? VI ou Emacs???
brunorocha.org
Multitask nunca funciona para o desenvolvedor de software ou para o Cientista de Dados!
Melhor manter o foco e priorizar a qualidade de vida!
brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
Engenharia DevOps Project Leadership
Web APIs Testes Automação …..
brunorocha.org
brunorocha.org
Especialização é bom para todos!!!
- Foco = Qualidade- Tempo livre = qualidade de vida- Melhora o mercado de trabalho- Evita retenção de know how
brunorocha.org
Formação do time de Data ScienceAtenção: Contém slides gentilmente roubados do http://pt.slideshare.net/rodsenra
brunorocha.org
brunorocha.org
brunorocha.org
DevOps
brunorocha.org
DevOps
brunorocha.org
O Engenheiro de Dados
brunorocha.org
brunorocha.org
SUPERVISORDIPTABLESCRONTMUXNGINXGUNICORN uWSGI
Domine O Sistema Operacional
brunorocha.org
Cloud / PaaS
brunorocha.org
Persistência Poliglota
brunorocha.org
AUTOMAÇÃO, PROVISIONAMENTO, DEPLOY
brunorocha.org
WEB DEVELOPMENT and REST API
brunorocha.org
Engenharia de Software- Design Patterns- Boas práticas (PEP-8, MCCABE)- Testes e CI- Mineração de dados
- Crawling, Parsing (bs, regex, etc..)- VCS- Modularização, Empacotamento- Documentação
brunorocha.org
brunorocha.org http://guidetodatamining.com/
brunorocha.org