Cientista de Dados

55
Cientista de Dados Rodrigo Senra O que faz ? Quem é ? Como faz ? Por que é importante ?

Transcript of Cientista de Dados

Page 1: Cientista de Dados

Cientista de DadosRodrigo Senra

O que faz ?Quem é ?

Como faz ?Por que é importante ?

Page 2: Cientista de Dados

Apenas um rapaz latino americano...

• Engenheiro de Software • GPr Sistemas (11 anos) • HI Tecnologia (5 anos)

• Professor Universitário - PUC-Campinas (2 anos)

• Especialista - globo.com (2 anos)

• Cientista Pesquisador - EMC2

• Engenheiro de Computação Grad-MSc-PhD IC-Unicamp

• Entusiasta de FLOSS(atuante na comunidade Python desde 2000)

Page 3: Cientista de Dados

Quem está aí ?

• Estudantes ?

• Profissionais

• Professores ?

• Palestrantes ?

• Cientistas de Dados ?

Page 4: Cientista de Dados

Cientista de DadosRodrigo Senra

Quem é ?

Por que é importante ?

Page 5: Cientista de Dados
Page 6: Cientista de Dados

fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011

20090.8 Zettabytes CRESCIMENTO

DA INFORMAÇÃO

2020

44X

MAIOR35.2 ZB

IN 2010 THE DIGITAL UNIVERSE WAS

1.2 ZETTABYTES1,200,000,000,000,000,000,000

Zetta Exa Peta Tera Giga Mega Kilo Byte

fonte: http://thehumanfaceofbigdata.com/

Page 7: Cientista de Dados
Page 8: Cientista de Dados

http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8

Page 9: Cientista de Dados

• ︎Government-to-citizen (G2C)• Government-to-employee (G2E)• Government-to-business (G2B) • Government to-government (G2G)

Page 10: Cientista de Dados

Cientista de DadosRodrigo Senra

O que faz ?Quem é ?

Page 11: Cientista de Dados

Data Science is a newly emerging field dedicated to analyzing and manipulating data to derive insights and build data products.

https://beta.oreilly.com/ideas/what-is-data-science

It combines skill-sets ranging from computer science, to mathematics, to art.

http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg

Page 12: Cientista de Dados
Page 13: Cientista de Dados

http://drewconway.com/

Page 14: Cientista de Dados

http://berkeleysciencereview.com/scientific-collaborations-uc-berkeley-data-driven-cover/

Page 15: Cientista de Dados

Estatísticas descritivas: ! Média vs. Mediana. ! Desvio Padrão ! Quartis, Min/Max. ! Correlação entre variavéis

1X y

10.00 8.048.00 6.95

13.00 7.589.00 8.81

11.00 8.3314.00 9.96

6.00 7.244.00 4.26

12.00 10.847.00 4.825.00 5.68

2x y

10.0 9.148.00 8.1413.0 8.749.00 8.7711.0 9.2614.0 8.106.00 6.134.00 3.1012.0 9.137.00 7.265.00 4.74

3x y

10.0 7.468.00 6.7713.0 12.79.00 7.1111.0 7.8114.0 8.846.00 6.084.00 5.3912.0 8.157.00 6.425.00 5.73

4x y

8.00 6.588.00 5.768.00 7.718.00 8.848.00 8.478.00 7.048.00 5.25

19.00 12.508.00 5.568.00 7.918.00 6.89

Média de x: 9Variância de x: 11

Média exata de y: 7.5 (2 d.p)Variância de y: 4.13 (to 2 d.p)

Correlação entre x e y : 0.816Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !

Page 16: Cientista de Dados
Page 17: Cientista de Dados
Page 18: Cientista de Dados
Page 19: Cientista de Dados
Page 20: Cientista de Dados
Page 21: Cientista de Dados
Page 22: Cientista de Dados
Page 23: Cientista de Dados
Page 24: Cientista de Dados
Page 25: Cientista de Dados
Page 26: Cientista de Dados
Page 27: Cientista de Dados
Page 28: Cientista de Dados
Page 29: Cientista de Dados

Cientista de DadosRodrigo Senra

Como faz ?

Page 30: Cientista de Dados

http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg

Page 31: Cientista de Dados

http://godwincaruana.me/data-science-workflow-overview-and-challenges-cacm/

Page 32: Cientista de Dados

Big Data a cada passo da exploração de petróleo

Navigation

Seismic: Pre-stack

Seismic: Post-stackLog Curves

Culture Data

Geologic Model

Pressure Data

Velocity Data Interpretation

Page 33: Cientista de Dados

Resolução de Problemas

Agrupamento

Page 34: Cientista de Dados
Page 35: Cientista de Dados

Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski

Page 36: Cientista de Dados
Page 37: Cientista de Dados
Page 38: Cientista de Dados
Page 39: Cientista de Dados
Page 40: Cientista de Dados
Page 41: Cientista de Dados
Page 42: Cientista de Dados
Page 43: Cientista de Dados

https://www.kaggle.com

Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the world’s biggest companies through Masters competitions.

Page 44: Cientista de Dados
Page 45: Cientista de Dados

Tools Used By Competitors

Page 46: Cientista de Dados
Page 47: Cientista de Dados
Page 48: Cientista de Dados
Page 49: Cientista de Dados
Page 50: Cientista de Dados
Page 51: Cientista de Dados

http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf

Page 52: Cientista de Dados
Page 53: Cientista de Dados
Page 54: Cientista de Dados
Page 55: Cientista de Dados

Obrigado a todos pela atenção.

Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br [email protected]

@rodsenra

As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.

Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante.

Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações sobre o mesmo tema.