Cientista de Dados

Post on 31-Jul-2015

1.092 views 3 download

Transcript of Cientista de Dados

Cientista de DadosRodrigo Senra

O que faz ?Quem é ?

Como faz ?Por que é importante ?

Apenas um rapaz latino americano...

• Engenheiro de Software • GPr Sistemas (11 anos) • HI Tecnologia (5 anos)

• Professor Universitário - PUC-Campinas (2 anos)

• Especialista - globo.com (2 anos)

• Cientista Pesquisador - EMC2

• Engenheiro de Computação Grad-MSc-PhD IC-Unicamp

• Entusiasta de FLOSS(atuante na comunidade Python desde 2000)

Quem está aí ?

• Estudantes ?

• Profissionais

• Professores ?

• Palestrantes ?

• Cientistas de Dados ?

Cientista de DadosRodrigo Senra

Quem é ?

Por que é importante ?

fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011

20090.8 Zettabytes CRESCIMENTO

DA INFORMAÇÃO

2020

44X

MAIOR35.2 ZB

IN 2010 THE DIGITAL UNIVERSE WAS

1.2 ZETTABYTES1,200,000,000,000,000,000,000

Zetta Exa Peta Tera Giga Mega Kilo Byte

fonte: http://thehumanfaceofbigdata.com/

http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8

• ︎Government-to-citizen (G2C)• Government-to-employee (G2E)• Government-to-business (G2B) • Government to-government (G2G)

Cientista de DadosRodrigo Senra

O que faz ?Quem é ?

Data Science is a newly emerging field dedicated to analyzing and manipulating data to derive insights and build data products.

https://beta.oreilly.com/ideas/what-is-data-science

It combines skill-sets ranging from computer science, to mathematics, to art.

http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg

http://drewconway.com/

http://berkeleysciencereview.com/scientific-collaborations-uc-berkeley-data-driven-cover/

Estatísticas descritivas: ! Média vs. Mediana. ! Desvio Padrão ! Quartis, Min/Max. ! Correlação entre variavéis

1X y

10.00 8.048.00 6.95

13.00 7.589.00 8.81

11.00 8.3314.00 9.96

6.00 7.244.00 4.26

12.00 10.847.00 4.825.00 5.68

2x y

10.0 9.148.00 8.1413.0 8.749.00 8.7711.0 9.2614.0 8.106.00 6.134.00 3.1012.0 9.137.00 7.265.00 4.74

3x y

10.0 7.468.00 6.7713.0 12.79.00 7.1111.0 7.8114.0 8.846.00 6.084.00 5.3912.0 8.157.00 6.425.00 5.73

4x y

8.00 6.588.00 5.768.00 7.718.00 8.848.00 8.478.00 7.048.00 5.25

19.00 12.508.00 5.568.00 7.918.00 6.89

Média de x: 9Variância de x: 11

Média exata de y: 7.5 (2 d.p)Variância de y: 4.13 (to 2 d.p)

Correlação entre x e y : 0.816Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !

Cientista de DadosRodrigo Senra

Como faz ?

http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg

http://godwincaruana.me/data-science-workflow-overview-and-challenges-cacm/

Big Data a cada passo da exploração de petróleo

Navigation

Seismic: Pre-stack

Seismic: Post-stackLog Curves

Culture Data

Geologic Model

Pressure Data

Velocity Data Interpretation

Resolução de Problemas

Agrupamento

Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski

https://www.kaggle.com

Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the world’s biggest companies through Masters competitions.

Tools Used By Competitors

http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf

Obrigado a todos pela atenção.

Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rodsenra@gmail.com

@rodsenra

As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.

Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante.

Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações sobre o mesmo tema.