Slide cebrap

18
Setembro, 2013 R, Big Data e Ciências Sociais Seminário de integração CEBRAP- SESC

Transcript of Slide cebrap

Setembro, 2013

R, Big Data e Ciências SociaisSeminário de integração CEBRAP-SESC

Estrutura da apresentação

• Big Data– Tendências e definições

•R– Exemplos

•R, Big Data e Ciências Sociais– Possibilidades

Big Data: uma tendência

Google Trends: volume de buscas pela expressão “big data” no mundo

Big Data: uma tendência

Big Data: uma tendência

Google Trends: volume de buscas pela expressão “big data” no Brasil

Big Data: uma tendência

Big Data: uma tendência

Mundo• Big data analytics• Data analytics• Hadoop• Hadoop big data• The big data• Big data google• Big data ibm• Big data 2013• Big data oracle• Big data wiki

Brasil• veja big data

Expressões e buscas relacionadas:

Big data: o que é?

1 ZETA BYTE = 1 073 741 824 TB ( 1 bilhão de terabytes≅ )90% dos dados existentes foram produzidos nos últimos 12 meses

Big data: o que é?1. Texto: emails, posts, tweets, notícias, relatórios, artigos

acadêmicos, conteúdo de sites etc.2. Registros da web: informações sobre o acesso (Google Analytics,

Blogger, WordPress, Facebook), tendências das buscas (Google Trends) etc.

3. Dados governamentais: IBGE, saúde (DataSUS), educação (Inep, MEC), Portal da Transparência, Siconv, TSE, CadÚnico, Matriz de Informações Sociais etc. (Lei de Acesso à Informação)

4. Repositórios públicos: CIS, CEM, Observatório das Metrópoles, IpeaData, IPUMs, Amazon Public DataSets (AWS), Freebase, DataVerse,

5. Dados geográficos: mapas (shapes, ruas, imagens), imagens de satélite, coordenadas, endereços etc.

6. Filmes, livros, vídeos caseiros, fotos, quadros, charges…

Big data: o que é?

Veracity / Validity / Reliability

Big data: o que é?

• Interesses comerciais– Clientes, produtos, perfis de mercado...

• Interesses Políticos– Eleições – Opinião/aprovação– Gestão de políticas

• Interesses acadêmicos– Novas fontes empíricas para pesquisa– Etc...

Big data: Big problem

– Fontes difusas / Múltiplas / Diversas– Periodicidade irregular– Problemas de codificação

• Inconsistência• IDs não padronizados • Dados faltantes (missing)• Dados duplicados

– Falta de controle sobre a produção do dado• Eventuais viéses

– Dificuldade de acesso a fontes não públicas– Operações repetitivas e “infinitas”

Big data: Big problem

Dados, muitos dados…. Lixo, muito lixo…Como tornar útil a informação disponível?

Big data: Big problem

“Big data is not about the data”Gary King

Big data: Capacidade de Análise

Analytics• Infraestrutura– Softwares: SAS, RevolutionR, Hadoop,– Hardware: multicore, servidores,

clusters etc…

• “Capital Humano”– Programação estatística, programação

“mesmo”, alguma iniciação em Exatas… (Fenomeno da TI)

R & Big Data

• Open Source• Ferramentas de análise de dados (estatística)

– Quantidade abrangente de pacotes e funções

• Ferramentas para gerenciar dados• Plataforma de programação (automação)

– Coleta de dados na internet (webscrapping)– Criação de rotinas e funções pelos próprios usuários

• Ampla comunidade (fóruns, grupos, blogs, sites, ajudas on-line, exemplos etc.)

R, Big Data e Ciências Sociais

• Pensar “fora da caixa”: novos dados, novas questões

• Necessidade de novas capacidades

• Velocidade e automação

• Quanti + Quali

• Aproximação de outras áreas de conhecimento