Slide cebrap
-
Upload
rogerio-barbosa -
Category
Documents
-
view
73 -
download
1
Transcript of Slide cebrap
Estrutura da apresentação
• Big Data– Tendências e definições
•R– Exemplos
•R, Big Data e Ciências Sociais– Possibilidades
Big Data: uma tendência
Mundo• Big data analytics• Data analytics• Hadoop• Hadoop big data• The big data• Big data google• Big data ibm• Big data 2013• Big data oracle• Big data wiki
Brasil• veja big data
Expressões e buscas relacionadas:
Big data: o que é?
1 ZETA BYTE = 1 073 741 824 TB ( 1 bilhão de terabytes≅ )90% dos dados existentes foram produzidos nos últimos 12 meses
Big data: o que é?1. Texto: emails, posts, tweets, notícias, relatórios, artigos
acadêmicos, conteúdo de sites etc.2. Registros da web: informações sobre o acesso (Google Analytics,
Blogger, WordPress, Facebook), tendências das buscas (Google Trends) etc.
3. Dados governamentais: IBGE, saúde (DataSUS), educação (Inep, MEC), Portal da Transparência, Siconv, TSE, CadÚnico, Matriz de Informações Sociais etc. (Lei de Acesso à Informação)
4. Repositórios públicos: CIS, CEM, Observatório das Metrópoles, IpeaData, IPUMs, Amazon Public DataSets (AWS), Freebase, DataVerse,
5. Dados geográficos: mapas (shapes, ruas, imagens), imagens de satélite, coordenadas, endereços etc.
6. Filmes, livros, vídeos caseiros, fotos, quadros, charges…
Big data: o que é?
• Interesses comerciais– Clientes, produtos, perfis de mercado...
• Interesses Políticos– Eleições – Opinião/aprovação– Gestão de políticas
• Interesses acadêmicos– Novas fontes empíricas para pesquisa– Etc...
Big data: Big problem
– Fontes difusas / Múltiplas / Diversas– Periodicidade irregular– Problemas de codificação
• Inconsistência• IDs não padronizados • Dados faltantes (missing)• Dados duplicados
– Falta de controle sobre a produção do dado• Eventuais viéses
– Dificuldade de acesso a fontes não públicas– Operações repetitivas e “infinitas”
Big data: Big problem
Dados, muitos dados…. Lixo, muito lixo…Como tornar útil a informação disponível?
Big data: Capacidade de Análise
Analytics• Infraestrutura– Softwares: SAS, RevolutionR, Hadoop,– Hardware: multicore, servidores,
clusters etc…
• “Capital Humano”– Programação estatística, programação
“mesmo”, alguma iniciação em Exatas… (Fenomeno da TI)
R & Big Data
• Open Source• Ferramentas de análise de dados (estatística)
– Quantidade abrangente de pacotes e funções
• Ferramentas para gerenciar dados• Plataforma de programação (automação)
– Coleta de dados na internet (webscrapping)– Criação de rotinas e funções pelos próprios usuários
• Ampla comunidade (fóruns, grupos, blogs, sites, ajudas on-line, exemplos etc.)