BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google...
Transcript of BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google...
![Page 2: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/2.jpg)
Histórico
• Data Mining
• Big Data
• Data Science
![Page 3: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/3.jpg)
Big Data: motivação
![Page 4: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/4.jpg)
Big Data: conceitos
• 4v’s do Big Data
Vo
lum
e • Grande escala
• Gigabytes -> Terabytes -> Petabytes
Vel
oci
dad
e • Dados gerados rapidamente
• Tempo real
• Sensores Var
ied
ade
• Diferentes formas
• Estruturado
• Não estruturado
• Texto
• Multimídia
Ver
acid
ade • Incerteza
• Imprecisão
![Page 5: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/5.jpg)
Big Data: quem está fazendo
• Empresas
• Produto em destaque
![Page 6: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/6.jpg)
Apache Hadoop
• Hadoop é um framework que permite o processamento distribuído de grandes bases de dados através de clusters usando modelos de programação simples.
• Breve Histórico – 2003-2004: Google lança Map Reduce e GFS
– 2005: MR e DFS implementados por Doug Cutting
– 2006: Hadoop se torna um projeto Apache
– 2011: Apache disponibiliza Hadoop 1.x (HDFS + MR)
– 2013: Apache lança Hadoop 2.x (HDFS + MR + YARN)
![Page 7: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/7.jpg)
Apache Hadoop
• O Hadoop é dividido em quatro módulos:
– Common: utilitários que auxiliam os outros módulos
– HDFS: sistema de arquivo distribuído do Hadoop
– MapReduce: processamento paralelo de grandes bases de dados
– YARN: agendamento de jobs e gerenciamento de recursos do cluster
![Page 8: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/8.jpg)
Hadoop Distributed File System (HDFS)
• Sistema de arquivo distribuído de alta disponibilidade
![Page 9: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/9.jpg)
Yarn/MapReduce
• Ao executar um job no Hadoop, ele o divide entre os nós que podem executá-lo naquele momento.
• Processamento
distribuído
![Page 10: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/10.jpg)
Ecossistema Hadoop
Hive: DW distribuído, que gerencia os dados armazenados no HDFS e provê uma linguagem de consulta parecida com o SQL
Hbase: BD NoSQL distribuído em tabelas muito grandes orientadas a colunas
Pig: executa fluxo de dados usando a linguagem script Pig Latin para explorar dados
Mahout: biblioteca de aprendizado de máquina, incluindo várias implementações
![Page 11: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/11.jpg)
Outros projetos
Cassandra: banco de dados distribuído altamente escalável
Spark: mecanismo geral e rápido para processamento de dados em grande escala
MongoDB: aplicação de alto desempenho, sem esquemas, orientada a documentos
Neo4j: banco de dados de grafos altamente robusto e escalável
![Page 12: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/12.jpg)
Ecossistema Hadoop
• O Hadoop fornece uma base para usar os outros projetos sobre ele
![Page 13: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/13.jpg)
Futuro
![Page 14: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/14.jpg)
Proativa
• Startup de base tecnológica que pesquisa, desenvolve e comercializa soluções em mineração de dados e Big Data.
• Softwares de auxílio à tomada de decisão em processos de negócio complexos
![Page 15: BIG DATA: Uma Visão Geral · Apache Hadoop •Hadoop é um framework que permite o ... Google lança Map Reduce e GFS ... mineração de dados e Big Data.](https://reader031.fdocumentos.com/reader031/viewer/2022022715/5c0db07b09d3f258548be86b/html5/thumbnails/15.jpg)
Plataforma TARGET – Seleção de Alvos
Tecnologia: machine learning para extração de características e classificação de padrões
TARGET – Seleção de Alvos