Apache Hadoop - Introdução

22
Introdução Apache Hadoop Anne Kelly Diógenes Peçanha Glauco Vinicius 16 de Novembro de 2010

description

Apresentação realizada na aula de TIN no dia 16 de novembro de 2010.

Transcript of Apache Hadoop - Introdução

Page 1: Apache Hadoop - Introdução

Introdução

Apache Hadoop

Anne KellyDiógenes Peçanha

Glauco Vinicius

16 de Novembro de 2010

Page 2: Apache Hadoop - Introdução

Tópicos

Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas

Page 3: Apache Hadoop - Introdução

Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo

90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final

00's ???

Page 4: Apache Hadoop - Introdução

O que é NoSQL?

Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal

Page 5: Apache Hadoop - Introdução

O que é Hadoop?

Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de

dados através de computadores 'commodity'.

Page 6: Apache Hadoop - Introdução

Dois principais componentes

HDFS Map/Reduce

Tolerância a falhasProcessamento distribuído

Auto-recuperaçãoAlto consumo de banda

Armazenamento em cluster

Page 7: Apache Hadoop - Introdução

O que torna o Hadoop especial?

Page 8: Apache Hadoop - Introdução

Máquinas são confiáveis

Page 9: Apache Hadoop - Introdução

Máquinas possuem identidades

Page 10: Apache Hadoop - Introdução

Sua análise permanece em apenas uma máquina

Page 11: Apache Hadoop - Introdução

Como isso é possível?

Page 12: Apache Hadoop - Introdução

Componentes

NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do

NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)

Page 13: Apache Hadoop - Introdução

HDFS

Page 14: Apache Hadoop - Introdução

O Modelo de Map/Reduce

Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante

Page 15: Apache Hadoop - Introdução

Hands on

Page 16: Apache Hadoop - Introdução

O que é Hive?

Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces

próprios Ótimo para processamento em lote de

dados imutáveis

Page 17: Apache Hadoop - Introdução

O que Hive não é?

Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL

Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time

Page 18: Apache Hadoop - Introdução

Hive

Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados

Page 19: Apache Hadoop - Introdução

Hands on

Page 20: Apache Hadoop - Introdução

Dúvidas?

Page 21: Apache Hadoop - Introdução

Referências

Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/

Page 22: Apache Hadoop - Introdução

Obrigado!