Apache Hadoop - Introdução

Introdução

Apache Hadoop

Anne KellyDiógenes Peçanha

Glauco Vinicius

16 de Novembro de 2010

Tópicos

Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas

Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo

90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final

00's ???

O que é NoSQL?

Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal

O que é Hadoop?

Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de

dados através de computadores 'commodity'.

Dois principais componentes

HDFS Map/Reduce

Tolerância a falhasProcessamento distribuído

Auto-recuperaçãoAlto consumo de banda

Armazenamento em cluster

O que torna o Hadoop especial?

Máquinas são confiáveis

Máquinas possuem identidades

Sua análise permanece em apenas uma máquina

Como isso é possível?

Componentes

NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do

NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)

O Modelo de Map/Reduce

Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante

Hands on

O que é Hive?

Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces

próprios Ótimo para processamento em lote de

dados imutáveis

O que Hive não é?

Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL

Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time

Hive

Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados

Hands on

Dúvidas?

Referências

Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/

http://hadoop.apache.org/

http://www.cloudera.com/

Obrigado!

Apache Hadoop - Introdução

Technology

Transcript of Apache Hadoop - Introdução