BIG DATA na UFSM

Post on 04-Jul-2015

126 views 34 download

description

Essa apresentação foi exibida na Semana Acadêmica 2014 da UFSM (SAINF 2014). Ela explica o funcionamento do BigData, qual o papel do Apache Hadoop, e como os dados são coletados e analisados pelas grandes companhias de mineração de dados.

Transcript of BIG DATA na UFSM

Luciano Vargas

• Especialista em Governança de TI

• Programador aos 17 anos (Basic, Pascal, C/C++, Clipper, Cobol)

• Experiência em TI Corporativa, programação, arquitetura, infraestrutura, segurança da informação, gerência de projetos, administração de ERP, analista de informações e analista de BI

• Experiência profissional:• CVI Refrigerantes (13 anos)• UNIPAMPA (1 ano)• Consultoria*• DBA Oracle, SQL-Server, DB2 IBM, MySQL• Delphi/Java/PHP/Progress 4GL• Salient Margin Minder/Qlik View

• Geração X - “Adapt or die” (1960-1970)

lucianovar@gmail.com (55)8158-4196

Fonte: http://www.tecmundo.com.br/internet/42483-o-que-acontece-na-internet-em-60-segundos-.htm

http://oglobo.globo.com/infograficos/bigdata/

http://www.ibmbigdatahub.com/tag/587

velocidade, volume, variedade, veracidade (*valor)

Uma investigação, feita pela Universidade de Cambridge, que, após analisar as páginas

do Facebook de 58 mil pessoas, descobriu que pessoas com alto Quociente de Inteligência apre-

ciam a voz do actor Morgan Freeman.

Ninguém sabe por quê.

A análise do Big Data pode estabelecer uma correlação, mas não é capaz de apontar

uma causa.

Moneyball, 2011.

O filme é baseado no livro Moneyball: The Art of Winning an Unfair Game de Michael Lewis, que por sua vez é baseado na história verdadeira de Billy Beane, gerente geral do time de basebol do Oakland Athletics.

Moneyball se foca nas tentativas de Beane de criar um time competitivo para a temporada de 2002 de Oakland, apesar da situação financeira desfavorável da equipe, usando uma sofisticada análise estatística dos jogadores.

http://pt.wikipedia.org/wiki/Moneyball

http://www.baguete.com.br/noticias/29/10/2014/twitter-abre-dados-para-ibm

“Segundo dados divulgados pela rede social esta semana, o Twitter conta com cerca de 284 milhões de usuários ativos.”

“Em caso que vocês se estejam se perguntando porque diabos uma fabricante de fritadoras quer saber do Twitter, a resposta é que a companhia busca queixas sobre batata frita mal feita para poder despachar técnicos para o local.”

“As empresas quiseram ter acesso ao que o consumidor está pensando desde sempre. Com esse acordo, já não será necessário inferir isso.”

Database

X

Escalabilidade (petabytes de dados, milhares de servidores)

Flexibilidade para aceitartodos os formatos de dados (schema)

Eficiência e tolerância a falhas transparente

Hardware/software comocommodity (inexpressivo)

Performance (milhares de índices, tuning, dicionário, storage...)

Regras ACID (Atomicidade, Consistência, Isolamento e Durabilidade)

Tolerância a falhas não é transparente (não-simples)

H/W extremamente significativo!

• Hadoop é um framework de software para processamento distribuído, paralelo e em grade - de dados gigantes em clusters de computadores

• Qual o tamanho?• Datasets gigantes: Terabytes ou petabytes de dados• Clusters gigantes: centenas ou milhares de máquinas!

• Implementação open-source do Google MapReduce

• Utiliza um modelo de programação extremamente simples conhecidocomo “MapReduce”

• É baseado em um modelo “único” de dados, capaz de armazenarqualquer tipo de informação

• Alto nível de abstração tecnológica (ex: driver/S.O/protocolo, etc)

O framework Hadoop framework contém apenas duascamadas:

• Distributed file system (HDFS)• Execution engine (MapReduce)

HDSF = Hadoop Distributed File System. Sistema de arquivos distribuído nativo, embutido na solução. Armazenae sincroniza grandes volumes de dados em hardware barato.

Gigante: cada instância de um nó HDFS pode contercentenas ou milhares de máquinas, cada uma armazenandouma parte dos dados

Replicação: os dados são replicados várias vezes (default é 3)

Falhas: uma falha é um evento normal, não uma exceção

Tolerância a falha: o processo de detecção de falhas é extremamente rápido, e promove recuperação automática(transparente). Essa característica é a mais importante da arquitetura HDFS

Nós: cada nó é constantemente monitorado para detectarfalhas

• Arquitetura de software introduzida pelo Google

• É a combinação de dois processos chamados Map e Reduce

• Implementa programação paralela e distribuída de forma transparente

• No processo Map, o nó mestre recebe a informação, divide-a em subtarefas menores e distribui essas tarefas para nós funcionais. O nó funcional processa essa tarefa menor e devolve a resposta ao nó mestre.

• No processo Reduce, o nó mestre recebe as respostas de todas as subtarefas e as combina de modo a obterem a saída, que é o resultado da tarefa original.

• Vantagem: distribuição do processamento e tolerância a falhas

• É altamente dependente do nó “mestre”, eficiente apenas para volumes de dados muito grandes

SGBD Distribuído Hadoop

Modelocomputacional

- Controle de transações- Transação é a unidade de trabalho

- Controle de tarefas- Tarefa é a unidade de trabalho

Modelo de dados - Dados estruturados com esquema esquema conhecido

- Operações Read/Write- Dados estruturados

- Dados se encaixam em esquema “livre”

- Operação ReadOnly- Dados estruturados ou não

Custo - Servidores caros - Servidores baratos

Tolerância a falhas - Falhas são raras- Mecanismos de recuperação

- Falhas são comuns emmilhares de máquinas

- Tolerância a falhas simples, mas eficiente

Características-chave

- Eficiência, otimização, ajuste fino(tunning)

- Escalabilidade, flexibilidade, tolerância a falhas

Apache Hadoop Foundation - http://hadoop.apache.org/

• BigData favoreceu o cloud computing• Permite administrar o ambiente sem interrupções• Busca e mineração de muita informação em pouco tempo• Simplificou operações (tolerância a falhas/programação paralela)

• Respostas para a coisa “internet”• Ferramenta sempre disponível• Oferece informações relevantes em tempo real• Mais informação, “menos” tecnologia

Conclusão

Artigo: http://www.ibm.com/developerworks/br/linux/library/au-cloud_apache/Yi Ming Huang, Software Engineer, IBMZhao Hui Nie, Software Engineer, IBM

Hitachi Data Systems, 2012Hitachi Data Systems Hadoop Solutionhttp://www.hds.com/solutions/big-data/

Apache Hadoop: conceitos teóricos e práticos, evolução e novas possibilidadesAlfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato e Rosangela de Fátima PereiraBiblioteca Digital Brasileira de Computação: http://www.lbd.dcc.ufmg.br/bdbcomp/servlet/Trabalho?id=12577

Apache Hadoop Foundationhttp://hadoop.apache.org/

Big Data - Como Extrair Volume, Variedade, Velocidade e Valor da Avalanche de Informação Cotidiana. Autores: Cukier, KennethMayer-schönberger, ViktorEdt. CAMPUS, 2013