Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
description
Transcript of Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Big Data e Mineração de
Dados
Prof. Paulo Cesar de Carvalho Dias
Sumário Geral
• Parte 1 - Big Data e Mineração de
dados
• Parte 2 - Pós-Graduação em Banco
de Dados e Mineração de Dados
UniSEB
• Parte 4 - Exemplo de aplicação (Prof.
Reginaldo)
BIG DATA
Parte 1 -
Parte 1 - Big Data: Sumário
• O fenômeno e as histórias que a mídia
apresenta
• O que é Big Data.
• Big Data: a infraestrutura
Big Data na Mídia
• Ultimamente há diversas histórias sobre
Big Data:
You Tube: http://youtu.be/LsMt5jp1a9k
Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
http://youtu.be/XH1wQEgROg4
Big Data na Mídia
http://www.fivethirtyeight.com/
http://blogs.scientificamerican.com/cocktail-party-physics/2012/11/07/why-math-is-like-the-honey-badger-nate-silver-ascendant/
Big Data na Mídia
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
Os 3Vs do Big Data
• Big Data é qualquer fonte de dados
que possui no mínimo três
características comuns:
– Volume extremamente elevado;
– Velocidade extremamente elevada;
– Variedade extremamente elevada.
Os 3Vs do Big Data
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados...
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
Volume maior de dados...
Fonte: ibm http://www.ibm.com/midmarket/br/pt/img/ssa_img_ibm_bigdata_110612.jpg
Volume maior de dados...
• A quantidade dados aumentou muito
nos últimos anos:
http://monetate.com/infographic/the-retailers-guide-to-big-data/#axzz2HaZVK816
O que gera tanta
quantidade de dados?
• Computadores e dispositivos: informações geradas por máquinas sem a intervenção humana
• Humanos: através de sua interação com as máquinas e computadores
Variedade dos dados: •Dados com comprimento e tipo
definidos.
•Exemplos: números, datas, strings, etc
Dados estruturados
•Dados sem um formato específico.
•Exemplos: imagens de satélite, dados científicos, fotos, vídeos, documentos, mídia social, Web, etc
Dados não estruturados
•Dados que não são aderentes a um esquema fixo mas podem ser auto-definídos.
•Exemplos: JSON, EDI, XML
Dados semiestruturados
Velocidade dos dados
• A revolução das tecnologias de
comunicação aumentou muito a
velocidade de transmissão de dados.
Componentes Tecnológicos
do Big Data
Inte
rfa
ce
s e
alim
en
tad
ore
s d
e/p
ara
in
tern
et
Infraestrutura física redundante
Infraestrutura de segurança
Dispositivos (computadores, notebooks, tablets,
smarphones)
Banco de dados Operacional (estruturado, não
estruturado e semiestruturado)
“Organização” de banco de dados e ferramentas
Datawarehouses e Data Marts analiticos
Relatórios e visualização
Aplicações Big Data
Ferramentas analíticas
Inte
rfac
es e
alim
en
tad
ore
s de
/pa
ra a
plic
aç
õe
s
Infraestrutura física
• Requisitos:
– Desempenho: um parâmetro importante é a
latência e o tempo de resposta.
– Disponibilidade: uptime, tempo médio entre
falhas.
– Escalabilidade: quão fácil a infra estrutura pode
ser ampliada ou reduzida em função da
dinâmica do negócio.
– Flexibilidade: quão rapidamente a infraestrutura
pode ser alterada e recuperar-se de falhas.
– Custo: quer pagar quanto??
Infraestrutura física
• Computação em nuvem pode ser uma boa
alternativa
– Definição de computação em nuvem: é um
método de fornecer um conjunto de recursos
computacionais incluindo aplicativos,
armazenamento, rede, ambientes de
desenvolvimento, plataformas de implantação e
processos de negócio.
Infraestrutura física
• Modelos de computação em nuvem
– Infrastructure as a Service (IaaS): fornecimento
de serviços computacionais incluindo hardware,
rede, armazenamento e espaço em
datacenters por aluguel de recursos.
– Platform as a Service (PaaS): combina IaaS com
um conjunto abstrato de serviços de
middleware, ferramentas de desenvolvimento
de software, ferramentas de implantação as
quais permitem à organização ter um modo
consistente de criar implantar aplicações na
nuvem.
Infraestrutura física
• Modelos de computação em nuvem
– Software as a Service (SaaS): aplicações criadas
e hospedadas por um provedor. O cliente paga
por serviço por usuário em contratos mensais ou
anuais.
– Data as a Service (DaaS): serviço independente
da plataforma que conecta o cliente com a
nuvem para armazenar e recuperar dados.
Infraestrutura física
• Exemplos de nuvens:
Componentes Tecnológicos
do Big Data
Inte
rfa
ce
s e
alim
en
tad
ore
s d
e/p
ara
in
tern
et
Infraestrutura física redundante
Infraestrutura de segurança
Dispositivos (computadores, notebooks, tablets,
smarphones)
Banco de dados operacional (estruturado, não
estruturado e semiestruturado)
“Organização” de banco de dados e ferramentas
Datawarehouses e Data Marts analiticos
Relatórios e visualização
Aplicações Big Data
Ferramentas analíticas
Inte
rfac
es e
alim
en
tad
ore
s de
/pa
ra a
plic
aç
õe
s
Infraestrutura de segurança
• A segurança envolve diversos
aspectos:
– Acesso aos dados
– Acesso aos aplicativos
– Criptografia de dados
– Detecção de ameaças
Infraestrutura de segurança
• A segurança envolve diversos
aspectos:
– Acesso aos dados
– Acesso aos aplicativos
– Criptografia de dados
– Detecção de ameaças
Bancos de dados
operacionais • Bancos de dados relacionais
• Bancos de dados Not Only SQL
(NoSQL)
Bancos de dados
operacionais
• Bancos de dados relacionais
– Dados estruturados
– ACID (Atomicidade, Consistência,
Isolamento e Durabilidade)
Bancos de dados
operacionais • Bancos de dados Not Only SQL
(NoSQL)
– Não são baseados no modelo tradicional de tabelas e chaves dos RDBMs.
– Escaláveis
– Modelos próprios de dados e queries
– Alguns possuem consistência eventual: em vez de ACID e alguns são BASE (Basically Available, Soft state, and Eventual Consistency)
Bancos de dados
operacionais • Bancos de dados Not Only SQL
(NoSQL)
– Banco de dados chave-valor (key-value)
– Banco de dados de documentos
Bancos de dados
operacionais • Bancos de dados Not Only SQL
(NoSQL)
– Banco de dados de grafos:
– Banco de dados espaciais
Bancos de dados
operacionais • Bancos de dados Not Only SQL
(NoSQL)
– Banco de dados em colunas:
HBase é um banco de dados distribuido open-source orientado
a coluna, modelado a partir do Google BigTable e escrito
em Java.
O Hbase tem fácil integração com o Hadoop, sendo assim,
pode utilizar o MapReduce para distribuir o processamento dos
dados, podendo processar facilmente vários terabytes de
dados.
Organização de banco de
dados e ferramentas • Esta parte da infraestrutura captura,
valida e monta vários elementos de
big data em coleções relevantes.
• Tecnologias envolvidas: – Sistemas de arquivos distribuídos.
– Serviços de serialização para persistência de
dados e chamadas remota de procedimentos
– Serviços de coordenação: para possibilitar
aplicações distribuídas.
Organização de banco de
dados e ferramentas • A tecnologia mais conhecida desta
parte do framework é o MapReduce
• MapReduce é um modelo de programação para o processamento
de grandes conjuntos de dados com
um algoritmo distribuído paralelo em
um cluster.
Organização de banco de
dados e ferramentas • Um programa de MapReduce
compreende: – um map () procedimento que realiza a filtragem
e ordenação (como classificação os alunos pelo
primeiro nome em filas, uma fila para cada
nome) e
– Reduce () procedimento que executa uma
operação de resumo (como a contagem do
número de alunos em cada fila, produzindo
freqüências nome).
Organização de banco de
dados e ferramentas • MapReduce:
Organização de banco de
dados e ferramentas
• Apache Hadoop é um framework de software open-source que suporta aplicações intensivas de dados distribuídos, licenciado sob a licença Apache v2.
Organização de banco de
dados e ferramentas
• Ele suporta a execução de aplicações em grandes aglomerados de hardware commodity.
• Hadoop MapReduce foi obtido a partir do Google e do sistema de arquivo do Google (GFS).
Mineração de dados
• Mineração de dados envolve a exploração e análise de grande
quantidade de dados com o objetivo
de encontrar padrões
Mineração de dados
• Mineração de dados utiliza técnicas
estatísticas e de inteligência artificial.
• O objetivo da mineração de dados
pode ser feita para:
– Classificar elementos de um conjunto de
dados.
– Prever valores de variáveis aleatórias.
Mineração de dados
• Mineração de dados utiliza técnicas
estatísticas e de inteligência artificial.
• O objetivo da mineração de dados
pode ser feita para:
– Classificar elementos de um conjunto de
dados.
– Prever valores de variáveis aleatórias.
Mineração de dados
• Exemplos de algoritmos utilizados na mineração de dados:
– Árvores de classificação
– Regressão logística
– Redes neurais
– Técnicas de agrupamento (clustering)
PÓS-GRADUAÇÃO EM BANCO
DE DADOS E MINERAÇÃO DE DADOS UNISEB
Parte 2 -
Introdução
• Justificativa do curso:
– Grande número de empresas de software
na região;
– Crescimento do setor e grande demanda
por profissionais qualificados na área de TI;
– Aumento da concorrência entre as
empresas que necessitam de profissionais
cada vez mais capacitados e atualizados
43
Objetivo do curso
• Geral:
– O UNISEB COC formará especialistas na área de Banco de Dados e Mineração de Dados com domínio da técnica e capacidade de identificar problemas, oportunidades e propor soluções
inovadoras para o armazenamento, disponibilização e mineração de dados de empresas de pequeno, médio e
grande porte.
44
Metodologia:
• Aulas Teóricas: – Serão expositivo-dialogadas e utiliza-se das
técnicas de dinâmicas de grupo, estudo dirigido e seminários, sempre articulando os saberes teóricos aos saberes práticos dos atores envolvidos no processo.
– Para apoio do curso existe um ambiente virtual em que algumas informações e material bibliográfico são disponibilizados, além da possibilidade do agendamento de chat.
• Aulas Práticas: – Aulas práticas serão desenvolvidas em sala de
aula e laboratório de informática.
45
Pós-Graduação em Banco de Dados e Mineração de Dados
• Contato comercial: 3603-9803
EXEMPLO DE APLICAÇÃO
(PROF. REGINALDO)
Parte 3 -