Big Data Definição, Desafios e Análise de dadosin940/BigData-Victor_Santos.pdf · BIG Data –...
Transcript of Big Data Definição, Desafios e Análise de dadosin940/BigData-Victor_Santos.pdf · BIG Data –...
CIn.ufpe.br
Big Data – Definição, Desafios e Análise de dados
Seminário da disciplina IN940 - Banco de Dados
Aluno: Victor Santos
Professor: Ana Carolina | Fernando Fonseca
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
1 - O que é Big Data? 2 - Impactos do uso de Big Data 3 - Recomendações para Big Data 4 - Tecnologias para Big Data 5 - Análise Big Data 6 - Algoritmos de Mineração de Dados para Big Data 7 - Computação em Nuvem
7.1 - Computação em Nuvem Desvantagens
8 - Hadoop 8.1 - Componentes do Hadoop 8.2 - HDFS 8.3 - Map-Reduce
9 - Oportunidades 10 - Desafios Referências
AGENDA
2
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
O que é Big Date?
3
“Big Data não é um grande data warehouse?”
“Big Data não é apenas um BI em cima de um data set de terabytes de dados?”
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Big Data é um volume de dados muito significativo, porém além desse grande volume de dados outras variáveis importantes fazem a composição do Big Data como:
• Dados coletados de sensores;
• ERPs (enterprise resource planning) – Sistema que integra todos os dados e processos de uma organização em um único sistema.
O que é Big Data?
4
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
O que é Big Data?
5
Valor
Volume
Velocidade
Veracidade Variedade
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Volume – se não houver um volume mínimo de dados como poderemos inferir estatisticamente se as tendências detectadas estão corretas?
Velocidade – a necessidade de obtermos dados, inclusive em tempo real, sua gravação, alteração ou substituição deve ser feito em tempo hábil para que gere ganhos reais. Imagine o transtorno que uma operadora de cartão de crédito teria – e causaria – se demorasse horas para aprovar uma transação de um cliente pelo fato de o seu sistema de segurança não conseguir analisar rapidamente todos os dados que podem indicar uma fraude.
O que é Big Data?
6
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Variedade – é outro aspecto importante. Os dados podem e devem ser tratados conforme sua origem – estruturados e não estruturados. Os dados estruturados são aqueles cuja origem é oriunda de bancos de dados relacionais ou não (Oracle, SQLSERVER, etc.) e de dados esparsos como, por exemplo, vídeos, e-mails, documentos, imagens, etc.
Veracidade – De nada obtermos um alto volume de dados se os mesmos não são confiáveis.
Valor – informação não é só poder, informação também é patrimônio. A combinação “volume + velocidade + variedade + veracidade”, além de todo e qualquer outro aspecto que caracteriza uma solução de Big Data, se mostrará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento.
O que é Big Data?
7
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• McKinsey Global Institute define Big Data como “A intensa utilização de redes sociais online, de dispositivos móveis para conexão à Internet, transações e conteúdos digitais e também o crescente uso de computação em nuvem tem gerado quantidades incalculáveis de dados. O termo Big Data refere-se a este conjunto dedados cujo crescimento é exponencial e cuja dimensão está além da habilidade das ferramentas típicas de capturar, gerenciar e analisar dados”.
O que é Big Data
8
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Big Data
9
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Big Data
10
Ano Arquivo Digitalização
2000 75% 25%
2007 7% 93%
2013 2% 98%
2015 ~0,1% ~99,9%
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Portanto, Big Data = volume + variedade + velocidade + veracidade, tudo agregando +valor.
Big Data
11
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Maior Transparência - A simples disponibilização de muito mais dados, antes
inacessíveis, possibilita que o setor público, por exemplo, cruze informações antes isoladas em silos departamentais, abrindo novas oportunidades de integração e melhoria da gestão das cidades e órgãos.
• Segmentação bem mais precisa da população, chegando ao nível do próprio indivíduo - Com Big Data as fontes de informação se
ampliam consideravelmente. Além disso, podemos chegar ao indivíduo. Capturando dados de rastreamento na Internet podemos inclusive dar outro sentido à palavra “anonimato”. A capacidade cada vez maior de associarmos a identidade da vida real das pessoas com seus hábitos de compra marca uma virada na área de privacidade, desfazendo a fronteira cada vez mais nebulosa entre público o privado.
Impactos do uso de Big Data
12
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Maior potencial de análises preditivas – É possível desenvolver projetos
usando informações coletadas de mídias sociais como Twitter e Google.
• Substituindo/complementando decisões humanas com algoritmos automatizados - Algoritmos sofisticados, suportados por
imensos volumes de dados permitem automatizar diversas funções, como gerenciamento de processos, de tráfego nas ruas e assim por diante.
• Criar novos modelos de negócio - Big Data permite a criação de novos
modelos de negócio baseados no valor das informações armazenadas e analisadas.
Impactos do uso de Big Data
13
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Será que sei realmente o que fazer com a tecnologia? Devo começar analisando os dados para tentar descobrir alguma coisa?
1 - Fazer uma pergunta precisa sobre seu problema e o escopo do problema (quanto mais precisa, mais valiosa será sua resposta)
2 - Que dados serão necessários para que a resposta seja alcançada? Quais os dados realmente disponíveis? Estão dentro de casa ou fora? São acurados? Podem ser utilizados sem nenhuma violação da legislação para sua indústria?
3 - Definir algoritmos e tecnologias necessárias
4 - Implementar, ou seja, gerar dados corretos, operar os algoritmos em cima deles e agir à luz dos resultados obtidos
Recomendações para Big Data
14
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• NoSQL Databases
MongoDB, CouchDB, Cassandra
• Map Reduce
Hadoop, Hive, Pig
• Storage
S3, Hadoop Distributed File System
• Servers
EC2, Google App Engine
• Processing
R, Yahoo! Pipes
• NLP NL Toolkit, OpenNLP
• Machine Learning WEKA, Mahout
• Visualization Gephi, GraphViz
• Serialization JSON, BSON
Tecnologias para Big Data
15
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Processamento centralizado não é adequados para Big Data;
• Objetivo: elencar um conjunto de boas práticas para que esses algoritmos sejam modificados e satisfatórios para o contexto de Big Data.
Análise em Big Data
16
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• 1º passo – Utilizar paralelismo e o paradigma de “dividir para conquistar”, uma forma de alcançar isso é fazer uso do MapReduce.
Análise em Big Data
17
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• 2º passo - Distribuição/particionamento dos dados deve ser balanceado entre os nós do cluster, a fim de evitar sobrecarga em um nó em particular. É necessário nesse caso observar o desvio da distribuição do dado.
Análise em Big Data
18
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• 3º passo – Evitar replicação de dados pois isso pode resultar em crescimento exponencial da quantidade de dados a se processar
Análise em Big Data
19
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• 4º passo – Utilizar sistemas que sejam satisfatórios na análise de dados Big Data Magnetic
Agile
Deep
Data-lifecycle- awareness
Elasticity
Robustness
20
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Magnetic: Capacidade de manipular qualquer fonte de dados;
• Agile: Adaptação a evolução dos dados;
• Deep: Suporte a análises complexas;
Análise em Big Data
21
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Data-lifecycle-awareness: Otimização da movimentação, armazenamento e processamento dos
dados BigData;
• Elasticity: Ajustar o uso dos recursos aos requisitos dos usuários e do
processamento da carga de trabalho;
• Robustness: Prover serviços mesmo com adversidades (falhas);
Análise em Big Data
22
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Itens Frequentes/Regras de Associação
• Classificação
• Clusterização – k-means
– DBSCAN
Algoritmos de Mineração de Dados para Big Data
23
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Onde e como armazenar, processar e analisar este volume de dados?
24
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
É a capacidade de computação infinitamente disponível e flexível. A nuvem é tudo aquilo que fica por detrás da conexão. As preocupações com a largura de banda, espaço de armazenamento, poder de processamento, fiabilidade e segurança, são postas de parte. Basta uma ligação à nuvem, e as necessidades, em termos de tecnologias de informação, são satisfeitas.
Computação em Nuvem
25
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Privacidade – Dados armazenados no provedor
• Dependência de provedor em nuvem
Computação em Nuvem - Desvantagens
26
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
27
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• É uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. Foi inspirada no MapReduce e no GoogleFS (GFS). Trata-se de um projeto da Apache de alto nível, que vai sendo construído por uma comunidade de contribuidores e utilizando a linguagem de programação Java.
Hadoop
28
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
O framework do Hadoop é formado por dois componentes principais: armazenamento e processamento. O primeiro é o HDFS (Hadoop Distributed File System), que manipula o armazenamento de dados entre todas as máquinas na qual o cluster do Hadoop está sendo executado. O segundo, o Map-Reduce, manipula a parte do processamento do framework.
Componentes do Hadoop
29
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
O HDFS é um sistema de arquivos escalonável e distribuído, cujo desenho é baseado fortemente no GFS (Google File System), que também é um sistema de arquivo distribuído.
HDFS (Hadoop Distributed File System)
30
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Map-Reduce é um paradigma de programação em que cada tarefa é especificada em termos de funções de mapeamento e redução. Ambas as tarefas rodam paralelamente no cluster. O armazenamento necessário para essa funcionalidade é fornecido pelo HDFS.
Map-Reduce
31
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
Um exemplo interessante do uso de Big Data na pesquisa de medicamentos é o cruzamento de informações entre usuários de diversas drogas. Suponhamos que uma pessoa que sofra de pressão alta tome determinado medicamento. Ela é alertada de efeitos colaterais como palpitações. Um outro indivíduo está se medicando com antidepressivos e também é alertado de efeitos colaterais. Mas, se uma pessoa está tomando os dois remédios ao mesmo tempo? Qual o feito colateral resultante?
Oportunidades – Saúde
32
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Eficientes e mais transparentes
• Lei de Acesso à Informação - Lei 12.527 promulgada em 18 de novembro de 2011
• Atua de forma Isolada
• Exemplo
Com base em associações e cruzamentos de dados, podem-se identificar situações anômalas como, por exemplo, um funcionário público acumulando cargos indevidamente ou um cidadão que obtém salário desemprego ao mesmo tempo em que apresenta atestado de acidente de trabalho.
Oportunidades – Administração Pública
33
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Soluções inovadoras para transporte e trânsito
• Exemplo
Em Singapura, um sistema pode prever velocidades no tráfego com precisão de 90%.
Oportunidades – Administração Pública
34
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Exemplo
Dados coletados de diversas fontes, que vão de câmeras nas ruas a comentários e posts publicados em mídias sociais, as agências de inteligência e de segurança pública podem detectar e se antecipar a atividades ilícitas, evitando que ocorram.
Oportunidades – Segurança Pública
35
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Exemplo
Durante um desastre natural, como uma enchente (felizmente não temos terremotos no Brasil) dados gerados por GPS embutidos em smartphones e sensores e câmeras que analisam o fluxo de veículos podem contribuir para facilitar a evacuação de pessoas das áreas atingidas, bem como diminuir o tempo para o socorro chegar a estas áreas.
Oportunidades – Defesa Civil
36
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Exemplo Uso no combate as fraudes.
Stream computing
Oportunidades - Segurança
37
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Exemplo
Tentar “perceber” o que a multidão (milhares de pessoas) está pensando sobre um determinando tema ou fato.
Oportunidades – “Sentimentos das Multidões”
38
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Exemplo
Sugerir, baseado em padrões de milhões de alunos, quais as profissões que melhor se adéquem a cada pessoa
Oportunidades - Educação
39
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Exemplo
A utilização de Big Data em TI permite um autogerenciamento, é possível, por exemplo, analisar todos os logs gerados pelas tecnologias, detectando eventuais problemas antes que eles aconteçam.
Oportunidades - TI
40
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Gerenciamento e Armazenamento Tecnologias atuais não são adequadas para Big Data;
Capacidade de armazenamento cresce mais lentamente do que a quantidade de dados;
Algoritmos não são eficientes para trabalhar com heterogeneidade de dados;
Incompletude dos dados;
Desafios
41
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Computação e Análise dos Dados Velocidade;
Utilização de índice não é adequada para dados complexos;
Construir e adaptar algoritmos para trabalhar de forma paralela;
Aproveitar a infraestrutura em nuvem;
Desempenho
Congestionamento da rede
Desafios
42
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Segurança Permitir análise de dados sem informações confidenciais;
Tecnologias atuais para proteção da privacidade consideram dados estáticos;
• Escalabilidade Construir sistemas para processar um volume crescente de dados;
Volume está aumentando em uma velocidade maior do que os recursos computacionais;
Crowd-sourcing
Desafios
43
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Análise para Big Data Alta dimensionalidade dos dados;
Acúmulo de outliers;
Correlação incorreta dos dados;
Alto custo computacional;
Necessidade de algoritmos complexos;
• Heterogeneidade Múltiplas fontes, diferentes pontos de tempo e diferentes tecnologias;
Necessidade de procedimentos robusto e adaptáveis;
Desafios
44
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
• Big Data e Cloud Necessidade de gerenciar grandes infraestruturas;
Hadoop é complexo e sem suporte gerencial;
Mais de 150 variáveis a serem configuradas;
Desafios
45
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
REFERÊNCIAS
A tecnologia transforma a vida das pessoas e das empresas e o Big data revoluciona o marketing. Disponível em: <http://tendenciaoubobagem.com.br/files/02%20CESAR%20TAURION%20Big%20Data%20evento%20POA.pdf> Acesso dia 28 de junho de 2015.
Big Data. Disponível em: <http://ai.arizona.edu/mis510/other/Big%20Data%20%20The%20Management%20Revolution.pdf> Acesso dia 20 de junho de 2015.
Big data analysis. Disponível em: <http://www.ejst.tuiasi.ro/Files/48/15_Trnka.pdf> Acesso em 20 de junho de 2015.
Big Data and Cloud Computing: Current State and Future Opportunities. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.188.5819&rep=rep1&type=pdf> Acesso em 28 de junho de 2015.
Big data: bringing new opportunities and challenges. Disponível em: <http://www.infoteca.inf.br/contecsi/smarty/templates/arquivos_template/upload_arquivos/acervo/docs/PDFs/157.pdf>Acesso dia 16 de junho de 2015
Big Data Challenges. Disponível em: <http://www.warse.org/pdfs/2013/icacsesp108.pdf> Acesso dia 18 de junho de 2015.
Big data – como utilizar a extraordinária quantidade de informações coletadas por novas tecnologias para obter vantagens competitivas. Disponível em: <http://revistapensar.com.br/tecnologia/pasta_upload/artigos/a69.pdf> Acesso dia 16 de junho de 2015
46
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
REFERÊNCIAS
Big data: um novo conceito gerando oportunidades e desafios. Disponível em <http://revista-fatecjd.com.br/retc/index.php/RETC/article/view/74/pdf>Acesso dia 16 de junho de 2015
Business intelligence and analytics: from big data to big impact. Disponível em: <http://hmchen.shidler.hawaii.edu/Chen_big_data_MISQ_2012.pdf> Acesso em 15 de junho de 2015.
Challenges and Opportunities with Big Data. Disponível em: <http://www.purdue.edu/discoverypark/cyber/assets/pdfs/BigDataWhitePaper.pdf> Acesso dia 27 de junho de 2015.
Recomendações para Big Date. Disponível em: <http://imasters.com.br/gerencia-de-ti/recomendacoes-para-o-big-data/?trace=1519021197&source=author-archive> Acesso dia 19 de junho de 2015.
The Age of Big Data. Disponível em: <http://wolfweb.unr.edu/homepage/ania/NYTFeb12.pdf> Accesso em 19 de junho de 2015.
The Meaningful Use of Big Data: Four Perspectives - Four Challenges. Disponível em: <http://www.researchgate.net/publication/220415372_The_Meaningful_Use_of_Big_Data_Four_Perspectives_-_Four_Challenges> Acesso em 19 de junho de 2015
Transforme os dados e a análise em uma vantagem competitiva. Disponível em: <http://www.ibm.com/big-data/br/pt/big-data-and-analytics/> Acesso dia 28 de junho de 2015.
47
BIG Data – Definição, Desafios e Análise de Dados IN0940 – Banco de Dados
CIn.ufpe.br Recife/PE – 29/06/2015
48
Dúvidas e sugestões?