Post on 20-Jul-2020
Big DataEvandro Deliberal
Contato: evandro@deljoe.com.br
Skype: deljoe.evi
https://www.linkedin.com/in/evandrodeliberal
Evandro Deliberal
16 anos de experiência na área de tecnologia, atuando em grandes consultorias e empresas nacionais e multinacionais
Técnico em Processamento de Dados, Graduado em Sistemas de Informação, Pós-Graduado em Gestão de Projetos, MBA em Gestão de Empresas
Babson University – Boston, MA / USA – Desenvolvimento de Acionistas, Intra-Empreendedores e Executivos
Massachusetts Institue of Tecnology MIT – Boston, MA / USA – Construção, Liderança e Manutenção de uma Organização Inovadora
Já atuei como: Coordenador de Desenvolvimento, Gestor de Produtos, Gestor de Projetos entre outros Proprietário da Deljoe.com – Soluções Inteligentes em sistemas web
Linguagem Prog.: Progress, PHP, Java, C,
Bancos: Progress, My SQL, MS SQL, Oracle, PostgreeSQL
Professor: Gestão de Projetos, Empreendedorismo, Alta Disponibilidade, Sistemas de Banco de Dados Distribuídos, Desenvolvimento de Carreiras, Ética, Backup e Restauração e Otimização e Performance de BD
+ de 26.000 horas de projetos
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Objetivos
Refletir sobre a missão do profissional de Banco de Dados / DBA nesta nova era
Falar um pouco sobre Big Data
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Agenda
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
I. Principio de tudo
II. Estruturas Básicas
III. Conceitos que precisamos saber
IV. O que é?
V. Para que serve?
VI. Data Science
VII. Como esta o mercado atualmente
Principio de Tudo
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
BIG BANG
Principio de Tudo
• Quando falamos sobre Big Data, precisamos previamente nos remeter a algumas requisitos essenciais como:• Armazenamento
• Segurança
• Requisitos – Ambiente, Integridade, Autenticidade, Comunicação, MONITORAMENTO ...
• Técnicas – Criptografia, Autenticação, Autorização, Firewall, ....
• Alta disponibilidade
• Redundância, Contingência, Cluster, Virtualização, Tolerância a Falhas
• SGBD ou SGBDD
• Estrutura do Banco de Dados
• Data Warehouse, Data Mining e Data Marts
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Estruturas Básicas
• Banco de Dados• Não adianta imaginarmos um Big
Data, sem antes falarmos do inicio e do processo
• Quando falamos de Big Data nos remetemos a três grandes requisitos:
• Velocidade
• Valor
• Veracidade
• Volume
• Variedade
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Estruturas Básicas
• Muitos talvez não dão valor, mas se com Big Data estamos falando do valor dos dados, então precisamos dar muita importância a:• Criação dos Banco de Dados Transacionais
• Campos/Colunas
• Índices
• Relacionamentos
• Alta Disponibilidade, pois a cada dia temos e precisamos das informações mais rápidas no menor tempo possível
• Evolução do dado – Como?
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Estrutura Básica – Evolução do Dado
• Como assim?
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Estrutura Básica – Evolução Armazenamento
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Conceitos
• Extração
• Preparação
• Padrão
• Sazonalidade
• Tendência
• Função• Processamento
• Analítico
• Big data vai do Macro ao Micro para responder: • Faz sentido? Esta informação é relevante?
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
• Data Mining / Mineração de Dados
• Data Warehousing
• Data Marts
• Modelagem Dimensional
• KDD – Knowledge
Discovery in
Database
Porque entender alguns conceitos?
• Porque este é o cenário e não pode ter duvida ou má interpretação
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Não confunda Data Warehouse <> Big Data
•Data Warehouse•Armazenamento e disponibilização
•Big Data = Mundo
Faz Sentido?http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
O que é?
Definição
“Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization” – 2012, Gartner
Big data é alto volume, alta velocidade e / ou ativos de alta variedade de informação que requerem novas formas de processamento para permitir a tomada de decisão melhorada, a descoberta de uma visão e otimização de processos
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
O que é?
• Grande Volume, Grande Armazenamento, Muita Velocidade
• Utilizando Banco de Dados não relacionais
• Com Mecanismos e processos aplicados com o objetivo de buscar exatidão ou o mais próximo possível
• Fortemente pautado em mecanismos de acesso rápido a informação
• Utilização predominantemente de Cluster
• Curiosidade: Segundo o Gartner, aproximadamente 15% das empresas Fortune 500 será capaz de explorar grandes volumes de dados para a criação de valor e apenas 8% deles estão usando atualmente grandes análise de dados.
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
O que é?
• Dois tipos de formato de Dados:• Estruturados – dos quais já conhecemos nos BD Transacionais
• Não Estruturados – E-Mail, Imagem, Video Noticias (FEEDS), PDF, Documentos, Planilhas eletrônicas ...
• Já falamos: é uma Intersecção de técnicas e metodologias• Segurança
• Armazenamento
• ....
• Algoritmos Escaláveis
• IA – Inteligência Artificial
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
ATENÇÃO
• CURIOSIDADE SOBRE O QUE ENVOLVE O BIG DATA. SEGUNDO A WIKIBON• 100 Terabytes são absorvido (Uploaded) pelo Facebook todo dia
• Twitter gera 12 terabytes por dia
• Linkedin processa e minera Petabytes de usuários para a função “Pessoas que talvez vcconheça”
• Youtube – usuários enviam 48 horas de novos vídeos a cada minuto durante o dia
• A decodificação do Genoma Humana era de 10 anos, agora pode ser em menos de 7 anos
• + de 500 novos websites são criados por minuto durante o dia
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Para que serve?
• Serviços financeiros e Bancário• Evita fraudes
• Antecipar ações
• Varejo• Entender o Publico alvo
• Promoções
• Segmentação
• Marketing
• Analise
• Serviços personalizados
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Big Data = Combinação
• Aplicação + Armazenamento
• NoSQL = Banco de Dados não relacionais de Alto desempenho
• Alguns exemplos• Cassandra (Facebook)
• MongoDB (Engine Yard)
• Voldemort (Linkedin)
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Data Science
• Ciência de Dados
• Complementar ao Big Data
• Trata:• Manipulação de Dados
• Análise de Dados com Estatística e Aprendizado de Máquina
• A comunicação de dados com visualização de informações
• Dados em Escala –
• Auxilia na utilização adequada ao Big Data
• Utiliza o MapReduce (computação paralela)
• Em resumo: Busca através da Ciência a melhor forma de utilizar os dados, aplicando técnicas e metodologias.
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Principais desafios
• Lei nacional para regulamentação
• Privacidade
• Segurança
• Entendimento do tema• Pela área de negócio
• Escassez de profissionais
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Mercado
• O que os principais Players para BD estão fazendo ou caminhando• Oracle
• Cloud
• Analisys
• MS SQL SERVER
• Cloud
• Social Media
• Paas e Saas
• OpenEdge Progress
• Integradores
• Conectores
• Paas
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
O que vem pela Frente
• Big Data Discovery
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Hadoop e Watson
• Hadoop• Plataforma de software
• Responsável: Apache Foundation
• Open-source
• Constituído em módulos
• Hadoop Common – Biblioteca e arquivos
• Hadoop Distributed File System (HDFS) –Sistemas Arquivos Distribuidos
• Hadoop Yarn – Gestão de Recursos
• Hadoop MapReduce – Programação em larga escala
• Possui contribuições de diversos players (Yahoo, Google, ... )
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Hadoop e Watson
• Watson• Super computador
• Responsável: IBM
• Privativo
• Possui 15 Trilhões de bytes (equivalente a 2800 pc)
• Cluster, pois é um data center que o controla
• IA – Inteligência Artificial
• Processo de Cognição
• Utilizasse de Big Data
• Foi Concebido inicialmente para área médica
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Principio de Tudo
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
BIG BANG
Evandro Deliberal
DUVIDAS ?
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Evandro Deliberal
OBRIGADOEvandro Deliberal – evandro@deljoe.com.br
Deljoe.com
http://www.deljoe.com.br https://www.linkedin.com/in/evandrodeliberal