Data Warehouse– Aula 06 - Professores...
Transcript of Data Warehouse– Aula 06 - Professores...
Data Warehouse– Aula 06
Profa Janniele Aparecida Soares Araujo
CSI462 – Sistemas de Apoio à Decisão
2
Introdução
● Cenário Inicial● Problemas necessidades?
3
Introdução
● A informação é o melhor recurso do qual empresas podem dispor para tomar decisões.● Obtida analisando históricos sobre vendas, clientes, produtos, etc.● Dados conflitantes de fontes diversas podem gerar informações
desencontradas.
4
Introdução
● A quantidade de dados a serem considerados cresce com a expansão do negócio e com o passar do tempo.● Data Warehouses auxiliam a resolver esses problemas ao prover
grandes quantidades de dados temporais integrados para análise.
5
Histórico
● Criado pela IBM na década de 60 com o nome Information Warehouse.● Relançado diversas vezes sem sucesso.● O nome Data Warehouse foi dado por William Inmon, considerado o
pai desta tecnologia.● Tornou-se viável com o surgimento de novas tecnologias para
armazenar e processar uma grande quantidade de dados.
6
Definição
”Conjunto de dados agrupados por assunto, integrados, variável em relação ao tempo e não volátil, que serve de suporte para o processo de tomada de decisões.”
7
Definição
● Orientado a assunto● Um Data Warehouse está sempre orientado ao redor do principal
assunto da organização. Ao contrário de aplicações clássicas, orientadas por processos / funções.
8
Definição
● Integrado● Os dados criados dentro de um ambiente de Data Warehouse são
integrados. A integração beneficia com a convenção consistente de nomes, estrutura consistente de códigos, etc.
9
Definição
● Não volátil● Os dados nunca são excluídos nem alterados de um Data Warehouse.
10
Definição
● Variante no tempo● Data Warehouse apresenta os dados com seu posicionamento em
relação ao tempo.
11
Comparativo com o BD operacional
Aspecto BD Operacional Data Warehouse
Usuários Funcionários Alta administração
Utilização Tarefas cotidianas Decisões estratégicas
Padrão de uso Previsíveis Difícil de prever
Princípio de funcionamento Com base me transações Com base em análise de dados
Valores de dados Valores atuais e voláteis Valores históricos e imutáveis
Detalhamento Alto Sumarizado
Organização dos dados Orientado a aplicações Orientado a assunto
12
Comparativo com o BD operacional
● Algumas diferenças adicionais do Data Warehouse para um BD operacional● Permitem a redundância de dados.● Buscas complexas e ad hoc (personalizadas pelo usuário).● Modelagem de dados multidimensional.
13
Ambiente de Data Warehouse - Centralizado
14
Ambiente de Data Warehouse – Data Marts
15
Ambiente de Data Warehouse – Data Marts
● Data Mart● Subconjunto lógico de um Data Warehouse, um Data Warehouse
setorial.● Geralmente descritos como um subconjunto dos dados contidos em
um Data Warehouse extraído para um ambiente separado.● Diferentes setores são responsáveis por diferentes Data Marts.
16
Ambiente de Data Warehouse
17
Ambiente de Data Warehouse – Arquitetura Genérica
18
Ambiente de Data Warehouse
● Ambiente de extração● Ferramentas ETL (Extraction, Transformation and Load): Consiste da
integração, limpeza e carga dos dados.● Os processos ETL consomem 70% do tempo de desenvolvimento em
um projeto de DW.● Estes processos são específicos para cada organização.● Opcionalmente, pode-se ter uma segunda área intermediária,
chamada Operational Data Store (ODS).
19
Ambiente de Data Warehouse
● Ambiente de extração ODS● Dados mantidos como no ambiente operacional.● Dados não modelados para consultas gerenciais.● Úteis para recuperação de cargas problemáticas.● Enquanto na Staging Area a limpeza se resume à integridade das
informações, as regras de negócio são verficadas nos ODSs.● Por economia de espaço em disco, muitos DWs são implementados
sem ODS.
20
Ambiente de Data Warehouse
● Ambiente de extração ODS
21
Processo ETL
22
Ambiente de Data Warehouse
● Extraction (E)● Busca das informações mais importantes em sistemas fontes ou
externos.● Com o decorrer do tempo a extração deve estar preparada apenas
para fazer cargas incrementais.
23
Ambiente de Data Warehouse
● Transformation (T)● Não só transforma os dados, mas também realiza a limpeza dos
mesmos. Correção de erros de digitação, descoberta de violação de integridade, padronização de abreviaturas, etc.
● Características para garantir qualidade dos dados: unicidade, precisão, completude e consistência.
24
Ambiente de Data Warehouse
● Load (L)● A carga é a fase na qual os dados são inseridos no DW.● Este processo é extremamente complexo pois é nesta fase que se
deve garantir a integridade dos dados armazenados no DW.
25
Ambiente de Data Warehouse
● Transformação e integração dos dados● Transformação é o processo de formatação e modificação de dados
extraídos de várias origens para transformá-los em informações úteis ao DW.
● Os dados de origem são consistentes mas apresentados de diferentes formas.
26
Ambiente de Data Warehouse
● Transformação e integração dos dados
27
Arquitetura Data Warehouse
● Arquitetura Global● É integrado e suas informações são utilizadas por todos os
departamentos da empresa.● É projetado e construído baseado nas necessidades da empresa como
um todo.● Repositório comum de dados de suporte à decisão, disponível em
toda empresa.
28
Arquitetura Data Warehouse
● Arquitetura Data Marts independentes● Possui um data mart para atender a cada departamento em
específico.● Não se tem acesso aos data marts de outros departamentos.
29
Arquitetura Data Warehouse
● Arquitetura Data Marts integrados● Aumenta a capacidade e a qualidade da visão corporativa das
informações.● Os dados são compartilhados entre os data marts de diferentes
departamentos.
30
Implementação de Data Warehouse
● Abordagem Top-Down● O modo como os dados serão armazenados e consultados nasce do
DW e posteriormente são distribuídos entre os Data Marts.● Tem objetivo de atender às necessidades da organização como um
todo e não departamentos isolados.● Modelo mais comum de implementação.● Demorada implementação e resultado apenas a longo prazo.
31
Implementação de Data Warehouse
● Abordagem Top-Down
32
Implementação de Data Warehouse
● As fases de um DW global (Top-Down)
Levantamentode todos os dados
e requisitos
Projeto lógico e físico
Projeto e Implementação
extração
Implementação das aplicações
clientes
Carga de dadosoperação e manutenção
33
Implementação de Data Warehouse
● Vantagens da abordagem Top-Down● Herança de arquitetura.● Visão de empreendimento.● Controle e centralização da manutenção e da administração.
● Desvantagens da abordagem Top-Down● Implementação muito longa.● Alta taxa de riscos.● Expectativas relacionadas ao ambiente.
34
Implementação de Data Warehouse
● Abordagem Bottom-Up● Parte dos Data Marts até compor o DW por completo.● Maior dificuldade na padronização dos dados.● Implementação mais rápida e manutenção mais fácil devido ao menor
tamanho das partes.
35
Implementação de Data Warehouse
● Abordagem Bottom-Up
36
Implementação de Data Warehouse
● As fases de um DW global (Bottom-Up)
Definição dos requisitos
departamentais
Projeto lógico e físico
Projeto e Implementação
extração
Implementação das aplicações
clientes
Carga de dadosoperação e manutenção
37
Implementação de Data Warehouse
● Vantagens da abordagem Bottom-Up● Rápida implementação.● Retorno rápido.● Herança incremental.
● Desvantagens da abordagem Bottom-Up● Dificulta futuras integrações.● Coordenar múltiplas iniciativas.● Desafio de possuir a visão de empreendimento.
38
Implementação de Data Warehouse
● Abordagem Híbrida● Combina características de ambas abordagens.● Planejamento geral da estruturação do DW para toda a organização
(conforme Top-Down).● Desenvolvimento dos data marts de forma graduada, apresentando
funcionalidades parciais.● A criação de cada data mart é padronizada para facilitar a integração
dos dados.● Garantia da consistência dos dados.
39
Implementação de Data Warehouse
● As fases de um DW global (híbrida)
Levantamento dos requisitos
globais eespecificação
integração
Projeto lógico e físico
Projeto e implementação
extração
Implementação das aplicações
clientes
Carga de dadosoperação e manutenção
Levantamentodos requisitos
do departamento
40
Implementação de Data Warehouse
● Vantagens da abordagem híbrida● A apresentação dos primeiros resultados é feita de modo mais rápido e barato
do que a abordagem global.● A integração entre data marts possibilita a unicidade de representação dos
dados e informações mais confiáveis por não existirem redundâncias.● Os mecanismos de extração são projetados uma única vez.
● Desvantagens da abordagem híbrida● Complicações políticas por conta da determinação da sequência de
implementação dos data marts e das prioridades de manutenção.● Metadado mais complexo para gerenciar a distribuição e integração dos dados.● Maior controle no nível de granularidade e nas manutenções das tabelas
compartilhadas.
41
Metadados
● “Dados sobre dados”● Possuem papel de grande importância nos DW.● Especialmente na fase de desenvolvimento, onde especificam os
dados de variadas fontes.● Fontes de dados, como por exemplo, documentos, são mais fáceis de
usar e gerir se soubermos alguma coisa sobre elas, por exemplo, autor, data, assunto, edição etc. Este tipo de informação é o que consideramos metadados.
42
Metadados
ID NOME COR PESO CIDADE
P1 PORCA VERMELHO 12 LONDRES
P2 TRINCO VERDE 17 PARIS
P3 PARAFUSO AZUL 17 ROMA
METADADOS
DADOS
43
Metadados
44
Oracle Database 12 Data Warehousing
45
Oracle - Autonomous Data Warehouse Architecture
46
Oracle - Autonomous Data Warehouse
48
Revisão
1)Quais as características dos DW de acordo com sua definição?
2)Como os Data Warehouses auxiliam a tomada de decisão?
3)Cite 4 diferenças entre BD operacional e DW em relação aos aspectos.
4)Data Mart são subconjuntos Físicos ou Lógicos? Qual a sua finalidade?
5)Qual a finalidade da ferramenta ETL?
6)Qual as diferenças entre abordagens Top-Down e Botton-up?
49
Bibliografia
● Tecnologia e Projeto de Data Warehouse. Machado, F.N.R.. São Paulo, Erica, 2010.
● Araujo, N. M. Notas de aula de Sistemas de Apoio à Decisão. Universidade Federal de Ouro Preto, 2013.