1
Arquiteturas de DWe
Abordagensde
Implementação
Curso Curso de de DwingDwingTecBDTecBD-DI PUC-Rio-DI PUC-RioProfProf. . Rubens MeloRubens Melo
Arquiteturas e Abordagens deImplementação
z Arquitetura adequada é fundamentaly Infra-estrutura disponívely Porte da empresay Escopo desejadoy Recursos...
z Abordagem de Implementaçãoy Bottom-up vs Top Downy Tempo, satisfação do usuário,...
2
Arquiteturas
z Arquitetura DW globaly Centralizaday Distribuída
z Arquitetura Data Martsy Independentesy Integrados (difícil)
Abordagens de Implementação
z Top Down
y Análise das fontes de dadosy Extração Transformação e Carga(ETL)x Uso de ODS (Staging Area)x Dados e Metadados
y DW => Data Marts• Dados e metadados
3
ODS-DDS-Staging Area...
z Que é ODS? E DDS?y Operational vs Dynamicy Hoje ODS são chamados DDSy ODS permite análises no ambiente
operacional e auxilia carga de DWy DDS pode ir crescendo ao longo do tempo
com alterações incrementais
z Staging Area é necessária quando apreparação (limpeza, sincronizacao etc) écomplexa.
Abordagens de Implementação
z Bottom UP
y Começa por Data Marts paragrupos independentes de usuáriosx Seleciona Fontes de Dadosx Modela os DMs com MMDx Gera DMsx Cria as aplicações OLAPx Depois integra (dificil..) os DMs
4
Vantagens e Desvantagens
z Top Down Vantagensz Facilita Manutenção (herança de arquit.)z Visão horizontalz Dados e Metadados centralizadosz Controles e regras (ETL) centralizadosz Top Down Desvantagens
y Implem mais lenta=>Expectativas?y Maior risco (projeto global)
Vantagens e Desvantagens
z Bottom UP Vantagensz Rapidezz Ganha confiança e mais investimentoz Bottom UP Desvantagens
y LegaMarts (DMs viram legacy)y Perde-se a visão horizontaly Múltiplas equipes, ferramentas etcy Competição entre os DMs
5
Abordagens de Implementação
z DW incremental
y Começa a modelagem global de DWy Inicia um Data Mart pilotoy Vai criando outros DMs e integrando-os mantendo a visão horizontal
y Mantem DW e DMs
Ferramentas em DWing1) P/ Consulta e Relatórios simples2) OLAP tools
ROLAPMOLAPHOLAPDOLAPEISData Mining
3) Web OLAP
6
Questões importantes paraModelagem Dimensional
z Quando ? (Tempo)z O que ? (Ex.: Produto) (o “que” analisar do
fato)z Onde ? (Localização Geográfica)z Quem ? (Ex.: Vendedor) (agente)z Fato: Vendaz Importantíssimo definir as dimensões, os
“pontos cardeais das estrelas” dos fatosz Uma célula é a interseção de múltiplas
dimensões --> Idéia de cubo
Chaves que juntam os fatos às dimensões Medidas
Prod_Code
101102103103104
Time_Code
20452045204620462046
Acct_Code
501501501502502
Sales
10022520025020
Qty
1220251
Exemplo de uma Fact Table
7
Time
Time codeQuarter codeQuarter codeDateMonth codeMonth NameDay codeDay of weekSeason
Account
Account codeKey Account codeKey account nameAccount nameAccount typeAccount market
Geography codeTime codeAccount codeProduct codeSalesQty
Sales
Geography codeRegion codeRegion managerState codeCity codeCity nameZip code
Geography
Product codeProduct nameBrand managerBrand nameProd. line codeProd. line nameProduct nameProduct colorProduct model
Product
Exemplo de um Star-Schema
Questões importantes paraModelagem Dimensional
z “Comprador c comprou produto p no lugar l notempo t em qtidade q, a preço unit u, etc”
z Quando ? (t) Ex.: Mes, trimestre, ano etcz O que ? (p) Ex.: sapato, gênero de filme,..z Onde ? (l) Ex.: Norte, SP, Belem, Brasilz Quem ? (c) Ex.: Jovens, Classe b, ...z Fato: Compra (Outros exs: Venda, Exib de filmez Medidas do fato: q,u,...z O Modelo Dimensional vem do ER???
8
Questões importantes paraModelagem Dimensional
z O modelo ER é orientado a “entidades erelacionamentos” (object)
z O modelo MMD é orientado a assunto (fato)(subject)
z Modelo ER --> OLTPz Modelo MMD -> OLAPz Modelo ER -> BD Relacional Normalizado (BD
volátil)z Modelo MMD -> BD Relacional Não Normalizado
(BD não volátil)
Exercício de Modelagem
z Uma distribuidora de filmes tem sistemade controle de seus filmes que contratados vários estúdios
z Filmes são exibidos em sessões diárias emsalas de cinema (com diferentescapacidades) espalhadas por cidades,estados, regiões do pais.
z Os clientes buscam filmes por ator,diretor, gênero, país etc
9
Exercício de Modelagem
z A distribuidora já tem um sistema (OLTP)com um BD para controle.
z Ex1: Faça um ER do modelo transacionaldo BD da distribuidora
ER Transacional do exercício
z Filme(f,) (0:n) <passa no> (0:n) Cinema(c,)z Filme(f,) (1:1) <vem do> (1:n) Estúdio(e,)z Filme(f,) (1:1) <dirigido por> (0:n) Diretor(d,e,)z Diretor(d,e,) (1:1) <é-do> (1:n) Estúdio(e,)z Ator(a,) (0:n) <atua no> (0:n) Filme(f,)z Diretor(d,e,) (0:1) <é-um> (0:1) Ator(a,)
10
Exercício de Modelagemz Acontece que os diretores querem analisar
seus negócios e sentiram a necessidade deum DW.
z Após entrevistas com executivos dadistribuidora apareceram requisitos deinformação:y Evolução de público e $$ arrecadado por região,
estado e cidade classificados por gênero e sala.y Evolução de exibição de filmes por ator e diretory Evolução de público por ator e diretory Como lançar filmes por períodos do ano
Exercício de Modelagemz Ex2: Projetar o DW com MMDz Qual o fato?z Quais as dimensões?
y Onde acontece? (Geo)y Quando? (tempo)y O que? (outras dimensões de análise)y Quem? (agente)
z Quais as medidas do fato?z Ex3 Esse DW pode sair do ER anterior?z Ex4: Represente em tabelas esse DW e
cheque-o com as análises pedidas
11
Tecnologia DW ou OLAP ?z São diferentes mas complementaresz Tecnologia DW
y Usada efetivamente para armazenar e manter informações
z OLAPy Usado para recuperar informações (não volátil)
z Tecnologias de DW e OLAP são complementaresy DW deve ser projetado pensando-se na recuperação e
visualização dos dados (OLAP)y Construir um DW isolado (s/OLAP) é uma fórmula para o
fracassoy Total exploração do DW depende de OLAP
Tecnologia DW e OLAPz DW usa, basicamente, tecnologia relacional (Oracle,
DB2, Sybase, SQL Server ...) embora não seja BDp/ OLTP
z OLAP usa visões multidimensionais dos dados pararápido acesso a informações estratégicas
z OLAP normalmente utiliza arquitetura proprietáriaz Os dados, na visão multidimensional de OLAP, são
freqüentemente agregados para maximizar suaeficiência (não normalizados)
12
Tecnologia DW e OLAPz Dimensões descrevem os componentes de uma
área de análise (subject) e o modo paralocalização de valores medidos (nos fatos)
z A habilidade de organizar os dados do modoque os usuários conhecem seus dados é a talmultidimensionalidade
z Esta habilidade é o que realmente distingue ossistemas OLAP dos sistemas tradicionais
z OLAP se aplicam bem em Data Marts
ò DMs extraem e ajustam porções de DWs aos requisitos específicos de grupos / departamentos
DW e Data MartsSistema
Operacional
SistemaOperacional
BDs de produção /arquivos
BDs de produção /arquivos
DW
DW - BD
DM
DM
BDcustomizado
BDcustomizado
usuáriofinal
usuáriofinal
usuáriofinal
usuáriofinal
usuáriofinal
usuáriofinal
13
ò Porções de DW são copiadas para um BD multidimensional para otimizar análise de dados
DM em Servidor OLAP
SistemaOperacional
SistemaOperacional
BDs de produção /arquivos
BDs de produção /arquivos
usuáriofinal
usuáriofinal
usuáriofinal
DW
DW - BD
ServidorOLAP
BD multidimensional
Para o DW central é necessário
ò Criar um modelo de dados conceitual (ER’ ?)
ò Otimizar esse modelo apropriada- mente para a recuperação de dados (desnormalizar?) e para suporte à decisão (agregar?)
Modelagem de DW
14
ò Entender as diferenças entre o modelo corporativo totalmente normalizado(objeto) e um modelo de DW (assunto)
ò Transformar o modelo corporativo(ER) em modelo DW:J Removendo os dados puramente
operacionais (p/ ser informacional)J Adicionando um elemento de tempo nas
chaves (ficar temporal)J Incluindo dados resumidos e derivados
no modelo DW (desnormalizar)
Modelagem de DW - Itens Críticos
Metodo para mapeamento de dadosoperacionais em informação orientada aassunto
ò Identifica assuntos de negócios (serão *)
ò Define relacionamentos entre assuntos de negócios (* ligadas por dim comuns)
ò Nomeia os atributos para cada assunto de negócio (dimensões)
Modelagem de Dados
15
ER Transacional => MMD
z Relacionamentos n:n => podem ser fatos(assuntos de análise)
z Ex. No caso da distribuidora de filmes:y Filme <passa no> Cinema => fato de interessey Ator <atua no> Filme => fato não analisado
z Dica: Primeiro pensar MMD e depois ver deonde iremos extrair os dados
MMD vs ER do exercício
z ERy Filme(f,) (0:n) <passa no> (0:n) Cinema(c,)y Filme(f,) (1:1) <vem do> (1:n) Estúdio(e,)y Filme(f,) (1:1) <dirigido por> (0:n) Diretor(d,e,)y Diretor(d,e,) (1:1) <é-do> (1:n) Estúdio(e,)y Ator(a,) (0:n) <atua no> (0:n) Filme(f,)y Diretor(d,e,) (0:1) <é-um> (0:1) Ator(a,)
z MMDy Dim: tempo,cidade,ator,diretor,sala,generoy Fato: Exibição-filme
16
u Desenvolver um modelo de DW completo (corporativo) pode ser complexo e muito demorado
u Uma melhor abordagem é começar com alguns assuntos de interesse imediato para a empresa(DMs)
Modelagem de Dados
* Começar pequeno
* Provar utilidade
* Construir sobre sucessos
Abordagem Evolucionária
iterativa
17
Enfatizando ER vs MMD
z O modelo ER é orientado a “entidades erelacionamentos” (object oriented)
z O modelo MMD é orientado a assunto (fato)(subject oriented)
z Modelo ER --> OLTP, Modelo MMD -> OLAPz Modelo ER -> BD Relacional Normalizado (BD
volátil)z Modelo MMD -> BD Relacional Não Normalizado
(BD não volátil)z Se existir um ER corporativo como => DW?z Senão modelar DW usando ER / MMD
Revisãoz Porque DW nao é apenas um BD e DMs apenas
Views?z O que é o modelo MMD? Em que nível ele se
aplica em Modelagem de DW?z Como se modela DW nos níveis Conceitual,
Lógico e Físico?z Quais as operações do Modelo Relacional? E do
Modelo MMD?z Que é: Star schema, Snowflake Schema e
Constelações ? Estes se aplicam em DW ou DM?z Quais as dimensões tipicas em MMD?
Top Related