aula6sad-modelagemDimensionalAvancado(1)

21
1 1 SAD – Sistemas de Apoio à Decisão Modelagem Dimensional de Dados - Conceitos Avançados Prof a .: Ellen Souza UFRPE Universidade Federal Rural de Pernambuco Unidade Acadêmica de Serra Talhada 2/41 Modelagem Dimensional Alguns refinamentos podem ser realizados na modelagem dimensional e casos especiais podem surgir, tais como: Conformidade de Dimensões Combinação de Dimensões Dimensões Especiais Dinâmica das Dimensões Dimensões Degeneradas Dimensões Lixo (junk) Campos chaves de Dimensões e Fatos Tabela fatos sem dados ou métricas Tabelas fatos com classificação ou subtipos Relacionamentos M:N entre Fatos e Dimensões Agregados

Transcript of aula6sad-modelagemDimensionalAvancado(1)

Page 1: aula6sad-modelagemDimensionalAvancado(1)

1

1

SAD – Sistemas de Apoio à Decisão

Modelagem Dimensional de Dados -

Conceitos Avançados

Profa.: Ellen Souza

UFRPE

Universidade Federal Rural de PernambucoUnidade Acadêmica de Serra Talhada

2/41

Modelagem Dimensional� Alguns refinamentos podem ser realizados na

modelagem dimensional e casos especiaispodem surgir, tais como:� Conformidade de Dimensões� Combinação de Dimensões� Dimensões Especiais� Dinâmica das Dimensões� Dimensões Degeneradas� Dimensões Lixo (junk)� Campos chaves de Dimensões e Fatos� Tabela fatos sem dados ou métricas� Tabelas fatos com classificação ou subtipos� Relacionamentos M:N entre Fatos e Dimensões� Agregados

Page 2: aula6sad-modelagemDimensionalAvancado(1)

2

3/41

Conformidade de Dimensões� Representa a coerência de definições entre

dimensões estabelecidas em momentosdiferentes do projeto de DW/DM

� As dimensões devem sempre ter o mesmosentido semântico, para que os diversosesquemas dimensionais de diferentes DMpossam ser “cruzados”, a fim de produzirinformações compatíveis� Principal dificuldade dos DMs evolutivos!!� No planejamento, as principais dimensões devem ser

identificadas

4/41

Conformidade de Dimensões� Regra básica: sempre definir as dimensões com

o maior grau de granularidade (mais detalhada)possível

� Para dimensões clássicas como a de TEMPO, queé compartilhada por todos os DMs:� Definir a menor unidade desejada (dia ou hora,

dependendo da necessidade do negócio)� Definir hierarquias completas: Ano � Semestre �

Trimestre � Mês � Dia

Page 3: aula6sad-modelagemDimensionalAvancado(1)

3

5/41

Conformidade de Dimensões� Existem casos em que as dimensões serão

acessadas por usuários diferentes através dehierarquias diferentes. A dimensão PRODUTO,por exemplo, poderá ter as hierarquias:� Categoria � Produto� Fabricante � Produto

� Ambas hierarquias podem ser definidas na mesmadimensão, juntamente com outros dados

6/41

Conformidade de Dimensões� Algumas considerações especiais sobre a

dimensão TEMPO:� Suponha a hierarquia: Ano � Trimestre � Mês �

Semana � Dia� Cada Trimestre pertence a somente um Ano� Cada Mês pertence a somente um Trimestre� Cada Mês possui várias Semanas (4 ou 5), mas a

Semana pertence somente a um Mês??? Não!� Logo, Semana não faz roll-up com Mês

� Uma hierarquia como Ano � Trimestre � Mês �

Dia permite roll-up nos seus diferentes níveis

Page 4: aula6sad-modelagemDimensionalAvancado(1)

4

7/41

Conformidade de Dimensões� Exemplo de roll-up na dimensão TEMPO com

hierarquia incompatível

8/41

Conformidade de Dimensões� Em alguns casos, não é possível construir

dimensões com total conformidade

� Para tentar resolver ou atenuar os impactosdessas dimensões, pode-se estabelecer umagrande área chamada “Staging” onde asdimensões seriam armazenadas antes deserem levadas aos DMs� Nesse BD, as dimensões e suas instâncias

estariam bem definidas, com os seusrelacionamentos e documentados, permitindo umcerto controle e gerência sobre as dimensões dosdiferentes DM

Page 5: aula6sad-modelagemDimensionalAvancado(1)

5

9/41

Combinações de Dimensões� Em alguns casos, as dimensões podem ser combinadas

numa única Entidade (ou Tabela), essa abordagem éusada quando existe uma forte coesão entre as duasdimensões, ou seja, elas acontecem (quase sempre)juntas, e para determinados subconjuntos de valorescombinados

� Por exemplo, se somente certos PRODUTOS sãovendidos em certas LOJAS. Isso pode sugerir umacombinação de dimensões, desde que observado oaspecto de proliferação, gerado pelo produtocartesiano, que poderia elevar o número deinstâncias da dimensão

10/41

Dimensões Especiais� Algumas dimensões são consideradas clássicas e

estão presentes em quase todos os projetos deDW/DM.� TEMPO

� Projetos de DW/DM focam muito na evoluçãohistórica

� ESPAÇO� O comportamento dos fenômenos variam com o

local (LOJA, ÓRGÃO, ARMAZÉM...) associadas ahierarquia geográfica: PAÍS, CIDADE, ESTADO...

� OBJETO� Voltada para o objetivo do negócio. CLIENTE,

PRODUTO, PESSOAS...

Quanto mais rica for a definição das dimensões,maior será a possibilidade de análises complexas!!

Page 6: aula6sad-modelagemDimensionalAvancado(1)

6

11/41

Dimensões Especiais

� Dimensão Tempo� Se a granularidade definida for Dia, podemos

ter os seguintes atributos:� Data-Completa: 01-01-2009� Dia-Semana: Sexta-Feira� Número-Mês: 01� Número-Dia-Ano: (1 a 365)� Número-Semana-Mês: ( 1 a 4 ou 5)� Número-Semana: (1 a 52)� Mês-Ano: (Janeiro a Dezembro)� Número-Mês: ( 1 a 12)� Trimestre: (1 a 4)� Tag para: Final de semana, feriado, último dia do mês

12/41

Dimensões Especiais

� Dimensão Tempo� Tags permitem análises interessantes sobre

acontecimentos� Controle de audiência, Vendas no Feriado

� Deverá ser planejada com a sua perspectiva deuso (2, 4, 8 anos)

� Deverá ser carregada em sua totalidade, noinício do projeto, já que as suas informaçõessão conhecidas e independentes de tabela Fato

Page 7: aula6sad-modelagemDimensionalAvancado(1)

7

13/41

Dimensões Especiais

� Dimensão Cliente� Importante em qualquer sistema de vendas,

principalmente com o crescimento dos CRMs(Customer Relationship Management)

� Alguns campos importantes são:� Saudação (Dr, Dra...), Prenome-Nome-Meio, Sobrenome,

Sufixo, Gênero, Profissão, E-mail, Web-Site, Classificação,Organização, Departamento, Subdepartamento, Endereço,Telefones e etc

Quem conhece melhor o seu cliente, maior chance terá de manter a sua fidelização, ou de buscar novos negócios através desses relacionamentos!

14/41

Dinâmica das Dimensões� Está relacionada com as estratégias de

manutenção das informações quandoocorrerem processos de atualização

� Significa definir uma abordagem para quandohouver:� Atualização de endereço do cliente� Mudança na descrição do produto

� É fundamental o registro desses valores emfunção do tempo para sistemas de DW/DM

Page 8: aula6sad-modelagemDimensionalAvancado(1)

8

15/41

Dinâmica das Dimensões� Três estratégias para controle de alteração

podem ser utilizadas

Para a opção B, são necessários atributos que indiquem a data de validade do perfil, bem como flag indicando o perfil corrente

16/41

Dinâmica das Dimensões� No caso de projetos de dimensões com alto

volume e alta volatilidade, a estratégiarecomendada é a divisão dos dados

Page 9: aula6sad-modelagemDimensionalAvancado(1)

9

17/41

Dimensões Degeneradas� Está relacionada com objetos do tipo evento,

como Ordem de Compra, Nota Fiscal ouPedido (Ordem) de Serviço

� Essas entidades são compostas por Itens(item de OC, linha de NF, item do PS)

� Quando tabela Fato está definida nagranularidade de Item, o número dodocumento maior (OC, NF, PS) estará natabela para desempenhar o papel dealinhavador dos itens daquele documento

18/41

Dimensões Degeneradas� Exemplo para itens de uma Ordem de Compra

Page 10: aula6sad-modelagemDimensionalAvancado(1)

10

19/41

Dimensões Lixo (Junk)� Está relacionada com a definição de

dimensões para campos com certascaracterísticas diferenciadas como tags,valores binárias, com pequena cardinalidade,como por exemplo� Sexo (F ou M)� Estado Civil (Casado, Solteiro ou Divorciado)� Contribuinte (Sim ou Não)

� Apesar de não terem muita relação com oFato, é interessante mantê-los para seremutilizados como filtros

20/41

Dimensões Lixo (junk)� No exemplo, são definidas 3 tags sobre

condições de armazenamento: climatizada,manutenção especial e transporte especial

Page 11: aula6sad-modelagemDimensionalAvancado(1)

11

21/41

Dimensões Lixo (Junk)� Exemplo para controle de redundância de

texto

22/41

Campos Chaves de Dimensões e Fatos

� Uma regra básica e bastante recomendávelnos projeto DW/DM é a utilização de chavessurrogates ou artificiais

� Significa definir como campo chave deDimensões (consequentemente de Fatos),campos sem qualquer valor semânticoembutido

� Normalmente, são campos sequenciais doSGBD

Page 12: aula6sad-modelagemDimensionalAvancado(1)

12

23/41

Campos Chaves de Dimensões e Fatos

� O uso de chaves naturais (matrícula, cpf...)poderá apresentar os seguintes problemas:� Unicidade: A chave de um cliente pode mudar após

uma fusão ou venda de uma empresa� Ausência: Algumas entidades podem não ter chaves

naturais� E a manutenção das dimensões???

� Melhor capacidade de implementação dechaves artificiais, normalmente com 4 bytes� Ajudam na criação de índices� Alcançam até 2 bilhões de ocorrências� São transparentes para os usuários

24/41

Campos Chaves de Dimensões e Fatos

� Alguns problemas com as chaves artificiais� Por serem produzidas automaticamente, falhas

operacionais podem ocorrer e as tabelas necessitamser re-processadas

� Impedem que tabelas Fato sejam processadasdiretamente, uma vez que a Fato só conterá chavesartificiais e métricas. Qualquer pesquisa passarápelas tabelas Dimensão

Page 13: aula6sad-modelagemDimensionalAvancado(1)

13

25/41

Tabelas Fatos sem Dados ou Métricas

� Não é muito comum, mas pode acontecer. Oobjetivo é relacionar as várias tabelasDimensão envolvidas no modelo

26/41

Tabelas Fatos com Classificação ou Subtipos

� Existem casos onde o modelo de negóciopoderá demandar vários tipos de tabela Fato,uma para cada linha de produto oferecidonaquele ambiente

� A estratégia é a mesma do modelo ER. Usaruma tabela para armazenar dados comuns atodos os tipos e outras para armazenarinformações específicas de cada tipo

Page 14: aula6sad-modelagemDimensionalAvancado(1)

14

27/41

Tabelas Fatos com Classificação ou Subtipos

� Exemplo Modelo E/R com Tipo e Subtipo

28/41

Tabelas Fatos com Classificação ou Subtipos

� Exemplo de Modelo Dimensional paratratamento de Multi-fatos – Tabela Base

Page 15: aula6sad-modelagemDimensionalAvancado(1)

15

29/41

Tabelas Fatos com Classificação ou Subtipos

� Exemplo de Modelo Dimensional paratratamento de Multi-fatos – TabelasEspecializadas

30/41

Tabelas Fatos com Classificação ou Subtipos

� Exemplo de Modelo Dimensional paratratamento de relacionamentos M x N

�A Nota eClassificação estãorelacionadas comvários jurados

�A Dimensão CorpoJurado substitui astabelas Nota,Quesito, Jurado

Page 16: aula6sad-modelagemDimensionalAvancado(1)

16

31/41

Agregados� Valores agregados (resumo pré-armazenado)

representam uma solução e algum problemas� Solução

� Criação de tabelas prontas, trabalhadas esumarizadas em várias dimensões corretas

� Facilitam os acessos aos dados e agilizam osprocessos decisórios

� Agilizam em até 1000 vezes o tempo deprocessamento

� Problemas� Criam redundâncias e conseqüentemente, gastam

mais espaço para armazenar dados já processadosque foram derivados do DW/DM

32/41

Critérios para Definição de Agregados

� Passa pela análise dos principais tipos deinformação necessários e pela dificuldade deobtê-los diretamente das tabelas granulares� Suponha o DW/DM descrito abaixo em SQL

Page 17: aula6sad-modelagemDimensionalAvancado(1)

17

33/41

Critérios para Definição de Agregados

� Os valores em negrito representam asseguintes hierarquias:� Região � Loja: hierarquia com dois níveis� Categoria � Produto: hierarquia com dois níveis� Ano � Mês � Dia: hierarquia com três níveis

� O número de tabelas de agregados está relacionadocom as combinações ternárias, binárias e unárias dashierarquias

� O volume está diretamente associado às ocorrênciasde cada nível combinado

34/41

Critérios para Definição de Agregados

� Por exemplo, podemos combinar:� Ternária � região + categoria + ano ou região +

categoria + mês (2 x 2 x 3 = 12 opções)� Binária � região + categoria ou ano + loja (2 x 2 +

2 x 2 + 2 x 3 = 16 opções)� Unária � loja ou categoria ou mês ( 2 + 2 + 3 = 7

opções)

� No total, temos 34 combinações possíveis deagregados para analisar e selecionar as queoferecem maior disponibilidade de informações

Se as colunas escolhidas tiverem muitos valores diferentes, os registros agregados serão em grande número, e poderão não otimizar o processamento em termos de performance, se comparado com tabelas granulares

Page 18: aula6sad-modelagemDimensionalAvancado(1)

18

35/41

Alguns Cuidados na Definição de Agregados

� Valores Aditivos� Na construção dos agregados, deve-se observar as

métricas que nem sempre são aditivas em todas asdimensões

� Precisão� Os valores aditivos deverão ser maiores que os

usados nos respectivos valores das tabelasgranulares

� Não é recomendado armazenar os valores deFatos granulares e agregados na mesmatabela

36/41

Entendendo e Produzindo Agregados

� Uma forma de se entender melhor o uso deagregado é através dos comandos SQL

Page 19: aula6sad-modelagemDimensionalAvancado(1)

19

37/41

Entendendo e Produzindo Agregados

� Agregadas deverão compor um modelo separado

38/41

Entendendo e Produzindo Agregados

� Uma definição importante no projetooperacional dos Agregados é a estratégia decarga total versus a sua atualizaçãoincremental

� Essa decisão leva em conta:� Tempo de Processamento � Recarga total dos

agregados� Complexidade de Programas � atualização

incremental

Page 20: aula6sad-modelagemDimensionalAvancado(1)

20

39/41

Metadados� Importante documentação das aplicação DW/DM

40/41

Exercício

� Construir os modelos dimensionais propostos no capítulo 6 do livro texto

� Utilizar ferramenta para modelagem de dados, como DBDesign, ERWin

três dimensões,tabela fato com x linhas

Page 21: aula6sad-modelagemDimensionalAvancado(1)

21

41/41

� Leitura Obrigatória� Capítulo 5 - Barbieri, Carlos. BI – Business

Intelligence. Axcel Books. 2001.

� Leitura Sugerida� Kimball, Ralph. Data Warehouse Toolkit –

Técnicas para construção de DataWarehouses Dimensionais. Makron Books.1998.

Referências