Post on 12-Jan-2016
description
1
Data Warehouse
ProfessorProfessor Edson Emílio Scalabrin
telefone: 0xx41-330-1786e-mail: scalabrin@ppgia.pucpr.br
download: http://www.ppgia.pucpr.br/~scalabrin
2
ObjetivoObjetivo
Apresentar:Apresentar:• conceitosconceitos• as características de um Data Warehouseas características de um Data Warehouse• algumas arquiteturasalgumas arquiteturas• Modelos de dadosModelos de dados• Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse• Povoamento do Data WarehousePovoamento do Data Warehouse• Extração de informações do Data WarehouseExtração de informações do Data Warehouse• Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse
3
PlanoPlano
CONCEITOSCONCEITOS As Características de um Data Warehouse Algumas arquiteturasAlgumas arquiteturas Modelos de dadosModelos de dados Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse
4
Data WarehouseData Warehouse
Definição I:Definição I:• “ “ É uma coleção de dados orientados por É uma coleção de dados orientados por
assuntos, integrados, variáveis no tempo e assuntos, integrados, variáveis no tempo e não voláteis, para dar suporte ao processo não voláteis, para dar suporte ao processo gerencial de tomada de decisão ” [ Inmon ]gerencial de tomada de decisão ” [ Inmon ]
5
Data WarehouseData Warehouse
Definição II:Definição II:• “ “ É um processo em andamento que aglutina É um processo em andamento que aglutina
dados de fontes heterogêneas, incluindo dados de fontes heterogêneas, incluindo dados históricos e dados externos para dados históricos e dados externos para atender às necessidades de consultas atender às necessidades de consultas estruturadas e estruturadas e ad-hocad-hoc, relatórios analíticos e , relatórios analíticos e de suporte a decisão ” [Harjinder ]de suporte a decisão ” [Harjinder ]
6
Data WarehouseData Warehouse
Definição III:Definição III:• “ “ É uma coleção de técnicas e tecnologias É uma coleção de técnicas e tecnologias
que juntas disponibilizam um enfoque que juntas disponibilizam um enfoque pragmático e sistemático para tratar com o pragmático e sistemático para tratar com o problema do usuário final de acessar problema do usuário final de acessar informações que estão distribuídas em informações que estão distribuídas em vários sistemas da organização ” vários sistemas da organização ” [ Barquini ][ Barquini ]
7
Dados operacionais Dados operacionais vs.vs. Data Data WarehouseWarehouse
Características BD Operacional Data WarehouseObjetivo Operações diários do negócio Analisar o negócio
Uso Operacional Informativo
Tipo de processamento OLTP OLAP
Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta
Número de usuários Milhares Centenas
Tipo de usuário Operadores Comunidade gerencial
Interação do usuário Somente pré-definida Pré-definida e ad-hoc
Condições dos dados Dados operacionais Dados Analíticos
Volume Megabytes - gigabytes Gigabytes - terabytes
Histórico 60 a 90 dias 5 a 10 anos
8
Dados operacionais Dados operacionais vs.vs. Data Data WarehouseWarehouse
Características BD Operacional Data WarehouseGranularidade Detalhados Detalhados e resumidos
Redundância Não ocorre Ocorre
Estrutura Estática Variável
Manutenção desejada Mínima Constante
Acesso a registros Dezenas Milhares
Atualização Contínua (tempo real) Periódica (batch)
Integridade Transação A cada atualização
Número de índices Poucos / simples Muitos / complexos
Intenção dos índices Localizar um registro Aperfeiçoar consultas
9
Componente de um Data Componente de um Data WarehouseWarehouse
DadosOperacionais
DadosExternos
Qualquer fonte
DataWarehouse
Qualquer Dado Qualquer acesso
Ferramentasde OLAP
Aplicativos
Ferramentasde consultas(relatórios)
Data Warehouse não é o fim, ele é um meio que as empresas dispõem para analisar informações podendo utilizá-las para a melhoria dos processos atuais e futuros
10
PlanoPlano
ConceitosConceitos AS CARACTERÍSTICAS DE UM DATA
WAREHOUSE Algumas arquiteturasAlgumas arquiteturas Modelos de dadosModelos de dados Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse
11
Data Warehouse Características
Orientação por assuntoOrientação por assunto IntegraçãoIntegração Variação no tempoVariação no tempo Não volatilidadeNão volatilidade LocalizaçãoLocalização Credibilidade dos dadosCredibilidade dos dados GranularidadeGranularidade MetadadosMetadados
12
Data Warehouse Características
Orientação por assuntoOrientação por assunto• Um DW sempre armazena dados importantes sobre Um DW sempre armazena dados importantes sobre
temas específicos da empresa e conforme o interesse temas específicos da empresa e conforme o interesse das pessoas que irão utilizá-lo.das pessoas que irão utilizá-lo.
Exemplo:Exemplo:• Uma empresa pode trabalhar com vendas de produtos Uma empresa pode trabalhar com vendas de produtos
alimentícios no varejo e o seu maior interesse ser o perfil alimentícios no varejo e o seu maior interesse ser o perfil de seus compradores, então o DW será voltado para as de seus compradores, então o DW será voltado para as pessoas que compram seus produtos e não para os pessoas que compram seus produtos e não para os produtos que ela vende.produtos que ela vende.
13
Data Warehouse Características
IntegraçãoIntegração
Incompatibilidade: mesmo elemento, nomes diferentes
Incoerência: diferentes elementos, mesmo nome
Aplicação A
Aplicação B
Aplicação C
(a)
Valor atual,2 anos
Aplicação AAplicação B
Aplicação C
Valor atual,1 ano
Valor atual,3 meses
Valor atual,6 meses
(b)
14
Data Warehouse Características
Integração de dadosIntegração de dadosOPERACIONAL DATA WAREHOUSEAplicação A: m,fAplicação B: 1,0Aplicação C: masculino, feminino
Aplicação A: caminho - centímetrosAplicação B: caminho - pés Aplicação C: caminho - jardas
Aplicação A: descriçãoAplicação B: descrição Aplicação C: descrição
Aplicação A: chave char(10)Aplicação B: chave dec fixed(9,2)Aplicação C: chave char(12)
sexo: m, f
caminho: centímetros
Chave char(12)
? descrição
15
Data Warehouse Características
Integração de dadosIntegração de dadosDATA WAREHOUSE
- Maria Silva - Feminino- Nascida em 01/12/68- Duas internações em 2000- Equipe médica- Duração média das internações- Exames requeridos- Resultados dos exames- Casada - 2 filhos
Plano de Saúde- Maria Silva - Feminino- 01/12/68
Clinica- Maria Silva- Duas internações em 2000- Equipe médica- Duração média das internações
Laboratório de Exames- Maria Silva- Exames requeridos- Resultados
OPERACIONAL
16
Data Warehouse Características
Variação no tempoVariação no tempoOperacional Atômico Departamental Individual
Maria SilvaRua XV, 02Medicação: X, YEntrada: 05/11/00Alta: 10/11/00
Janeiro 4101Fevereiro 4209Março 4175Abril 4215............
Pacientes desde1980 tomando o medicamento X e com período de internação superior à 5 dias
Quais são medicamentosministrados à Maria Silvaneste momento?
Quais foram osmedicamentos ministrados à Maria Silva nos últimos 5 anos?
Estamos atendendo mais ou menos pacientes ao longo do tempo?
Quais são os riscos(tendências) em relação aos pacientes que foram vitimas de infeção hospitalar?
Maria SilvaRua 24 horas, 12Medicação: X, ZEntrada: 01/03/98Alta: 10/03/98
Maria SilvaRua XV, 02Medicação: X, YEntrada: 10/11/00Alta: 10/11/00
17
Data Warehouse Características
Não volatilidadeNão volatilidade
OPERACIONAL
alterarincluir
acessar
excluirincluir
alterar
excluir
DATA WAREHOUSE
carregaracessar
18
Data Warehouse Características
LocalizaçãoLocalização
Dados detalhadosantigos
Dados detalhadosatuais
Dados levementeresumidos
Dados altamenteresumidos
Formas de Formas de armazenamento:armazenamento:
• único localúnico local(centralizado)(centralizado)
• por área de por área de interesseinteresse(distribuído)(distribuído)
• por nível de por nível de detalhesdetalhes
19
Data Warehouse Características
Credibilidade dos dadosCredibilidade dos dados• É o mais importante para o sucesso de É o mais importante para o sucesso de qualquer qualquer
projetoprojeto• Discrepâncias Discrepâncias simples de todo tiposimples de todo tipo podem causar sérios podem causar sérios
problemas quando se quer extrair dados para suportar problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas;decisões estratégicas para o negócio das empresas;
• Dados não dignos de confiança podem resultar em Dados não dignos de confiança podem resultar em relatórios inúteis, que não tem importância algumarelatórios inúteis, que não tem importância alguma
– por exemplo, uma lista de pacientes do sexo masculino e por exemplo, uma lista de pacientes do sexo masculino e grávidos;grávidos;
20
Data Warehouse Características
GranularidadeGranularidade• BaixaBaixa
– é possível responder a praticamente qualquer consultaé possível responder a praticamente qualquer consulta– porémporém, grande quantidade de recursos computacionais , grande quantidade de recursos computacionais
é necessária para responder perguntas específicasé necessária para responder perguntas específicas• AltaAlta
– ocorre uma significativa redução da possibilidade de ocorre uma significativa redução da possibilidade de utilização dos dados para atender consultas detalhadasutilização dos dados para atender consultas detalhadas
– porémporém, reduz-se muito o espaço em disco e o número de , reduz-se muito o espaço em disco e o número de índices necessáriosíndices necessários
21
Data Warehouse Características
Exemplo de níveis de granularidadeExemplo de níveis de granularidade
Prod. Data Qtda. ValorA1 13/9/00 10 100,00B1 14/9/00 15 150,00A1 16/9/00 20 200,00A1 16/9/00 90 890,00
mês/ano Prod. Qtda. Valor09/00 A1 120 1190,0009/00 B1 15 150,00
Baixa Alta
22
Data Warehouse Características
Três diferentes camadas:Três diferentes camadas:• operacionais, centrais do Data Warehouse, nível do usuáriooperacionais, centrais do Data Warehouse, nível do usuário
Três diferentes componentes:Três diferentes componentes:• Mapeamento:Mapeamento: descrevem como os dados de sistemasdescrevem como os dados de sistemas operacionais operacionais
são transformados antes de entrarem no DWsão transformados antes de entrarem no DW• Histórico:Histórico: descrevem as regras corretas a serem aplicadas nos descrevem as regras corretas a serem aplicadas nos
dados corretos quando as regras de negócio mudamdados corretos quando as regras de negócio mudam• Algoritmos de sumarização:Algoritmos de sumarização:
– mostram a relação entre os diferentes níveis de detalhes dos dados, mostram a relação entre os diferentes níveis de detalhes dos dados, indicando inclusive que nível de sumarização é mais adequado para um indicando inclusive que nível de sumarização é mais adequado para um dado objetivo.dado objetivo.
MetadadosMetadados
23
Data Warehouse Características
Fontes de metadadosFontes de metadados• Repositórios de ferramentas CASERepositórios de ferramentas CASE• Documentação do desenvolvimento dos sistemas Documentação do desenvolvimento dos sistemas
operacionaisoperacionais• Código fonte dos sistemas operacionaisCódigo fonte dos sistemas operacionais• EntrevistasEntrevistas• O próprio ambiente do Data WarehouseO próprio ambiente do Data Warehouse
– informações tais como freqüência da acesso, em que nível de informações tais como freqüência da acesso, em que nível de agregação, tempo de resposta de cada consulta, etc..agregação, tempo de resposta de cada consulta, etc..
24
PlanoPlano
ConceitosConceitos As características de um Data WarehouseAs características de um Data Warehouse ALGUMAS ARQUITETURASALGUMAS ARQUITETURAS Modelos de dadosModelos de dados Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse
25
ArquiteturaArquiteturaGenérica de um D/WGenérica de um D/W
Camadas de bancos de dados operacionais e fontes externas: Camadas de bancos de dados operacionais e fontes externas: • É composto pelos dados dos sistemas operacionais das empresas e É composto pelos dados dos sistemas operacionais das empresas e
informações provenientes de fontes externas que serão integradas para compor informações provenientes de fontes externas que serão integradas para compor o DWo DW..
Camada de acesso a informação: Camada de acesso a informação: • Envolve o Envolve o hardwarehardware e o e o softwaresoftware utilizado para obtenção de relatórios, planilhas, utilizado para obtenção de relatórios, planilhas,
gráficos e consultas. gráficos e consultas. • É nesta camada que os usuários finais interagem com o DW, utilizando É nesta camada que os usuários finais interagem com o DW, utilizando
ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de data-mining e visualização.ferramentas de data-mining e visualização.
Camada de acesso aos dados: Camada de acesso aos dados: • Esta camada faz a ligação entre as ferramentas de acesso à informação e os Esta camada faz a ligação entre as ferramentas de acesso à informação e os
bancos de dados operacionais. bancos de dados operacionais. • Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas
de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama acesso universal de dadosacesso universal de dados..
26
ArquiteturaArquiteturaGenérica de um D/WGenérica de um D/W
Camada de metadados (Dicionário de dados): Camada de metadados (Dicionário de dados): • Metadados são as informações que descrevem os dados utilizados pela Metadados são as informações que descrevem os dados utilizados pela
empresaempresa– descrições de registros, comandos de criação de tabelas, diagramas descrições de registros, comandos de criação de tabelas, diagramas
Entidade/Relacionamentos (E-R), dados de um dicionário de dados, etc.Entidade/Relacionamentos (E-R), dados de um dicionário de dados, etc. Camada de gerenciamento de processos: Camada de gerenciamento de processos:
• É a camada responsável pelo gerenciamento dos processos que contribuem É a camada responsável pelo gerenciamento dos processos que contribuem para manter o DW atualizado e consistente. para manter o DW atualizado e consistente.
Camada de transporte:Camada de transporte:• Esta camada gerencia o transporte de informações pelo ambiente de rede. Esta camada gerencia o transporte de informações pelo ambiente de rede.
Inclui a coleta de mensagens e transações e se encarrega de entregá-las em Inclui a coleta de mensagens e transações e se encarrega de entregá-las em locais e tempos determinados.locais e tempos determinados.
Camada do Camada do Data WarehouseData Warehouse: : • Corresponde aos dados utilizados para obter informações. Corresponde aos dados utilizados para obter informações.
27
ArquiteturaArquiteturaGenérica de um D/WGenérica de um D/W
28
ArquiteturaArquitetura2o. 2o. ChaudhuriChaudhuri
Um componente Um componente back endback end:: conjunto de aplicações responsáveis por extrair, conjunto de aplicações responsáveis por extrair, filtrar, transformar, integrar e carregar os dados de diferentes origens no DW; filtrar, transformar, integrar e carregar os dados de diferentes origens no DW;
Um componente Um componente front endfront end:: conjunto de aplicações responsáveis por conjunto de aplicações responsáveis por disponibilizar aos usuários finais acesso ao DW; disponibilizar aos usuários finais acesso ao DW;
Um repositório para armazenar e gerenciar os metadados do sistema. Um repositório para armazenar e gerenciar os metadados do sistema.
Data Warehouse
(SGBD)
Componenteback-end
Componente front-end
Repositório de metadados
Fontes internas
Fontes externas
29
ArquiteturaArquitetura: : 2o. 2o. ChaudhuriChaudhuriO fluxo de dadosO fluxo de dados
Repositório de metadados
Downflow
Data Warehouse
Fontes internas Fontes
externas
Dados antigos
OutflowUpflow
Inflow
Metaflow
Componente front-end
Componente
back-end
30
ArquiteturaArquitetura: : 2o. 2o. ValenteValente
Base de dados
Base de dados
Base de dados
Integrador
Extrator
Extrator
Extrator
Data warehouse
Consultas
31
PlanoPlano
ConceitosConceitos As características de um Data WarehouseAs características de um Data Warehouse Algumas ArquiteturasAlgumas Arquiteturas MODELO DE DADOSMODELO DE DADOS Desenvolvimento do Data WarehouseDesenvolvimento do Data Warehouse Povoamento do Data WarehousePovoamento do Data Warehouse Extração de informações do Data WarehouseExtração de informações do Data Warehouse Análise do uso da tecnologia Data WarehouseAnálise do uso da tecnologia Data Warehouse