Extração,Transformação e Carga dos dados
-
Upload
sergio-henrique -
Category
Documents
-
view
32 -
download
12
description
Transcript of Extração,Transformação e Carga dos dados
-
DATA WAREHOUSE
ETL
Kimball University
2008
-
As Metas
Aprender arquitetura do ETL
Decompor o problema em partes manejveis
Aplicar tcnicas que podem ser usadas novamente
Investigao dos detalhes sem perder perspectiva!
Desenvolver julgamento para evitar retrabalho ou deixar de fora capacidades importantes
-
Planejamento
Preparar desenvolvimento ETL:
desenvolvendo as perspectivas essenciais do projeto
Subsistemas 1-3: profiling, change data capture, and extraction
Subsistemas 22-24: agendamento de job, tratamento de exceo,
backup, recovery e restart
Tratando os dados: subsistemas 4-7, 28
Conformidade, resolvendo os desafios da integrao: subsistema
8
Subsistemas 25-27, 29-30 controle de verso, migrao de
sistema e teste
Arquitetura de ETL em tempo real
-
O que voc deve saber
Tabela fato
Tabela dimenso
De que forma o modelo estrela difere do modelo normalizado
Surrogate keys chaves artificiais
Natural keys chaves naturais
SCDs (slowly changing dimensions) - Dimenses que mudam lentamente
Os trs tipos de tabelas fatos
Tabela ponte ou dimenses com multi-valores
Aggregados (ou view)
-
O desafio do ETL
Custo eficaz
Confivel
Extensvel
Compatvel
Observvel
Seguro
Sistema manejvel para trazer os dados para o data
warehouse e deix-lo pronto para consulta do usurio
final.
-
Todos entendem E, T, L
E:
Obter os dados da origem para o data warehouse
T:
Transformar e deixar pronto para o data warehouse
L:
Carregar os dados nas tabelas do data warehouse
-
Como faz para dividir em trs passos?
Depende da Origem
Quais ferramentas esto disponveis As habilidades dos envolvidos no trabalho
A ferramenta de consulta e relatrio
-
hora de mais disciplina e estrutura no back room
Familiarizar com os nomes e as tarefas do cliente
Identificar as tarefas que voc no pode deixar
de fora
Agrup-los em quatro categorias (E, T, L e M)
E: Obter os dados para o DW
T: Tratamento e conformidade
L: Preparar para apresentao
M: Gerenciar todos os processos
-
First: Get the Data Into the DW
Logical Data
Map
Data Profiling (1)
Result:
Extracted Tables
incl Format
Conversions
Comprehensive
Requirements
Change Data
Capture (2)
Extract (3)
E: Obter os dados para o DW
prepare to start
judge data
isolate changes
get into DW
Preparar para iniciar
Conhecer os dados
Isolar as alteraes
Carregar no DW
-
T: Tratar e conformar
Second : Clean and Conform
Cleansing Sys &
Data Quality
Screens (4)
Deduplicating (7)
and Conforming
System (8)
Result:
Cleaned Tables
and Conformed
Dimensions
fd
d
d
d
Error Event Schema (5)
w. Audit Dimension (6)
cleaning machinery
cleaning control
integration Integrao
Controle de limpeza
Tratamento nos dados
-
L: Preparar para Apresentao
Third: Prepare for Delivery
Surrogate Key
Generator (10),
Pipeline (14)
SCD Manager (9)
Dimension
Manager (17),
Fact Provider
(18)
Special
Dimensions (12),
Multi-Valued
Dimensions (15)
Hierarchy Table
Manager (11):
Fixed, Variable,
Ragged
Agg Tables (19),
OLAP Cubes (20),
DI Manager (21)
Result:
Fact & Dim
Tables Ready for
Delivery
Fact Table
Types (13):
Late Arriving
Data (16)
keys
time variance fact types &
late data
bridges
hierarchies
admin
aggregates, cubes, & data integration
Variao de tempo
Chaves
Hierarquias
Tabelas pontes
Tipos tabelas fato e
dados atrasados
Administrador
Agregados, cubo
e integrao dos
dados
-
respond
M: Controlar todos os processos
Fourth: Manage
Job Scheduler (22)
Workflow Monitor (27)
Recovery/Restart (24) Pipeline/Parallelize (31)
Problem Escalation (30)
Version Control (25) &
Migration (26)
Lineage &
Dependency (29)
Compliance (33)
Metadata Repository (34)Sorting (28)
Backup (23)
Security (32)
control source
protect
speed
guard
speed
comply
manage
measure
control
Controlar
Proteger
Controlar
Mtrica
Velocidade
Origem
Velocidade
Guardar
Conformidade
Gerenciar
Responder
-
E (talvez) R: Adaptar para Real Time
Fifth: Adapt to Real Time
fd
d
d
d
streaming
real-time
ETL system
convert existing systems converter sistemas existentes
-
Os termos back room e front room anlogo a um restaurante Cozinha (back room)
Os ingredientes precisam ser selecionados e aprovados
Preparar os alimentos
Itens separados so reunidos harmoniosamente
O produto final montado no prato que ser entregue na sala de jantar
Sala de jantar (front room)
O cliente recebe o prato montado pronto para consumi-lo utilizando os talheres
O chef de cozinha o responsvel pela qualidade do que foi entregue
-
Os termos back room e front room no DW Sistema ETL (back room)
Extrao
Limpeza
Conformidade
Entrega (o modelo com os dados)
Ambiente usurios finais (front room)
Apresentar o que importante (do DW)
Investigar as causas (usando o DW)
Testar que se (usando o DW)
Acompanhar as decises tomadas (de volta para o DW ! )
-
Necessidades do negcio
Comece identificando os assuntos das reas de
deciso
Conduzir as reunies com usurios
Identificar os indicadores de performance esperado
(KPIs)
Expandir as aplicaes analticas (AAs):
Consultas e relatrios
Isolar e enfatizar a importncia de encontrar as chaves
Identificar as causas e conseqncias
Acompanhar as decises tomadas atualmente
Inferir os dados a partir dos indicadores e aplicaes
analticas
-
Indicadores de performance
Operao de manufatura
Variao dos custos padres vs. localizao
Operaes de venda
Tempo do ciclo de venda vs. equipe de venda
Call Center
Tempo de resoluo das questes vs. treinamento dos empregados
Web Site
Quantidade de passos para completar uma compra
Recursos humanos
% de progresso para qualificar para o prximo nvel profissional
-
Anlise de comportamento
Antecipar-se para as necessidades do usurio
Ligar a pesquisa instantnea do cliente com visita, aspecto demogrfico, histrico de compras. Ex: site da Amazon.
Acompanhar as promoes personalizadas e as ligaes de siga-me
Durao das visita e quanto tempo o cliente demorou para retornar
Sucesso de vendas associadas
Tempo de latncia: quanto tempo demorou para vender o produto aps a sua primeira exposio
Uso de inventrio online, mostra resposta de produto esgotado/ fora de estoque
Reao a apresentao da mercadoria
18
-
Novas fontes de dados
Email/SMS
Call center
Blogs
Redes sociais: Facebook, Twitter
Ofertas na web e no celular
Rastrear os registros RFID
Cestas inteligentes
Ex: Pagamento de pedgio
Integrao rpida de diversas fontes, mudando constantemente!
19
-
Compliance
Identificar normas legais e financeiras especficas e de
cumprimento imediato
Determinar os requisitos especficos para o
cumprimento destas normas
Para ser seguro:
Prove que o resultado final derivado do sistema
origem
Prove que os dados originais no foram modificados
Documentar as transformaes usadas
-
Uso de Data Profiling
Estratgia: decidir, o mais cedo possvel, se a fonte de
dados suporta a misso bsica
Descobrir mais tarde pode ser fatal para voc e
para o projeto
Ttica: identificar falhas nos dados
Expor para o usurio a expectativa real se os dados
no estiverem perfeitos
-
Segurana
Dados do perfil de armazenamento de dados por nveis
de sensibilidade
Chegar a um acordo com os usurios finais e
executivos
Incluso de dados sensveis
Uso de perfis para acesso aos dados
Responsabilidade para administrar os perfis e permitir
acesso telas de usurios finais
Configurar redes e comunicaes
Monitorar os usurios internos e as aes do
administrador
Proteger a mdia fsica incluindo backup
-
Integrao dos dados
Comprometimento seguro para apoiar o processo de modelagem dimensional para construir dimenses e fatos conformados.
Preparar as expectativas do usurio final
-
Latncia dos dados
Como parte do data profiling, descrever a validade dos dados novos e atualizar os processos que podem ocorrer
Quantificar, se possvel, o valor de dados acessveis mais rpido que o ETL atual pode entregar
Identificar a origem e a tela do usurio final que deve ser baseada no fluxo de dados
Identificar as fontes que do origem aos late arriving dimensions
-
Archiving, Lineage, Impact
Estabelecer uma poltica para longo perodo de
armazenamento e recuperao de dados
-
Interface do usurio final
Conduzir os direitos no perfil do usurio
Determinar as pastas visveis ao usurio conforme a
sua classe ou grupo
-
Habilidades disponveis de TI
e licenas
Levantamento das competncias da equipe e das
habilidades disponveis no mercado:
Plataforma do sistema operacional
DBMS
Conjunto de ferramentas de ETL
Linguagem de script e utilidades
Experincia com data warehouse, em especial com
modelagem dimensional
Licenas legais que voc precisa conviver:
DBMS, ERP, ETL
-
Ferramentas de ETL Pros e Contra
Pros
Grficos, parmetros baseados em programao
Transparncia e lgica de alto nvel
Documentao automtica Suporte extensivo automtico de metadados
Biblioteca de conexes
Balanceamento de carga automtico, paralelizao
Controle automtico da verso e origem
Habilidades do mercado e cursos lecionado pelos fabricantes.
Contras
Custo elevado
Curva de aprendizado significativa
-
Transformaes tpicas fornecidas pelas ferramentas de ETL
Agregados
Expresses gerais
Filtros
Joins
Lookups
Normalizadores
Gerador de seqncia
Stored procedures
Entrada e sada formato XML
Facilidade para escrever a sua prpria transformao
-
Posio no mercado Current Marketplace ETL Tool Suite Offerings
Microsoft SQL Server 2005 Integration Services (219,000 hits) Oracle Warehouse Builder (102,000 hits) Informatica PowerCenter (93,600 hits)
Cognos DecisionStream (27,200 hits) SAP BusinessObjects Data Integrator (12,400 hits) Ab Initio Software (near impossible to evaluate) (9,380 hits) ETI (Evolutionary Technologies International) (7,810 hits) Ascential DataStage
(acquired by IBM, now Websphere Information Integration) (7,430 hits)
Data Flow Server (acquired by Group 1, Pitney Bowes Co.) (2,890 hits)
DataMirror Transformation Server (2,460 hits) Hummingbird ETL (2,130 hits) IBM DB2 Data Warehouse Manager (1,710 hits) SAS Enterprise ETL Server (1,110 hits)
Pentaho Talend
-
Hand Coding Pros e Contras
Vantagens
Rpida implementao por desenvolvedores
experientes
Baixo custo de entrada
Altamente eficiente para aplicaes com destino
especfico
Desvantagens
Os scripts e os programas devem ser
especificamente documentados e mantidos
Todo suporte aos metadatas deve ser concedido pelo
programador
No h suporte automtico para o agendamento,
balanceamento de carga, controle de verso
Sem conectores automticos com a origem
-
Ferramentas Data Profiling e Data Cleansing Vendors
Profiling
Ascential/IBM (ProfileStage)
Evoke Software (acquired by Informatica)
SAS DataFlux Trillium/Harte Hanks
Pervasive Data Integrator
Cleansing
Ascential/IBM (acquisition of Vality)
First Logic (acquired by SAP Business Objects) Group 1
SAS DataFlux
Search Software America
Trillium (acquired Harte Hanks)
-
PARTE I: EXTRACT,
CLEAN, AND
CONFORM
Kimball University 2008
-
1: Data Profiling
Objetivos
Conhecer a preciso de dados, contedo e relevncia da fonte
Ateno com os dados que devem ser fixados antes da extrao
Fornecer uma lista, mais completa possvel, com as transformaes que devem ocorrer aps a extrao dos dados
Gerar essas transformaes diretamente das ferramentas de data profiling
Incorporar essas transformaes no fluxo de ETL
-
2: Change Data Capture
Isolar os dados alterados para permitir o processamento seletivo, em vez de atualizao completa
Capturar todas as alteraes feitas nos dados do sistema origem incluindo as interfaces no padronizadas
Capturar edies, inseres e delees no sistema origem
Marcar os dados alterados com cdigo de motivo
Apoiar o acompanhamento de conformidade com metadata adicionais
Realizar a captura de dados de alterao o mais cedo possvel
-
2: Change Data Capture
Inputs
Arquivos de log com as transaes do sistema
Auditoria nas tabelas de origem
Extrato de tempo
Cpia completa da tabela
Database triggers
Outputs
Inserts, updates, deletes
Cdigo do motivo
Conformidade metadata: aplicvel em um intervalo de tempo, origem
-
2: Change Data Capture
Arquitetura
Executar CDC no sistema origem ou no sistema de ETL
Confie em um tipo de entrada mas vincule o total da origem com as consultas de auditoria
Substituir os campos de data nulos por datas 01-01-0001
Para comparar uma tabela preciso a foto completa do perodo anterior
Livro pp. 106-111, 186-187
-
3: Extract
Objetivos
Copiar os dados da origem para o data warehouse
usando biblioteca de maior rendimento possvel
Puxar, empurrar, ou stream de dados dirigidos pelo agendamento de job e alertas
Verificar se o formato do campo compatvel com data warehouse e quando necessrio converter para formatos suportados pelo data warehouse
Carregar o modelo dimensional, esquemas normalizados e flat files
Fase de extrao dos dados temporrios
-
3. UDDI, WSDL, and SOAP Allow Orgs to Implement SOA Architecture
permite
comunicao
entre descreve
acessado usando
obriga para capacita
-
SOA Architecture
Promessas tradicionais
Unido fracamente
Padres abertos (UDDI, WSDL, SOAP, XML)
Sobering Lessons
SOA fora a organizao a confrontar
Integrao e qualidade dos dados
Exige governana sofisticada
Muda o gerenciamento, medidas de qualidade, conformidade,
segurana, privacidade, auditoria
40
-
Building SOA Services for the
EDW
Visualizar a granularidade grosseiramente :
Create customer Criar o cliente Read customer descriptors Ler a descrio do cliente Update customer descriptors Atualizar a descrio do
cliente
Delete customer Deletar o cliente
Iniciar modestamente: Implementar os servios em torno do ETL e subsistemas de BI.
Fracamente acoplados
Estritamente definidos, enfatizando o desempenho e escalabilidade
Sujeito a governana desde o incio
41
-
Low Hanging SOA Fruit
Candidatos bem definidos subsistemas ETL/BI
Change data capture
Tela data quality com colunas e estruturas
Verifica se o endereo confivel
Gera Surrogate key
Publicao das conformed dimensions
Tratamento para alerta em tempo real
Construo e manuteno das hierarquias da tabela
Drill across aplicao de BI
42
-
3: ETL Targets
Flat Files
Formato universal independente do DBMS,
bom para arquivo a longo prazo
Manipulao eficiente diretamente da linha de
comando
Notvel leitura, atualizao e acesso aleatrio no
bom
Agregaes usando quebra de linha bem eficiente
-
22: Job Scheduler
Objetivos
Agendar e executar jobs de todos os tipos
Agendamento mais vantajoso porque
Controla relacionamentos e dependncias entre os jobs
Mecanismo confivel para gerenciar estratgia de
execuo
-
Example Modern Job
Schedulers Microsoft SQL Server Agent (165,000 hits)
IBM Tivoli (144,000 hits)
BMC Control-M (41,100 hits)
Oracle 10g dbms_scheduler (23,700 hits)
Computer Associates Unicenter AutoSys (13,100 hits)
Argent Job Scheduler (13,100 hits)
Cronacle by Redwood (13,000 hits)
Load Sharing Facility - LSF (Platform Computing) (10,700 hits)
UC4 (6,460 hits)
Opalis Integration Server (5,210 hits)
CA/Cybermation ESP Espresso (1,800 hits)
SAS DSx3 (575 hits)
Pervasive Integration Hub (497 hits)
-
23: Backup
Objetivos
Copiar os dados do data staging e da partio em tempo real para local mais seguro: Arquivo histrico, Restart incremental
Operao automatizada
Minimizar exposio de perda de dados
-
24: Vulnerabilities of Long-Running ETL processes
Quanto mais tempo um processo de ETL demorar para
executar mais ciente voc deve ficar das
vulnerabilidades ao fracasso
Carregar no sistema origem para re-run
Posio lgica necessria para retornar, ou reiniciar a
partir da posio atual, por exemplo, usar a chave
artificial (SK) da tabela fato
Escolha uma dependncia de jobs horizontal ou vertical
Horizontal executa os processos at o final
independentemente
Vertical significa que os processos aguardam a
concluso das metas comuns, em especial, as
prontas para carregar.
-
24: Minimizing the Risk of Load Failures
Modos de falha incluem
Falha na rede
Falha na base de dados
Falha no disco Sistema origem Data staging Data warehouse
Falha de memria
Espao de tempo, espao de dados, espao de ndice
Falha no data quality
Atualizao do sistema sem aviso prvio
-
24: Minimizing the Impact of Failure
Particionar os processos
Utilize pontos de recuperao
Ponto de restart lgico. Ex: data e hora ou SK da
tabela fato
til para restart, backout, updating
Salvar as chaves para serem substitudas no processo de
atualizao
Mantenha os metadados (Ex: os ltimos registros
carregados)
-
4: Data Cleansing System
Objetivo
Sistema global para gesto de qualidade dos dados
Mensurar a qualidade dos dados: identificar dados que precisam ser tratados
Tomar as aes corretivas apropriadas
Interfaces para a interveno de dados defeituosos
Montar descrio temporal seriada de dados deficiente e as medidas tomadas
Unir os dados tratados com os atuais para gerar relatrios diretos de qualidade
Dimenso de auditoria
-
4: Data Cleansing System
Entrada
Dados sem tratamento
Dependncia lgica para agendamento de job
Sada
Dados tratados
Aes tomadas
Registro das aes tomadas e todos os eventos de
qualidade de dados
-
4: Quality Screen Process Flow
-
4: Oracle Process Flow Tool
-
4: Informatica PowerCenter Workflow Manager
PowerCenter
Session
External Process
Decision Task
Email Task
-
5: Error Event Schema
Objetivo
Estrutura central para capturar e responder eventos de qualidade de dados
Histrico dos eventos de qualidade de dados disponveis para anlise Six Sigma Quality = 3.4 defeitos por milho de
oportunidades Definir os objetivos do projeto e o que ser
entregue para o cliente Mensurar o processo para determinar a
performance atual Analisar e determinar a causa dos defeitos Melhorar o processo eliminando os defeitos Controlar performance de futuros processos
-
5: Error Event Schema
-
6: Audit Dimension
Objetivos
Capturar os metadatas completos para criao e
contexto de qualidade de cada registro da tabela fato
Anexar esses metadados para cada tabela fato como
uma dimenso
Use contexto de dimenso para os relatrios de
auditoria instrumentado
-
6: Attaching an Audit Dimension
-
6: Instrumenting a Report With an Audit Dimension
-
28: Sort Data Immediately After Extract
A maioria dos processos de ETL precisam de dados classificados
Escolher o tipo de recursos mais eficiente
Combinar extrao, converso de formato e classificao em um passo.
A sabedoria convencional diz que os pacotes dedicados so mais rpidos, no entanto, vendedores de ETL e DBMS afirmam j estarem se recuperando...
-
7: Deduplicating
Objetivos
Membros dimensionados de-duplicados dentro e
atravs de tabelas de dimenso
Implementar procedimento de sobrevivncia para
integrar os dados de fontes mltiplas
-
7: Microsoft: Fuzzy Grouping Module for Deduplicating
-
7:
Microsoft:
Fuzzy
Grouping
Detailed
Results
-
7: Oracle Match-Merge Wizard
-
7. Oracle: Expanded Match-Merge Operator in Map
-
7: Survivorship Drive Tables
-
7. Multiple Sources and Duplicated Customers
Design:
Se a origem possui referncia
duplicada ento se pode
implementar dimenso multivalor
com a tabela ponte
-
8: Conforming
Objetivos
Habilitar o drill across em ambientes com mais de uma tabela fato
Aplicar domnios comuns de dados para campos designados nas tabelas dimenses conformadas
Aplicar as regras de negcio comuns para os campos designados nas tabelas fatos conformados
-
Key Concept: Conformed Dimensions
Uma dimenso que um subconjunto perfeito de linhas e colunas considerado conformed dimension
O contedo das colunas comuns devem ser equivalentes (mesmo domnio)
-
Drilling Across Means Combining Row Headers
Abrir uma conexo separada para cada origem
Reunir cada conjunto de resposta
Fazer o merge do conjunto de resposta nos cabealhos de colunas conformed
Product
Manufacturing
Shipments
Warehouse
Inventory Retail Sales Turns
Framis 2940 1887 761 21
Toggle 13338 9376 2448 14
Widget 7566 5748 2559 23
-
8: Conforming
Questes de arquitetura preciso definir bem o que ser entregue pelo gerente
da dimenso Apenas um subconjunto de dimenses ou dimenses completas Mapeamento das SK nas tabelas de destino Dimenses snowflake encolhidas para suportar agregados
Precisa de detalhamento lgico para atualizar dimension version numbers
Precisa de ferramenta instrumentada que realize drill across para usar dimension version numbers
Os membros duplicados da dimenso precisam de ponteiros para todas as chaves naturais (NK) dos registros na origem
Livro pp. 148-159, 447, 449
-
7, 8: Deliver Cleaned, Deduplicated, Conformed, and Survived Dimensions
Source 1
Merged,
Survived and
Globally
Deduped
Source 2
Extracted
using adapter
Cleaned and
locally
Deduplicated
Conformed
Source 3
Conformed
Dimension ready
for Delivery
Extracted
using adapter
Cleaned and
locally
Deduplicated
Conformed
Extracted
using adapter
Cleaned and
locally
Deduplicated
Conformed
Repli-
cation
Engine
fd
d
d
d
fd
d
d
d
fd
d
d
d
fd
d
d
d
Special contents:
1) dimension version number
2) back pointers to all source
natural keys
-
25: Version Control
Objetivos do controle de verso versionamento
Conjunto de fotos armazenadas com o objetivo de salvar e restaurar o contexto completo do ETL.
Numerar as verses
Alternativas
Microsoft Visual Source Safe
Livro pp. 353-368, 413-416
-
26: Version Migration
Desenvolvimento Teste Produo Completar os testes da fase de desenvolvimento
Scripts de testes automticos de regresso para desenvolvimento e teste
Testes do sistema completos na fase de teste
Simulado com volume de dados reais na fase de teste
Migrao para prxima fase inclui transferncia automtica completa do contexto de ETL incluindo todas as conexes e perfis de usurios
Migrao para fase de produo inclui Documentao de migrao Cenrio de rollback: re-extrair os dados
-
27: Workflow Monitor
Objetivos
Monitorar status do job incluindo aqueles que ainda
esto pendente, executando, completo ou suspenso
nos registros histricos
Mensurar performance da infraestrutura incluindo
CPU, memria, disco, banco de dados e utilizao do
servidor
Livro pp. 332-339
-
27: Monitor Process Metadata
Notificao de dados atrasados
Linhas carregadas com sucesso
Linhas rejeitadas
Tempo decorrido
Linhas processadas por segundo
Tempo estimado de concluso
Utilizao da memria Memria compartilhada
Tamanhos do buffer
Processador, banco de dados, memria, disputa do disco
Rotina de uso de tabelas, ndices, agregados
-
27: Ascential Example of ETL Job Monitoring
Higher level run results
Lower level discrete
row counts per partition
(flow always runs in
parallel)
-
22: Loading the Data
Desligue o log de rollback!
Separe inserts de atualizaes a menos que usando "Upsert
Carregar em paralelo
Construir os agregados fora da base de dados
Particionar a tabela fato na FK de data que os usurios mais usam
-
22: The Order of Things
A carga deve ser feita na seguinte ordem:
Subdimenses
Dimenses
Tabelas ponte (bridge tables)
Tabelas fato
Dimenses agregadas (contradas)
Tabelas fato agregada
-
29: Lineage and Dependency
Objetivos
Lineage: comeando com um elemento de dados
especficos em uma tabela intermediria ou um relatrio de um usurio final, identificar a origem dos dados, as tabelas intermedirias que contm aqueles dados e a origem deles, e todas as transformaes que o elemento de dados e a origem foram submetidas
Dependncia: comeando com um elemento de dados especficos em uma tabela de origem ou uma tabela intermediria, identificar todas as tabelas intermedirias e relatrio de usurio final que contm esse elemento de dado ou derivado dele e todas as transformaes aplicadas no elemento de dado e suas derivaes
-
29: Informatica Lineage Analysis
This is
selected BO table Oracle table
-
29: Oracle: Impact Map
-
29: Oracle Worst Case Scenario Impact Diagram
-
30: Problem Escalation
Objetivo
Capturar, priorizar, gerenciar e comunicar todo
desenvolvimento, manuteno e problemas
operacionais
Resposta garantida
Nveis de escalonamento
Help desk
Administrador do sistema ou DBA
Gerente de ETL
Suporte ao desenvolvedor ou fornecedor responsvel
-
Defining Real-Time ETL
Tudo que muito rpido para o seu ETL atual
Alterar de batch ETL para streaming ETL
Gerao 1 Armazenamento de dados operacionais
Sistemas fisicamente separados entre OLTP e DW
Gerao 2 Partio de tempo real
Extenso fsica separada de tabela fato existente, contendo
apenas as atividades novas desde a ltima carga das tabelas
estticas
Na memria, sem ndices, sem agregaes
-
Real Time Operational
Architecture
86
-
Real Time
Data Extract & Transform
Alterar captura de dados (Change data capture)
Notificao do efeito colateral da aplicao
Escutar as transaes de entrada
Pegar frequentemente os campos atualizados na base de dados
Pegar frequentemente os log de transao
Extrao
Microbatch envia e recebe arquivos do staging file
Transformao
Estrutura e transformao limitada pela latncia
Regras de negcio devem ser limitadas ou inviveis
Os dados do real time podem ser substitudos por processos batch
peridicos
-
Real Time Integration
Gerenciando a dimenso (usando como exemplo o cliente)
Ligar a identificao do cliente em tempo real com lista j existente
Publicar lista temporria de novos clientes para a partio real time
Tipo 1 atualiza a lista temporria mltiplas vezes ao dia
Atualizao permanente da lista esttica de clientes na base batch
Provedor da tabela fato (usando como exemplo o carregamento)
Dividir as linhas de transferncia em tempo real em parties RT
Responder s atualizaes das dimenses intra-day da DM
Atualizar permanentemente a tabela de fatos estticos na base batch
-
Real Time Data Presentation
Adicionar diariamente, na memria hot partition para cada tipo de tabela fato. A partio:
contm todas as atividades desde a ltima
atualizao do data warehouse esttico. Tabelas
estticas so atualizadas uma vez a cada 24 horas.
Conectar o mais prximo possvel ao gro da tabela
fato esttica
No indexado, assim dados novos de entrada
podem entrar continuamente
Suporta consultas altamente responsivas
Tem backup no log de arquivo de disco caso tenha
perdido a memria
89
-
Transaction Grain Hot Partition
Estrutura dimensional idntica como as tabelas fatos estticas
Sem ndices (!), sem agregaes, tudo na memria
Exemplo 10 milhes transaes/dia
12 dimenses, 8 fatos = 80B 800 MB/dia
Ferramenta de BI pesquisa periodicamente a base de dados com consultas idnticas se estiver usando tabelas estticas e hot tables, juntando-as. No h necessidade de consulta separada se a hot partition for uma partio real.
-
Transaction Grain Dimensions
Registros necessrios de dimenso esttica so selecionados de entradas conhecidas as chaves naturais a medida que as transaes chegam, construindo um subconjunto de dimenso mnima na memria
Entradas vazias de dimenso genrica so criadas para as transaes com chaves naturais (NK) de entrada desconhecidas cujo significado est atrasado
As dimenses genricas vazias so parcialmente preenchidas posteriormente com valores dimensionais
atrasados
-
Periodic Snapshot Hot Partition
Hot partition o perodo evolutivo atual, atualizados continuamente at o final do perodo
Fatos so substitudos continuamente
Copiar as fotografias de todas as contas na hot partition no incio do perodo, mas teremos novas contas
Em um banco com 20 milhes de contas,
com 5 dimenses + 10 fatos:
60 B x 20 milhes = 1.2 GB na hot partition
-
Hot Partition = ODS-Like
Source Batch extract (todas as noites)
Usar a partio quente para atualizar o lote se os dados no estiverem corrompidos
Acrescentar os registros da fato nas tabelas fatos estticas
Inserir/Atualizar os registros alterados da dimenso tabela de dimenso esttica
Zerar a hot partition
Ou, batch extract do sistema origem
Use o arquivo original do sistema fonte se o arquivo possuir melhores regras de negcio
Neste caso, o ETL convencional carrega a cada 24 horas
Descartar a hot partition
-
Micro Batch ETL
-
Real Time Data Delivery Requires Hub-and-Spoke
-
Implement Real Time DW in EAI Environment
-
Zero Latency Enterprise Information Integration (EII)
Direcionar OLTP para acabar com a planilha do usurio !
Transformaes e integraes apenas no software
Pros: Por definio zero de latncia/atraso
Contra: sistemas OLTP manipulam toda a carga de consulta
Considerar necessidade de novos ndices e agregaes
Considerar as questes de OLTP a medida que afeta as ferramentas de consultas
Contra: No h dados de teste
Contra: Transformaes limitadas
Contra: O histrico limitado ao que o OLTP fornece