Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf ·...

16
Page 1 Asterio K. Tanaka BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING Asterio K. Tanaka http://www.uniriotec.br/~tanaka/tin0036 [email protected] Abordagens IMNON versus KIMBALL Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data Warehouse BDs Operacionais Fontes Externas FONTES DE DADOS Meta Dados Data Warehouse Data Marts FERRAMENTAS DE CONSULTA Análise Data Mining Relatórios OLAP OLAP Extração Transformação Carga Atualização Chaudhri&Dayal, SIGMOD RECORD 1997

Transcript of Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf ·...

Page 1: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 1

Asterio K. Tanaka

BANCO DE DADOSDISTRIBUÍDOS e DATAWAREHOUSING

Asterio K. Tanakahttp://www.uniriotec.br/~tanaka/tin0036

[email protected]

Abordagens IMNON versus KIMBALLArquitetura de DW e Metadados

Asterio K. Tanaka

Arquitetura Genérica de um Data Warehouse

BDs Operacionais

Fontes Externas

FONTES DE DADOS

Meta Dados

Data Warehouse

Data Marts

FERRAMENTASDE CONSULTA

Análise

Data Mining

Relatórios

OLAP

OLAP

ExtraçãoTransformaçãoCargaAtualização

Chaudhri&Dayal, SIGMOD RECORD 1997

Page 2: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 2

Asterio K. Tanaka

Abordagens de projeto de DW• Data Warehouses Corporativos

– de grande abrangência– complexos– alta probabiblidade de insucesso

• Data Marts Setoriais– Marketing, Financeiro, Admnistrativo, etc.– Projetos evolutivos– Enfoque inicial nos aspectos mais críticos– Aproveitamento da estrutura operacional disponível– Retorno mais rápido– Acúmulo de experiência : menor risco e menor custo

Asterio K. Tanaka

Data Warehouse de acordo com Kimball

Sistemas Operativos

Integração &

Transformação ODS

Data MartsIntegrados

Marketing

Vendas

Finanças

Produção

R.H.

...

DW = Operational Data Store + Data Marts Integrados

Histórico (não temporário)Alto nível de detalhe

Page 3: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 3

Asterio K. Tanaka

Corporate Information Factory de InmonData Mart

ODS

ExplorationWarehouse

I/t

DSSApplications

Near Line/SecondaryStorage

ERP

DataMining

Warehouse

EDW

website

?CRM?eCommerce?ERP

Asterio K. Tanaka

O ODS de Inmon

ODSAPPLl

DSS

EDW

SAPOracle FinancialsPeopleSoftBaan

Home grown

Commercial Customized

ERP

“The ODS serves tointegrate legacy applications and to provide a basis for operational DSS processing”

Page 4: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 4

Asterio K. Tanaka

ODS (segundo Inmon)

• “The operational data store (ODS) is a subject-oriented, integrated, current and volatile collection of data used to support the tactical decision-making process for the enterprise.

• Just as the data warehouse is the central point of integration for business intelligence, the operational data store becomes the central point of data integration for tactical decision making. It is a perfect complement to the strategic decision-making processes provided through the data warehouse/data mart constructs.”

Asterio K. Tanaka rtm015

Data Mart

EDW

financesales marketing

?OLAP?Multidimensional

EstruturasStar ou Snowflake

Data Marts de Imnon

Page 5: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 5

Asterio K. Tanaka

Onde Inmon e Kimball concordam

• É necessária uma arquitetura• Dimensões compartilhadas e medidas definidas

através de todas as áreas da empresa• O esquema estrela é útil para apresentar

informações aos usuários• Construir o DW iterativamente• Metadado é fundamental

• Cada um acredita que está certo e o outro errado!

Asterio K. Tanaka

Onde eles discordam

• Qual modelagem usar e onde– ER– Relacional (normalizado)– Star Schema/Modelagem Dimensional

• O papel dos Data Marts• Alguns pontos da arquitetura

Page 6: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 6

Asterio K. Tanaka

Componentes da Arquitetura

Ralph Kimball considera:• Data staging area

• Coleção de DM’s = DW

• ODS histórico

• Data Mart – não exatamente o mesmo de Inmon

• Star schema usado para tudo

• Dados arquivados

• Metadado

Bill Inmon considera:

• Camada de Transformação e integração

• Data warehouse corporativo

• ODS corrente

• Data Mart

• Exploration DW

• Metadado

Asterio K. Tanaka

DW e o papel da modelagem E/R

Ralph Kimball afirma:• ER Models are too complicated for end

users to understand

• ER Modeling/normalising only suitable for OLTP or in data staging area since it eliminates redundancy

• Results in too many tables to be easy to query

• ER models are optimised for update activity not high performance querying

Bill Inmon afirma• ER Model is suitable for data

warehouses because it is stable, and supports consistency and flexibility

• Normalised data is ideal basis for the design of the Data Warehouse and the ODS

• May not be suitable for the data mart, which deals heavily with regular query activity and time-variant analysis

Page 7: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 7

Asterio K. Tanaka

Modelagem Dimensional e Star Schema

Ralph Kimball afirma:• DM is the only viable technique for

designing databases in the Data Warehouse environment because it provides a predictable framework

• Even lowest level granular data should be in dimensional format

• Every E/R model has an equivalent dimensional model representation

• Any type of business data can be represented as a “cube”

Bill Inmon afirma:• DM is reasonable viable technique for

designing data marts, when type ofaccess is very predictable

• DM’s are not suitable for updating at all• Differing business areas will likely want a

different dimensional model to look atsimilar data

• Series of dimensional models are notflexible enough to support an

enterprise’sentire Data Warehouse

Asterio K. Tanaka

Role of the Data Mart

Ralph Kimball afirma:• “Successive data marts built on a “star

schema model” together form a data warehouse

• The bad publicity about data marts comes from implementation of isolated stovepipe data marts done badly, and not conforming dimensions and measures

• Data Marts can be atomic but should still be in dimensional view format”

Bill Inmon afirma:• “Data marts should be populated by the

data warehouse and external data only

• Can contain subsets, aggregated data or atomic data

• Provide a departmental view of the world

• May or may not reside on a different platform from DW

• Provide for repeatable, predictable types of information delivery”

Page 8: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 8

Asterio K. Tanaka

Onde Inmon “funciona”• Grandes organizações com muitas unidades de

negócio diferentes que precisam compartilhar informações

• Multiplos SSD’s utilizados, e inconsistência entre eles é sentida.

• Modelagem tradicional é uma prática e é bem compreendida

Onde Inmon “falha”• Pouca atenção a detalhes de modelagem• Não enfatiza importância de dimensões

compartilhadas e medidas uniformes

Asterio K. Tanaka

Onde Kimball “dá certo”• Pequenas organizações , capacidade de medida

previsível• Lugares mais estáveis

– Dimensões e medidas são bem conhecidas e não mudam com frequencia

– Onde grão pequeno não gera Terabytes

Onde o Kimball “falha”

• Se você escolher a granularidade errada da primeira vez• Se surge uma nova maneira de olhar o negócio, pode custar um

outro projeto• Assume que usuários não conseguem lidar com um snow-flake

Page 9: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 9

Asterio K. Tanaka

Sugestão (de alguém neutro...)

“Why not… .– Pay strict attention to conforming dimensions and measures

across the business – Also model hierarchies early in piece– Have a permanent staging area (3rd normal form) and name it

an atomic data warehouse– Feed dimensional data marts from this DW/Staging area – Build data marts for departments going through staging area”

Asterio K. Tanaka

Outros componentes da Arquitetuta

Page 10: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 10

Asterio K. Tanaka

Transporte de Dados (Data Staging)

• Extração– Coleta de dados nos sistemas existentes– Operação demorada e complexa– Muitas vezes, desenvolvimento ad-hoc

• Transformação– Fundamental para clareza e integração– Recodificação de categorias: (m/f, male/female to M/F)– Alterações e uniformização de unidades de medida, nomes de

campos, datas…

• Limpeza– Fundamental para qualidade da informação extraída

• Carga e Realimentação – Trade-off (muito frequente é caro, pouco significa dados “velhos”)

Asterio K. Tanaka

Ferramentas de ETL

Nome do Fornecedor Nome da FerramentaMicrosoft DTSEvolutionary TechnologiesInternational

Extract Tool Suite

IBM Data Propagator Non-Relational, DataPropagator Relational, Data Refresher

Informatica PowerMart SuitePlatinum Technologies InfoRefinerPrism Solutions, Inc. Data Mart, Warehouse, Enterprise,

Conversion (Warehouse Suite)Sagent Data Mart SolutionVality Technology, Inc. Integrity Data Reingineering ToolSAS Warehouse Administrator

Page 11: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 11

Asterio K. Tanaka

Ferramentas de ETL?Deve-se considerar “desenvolver versus comprar”:

inicialmente, muitos empresas escrevendo seus próprios programas;?Produtos incluem geradores de código ou “transformadores

proprietários”;?Muitas ferramentas são voltadas para áreas específicas, embora com

funcionalidades em comum;?A maioria dos produtos é relativamente imatura, embora tenham

melhorado muito no último ano; ?As ferramentas são geralmente muito caras, embora um novo modelo

de preços esteja surgindo;?Estas ferramentas são mais adequadas para ambientes complexos

(múltiplas fontes e destinos, muitas transformações, muita limpeza necessárias), desde que as transformações não sejam muito complicadas.

Asterio K. Tanaka

ODS (Operational Data Store)• De acordo com Inmon:

– depósito volátil, temporário de dados correntes detalhados

• De acordo com Kimball:– depósito histórico, frequentemente alimentado, de dados

detalhados e integrados, constituindo-se no nível atômico do ambiente de DW

Page 12: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 12

Asterio K. Tanaka

Componentes Potenciais do Ambiente de DW

1. Repositório de Metadados2. Ferramentas de Projeto CASE3. Ferramentas de Extração, Transformação e Carga

(ETL)4. Ferramentas para Qualidade e Limpeza5. Ferramentas para Replicação6. Provedores de Interfaces de BD ODBC/OLE7. Ferramentas de Gateway para BD Legados8. Bancos de Dados Relacionais9. (Bancos de Dados Não-Relacionais Legados)10. Bancos de Dados Multidimensionais

Asterio K. Tanaka

Componentes Potenciais do Ambiente de DW

11. Ferramentas OLAP 12. Ferramentas de Relatório e

Consulta 13. Ferramentas de Data Mining 14. Cross-Platform Batch

Schedulers15. Ferramentas de Monitoramento

e Controle16. Pacotes de Aplicação para Data

Warehouse

Todos estescomponentes

manipulam/gerammetadados

Page 13: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 13

Asterio K. Tanaka

Meta- and Meta-Meta : Conceito

• “Meta-”– significa “algo que descreve ...”– e.g. meta-object, meta-information, metadata

• “Meta-Meta-”– significa “algo que descreve algo que descreve...”

• Metadados– “dados sobre os dados”– quaisquer informações que permitam identificar, localizar,

utilizar e entender os dados

Asterio K. Tanaka

Dado e Metadado: onde está afronteira?

Valor de ações

Companhia Ano ValorXX 1995 20XX 1996 30YY 1995 10… .

Valor de ações

Companhia 1995 1996 1997 1998XX 20 30 26 40YY 10 15 8 23… .

...

Companhia Valor

Valor de ações 1995

XX 20 YY 10… .

Companhia Valor

Valor de ações 1996

XX 30 YY 15… .

Um exemplo para reflexão:

Page 14: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 14

Asterio K. Tanaka

Gerência de Metadados

• Grande desafio na construção e manutenção de um DW– Formatos de dados inconsistentes– Dados inexistentes ou inválidos– Diferentes níveis de agregação– Inconsistências semânticas– Qualidade de dados e janela de tempo– Acesso global (distribuído e replicado)– Administração e controle

• Integração do DW com outras ferramentas aumenta o problema

Asterio K. Tanaka

Diferentes tipos de metadados

• Metadado Técnico e Administrativo– altamente estruturado– informações com definições, transformações, gerência e operação– geralmente tratável via uma ferramenta de repositório

• Metadado de Negócio– tanto não-estruturado quanto estruturado– mais difícil de ser tratado e integrado por uma ferramenta

altamente estruturada tipo um repositório

Page 15: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 15

Asterio K. Tanaka

Importância de um Repositório

– Repositório

» ferramentas que provêem armazenamento e funcionalidade de gerência e acesso a metadados

– Visão global e integrada de metadados

– Gerenciamento do ciclo de vida dos metadados

– Integração com ferramentas de outros fornecedores

Asterio K. Tanaka

Repositório = Depósito Genérico de Metadados

• Um BD de informações sobre artefatos criados, global através de ferramentas.

ArchitectureArchitecture

ER DiagramER DiagramCustomer

Order

ScheduledDelivery

Product

Salesperson

B i l lCustomer

UpdateMarket ing

Inventory

AuthorizeCredit

OrderEntry

ScheduleDelivery

Business Business ProcessProcessEmp.Sal <

Emp.Mgr.Sal

Business RulesBusiness Rules

SpecSpec

TableTable DefnsDefns

C++ CodeC++ CodeVB CodeVB Code

FormsForms

Page 16: Arquitetura Genérica de um Data Warehouse - UNIRIOTECtanaka/TIN0036/12-BDDDW-ImnonXKimball.pdf · Arquitetura de DW e Metadados Asterio K. Tanaka Arquitetura Genérica de um Data

Page 16

Asterio K. Tanaka

RepositóriosNome do Fornecedor Nome do Produto

IBM DataGuidePlatinum technologies Repository (for MVS)Platinum techologies Open EnterpriseEditionPrism Solutions, Inc. Warehouse DirectoryViasoft RochadeMicrosoft. MsRepository

• Produtos ainda pouco maduros

• Ainda incerto o futuro com relação aos padrões de metadados:OIM vs CWM

•Recentemente, MDC e OMG decidiram juntar-se!