Ferramentas de extração e exploração de dados para ... · Ferramentas de extração e...
Transcript of Ferramentas de extração e exploração de dados para ... · Ferramentas de extração e...
Mário João Gomes Cardoso
Ferramentas de extração e exploração de
dados para Business Intelligence
Projeto de Dissertação de Mestrado Integrado
em Engenharia e Gestão de Sistemas de Informação
Trabalho efetuado sob a orientação de:
Professor Doutor Manuel Filipe Santos
e
Professor Doutor António Silva Abelha
Fevereiro de 2018
Ferramentas de extração e exploração de dados para Business Intelligence |iii
RESUMO
Atualmente os sistemas de Business Intelligence têm sofrido constantes mudanças, devido ao
crescente surgimento de novas tecnologias, que são introduzidas para melhorar os processos inerentes
à tomada de decisão nas organizações. Com as organizações desejando aumentar cada vez mais a sua
competitividade, estas procuram utilizar os seus sistemas de BI, de forma eficiente e eficaz, para terem
mais agilidade nas tomadas de decisão, quer sejam estratégicas ou operacionais. Para tal, é
necessário realizar decisões bem informadas e eficazes, que obrigam uma relação forte com os dados
do negócio, e isto exige que os utilizadores do negócio tenham melhor acesso aos dados, para
efetuarem suas análises.
No entanto, nem todos os utilizadores de uma organização estão familiarizados com as ferramentas de
um sistema de BI, de modo que, exista uma enorme dependência da assistência dos técnicos de
tecnologia de informação para a exploração e extração dos dados do negócio, na realização de análises
ad-hoc. Tendo em conta este pressuposto, este trabalho de dissertação tem como objetivo (i)
levantamento dos requisitos desses utilizadores; (ii) identificação de ferramentas de extração e
exploração de dados, a partir de Data Warehouses e Data Marts associados a sistemas de BI; (iii)
experimentação das ferramentas identificadas; (iiii) a avaliação das ferramentas através de uma
topologia, para responder aos requisitos desses utilizadores.
Neste documento é possível averiguar a contextualização do tema em estudo, a descrição dos objetivos
e dos resultados esperados. Também apresentadas, estão as metodologias de investigação e de
desenvolvimento definidas, e a estratégia de pesquisa adotada para a descrição do estado da arte,
relativo aos conceitos inerentes ao tema da dissertação. Reúne ainda a calendarização, que traça o
desenvolvimento do trabalho até à conclusão da dissertação.
Palavras-Chave: Business Intelligence, DATA EXTRACTION, DATA EXPLORATION, DATA, ETL, DATA
WAREHOUSE, DATA EXTRACTION TOOLS, DATA EXPLORATION TOOLS.
Ferramentas de extração e exploração de dados para Business Intelligence |iv
ABSTRACT
Currently, business intelligence systems have undergone constant changes, due to the increasing
appearance of new technologies, which are introduced to improve the processes inherent in decision
making in organizations. With organizations keen to increase their competitiveness more and more,
they seek to use their BI systems efficiently and effectively to have more agile decision making, whether
strategic or operational. To do so, it is necessary to make informed and effective decisions, which
require a strong relationship with business data, and this requires business users to have better access
to the data for their analysis.
However, not all users in an organization are familiar with the tools of a BI system, so there is a heavy
reliance on the assistance of information technology technicians in the exploitation and extraction of
business data, for ad hoc analyzes. Considering this assumption, this dissertation project has as
objectives: (i) survey of the requirements of these users; (ii) identification of data extraction and
exploration tools from Data Warehouses and Data Marts associated with BI systems; (iii)
experimentation of identified tools; (iiii) the evaluation of the tools through a topology, to respond to the
requirements of these users.
In this document it is possible to ascertain the contextualization of the topic being studied, the
description of the objectives and the expected results. Also presented, are the research and
development methodologies defined, and the research strategy adopted for the description of the state
of the art, related to the concepts inherent to the topic of the dissertation. It also gathers the schedule,
which traces the development of the work until the conclusion of the dissertation.
KEYWORDS: Business Intelligence, DATA EXTRACTION, DATA EXPLORATION, DATA, ETL, DATA WAREHOUSE, DATA
EXTRACTION TOOLS, DATA EXPLORATION TOOLS.
Ferramentas de extração e exploração de dados para Business Intelligence |v
ÍNDICE
Resumo.............................................................................................................................................. iii
Abstract.............................................................................................................................................. iv
Índice .................................................................................................................................................. v
Lista de Figuras .................................................................................................................................. ix
Lista de Tabelas .................................................................................................................................. x
Notação e Lista de Abreviaturas, Siglas e Acrónimos ........................................................................... xi
Notação .......................................................................................................................................... xi
Abreviaturas, Siglas e Acrónimos .................................................................................................... xi
1 Introdução .................................................................................................................................. 1
1.1 Enquadramento e Motivação ............................................................................................... 1
1.2 Estrutura do Documento...................................................................................................... 1
2 Objetivos e Resultados Esperados ............................................................................................... 3
2.1 Objetivo Principal ................................................................................................................ 3
2.1.1 Questões de investigação ............................................................................................. 3
2.2 Objetivos Específicos ........................................................................................................... 3
2.3 Resultados Esperados ......................................................................................................... 3
3 Abordagem Metodológica ............................................................................................................ 5
3.1 Metodologia de Investigação ................................................................................................ 5
3.2 Metodologia de Desenvolvimento ......................................................................................... 6
3.2.1 Fases da metodologia .................................................................................................. 7
4 Revisão de Literatura ................................................................................................................ 12
4.1 Estratégia de Pesquisa ...................................................................................................... 12
4.1.1 Fontes ....................................................................................................................... 12
4.1.2 Keywords .................................................................................................................. 12
4.1.3 Gestão de referências ................................................................................................ 13
4.1.4 Critérios de seleção ................................................................................................... 13
4.2 Dados ............................................................................................................................... 14
Ferramentas de extração e exploração de dados para Business Intelligence |vi
4.2.1 Conceito .................................................................................................................... 14
4.2.2 Tipo de dados ............................................................................................................ 14
4.2.3 Extração e exploração de dados ................................................................................. 15
4.3 Business Intelligence ......................................................................................................... 16
4.3.1 Origem ...................................................................................................................... 16
4.3.2 Conceito .................................................................................................................... 17
4.3.3 Arquitetura BI ............................................................................................................ 18
4.3.4 Business users .......................................................................................................... 20
4.3.5 Indicadores chave de desempenho ............................................................................ 23
4.4 Data Warehouse ................................................................................................................ 23
4.4.1 Conceito .................................................................................................................... 23
4.4.2 Arquitetura de sistemas de Data Warehouse .............................................................. 25
4.4.3 Componentes do sistema de DW ............................................................................... 26
4.4.4 Arquiteturas do Data Warehouse ................................................................................ 27
4.4.5 Abordagens de desenvolvimento ................................................................................ 29
4.4.6 Representação dos dados no DW ............................................................................... 30
4.4.7 Metadados ................................................................................................................ 32
4.4.8 Análise e acesso aos dados do DW ............................................................................ 34
4.4.9 Dashboard e Scorecards ............................................................................................ 35
4.4.10 Reports ..................................................................................................................... 36
4.4.11 Data Mining ............................................................................................................... 36
4.5 Extract, Transform & Load ................................................................................................. 37
4.5.1 Conceito .................................................................................................................... 37
4.5.2 Fases do processo ETL .............................................................................................. 38
4.6 Visão Critica ...................................................................................................................... 39
5 Trabalho Realizado.................................................................................................................... 41
5.1 Ferramentas de Extração e Exploração de Dados ............................................................... 41
5.1.1 Requisitos ................................................................................................................. 41
5.1.2 Avaliação inicial das ferramentas ............................................................................... 41
Ferramentas de extração e exploração de dados para Business Intelligence |vii
6 Plano de Atividades ................................................................................................................... 44
6.1 Lista de Atividades ............................................................................................................ 44
6.2 Diagrama de Gantt ............................................................................................................ 47
6.3 Lista de Riscos .................................................................................................................. 48
7 Conclusão ................................................................................................................................ 51
8 Referências ............................................................................................................................... 52
9 Bibliografia ............................................................................................................................... 54
Anexo I – Matriz de Conceitos ........................................................................................................... 55
Ferramentas de extração e exploração de dados para Business Intelligence |ix
LISTA DE FIGURAS
Figura 1 - Metodologia DSR ................................................................................................................ 5
Figura 2 - Metodologia "Kimball Life Cycle" ........................................................................................ 6
Figura 3 - Diagrama do plano de carregamento de dados de alto nível ................................................. 9
Figura 4- História do Business Intelligence ....................................................................................... 17
Figura 5- Arquitetura de um sistema BI ............................................................................................ 19
Figura 6 - Arquitetura de um sistema de BI ....................................................................................... 19
Figura 7 - Classificação de Business users ....................................................................................... 21
Figura 8- Arquitetura de três camadas............................................................................................... 25
Figura 9 - Arquitetura de Duas Camadas ........................................................................................... 26
Figura 10 - Arquitetura acente na web .............................................................................................. 26
Figura 11-Arquitetura de DMT independentes ................................................................................... 28
Figura 12 – Data marts dependentes ................................................................................................ 28
Figura 13 - Arquitetura data warehouse organizacional ...................................................................... 29
Figura 14 - Esquema em Estrela ....................................................................................................... 31
Figura 15 - Esquema em Floco de Neve ............................................................................................ 31
Figura 16 - Esquema em Constelação ............................................................................................... 32
Figura 17 - Exemplo de Dashboard ................................................................................................... 35
Figura 18 - Exemplo de scorecard .................................................................................................... 36
Figura 19 - Representação de um processo ETL genérico .................................................................. 37
Figura 20-Diagrama de Gantt ............................................................................................................ 47
Ferramentas de extração e exploração de dados para Business Intelligence |x
LISTA DE TABELAS
Tabela 1 - Critérios de Seleção de Artigos .......................................................................................... 13
Tabela 2 - Classificação de casual users .......................................................................................... 22
Tabela 3 - Tipos de metadados ........................................................................................................ 33
Tabela 4 - OLTP vs OLAP .................................................................................................................. 34
Tabela 5 - Requisitos dos utilizadores ................................................................................................ 41
Tabela 6 - Comparação de ferramentas ............................................................................................ 42
Tabela 7 - Lista de atividades ............................................................................................................ 44
Tabela 8 - Lista de Riscos ................................................................................................................. 48
Tabela 9 - Matriz de Conceitos .......................................................................................................... 55
Ferramentas de extração e exploração de dados para Business Intelligence |xi
NOTAÇÃO E LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS
Notação
A notação utilizada ao longo deste documento segue o seguinte padrão:
• Texto em itálico, para palavras em língua estrangeira (e.g., Inglês);
• Texto em negrito, para realçar uma palavra ou expressão.
Abreviaturas, Siglas e Acrónimos
BI - Business Intelligence
BD - Base de Dados
DE – Data Extraction
DEX – Data Exploration
DMT - Data Mart
DM - Data Mining
DSR - Design Science Research
DW - Data Warehouse
DWO – Data Warehouse Organizacional
ETL - Extract, Transform & Load
IE – Information Extraction
KPI – Key Performance Indicators
MS – Microsoft
OLAP – Online Analytical Processing
SI – Sistemas de Informação
TI – Tecnologias de Informação
Capítulo 1 | Introdução
1
1 INTRODUÇÃO
O presente capítulo desta dissertação apresenta: o enquadramento, a motivação para a realização da
dissertação e a estrutura do documento.
1.1 Enquadramento e Motivação
Ao longo dos anos as aplicações informáticas, permitiram as organizações ter maior controlo sobre os
dados com que lidam diariamente, onde a informação gerada pelas aplicações informáticas
disponibiliza aos gestores um conjunto de indicadores sobre o negócio, que lhe dão indicações do que
aconteceu no passado e lhe permitem traçar cenários para o futuro, trazendo assim, mais eficácia e
eficiência nas tomadas de decisão.
Com a crescente dependência das organizações perante o uso de ferramentas de Business Intelligence
(B.I). para extrair, tratar e organizar os dados necessários, de modo a fornecer informações pertinentes
e com valor aos principais decisores nas organizações. Dentro deste âmbito, este trabalho visa
identificar e explorar ferramentas orientadas à extração e exploração de dados estruturados de
sistemas de BI, para auxiliar os utilizadores com menos conhecimentos técnicos do ambiente de BI.
1.2 Estrutura do Documento
O presente documento está estruturado em seis capítulos, com o seguinte conteúdo:
1. Contextualização – Representa uma breve introdução do contexto e foco do trabalho a
ser realizado, o fundamento da relevância do mesmo e a estrutura do documento.
2. Objetivos e Resultados esperados - Identificação da questão de investigação e dos
resultados esperados para o presente trabalho.
3. Abordagem Metodológica – Apresenta as metodologias selecionadas para a
realização da investigação e para a execução prática do trabalho a realizar-se,
nomeadamente Design Science Research e Kimball Life Cycle.
Capítulo 1 | Introdução
2
4. Revisão de Literatura – Divulga-se o estudo do estado da arte dos conceitos pilares
para a realização do trabalho, tais como: Business Intelligence, Data Warehouse, Extract, Transform & Load (ETL), entre outros. E a reflexão critica da literatura estudada.
5. Trabalho Realizado – É apresentado o levantamento inicial dos requisitos dos
utilizadores do negócio e das ferramentas de exploração e extração de dados.
6. Plano de Atividades – Planeamento das atividades realizadas e a serem realizadas no
decorrer deste trabalho e a lista de riscos inerentes a este projeto.
7. Conclusão – Reflexão sobre o que foi realizado no projeto de dissertação, as expetativas
para o que será realizado, assim como o enquadramento do conhecimento obtido e dos
próximos desafios.
Capítulo 2 | Objetivos e Resultados Esperados
3
2 OBJETIVOS E RESULTADOS ESPERADOS
Este capitulo trata de apresentar os objetivos definidos do projeto, assim como as linhas orientadoras
para o desenvolvimento do mesmo.
2.1 Objetivo Principal
Esta dissertação tem como objetivo principal, a identificação e exploração comparativa de ferramentas
orientadas à extração e exploração de dados, a partir de data warehouses ou data marts associados a
sistemas de Business Intelligence.
2.1.1 Questões de investigação
Neste projeto a problemática a ser estudada depara-se com as seguintes questões de investigação:
1. “Em que medida as ferramentas existentes no mercado, correspondem aos
requisitos dos utilizadores do negócio?”;
2. “É viável o desenvolvimento/integração de ferramentas de extração e exploração
de dados em soluções de BI existentes?”.
2.2 Objetivos Específicos
Como objetivos específicos, este trabalho de dissertação incidirá sobre a análise, exploração e
avaliação de ferramentas de extração e exploração de dados associados a sistemas de BI existentes, de
modo a justificar/verificar a sua utilização num contexto ad-hoc. A análise e exploração deverá passar
por: levantamento de requisitos dos utilizadores; análise de casos de estudo e
experimentações práticas; elaboração de uma tipologia de catalogação e avaliação; e a
execução da avaliação. No entanto poderá surgir, também, a possibilidade de desenvolvimento ou
adaptação de uma ferramenta para solucionar algum problema num contexto especifico.
2.3 Resultados Esperados
Espera-se com a realização desta dissertação resultados como:
Capítulo 2 | Objetivos e Resultados Esperados
4
• Levantamento sobre ferramentas de extração e exploração de dados tendo em consideração os
vários sistemas de BI existentes no mercado;
• Experimentação no contexto de vários sistemas de BI;
• Desenvolvimento de uma topologia;
• Catalogação das várias ferramentas segundo uma topologia a definir.
Capítulo 3 | Abordagem Metodológica
5
3 ABORDAGEM METODOLÓGICA
A elaboração deste projeto de dissertação será desenvolvida seguindo diretrizes referenciais no âmbito
de Sistemas de Informação, de forma a sustentar uma base sólida para a investigação e realização do
mesmo.
3.1 Metodologia de Investigação
Para o desenvolvimento desta dissertação, a metodologia de investigação a ser aplicada, trata-se da
Design Science Research (DSR), sendo que esta consiste num paradigma de problem-solving
(resolução de problemas). Segundo Denning (1997) e Tsichritzis (1998) (citado em Hevner et. all,
2004), esta metodologia, procura criar inovações que definam ideias, métodos, capacidades técnicas e
artefactos através dos quais a análise, o design, a implementação e o uso de sistemas de informação
possam ser concretizados eficientemente e efetivamente.
Peffers et al. (2008) propôs a metodologia de DSR (DSRM) para a produção e apresentação de
pesquisas Design Science em Sistemas de Informação. Este esforço contribui para a pesquisa de SI,
fornecendo uma framework para a realização exitosa de DSR e um modelo mental para sua
apresentação. O processo inclui seis etapas: identificação e motivação do problema; definição dos
objetivos para uma solução, design e desenvolvimento; demonstração; avaliação; e comunicação,
representada na figura 1, de forma adaptada a este projeto.
Figura 1 - Metodologia DSR (adaptado de Peffers et al., 2008)
Capítulo 3 | Abordagem Metodológica
6
3.2 Metodologia de Desenvolvimento
A metodologia de Kimball, também conhecida como Kimball Life Cycle, será aplicada no
desenvolvimento deste projeto, tendo em conta a necessidade de dar resposta à experimentação das
ferramentas a serem avaliadas. A experimentação terá de ser feita num contexto e com um modelo de
dados especifico, pelo que a necessidade de modelação dimensional dos dados de um Data
Warehouse, desse futuro contexto, será a principal motivação, da utilização desta metodologia.
Kimball Lifecycle foi concebida em meados do ano 1980 pelos membros do Kimball Group e outros
colegas da Metaphor Computer Systems, uma empresa pioneira de apoio à decisão. Desde então, tem
sido utilizado com êxito por milhares de equipas de projetos DW e BI, em várias indústrias e áreas de
negócio (Kimball Group).
Esta metodologia faculta as principais atividades necessárias para a construção e implementação de
um data warehouse (DW), apresentada na figura 2. De realçar ainda, que as fases de crescimento e
manutenção não serão realizadas no âmbito deste projeto. Segundo Kimball e Ross (2002),
primeiramente os projetos de DW devem focar-se nos requisitos do negócio, em seguida os dados
apresentados aos stakeholders devem ser multidimensionais/transversais. E por último o projeto de
DW deverá ter um ciclo finito, com um inicio e fim especifico.
Figura 2 - Metodologia "Kimball Life Cycle" (adaptado de Kimball e Ross, 2013)
Capítulo 3 | Abordagem Metodológica
7
3.2.1 Fases da metodologia
i. Planeamento do Projeto
O ciclo tem inicio com a atividade de “Planeamento do Projeto” (Project Planning), onde, de acordo
com Kimball e Ross (2013, pg. 408), este módulo avalia a preparação da organização para uma
iniciativa DW/BI, estabelece o âmbito e a motivação preliminar, obtém recursos e dá inicio ao projeto.
As atividades incluídas neste módulo estão interligadas com as atividades da “Definição dos Requisitos
de Negócio”, pelo que o mesmo está dependente deste. Algumas das tarefas incluídas são:
1. Avaliação da Capacidade de Iniciação: este debruça-se com a avaliação da motivação,
ambição e meios adequados para iniciar o projeto de DW/BI;
2. Identificação das Atividades e Custos/Benefícios: a organização deverá delinear as
atividades a serem realizadas, assim como os custos e benefícios que poderão originar do
projeto de DW/BI;
3. Alocação de Recursos: determinar e integrar os recursos (financeiros, humanos e materiais)
disponíveis para a realização do projeto;
4. Atribuição de Carga de Trabalho aos Recursos: estimação/definição do esforço
necessário para realizar cada atividade, estabelecer milestones e os prazos a serem
cumpridos;
5. Documentação do Plano do Projeto.
ii. Definição de Requisitos do Negócio
A fase seguinte ao “Planeamento do Projeto”, é a “Definição de Requisitos do Negócio”, que servirá de
suporte para as fases seguintes. De acordo Kimball e Ross (2013, pg. 410), consiste na colaboração
com os utilizadores de negócio, de modo a compreender as suas necessidades/requisitos e garantir a
aprovação destes em relação ao projeto.
iii. Conceção da Arquitetura Tecnológica
A conceção da arquitetura, tem como objetivo definir uma framework organizacional de apoio à
integração de múltiplas tecnologias e aplicações informáticas. Sendo necessário considerar três
Capítulo 3 | Abordagem Metodológica
8
fatores: os requisitos do negócio, a paisagem técnica atual e as estratégias técnicas delineadas, para
que esta, forneça uma visão global.
iv. Seleção e Instalação do Produto
A seleção e instalação do produto irá lidar com a avaliação das características adequadas de cada
produto tecnológico no mercado, de modo a dar resposta às necessidades da organização, com base
nos requisitos e recursos identificados na arquitetura.
v. Modelação Dimensional
Os dados levantados na fase de “Definição dos Requisitos de Negócio” são agregados para desenvolver
um modelo dimensional. Assim, esta fase inicia-se com a modelação dimensional da informação,
resultando num modelo dimensional, que é constituído por tabelas de dimensão ligadas a uma tabela
de factos, agregadas para formar o modelo dimensional. É também importante realçar que o modelo
dimensional deverá garantir “o desempenho rápido da consulta e a apresentação de dados
compreensíveis aos intervenientes do negócio” (Kimball e Ross, 2013, pg. 7).
A modelação dimensional englobará os seguintes passos, segundo (Kimball e Ross, 2013, pg. 38):
Escolha do processo de negócio (a ser modelada); Seleção do nível de granularidade (nível de detalhe);
Identificação das dimensões; Identificação e Seleção das medidas e das tabelas de factos.
vi. Conceção Física
Com a modelação dimensional desenvolvida e documentada, é preciso a traduzir em uma base de
dados física (Kimball e Ross, 2013, pg. 420). Isto é, definir as infraestruturas físicas necessárias para
dar suporte ao modelo dimensional. Os elementos principais deste processo, englobam: a definição de
padrões de nomenclatura para as tabelas e colunas, configuração do ambiente da base de dados e a
determinação das estratégias de indexação e agregação.
vii. Conceção e Desenvolvimento do ETL
Capítulo 3 | Abordagem Metodológica
9
Para Kimball e Ross (2013, pg. 497), a fase de conceção do sistema de extração, transformação e
carregamento é critico para todo o projeto, sendo mais exigente a nível de tempo gasto, em relação às
outras fases.
Esta, de acordo com Kimball e Ross (2013, pg. 498): “começa com o plano de alto nível, que é
independente de qualquer tecnologia ou abordagem especifica. No entanto, é uma boa ideia decidir
sobre qual ferramenta ETL utilizar, antes de fazer um planeamento detalhado; isto pode evitar
redesenhar e retrabalhar mais tarde no processo”. O plano inclui um esquema simples das conexões
entre as fontes de dados e os destinos (dimensões e tabela de factos), tal como demonstra a figura
seguinte.
Figura 3 - Diagrama do plano de carregamento de dados de alto nível (retirado de Kimball e Ross 2013)
As atividades seguintes desta fase, passarão pela escolha da ferramenta ETL, definição de estratégias
de extração, transformação e carregamento, documentação especifica de todo processo e culminando
com carregamento das dimensões e tabelas de facto.
viii. Conceção da Aplicação de BI
Tal como foi apresentado na figura 2, depois da fase de “Definição dos Requisitos de Negócio” torna-se
necessário o desenvolvimento da aplicação de BI, a camada visível da inteligência do negócio, onde os
Capítulo 3 | Abordagem Metodológica
10
utilizadores acedem aos dados, informações, relatórios sobre o negócio para realizarem as suas
atividades de análise. Mas antes do desenvolvimento, a especificação de standards no que toca a
usabilidade, formatos e a estética da aplicação.
Também, segundo Kimball e Ross (2013, pg. 423), “é preciso identificar caminhos de navegação
estruturados para aceder às aplicações, refletindo a maneira como os utilizadores pensam sobre o
negócio. Facultar portais de informação ou dashboards personalizáveis, são as estratégias dominantes
para a disseminação do acesso”.
ix. Desenvolvimento da Aplicação de BI
A atividade de desenvolvimento de aplicativos pode começar quando a conceção da base de dados
estiver completa, as ferramentas de BI e os metadados estiverem instalados e um subconjunto de
dados históricos for carregado. De acordo com Kimball e Ross (2013) as etapas de desenvolvimento de
uma aplicação de BI incluem:
• Preparação do desenvolvimento da aplicação;
• Construção da aplicação;
• Teste e avaliação da aplicação e dos dados;
• Documentação da aplicação;
• Desenvolvimento de um plano de implementação.
x. Implantação
Trata-se da convergência das atividades paralelas, focadas na tecnologia, nos dados e nas aplicações
analíticas, demonstradas na figura 2. Esta fase envolve a realização de testes ao sistema, à qualidade
dos dados, às operações de processamento dos dados, ao desempenho e à usabilidade. Também é
necessário investir na formação dos utilizadores do sistema, de modo a garantir o sucesso deste,
assim como a infraestrutura de suporte.
xi. Manutenção
Para que seja garantido a continuidade do sistema, a manutenção continua é necessária. Pelo que os
responsáveis pela gestão da mesma, deverão continuar a investir nos recursos e a gerir a sua
paisagem técnica, tal como, medir o sucesso do projeto de DW e comunicar constantemente com os
utilizadores.
Capítulo 3 | Abordagem Metodológica
11
xii. Crescimento
É inevitável a exigência de crescimento, quer seja pelo surgimento de novos utilizadores, novos dados,
ou necessidades de melhorias ao sistema existente (Kimball e Ross, 2013, pg. 425). O crescimento
deverá ser gerido em linha com as novas necessidades/requisitos dos intervenientes de negócio e caso
surjam novas prioridades do projeto, dever-se-á realizar o ciclo novamente, agora com foco nas novas
exigências.
Capítulo 4 | Revisão de Literatura
12
4 REVISÃO DE LITERATURA
Este trabalho insere-se na área de Business Intelligence, sendo que, a proliferação de novas
tecnologias (cloud computing, web data, real-time Data warehouse) utilizadas neste campo (Trujillo &
Mat, 2012), é necessário facultar ferramentas adequadas, que possibilitem aos utilizadores do negócio,
realizarem as suas atividades de análise e exploração dos dados, de forma simples, eficaz e eficiente.
Pelo que, este capitulo apresenta a revisão da literatura e o estado da arte dos conceitos associados ao
desenvolvimento deste projeto de dissertação, sendo que uma boa revisão deve: Motivar o tópico da
pesquisa e explica as contribuições da revisão; descreve os conceitos-chave; delineia os limites da
pesquisa; revisar a literatura relevante em Sistemas de Informação e áreas relacionadas; desenvolver
um modelo para orientar futuras pesquisas; justificar proposições apresentadas, explicações teóricas,
achados empíricos passados e exemplos práticos; e apresenta conclusões para investigadores e
profissionais da área (Webster & Watson, 2002).
4.1 Estratégia de Pesquisa
4.1.1 Fontes
No âmbito da revisão de literatura realizada, foram acedidos os seguintes repositórios online, de modo
a obter informações relevantes sobre os conceitos a serem abordados:
✓ Scopus;
✓ Science Direct
✓ Web Of Science;
✓ RepositórioUM
✓ Google Scholar;
4.1.2 Keywords
Para a pesquisa da literatura foram selecionados os termos: Business Intelligence, DATA EXTRACTION,
DATA EXPLORATION, DATA, ETL, DATA WAREHOUSE, DATA EXTRACTION TOOLS, DATA EXPLORATION TOOLS. Durante a
pesquisa também efetuadas combinações entre os termos acima mencionados, de modo a filtrar
informação e encontrar as melhores fontes de informação, e posteriormente analisadas com recurso à
matriz de conceitos (em anexo I).
Capítulo 4 | Revisão de Literatura
13
4.1.3 Gestão de referências
De forma a salvaguardar e a organizar a seleção da literatura em linha com os conceitos necessários
para a realização deste projeto de dissertação, foi utilizada a ferramenta Mendeley Desktop1.
4.1.4 Critérios de seleção
De modo a obter uma base literária adequada ao projeto a ser realizado, foi necessário definir critérios
coerentes para a seleção dos artigos, livros, white papers, dissertações e conference proceedings. Na
tabela seguinte encontra-se representado os critérios utilizados, assim como o grau de relevância dos
mesmos. O ano de publicação foi limitado dentro do intervalo de tempo: 2008 até 2017 (salvo
algumas referências genéricas sobre o conceito de Business Intelligence, Dados e Data Warehouse), os
abstracts foram avaliados identificando a ocorrência das palavras chaves, a situação do contexto e a
relação do objetivo com o tema de dissertação.
Tabela 1-Critérios de Seleção de Artigos
Critério Relevância (1-5)
Ano de Publicação 3
Número de Citações 5
Jornal/Conferência 2
Abstract 5
1 Mendeley é um programa de desktop e web produzido pela Elsevier, para gerir e compartilhar documentos de investigação, descobrir dados de investigação e colaboração online (Elsevier, 2017)
Capítulo 4 | Revisão de Literatura
14
4.2 Dados
4.2.1 Conceito
“An ounce of information is worth a pound of data.
An ounce of knowledge is worth a pound of information.
An ounce of understanding is worth a pound of knowledge” (Ackoff, 1989).
No contexto de Business Intelligence, é necessário distinguir dados de informação, pois ambos estão
mutuamente interligados, mas proveem de processos e fontes distintas. Negash (2004) destaca, que
um dos propósitos fundamentais dos sistemas de BI, é a capacidade de converter dados em
informação útil e, através de análises humanas, em conhecimento.
Dados são símbolos que representam as propriedades de objetos ou eventos (Ackoff, 1989; Davenport
& Prusak, 2000). Davenport & Prusak (2000, pg. 2), acrescentam ainda, que, num “contexto
organizacional, os dados são mais propriamente descritos, como registros estruturados de transações”.
Por exemplo, um posto de gasolina regista, quando um cliente paga pelo abastecimento de
combustível, a quantidade de gasolina, a quantia paga, e a hora do pagamento pelo serviço. Nesse
contexto, os dados proveem da transação realizada e a diferença entre esses dados e a informação,
tem haver com o propósito/utilidade, isto é, esses dados registados podem ser apenas detalhes, sem
traduzir em nenhum impacto para o negócio e, a informação por sua vez, contêm um propósito e
importância, permitindo retirar ilações ou respostas a determinadas questões (Ackoff, 1989;
Davenport & Prusak, 2000).
Bellinger et al. (2004), defendem que, os dados representam um fato ou declaração de um evento sem
relação com outras coisas e que a transição de dados para informação, informação para
conhecimento, e conhecimento para sabedoria, acontece de acordo com a compreensão dos mesmos.
4.2.2 Tipo de dados
No contexto de BI, é requerido a análise de dados estruturados, semiestruturados ou até não
estruturados, estando disponível em vários formatos (Grossmann & Rinderle-Ma, 2015; Negash, 2004).
Capítulo 4 | Revisão de Literatura
15
(Baars & Kemper, 2008, pg.133) afirmam que maioria das fontes informacionais dos sistemas de BI,
são documentos eletrónicos (emails, páginas web, documentos pdf, etc), pelo que se torna imperativo
considerar os dados estruturados e não estruturados, para facultar conhecimentos válidos para
desenvolvimento do negócio.
No âmbito deste trabalho, interessam, os dados estruturados, pois serão avaliadas as ferramentas que
lidam com estes, dentro dum contexto ad-hoc e em conexão com sistemas de BI. Mas, também é
importante, identificar os tipos de dados considerados anteriormente, tais como:
• Dados Semiestruturados: no contexto de base de dados relacionais, são todos os dados
que não podem ser armazenados orientado à coluna ou à linha. Não possuem formato pré-
definido, não obedecendo aos esquemas tradicionais das base de dados relacionais, podendo
possuir alguma estrutura parcial (Baars & Kemper, 2008; Negash, 2004). Exemplos: ficheiros
XML e JSON, páginas web, documentos pdf, entre outros;
• Dados Estruturados: são dados organizados em registros com valores de dados simples
(variáveis categóricas, ordinais e contínuas) e armazenados nos sistemas de gestão de base
dados (Inmon, 2005; Turban et al. , 2010). Exemplos: números, transações financeiras, datas,
etc.
• Dados Não Estruturados: são dados que não possuem nenhum formato e nem registo,
sendo maioritariamente armazenados em textos e a maior parte dos dados disponíveis na
internet, hoje, são os não estruturados (Turban et al., 2010). Os dados não estruturados
segundo Inmon (2005), podem ser divididos em duas grandes categorias: comunicações e
documentos, possuindo dados não estruturados em formas de texto. As comunicações tendem
a ser relativamente curtas e são de distribuição muito limitada. Os documentos tendem a ser
para uma audiência mais ampla e geralmente são maiores do que as comunicações.
Exemplos: imagens, vídeos, documentos de texto, mensagens de email e de redes sociais, etc.
4.2.3 Extração e exploração de dados
Para este projeto é importante esclarecer o significado por trás da extração e exploração de dados, pois
as ferramentas a serem estudas irão fundamentalmente desempenhar essas duas funções. Assim
como, é relevante distinguir os termos Information Extraction (IE) e Data Extraction (DE).
Na literatura existem esses dois termos, onde principal diferença reside no facto de ambas terem
propósitos distintos, ou seja, a IE é a transformação de dados não estruturados em dados
estruturados, através de técnicas de machine learning, text mining e de processamento de linguagem
natural (Turban et al., 2010), sendo que DE, lida com a aquisição/obtenção de dados das fontes
informacionais, maioritariamente estruturados.
Capítulo 4 | Revisão de Literatura
16
A DE no âmbito deste trabalho é definido como o processo de extração/obtenção de dados
estruturados representativos a estados ou objetos do negócio, a partir de Data Warehouses e Data
Marts associados a sistemas de Business Intelligence. Sendo que, após a obtenção dos dados, inicia-se
o processo de Data Exploration, que se traduz na auditoria e análise dos dados (através de dashboards,
reports, scorecards, etc) para dar respostas a analises ad-hoc, sobre indicadores do negócio.
4.3 Business Intelligence
4.3.1 Origem
A determinação exata da origem do termo Business Intelligence, é algo que muitos autores não
puderam estabelecer com precisão, embora, o termo esteja presente no artigo de Luhn (1958, pg.
314), neste, o termo Intelligence, foi definido como “a capacidade de apreender as inter-relações dos
factos apresentados, de forma a orientar a ação para um objetivo pretendido” e o termo Business,
como “uma coleção de atividades realizadas para qualquer finalidade, seja ciência, tecnologia,
comércio, indústria, direito, governo, defesa, etc". Luhn (1958, pg. 314), também especifica o termo
business intelligence system, como “um sistema automático, que está a ser desenvolvido para
disseminar informação para os vários setores de qualquer industria, organização governamental ou
científica”.
No entanto, o termo BI, só ganhou enfase 30 anos depois, e em 1989, Howard Dresner conotou-o
novamente, como um termo genérico para um conjunto de conceitos e métodos, com objetivo de
melhorar a tomada de decisões empresariais, utilizando sistemas baseados em fatos (Grossmann e
Rinderle-Ma, 2015, pg. 1). Os autores Turban et al. (2010) confirmam que, o conceito é ainda mais
antigo, tendo suas raízes nos sistemas de relatórios dos Sistemas de Informação de Gestão (SIG), da
década de 1970.
Capítulo 4 | Revisão de Literatura
17
A publicação (Macaulay, 2016), da revista CIO (Chief Information Office), apresentou a seguinte
cronologia (figura 4), sobre a origem e evolução do termo BI, de forma resumida:
4.3.2 Conceito
Turban et al. (2010, pg. 8) afirma que, “Business intelligence é um termo genérico que combina
arquiteturas, ferramentas, base de dados, ferramentas analíticas, aplicações informáticas, e
metodologias”. Enfatizando, que esta, é uma expressão livre, pelo que pode ter diferentes significados
para diferentes pessoas. Para estes autores, o principal objetivo do BI, “é habilitar o acesso interativo
(às vezes em tempo real) aos dados, permitir a manipulação de dados, e facultar aos gestores e
analistas do negócio, a capacidade de realizar análises adequadas”.
Grossmann & Rinderle-Ma (2015) com base em várias definições, caracterizaram BI como detentora
das seguintes características:
1865 - Richard M. Devens descreve no seu livro, o
sucesso de um banqueiro, utilizando o termo na
seguinte frase: "Throughout Holland, Flanders, France, and
Germany, he maintained a complete and perfect train of business intelligence"
1958 - Hans P. Luhn define o que se aproxima
do conceito contemporâneo de BI, como: "The ability to
apprehend the interrelationships of
presented facts in such a way as to guide action
towards a desired goal"
1989 - Howard Dresner determina BI como:
"Concepts and methods to improve business
decision-making by using face-based support
systems"
Decáda de 90 - Com a proliferação e
comercialização da internet, vendores e ferramentas de BI
aumentam, tornando-se convencional através do
uso de relatórios de processamento Batch
Decáda de 2000 - Os "Big Players" do mercado de BI, se
consilidam com o desenvolvimento das suas próprias plataformas de BI,
sendo estes a Microsoft, SAP, IBM e Oracle. Surgem novos método/técnicas associados
às plataformas de BI, tais como: data mining, tecnologias cloud, análises em tempo real, self-service BI, pervasive BI, etc
Decáda de 2010 - BI torna-se uma ferramenta padrão
para todos, desde das grandes empresas até às
PMEs. E novas tecnologias como Big Data e Inteligência arteficial, são algumas das
inovações a serem introduzidas
Figura 4- História do Business Intelligence (adaptado de Macaulay, 2016)
Capítulo 4 | Revisão de Literatura
18
• Serviço: fornecer apoio à tomada de decisão para objetivos específicos, definidos no contexto
de atividades comerciais em diferentes áreas de domínio, levando em consideração o quadro
organizacional e institucional;
• Alicerce: depende de informações empíricas baseada nos dados e o uso de diferentes tipos
de conhecimento e teorias para produção de informação;
• Conceção: o apoio à decisão deverá ser concebido como um sistema, utilizando as
capacidades possibilitadas pelas tecnologias de informação e comunicação (TIC);
• Apresentação: um sistema de BI deverá fornecer informações no momento certo, às pessoas
certas, de forma apropriada.
Um sistema de BI, é uma coleção de tecnologias de suporte à decisão para a empresa, com o objetivo
de capacitar trabalhadores do conhecimento, tais como executivos, gestores e analistas a tomar
decisões melhores e mais rápidas (Aruldoss, Lakshmi Travis, & Prasanna Venkatesan, 2014;
Chaudhuri, Dayal, & Narasayya, 2011). E tal como Negash (2004, pg. 178) afirma, de forma mais
especifica: “Os sistemas de BI combinam a recolha de dados, armazenamento de dados e gestão do
conhecimento com ferramentas analíticas, para apresentar informações complexas internas e
competitivas aos gestores e decisores”.
Um aspeto fundamental e atual, que alguns dos autores referidos anteriormente não destacaram foi os
benefícios que um sistema de BI poderá proporcionar. No entanto, Aruldoss et al. (2014) e Turban et
al. (2010), abordam esses aspetos, afirmando que, os sistemas de BI analisam o desempenho de uma
organização e aumentam as receitas e a competitividade, facultando a informação certa, na hora certa,
à pessoa certa, sendo que a competitividade é um imperativo para sobrevivência do negócio.
4.3.3 Arquitetura BI
De acordo com Turban et al. (2010, pg. 10), um sistema de Business Intelligence possuí 4
componentes principais, representadas na figura 4: um Data warehouse e as suas fontes de dados;
Análise do negócio, uma coleção de ferramentas para manipulação, mining e análise, dos dados
presentes no DW; Gestão do desempenho empresarial, para analisar e monitorar o desempenho;
e a interface do utilizador (dashboards, portal e relatórios).
Capítulo 4 | Revisão de Literatura
19
Figura 5- Arquitetura de um sistema BI (adaptado de Turban et al., 2010)
Em Chaudhuri et al. (2011, pg. 89) é apresentado uma arquitetura típica do sistemas BI, onde para
além das componentes apresentadas por Turban et al. (2010), esta, representa-as, de forma
detalhada, como podemos observar na figura 6.
Figura 6 - Arquitetura de um sistema de BI (adaptado de Chaudhuri et al., 2011)
Capítulo 4 | Revisão de Literatura
20
4.3.4 Business users
Um dos aspetos mais importantes de uma implementação de Business Intelligence, bem sucedida, é
que este, seja benéfico para a empresa como um todo (Turban et al., 2010). Um sistema de BI é
utilizado por um conjunto de utilizadores do negócio (Business users), pertencentes a diferentes grupos
de trabalho, isto é, a sua utilização não se destina somente a um grupo restrito dentro de uma
organização. Segundo Turban et al. (2010), um sistema de BI não pode simplesmente ser de exercício
técnico, do departamento de sistemas de informação apenas. Este, deve servir como uma forma de
alterar a conduta de gestão do negócio, melhorando os seus processos de negócio e transformando os
processos de decisão, para serem orientados por dados.
Na área dos sistemas de BI, Dyché, (2007) afirma que, “o termo easy-of-use é relativo, pois um report
mensal, por exemplo, de um utilizador, é o projeto de analise de previsão, de outro. E o
entendimento/perceção de cada utilizador do negócio, pode ser distinto. Classificar e compreender as
necessidades de cada utilizador, torna-se fundamental para facilitar a identificação dos requisitos dos
dados e do negócio, a seleção apropriada das tecnologias no mercado, assim como a formação dos
utilizadores”.
4.3.4.1 Classificação
No estudo apresentado por Dyché (2007), foram classificados os diferentes tipos de utilizadores finais
de uma companhia telefónica, contrastando as diferentes categorias de analise e os diferentes tipos de
utilizadores. O autor, afirma que maior parte dos utilizadores da companhia telefónica, eram
utilizadores casuais, sem muito conhecimento técnico das ferramentas de BI, onde se limitavam a
trabalhar com reports, dashboards e scorecards, que refletissem os indicadores chave de desempenho
(KPI) da organização. A classificação foi feita através de uma pirâmide, como ilustra a figura 6:
Capítulo 4 | Revisão de Literatura
21
Figura 7 - Classificação de Business users (adaptado de Dyché, 2007)
Eckerson (2010), apresenta uma classificação distinta, agrupando os utilizadores em duas categorias:
Information Producers (Produtores da informação) e Information Consumers (Consumidores da
informação). De acordo com o autor, os produtores da informação são os utilizadores avançados
(power users), que criam blocos de informação para outros consumirem. Podem ser: desenvolvedores
de tecnologias de informação que elaboram/constroem dashboards e reports complexos;
superutilizadores que criam reports e dashboards para os colegas de departamento; analistas de
negócio que utilizam uma variedade de ferramentas de análise para explorar; ou estatísticos e
analistas, que criam modelos preditivos. E os consumidores de informação, são os ditos
utilizadores casuais (casual users) que regularmente consultam reports, mas não realizam análises
profundas ou de previsão diariamente. Alguns exemplos destes são: executivos, gestores, clientes,
funcionários, fornecedores, que utilizam maioritariamente reports e dashboards sim; e analistas que
trabalham com ferramentas de exploração dos dados (OLAP, Excel, ferramentas de data mining, etc).
Capítulo 4 | Revisão de Literatura
22
Eckerson (2013), agrupou os utilizadores casuais em três níveis, como demonstra a tabela 2.
Tabela 2 - Classificação de casual users (adaptado de Eckerson, 2013)
Classe Descrição Papel/Cargo
no Negócio
Necessidades
Analíticas
Preferências
de Layout
(Apresentação)
Canais
Preteridos
Visualizador Visualiza
reports e
dashboards
estáticos
Executivos,
responsáveis
por vendas e
funcionários
Realiza questões
aos analistas de
suporte
Tabelas e gráficos
suplementares, de
apresentação
estática
Email,
documentos
pdf,
dispositivos
móveis
(tablets)
Navegador Navega e
realiza
operações
sobre os
dados
presentes
nos reports
e
dashboards,
procurando
mais
detalhe
Gestores que
precisam
informação
sobre o
desempenho
do negócio
Operações sobre
os dados (drill-
down, pivot,
ranking,
modificar, etc) e
solicita apoio dos
analistas
Gráficos e tabelas
de dados
complexos e
dinâmicos
Plataformas
web e tablets
Explorador Explora os
dados da
camada
semântica
dos
sistemas de
BI e elabora
reports
complexos
Analistas Exploração ad-
hoc e elaboração
de reports
simples
Camada
semântica e
interfaces de point-
and-click
Computadores
Desktop
Capítulo 4 | Revisão de Literatura
23
No contexto deste projeto, interessa avaliar as necessidades dos casual users, pois são os utilizadores
finais, que mais dependem do suporte dos técnicos de TI, para aceder, solucionar e trabalhar os dados
nas ferramentas de exploração/extração, pelo que a classificação de Eckerson (2010; 2013),
apresenta estratégias de como identificar as necessidades e requisitos desses utilizadores, que vão de
encontro com o âmbito desta dissertação.
4.3.5 Indicadores chave de desempenho
Os sistemas de Business Intelligence utilizam os KPI para avaliar o estado atual do negócio e para
prescrever o curso da ação face aos objetivos estratégicos das organizações. Para um negócio atingir
um determinado objetivo, as organizações devem ter uma combinação de métricas quantitativas, que
ajudam a avaliar o seu sucesso e progresso, em direção a um determinado objetivo. Estas métricas,
são os KPI’s (Key performance indicators – Indicadores chave de desempenho), que suportam os
decisores na avaliação do estado atual do negócio e de como adotar atividades, atitudes e tarefas que
possam ter impacto nesse estado (Sauter, 2011).
De acordo com Grossman et al. (2015), um KPI interliga as atividades de negócio aos objetivos,
definindo uma meta quantitativa. Estes, podem referir a aspetos de desempenho de um processo de
negócio ou do negócio em geral. Os KPI podem ser: quantitativos (apresentados como números);
direcionais, que indicam o progresso (ou a ausência deste); práticos, que indicam os processos de
negócio; acionáveis, para controlar as mudanças a serem feitas, se necessário; financeiros, relativos a
custos (Grossmann & Rinderle-Ma, 2015; Sauter, 2011).
4.4 Data Warehouse
4.4.1 Conceito
Os sistemas de Business Intelligence alimentam-se dos dados existentes nos sistemas transaccionais
das organizações. Pelo que para o armazenamento dos dados são utilizados Data Warehouses ou Data
Marts. El-Sappagh et al. (2011, pg. 91) define DW, como “uma coleção de tecnologias destinadas a
permitir que, os decisores tomem decisões melhores e mais rápidas”. Outros autores como Turban et
al. (2010, pg. 32), definiram DW, como “um conjunto de dados, produzidos para apoiar a tomada de
decisão; e também, um repositório de dados históricos de relevância para gestores da organização”.
Capítulo 4 | Revisão de Literatura
24
Os Data Warehouses são orientados a um determinado assunto, integrados, variantes no tempo e não-
voláteis, para apoiar a decisão (Inmon, 2005, pg. 29; Turban et al., 2010, pg. 32). Pelo que diferem
das base de dados operacionais, por possuir os atributos mencionados anteriormente, assim como,
por apresentarem maior capacidade de armazenamento e os seus dados serem sumarizados (El-
Sappagh et al., 2011).
Inmon (2005), explica os atributos fundamentais de um DW, tais como:
• Orientado ao assunto: os dados são organizados por assuntos, tais como vendas, clientes
ou produtos, contendo apenas informações relevantes para apoiar a tomada de decisão;
• Integrado: devem converter os dados de diferentes fontes, em um formato consistente, ou
seja, desde extração até ao carregamento, os dados devem ser uniformizados e integrados;
• Variante no tempo: detêm uma qualidade temporal, pois devem armazenar dados
históricos;
• Não volátil: após o carregamento dos dados no DW, estes permaneceram inalteráveis por
norma, não podendo ser alterados ou atualizados. Qualquer alteração ou atualização, será
assumida como um novo registo.
O fator de apoio à decisão de um DW, que até os dias de hoje, é extramente valorizado, é realçado por
Sá (2009) ao afirmar que, DW é um “repositório de registos informacionais integrados, oriundo de
várias fontes internas ou externas da organização, onde estes registos representam eventos ou factos
de um determinado período de tempo, que satisfazem os requisitos informacionais de uma
organização”.
O significado do termo Data Warehousing, que é muitas vezes mal-entendida como Data Warehouse,
explicado por Sá (2009), este, é equivalente a Sistemas de Data Warehouse, que significam, ambos, o
processo de criação de um DW, que corresponde, por sua vez, ao conteúdo do Sistema de Data
Warehouse.
Existem em 3 tipos principais de DW, sendo que cada um existe num determinado contexto e para um
fim especifico, podendo variar nas suas características. Turban et al. (2010) apresentam-nas, da
seguinte forma:
Capítulo 4 | Revisão de Literatura
25
• Data Marts: um DMT é relativamente menor que um DW e foca-se num
assunto/departamento em particular. Este, pode ser dependente de um DW, isto é, a fonte de
dados provem deste, ou independente quando é projetado para responder as necessidades de
um departamento/assunto em especifico, sem ligações a nenhum DW;
• Armazenamento de Dados Operacionais: é um tipo de base de dados, que normalmente
é utilizada como uma área de “estágio”, antes da construção de um DW. O seu conteúdo é
dinâmico, sofrendo constantes alterações/atualizações para dar resposta a
objetivos/problemas de curto prazo;
• Data Warehouse Organizacional: é um DW de grande escala, utilizada em grandes
organizações para armazenar uma elevada quantidade de dados, provenientes de várias fontes
e padronizadas, facultando um melhor suporte à tomada de decisão.
4.4.2 Arquitetura de sistemas de Data Warehouse
Turban et al. (2010), definem as seguintes possíveis arquiteturas para um sistema de Data Warehouse:
• Arquitetura de Três Camadas: os sistemas operacionais contêm os dados e o software
para aquisição de dados em um nível (ou seja, o servidor), o DW é outro nível, e o terceiro nível
inclui o mecanismo de BI (ou seja, o servidor) e o terminal do cliente/utilizador. Os dados do
armazém são processados duas vezes e depositados em um banco de dados multidimensional
adicional, organizado para análise e apresentação multidimensional simplificado, ou replicado
em data marts. Vantagem desta arquitetura, é a separação das funções do DW, removendo as
restrições de recursos e facilitando a criação de DMT;
Figura 8- Arquitetura de três camadas (adaptado de Turban et al., 2010)
• Arquitetura de Duas Camadas: na primeira camada o cliente/utilizador e na segunda
camada, a aplicação do sistema de apoio à decisão, que por sua vez, funciona na mesma
plataforma de hardware que o DW, sendo por isso mais económico. Mas, no entanto, poderá
acarretar problemas de desempenho ao lidar com grandes quantidades de dados;
Capítulo 4 | Revisão de Literatura
26
Figura 9 - Arquitetura de Duas Camadas (adaptado de Turban et al., 2010)
• Arquitetura Acente na Web: representa um servidor cliente (browser), que através da
internet, intranet ou extranet se conecta a um servidor Web, que por sua vez possibilita o
acesso ao DW. Esta arquitetura é de baixo custo, proporciona fácil acesso e independência das
plataformas associadas.
Figura 10 - Arquitetura acente na web (adaptado de Turban et al., 2010)
4.4.3 Componentes do sistema de DW
Um sistema de Data Warehouse, segundo Sá (2009, pg. 18) é constituído por diversos componentes,
não se resumindo ao repositório do DW, sendo usualmente constituído por:
Capítulo 4 | Revisão de Literatura
27
• Fontes informacionais – podendo ser internas ou externas, no primeiro caso, estes,
resultam das atividades diárias das organizações, materializando-se nos repositórios de
registos operacionais que irão alimentar o DW. E no segundo caso, estes, provem de
informações de mercado, de concorrentes, geográficas, de cotações na bolsa;
• Software para Extração, Transformação e Carregamento – são ferramentas que
permitem extrair os dados das diversas fontes informacionais, transforma-los e carrega-los no
DW;
• Repositórios – esta componente é constituída por diversos elementos, pelo DW, vários DMT
e os metadados (Secção 4.5);
• Ferramentas de análise – permitem aos utilizadores acederem à informação armazenada
nos repositórios, podendo esse acesso, ser realizado através de: linguagem de consulta
estruturada (SQL-Structure Query Language), gerador de relatórios, data mining, ferramentas
OLAP, entre outros.
4.4.4 Arquiteturas do Data Warehouse
Num nível mais alto, a conceção da arquitetura do Data Warehouse, pode ser realizada nas categorias
de DW Organizacional (figura 8) e Data Marts, segundo Golfarelli & Rizzi (Golfarelli & Rizzi, 2009, citado
em Turban et al., 2010) . Na categoria data marts, existem duas opções, ter os DMT independentes ou
dependentes, apresentadas na figura 6 e 7. Para o primeiro caso, teremos DMT orientado a um
determinado assunto/departamento, contendo dados necessários para suportar e fornecer
informações úteis aos utilizadores/gestores. No segundo caso, teremos DMT dependentes de um DW.
• Categoria DMT - Data Marts Independentes:
Capítulo 4 | Revisão de Literatura
28
Figura 11-Arquitetura de DMT independentes (adaptado de Turban et al., 2010)
• Categoria DMT - Data Marts Dependentes:
Figura 12 – Data marts dependentes (adaptado de Turban et al., 2010)
• Categoria Data Warehouse Organizacional:
Capítulo 4 | Revisão de Literatura
29
Figura 13 - Arquitetura data warehouse organizacional (adaptado de Turban et al. 2010)
4.4.5 Abordagens de desenvolvimento
Os métodos mais frequentemente utilizados para desenvolver o processo de construção de um DW,
são os preconizados por Inmon e Kimball, respetivamente, a abordagem Top-Down e Bottom-Up.
• Top-Down: Inmon defende esta abordagem, pois esta, adapta-se as ferramentas tradicionais
de base de dados relacionais ao desenvolvimento das necessidades de um DWO, requerendo
inicialmente, uma análise global das necessidades da organização e posteriormente, o
planeamento do desenvolvimento, conceção e implementação do DW (Turban et al., 2010). De
uma forma geral, esta, possui duas etapas, de acordo com Malinowski e Zimány (Malinowski e
Zimány, 2008, citado em Sá, 2009, pg. 69): a “primeira consiste em definir o esquema do
conteúdo de todo o Data Warehouse. A segunda consiste em implementar Data Marts de
acordo com as características particulares de cada departamento ou área de negócio”;
• Bottom-Up: esta abordagem, também conhecida por estratégia de DMT, é uma abordagem
de "plan big, build small", isto é, realizar um bom e rigoroso planeamento, permitindo
simplificar o processo de construção do DW. Segundo Sá (2009, pg. 69), esta abordagem
“tem como objetivo modelar e construir esquemas dos conteúdos de cada Data Mart, tendo
em conta as necessidades informacionais existentes. Os esquemas de cada Data Mart devem
ser modelados com o objetivo de, posteriormente, serem unificados para assim se conseguir
obter um esquema global de todo o Data Warehouse.”
Capítulo 4 | Revisão de Literatura
30
A abordagem preconizada por Inmon, apresenta alguns benefícios para organização, na medida que
permite ter uma visão global dos objetivos, mas implica muito tempo de desenvolvimento e custos
elevados. Já, a abordagem de Kimball, reduz significativamente o tempo de desenvolvimento,
permitindo obter resultados mais tangíveis (Golfarelli & Rizzi, 2009).
4.4.6 Representação dos dados no DW
Segundo Turban et.al., (2010, pg. 55), “Qualquer que seja a arquitetura do sistema de DW, a
conceção da representação dos dados no DW tem sido baseada no conceito de modelação
dimensional”. Turban et al., (2010), afirmam que, a modelação dimensional é um sistema baseado em
consulta, que suporta o acesso a um grande volume de dados. Kimball & Ross, (2013), afirmam que, a
modelação dimensional é aceitada como uma das técnicas preteridas para apresentar os dados
analíticos, por responder dois requisitos em simultâneo: fornecer dados que sejam compreensíveis
para os intervenientes do negócio; fornecer um desempenho de consulta rápida. O armazenamento e
representação dos dados num DW, deverá ser concebido, não só de forma a acomodar, mas também,
a melhorar o processamento das consultas multidimensionais complexas (Turban et al., 2010).
Para a modelação dimensional, segundo Sá (2009), existem três estruturas principais para a
representação dos dados, tais como:
• Esquema em Estrela: representa o estilo mais simples e talvez o mais usado na modelação
dimensional. Como ilustrado na Figura 11, é constituído por uma tabela de factos e um
conjunto de tabelas de dimensão. As tabelas de dimensão contêm atributos e apresentam-se
desnormalizadas, facilitando a navegação na pesquisa. As tabelas de factos contêm um
conjunto de chaves estrangeiras, uma por cada tabela de dimensão associada e apresentam-
se normalizadas, ou seja, sem redundância;
Capítulo 4 | Revisão de Literatura
31
Figura 14 - Esquema em Estrela
• Esquema em Floco de Neve: este esquema distingue-se do esquema em estrela, na
medida em que, as tabelas de dimensões encontram-se normalizadas, com representação
clara, da hierarquia de atributo nas dimensões. Kimball & Ross, (2013), afirmam que, só se
justifica a utilização deste modelo, na construção de um DW quando compensar a perda de
rapidez e facilidade de acesso aos dados, relativamente ao espaço ocupado pelos mesmos;
Figura 15 - Esquema em Floco de Neve
Capítulo 4 | Revisão de Literatura
32
• Esquema em Constelação: esta, resulta da combinação de várias estruturas (em estrela,
em floco de neve ou em constelação), garantindo a conformidade das dimensões existentes,
de forma a permitir a sua partilha.
Figura 16 - Esquema em Constelação
4.4.7 Metadados
“Another consideration of metadata is that every technology in the business intelligence environment
has its own metadata” Inmon (2005).
A importância dos metadados para um sistema de Business Intelligence, é crucial para a compreensão
e controlo sobre os dados durante os vários processos que sofrem no sistema. De acordo com Sá
(2009, pg. 19), os metadados “constituem informação sobre os registos informacionais armazenados
no Data Warehouse e nos Data Marts, identificando a origem de cada registo informacional, o processo
de transformação e limpeza que sofreu, e o seu significado”. Os autores Turban et al. (2010, pg. 38) e
Kimball & Ross (2013), afirmam que, os metadados são “dados sobre os dados” (discordado por
Loshin 2012, pg. 120, por não transpor a total essência dos metadados), estes, descrevem a estrutura
e algum significado sobre os dados, contribuindo assim para o seu uso efetivo ou ineficaz.
De certa forma, os metadados são dicionários de dados, como é referido por Loshin (2012, pg. 120),
com toda a informação necessária para os analistas do negócio. Sendo que embora os autores Turban
Capítulo 4 | Revisão de Literatura
33
et al. (2010, pg. 38), refiram que, os metadados podem ser diferenciados por: sintáticos (descrevem
a sintaxe dos dados); estruturais (descrevem a estrutura dos dados) e semânticos (descrevem o
significado dos dados, em um domínio específico).
Loshin (2012) apresenta sete tipos de metados, presentes na tabela seguinte.
Tabela 3 - Tipos de metadados (Fonte Loshin 2012)
Tipo Descrição
Estrutural Refere aos aspetos da forma e formato, os nomes
das tabelas, o número de colunas e o tamanho e tipo
de elemento dos dados.
Técnico Engloba as informações necessárias para o
desenvolvimento e execução de aplicações.
Referência Representa os conjuntos partilhados das tabelas de
referência, unidades de medidas associadas,
enumerações e mapeamentos
Operacional Corresponde aos registos de relatórios operacionais e
dados estatísticas.
Informacional Incluí: modelos conceptuais e lógicos de dados e as
descrições das entidades
Analítica Diz respeito à entrega de relatórios e análises,
incluindo nomes de relatórios, colunas não-
persistentes para relatórios ou tipos de modelos
preditivos
Semântica Envolve o glossário de termos de negócios que
catalogam e mapeiam os conceitos de elementos dos
dados.
Negócio Correspondem a descrição da estrutura dos dados de
relevância para os clientes e os utilizadores de
negócio.
Capítulo 4 | Revisão de Literatura
34
4.4.8 Análise e acesso aos dados do DW
Para se efetuar a análise dos dados contidos num DW, é preciso ter em conta as técnicas de análise de
dados existentes. De acordo com Turban et al. (2010), o processamento analítico online (OLAP –
Online Analytical Processing) é popularmente o mais utilizado.
• Online Analytical Processing (OLAP) - Estes autores, Turba net al. (2010), definem OLAP,
como uma abordagem para responder rapidamente às questões ad-hoc, executando consultas
analíticas multidimensionais aos repositórios organizacionais. Também, afirmam que a
estrutura principal da operação no OLAP, é baseado no conceito de “cubos”, que é uma
estrutura de dados multidimensional para permitir consultas analíticas com maior rapidez e
eficácia. Através da utilização do OLAP, o utilizador poderá navegar sobre os dados contidos no
DW, efetuando pesquisas de um conjunto especifico destes, esta navegação engloba
operações de drill-down/up (agregação e desagregação), roll-up, slice (dividir), dice (separar) e pivot.
• Online Transaction Processing (OLTP) - Outro conceito associado interligado ao OLAP, é
o de processamento de transação online (OLTP – Online Transaction Processing), que é o
“sistema responsável pela recolha e armazenamento de dados relacionados com as funções
do dia-a-dia do negócio das organizações, como por exemplo as ferramentas: Enterprise Resource Planning, Customer Relationship Management, Supply Chain Management e Point of sales” (Turban et al., 2010). A tabela 2, especifica as diferentes caraterísticas de um
sistema OLAP e OLTP.
Tabela 4 - OLTP vs OLAP (adaptado de Turban et al.)
Critério OLTP OLAP
Objetivo Levar a cabo as operações do dia-a-dia da
organização
Apoiar as tomadas decisão e facultar
respostas às consultas dos
utilizadores
Fonte de Dados Base de dados transacionais Data warehouse ou data marts
Relatórios Periodicamente e rotineiramente Ad-hoc e multidimensionais
Requisitos Sistemas de base de dados relacionais Multiprocessadores, grande
capacidade de armazenamento, base
dados especializados, etc
Velocidade de
Execução
Rápido (consultas rotineiras e simples) Lento (consultas complexas)
Capítulo 4 | Revisão de Literatura
35
4.4.8.1 Arquiteturas de servidores OLAP
Os servidores OLAP facultam de forma eficiente, a perspetiva multidimensional dos dados, às
aplicações e utilizadores, permitindo também efetuar operações sobre os mesmos (Chaudhuri et al.,
2011, pg. 90). As formas mais comuns de implementação desses servidores, são:
• MOLAP (Multidimensional Online Analytical Processing): são implementados em base
de dados multidimensionais, o sistema é baseado em modelos lógicos ad-hoc, que podem ser
utilizados para representar dados multidimensionais e realizar operações sobre as mesmas
(Golfarelli & Rizzi, 2009). Este tipo de arquitetura apresenta como principal vantagem o seu
excelente desempenho e uma rápida indexação;
• ROLAP (Relational Online Analytical Processing): são implementados em base de dados
relacionais e geram consultas SQL (Structured Query Language) para efetuar as operações e
cálculos requisitados pelo utilizador. Sendo que, as bases de dados relacionais não foram
estruturadas tradicionalmente para lidar com os dados num formato dimensional. As
vantagens desta arquitetura tem haver com a eficiência que proporciona na consulta e
carregamento dos dados (Chaudhuri et al., 2011);
• HOLAP (Hybrid Online Analytical Processing): é a divisão do armazenamento de dados
em um MOLAP e uma base de dados relacional. A divisão dos dados pode ser feita de
diferentes formas. Um deles é armazenar os dados detalhados numa base de dados relacional,
como fazem os servidores ROLAP e pré-computar dados agregados no MOLAP. Outro método é
armazenar dados mais recentes no MOLAP, para obter acesso rápido e dados antigos no
ROLAP (Chaudhuri et al. 2011).
4.4.9 Dashboard e Scorecards
Dashboards ou painéis, são métodos práticos de apresentar e aceder à informação armazenada num
Data Warehouse. Este, é um GUI (Guide User Interface), que apresenta uma quantidade limitada de
dados num formato legível. Os indicadores de performance, são os principais conteúdos apresentados
nos dashboards, contendo informação abrangente sobre a organização. Isto, permite aos utilizadores
do negócio visualizar, consultar e analisar as operações da organização (Golfarelli & Rizzi, 2009).
Figura 17 - Exemplo de Dashboard (retirado de Hart & Saxton, 2018)
Capítulo 4 | Revisão de Literatura
36
Scorecards, também são formas de acesso aos dados, fornecendo arranjos visuais da informação, que
é consolidada e disposta em uma única tela para que a informação possa ser interpretada em um
numa visão e a estratégia global de uma organização, em um conjunto de objetivos, medidas, metas e
iniciativas financeiras e não financeiras inter-relacionadas (Sauter, 2011; Turban et al., 2010).
Figura 18 - Exemplo de scorecard (retirado de Hart & Saxton, 2018)
Segundo Kimball & Ross (2013, pg. 423), “alavancar portais e dashboards informativos
personalizáveis, são as estratégias dominantes para disseminar o acesso”. Mas, Golfarelli & Rizzi
(2009, pg. 30), alertam que, os dashboards devem ser vistos como um add-on eficaz do DW, e não
como o objetivo final deste.
4.4.10 Reports
Aplicações de Reporting (relatórios) possibilitam aceder aos dados de um Data Warehouse e construir
modelos preditivos para ajudar a responder questões como: “Quais os clientes com maior
probabilidade de responder à minha nova campanha de marketing via email?”. Golfarelli & Rizzi (2009,
pg. 28), afirmam que reports, “são uma abordagem de acesso, através de consultas de dados
multidimensionais ou layouts de histogramas e gráficos, apresentando como vantagens: a
apresentação de informação fiável e correta; a separação de operações de transação e análise,
melhorando a performance do DW”.
4.4.11 Data Mining
Data mining é uma das outras formas de acesso aos dados de um data warehouse, sendo que este, é
o processo de descoberta de padrões em grandes quantidades de dados, através da aplicação de
Capítulo 4 | Revisão de Literatura
37
técnicas/modelos matemáticos, estatísticos e de inteligência artificial (Turban et al. 2010). O uso de
DM nas aplicações de Business Intelligence, tem sido considerado como uma das características
essenciais dos sistemas de BI (Chen et al., 2012). Pelo que tem permitido aos utilizadores do negócio,
realizarem uma análise aprofundada dos dados, incluindo a capacidade de construir modelos
preditivos. Esta abordagem, passa por selecionar um subconjunto de dados do DW, realizar análises de
dados sofisticados no subconjunto de dados selecionados, identificando características estatísticas de
relevância e, em seguida, construir modelos preditivos (Chaudhuri et al., 2011).
4.5 Extract, Transform & Load
4.5.1 Conceito
De acordo com Ferreira et al. (2010), o “ETL (Extração, Transformação e Carregamento) e as
ferramentas de limpeza de dados consomem um terço do orçamento num projeto de DW, podendo, no
que respeita ao tempo de desenvolvimento de um projeto de DW, chegar a consumir 80% desse valor.”
El-Sappagh et al. (2011), afirmam que o processo ETL, é normalmente uma combinação complexa de
tecnologias e processos, que consumem uma grande percentagem de esforço, do desenvolvimento de
um DW e exige as capacidades técnicas de várias equipas de trabalho, tais como: os analistas de
negócio, os programadores, os designers da base de dados. E não sendo um processo linear, isto é,
um processo a ser executado uma vez, pois as fontes informacionais são alteradas e o DW atualizado
periodicamente, sendo que o processo ETL deverá ser adaptável às mudanças. Na figura 12, é
apresentado um processo ETL genérico, resumido e estruturado com as suas fases principais:
Figura 19 - Representação de um processo ETL genérico (adaptado de El-Sappagh 2011)
Capítulo 4 | Revisão de Literatura
38
0s autores Turban et al. (2010, pg. 47), definem o ETL como, o “processo de extração (capturar os
dados das várias fontes informacionais), transformar (converter o formato dos dados extraídos para o
formato adequado, para ser inserido no DW ou DMT), carregar (efetuar o carregamento dos dados no
DW)”. Chaudhuri et al. (2011), realçam o papel crucial, que as ferramentas ETL desempenham na
garantia da qualidade dos dados e no carregamento eficiente de grandes quantidades de dados no DW.
E outros autores como Shilakes & Tylman (Shilakes & Tylman, 2009, citado em El-Sappagh et al.,
2011) referem que, as ferramentas ETL pertencem a uma categoria de ferramentas especializadas,
com a tarefa de lidar com os problemas da homogeneidade, limpeza, e transformação do DW.
4.5.2 Fases do processo ETL
O sistema ETL consiste em três etapas funcionais consecutivas: extração, transformação e
carregamento (El-Sappagh et al., 2011, pg. 93).
• Extração: esta etapa é responsável pela extração dos dados das fontes informacionais. Cada
fonte tem as suas características especificas, que precisam ser geridas, de modo que a
extração ocorra de forma eficaz. O processo precisa eficientemente integrar os sistemas que
possuem diferentes plataformas tecnológicas, tais como, sistemas de gestão de base de
dados, sistemas operativos, e diferentes protocolos de comunicação (El-Sappagh et al., 2011);
• Transformação: Os autores Golfarelli & Rizzi (2009), defendem que esta etapa deverá dividir-
se em duas fases distintas: Limpeza e Transformação. No entanto, de acordo com El-Sappagh
et al. (2011), a segunda etapa diz respeito à transformação dos dados, esta, tem como
objetivo a limpeza e transformação dos dados extraídos, de forma a obter a acuidade dos
mesmos, isto é, dados corretos, completos, consistentes e sem ambiguidade. Incluí atividades
como: definição da granularidade das tabelas de factos e das tabelas de dimensões; o
esquema DW (em estrela ou floco de neve), factos derivados, dimensões que mudam
lentamente, tabelas de factos sem factos;
• Carregamento: nesta etapa, os dados extraídos e transformados são inseridos nas estruturas
dimensionais, acedidas pelos utilizadores finais e pelas aplicações do sistema. A etapa de
carregamento engloba, tanto o carregamento das tabelas de dimensão, assim como o
carregamento das tabelas de factos (El-Sappagh et al., 2011). Golfarelli & Rizzi (2009),
associam duas técnicas a esta etapa, respetivamente o refrescamento e a atualização. O
refrescamento trata-se de substituir os dados antigos, por novos dados, e a atualização, é a
adição de novos registos, sem modificar ou eliminar os dados antigos.
Capítulo 4 | Revisão de Literatura
39
De acordo com Turban et al. (2010, pg. 49), a execução extensiva de um processo de ETL, poderá ser
um sinal de má gestão dos dados e falta de uma estratégia coerente de gestão dos dados. Quando os
dados sãos geridos corretamente como um bem organizacional, os esforços de ETL sãos
significativamente menores e os dados redundantes são completamente removidos. Isto traduz-se em
poupanças na manutenção, maior eficiência no desenvolvimento do projeto e melhor qualidade dos
dados. Pelo que, é crucial efetuar as escolhas apropriadas em termos de tecnologias e ferramentas
para utilizar no desenvolvimento e manutenção do processo ETL.
4.6 Visão Critica
A revisão de literatura permitiu de certa forma, perceber os conceitos associados ao tema e analisar os
vários autores no campo de Business Intelligence. Possibilitou constatar que, existe uma convergência
entre os vários autores, na classificação de sistemas de Business Intelligence, como um agregador de
informação competitiva, com o intuito de acrescentar valor nas decisões dos gestores/intervenientes
no negócio. E este valor proativo dos sistemas BI, é transversal, sendo que existe um vasto conjunto de
tecnologias associadas que influenciam a implementação dos sistemas de BI e o ambiente em que é
inserido.
É interessante, também realçar a importância dos metadados, que muitas vezes passam ao lado nas
organizações, são poucas as organizações que sabem como conceber e implementar uma estratégia
para os metadados e poucas capturam os vários tipos de metadados, sendo que, os que capturam,
não lhe proporcionam o devido uso (Loshin 2012; Turban et al. 2010). E concordando com a
afirmação de Wang (2009, pg. 1845) sobre a vantagem da implementação de modelo de metadados
integrado, comum e partilhado, como dissipador da lacuna de falta de representação dos metadados
semânticos e sintáticos nos vários componentes do sistema de DW.
No âmbito deste capitulo, foi também relevante identificar os vários tipos de utilizadores do negócio
existentes numa organização e sua importância para o ambiente de sistemas de BI, no intuito de
realizar o levantamento dos requisitos para ferramentas, assim como desmitificar os significados
inerentes à extração e exploração de dados, sendo que houve muita dificuldade em encontrar trabalhos
já realizados, no contexto de avaliação de ferramentas enquadradas com objetivo deste trabalho.
Capítulo 4 | Revisão de Literatura
40
Concluindo, poder-se-á afirmar que, o sistema de BI passa pelo processo de ETL (extração,
transformação e carregamento dos dados), pelo design, pela construção do DW e por fim pela
disponibilização dos dados, através de processos de visualização e análise dos mesmos.
Capítulo 5 | Trabalho Realizado
41
5 TRABALHO REALIZADO
5.1 Ferramentas de Extração e Exploração de Dados
5.1.1 Requisitos
De acordo com classificação apresentada na secção 4.3.4 (tabela 2), para efetuar o levantamento
inicial das ferramentas existentes no mercado, é preciso definir um conjunto de requisitos dos
utilizadores finais, sendo, neste caso, os casual users. Neste intuito, foi identificado as caraterísticas
necessárias para dar resposta às exigências destes utilizadores, de modo a torná-los menos
dependentes dos técnicos de tecnologias de informação.
Tabela 5 - Requisitos dos utilizadores
Requisitos
Visualizador Qualidade dos dados, reports, scorecards e dashboard intuitivos e
concisos; permitir a colaboração interativa com analistas (real-time);
exportação de dados para ficheiros pdf ou csv;
Navegador Rápida execução das operações sobre os dados presentes em gráficos e
tabelas dinâmicas; permitir a colaboração interativa com analistas (real-
time) ; exportação de dados para ficheiros pdf, word e csv;
Explorador Rapidez na execução de consultas ad-hoc e na extração dos dados;
apresentação de dados relevantes para análises dos indicadores do
negócio; permitir a colaboração interativa com analistas (real-time);
exportação de dados para ficheiros pdf, word e csv;
5.1.2 Avaliação inicial das ferramentas
Depois de discutir os conceitos associados ao tema e aos objetivos deste projeto, importa agora referir
o levantamento efetuado, das ferramentas atuais no mercado. Os resultados obtidos estão
apresentados na tabela 5, que traduz as características de exploração/extração de dados (a partir de
Data Warehouse e Data Marts) definidos na secção 4.2, e o custo, onde estas são cruzadas com a
oferta existente. É importante, também realçar, que as ferramentas aqui apresentadas, vão de encontro
com as exigências dos casual users.
Capítulo 5 | Trabalho Realizado
42
Tabela 6 - Comparação de ferramentas
Extração de dados Exploração de dados Custo
Alteryx2 x x €€€€
Chartio3 x x €€€
Information Builders
(InfoApp)4
x x €€€€
Microsoft Excel5 &
Share Point6
x x €
Microsoft Power BI7 x x €
Pentaho Data
integration
x x €€
Qlik Sense x x €€€
SAP8 x x €€€€
Sisense9 X X €€
Tableau Desktop10 x x €
Talend11 Open Studio x x €€€
2 https://www.alteryx.com/ 3 https://chartio.com/product/features/ 4 http://www.informationbuilders.com/info-apps-infoapps 5https://support.office.com/en-us/article/introduction-to-microsoft-power-query-for-excel-6e92e2f4-2079-4e1f-bad5-89f6269cd605 6 https://products.office.com/en-us/sharepoint/collaboration 7 https://powerbi.microsoft.com/en-us/ 8 https://www.sap.com/products/data-preparation.html 9 https://www.sisense.com/ 10 https://www.tableau.com/ 11 https://www.talend.com/products/data-preparation/
Capítulo 5 | Trabalho Realizado
43
Posteriormente, será necessário avaliar mais ferramentas, dependo do contexto especifico de
experimentação, de forma a identificar outras funcionalidades que cumpram os requisitos dos
utilizadores do negócio (mais concretamente, os casual users).
Capítulo 6 | Plano de Atividades
44
6 PLANO DE ATIVIDADES
O presente capítulo apresenta a lista de atividades e calendarização deste projeto de dissertação, na
secção 5.1, contendo as datas de início/fim e as respetivas precedências. Na secção 5.2 encontra-se
especificado, os riscos inerentes a este projeto, assim como os seus impactos e respetivas ações de
mitigação.
6.1 Lista de Atividades
Para que o desenvolvimento do trabalho ocorra dentro dos prazos estabelecidos, elaborou-se o
planeamento das atividades do projeto de dissertação através do MS Project 2013. Este planeamento
teve como objetivo garantir uma gestão eficaz e eficiente do tempo e das tarefas do projeto, de modo a
evitar sobrecargas de trabalho e o não cumprimento de tarefas nos prazos estabelecidos.
Tabela 7 - Lista de atividades
Atividade/Tarefa Duração Início Fim Precedentes
Plano de Atividades
295 dias 10/16/17 11/30/18
Plano de Trabalho 31 dias 10/16/17 11/27/17 Elaboração do
Resumo e Enquadramento
1 dias 10/16/17 10/16/17
Descrição dos Objetivos e Resultados Esperados
1 dias 10/17/17 10/17/17 3
Descrição das Abordagens
Metodológicas
15 dias 10/23/17 11/10/17 4
Elaboração da Calendarização
2 dias 11/16/17 11/17/17 5
Conclusão e Revisão do
Documento
5 dias 11/20/17 11/24/17 3,4,5,6
Entrega do Plano de Trabalho
1 dias 11/27/17 11/27/17 7
Projeto de Dissertação
60 dias 11/28/17 2/19/18 2
Identificação da Motivação e Questão
de Investigação
2 dias 11/28/17 11/29/17
Capítulo 6 | Plano de Atividades
45
Definição e Revisão dos
Objetivos
2 dias 11/30/17 12/1/17 10
Revisão da Calendarização das
Atividades
1 dias 11/28/17 11/28/17
Delineação das Estratégias de
Pesquisa
1 dias 12/4/17 12/4/17 11
Pesquisa e Seleção da Literatura
19 dias 12/5/17 12/29/17 13
Documentação da Revisão de
Literatura
18 dias 1/1/18 1/24/18 14
Documentação do Projeto de
Dissertação
18 dias 1/25/18 2/19/18 15
Submissão do Projeto de
Dissertação
0 dias 2/19/18 2/19/18 16
Dissertação 205 dias 2/19/18 11/30/18 9 Conceção e
Desenvolvimento do Artefacto
175 dias 2/19/18 10/19/18
Definição dos Requisitos do
Negócio
20 dias 2/19/18 3/16/18
Modelação Dimensional
9 dias 2/19/18 3/1/18
Conceber o processo ETL
16 dias 2/19/18 3/12/18
Experimentação das
Ferramentas
60 dias 2/19/18 5/11/18
Criação da Topologia e
Catalogação
30 dias 2/19/18 3/30/18
Implementação da
topologia e Avaliação das ferramentas
43 dias 8/22/18 10/19/18
Demonstração do
Artefacto
6 dias? 10/22/18 10/29/18 19
Avaliação do
Artefacto
15 dias 10/30/18 11/19/18 26
Elaborar Relatório de
Dissertação
131 dias 4/20/18 10/19/18
Capítulo 6 | Plano de Atividades
46
Comunicação
do Artefacto
30 dias 10/22/18 11/30/18 28
Elaboração do Artigo Científico
15 dias 10/22/18 11/9/18
Entrega do Relatório de Dissertação
1 dias? 11/20/18 11/20/18
Apresentação da
Dissertação
9 dias 11/20/18 11/30/18 31
Elaborar Apresentação
5 dias 11/20/18 11/26/18
Realizar a Apresentação
0 dias 11/20/18 11/20/18
Capítulo 6 | Plano de Atividades
47
Figura 20-Diagrama de Gantt
6.2 Diagrama de Gantt
Juntamente com a lista de atividades apresentada na secção anterior, foi elaborado o diagrama de
Gantt para as tarefas a serem desempenhadas durante o projeto de dissertação, como apresenta a
figura 19.
Capítulo 6 | Plano de Atividades
48
6.3 Lista de Riscos
A lista de riscos tem como objetivo definir os possíveis riscos que possam ocorrer durante o
desenvolvimento do projeto de dissertação, de forma a preveni-los. Deste modo foi identificado o risco,
assim como o seu impacto e probabilidade de acontecer no projeto, por ordem de seriedade. Também,
foi definido estratégias de mitigação, capazes de prevenir esses riscos e um plano de contingência para
o caso desse risco acontecer.
A tabela a seguir, os riscos estão avaliados numa escala de [1-5] relativamente ao impacto,
probabilidade de ocorrerem no projeto e avaliados numa escala de [1-25] relativamente à seriedade12
deste. Esta lista irá ser revista, periodicamente, para avaliar a eficácia das estratégias definidas para
diminuir os riscos e, consequentemente orientar as revisões no plano de projeto.
Tabela 8 - Lista de Riscos
NR. Risco Impacto
[1-5]
Probabilidade
[1-5]
Seriedade Estratégia de
Mitigação
Plano de
Contingência
1 Falta de
compreensão
dos objetivos e
resultados
esperados
5 4 20 Reunir com
orientador para
esclarecer
dúvidas.
Alteração do
plano de
trabalho
2 Alteração dos
objetivos
5 4 20 Coordenar junto
do orientador o
estabelecimento
de objetivos fixos
e coerentes
Alterar o plano
de trabalho
3 Atrasos do
decorrer do
projeto
3 5 15 Planear o
trabalho semanal
e reuniões
semanais com o
orientador
Replanear as
tarefas a serem
realizadas
12 Seriedade resulta da multiplicação do impacto e a probabilidade
Capítulo 6 | Plano de Atividades
49
NR. Risco Impacto
[1-5]
Probabilidade
[1-5]
Seriedade Estratégia de
Mitigação
Plano de
Contingência
4 Ausência de
boa
comunicação
com o
orientador
5 3 15 Realizar reuniões
regulares.
Estabelecer
plataformas de
comunicação
rápidas.
Aumentar o
número de
reuniões
5 Complexidade
elevada do
Projeto
4 2 8 Realizar
reuniões
semanais, de
forma a tentar
encontrar
soluções que
criem maior
fluidez na
execução do
trabalho.
Fomentar um
esforço maior na
leitura e o
estudo de
informações
sobre o projeto
6 Incumprimento
dos objetivos e
resultados
esperados
4 2 8 Aumentar e
estabelecer
horários de
trabalho fixos
Adiar a entrega
da dissertação
7 Perda de
documentos
importantes à
execução da
dissertação.
5 1 5 Realizar 3
backup's diários
em mais do que
um local (cloud,
disco externo e
Ajustar o plano
de trabalho
Capítulo 6 | Plano de Atividades
50
pen-drive)
8 Avaria do
equipamento de
trabalho
3 1 3 Evitar o uso
excessivo do
equipamento de
trabalho para
outros fins, além
da dissertação
Realocar tarefas
para outro
recurso
eventualmente
disponível.
Capítulo 7 | Conclusão
51
7 CONCLUSÃO
O presente documento engloba o enquadramento conceptual dos conceitos necessários para o
desenvolvimento do tema, onde foi explicado a perspetiva atual dos vários autores dentro desses
conceitos, procurando efetuar uma análise critica destes. Esse enquadramento permitiu verificar e
promover as bases de conhecimento, que suportarão as próximas fases de desenvolvimento deste
trabalho, tais como: Business Intelligence, Data Warehouse, Data exploration/extraction, entre outros
estudados.
Neste projeto de dissertação, também se encontra a análise preliminar de ferramentas dedicadas à
extração e exploração de dados estruturados a partir de DW e Data marts, associados a sistemas de BI,
assim como a identificação dos utilizadores “preteridos” a utilizar essas ferramentas, para solucionar
um conjunto de requisitos destes. Em suma, a revisão de literatura permitiu identificar conceitos,
utilizadores, tecnologias, metodologias e requisitos que servirão de base ao desenvolvimento prático
deste projeto.
A dissertação assumirá posteriormente uma vertente prática, onde será desenvolvido a topologia
necessária para a catalogação das ferramentas, assim como experimentação das ferramentas que
melhor se adequem ao contexto. E tendo em conta um contexto de experimentação real, será aplicado
a metodologia de Kimball para proceder à modelação dos dados, que serão alvo de testes e
experimentações nas ferramentas catalogadas.
Capítulo 8 | Referências
52
8 REFERÊNCIAS
Ackoff, R. L. (1989). From data to wisdom. Journal of Applied Systems Analysis, 16(1), 3–9. Aruldoss, M., Lakshmi Travis, M., & Prasanna Venkatesan, V. (2014). A survey on recent research in
business intelligence. Journal of Enterprise Information Management, 27(6), 831–866. Baars, H., & Kemper, H.-G. (2008). Management Support with Structured and Unstructured Data—An
Integrated Business Intelligence Framework. Information Systems Management, 25(2), 132–148. Bellinger, G., Castro, D., & Mills, A. (2004). Data, Information, Knowledge, and Wisdom, 5–7. Chaudhuri, S., Dayal, U., & Narasayya, V. (2011). An overview of business intelligence technology.
Communications of the ACM, 54(8), 88. Chen, H., Chiang, R. H. L., Lindner, C. H., Storey, V. C., & Robinson, J. M. (2012). Business
Intelligence and Analytics: From Big Data to Big Impact. Management Information Systems Quarterly, 36(4), 1165–1188.
Davenport, T. H., & Prusak, L. (2000). Working knowledge – how organisations manage what they
know. Harvard Business School Press, Boston Massachusetts, 21(8), 395–403. Eckerson, W. (2010). Performance Dashboards: Measuring, Monitoring, and Managing Your Business.
John Wiley & Sons, Inc., New Jersey (2 ed.). John Wiley & Sons, Inc. All. Eckerson, W. (2013). Classifying and Certifying BI Users. Acessed in February 10, 2018, from
http://www.b-eye-network.com/blogs/eckerson/archives/2013/09/classifying_and.php El-Sappagh, S. H. A., Hendawi, A. M. A., & El Bastawissy, A. H. (2011). A proposed model for data
warehouse ETL processes. Journal of King Saud University - Computer and Information Sciences, 23(2), 91–104.
Elsevier. (2017). Mendeley. Acessed in December 23, 2017, from
https://www.elsevier.com/solutions/mendeley Ferreira, J., Miranda, M., Abelha, A., & Machado, J. (2010). O Processo ETL em Sistemas Data
Warehouse. INForum 2010 - II Simpósio de Informática, (9), 757–765. Golfarelli, M., & Rizzi, S. (2009). Data Warehouse Design, Modern Principles and Methodologies. Data
Warehouse. Grossmann, W., & Rinderle-Ma, S. (2015). Fundamentals of Business Intelligence. Berlin, Heidelberg:
Springer Berlin Heidelberg. Hart, M., & Saxton, A. (2018). What is a Power BI dashboard? Acessed in January 30, 2018, from
https://docs.microsoft.com/en-us/power-bi/service-dashboards
Capítulo 8 | Referências
53
Hevner, A. R., March, S. T., Park, J., & Ram, S. (2004). Design Science in Information Systems Research. MIS Quarterly, 28(1), 75–105.
Inmon, B. (2005). Building the Data Warehouse (4 ed.). John Wiley & Sons, Inc. All. Kimball, R., & Ross, M. (2002). The Data Warehouse Toolkit - The Complete Guide to Dimensional
Modeling (2 ed.). John Wiley & Sons, Inc. All. Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit - The Definitive Guide to Dimensional
Modeling (3 ed.). John Wiley & Sons, Inc. All. Loshin, D. (2012). Business Intelligence: The Savvy Manager’s Guide. (2 ed.). Elsevier Inc. Luhn, H. P. (1958). A Business Intelligence System. IBM Journal of Research and Development, 2(4),
314–319. Macaulay, T. (2016). A timeline of Business Intelligence: How decision-makers have been making sense
of data. Retrieved January 29, 2018, from http://www.cio.co.uk/it-applications/business-intelligence-timeline-3429740/
Negash, S. (2004). Business Intelligence. Communications of the Association for Information Systems,
13(2), 177–195. Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2008). A Design Science Research
Methodology for Information Systems Research. Journal of Management Information Systems, 24(3), 45–77.
Sá, J. V. de O. (2009). Metodologia de Sistemas de Data Warehouse, 17-69. Sauter, V. L. V. L. (2011). Decision Support Systems for Business Intelligence: (2 ed.). John Wiley &
Sons, Inc. All. Trujillo, J., & Mat, A. (2012). Business Intelligence 2 . 0 : A General Overview. In Business Intelligence
96, 98–116. Turban, E., Sharda, R., Delen, D., King, D., & Aronson, J. E. (2010). Business Intelligence: A
Managerial Approach: (2 ed.) Prentice Hall. Wang, J. (2009). Encyclopedia of Data Warehousing and Mining: (2 ed.). IGI Global. Webster, J., & Watson, R. T. (2002). Analyzing the Past to Prepare for the Future: Writing a Literature
Review. MIS Quarterly, 26(2), 13–23.
Capítulo 9 | Bibliografia
54
9 BIBLIOGRAFIA
Berthold, H., Rösch, P., Zöller, S., Wortmann, F., Carenini, A., Campbell, S., … Strohmaier, F. (2010). An architecture for ad-hoc and collaborative business intelligence. Proceedings of the 1st International Workshop on Data Semantics, 10-1.
Hevner, A., & Chatterjee, S. (2010). Design Science Research in Information Systems. (S. Ramesh & S. Voß, Eds.), Design Research in Information Systems, 22. Springer.
Schlesinger, P., & Rahman, N. (2015). Self-Service Business Intelligence Resulting In Disruptive Technology. Journal of Computer Information Systems, 56(1), 11–21.
Stodder, D. (2016). Improving Data Preparation for Business Analytics. Transforming Data With Intelligence Report, 1-37.
Capítulo 0 | Anexo I – Matriz de Conceitos
55
ANEXO I – MATRIZ DE CONCEITOS
Com o intuito de efetuar a sintetização da literatura, cruzando as com os conceitos inerentes ao tema
foi elaborada a matriz de conceitos (Webster & Watson, 2002). A notação utilizada foi: x - contém
pouca informação sobre o assunto (conceito); xx - contém alguma informação sobre o assunto; xxx -
contém muita informação sobre o assunto.
Tabela 9 - Matriz de Conceitos
Fontes Conceitos
Business
Intelligence Data
extraction Data
exploration Data ETL Data Warehouse
Ackoff, R. L. (1989) x x xxx
Aruldoss, M., Lakshmi Travis, M., & Prasanna Venkatesan, V. (2014)
xxx
x x
Baars, H., & Kemper, H.-G. (2008)
xx xxx xxx x x x
Bellinger, G., Castro, D., & Mills, A. (2004)
x x xxx
Chaudhuri, S., Dayal, U., & Narasayya, V. (2011)
xxx x x
Chen, H., Chiang, R. H. L., Lindner, C. H., Storey, V. C., & Robinson, J. M. (2012)
xxx
Davenport, T. H., & Prusak, L. (2000)
x x xxx
Eckerson, W. (2010) xxx
Eckerson, W. (2013) xxx
El-Sappagh, S. H. A., Hendawi, A. M. A., & El Bastawissy, A. H. (2011)
xxx
Ferreira, J., Miranda, M., Abelha, A., & Machado, J. (2010)
xxx x
Golfarelli, M., & Rizzi, S. (2009)
x x xxx
Grossmann, W., & Rinderle-Ma, S. (2015)
xxx xx xx
Hart, M., & Saxton, A. (2018)
x
Capítulo 0 | Anexo I – Matriz de Conceitos
56
Business
Intelligence
Data
extraction
Data
exploration Data ETL Data Warehouse
Inmon, B. (2005) x x xx xxx
Kimball, R., & Ross, M. (2002)
x x xx xxx
Kimball, R., & Ross, M. (2013)
x x xx xxx
Loshin, D. (2012) xxx xx xx
Luhn, H. P. (1958) xxx
Macaulay, T. (2016) xxx
Negash, S. (2004) xxx x x
Sá, J. V. de O. (2009) x xxx
Sauter, V. L. V. L. (2011) xxx x x
Trujillo, J., & Mat, A. (2012)
xxx
Turban, E., Sharda, R., Delen, D., King, D., & Aronson, J. E. (2010)
xxx x x
xx xx
Wang, J. (2009) x x xx xxx