O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE...

87
O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE MANUTENÇÃO PREDITIVA EM USINAS TERMELÉTRICAS Ana Luiza Ferraz Gama Projeto de Graduação apresentado ao Curso de Engenharia de Produção da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientador: Renato Flórido Cameira Rio de Janeiro Setembro de 2017

Transcript of O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE...

Page 1: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

O USO DE MACHINE LEARNING NA

IMPLEMENTAÇÃO DE MANUTENÇÃO PREDITIVA EM

USINAS TERMELÉTRICAS

Ana Luiza Ferraz Gama

Projeto de Graduação apresentado ao

Curso de Engenharia de Produção da

Escola Politécnica, Universidade Federal do

Rio de Janeiro, como parte dos requisitos

necessários à obtenção do título de

Engenheiro.

Orientador: Renato Flórido Cameira

Rio de Janeiro

Setembro de 2017

Page 2: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

O USO DE MACHINE LEARNING NA

IMPLEMENTAÇÃO DE MANUTENÇÃO PREDITIVA EM

USINAS TERMELÉTRICAS

Ana Luiza Ferraz Gama

PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO CURSO

DE ENGENHARIA DE PRODUÇÃO DA ESCOLA POLITÉCNICA DA

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS

REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE

ENGENHEIRO DE PRODUÇÃO.

Examinado por:

Prof. Vinicius Carvalho Cardoso, D.Sc.

RIO DE JANEIRO, RJ - BRASIL

Setembro de 2017

Page 3: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

ii

Gama, Ana Luiza Ferraz

O uso de machine learning na implementação de manutenção

preditiva em usinas termelétricas – Rio de Janeiro: UFRJ/ Escola

Politécnica, 2017.

8, 78 p.: il.; 29,7 cm.

Orientador: Renato Flórido Cameira, D.Sc.

Projeto de Graduação – UFRJ/ POLI/ Curso de Engenharia de

Produção, 2017.

Referências Bibliográficas: p. 62-68.

1. Machine Learning. 2. Manutenção Preditiva. 3. Transformação

digital. I. Cameira, Renato Flórido II. Universidade Federal do Rio de

Janeiro, Escola Politécnica, Curso de Engenharia de Produção. III. O

uso de machine learning na implementação de manutenção preditiva

em usinas termelétricas.

Page 4: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

iii

Agradecimentos

Agradeço à minha família, que é a base da minha vida, meu chão e meu abrigo,

principalmente à minha mãe, meu pai e minha tia.

Agradeço aos meus pais pela minha educação, por terem me ensinado a ser

honesta, íntegra e lutar pelo que acredito.

Agradeço a minha mãe Luiza Regina, por ter me ensinado que não conquistamos

nada sem muito esforço e dedicação, por ter me dado colo quando eu, mesmo já

crescida, precisei. Obrigada por tudo o que fez por mim, me dando apoio e acreditando

que eu conseguiria enfrentar todos os desafios, mesmo quando nem eu acreditava.

Agradeço ao meu pai Carlos Cesar, por ter me apresentado o mundo da

informática, pelo qual me apaixonei ainda pequena, e por ter sempre me apoiado nas

minhas escolhas, independentemente de quais fossem.

Agradeço a minha tia e segunda mãe Luiza, por ter sempre me tratado como

filha, por me ensinar a rir sem medo da gargalhada sair alta demais e por ter me

abrigado, quando eu não aguentava mais atravessar a cidade para chegar à faculdade.

Agradeço a Deus, por me iluminar e proteger durante toda minha trajetória, com

saúde, força e amor.

Agradeço aos que foram, além de professores, inspiradores, que despertaram

em mim um desejo ainda maior de me tornar engenheira: Renato Cameira, Alice

Ferruccio, Vinicius Cardoso, Eduardo Jardim e Adriano Proença.

Agradeço ao João Marcelo e ao Daniel, por me darem subsídios e informações

para esse trabalho.

Agradeço aos meus irmãos, Pedro e Lucas, por toda a ajuda do dia a dia que,

mesmo pequenas, fizeram e fazem toda a diferença.

Agradeço ao meu grande amigo e companheiro Felipe, por escutar minhas

lamentações diárias, me acalmar nos momentos de desespero com prazos, provas e

entregas e me dar um “empurrãozinho” sempre que precisei.

Agradeço aos meus irmãos de coração, Michelli e Gabriel, por terem sempre um

ombro amigo para mim durante essa jornada.

Agradeço a cada uma das colegas de curso que se tornaram amigas para toda

a vida, Mariana, Joana, Sofia, Julia e Luciana, por serem mais um motivo para

atravessar a cidade todo dia, pelos trabalhos em grupo durante a madrugada, por terem

feito do Fundão um lugar melhor e por terem aproveitado comigo o melhor da faculdade.

Por fim, agradeço a todos que de alguma forma me ajudaram durante o curso de

Engenharia de Produção, do qual tenho muito orgulho de fazer parte.

Page 5: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

iv

“São nossas escolhas que revelam o

que realmente somos, muito mais do

que as nossas habilidades.”

Albus Dumbledore

(J.K. Rowling, Harry Potter e a Câmara Secreta)

Page 6: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

v

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte

dos requisitos necessários para a obtenção do grau de Engenheiro de Produção.

O uso de machine learning na implementação de manutenção preditiva em usinas

termelétricas.

Ana Luiza Ferraz Gama

Setembro/2017

Orientador: Renato Flórido Cameira, D.Sc.

Curso: Engenharia de Produção

O presente trabalho é um estudo sobre a transformação digital que ocorre

atualmente em empresas de todos segmentos, mais especificamente nos processos de

monitoração e controle de falhas em usinas termelétricas da PETROBRAS e como

esses processos podem evoluir através da aplicação de técnicas e soluções que

compõe essa transformação.

O objetivo desse estudo é explicar a base das principais soluções, aprofundando

o conhecimento sobre machine learning. Com um ambiente industrial cada vez mais

automatizado, as áreas de negócio tentam otimizar os gastos com manutenções de

máquinas, ao mesmo tempo em que se aumenta a resiliência das mesmas. Além disso,

discutiremos sobre o caminho da evolução da manutenção preventiva para a preditiva,

através da aplicação de um modelo de machine learning.

Palavras-chave: manutenção preditiva, machine learning, transformação digital

Page 7: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

vi

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of the

requirements for the degree of Industrial Engineer.

The use of machine learning in the implementation of predictive maintenance in

thermoelectric plants

Ana Luiza Ferraz Gama

September 2017

Advisor: Renato Flórido Cameira

Course: Industrial Engineering

The present work is study about the digital transformation that is currently

occurring in companies of all segments, more specifically in the processes of monitoring

and control of failures in PETROBRAS thermoelectric power plants and how these

processes can evolve through the application of techniques and solutions that makes up

this transformation.

The purpose of this study is to explain the basis of the main solutions, deepening

the knowledge about machine learning. With an increasingly automated industrial

environment, business areas try to optimize machine maintenance costs, while

increasing machine resiliency. In addition, we will discuss the evolution path from

preventive to predictive maintenance, through the application of a machine learning

model.

Keywords: predictive maintenance, machine learning, digital transformation

Page 8: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

vii

SUMÁRIO

1. INTRODUÇÃO .......................................................................................... 1

2. METODOLOGIA DA PESQUISA .............................................................. 3

3. REVISÃO BIBLIOGRÁFICA ..................................................................... 5

3.1. BUSINESS INTELLIGENCE (BI) E SEUS BENEFÍCIOS ....................................... 5

3.1.2. Ferramentas de Business Intelligence ............................................... 7

3.2. TRANSFORMAÇÃO DIGITAL ....................................................................... 11

3.2.1. Data Warehouse Tradicional ........................................................... 14

3.2.2. Data Mart ........................................................................................ 16

3.2.3. Data Mining ..................................................................................... 17

3.2.4. Big Data .......................................................................................... 19

3.2.5. Machine Learning ............................................................................ 23

3.2.6. Data WareHouse Moderno .............................................................. 26

3.3. A INDÚSTRIA DE ELETRICIDADE E SEUS DESAFIOS ...................................... 29

3.4. TIPOS DE MANUTENÇÃO NAS INDÚSTRIAS ................................................. 32

3.4.1. Manutenção Corretiva ..................................................................... 33

3.4.2. Manutenção Preventiva ................................................................... 34

3.4.3. Manutenção Preditiva ...................................................................... 34

3.4.3.1. Indústria 4.0 ................................................................................. 35

4. ESTUDO DE CASO ................................................................................ 37

4.1. A ORGANIZAÇÃO ESTUDADA: PETROBRAS.............................................. 37

4.2. O CENTRO DE MONITORAÇÃO E DIAGNÓSTICO .......................................... 38

4.2.1. Monitoração de falhas nas usinas termoelétricas ............................ 39

4.2.2. Motivação para mudança ................................................................ 39

4.2.3. Descrição de ferramentas do CMD ................................................. 40

4.2.3.1. ETAPro ........................................................................................ 41

4.2.3.2. OPEN Predictor ............................................................................ 43

4.2.3.3. Spotfire ......................................................................................... 46

4.2.4. PLANO DE EXCELÊNCIA OPERACIONAL .................................................. 46

4.2.5. RESULTADOS OBTIDOS E EVOLUÇÃO DA SOLUÇÃO .................................. 47

5. MANUTENÇÃO PREDITIVA NAS USINAS TERMELÉTRICAS ............. 48

5.1. MODELO DE MACHINE LEARNING .............................................................. 49

5.2. MODELO DE DATA WAREHOUSE .............................................................. 57

Page 9: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

viii

6. CONCLUSÃO ......................................................................................... 59

7. REFERÊNCIAS BIBLIOGRÁFICAS ....................................................... 62

8. ANEXOS ................................................................................................. 69

ANEXO A – DATA MINING COMO UM PASSO NO PROCESSO DE DESCOBRIMENTO DO

CONHECIMENTO (TRADUZIDO DE DATA MINING – CONCEPTS AND TECHNIQUES) 2 ED. P6.

................................................................................................................................ 69

ANEXO B – FUNCIONAMENTO DE UMA USINA TERMELÉTRICA (CICLO COMBINADO)

................................................................................................................................ 70

9. APÊNDICE .............................................................................................. 71

APÊNDICE A – LISTAGEM DAS USINAS TERMOELÉTRICAS DA PETROBRAS ...... 71

APÊNDICE B – VISÃO DE CIÊNCIA DOS ALERTAS, COM DESCRIÇÕES E MEDIÇÕES DAS

USINAS ..................................................................................................................... 71

APÊNDICE C – ASPECTOS MONITORADOS DA TURBINA DE GÁS NO ETAPRO ...... 72

APÊNDICE D – ALARME PARA NÍVEL DE PRESSÃO ............................................. 72

APÊNDICE E – OPEN PREDICTOR: MAPA GEOGRÁFICO ..................................... 73

APÊNDICE F – OPEN PREDICTOR – GERAÇÃO E TEMPERATURA DAS USINAS ..... 74

APÊNDICE G – OPEN PREDICTOR .................................................................... 74

APÊNDICE H – OPEN PREDICTOR – GRÁFICO DE RPM COM LIMITES DE ALERTA E

ALARME .................................................................................................................... 75

APÊNDICE I – FATORES MONITORADOS EM TURBINA DE GÁS ............................ 76

APÊNDICE J – RELATÓRIO DE CONFIABILIDADE DA DISPONIBILIDADE DAS MÁQUINAS

USINAS TERMOELÉTRICAS ......................................................................................... 76

APÊNDICE K – RELATÓRIO DE DOWNTIME EM MÁQUINA ESPECÍFICA ................... 77

APÊNDICE L – GERENCIAMENTO DE ALARMES ................................................. 77

APÊNDICE M – PROPOSTA DE MODELO DE MANUTENÇÃO PREDITIVA ............. 78

Page 10: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

1

1. INTRODUÇÃO

Os avanços na computação em nuvem remodelam a indústria em um modelo de

negócios econômico escalável, sob demanda, orientado a serviços e altamente

distribuído. Porém, para mover para esse modelo de negócios as organizações

precisam fazer a transformação digital. O termo “fazer” foi utilizado por essa não ser

apenas uma fase pela qual as organizações vão passar. Para de fato se transformarem

digitalmente as organizações precisarão rever seus processos de negócio, o modo

como suas operações são realizadas e até mesmo como as decisões são tomadas.

Para ilustrar esse cenário de transformação, primeiro serão introduzidas as

ferramentas de business intelligence (BI) e também o porque elas são tão necessárias

à sobrevivência das organizações nesse período de transformação digital. Além disso,

serão apresentadas as principais ferramentas de BI disponíveis no mercado de

tecnologia da informação (TI) e quais as particularidades de cada uma.

Em seguida, será exemplificado como a transformação digital está mudando as

organizações por todo o mundo e alguns componentes dessa transformação,

pertinentes a esse estudo, serão apresentados, como o conceito de big data, machine

learning, além da evolução da arquitetura dos bancos de dados e seu poder

computacional. Essas novas tecnologias estão sendo utilizadas para vencer desafios

como confiabilidade, disponibilidade, adaptabilidade e segurança em máquinas e

processos nas indústrias.

Será apresentado um estudo de caso baseado na Petróleo Brasileiro S.A.

(PETROBRAS), mais especificamente, nos processos de manutenção e monitoração

das usinas termelétricas do seu parque gerador. Um estudo inicial do setor será

realizado, o momento dele, os desafios e a estrutura de geração de energia dentro da

PETROBRAS.

Além disso, para entender melhor o processo de monitoração e diagnóstico de

falhas presente na PETROBRAS, serão explicados os principais tipos de manutenção

utilizados atualmente nas indústrias, que são a manutenção corretiva, preventiva e

preditiva, bem como em quais situações e com qual objetivo é indicado seguir cada uma

delas.

Na PETROBRAS existem dois centros que são responsáveis, de formas

diferentes, pela monitoração das usinas. São eles, o Centro de Monitoramento e

Diagnóstico, que é responsável pela monitoração das máquinas das usinas através de

sensores localizados nas mesmas, e o Centro de Operações de Energia, responsável

Page 11: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

2

por reportar dados em tempo real da geração de cada usina termelétrica do parque

gerador.

Para enfrentar os desafios de redução de custos e eficiência operacional num

momento econômico desfavorável no país, será proposta uma solução que envolve os

coceitos e ferramentas da transformação digital, bem como os conceitos de manutenção

apresentados.

Sendo assim, este trabalho busca mostrar simplificadamente a criação um

modelo, baseado na nuvem, de manutenção preditiva, utilizando dados históricos de

sensores localizados nas grandes máquinas das usinas, como as turbinas a vapor e a

gás. O objetivo é mostrar que é possível criar modelos que utilizam informação histórica

de falhas para prever com maior precisão e confiabilidade a probabilidade de falha

depois de um espaço definido, através de ferramentas disponíveis no mercado.

Page 12: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

3

2. METODOLOGIA DA PESQUISA

A classificação da pesquisa, com base na taxionomia apresentada por

VERGARA (2009), será qualificada em relação a dois aspectos: quanto aos fins e

quanto aos meios.

A pesquisa desse estudo, quanto aos fins e baseado nas definições de GIL

(2010), trata-se de uma pesquisa descritiva e explanatória. Descritiva por “descrever as

características do universo pesquisado” (business intelligence e indústria de geração de

energia e sua importância). Explanatória por “ter como objetivo proporcionar maior

familiaridade com o objeto de estudo ou problema, envolvendo o levantamento

bibliográfico e análise de exemplos que facilitam a compreensão”, através do estudo

dos métodos de monitoramento e processos de controle de usinas termelétricas pela

PETROBRAS, bem como os problemas enfrentados na implementação de soluções

eficientes.

Além disso, o presente estudo possui caráter pragmático por se tratar de um

“processo formal e sistemático de desenvolvimento do método científico”, onde o

“objetivo fundamental da pesquisa é descobrir respostas para problemas mediante o

emprego de procedimentos científicos” (GIL, 2008), nesse caso, empregando o

processo de aprendizagem de máquina.

Quanto aos meios, trata-se de uma pesquisa bibliográfica, ou seja, “elaborada a

partir de material já publicado, constituído principalmente de artigos de periódicos, livros

e materiais disponibilizados na Internet” (VERGARA, 2009).

Este estudo dividiu-se em três etapas principais: 1) pesquisa literária e de

tendências tecnológicas, 2) análise exploratória dos dados disponibilizados pela

PETROBRAS sobre suas usinas termelétricas, através da identificação de pontos de

melhoria nos processos atuais e 3) exploração de novas soluções para o problema em

questão e apresentação do modelo proposto.

Na primeira etapa, foram realizadas pesquisas entre janeiro e agosto do presente

ano, via internet e em duas bases de busca: Scopus e ACM Digital Library. Os critérios

utilizados para a pesquisa nessas duas bases de busca foram os seguintes:

• Palavras e expressões pesquisadas: “Business Intelligence OU Machine

Learning OU Transformação Digital; E Manutenção Preditiva”;

• Tipo de documento: artigos;

• Demais campos: sem restrições.

Para cada palavra chave pesquisada nas bases, as pesquisas retornaram cerca

de 2000 artigos. O perfil destes artigos foi, então, filtrado quanto ao ano de publicação

Page 13: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

4

(sempre buscando publicações mais recentes, – últimos 10 anos – devido ao fato das

perspectivas tecnológicas evoluírem constantemente através dos anos, além da área

de pesquisa (com maior foco em engenharia), ficando com uma base resultando cerca

de 500 artigos nas duas bases, dos quais 11 artigos foram selecionados por tratarem

de temas semelhantes.

Além dos resultados apresentados na pesquisa, de artigos selecionados das

bases, tornou-se relevante ao estudo a utilização de outras fontes para complementar

os artigos, tais como sites específicos de consultorias com estudos de tendências e

retratos das situações atuais, para reforçar a importância e relevância do estudo, bem

como outros artigos mais específicos sobre subtemas. Foram utilizados como

referências também, livros intitulados com as palavras-chave, pesquisados via Internet

no Google Books e na base de livros interna da Microsoft.

No estudo de caso foram buscados na pesquisa explanatória, sites das

entidades que representação o setor de energia, para maior assertividade nas

informações, além de informações compartilhadas pelos engenheiros da PETROBRAS

durante pesquisa de campo.

Para desenvolvimento da solução proposta, foram utilizados artigos e guias da

base de conhecimento interna de desenvolvedores da Microsoft, bem como dois livros

referentes ao tema. Além disso, ainda para o desenvolvimento da solução proposta, foi

utilizado um conjunto de dados disponível em uma biblioteca on-line da Universidade da

Califórina (UCI Machine Learning Repository1). A solução proposta visa a comprovação

dos métodos e soluções apresentados na revisão bibliográfica.

Não serão abordados neste estudo o desenvolvimento de algoritmos ou códigos

baseados em linguagens específicas de programação.

1 UCI Machine Learning Repository, disponível em https://archive.ics.uci.edu/ml/index.html. Acesso em

07/08/2017.

Page 14: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

5

3. REVISÃO BIBLIOGRÁFICA

Analisando o mercado de TI nos últimos cinco anos e a vivência com clientes de

TI de diversos setores, é possível verificar que a necessidade – e os benefícios – de

possuir informações completas e confiáveis para realizar tomadas de decisão, desde a

diretoria executiva até gerentes de operações de linha de produção, é uma realidade

reforçada pelas incertezas econômicas. Em iniciativas para reduzir custos, agilizar as

operações ou aprimorar processos contínuos, os funcionários de uma empresa,

independente do mercado ao qual pertencem, devem ter subsídios para tomar melhores

decisões em todos os níveis da organização.

Assim, é importante que os dados de negócio de uma organização estejam

sempre acessíveis aos funcionários, para que eles possam realizar suas próprias

análises e compartilhar facilmente insights com os membros da equipe, por exemplo.

Com acesso a dados relevantes, os funcionários podem encontrar oportunidades para

operar de forma mais eficiente e aumentar a receita, para que a empresa possa emergir

mais forte de qualquer ambiente econômico.

Dessa forma, o foco de análise do estudo recai sobre os conceitos de

armazenagem de dados coletados de máquinas em indústrias e os métodos de análise

dos mesmos, bem como as ferramentas business intelligence que possibilitam extrair

dos dados informações pertinentes ao funcionamento das indústrias e seu maquinário.

3.1. Business Intelligence (BI) e seus benefícios

Possuir agilidade e capacidade de resposta à mudança oferecem aos negócios

a capacidade de competir em uma economia global dinâmica e conhecer o ambiente do

negócio tornaram-se chave para manter os negócios rentáveis e competitivos

(THOMPSON, VAN DER WALT, 2010).

Para WU et. al. (2007), business intelligence consiste em um conjunto de

tecnologias, técnicas, conceitos e ferramentas orientadas para análise e apresentação

de informações para auxiliar os gestores no processo decisório e com isto permitir às

organizações otimizar seus recursos de negócio e alcançar melhores resultados. Alguns

anos depois, semelhantemente, MIKROYANNIDIS & THEODOULIDIS (2010) afirmaram

que business intelligence refere-se ao ato de proporcionar aos negócios o apoio

necessário para a tomada de decisão, através do uso de um conjunto de técnicas e

ferramentas. Mais pragmático, AFFELDT (2013) diz que a tecnologia de BI tem como

objetivo melhorar a qualidade da informação entregue aos gestores.

Page 15: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

6

Por esse motivo, a aplicação de BI tornou-se uma norma para um número ainda

crescente de empresas em diferentes mercados por todo o mundo. As informações

obtidas através de processos de BI não só apoiam o processo de tomada de decisão,

como também permitem que as organizações tenham melhores percepções em relação

às suas operações através da aplicação de técnicas de análise de dados às suas

informações (THOMPSON, VAN DER WALT, 2010).

Segundo pesquisa realizada pela FORBES (2015) em parceria com a Teradata

e McKinsey com 316 executivos de grandes companhias globais, 90% das organizações

reportavam investimentos de médio a alto nível em análise massiva de dados e cerca

de um terço consideravam seus investimentos muito significantes. Além disso, segundo

a mesma pesquisa, cerca de dois terços dos entrevistados relatam que a análise

massiva de dados teve um impacto significativo e mensurável em suas receitas.

O principal objetivo de BI é oferecer uma visualização dos dados de forma

simplificada e, assim proporcionar aos gestores a capacidade de realizar análises

convenientes (TURBAN et. al., 2009). Os elementos das soluções analíticas de BI

disponíveis, quando combinados com a necessidade de visão do negócio, geram a

riqueza das soluções de business intelligence.

Um dos pontos principais para trabalhar com business analytics é a localização

dos dados a serem utilizados e como conectá-los de forma a trazer insights importantes

do negócio. Esses dados podem estar em qualquer lugar e o poder de análise pode

segui-los de uma maneira que nem sempre é possível com soluções locais, por isso, a

utilização de armazenamento de dados em nuvem, bem como as ferramentas em si, é

fundamental para o sucesso dessa abordagem. Segundo estudo publicado pela

INFORMATICA (2016) do relatório “Estado da Análise em Nuvem” (State of Cloud

Analytics), o armazenamento em nuvem é uma parte essencial da estratégia de análise

de 70,1% dos entrevistados no estudo e 21,6% afirmam que é necessário como parte

de sua adoção analítica.

Dessa forma, todos os dados que são transformados em informações chave

através de business intelligence (BI) podem ser centralizados e gerenciados. Isto

permite que as empresas consigam obter as informações necessárias para o negócio,

independentemente de onde estejam localizadas, ou do momento em que precisam ser

obtidas, fazendo então, poderosas análises com esses dados, do passado e também,

com a ajuda dos dados passados, do futuro.

Essa disponibilidade e facilidade de obtenção de informações pelas áreas de

negócio é essencial para o funcionamento de soluções de BI. Segundo TURBAN et al.

(2009), por volta do ano 2000, a gerência de uma das empresas citadas nos casos

Page 16: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

7

clínicos, a Toyota, usava computadores que geravam “toneladas” de relatórios e dados

sem direção e a gerência não tinha capacidade de usar esses dados e relatórios

estrategicamente.

Para TURBAN et. al. (2009), por falta de um alinhamento estratégico mais

minucioso alguns dos projetos criados “não refletiam a real necessidade das

organizações” e acabavam “enfrentando problemas desde a extração e gerenciamento

dos dados até a qualificação das informações para análise gerencial”. Atualmente,

segundo a relatório da INFORMATICA (2016), os dados foram retirados de seus silos e

estão prontamente disponíveis para os tomadores de decisão de negócios, não apenas

analistas.

Para exemplificar a velocidade com que o volume de dados está crescendo,

segundo a previsão de MIDDLETON et al. (2014), as fontes de dados vão crescer, de

2013 a 2020, cerca de 35%, tornando-se, ao fim desse período 25 bilhões de unidades,

enquanto em 2013 havia apenas 1,3 bilhão. Esse processo é cíclico: uma explosão de

fontes de dados através de mais dispositivos gera demanda de dados pelas empresas,

cujo objetivo é analisar esses dados para ajudar a entender e prever suas necessidades

e de seus clientes, para que possam tomar decisões mais inteligentes a partir das

informações geradas com esses dados.

As empresas estão em uma jornada de adoção de análise em nuvem, desde a

colaboração até o aprimoramento de processos e estratégias de negócios

(INFORMATICA, 2016). Organizações de diferentes mercados já amadureceram seus

processos de análise de dados através de ferramentas de BI, incluindo o setor de

energia elétrica, que será o foco do presente estudo.

3.1.2. Ferramentas de Business Intelligence

Existem ainda ferramentas focadas na visualização dos dados de forma

esquemática e ilustrada, que são as ferramentas de business intelligence. A

representação de algumas dessas ferramentas no quadrade mágico de Gartner

(SALLAM, 2017) leva em conta a habilidade de executar (criar gráficos e telas) e o quão

completa é a visão da ferramenta, conforme apresentado na Figura 1.

Page 17: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

8

Figura 1 – Quadrante Mágico de Gartner para BI e Plataformas Analíticas. Fonte: SALLAM (2017, p. 6)

• Tableau

O Tableau é uma ferramenta de visualização de dados com foco primário em

business intelligence. Com ele é possíel criar mapas, gráficos de barras, gráficos de

dispersão e muito mais sem necessidade de programação. Existe ainda um conector

web que permite que o usuário se conecte a um banco de dados ou API, permitindo

assim a obtenção de dados ao vivo em uma visualização (Tableau website).

Page 18: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

9

Figura 2 – Possíveis gráficos e visualizações criados através do Tableau. Fonte: HANDSCHIN (2016)

Na Figura 2 acima está um exemplo de possíveis gráficos de vizualição de dados. Para

HANDSCHIN (2016), o Tableau pode ser usado mesmo em indústrias conservadoras e

fortemente regulamentadas, como bancos. Os dados podem estar armazenados em

qualquer lugar (com as limitações de compatibilidade da ferramenta, que são poucas) e

serem importandos para o Tableau para formar gráficos, comparar resultados históricos,

ou dados em tempo real em mapas, por exemplo.

• Microsoft

A Microsoft possui duas ferramentas de BI voltadas para públicos e tipos de

relatórios diferentes, por isso aparece pelo nome da empresa fabricante no quadrante

apresentado na Figura 1. O Power BI é uma ferramenta de uso mais intuitivo, voltada

para todos os usuários de uma empresa, sejam eles da área de TI ou não, enquanto o

SQL Server Reporting Services (SSRS) é um recurso do banco de dados da Microsoft,

o SQL Server, que é utilizado majoritariamente por analistas de TI, que conhecem a

estrutura do banco de dados para conseguir montar dashboards com as informações

pertinentes dentro desse banco.

Page 19: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

10

o Power BI

O Microsoft Power BI é um serviço de análise e business intelligence baseado

em nuvem que fornece uma visão geral completa de dados. Ao conectar-se a todas as

fontes de dados existentes e unificar esses dados, o Power BI simplifica a coleta e

compartilhamento de dados com tabelas de controle escaláveis, relatórios interativos e

inclusive imagens incorporadas, conforme exemplo na Figura 3.

Figura 3 – Exemplo de dashboard criado através do Power BI. Fonte: Disponível em

<https://powerbi.microsoft.com/pt-br/features/>. Acesso em: 27 ago. 2017, às 11:47h.

É possível utilizar o Power BI através de dois produtos disponíveis para

download: Power BI Desktop e Power BI Mobile. O Desktop é uma solução local que se

conecta ao serviço baseado em nuvem para carregar e compartilhar dados e

informações com maior facilidade em toda a empresa. O mobile tem as mesmas

capacidades, mas em um aplicativo, onde é possível ter até 360 visualizações

(dashboards diferentes) de dados de uma empresa a qualquer hora e em qualquer lugar,

que pode ser baixado na loja de aplicativos de smartphones ou tablets, com sistema

operacional Android (Google Play) ou iOS (Apple Store).

o SQL Server Reporting Services

O SSRS é uma plataforma moderna de relatórios empresariais escalável para

milhares de usuários. Ele fornece recursos abrangentes de relatórios que ajudam a criar

Page 20: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

11

e gerenciar relatórios em toda a organização. Com o SQL Server Reporting Services, é

possível fornecer aos usuários profissionais acesso a relatórios na web, nos aplicativos

Microsoft Power BI ou em um site do Microsoft SharePoint (que é um repositório local

ou na nuvem para compartilhamento de arquivos dentro das empresas). O rico conjunto

de ferramentas permite aos desenvolvedores estender e personalizar sua solução de

relatórios usando um ambiente de desenvolvimento familiar, como é possível visualizar

na Figura 4.

Figura 4 – Exemplo de relatórios e dashboards criados através do SSRS, em diferentes tipos de

aparelhos. Fonte: Disponível em <https://docs.microsoft.com/pt-br/sql/reporting-services/create-deploy-

and-manage-mobile-and-paginated-reports>. Acesso em: 27 ago. 2017, às 11:42h.

Assim, enquanto o SSRS é mais voltado para técnicos de TI, por exigir pelo

menos conceitos básicos de programação, o Power BI possui uma interface mais

familiar, que pode ser utilizada facilmente por usuários finais, fora da área de TI, como

área de marketing, vendas, dentre outras.

3.2. Transformação Digital

A transformação digital progrediu de uma possibilidade futura para tema de

discussão obrigatório nas organizações. Também chamada de digitalização ou

negócios digitais, é definida como "a aceleração das atividades, processos,

competências e modelos empresariais para alavancar plenamente as mudanças e

Page 21: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

12

oportunidades das tecnologias digitais e seu impacto de forma estratégica e priorizada"

(EDMEAD, 2016).

É possível observar de dentro do mercado de TI que as tecnologias digitais estão

mudando a face dos negócios, e essa mudança está acelerando mais rapidamente do

que o ritmo de transformação nas organizações. Alguns usam o termo transformação

de negócios digitais para descrever o cenário atual, uma vez que a transformação digital

é transformação de negócios. Essas transformações de negócios digitais são

impulsionadas por fatores como inovação tecnológica, comportamento e demanda do

cliente e fatores ambientais externos.

O mundo dos negócios digitais é descrito por LOPEZ (2016) como “a criação de

novos projetos de negócios ao deixarem de lado os mundos digital e físico”. Essa

interseção de fronteiras também é vista como uma "Quarta Revolução Industrial" que

promete inaugurar uma convergência sem precedentes de pessoas, negócios e fatores

que perturbam os modelos de negócios existentes e criam novas oportunidades de

receita (SCHWAB, 2016).

A digitalização é mais do que apenas uma mudança de ferramentas ou

dispositivos tecnológicos. As práticas diárias, as estruturas do local de trabalho, as

relações de relatórios, o compartilhamento de informações, a interação do cliente e até

mesmo a concorrência também são transformadas. Tornar-se uma verdadeira

organização digital não é apenas tornar-se tecnológico, significa adotar uma nova

cultura e mentalidade onde a hierarquia desaparece e a inovação acontece através de

redes (LIBERT et al., 2016).

Não há dúvida de por que as organizações legadas estão abordando a

transformação digital agora. Os startups digitais estão destruindo as indústrias

tradicionais, aproveitando a tecnologia escalável e as redes participativas. Segundo

relatório da CEB (2016), a digitalização está se tornando uma necessidade competitiva

e os líderes empresariais veem essa necessidade com urgência, mas mudar para um

modelo de negócios tão novo e radicalmente diferente é um processo longo, arriscado

e desconfortável.

Os esforços de transformação digital avançam rapidamente para melhorar as

expectativas dos clientes. As pesquisas indicam que a "era digital está sobre nós": 76%

dos entrevistados do MIT Sloan Management Review e o Estudo Global da Deloitte de

2015 sobre o negócio digital afirmam que as tecnologias digitais são importantes hoje

em dia para suas organizações e 92% dizem que serão importantes três anos a partir

de agora (KANE et al., 2015). O relatório da CEB (2016) também indicou que a

digitalização é uma prioridade (87% dos líderes seniores empresariais), e a Gartner

Page 22: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

13

(2016) descobriu que as empresas estão fazendo investimentos em negócios digitais,

porém a maioria ainda está nos estágios iniciais de investigação e experimentação.

A Accenture Interactive e a Forrester Consulting informaram que as empresas

estão quase universalmente passando por transformação digital hoje, mas apenas 5%

das organizações dizem que dominaram o digital para um ponto de diferenciação de

seus concorrentes (OLAVSRUD, 2015). As indústrias nascidas da tecnologia lideram a

lista de setores com maior penetração de organizações de maturação digital - TI,

telecomunicações e mídia e entretenimento.

A transformação digital não é um tema novo, mas a conversa mudou para “como

transformar”, e não “o porquê transformar” (HINCHCLIFFE, 2016). Em geral, a

transformação digital obriga as empresas a reexaminar suas infraestruturas atuais e, na

maioria dos casos, redesenhá-la para atender à demanda do cliente. Os líderes estão

se concentrando cada vez mais na estratégia, segundo LOPEZ (2016), que é um

direcionador chave na área digital para KANE et al. (2015). A capacidade de reimaginar

digitalmente o negócio é determinada em grande parte por uma estratégia digital clara

apoiada por líderes que promovem uma cultura capaz de mudar e inventar o novo. O

sucesso digital não é tudo sobre tecnologia, mas sim como as empresas as integram

para transformar seus negócios e como eles funcionam. A experiência do cliente agora

está claramente no centro da transformação digital (FORRESTER, 2015), e o digital é o

centro dessa experiência do cliente, mas muitas empresas têm um terreno considerável

para percorrer o caminho para se tornarem empresas digitais.

Os resultados da pesquisa do LOPEZ (2016) indicam que o negócio digital está

começando a segmentar-se nas organizações que estão planejando tornar-se um

negócio digital e aqueles que já são. Essas últimas organizações (que já são digitais)

estão começando a separar-se do resto das indústrias em suas práticas comerciais.

Além disso, as organizações que implementaram atividades de negócios digitais são

mais propensas a fazer do negócio digital uma parte integrada de sua estratégia de

negócios. O endereçamento de segurança e risco de dados de dispositivos em

distribuição é o requisito prioritário de design de negócios digitais.

Estudos descobriram que, no nível da empresa, a maturidade digital é sinônimo

de crescimento econômico mais acentuado e maior nível de bem-estar para os

funcionários (BOUÉE, 2015). As empresas digitais maduras performam melhor suas

atividades e comportam-se de forma distinta às outras menos maduras. A diferença tem

menos a ver com a tecnologia e mais com os fundamentos do negócio. Uma estratégia

digital clara, combinada com uma cultura e liderança para impulsionar a transformação

é o que separa os líderes digitais do resto (KANE et al., 2015). Além disso, as

Page 23: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

14

organizações que amadurecem digitalmente estão mais dispostas a assumir riscos do

que seus pares menos maduros digitalmente.

3.2.1. Data Warehouse Tradicional

De acordo com a LARSON (2006), um data warehouse (DW) é um sistema que

recupera e consolida dados periodicamente dos sistemas de origem em um

armazenamento de dados dimensional ou normalizado. Geralmente, mantém anos de

histórico e é utilizado para business intellingence ou outras atividades analíticas.

Geralmente, é atualizado em lotes, e não toda vez que ocorre uma nova entrada no

sistema fonte (RAINARDI, 2008).

Os dados das diferentes operações de uma organização eram conciliados e

armazenados em um repositório central (um data warehouse) de onde os analistas

extraíam informações que permitiriam uma melhor tomada de decisão (CHO& NGAI,

2003). Para aplicações complexas de BI que funcionam em grandes bancos de dados,

podem ocorrer dificuldades ao ler diretamente do banco de dados operacional. Além de

desacelerar o sistema de gerenciamento do banco de dados e suas aplicações, podem

ocorrer erros quando os valores estão faltando ou em um formato errado, por exemplo.

Abaixo está representada uma estrutura típica de um data warehouse cerca de 10 anos

atrás.

Figura 5 – Estrutura típica de um data warehouse. Fonte: Adaptado de HAN & KAMBER (2006), p. 12.

A finalidade de um data warehouse era estabelecer um repositório que tornasse

acessíveis os dados operacionais de forma aceitável para atividades de processamento

Page 24: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

15

analítico, como suporte à decisão e outros aplicativos de usuários finais. Como parte

desta acessibilidade, os dados operacionais de nível detalhado deviam ser

transformados em uma forma relacional, o que os torna mais acessíveis ao

processamento analítico. Assim, o armazenamento de dados não é um conceito por si

só, mas está inter-relacionado com o acesso, recuperação, análise e visualização de

dados (WANG, 2008). Apesar desse conceito se manter válido, atualmente existem

muito mais variáveis e ferramentas de BI que tornaram a arquitetura dos DWs mais

moderna e complexa. A arquitetura de um DW tradicional está representada a seguir,

na Figura 6.

Figura 6 – Arquitetura multicamadas de um data warehouse. Fonte: Adaptado de HAN & KAMBER (2006),

p. 160.

O primeiro nível é um servidor de banco de dados (data warehouse), que é quase

sempre um sistema de banco de dados relacional. As ferramentas e utilitários de back-

end são usados para alimentar dados nesse nível de bancos de dados operacionais ou

outras fontes externas, como informações de perfil de clientes fornecidas por

consultores externos, por exemplo.

Essas ferramentas e utilitários executam a extração, limpeza e transformação de

dados (por exemplo: para mesclar dados semelhantes de diferentes fontes em um

formato unificado), além de carregar e atualizar funções para atualizar o data

warehouse. Os dados são extraídos usando interfaces de programas de aplicativos

conhecidas como gateways. Um gateway é suportado pelo sistema de gestão de banco

de dados subjacente e permite que os programas instalados na máquina gerem um

Page 25: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

16

código a ser executado no servidor. Esta camada também contém um repositório de

metadados, que armazena informações sobre o data warehouse e seus conteúdos.

O nível intermediário é um servidor de processamento analítico on-line (OLAP)

que normalmente é implementado usando um modelo relacional, ou seja, um sistema

de gestão de bancos de dados relacional estendido que mapeia operações em dados

multidimensionais para operações relacionais padrão ou ainda um modelo

multidimensional, ou seja, um servidor de propósito especial que implementa

diretamente dados e operações multidimensionais.

O último nível é uma camada de front-end, que contém ferramentas de consulta

e relatórios, ferramentas de análise e ferramentas de mineração de dados (por exemplo,

análise de tendências, previsão, etc.).

Os data warehouses tradicionais eram construídos com tecnologias e

arquiteturas centradas em processamento transacional on-line (OLTP), que tem foco no

nível operacional da organização, sendo ineficiente para gestão de análises gerenciais

(EMC, 2014). Mesmo na arquitetura proposta por HAN & KAMBER (2006), onde a

centralização é nos servidores de processamento analítico on-line, os mesmos não

possuem a mesma velocidade de manipulação do OLTP.

Isso acontece porque esses DWs nunca foram projetados para lidar com o

volume, variedade e velocidade das aplicações centradas em dados que as

organizações utilizam hoje. Ao longo dos anos, mais e mais dados foram movidos para

esses DWs, enquanto a carga de consulta gerada pelos produtos de business

intelligence aumentou exponencialmente. Isso resultou em data warehouses frágeis,

sobrecarregados e dispendiosos que exigem de 6 a 9 meses para adicionar uma nova

fonte de dados (EMC, 2014). Antes de conceituar o data warehouse moderno, serão

introduzidos alguns conceitos fundamentais para entendimento da arquitetura de DWs.

3.2.2. Data Mart

O Data Mart é um subconjunto do data warehouse e é definido como um conjunto

de dados históricos no repositório eletrônico que não participa nas operações diárias da

organização. Em vez disso, esses dados são usados para criar business intelligence.

Os dados no Data Mart geralmente se aplicam a uma área específica de organização

(LARSON, 2006).

De acordo com KIMBALL & ROSS (2002), o data warehouse é o conglomerado

de todos os data marts dentro da empresa. Os data marts estão focados na entrega de

objetivos comerciais para os departamentos da organização.

Page 26: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

17

Construir um data warehouse é trabalhoso e demanda tempo. Esses fatores

dependem do tamanho da empresa, do número de bases de dados que irão integrar o

projeto, interfaces com outros sistemas, quantidade de pessoas na equipe,

comprometimento e dedicação para implementação, ferramentas utilizadas, etc.

Assim, os data marts são bancos de dados modelados orientados a

departamentos de uma empresa, por exemplo, a área comercial, financeira, marketing

e logística constroem vários data marts cada uma e daí eles podem implementar, depois

de um tempo, um data warehouse. Com o data warehouse implementado, é possível

fazer também o caminho inverso, ou seja, esse data warehouse alimentar os data marts.

3.2.3. Data Mining

Como complemento ao data warehouse e seus subconjuntos (data marts) o

processo de data mining, que significa mineração de dados, é uma análise de busca por

informações pertinentes (valiosas para operação ou comercial) nos grandes bancos de

dados previamente citados ou ainda na rede interna ou externa da organização, na

procura por padrões não conhecidos, baseando-se em padrões de hipóteses e

descobertas (THEARLING, 2009). Esses padrões de data mining podem ser definidos

como fórmulas, regras, funções, entre outras.

Para encontrar esses padrões é necessária a filtragem de uma imensa

quantidade de material ou sondagem inteligente para encontrar exatamente onde a

informação valiosa está, por isso o termo “mineração de dados”.

Dessa forma, segundo SUMATHI & SUVANANDAM (2006), com os “bancos de

dados de tamanho e qualidade suficientes, a tecnologia de data mining pode gerar

novas oportunidades de negócios”, fornecendo às organizações capacidades como, por

exemplo, a previsão automatizada de tendências e comportamentos (como no

marketing direcionado, analisando comportamento de clientes em sites de compras), ou

ainda para identificação automática de padrões anteriormente desconhecidos, como

operações de cartão de créditos fraudulentas (compras feitas em duas localidades

diferentes em curto espaço de tempo, por exemplo).

Quando as ferramentas de mineração de dados são implementadas

em sistemas de processamento de alto desempenho, eles podem analisar

bancos de dados maciços em minutos. Muitas vezes, os bancos de dados

acessados conterão muitos anos de dados. Um processamento mais rápido

significa que os usuários podem experimentar mais modelos para entender

dados complexos. Essa alta velocidade torna prático para os usuários

Page 27: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

18

analisar enormes quantidades de dados. Bancos de dados maiores, por sua

vez, produzem previsões mais assertivas, justamente por terem maior

histórico e por isso se tornarem mais confiáveis para identificação de

padrões.

(Introduction to Data Mining and its Appications, SUMATHI, S.,

SIVANANDAM, S.N., Springer, 2006, p.401)

A mineração de dados (data mining) também pode ser conduzida por pessoas

fora da área de tecnologia da informação. As ferramentas de data mining podem ser

combinadas com planilhas e outras ferramentas de desenvolvimento de software para

usuários finais, tornando relativamente fácil analisar e processar os dados minados. O

processo de mineração de dados está exemplificado no Anexo A.

A prática de data mining aparece sob diferentes nomes, como extração de

conhecimento, imersão de dados, arqueologia de dados, exploração de dados,

processamento de padrões de dados, drenagem de dados e coleta de informações.

"Striking it rich" (em português: “acertar em cheio”) é um termo comumente utilizado

pelos cientistas de dados em data mining quando os mesmos encontram resultados

inesperados e valiosos (SUMATHI & SUVANANDAM, 2006).

Os mineradores de dados podem então descobrir informações de padrões

desconhecidos e aprender com eles, suportar associações (como de produtos em um

carrinho de compras), construir modelos analíticos e daí fazer classificações e

predições, apresentando os resultados da “mineração” com ferramentas de visualização

(THEARLING, 2009).

Como exemplificado por SUMATHI & SUVANANDAM (2006), entre as várias

ferramentas e técnicas utilizadas em data mining podemos citar o raciocínio baseado

em ocorrências (usando casos históricos para reconhecer padrões); computação neural

(uma abordagem de aprendizagem em máquina pela qual os dados históricos podem

ser examinados para identificar padrões através de processamento paralelo maciço);

análise de associação (usando um conjunto especial de algoritmos para ordenar através

de conjuntos de dados e expressar regras estatísticas entre itens); além de agentes

inteligentes (peritos ou software baseado em conhecimento incorporado em sistemas

de informação).

De acordo com um relatório do Gartner Group 2000 (LINDEN, 2002), mais da

metade de todas as empresas Fortune 1000 em todo o mundo já estavam usando a

tecnologia de data mining na época. Ainda de acordo com LINDEN (2002), a extração

de dados é frequentemente usada para identificar uma oportunidade de negócio para

Page 28: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

19

criar uma vantagem competitiva sustentável, o que sabemos ser verdade até os dias de

hoje em empresas de todos os setores.

3.2.4. Big Data

Vivemos em mundo onde os dados são coletados em quantidades cada vez

maiores, resumindo o que as pessoas e as máquinas fazem a dados quantitativos e

qualitativos, e capturando uma granularidade mais fina dos seus comportamentos.

Essas três maneiras de caracterizar os dados às vezes são descritas como volume,

variedade e velocidade, que é a definição de big data, de acordo com DEAN (2014).

Todos esses dados são coletados por causa do seu potencial valor, mesmo que

não possamos saber exatamente o que faremos com eles. Por esse motivo,

organizações que coletam dados e reportam resumos, muitas vezes usando

abordagens de business intelligence, se tornaram comuns (DEAN, 2014).

De acordo com COATES (2017), o termo "big data" é utilizado excessivamente

e de diferentes maneiras. Um significado refere-se ao tamanho total dos volumes de

dados (big data significa “grandes dados”, em português). Outro significado do termo

está associado a "dados multi-estruturados" (a combinação de dados não estruturados,

semi-estruturados e estruturados). Os dados de baixa latência (e, por consequência,

alta velocidade) também são atribuídos a big data. A combinação dessas três definições

é justamente a abordagem de DEAN (2014), citada anteriormente. Além disso, outros

utilizam o termo big data para implicar a análise de dados de maneiras novas e

interessantes.

Conforme já citado anteriormente, grande parte das empresas já decidiram que

business intelligence não é apenas uma palavra-chave, mas um novo fato da estrutura

de negócio das empresas - um que exige ter estratégias para gerenciar grandes

volumes de dados estruturados e não estruturados. E com a realidade dos grandes

dados vem o desafio de analisá-los de forma a gerar valor comercial real. Os líderes

empresariais e de TI que começaram a lidar com grandes problemas de gerenciamento

de dados agora estão buscando usar análises de business intelligence em cima de big

data para identificar tendências, detectar padrões e obter outras descobertas valiosas

do mar da informação disponível para eles.

Existem várias de ferramentas big data atualmente, todas elas prometendo

poupar tempo, dinheiro e ajudar a descobrir informações comerciais não conhecidas. E

enquanto tudo isso pode ser verdade, navegar neste mundo de ferramentas possíveis

pode ser complicado quando há tantas opções e é necessário identificar a ferramenta

que melhor atende à necessidade existente.

Page 29: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

20

Para trabalhar com big data é preciso pensar em como armazenar os dados.

Parte de como o big data obteve a distinção como "grande" é que ele se tornou demais

para serem manipulados pelos sistemas tradicionais. Um bom fornecedor de

armazenamento de dados deve oferecer uma infraestrutura para executar todas as suas

outras ferramentas de análise, bem como um local para armazenar e consultar seus

dados.

3.2.4.1. Ferramentas de Big Data

A seguir serão descritas brevemente as principais ferramentas de big data

existentes atualmente, que se destacam nas seleções dos sites Big Data – Made Simple

(DEVI, 2017) e IMPORT (2017), que são avaliações mais recentes de ferramentas de

big data disponíveis no mercado atualmente.

• Hadoop

Segundo a IMPORT (2017), uma das maiores ferramentas para extração de

dados, o nome Hadoop tornou-se sinônimo de big data. É uma estrutura de software de

fonte aberta (open source) para armazenamento distribuído de conjuntos de dados

muito grandes em clusters2 de computadores. Isso significa que você pode escalar seus

dados para cima e para baixo sem ter que se preocupar com falhas de hardware. O

Hadoop fornece enormes quantidades de armazenamento para qualquer tipo de dados,

enorme poder de processamento e a capacidade de lidar com tarefas ou requisições

concorrentes praticamente ilimitadas (Hadoop Web Site).

O Hadoop é composto por dois subprojetos:

HDFS (Hadoop Distributed File System, ou Sistema de Distribuição de

Arquivos do Hadoop): o HDFS cuida do armazenamento de parte de

aplicativos Hadoop. Os aplicativos MapReduce consomem dados do

HDFS. O HDFS cria várias réplicas de blocos de dados e os distribui em

nós de computação no cluster. Esta distribuição permite cálculos

confiáveis e extremamente rápidos.

Hadoop MapReduce: MapReduce é um modelo computacional e

estrutura de software para escrever aplicações que são executadas no

2 Um cluster de servidores (ou computadores) é a junção de duas ou mais máquinas, interligadas, que

permitem maior disponibilidade e escalabilidade. As máquinas que compõem o cluster são chamadas

de nó.

Page 30: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

21

Hadoop. A programação executada pelo MapReduce é capaz de

processar dados enormes em paralelo em grandes clusters de

computação. A grande vantagem desse estilo de programação baseia-se

no fato de que o programador não precisa se preocupar com detalhes

importantes no processamento paralelo, como escalonamento de tarefas.

Tudo isso é controlado intrinsecamente pelo Hadoop.

Como é possível deduzir, o MapReduce possui duas fases: mapeamento e

redução. Na fase de mapeamento, o MapReduce pega os dados de entrada e envia

cada um dos elementos de dados para a função “Mapear”. Já na fase de redução, a

função “Reduzir” processa todas as saídas da função “Mapear” e chega a um resultado

final. Em outros termos, a função Mapear é feita para filtrar e transformar os dados que

serão agregados pela função Reduzir. A Figura 7 mostra um esquema do funcionamento

do MapReduce.

Figura 7 – Funcionamento do MapReduce no Hadoop. Fonte: Adaptado de DAVE (2013)

A estrutura do MapReduce, geralmente, contém servidores distribuídos e

executa várias tarefas em paralelo entre si. Existem vários componentes que gerenciam

as comunicações entre vários nós dos dados e oferecem alta disponibilidade e

tolerância a falhas. Os programas escritos nos estilos funcionais do MapReduce são

automaticamente paralelizados e executados em máquinas distribuídas. A estrutura do

MapReduce cuida dos detalhes do particionamento dos dados e da execução dos

processos no servidor distribuído em tempo de execução. Durante este processo, se

houver algum desastre, a estrutura fornece alta disponibilidade e outros modos

disponíveis cuidam da responsabilidade do nó em que houve falha.

Page 31: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

22

• Cloudera

De acordo com DEVI (2017), Cloudera é uma empresa que faz uma versão

comercial do Hadoop. Embora o Hadoop seja um projeto gratuito e de código aberto

para armazenar grandes quantidades de dados, a versão gratuita do Hadoop não é fácil

de usar. Assim, várias empresas desenvolveram versões mais amigáveis do Hadoop e

Cloudera é a mais popular de todas, conforme Figura 8, a seguir.

Figura 8 – Exemplo de gerenciamento de tarefas e máquinas no Cloudera.

Fonte: Disponível em <http://bigdatabrazil.blogspot.com.br/2013/10/usando-o-cloudera-hadoop.html>.

Acesso em 10 jul. 2017, às 10:58.

O Cloudera pode ajudar a criar um hub de dados empresariais para permitir que

as pessoas em uma organização tenham acesso fácil aos dados que você está

armazenando. Embora tenha um elemento de código aberto, o Cloudera é

principalmente uma solução para ajudar as empresas a gerenciar o seu ecossistema

Hadoop. Essencialmente, o Cloudera faz muito trabalho duro para administrar o Hadoop

para você, de maneira automatizada. Ele também fornece certos recursos de segurança

de dados, o que é altamente importante ao armazenar dados sensíveis ou pessoais.

• MongoDB

O MongoDB possui uma abordagem moderna e de inicialização dos bancos de

dados, sendo, segundo a IMPORT (2017) e DEVI (2017), uma alternativa aos bancos

Page 32: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

23

de dados relacionais. Ao mesmo tempo, o MongoDB não é para o novatos no trabalho

com dados. Como em qualquer banco de dados, você precisa saber como consultá-lo

usando uma linguagem de programação.

O MongoDB é um bom recurso para gerenciar dados que estão mudando

frequentemente ou dados semi-estruturados ou ainda desestruturados. Na maioria das

vezes, ele é usado para armazenar dados em aplicativos para dispositivos móveis,

catálogos de produtos, personalização em tempo real, gerenciamento de conteúdo e

aplicativos que oferecem uma visão única em vários sistemas.

3.2.5. Machine Learning

Muitas vezes possuímos perguntas imprecisas, sobre uma operação ou um

negócio, como por exemplo, “Como faço para aumentar minhas vendas?” ou “Qual o

produto da minha loja é o mais vendido?” ou então “Quais são os perfis que mais utilizam

este serviço?”. Uma rede de supermercado, por exemplo, que vende milhares de bens

para milhões de clientes, seja via mega lojas físicas ou ainda lojas on-line, precisa

guardar os detalhes de todas as transações realizadas: a data da compra, identificação

do cliente, itens comprados, o valor de cada um desses itens, o valor da compra total,

sem contar outros detalhes menores. Isso gera uma enorme quantidade de dados todo

dia. O que o dono da rede de supermercados deseja é prever qual cliente possui maior

probabilidade de comprar quais produtos, para maximizar suas vendas e seu lucro.

Todas as pessoas são tanto geradores de dados (ao fazer uma compra num

supermercado, por exemplo), como também consumidores de dados (ao utilizar um

aplicativo de GPS), pois queremos ter produtos e serviços especializados. Uma

experiência de consumo ou serviço é melhor caso os interesses previstos e a resposta

para essas demandas podem ser dadas através da análise de dados, que é uma das

suas atribuições da aprendizagem de máquina.

A aprendizagem de máquina não é um conceito novo. Em 1959, Arthur Samuel

definiu aprendizado de máquina como o "campo de estudo que dá aos computadores a

habilidade de aprender sem serem explicitamente programados". Mais recentemente o

conceito evoluiu, e SIMON (2013) afirma que os processamentos de aprendizado de

máquina (machine learning) têm como objetivo derivar modelos preditivos a partir de

dados atuais e históricos. Segundo a premissa inerente, um algoritmo aprendido

melhorará com mais treinamento ou experiência em particular, os algoritmos de

aprendizagem de máquina podem alcançar resultados extremamente eficientes para

Page 33: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

24

domínios muito restritos usando modelos treinados a partir de grandes conjuntos de

dados.

De acordo com WOODS (2015), no ano de 2020 espera-se que 1 milhão de

novos dispositivos estejam conectados a cada hora. A conectividade entre pessoas e

dados está criando bilhões de novos relacionamentos que são orientados não só por

dados, mas também por algoritmos que mantêm os clientes envolvidos e comprando,

acelerando a economia. Além disso, até o ano 2025, pelo menos 60% da computação

será baseada em nuvem, devido ao "tudo-como-um-serviço" movimentando as

mudanças fundamentais no setor de TI, segundo estudo da Emerson Network Power

sobre como seria a estrtura de um data center em 2015 (EMERSON, 2014).

Essas previsões demonstram o movimento que já está ocorrendo nas

organizações. As organizações estão buscando aprender como funcionam os modelos

de aprendizagem de máquinas para tirar benefícios deles. A aprendizagem e

modelagem de máquinas é uma parte do processo para criação de modelos de data

mining para diferentes indústrias, mas ainda é uma das principais para entender o fluxo

total.

No exemplo do supermercado, não é uma tarefa simples identificar o que cada

cliente deseja comprar, qual a combinação de produtos que melhor atende sua

necessidade. Não temos como saber exatamente quais pessoas tem maior

probabilidade de comprar determinado sabor de sorvete, ou ainda comprar o novo livro

de certo autor, ver aquele novo filme, visitar aquela cidade, etc). O comportamento de

cada cliente muda de acordo com o tempo, a localização geográfica, cultura local, mas

sabemos que seu comportamente não é aleatório. As pessoas não vão ao

supermercado comprar coisas aleatoriamente. Quando elas compram cerveja,

compram algum aperitivo pra acompanhar, compram sorvete o verão e chá no inverno.

Existem alguns padrões que podemos identificar.

Para algumas tarefas, nem precisamos de um algoritmo, a previsão do

comportamento de clientes é uma delas. Segundo ALPAYDIN (2014), cientista e

pesquisador do MIT (Massachusetts Institute of Technology), mesmo que não estejamos

hábeis a identificar o processo completo, é possível construir uma boa e útil

aproximação, ainda que essa explique apenas parcialmente os dados. Apaydin acredita

que apesar da identificação do processo completo talvez não ser possível, nós podemos

detectar certos padrões ou regularidades e esse é exatamente o ponto central do

machine learning. Esses padrões podem nos ajudar a entender o processo ou podemos

usá-los para fazer predições: “assumindo que o futuro – pelo menos um futuro próximo

Page 34: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

25

– não será muito diferente do passado onde o dado dessa amostra foi coletado, e assim

é possível esperar que as predições futuras estejam certas” (ALPAYDIN, 2014, p. 2).

Ainda segundo ALPAYDIN (2014), o problema de machine learning não é só o

problema de base de dados, que são grandes e crescem exponencialmente, mas

também a parte da inteligência artificial. Para ser inteligente, um sistema que está em

um ambiente de constantes mudanças precisa ter habilidade de aprender. Se o sistema

pode aprender e se adaptar a tais mudanças, o desenvolvedor do sistema não precisa

prever e solucionar todas as possíveis situações.

Assim, é preciso entender o domínio do problema (do negócio) e os dados

disponíveis, para então poder começar a criar recursos, e somente então é possível

realmente começar a modelagem de machine learning. O processo completo está

descrito abaixo, num esquema criado com base na definição de NOGARE & ZAVASCHI

(2016), na Figura 9:

Figura 9 – Metodologia para construção de modelos preditivos – Fonte: Elaboração Própria. Baseado em

NOGARE & ZAVASCHI (2016, p. 41-43)

Para NOGARE & ZAVASCHI (2016), este processo é cíclico e começa com a

identificação do problema na área solicitante. Esse passo é o mais importante pois a

partir dessa solicitação que o modelo ideal será buscado. Para evitar um trabalho

extenso em um modelo que não atenderá a solicitação, é importante dividir o projeto em

partes menores para que os solicitantes possam acompanhar a evolução do projeto.

Em seguida passa-se para o processo de coletar e limpar os dados. Na coleta

qual é importante que o dado correto seja adquirido de forma eficiente, já que os dados

Page 35: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

26

brutos podem ter diferentes origens (bases de dados da empresa, dados de sensores

de telemetria, dados originais de serviços de marketplace, dentro outros). Além disso, a

limpeza dos dados é fundamental para que a criação do modelo seja efetiva, ou seja,

os outliers precisam ser removidos, além de limpezas dos dados que realmente

interessam, por exemplo, eliminar uma de duas variáveis altamente correlacionadas

(visto que é possível usar apenas uma delas e obter o mesmo resultado).

Com os dados preparados é possível começar o desenvolvimento do modelo

preditivo, que é a fase mais interessante, pois é necessário enfrentar o desafio de

encontrar o algoritmo correto para resolver o problema apresentado no primeiro passo

pela área de negócios. Este é um processo interativo, que nos permite analisar algumas

possibilidades existente de algoritmos e comparar o desempenho de cada uma delas

em cima dos dados que já estão prontos. Após comparar os resultados e fazer ajustes,

encontra-se o modelo mais apropriado para aquela amostra de dados. Após o

desenvolvimento o modelo é implementado, ou seja, publicado para ser utilizado com

dados reais, onde é esperado que os dados reais encontrem retornos como foram

encontrados nos dados testados, mostrando o quanto o algoritmo foi bem desenvolvido

e ajustado para resolver os problemas reais.

Por fim deve-se monitorar a performance do modelo criado, visto que as ações

são baseadas em métodos estatísticos e matemáticos e terão melhoras a cada vez que

mais dados forem inseridos. O processo volta ao passo inicial que é identificar o

problema com a área solicitante e entra em um loop sempre melhorando a cada

iteração.

3.2.6. Data Warehouse Moderno

A arquitetura de DW tradicional apresentada no item 3.2.1 evoluiu e hoje é

possível construir um DW cuja arquitetura comporta ambos processamentos –

transacional (operacional) e analítico –, que devem ser distribuídos, além de outros

elementos, fontes e soluções, conforme exemplificado na Figura 10.

Segundo COATES (2017), o processamento distribuído é um aspecto de uma

implementação de data warehouse lógico. Trata-se de “pressionar o esforço de

processamento para cada sistema de fonte distribuído sempre que possível, a fim de

maximizar o desempenho por paralelismo”.

Page 36: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

27

Figura 10 – Estrutura de um data warehouse moderno. Fonte: Traduzido de COATES (2017). Disponível

em <http://www.sqlsaturday.com/SessionDownload.aspx?suid=16617>. Acesso em: 28 ago. 2017, às

00:52.

De acordo com COATES (2017), uma arquitetura moderna de DW deve

possibilitar a extração de dados não só base de dados da organização ou de terceiros,

como também importar dados de diferentes aparelhos e sensores (principalmente para

gestão de ativos) e mídias sociais.

Além disso, devido à crescente demanda por processamento mais rápido, ao

mesmo tempo em que os volumes de dados aumentaram, as soluções tecnológicas se

adaptaram tiveram que se adaptar para suprir essa necessidade dos usuários. Assim,

atualmente é possível realizar ambos os processamentos on-line de transações (OLTP)

e análise (OLAP) paralelamente, com um conjunto de ferramentas mais flexível e

compatível com o usuário, baseado em objetos (CARVALHO, 2013).

Assim, a impossibilidade de processar relatórios ao mesmo tempo em que o

sistema transacional realiza as operações do dia-a-dia deixa de existir, já que os dados

podem ser orientados a colunas ao invés de linhas (agrupando apenas uma

característica ao invés de todas as característas de uma linha), provendo então a

capacidade de processamento paralelo massivo em memória (o modelo in memory

mostrado na Figura 10). O gargalo tecnológico que causava essa limitação era

justamente a arquitetura baseada em bancos relacionais das aplicações antigas. As

aplicações baseadas no modelo in memory deixam de ter esse problema, passando a

ter a capacidade de processar cargas analíticas (OLAP) e transacionais (OLTP) no

mesmo ambiente (CARAVALHO, 2013)

Page 37: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

28

De acordo com artigo da EMC (2014), nada tem um impacto tão positivo na

capacidade de armazenamento, gerenciamento e análise de dados de longo prazo

como Hadoop e o sistema de arquivos distribuídos Hadoop (HDFS). De acordo com o

estudo, sem dúvida, o Hadoop é um divisor de águas de tanto para TI como para as

áreas de negócio. Para muitas organizações, a introdução do Hadoop / HDFS na

organização começa com o estabelecimento do Data Lake.

Para COATES (2017), o Data Lake é uma peça fundamental da estratégia geral

de gerenciamento de dados. Conceitualmente, ele não é nada mais do que um

repositório de dados, mas por ter a capacidade de pode armazenar qualquer tipo de

dados, é adequado para a armazenar dados multi-estruturados, como logs e produção

de máquinas. A EMC (2014) define o Data Lake como um repositório de armazenamento

que contém uma grande quantidade de dados brutos em seu formato nativo, até que

esse dado seja necessário de alguma forma.

Os dados dos aparelhos e sensores podem ser transferidos via streaming

diretamente para ferramentas de monitoração em tempo real (ou quase real, devido ao

tempo de transmissão). Ao mesmo tempo, os dados provenientes desses aparelhos,

sensores e mídias sociais podem ser armazenados em um data lake, para futura

utilização caso necessário. Esse data lake deve estar conectado a um Hadoop, para

distribuição dos arquivos via HDFS.

Dentre suas aplicações, o data lake permite a integração de descrições de

reivindicações não estruturadas para reduzir alegações fraudulentas, a alavancagem

dados móveis para criar oportunidades promocionais em tempo real e ainda o

aproveitamento de leituras dos sensores para prever as necessidades de manutenção

e antecipar o tempo de inatividade dispendioso, tudo através de modelos de machine

learning (EMC, 2014).

A utilização de consultas (queries) federadas, que também é novidade na

arquitetura moderna de DW, retorna dados de vários armazenamentos de dados (data

stores), federando ou combinando os resultados da consulta (COATES, 2017). Uma

consulta federada funciona usando técnicas de virtualização de dados, por isso,

freqüentemente, a federação de dados é referenciada de forma similar à virtualização

de dados.

Com o uso dessas novas tecnologias no DW, é possível obter análises

avançadas (advanced analytics), ou seja, técnicas estatísticas sofisticadas para

encontrar padrões nos dados com o objetivo de previsões, recomendações, otimizações

e descrições de informações. O conceito de advanced analytics, segundo COATES

(2017), pode incluir subcategorias como análise preditiva, análise prescritiva, análise

Page 38: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

29

operacional, análise descritiva e assim por diante. Análises avançadas podem ser

utilizadas para casos como detecção de fraude, segmentação de clientes, avaliação de

risco de crédito ou previsões, como desistentes de estudantes, conflito de clientes ou

readmissões hospitalares.

3.3. A indústria de eletricidade e seus desafios

O termo indústria geralmente designa o conjunto de atividades que visam à

manipulação de matérias-primas para a produção de bens de consumo. No caso da

indústria de eletricidade, o bem produzido é a energia elétrica, um produto impalpável

utilizado de forma indireta, seja para produzir luz, movimento, calor ou qualquer outra

transformação energética.

A partir da década de 1990, buscando eficiência e autonomia econômica, o setor

elétrico mundial passou por reformas estruturais em sua forma de operação e, como

consequência dessas mudanças (que afetaram também o Brasil), os segmentos de

geração, transporte e comercialização de energia passaram a ser separados, sendo

administrados e operados por agentes distintos, por vezes vistos como concorrentes

entre si, dada a existência de muitos agentes e também pelo fato do produto, a energia

elétrica, ser homogêneo, como uma commodity3.

Segundo a Associação Brasileira de Distribuidores de Energia Elétrica

(ABRADEE)4 um ponto importantíssimo sobre a produção e o consumo de energia

elétrica é que, diferentemente de outros sistemas de redes, como saneamento e gás, a

energia elétrica não pode ser armazenada de forma economicamente viável, e isso

implica na necessidade de equilíbrio constante entre oferta e demanda. Em outras

palavras, toda a energia consumida deve ser produzida instantaneamente e, quando há

desequilíbrios, mesmo que por frações de nano segundos, todo o sistema corre o risco

de desligamentos em cascata, os chamados “apagões”.

Atualmente, segundo a Agência Nacional de Energia Elétrica (ANEEL), a energia

gerada de acordo com sua fonte, a chamada matriz energética, está distribuída de

acordo com a Figura 8, onde fica clara a predominância de geração hidrelétrica. O

3 Commodity é uma mercadoria de importância mundial, que tem seu preço determinado pela oferta e

pela procura internacional.

4 A ABRADEE (http://www.abradee.com.br/) reúne 47 concessionárias de distribuição de energia elétrica

- estatais e privadas - atuantes em todas as regiões do país e que juntas são responsáveis pelo

atendimento de 99,6% dos consumidores brasileiros.

Page 39: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

30

parque gerador brasileiro (sem contar a energia importada), possui 153.420.650 kW de

capacidade instalada, sendo 61% de hidrelétricas e 27% de termelétricas distribuídas

entre usinas a biomassa (9%), gás natural (8%), óleo diesel (3%), óleo combustível

(3%), carvão (2%), outros combustíveis fósseis (1%) e usinas nucleares (1%). A geração

eólica e solar corresponde a 8% da potência instalada.

Figura 11 – Matriz Energética do Brasil. Fonte: ANEEL. Adaptado de

<http://www2.aneel.gov.br/aplicacoes/capacidadebrasil/OperacaoCapacidadeBrasil.cfm>. Acesso em 01

ago. 2017, às 23:07h.

Segunda pesquisa de TOLMASQUIM (2016) para a Empresa de Pesquisa

Energética (EPE), as usinas térmicas exercem um papel de complementação da

geração hidrelétrica e oferecem flexibilidade operativa ao Sistema Interligado Nacional

(SIN). Essas usinas funcionam como um seguro nos períodos de escassez hidrológica,

contribuindo para a garantia do suprimento de energia. Em razão das suas

características técnicas e econômicas, particularmente a geração termelétrica a gás

natural também tem sido associada à expansão das fontes renováveis intermitentes,

como eólica e solar, para ser acionada nos períodos de indisponibilidade da geração a

partir dos ventos e do sol. Por esse motivo, as usinas termelétricas, que são o foco do

presente estudo, são de grande importância para a matriz energética brasileira, a

população como um todo e o meio ambiente.

A energia termelétrica, assim como a hidrelétrica, também é produzida por um

gerador e transportada até os locais de consumo por linhas de transmissão. O gerador

é impulsionado pela queima de um combustível. Ao queimar, o combustível aquece uma

caldeira com água, produzindo vapor com uma pressão tão alta que move as pás de

uma turbina, que por sua vez aciona o gerador (Operadora Nacional do Sistema Elétrico

– ONS, 2017). Qualquer produto capaz de gerar calor pode ser usado como

Potência %

Biomassa Eólica Fóssil Hídrica Nuclear Solar Importação

Page 40: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

31

combustível, do bagaço de diversas plantas aos restos de madeira. Os combustíveis

mais utilizados são os citados acima na descrição da matriz energética. O processo

completo de geração termelétrica pode ser visto no Anexo B.

Analisando as tendências e oportunidades do setor energético, segundo texto

publicado no Banco Nacional do Desenvolvimento (BNDES) por PEREIRA & PUGA

(2016), independentemente do cenário macroeconômico, as oportunidades de

investimento serão maiores na diversificação da matriz energética, por conta da

crescente conscientização mundial sobre os efeitos nocivos que os projetos de energia

podem causar no meio ambiente, restringindo a construção de grandes barragens

hidrelétricas, que, como visto anteriormente, é a maior fonte da matriz energética

brasileira atualmente.

A tendência é de que as fontes renováveis não hídricas continuem a ganhar

espaço na matriz energética. Segundo pesquisa da EPE (BRASIL, 2015), haverá

expressivo aumento da participação da biomassa, e das energias eólica e solar na

matriz.

Essa pesquisa (BRASIL, 2015) afirma também que o Brasil tem cerca de 20 GW

(representa cerca de 15% da matriz elétrica) de potencial de geração de energia de

biomassa que poderia ser implementado em curto espaço de tempo (atualmente, como

citado nesse mesmo tópico, a biomassa representa 9% da matriz), além de outros

combustíveis para geração termelétrica.

Outra grande oportunidade de investimento está nas ações voltadas ao aumento

da eficiência energética (que é a relação entre a quantidade de energia empregada em

uma atividade e aquela disponibilizada para sua realização). De acordo com ESPOSITO

(2016), a aplicação de tecnologias de informação e comunicação poderá gerar ganhos

de eficiência associados, destacando-se a implementação de projetos associados a:

• Decisão de consumo inteligente, que permite ao consumidor ajustar seu

consumo de energia para momentos em que a energia esteja mais

barata;

• Identificação de pontos na rede de distribuição em que há furto de

energia, facilitando a fiscalização;

• Redução de custos de supervisão e manutenção de redes e usinas

elétricas, por meio do sensoriamento remoto.

O presente estudo terá como foco a utilização do sensoriamento remota e outras

tecnologias para mostrar como viabilizar de fato esses ganhos de eficiência, reduzindo

custos operacionais da geração termelétrica.

Page 41: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

32

3.4. Tipos de Manutenção nas Indústrias

Em muitos cenários de grandes indústrias, possuir máquinas modernas, fatia

consolidada de mercado, tecnologia de ponta, preços competitivos, excelentes

funcionários e programas de qualidade podem não ser o suficiente para se manter. Se

essa indústria não tiver um eficiente programa de manutenção mecânica, pode estar

suscetível a falhas que podem causar grandes perdas financeiras e comprometer seu

sucesso. A manutenção mecânica é a alma da produção industrial.

De fato, sem a manutenção mecânica das máquinas e equipamentos não é

possível cumprir os cronogramas de fabricação, ter um portfólio de produtos de

qualidade, controlar (e tentar minimizar) os custos de produção e perdas materiais.

Esses fatores interferem diretamente na competitividade da indústria no mercado e

fidelidade dos clientes, que buscam produtos de qualidade e custo justo.

Segundo VIANA (2002), os tipos de manutenção são as “formas de encaminhar

as intervenções nos instrumentos de produção, ou seja, nos equipamentos que

compõem uma determinada planta”. Neste sentido observa-se que existe um consenso,

quanto aos tipos de manutenção.

Existem diversos aspectos que podem ser avaliados para efetuar manutenções

mais eficientes, de acordo com a origem do problema, que podem ser resumidos nos

seguintes:

• Condição: se o equipamento ou máquina em questão está operante ou

parado (sem funcionamento ativo).

• Desempenho: a medição, de forma matemática, que define o quão

satisfatório está o funcionamento do equipamento ou máquina (pode ser

a eficiência da máquina, ou o fator de tempo para fazer uma determinada

operação, etc.).

• Confiabilidade: uma avaliação de probabilidade de falha no equipamento

ou máquina, que é feita normalmente utilizando os dados de desempenho

e condição.

Existem outros aspectos mais específicos que podem ser avaliados para

realização de manutenção, que são englobados dentro dos aspectos citados acima.

Os principais tipos de manutenção existentes hoje nas indústrias mundialmente

são descritos nas seções seguintes.

Page 42: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

33

3.4.1. Manutenção Corretiva

Essa é a forma mais direta e mais primitiva de manutenção. De acordo com

SLACK et al. (2009, p. 625) “significa deixar as instalações continuarem a operar até

que quebrem. O trabalho de manutenção é realizado somente após a quebra do

equipamento ter ocorrido”. Essa abordagem ainda se subdivide em duas categorias:

planejada e não-planejada.

• Manutenção corretiva não-planejada: a correção da falha ou do

desempenho abaixo do esperado é realizada sempre após a ocorrência

do fato, sem acompanhamento ou planejamento anterior, aleatoriamente.

Implica em altos custos e baixa confiabilidade de produção, já que gera

ociosidade e danos maiores aos equipamentos, muitas vezes

irreversíveis (OTANI & MACHADO, 2008).

• Manutenção corretiva planejada: a atuação sobre a falha ocorre depois

que o equipamento já apresenta falha, mas não parou de produzir. Pode

ocorrer, em alguns casos, pela decisão gerencial de manter a operação

até a falha completa ou em função de um acompanhamento de

manutenção preditiva. OTANI & MACHADO (2008, p. 4) apontam que

“pelo seu próprio nome planejado, indica que tudo o que é planejado,

tende a ficar mais barato, mais seguro e mais rápido”.

Como na manutenção corretiva “a ação de manutenção ou reparação (decisão)

só é tomada quando a falha acontece no equipamento ou sistema, as críticas típicas

desta estratégia de manutenção são bem conhecidas: sua forma de operar implica altos

custos de trabalho extra, elevado tempo de paralisação da máquina, altos custos de

estoques de peças sobressalentes e baixa disponibilidade da produção” (NIU et al.,

2010, p791).

Embora nenhuma empresa na atualidade implemente totalmente um tipo de

gerencia de manutenção reativa – visto que as plantas industriais sempre realizam

tarefas preventivas básicas – a manutenção corretiva é, quase sempre, aplicada em

áreas não críticas, onde o custo de capital é pequeno; as consequências de uma falha

são leves; não existem riscos de seguridade imediatos e; uma rápida identificação da

falha, assim como uma rápida reposta ao problema são possíveis. A manutenção

corretiva é na maioria das vezes justaposta como um complemento às demais

estratégias existentes de manutenção (BOSA, 2009).

Page 43: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

34

3.4.2. Manutenção Preventiva

A manutenção preventiva, ao contrário da corretiva, visa evitar a falha do

equipamento. Este tipo de manutenção é realizado em equipamentos que não estejam

com falha, ou seja, estejam operando em condições normais. Desta forma, podem

ocorrer as seguintes situações: a interrupção do equipamento antes (talvez muito antes)

do necessário para fazer a manutenção do mesmo; a segunda situação é a falha do

equipamento, por estimar o período de reparo do mesmo de maneira incorreta.

As intervenções sobre o equipamento são levadas a cabo, em intervalos de

tempo predeterminados, que se destinam a reduzir a probabilidade de ocorrência de

falhas, ou a degradação da funcionalidade de um ativo (SOUZA, 2008).

Ainda segundo SOUZA (2008), esta estratégia tem como ponto negativo que “os

programas e intervenções sobre os equipamentos e sistemas são planejados muitas

vezes quando um determinado item não precisa de ditas ações que obriguem sua

parada; o desmontar a máquina, a manipulação das peças e a submissão a inspeções

que terminam afetando, diretamente, a vida operacional normal da maquinaria”.

3.4.3. Manutenção Preditiva

Nas últimas décadas, com os avanços da tecnologia da informação e as

ferramentas de business intelligence, as redes industriais, entre outras tecnologias de

análise de grandes bases de dados combinados (big data), a manutenção preditiva,

também chamada de manutenção baseada em condição, ganhou uma grande

importância. A implementação desse tipo de manutenção mostrou que é possível prever

quando uma falha ocorrerá, com base numa série de parâmetros combinados

analisados em falhas anteriores. Essa possibilidade levou à expansão e ao auge, destas

abordagens nos domínios industriais, já que agrega confiabilidade às máquinas.

Na manutenção preditiva, o momento apropriado para executar a manutenção é

determinado a partir de um conjunto de medidas e informações do equipamento que

permitam detectar o aparecimento de mecanismos de degradação do mesmo (Souza,

2008). A implementação desse tipo de manutenção ocorre a partir do monitoramento da

condição das máquinas. Este é um processo que é facilitado pela intensa

instrumentação instalada nas plantas industriais, os programas de automação, os

bancos de dados e a facilidade no fluxo de informação da indústria.

Fazer uma análise preditiva é permitir que suas análises deem um passo à frente

no uso de business intelligence convencional, uma vez que o aprendizado de máquina

adapta os dados e com o passar do tempo converge o modelo preditivo para a

representação dos dados daquele momento da análise.

Page 44: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

35

A modelagem preditiva é uma das tarefas de data mining mais comuns. Como o

nome indica, é o processo de tirar dados históricos (o passado), identificar padrões nos

dados que são vistos através de alguma metodologia (o modelo), e depois usar o

modelo para fazer previsões sobre o que acontecerá no futuro, marcando novos dados

(DEAN, 2014).

De acordo com PERERA (2017), a manutenção preditiva pode ser formulada de

uma das duas maneiras:

i. Abordagem de classificação - prevê se existe uma possibilidade de falha

nos próximos passos (onde a quantidade de próximos passos é definida).

ii. Abordagem de regressão - prevê a quantidade de tempo restante antes

da próxima falha, ou seja, a vida útil restante.

A abordagem por classificação fornece apenas uma resposta booleana, ou seja,

se ocorre ou não a falha nos próximos passos definidos, mas pode fornecer maior

precisão mesmo que o conjunto de dados históricos não seja muito grande. A

abordagem de regressão precisa de mais dados, embora forneça mais informações

sobre quando a falha acontecerá.

3.4.3.1. Indústria 4.0

Dessa forma, é possível perceber que o aproveitamento dos dados da planta é

essencial a qualquer modelo ou estratégia de manutenção preditiva, principalmente nos

equipamentos e máquinas mais críticos para o funcionamento da indústria. O objetivo é

geralmente estabelecer diagnósticos e prognósticos de falhas nos equipamentos e as

possíveis sugestões de tarefas de manutenção.

Para isso é necessária a integração entre máquinas, sistemas e pessoas na

cadeia produtiva, que é a essência da Indústria 4.0 (CAMEIRA et al., 2017). O termo

Indústria 4.0 refere-se à quarta revolução industrial que, de acordo com

CHUKWUEKWE et al. apud CAMEIRA (2017), mudará profundamente os processos de

manufatura, com a introdução das tecnologias citadas anteriormente, como big data,

machine learning, dentre outros sistemas inteligentes desenvolvidos recentemente.

Ao combinar a fabricação, automação e soluções de TI, é possível revolucionar

os processos produtivos das indústrias (CHUCKWUEKWE et al. apud CAMEIRA et al.

(2017), principalmente através de sensores (CAMEIRA et al., 2017), que vão permitir

que as máquinas e equipamentos da cadeia produtiva sejam consertados de acordo

com suas condições reais de uso, ao identificar e tratar anomalias antes de ocorrerem

paradas inesperadas.

Page 45: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

36

Para CAMEIRA et al., (2017), big data terá um papel fundamental de

processamento e análise da enorme quantidade de dados provenientes de sensores do

chão de fábrica. O processamento e análise inteligente desses dados através de big

data permitirá determinar as probabilidades de falhas de máquinas, provendo

informações valiosas para tomada de decisões.

Assim, a Indústria 4.0 pode ser caracterizada por uma fusão entre a tecnologia

e as fábricas, onde cada componente da cadeia produtiva, ferramentas e estações de

trabalho, se comunicam constantemente. As máquinas, sistemas de TI e produtos

trocam informações entre si e também com o mundo externo, tornando-se assim, mais

inteligentes.

A MCKINSEY (2015) estima que, até 2025, os processos relacionados à

Indústria 4.0 poderão reduzir custos de manutenção de equipamentos entre 10% e 40%,

reduzir o consumo de energia entre 10% e 20% e aumentar a eficiência do trabalho

entre 10% e 25%. Ao otimizar as ferramentas e processos de produção, implementando

rotinas para manutenção preditiva também é possível reduzir o tempo de inatividade de

máquinas em 50% e reduzir o investimento de equipamentos e de capital em 3 a 5%,

estendendo a vida das máquinas, segundo o mesmo relatório.

As principais ferramentas necessárias para implementar a Indústria 4.0 já estão

disponíveis: sensores, controladores, big data, machine learning, computação em

nuvem, dentre outros. Mais do que uma revolução industrial, a Indústria 4.0 é uma

reorganização total dos processos de produção fazendo uso das ferramentas existentes

e depositando maior confiança nelas.

Esse novo modelo de indústria aumenta o dinamismo do setor de diferentes

formas: modernizando a produção, aumentando a produtividade, posicionando os

fabricantes para enfrentar os desafios da globalização e criando vantagens

competitivas. No estuda caso a seguir aprofundaremos uma proposta de como trazer

esse novo modelo de indústria com processos e ferramentas tecnológicos de

manutenção preditiva para usinas termelétricas da PETROBRAS, que, apesar de terem

evoluído bastante na monitoração das máquinas, ainda precisam de processos

estruturados para tirar dos dados todo o seu valor para o negócio.

Page 46: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

37

4. ESTUDO DE CASO

A seguir, será apresentado o caso que motivou esse estudo. Esse é um grande

exemplo de como é difícil, principalmente para grandes empresas, como a

PETROBRAS, estruturar o uso de ferramentas de bussiness intelligence entre diferentes

áreas e equipes, com objetivos finais diferentes.

4.1. A organização estudada: PETROBRAS

A PETROLEO BRASILEIRO SA (PETROBRAS) é uma empresa de capital

aberto conhecida mundialmente que opera de forma integrada e especializada no setor

de petróleo, gás natural e energia, cujo acionista majoritário é o Governo do Brasil,

sendo, portanto, uma empresa estatal de economia mista. A PETROBRAS está

presente nos segmentos de exploração e produção, refino, comercialização,

transporte, petroquímica, distribuição de derivados, gás natural, energia elétrica, gás-

química e biocombustíveis5.

Com cerca de 70 mil empregados atualmente, a empresa foi instituída em 3 de

outubro de 1953 e deixou de monopolizar a indústria petroleira no Brasil em 1997, mas

continua a ser uma importante produtora do produto, produzindo mais de 2 milhões e

144 mil barris de óleo diariamente6.

A PETROBRAS sofreu entre 2014 e 2016 prejuízos de dezenas de bilhões de

reais consecutivamente, devido à esquemas de corrupção e quedas no preço do barril

de petróleo. Assim, a empresa tenta se recuperar dessa crise aumentando sua

eficiência operacional.

Na geração de energia elétrica, a PETROBRAS opera e tem participação em

usinas termelétricas, eólicas e pequenas centrais hidrelétricas, que complementam as

necessidades de energia do país, principalmente em períodos de seca e grande

demanda. No total, o parque gerador da PETROBRAS possui 36 unidades – próprias,

de subsidiárias ou de empresas em que possuem participação acionária –, incluindo

uma em construção7. A listagem das usinas próprias pode ser visualizada no Apêndice

A.

As usinas termelétricas têm o maior destaque no parque, mas a empresa

também gera energia elétrica por meio de cinco usinas eólicas e duas pequenas

5 PETROBRAS. Disponível em <http://www.petrobras.com.br>. Acesso em 02 ago. 2017.

6 Dados disponíveis em <http://www.petrobras.com.br/pt/quem-somos/perfil/>. Acesso em 02 ago. 2017.

7 Dados disponíveis em <http://www.petrobras.com.br/pt/nossas-atividades/areas-de-atuacao/geracao-

de-energia-eletrica/>. Acesso em 02 ago. /2017.

Page 47: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

38

centrais hidrelétricas. A construção das termelétricas começou em 2000 e a

participação dessas usinas no setor ampliou significativamente desde lá e atualmente

tem presença em toda cadeia produtiva, com capacidade total de geração elétrica

maior que 6000 MW em 20 usinas termelétricas por todo o Brasil8. As usinas

termelétricas do parque gerador da PETROBRAS serão o objeto desse estudo.

4.2. O Centro de Monitoração e Diagnóstico

Os dados das usinas termelétricas abastecem uma base de dados relacional, ou

seja, um banco que modela os dados de uma forma que eles sejam percebidos pelo

usuário como tabelas.

Os dados são trazidos de muitas máquinas e tratar esses dados para transformá-

los em informação era um desafio para a Gerência de Suporte à Manutenção de

Grandes Máquinas e, depois de uma experiência na área de ciclos de geração, foi

identificado que era necessário analisar de forma mais abrangente as grandes máquinas

que compõe as usinas.

Devido a essa necessidade foi criada uma Gerência de Confiabilidade, para dar

suporte à manutenção proativa e preventiva. Essa gerência realizou um estudo das

técnicas utilizadas em outros centros de monitoramento para verificar o que seria

possível adaptar para a realidade da PETROBRAS. O objetivo era unificar os dados das

usinas termelétricas em único centro de monitoração, que passasse informações

consistentes às demais gerências para as devidas ações.

Assim foi criado o Centro de Monitoração e Diagnóstico (CMD). Houve um

esforço da área de Tecnologia da Informação Corporativa (TIC) muito grande para

unificar os dados provenientes de pontos de recolha nas usinas termelétricas para esse

centro.

Os dados dessas usinas começaram a ser armazenados em um historiador, o PI

System, utilizado como sistema de supervisão desses dados operacionais e

disseminado na PETOBRAS em TICs de vários estados há mais de vinte anos. Cada

usina termelétrica passou a possuir um servidor local do PI System, onde os dados da

mesma são armazenados e enviados através de conexão com a internet a um servidor

central. Nesses dados estão inclusos, entre outros, temperatura e pressão das

turbinas e a geração de cada turbina elétrica.

8 Dados disponíveis em <http://www.petrobras.com.br/pt/nossas-atividades/principais-

operacoes/termeletricas/>. Acesso em 02 ago. 2017.

Page 48: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

39

Já com a base de dados montado no PI System, o CMD tinha um novo desafio:

unificar também a interface de supervisão desses dados. Até o momento, casa usina

termelétrica utilizava um supervisório com um fabricante diferente. Por esse motivo, a

PETROBRAS fez um novo esforço de unificação para que todas as usinas termelétricas

utilizassem o PI System também como interface de supervisão dos dados, já que a

base de dados já estava montada nele e toda infraestrutura necessária para uso já

estava pronta.

4.2.1. Monitoração de falhas nas usinas termoelétricas

Com uma base de dados e um sistema de supervisão montados, ainda faltavam

recursos que permitissem monitorar os dados que realmente importam para certificação

da continuidade de geração de energia pelas usinas, incluindo análise de variáveis de

processos e variáveis quantitativas.

O objetivo era construir uma ferramenta capaz de monitorar a eficiência

energética das unidades termoelétricas em tempo real e inferir a eficiência esperada

das mesmas, possibilitando a rápida identificação de desvios operacionais.

4.2.2. Motivação para mudança

Até 2013, a contabilização da eficiência energética das usinas era calculada

mensalmente de forma off-line pelos engenheiros e técnicos de manutenção. As usinas

tinham metas associadas apenas ao despacho de energia elétrica e devido ao cálculo

da eficiência ser manual, era difícil identificar os desvios de eficiência energética, o que

causava baixa operacionalização no tratamento dos desvios de eficiência.

Monitoramento da eficiência energética

Estabelecimento de metas de

eficiência

Mensuração das ações de melhoria de

eficiência

Atuação imediata para correção dos

desvios de eficiência

Identificação e registro dos

desvios de eficiência

Figura 12 – Fatores motivacionais para a implementação de monitoração centralizada. Fonte:

Elaboração Própria.

Page 49: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

40

Com o monitoramento das usinas termelétricas seria possível calcular a

eficiência energética de forma menos dispendiosa, definindo métricas mais condizentes

com a realidade, além de possibilitar ações imediatas para correção de desvios de

eficiência (falhas) identificados na monitoração.

4.2.3. Descrição de ferramentas do CMD

Para suprir a necessidade de controlar as variáveis do processo de produção de

energia termelétrica, o CMD começou a utilizar o ETAPro, escolhido através de uma

licitação para softwares de monitoração, cujo principal requisito era a integração com o

PI System.

O ETAPro não oferece algumas funcionalidades que o CMD demanda, como,

por exemplo, gerar alarmes baseados em dados de produção das grandes máquinas,

como turbinas de gás e vapor, bem como as bobinas acopladas à essas turbinas. A

falha dessas grandes máquinas são as que geram maior impacto financeiro para o setor

de energia e, consequentemente, para a PETROBRAS como um todo. Por esse motivo,

atentar para qualquer indício de falha nessas máquinas é necessário e, para atender a

essa demanda o CMD buscou uma nova ferramenta para monitorar esses indícios de

falha, o OPEN Predictor.

Pela falta de recursos em ambas as ferramentas que provessem uma visão geral

de todo o parque resumida em apenas uma visualização, o COE (Centro de Operações

de Energia) que fica na estrutura de Gás e Energia, junto ao CMD, começou a utilizar o

Spotfire como ferramenta de business intelligence, para visão em tempo real do parque

gerador das usinas termelétricas.

O objetivo da adoção desse conjunto de ferramentas foi justamente sintetizar os

aspectos de condição, desempenho e confiabilidade das grandes máquinas,

conforme apresentado na Figura 13. Apesar de até hoje os operadores do CMD não

conseguirem extrair tudo que precisam da ferramenta, ele já possui hoje uma série de

alarmes configurados nas grandes máquinas.

Page 50: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

41

Figura 13 – Aspectos avaliados nas grandes máquinas pelo CMD da PETROBRAS (Elaboração Própria)

Como não encontraram uma única ferramenta que cobrisse todos esses

aspectos de acordo com a demanda do CMD, foi necessária uma combinação entre

elas. O funcionamento de cada uma e a composição das mesmas para atingir endereçar

essas três necessidades será descrito a seguir.

4.2.3.1. ETAPro

O ETAPro VirtualPlant é um produto de modelagem termodinâmica para avaliar

o monitoramento e o desempenho de usinas geradoras de energia.

Com ele é possível construir modelos baseados em princípios de usinas

termelétricas que são usados para validar os dados de medição, calcular o desempenho

esperado dos componentes com base nas condições operacionais reais, recomendar

pontos de ajuste ideais para maximizar a lucratividade e simular análises.

No gerenciamento de alarmes da ferramenta, mostrada no Apêndice B, quando

é marcada a ciência de cada tipo de aviso da monitoração, o ETAPro exporta esses

alarmes ou alertas para um outro banco de dados (Oracle), onde todo histórico é

mantido. Esse banco de dados é uma das principais fontes das ferramentas de business

intelligence utilizadas pelo CMD, ou seja, é através desses dados que o CMD endereça

a necessidade de informações sobre confiabilidade.

O ETAPro é então utilizado para monitorar a performance das máquinas, como

no Apêndice C, onde está representada uma turbina a gás da UTE Jesus Soares Pereira

(JSP) e seus componentes. Sendo assim, o pilar de desempenho é atendido pelo

ETAPro.

A principal maneira de monitorar desempenho das máquinas é através de

sensores. Através deles, é possível medir, por exemplo, as vibrações nos mancais das

turbinas. Esses sensores sísmicos transformam as grandezas físicas mecânicas em

sinais elétricos, assim, na medição, que é pico a pico, quanto maior a amplitude, maior

Condição

•A usina está operante?

Desempenho

•A geração está dentro do normal?

Confiabilidade

•Qual a probabilidade de falha?

•Manutenção necessária?

Page 51: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

42

o sinal de vibração (em mm/s). Os sensores de proximidade medem a vibração no eixo

do mancal em micrometros (µm). Na figura 14 é possível visualizar onde ficam

localizados os sensores em um mancal.

Figura 14 – Mancal de deslizamento e localização dos sensores. Adaptado de:

http://www.ebah.com.br/content/ABAAAfV8kAG/elementos-maquinas-introducao?part=3. Disponível em

06/08/2017, às 23:04h.

A monitoração do desempenho das grandes máquinas tem como objetivo avaliar

se a quantidade de energia que essa máquina está gerando. Um gerador, por exemplo,

deve entregar uma energia na ponta do eixo próximo ao valor nominal da máquina. No

caso da turbina de gás do Apêndice C, esse valor nominal é 160 MW, enquanto a

geração no momento era de 145KW.

São diversos os fatores que influenciam nessa geração. O principal deles é a

temperatura de entrada (ambiente). Ainda no Apêndice C é possível ver a eficiência da

máquina (Heat Rate), ou seja, a quantidade de combustível gasta para gerar essa

quantidade de energia (em KJ/KWh, ou watts). Sendo assim, quanto menor esse valor,

mais eficiente a máquina está.

O ETAPro provê informações para estudo de desempenho, que é interpretado a

a partir de conhecimentos práticos, não definidos pela ferramenta. O Apêndice D mostra

uma linha histórica da relação de pressão da turbina a gás do Apêndice C. Essa linha

mostra que quão maior é a geração (gross generation) dessa turbina, maior a pressão

na mesma, o que pode levar a uma falha. O CMD definiu, para esse estudo, indicadores

de eficiência das máquinas, como potência, razão de compressão, temperatura de gás

Page 52: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

43

e exaustão, além dos indicadores implícitos (técnicos), como as vibrações e temperatura

ambiente.

4.2.3.2. OPEN Predictor

Escutar e interpretar os ruídos emitidos pelas máquinas é fundamental para obter

informações sobre necessidade de manutenção. Esse processo é conhecido como

análise de vibrações e se torna cada vez mais necessário na evolução do processo de

manutenção.

As forças dinâmicas geradas pelas máquinas possuem taxas de variação. Essas

forças alteram o nível de vibração das máquinas, que pode ser medido em pontos

acessíveis, sem interromper o funcionamento da mesma. Se ocorrer uma falha, a taxa

de variação se destacará do padrão.

Assim é possível detectar se, por exemplo, existir um desequilíbrio, um

desalinhamento ou danos no rolamento de uma máquina. Com ferramentas adequadas,

além de um diagnóstico exato, também é geralmente possível determinar se é

necessária uma intervenção urgente ou se é possível esperar até à próxima manutenção

programada. Para suprir essa necessidade, o CMD adotou uma nova ferramenta de

monitoração, o OPEN Predictor.

Os engenheiros do CMD definiram três pilares que precisavam monitorar, de

condição, desempenho e performance. Esses pilares podem ser representados de

forma geográfica por usina pelo OPEN Predictor, conforme exemplificado no Apêndice

E. Esses aspectos a serem monitorados estão representados em siglas na ferramenta:

• CM – Condição (condition)

• PM – Desempenho (performance)

• RM – Confiabilidade (reliability)

Nessa representação, basta uma ocorrência de nível mais grave para que todo

o aspecto seja representado por esse nível do parâmetro, ou seja, caso exista um alerta

de condição para uma das usinas, o aspecto de condição dessa usina ficará amarelo.

Como dito anteriormente, como os aspectos de desempenho e confiabilidade possuíam

melhores recursos no ETA Pro, o CMD utiliza no OPEN Predictor apenas os alarmes

respectivos a condição, conforme Apêndices F e G.

Na representação de condição do Apêndice F da UTE Rômulo Almeida são

mostrados o estado operacional, a carga elétrica gerada e a temperatura de exaustão

de cada máquina. As turbinas à vapor são representadas pela sigla ST (Steam Turbine)

e as turbinas a gás estão representadas pela sigla GT (Gas Turbine). Já no Apêndice

Page 53: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

44

G está representado o detalhe (drill down) de uma das turbinas, com os seus respectivos

mancais (quadrados), gerador (círculo) e a própria turbina (em azul).

Assim, o OPEN Predictor é utilizado para análise em tempo real de como estão

as máquinas, gerando alarmes, baseados em variáveis quantitativas, dentre elas,

principalmente, o valor de vibração de mancais e a temperatura e nível de óleo nas

turbinas.

Os alarmes enxergam cada variável de processo proveniente do EtaPRO,

analisam o comportamento da variável e geram intervalos padrão. Quando a variável

extrapola um dos limites desse intervalo, a ferramenta emite um alerta (de cor amarela).

Quando a variável extrapola um certo alcance já fora do intervalo que leva certamente

a uma falha, um alarme (de cor vermelha) é exibido no painel de monitoramento.

Quando existe alguma inconsistência nos dados, como por exemplo, um comprimento

negativo, que é impossível, essa inconsistência (erro de dado) é marcado de azul.

Por exemplo, mancais de rolamento estão acoplados a uma turbina do parque

gerador. Essa turbina, por especificação do fabricante, possui um parâmetro de

vibração. No Open Predictor, a equipe técnica do CMD configura uma variável de

vibração com um alerta associado, já que é possível medir a vibração nos mancais

acoplados à turbina sem impactar o funcionamento da mesma. Quando um alerta é

emitido, significa que a vibração dessa turbina está fora do parâmetro e os técnicos

mecânicos do parque gerador podem investigar o problema.

Esse seria um exemplo de alerta da aba de Operações (Operations), conforme

exposto na Figura 11 a seguir. A representação do gráfico de vibração (rotações por

minuto – RPM) em um mancal de rolamento com os limites de alerta (linha amarela) e

alarme (linha vermelha) está no Apêndice H. Esse detalhe em gráfico é obtido a partir

das condições apresentadas na representação esquemática da turbina do Apêndice C,

clicando sobre o mancal ou qualquer outro componente da turbina.

O ideal é trabalhar sempre nos níveis de alertas, pois ainda seria considerada

uma manutenção preventiva, visto que a máquina está apresentando sinais de que vai

falhar, mas ainda não falhou, nesse caso. Quando não são realizadas as ações

necessárias de acordo com os alertas, o alarme é disparado e será necessária uma

manutenção corretiva, visto que já terá ocorrido falha. As manutenções indicadas, de

acordo com a mesma classificação, estão situadas na aba de Manutenção

(Maintenance).

Os alarmes e alertas da aba de Manutenção são programados através de um

arranjo de duas ou mais variáveis quantitativas (série de decisões lógicas – “se(s)” –

que definem qual a lógica de manutenção. Algumas das medidas utilizadas como

Page 54: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

45

variáveis quantitativas para monitoração de manutenção estão descritas no Apêndice I.

Nesse exemplo estão descritas as medidas analisadas nas Turbinas de Gás (Gas

Turbine) para Auto Diagnóstico, que será descrito em seguir.

Figura 15 – Tela principal da ferramenta OPENPredictor. Fonte: Foto de tela do CMD, PETROBRAS.

O Auto Diagnóstico (AutoDiagnosis) é baseado em programação interna da

ferramenta, que identifica tendências nos sintomas das máquinas. Por exemplo, se de

acordo com a programação da ferramenta, toda vez que o balanceamento do rotor (rotor

balance) de uma máquina está dentro de um intervalo no qual a máquina já falhou várias

vezes, de acordo com o cálculo da ferramenta, ela também gera alarmes (em vermelho),

alertas (em amarelo) e avisos (ícone de exclamação). A PETROBRAS utiliza apenas o

autodiagnostico instantâneo, já que o histórico utiliza muitas informações e os cálculos

realizados pela ferramenta não são confiáveis. Ainda assim, por analisar somente uma

variável para cada cálculo, o autodiagnostico é útil, porém não é confiável também, pois

não considera a influência de variáveis cruzadas.

Os alertas e avisos de Confiabilidade (Reliability) emitidos pelo OPEN Predictor

baseiam-se em cálculos para dizer se a máquina está funcionando ou não. A ferramenta

não mostra de forma intuitiva a razão da máquina ter parado (se a parada foi

programada, se foi manual, acidental, etc), mas ela mantém um histórico dessas

informações. Assim é possível gerar um relatório de gerenciamento diário de

confiabilidade por máquina (Reliability Daily Manager - RDM), que exibe uma lista das

falhas dessa máquina, o tempo de inatividade (downtime) da mesma e a causa raiz de

cada falha. Um exemplo desse relatório de confiabilidade está representado no

Apêndice J e a lista de downtime está exemplificada no Apêndice K.

Porém, devido às limitações dos relatórios (que podem ser emitidos apenas por

máquina, e não da usina inteira, por exemplo), a PETROBRAS utiliza hoje o ETA-Pro

para confiabilidade e também para monitoração de desempenho (performance),

conforme citado anteriormente.

Page 55: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

46

4.2.3.3. Spotfire

Esses indicadores são desenvolvidos pelo Centro de Operações de Energia

(COE), que oferece para os operadores do sistema elétrico locais uma visão geral do

parque gerador da PETROBRAS. Ele funciona de forma integrada com a Operadora

Nacional do Sistema Elétrico (ONS).

O Spotfire surgiu como uma ferramenta de monitoração que integra as

informações provenientes do ETAPro e OPEN Predictor de forma clara e objetiva. Essa

se tornou uma ferramenta fundamental para o projeto do Parque Gerador em Tempo

Real (PGTR) que visou a disponibilização da visão em tempo real do parque para a

ONS. Todas as informações (alertas, alarmes, características, valores dos sensores,

etc) foram mineradas e importadas para uma base de dados num servidor local. As

informações mais importantes importadas foram:

• Classificação das paradas

• Causas raiz das falhas

• Indicadores das grandes máquinas

• Eficiência energética

No Apêndice L está um dos dashboards do Spotfire utilizado no PGTR. Nele é

possível verificar a gestão de alarmes e alertas, separados por usina, tipo máquina (UG,

que significa unidade geradora), contendo também a descrição do alarme ou alerta

(temperatura, vibração, pressão, elétrica) e o valor desses indicadores. Além disso, o

COE criou visões resumidas de alertas e alarmes por dia e de geração de cada usina,

para comparação da eficiência energética, endereçando parcialmente o aspecto de

confiabilidade demandado pelo CMD.

4.2.4. Plano de Excelência Operacional

Com o objetivo de aumentar a eficiência das usinas foi criado o Plano de

Excelência Operacional (PAEX), através da diminuição da ocorrência de falhas, fator

que afeta mais e diretamente a eficiência das usinas. Visando o aumento da eficiência,

os gestores das usinas receberam indicadores padronizados a serem atingidos de, entre

outros: disponibilidade do parque gerador por usina; de execução de manutenção; e de

execução de ordens (manutenções ainda por fazer).

Para viabilizar esse controle, além dos dados obtidos através dos sensores, os

operadores das usinas passaram a inserir informações detalhadas em livros eletrônicos.

O objetivo desse registro foi obter recomendações por meio de relatórios, pela Gerência

de Suporte à Operação. As usinas já recebiam relatórios em intervalos regulares, mas

Page 56: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

47

não havia acompanhamento das recomendações propostas no relatório pela gestão de

manutenção da usina.

Dessa forma, cada ação gerada pelos alertas, alarmes e identificação de causa

raiz através das ferramentas de monitoração passou a ser acompanhada, com um

detalhamento de tarefas, seu status e o respectivo responsável. Além disso, os gerentes

das usinas passaram a possui indicadores baseados no cumprimento dessas ações. O

banco de falhas passou a hospedar também esse Livro de registro e indicadores e

disponibilidade.

O PAEX visava, além disso, implementar uma metodologia contínua de

aprendizado sobre as falhas para evitar que elas ocorressem, usando métodos já

consagrados de engenharia de manutenção. Uma vez encontrada a causa raiz, o

objetivo passou a persegui-la para que não aconteça de novo. Porém, esse método se

provou pouco eficiente, visto que as causas raiz variam e às vezes não é só um fator,

mas sim uma combinação de fatores que levam uma máquina a falhar.

4.2.5. Resultados obtidos e evolução da solução

Com a implementação dessas três ferramentas, o CMD disponibilizou a

monitoração do desempenho energético de 20 usinas termelétricas e suas grandes

máquinas, além de uma visão consolidada para o parque gerador. Essas

implementações permitiram o monitoramento da eficiência energética em tempo real no

COE e a criação de um novo procedimento operacional para registro e tratamento de

desvios de eficiência energética.

A configuração de alarmes para os desvios entre a eficiência realizada e a

esperada possibilitou a identificação rápida dos desvios de eficiência e maior agilidade

na correção desses desvios, reduzindo então as perdas energéticas nas usinas.

Porém, ainda que a monitoração das usinas tenha evoluído muito com essas três

ferramentas e possibilitado a identificação e correção da causa de algumas falhas

recorrentes, o OPEN Predictor mostra alarmes e alertas que são consequências das

falhas, enquanto do ETAPro auxilia na investigação de performance e causa raiz das

falhas. Para ter realmente excelência operacional, a PETROBRAS ainda tinha a

necessidade um tratamento efetivo para evitar as falhas das máquinas das usinas.

Com todos os dados dos alertas e alarmes e falhas relacionados, bem como

suas respectivas causas raiz, é possível, aplicando um modelo de machine learning,

aprender com esse histórico de falhas e prever quando uma falha ocorrerá, de forma

que seja possível realizar uma manutenção preditiva, otimizando os recursos

disponíveis nas usinas termelétricas do parque gerador da PETROBRAS.

Page 57: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

48

5. MANUTENÇÃO PREDITIVA NAS USINAS TERMELÉTRICAS

Os motores das turbinas de geração a gás ou vapor utilizadas nas usinas

termelétricas da PETROBRAS são peças normalmente sensíveis e caras. Como já visto

no capítulo anterior, soluções de manutenção para usinas geradoras de energia exigem

gerenciamento cuidadoso de disponibilidade das máquinas do parque gerador.

A capacidade de reunir inteligência sobre confiabilidade da máquina leva a uma

significativa redução de tempo em que a máquina fica inoperante, pois permite ao

operador fazer a manutenção proativa da máquina antes que ela falhe, reduzindo

consequentemente os custos da operação.

UZ (2017) afirma que os dados para problemas manutenção preditiva se

resumem, basicamente, aos seguintes componentes:

• Histórico de falhas de uma máquina ou componente dentro da máquina;

• Histórico de manutenção de uma máquina (códigos de erro, atividades

de manutenção anteriores ou substituições de componentes);

• Condições e uso da máquina, contendo dados de operação contínua

(dados coletados de sensores);

• Características da máquina, seus recursos (tamanho do motor, marca

e modelo, localização);

• Recursos do operador, como por exemplo gênero ou experiência

passada.

O CMD já possui todos esses dados, eles só precisam ser integrados e

conectados à um modelo de machine learning, para começarem a se beneficiar das

informações para manutenção preditiva.

A seguir será proposto um modelo de Machine Learning que pode ser aplicado

aos dados do PI System (onde ficam os dados dos sensores localizados nas máquinas)

e do Banco de Falhas do CMD, para prever falhas nas grandes máquinas, ou seja,

prever se uma máquina vai ou não falhar, antes que isso aconteça.

Page 58: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

49

5.1. Modelo de Machine Learning

Para criar um modelo de machine learning será utilizado o Azure Machine

Learning Studio9, que é uma ferramenta gratuita na web para criação, treinamento,

validação e avaliação de modelos, utilizando computação em nuvem.

Por motivos de confidencialidade dos dados, a PETROBRAS não disponibilizou

a lógica de indicadores utilizados nem os dados históricos de uma turbina para que

fizéssemos um estudo real. Por esse motivo, serão utilizados, para esse modelo, dados

disponíveis no Repositório de Machine Learning da Universidade da Califórnia10 (Irvine)

– UCI, que são dados reais de sensores na monitoração do processo de produção de

um semicondutor11.

Esse conjunto de dados possui 1567 amostras de 591 sensores, onde ocorreram

104 falhas, representadas de forma que “-1” significa que ocorreu uma falha depois

dessa observação e antes da observação seguinte, enquanto “1” significa que nada

ocorreu. Esse conjunto de dados também possui ruídos, ou seja, dados irrelevantes,

como é o caso de alguns sensores, bem como dados ausentes que foram preenchidos

como “NaN”.

A escolha desse conjunto de dados especificamente foi por ele ter todas as

informações que precisamos para a criação do modelo de manutenção para prever se

as máquinas das usinas termelétricas do parque gerador da PETROBRAS vão falhar

com base nas informações históricas de falha, condição e uso das máquinas. São elas:

• Medidas dos sensores ao longo do tempo

• Detecção ou não de falha na medição correspondente

O procedimento de criação do modelo foi baseado em NOGARE & ZAVASCHI

(2016, p90-132), começando pela identificação do problema, que é prever se uma

máquina vai falhar. Para ter um experimento organizado, foi criado um novo projeto no

Azure ML Studio, onde foram colocados todos os componentes desse modelo.

9 Azure Machine Learning Studio. Disponível em <https://studio.azureml.net>. Acesso em 02 ago. 2017.

10 UCI Machine Learning Repository. Disponível em <http://archive.ics.uci.edu>. Acesso em 10 ago. 2017.

11 SECOM Data Set. Disponível em <http://archive.ics.uci.edu/ml/datasets/SECOM>. Acesso em 10 ago.

2017.

Page 59: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

50

Figura 16 – Criação do projeto no Microsoft Azure Machine Learning Studio. Fonte: Elaboração Própria

Com o conjunto de dados do semicondutor já baixados, foi feito o carregamento

(upload) dele na aba Datasets (Conjunto de Dados).

Figura 17 – Importando um novo dataset (conjunto de dados). Fonte: Elaboração Própria

Com a coleta de dados realizada, foi

criado um novo experimento “Modelo de

Manutenção Preditiva”, onde será feito o

desenho do modelo, incluindo a parte de pré-

processamento de dados, incluindo a limpeza

dos mesmos, ou seja, a remoção de ruídos,

valores nulos, ou ainda variáveis redundantes

ou altamente correlacionadas, para que não

seja necessário o uso dos dados de todos os

591 sensores.

Figura 18 – Descrição do dataset importado.

Fonte: Elaboração Própria

Page 60: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

51

Figura 19 – Criação e visão inicial do experimento. Fonte: Elaboração Própria

Para remover os recursos desnecessários para a criação do modelo foi usado o

módulo de Seleção de Colunas (Select Cloumns in Dataset), onde é possível, por nome

ou por regra, excluir ou incluir as colunas de interesse. No nosso caso, a coluna

“Timestamp” foi removida por não trazer dados referentes a nenhum dos sensores nem

da ocorrência de falha, que é o que interessa para a previsão buscada. Essa coluna

poderia ser utilizada caso o objetivo fosse criar um modelo para prever quando a falha

irá acontecer, mas conforme citado no item 3.4.3., seria necessário um conjunto de

dados muito maior para isso.

Figura 20 – Seleção de colunas do dataset. Fonte: Elaboração Própria.

Page 61: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

52

Em seguida, conectando o módulo de Purificador de Dados Ausentes (Missing

Values Scrubber), ele faz a remoção dos

valores em que não aparecem os valores

da observação (representados como

“NaN”, conforme citado anteriormente),

por 0, ou qualquer outro valor

especificado, normalizando então o

conjunto de dados. Além disso, é possível

ainda explorar os dados do módulo

Missing Values Scrubber (Purificador de

Valores Ausentes), inserindo o módulo de

Funções Estatísticas (Statistic Functions).

Figura 22 – Visualização dos resultados do dataset após purificação. Fonte: Elaboração Própria.

Para identificar recursos importantes no dataset, utilizamos o módulo Seleção de

Recursos com Base em Filtros (Filter Based Features Selection), que identifica os

recursos (no caso, os sensores) com o maior poder preditivo no conjunto de dados

utilizado. Assim, os sensores que não tem informações pertinentes ao modelo de

previsão já são eliminados. Quando o objetivo do módulo não é claro somente pelo título

do mesmo, é possível ver uma descrição no canto inferior direito do Azure ML Studio.

Figura 21 – Módulo de Purificador de dados. Fonte:

Elaboração Própria.

Page 62: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

53

De acordo com a documentação do Azure Machine

Learning Studio12, o escore de informação mútua é

particularmente útil na seleção de características porque

maximiza a informação mútua entre a distribuição conjunta

e as variáveis de destino em conjuntos de dados com

muitas dimensões, como caso desse, que possui 591. Esse

módulo foi usado para selecionar apenas os 20 sensores

com informações mais relevantes, selecionando a coluna

alvo “Yield_Pass_Fail”, que é a coluna que indica se houve

falha para aquela amostra.

Com os dados já processados e limpos, o próximo

passo é treinar o modelo. Como esse conjunto de dados é

pequeno e limitado, esse conjunto foi dividido através do

módulo de Divisão (Split), onde 80% dos dados serão

utilizados para treinar o modelo e 20% para validá-lo depois

de treinado.

Nesse estudo de caso, como o interesse é prever

se ocorre ou não uma falha dada a amostra,

classificaremos o problema em duas classes: Falha e

Não-Falha. Por isso, um dos modelos aderentes a esse

problema é Árvore de Decisão Reforçada de Duas

Classes (Two Class Boasted Decision Tree), que cria

um classificador binário usando um algoritmo de árvore

de decisão reforçada (já pronto). Todas as

classificações possíveis para o modelo estão

disponíveis na Documentação sobre Classificação do

Azure Machine Learning13.

12 Documentação sobre Recursos do Azure Machine Learning Studio. Disponível em

<https://msdn.microsoft.com/en-us/library/azure/dn913071>. Acesso em 11 ago. 2017.

13 Documentação sobre Classificação no Azure ML Studio. Disponível em

<https://msdn.microsoft.com/library/en-us/Dn905808.aspx >. Acesso em 11 ago. 2017.

Figura 23 – Módulo de

Seleção de Recursos com

Base em Filtros. Fonte:

Elaboração Própria.

Figura 24 – Módulo de

Divisão de dados. Fonte:

Elaboração Própria.

Page 63: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

54

Figura 25 – Módulo de Classificação de Árvore de Decisão Robusta de Duas Classes. Fonte: Elaboração

Própria.

Por não saber quais os melhores parâmetros para essa classificação, será

utilizado o modo de treinamento Intervalo de Parâmetro14 (Parameter Range), com os

padrões propostos no modelo. Esses parâmetros podem ser revisitados e modificados

caso o modelo não se mostre confiável na avaliação.

O módulo de treino (Train Model) é conectado tanto ao Modelo de Classificação

como à parte do conjunto de dados destinada ao treino (os 80%). A coluna que deve

ser treinada é a de identificação de falha (Yield_Pass_Fail).

Figura 26 – Módulo de Treino do modelo. Fonte: Elaboração Própria.

14 Documentação sobre Definição de Parâmetros no Azure ML Studio. Disponível em

<https://msdn.microsoft.com/library/azure/e3c522f8-53d9-4829-8ea4-5c6a6b75330c>. Acesso em 10

ago. 2017.

Page 64: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

55

Depois disso, já é possível treinar o modelo para posterior avaliação, com a outra

parte do conjunto de dados (os 20% separados com o módulo de Divisão). Os 80% dos

dados treinados foram conectados ao módulo de Pontuação (Score), bem como os 20%

dos dados sem treinamento, para ver se com o treino, o modelo acerta em quais

amostras ocorreram falhas. O módulo de Avaliação (Evaluation) foi conectado ao

módulo de Pontuação para verificar a acuracidade e precisão do modelo, além das

amostras em que houve ou não acerto da previsão.

Figura 27 – Pontuação e Avaliação do Modelo. Fonte: Elaboração Própria.

Ao término da execução do modelo, é possível visualizar os resultados da

avaliação. Ao visualizar o resultado, é possível acompanhar a curva de Falso Positivo x

Verdadeiro Positivo, além a acurácia e precisão do modelo.

Figura 28 – Resultados da avaliação do modelo criado. Fonte: Elaboração Própria.

O resultado da previsão foi acurado, mas impreciso. Ele pode ser melhorado

através da mudança dos parâmetros utilizados no modelo, ou mesmo treinando um

modelo baseado em outra classificação dentre as disponíveis, comparando então os

treinos e eliminando o algoritmo perdedor (que teve pior resultado).

O modelo finalizado foi salvo para poder ser utilizado de fato para análise

preditiva de manutenção. Para disponibilizar o modelo pra uso é necessário criar um

novo experimento, que foi nomeado “Previsão de Falha”. Nesse experimento, o primeiro

componente a ser utilizado é o modelo treinado salvo, que é conectado Modelo de

Pontuação, que por sua vez recebe os dados externos em lote (aqui foi utilizado

Page 65: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

56

novamente o mesmo dataset, retirando dele a coluna que queremos prever:

“Yield_Pass_Fail”).

Para colocar o modelo em produção basta criar um novo experimento, onde o

experimento “Modelo de Manutenção Predtiva” salvo que é conectado no mesmo

Módulo de Pontuação que um pacote de dados (batch). Como não temos outros dados

dos mesmos sensores disponíveis, foi utilizado o mesmo dataset que na criação do

modelo. Depois de passar pelo modelo de manutenção preditiva, o resultado do módulo

de Pontuação, que é uma tabela com as previsões de falha ou não-falha, é exportado

através do módulo Exportar Dados (Export Data) e pode ser consumido por ferramentas

de business intelligence, por exemplo. O modelo completo pode ser consultado no

Apêndice M.

Figura 29 – Utilização do modelo para um lote (batch) de dados. Fonte: Elaboração Própria.

Para disponibilizar este modelo para utilização em tempo real, foi criado um novo

experimento semelhante ao anterior, mas com conexão a um Serviço Web (Web

Service), que pode ser uma aplicação, por exemplo. Essa aplicação entra com os dados

da amostra em tempo real (ou em lotes, conhecido como batch) no modelo, que é

executado e exporta para a aplicação o resultado da previsão, ou seja, se a máquina

vai ou não falhar.

Page 66: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

57

Figura 30 – Utilização do modelo de análise de manutenção preditiva com Web Service em tempo real.

Fonte: Elaboração própria.

Nesse novo experimento para análise preditiva de manutenção em tempo real,

o modelo treinado salvo é conectado ao Modelo de Pontuação, que por sua vez recebe

os dados externos do web service. Esses dados são disparados contra o modelo

treinado e tem como saída para o webservice a previsão de Falha ou Não-Falha.

Assim, fica claro que é possível criar um modelo de manutenção preditiva com

uso de machine learning sem necessidade de conhecimentos mais profundos de

desenvolvimento. No Azure Machine Learning Studio todos os componentes

necessários para criação do modelo estão disponíveis em módulos, com algoritmos por

trás dos mesmos, que podem ser utilizados de maneira intuitiva, mesmo sem o

conhecimento profundo sobre a solução.

É claro que quanto maior o histórico, mais preciso é o modelo e quanto mais

modelos de classificação forem comparados, mais certo de estar usando o melhor

algoritmo possível você estará. Além disso, com dados de tempo (data, hora, minutos)

contínuos é possível criar modelos preditivos que calculam não só a probabilidade de

falha ou não-falha, mas também prever quanto tempo resta antes da próxima falha, ou

seja, a vida útil restante da máquina.

5.2. Modelo de Data Warehouse

Com a aplicação do modelo de machine learning, utilizando dados em tempo

real, o data warehouse do CMD da PETROBRAS teria uma arquitetura semelhante à

Figura 31.

Page 67: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

58

Figura 31 – Modelo de Data Warehouse proposto. Fonte: Elaboração Própria.

Nesse esquema é possível visualizar como todas as ferramentas e conceitos

apresentados nesse trabalho se integram. Uma parte dos dados é importada e

transmitida em tempo real, ou seja, os provenientes dos sensores das máquinas das

usinas. A outra parte são dados operacionais e históricos, como o PI System.

Para armazenar os dados no seu formato bruto, seria necessário um data lake,

assim esses dados ficam disponíveis para qualquer interessado na PETROBRAS fazer

análises sobre eles. Com essa estrutura é possível trabalhar com big data e o modelo

de manutenção preditiva criado, conectados ao data warehouse.

No data Warehouse os dados são limpos e organizados e também ficam

disponíveis para análise depois do armazenamento. Além disso, outros bancos

importam e exportam dados para o data warehouse, como o Banco de Falhas e o PI

System.

Com o modelo in memory é possível realizar o processamento de transações e

análises em pararelo, para permitir trabalhar com grandes volumes de dados

processados rapidamente. As informações pós processamento de análise e também os

dados brutos do data lake podem ser então utilizados para construir relatórios em tempo

real, inclusive análises preditivas com as informações provenientes do machine learning,

além das ferramentas de monitoração já utilizadas pelo CMD.

Page 68: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

59

6. CONCLUSÃO

Os avanços tecnológicos têm impulsionado aumentos dramáticos na

produtividade industrial desde o início da Revolução Industrial. Esse moviemnto tornou-

se mais dinâmico na quarta onda dessa revolução, com o surgimento da nova

tecnologia industrial digital conhecida como Indústria 4.0, uma transformação que é

alimentada por avanços tecnológicos que dão cada vez mais inteligência ao negócio

para tomada de decisões em diversos níveis de uma organização.

Esse estudo apresentou alguns desses avanços, como big data e recursos de

análise, como o machine learning, que geram informações valiosas para as ferramentas

de business intelligence. A análise baseada em grandes conjuntos de dados (datasets),

que é o principal objetivo das ferramentas de big data, como o Hadoop, emergiu

recentemente no mundo da fabricação, visando otimizar a qualidade da produção,

economizar energia e melhorar o serviço de equipamentos.

No contexto da transformação digital das indústrias, a coleta e avaliação

abrangente de dados de diversas fontes - equipamentos e sistemas de produção, bem

como sistemas de gestão empresarial e de clientes – estão se tornando padrão para

suportar a tomada de decisões em tempo real. Um dos processos que pode ser

melhorado significativamente com a coleta desses dados é o de manutenção, já que

atualmente temos disponíveis ferramentas mais robustas no back-end, que tornam a

utilização mais simples e intuitivas no front-end, além de poder de processamento

computacional muito mais evoluídos para fazer análises de manutenção preditiva em

máquinas e equipamentos.

A PETROBRAS, empresa cuja operação e sistemas de monitoração foram

analisados nesse estudo, não foge a esse caminho de transformação digital. O Centro

de Monitoramento e Diagnóstico (CMD) junto ao Centro de Operações de Energia

(COE) já possuem os dados necessários para dar inteligência aos processos de

manutenção, mas ainda não aplica esses dados como deveria, se atentando mais à

monitoração e tratamento das causas das falhas ocorridas, aplicando manutenções

preventivas e corretivas. A empresa possui potencial e motivadores para implementação

de processo de manutenção mais robustos e eficientes e ainda não os utiliza.

Foi introduzido o conceito de manutenção preditiva e quais os meios para

implementá-lo, além dos requisitos de dados para criar as análises preditivas. Para fazer

manutenção preditiva, é necessário ter sensores nas máquinas para monitorar e coletar

dados sobre suas operações, sensores que as turbinas das termoelétricas da

PETROBRAS já possuem. Os dados para manutenção preditiva são basicamente

Page 69: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

60

dados de séries temporais, que incluem um carimbo de data/hora, um conjunto de

leituras de sensores coletadas ao mesmo tempo que esses carimbos e os

identificadores do dispositivo.

Foi apresentado um modelo de machine learning que prevê se ocorrerá ou não

uma falha (através de algoritmos já criados e disponíveis para uso), com base em dados

de sensores que não são os da PETROBRAS, que, por motivos de confidencialidade,

não foi possível utilizar. O conjunto de dados utilizado, extraído de uma biblioteca on-

line, já estava estruturado, apesar de não estar limpo. Porém, o modelo criado pode ser

adaptado, mudando apenas o conjunto de dados importados e, caso o mesmo não

esteja estruturado, necessitará de estruturação prévia.

O modelo de manutenção preditiva apresentado previu a probabilidade de falha

prevista nas próximas etapas 94% de acurácia, porém a precisão foi de apenas 40%.

As análises preditivas requerem uma quantidade significativa de dados de treinamento

que incluam bastante cenários de falha, que não era o caso do dataset utilizado (que

tinha apenas 1567 observações com ocorrência de 104 falhas). Como as falhas são

raras, as coleta de dados podem demorar muito. Porém, isso não seria um obstáculo

significativo para a aplicação desse modelo de manutenção preditiva para o CMD da

PETROBRAS, visto que eles já possuem um Banco de Falhas, além dos dados dos

sensores que ficam no PI System.

É importante ainda testar outros modelos de classificação para aprimorar o

experimento, bem como utilizar uma base de dados maior e, de preferência, com

intervalos de medições constantes e dados do horário da medição dos sensores, para

que seja possível prever a vida útil restante (tempo até a próxima falha).

Foi possível ver que existem ferramentas no mercado, como o Azure Machine

Learning Studio, com as quais é possível criar modelos e análises preditivas com

conhecimentos básicos de lógica e programação, desmistificando o mundo de ciência

de dados, já que hoje algoritmos em seu estado da arte já se encontram disponíveis

para consumo.

Como o trabalho se baseou no estudo e otimização das atividades de

manutenção preditiva das grandes máquinas de usinas termelétricas da PETROBRAS,

primeiramente foi estudado o processo de manutenção da empresa, que é baseado nos

pilares de condição, desempenho e confiabilidade. Em seguida foi feita uma

comparação com as ferramentas disponíveis no mercado atualmente e os possíveis

ganhos com uso dessas ferramentas.

Através da avaliação dos métodos utilizados pelo CMD, foram identificadas

oportunidades de melhoria nos processos de manutenção existentes, já que são

Page 70: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

61

realizadas manutenções que levam em conta a condição (manutenção corretiva) e o

desempenho (manutenção preventiva) das máquinas, mas não existe ainda uma prática

de manutenção que enderece as necessidades de confiabilidade. Através da

implementação de novas técnicas e soluções ainda não utilizadas (como o machine

learning), o CMD pode desenvolver uma prática de manutenção preditiva.

Foram considerados resultados deste trabalho, além da avaliação dos dados

coletados sobre monitoração das usinas termelétricas, a sugestão do modelo de

machine learning para manutenção preditiva, mesmo que não tenha sido possível a sua

implementação dentro do período de desenvolvimento e aplicação deste trabalho, mas

que possam ser aplicadas futuramente, inclusive incluindo no modelo a previsão de

quando acontecerá a falha.

O modelo sugerido dever ser então aprimorado, para que possa ser efetivamente

utilizado no planejamento e execução de manutenções em máquinas industriais, em

outros setores industriais além do caso apresentado, para usufruto dos benefícios

apresentados ao longo do estudo, como reduções de custo e aumento de

disponibilidade das máquinas.

Por fim, foi possível concluir que a detecção de falhas em turbinas de usinas

termelétricas, por machine learning, é uma técnica válida e promissora para prever a

ocorrência ou não de falha, mas que precisa ser amadurecida e utilizada com conjuntos

de dados suficientemente grandes com muitas ocorrências de falhas, para que o modelo

fique mais “treinado”, e, portanto, aprimorando sua precisão.

Page 71: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

62

7. REFERÊNCIAS BIBLIOGRÁFICAS

AFFELDT, F. S., JUNIOR, S. D. S., 2013, “Information architecture analysis using

business intelligence tools based on the information needs of executives”. Journal of

Information Systems and Technology Management, v.10, n. 2 (mai/ago), pp. 251-270.

ALPAYDIN, E., 2014. Introduction to machine learning. 3 ed. Massachusetts,

MIT Press.

ANEEL – Agência Nacional de Energia Elétrica. Disponível em

<http://www.aneel.gov.br>. Acesso em 14 jun. 2017.

BOSA, J. L., 2009, Sistema Embarcado para a Manutenção Inteligente de

Atuadores Elétricos. Dissertação de M.Sc., Programa de Pós-graduação em

Computação/UFRGS, Porto Alegre, RS, Brasil.

BOUÉE, C. E., 2015, “Digital Transformation Doesn’t Have to Leave Employees Behind”. Harvard Business Review. Disponível em <https://hbr.org/2015/09/digital-transformation-doesnt-have-to-leave-employees-behind>. Acesso em 5 jul. 2017.

BRASIL, Ministério de Minas e Energia, Empresa de Pesquisa Energética, 2015.

Plano decenal de expansão de energia 2024. Brasília, MME/EPE.

CAMEIRA, R. F.; BERNARDI, J. S. B.; SANTOS, L. F. A., 2017, “Indústria 4.0 e

Manutenção Preditiva”. SIMPOI. Disponível em

<http://www.simpoi.fgvsp.br/arquivo/2017/artigos/E2017_T00217_PCN54410.pdf>.

Acesso em 28/08/2017.

CARVALHO, A., 2013, “HANA: Convergence of OLTP and OLAP Analytics”.

Disponível em <https://blogs.sap.com/2013/08/07/hana-convergence-of-oltp-and-olap-

analytics/>. Acesso em 31 ago. 2017.

CEB, 2016. Digital Enterprise 2020: Challenges and Opportunities

for IT Leaders. CEB Global, CIO5765616SY N. Disponível em

<https://www.cebglobal.com/content/dam/cebglobal/us/EN/best-practices-decision-

support/information-technology/pdfs/CEB-TECH-Digital-Enterprise-2020-Challenges-

and-Opportunities-for-IT-Leaders.pdf>. Acesso em 15 jul. 2017.

CHO V., NGAI, E.W.T., 2003. “Data Mining for Selection of Insurance Sales

Agents”. Expert Systems, v. 20, n. 3 (Jul), pp. 123-132.

Page 72: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

63

COATES, M., 2017, “Defining the Components of a Modern Data Warehouse”.

Disponível em <http://www.sqlchick.com/entries/2017/1/9/defining-the-components-of-

a-modern-data-warehouse-a-glossary>. Acesso em 27/08/2017

DEAN, J., 2014, Big Data, Data Mining and Machine Learning: Value Creation

for Business Leaders and Practitioners. 1 ed. Hoboken, Wiley.

DAVE, P., 2013, “Big Data – Buzz Words: What is MapReduce – Day 7 of 21”.

Disponível em < https://blog.sqlauthority.com/2013/10/09/big-data-buzz-words-what-is-

mapreduce-day-7-of-21/>. Acesso em 14 jun. 2017.

DEVI, M., 2017. “Top 6 big data tools to master in 2017”. Disponível em

<http://bigdata-madesimple.com/top-6-big-data-tools-to-master-in-2017/>. Acesso em 1

ago. 2017.

EDMEAD, M., 2016, “Digital transformation: Why it's important to your

Organization”, The IDG Contributor Network. Disponível em

<http://www.cio.com/article/3063620/it-strategy/digital-transformation-why-its-important-

to-your-organization.html>. Acesso em 14 jul. 2017.

EMC, 2014, “Big Data: Five tatics to modernize your data warehouse”.

Disponível em <https://www.emc.com/collateral/emc-perspective/h10915-ep-pdf-data-

warehouse-modernization.pdf>. Acesso em 27/08/2017.

EMERSON, 2014, “Data Center 2025: Exploring the Possibilities”. Emerson

Network Power. Disponível em

<http://www.missioncriticalmagazine.com/ext/resources/whitepapers/Data-Center-

2025-Report.pdf>. Acesso em 4 ago. 2017.

ESPOSITO, A., 2016, Perspectivas para o setor elétrico brasileiro nos

próximos 15 anos. BNDES, Rio de Janeiro, Mimeo.

ETAPRO. Disponível em <https://www.gpstrategies.com/solution/performance-

condition-monitoring-etapro. Acesso em 14 jun. 2017.

FORBES, 2015, “Betting on Big Data”. Forbes Insights. Disponível em <

https://images.forbes.com/forbesinsights/StudyPDFs/Teradata-BettingOnBigData-

REPORT.pdf>. Acesso em 20 jul. 2017.

Page 73: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

64

FORRESTER, 2015. “Digital Transformation In The Age Of The Customer”.

Forrester Research, Inc. Disponível em <https://www.accenture.com/_

acnmedia/Accenture/Conversion-Assets/DotCom/Documents/Global/PDF/Digital_2/

Accenture-Digital-Transformation-In-The-Age-Of-The-Customer.pdf>. Acesso em 16 jul.

2017.

GIL, A. C., 2008, Métodos e técnicas de pesquisa social. 6 ed. São Paulo,

Atlas.

GIL, A. C., 2010, Como elaborar projetos de pesquisa. 5 ed. São Paulo, Atlas.

HAN, J.; KAMBER, M., Data Mining – Concepts and Techniques. 2 ed.

Waltham, Morgan Kaufmann.

HANDSCHIN, M., 2016, “Tableau Software for Data Visualization and

Analytics in Finance”. Disponível em <https://www.linkedin.com/pulse/tableau-

software-data-visualization-analytics-user-marina-handschin>. Acesso em 4 ago. 2017.

HINCHCLIFFE, D., 2016, “The digital transformation conversation shifts to

how”. Enterprise Web 2.0. Disponível em <http://www.zdnet.com/article/the-digital-

transformation-conversation-shifts-to-how/>.

IMPORT, 2017, “All the Best Big Data Tools and How to Use Them”.

Disponível em <https://www.import.io/post/best-big-data-tools-use/>. Acesso em 20 jul

2017.

INFORMATICA, 2016, “The State of Cloud Analytics 2016”. EMA, Deloitte &

Informatica. Disponível em <https://www.informatica.com/lp/the-state-of-cloud-

analytics-2016.html>. Acesso em 01 ago. 2017.

KANE, G. C., PALMER, D., PHILLIPS, A. N. et al, 2015, “Strategy, Not

Technology, Drives Digital Transformation”. MIT Sloan Management Review,

Deloitte University Press. Disponível em <http://sloanreview.mit.edu/projects/strategy-

drives-digital-transformation/>. Acesso em 15 jul. 2017.

KIMBALL, R., ROSS, M., 2013, “The Data Warehouse Toolkit: the definitive

guide to dimensional modeling”. 3 ed. Indianapolis, John Wiley & Sons.

Page 74: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

65

LARSON, B., 2006, “Delivering Business Intelligence with MS SQL Server

2005”. 1 ed. Emeryville, McGraw-Hill.

LIBERT, B.; BECK, M.; WIND, Y., 2016, “How to Navigate a Digital

Transformation”. Haward Business Review. Disponível em

<https://hbr.org/2016/06/how-to-navigate-a-digital-transformation>; Acesso em 14 jul.

2017.

LINDEN, A., 2002, “Management Update: Data Mining Trends Enterprises

Should Know About”. Gartner Group. Disponível em

<http://www.bus.umich.edu/KresgePublic/Journals/Gartner/research/110600/110617/1

10617.pdf>. Acesso em 20 jul. 2017.

LOPEZ, J., 2016, “Building and Expanding a Digital Business Primer”.

Gartner Group. Disponível em <https://www.gartner.com/doc/3267726/building-

expanding-digital-business-primer>. Acesso em 16 jul 2017.

MCKINSEY, 2015, “The Internet of Things: Mapping the Value Beyond the

Hype". Disponível em

<http://www.mckinsey.com/insights/business_technology/the_internet_of_things_the_v

alue_of_digitizing_the_physical_world>. Acesso em 28/08/2017.

MIDDLETON, P., KOSLOWSKI, T., MCINTYRE, A., 2014, “Forecast Analysis:

Internet of Things, Endpoints and Associated Services, Worldwide, 2014 Update”.

Gartner Group. Disponível em <https://www.gartner.com/doc/2932021/forecast-

analysis-internet-things-endpoints>. Acesso em 17 jul. 2017.

MIKROYANNIDIS, A.; THEODOULIDIS, B., 2010, “Ontology management and

evolution for business intelligence”. International Journal of Information

Management, v. 30, n. 6 (Dez), pp. 559-566.

NOGARE, D., ZAVASCHI, T., 2016, Análise Preditiva com Azure Machine

Learning e R. São Paulo, B2U Editora.

NIU, G., YANG, B., PECHT, M., 2010, “Development of an Optimized Condition-

Based Maintenance System by Data Fusion Reliability-Centered Maintenance”.

Reliability Engineering and System Safety, v. 95, n.7 (Jul), pp. 786-796.

Page 75: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

66

OLAVSRUD, T., 2015, “How to succeed at Digital Transformation”. The IDG

Contributor Network. Disponível em <http://www.cio.com/article/2998643/cio-role/how-

to-succeed-at-digital-transformation.html>. Acesso em 16 jul 2017.

ONS – Operador Nacional do Sistema Elétrico. Disponível em

<http://www.ons.org.br>. Acesso em 14 jun. 2017.

OTANI, M.; MACHADO, W. V., 2008, “A proposta de desenvolvimento de gestão

da manutenção industrial na busca da excelência ou classe mundial”. Revista Gestão

Industrial, v. 4, n.2 (Abr/Jun), pp. 1-16.

PEREIRA, A. P. G.; PUGA, F. P., 2016, “Infraestrutura no Brasil: ajustando o

foco”. Banco Nacional de Desenvolvimento Econômico e Social. Disponível em

<https://web.bndes.gov.br/bib/jspui/bitstream/1408/9914/1/TD_Infraestrutura__2016.pd

f>. Acesso em 02 ago. 2017.

PERERA, S., ALWIS, R., 2017, “Machine Learning Techniques for Predictive

Maintenance”. Disponível em <https://www.infoq.com/articles/machine-learning-

techniques-predictive-maintenance>. Acesso em 28 ago. 2017.

PETROBRAS – PETROLEO BRASILEIRO S.A.. Disponível em

<www.petrobras.com.br>. Acesso em 14 jun. 2017.

RAINARDI, V., 2008, Building a Data Warehouse – with examples in SQL

Server. 1ed. New York, Springer-Verlag.

SALLAM, R. L.; HOWSON, C.; IDOINE, C. J. et al, 2017, “Magic Quadrant for

Business Intelligence Analytics”. Gartner Group. Disponível em

<https://www.gartner.com/doc/3611117/magic-quadrant-business-intelligence-

analytics>. Acesso em 4 ago. 2017.

SCHWAB, K., 2016, “The Fourth Industrial Revolution: what it means, how

to respond”, World Economic Forum. Disponível em

<https://www.weforum.org/agenda/2016/01/the-fourth-industrial-revolution-what-it-

means-and-how-to-respond/>; Acesso em 14 jul. 2017.

SIMON, P., 2013, Too Big to Ignore: The Business Case for Big Data. 1ed.

Hoboken, Wiley.

Page 76: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

67

SLACK, N.; CHAMBERS, S.; JOHNSTON, R., 2009, Administração da

Produção. 3 ed. São Paulo, Atlas.

SOUZA, Q., 2008, Metodologia e Desenvolvimento de um Sistema de

Manutenção Preditiva Visando à Melhoria da Confiabilidade de Ativos de Usinas

Hidrelétricas. Dissertação de M.Sc., Sistemas Mecatrônicos/UnB, Brasília, DF, Brasil.

SUMATHI, S., SIVANANDAM, S. N., 2006, Introduction to Data Mining and its

Appications, Berlin, Springer-Verlag, p. 400-403.

THEARLING, K., 2009, “An Introduction to Data Mining: Discovering hidden

value in your data warehouse”. Disponível em

<http://www.thearling.com/text/dmwhite/dmwhite.htm/>. Acesso em 19 jul 2017.

THOMPSON, W. J. J.; VAN DER WALT, J. S., 2010, “Business intelligence in

the cloud”. South Africa Journal of Information Management, v. 12, n. 1 (Dec), pp. 445-

450.

TOLMASQUIM, M. T., 2016, Energia Termelétrica: Gás Natural, Biomassa,

Carvão, Nuclear. 1 ed. Rio de Janeiro, EPE.

TURBAN, E.; SHARDA, R.; ARONSON, J. et al, 2009. Business Intelligence:

Um enfoque gerencial para a inteligência do negócio. 1 ed. Porto Alegre, Bookman.

UZ, F. B., 2017, “Guia Estratégico do Modelo de Solução do Cortana

Intelligence para a manutenção preditiva no setor aeroespacial e outras

indústrias”. Disponível em <https://docs.microsoft.com/pt-br/azure/machine-

learning/cortana-analytics-playbook-predictive-maintenance>. Acesso em 28 ago. 2017.

VERGARA, S. C., 2009, Projetos e relatórios de pesquisa em administração.

10 ed. São Paulo, Atlas.

VIANA, H. R. G., 2002, PCM - Planejamento e controle da manutenção. 1 ed.

Rio de Janeiro, Qualitymark.

WANG, J., 2008, Data WareHousing and Mining: Concepts, Methodologies,

Tools and Applications,Vol. 1. 1ed. Hershey, IGI Global.

WOODS, V., 2015, “Gartner Says It's Not Just About Big Data; It's What You

Do With It: Welcome to the Algorithmic Economy”. Gartner Group. Disponível em <

http://www.gartner.com/newsroom/id/3142917>. Acesso em 5 ago. 2017.

Page 77: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

68

WU, L.; ALTO, P., BARASH, G. et. al, 2007, "A Service-oriented Architecture

for Business Intelligence". In: IEEE International Conference on Service-Oriented

Computing and Applications (SOCA), pp. 279-285.

Page 78: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

69

8. ANEXOS

ANEXO A – Data Mining como um passo no processo de descobrimento do

conhecimento (Traduzido de Data Mining – Concepts and Techniques) 2 ed. p6.

Page 79: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

70

ANEXO B – Funcionamento de uma usina termelétrica (ciclo combinado)

Fonte: Disponível em

<http://www.furnas.com.br/hotsites/sistemafurnas/magnify.asp?p=imagens/usina_term_comb.jpg&c>.

Acesso em 01 ago. 2017.

Page 80: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

71

9. APÊNDICE

Apêndice A – Listagem das Usinas Termoelétricas da PETROBRAS

Apêndice B – Visão de ciência dos alertas, com descrições e medições das

usinas

Page 81: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

72

Apêndice C – Aspectos monitorados da turbina de gás no EtaPRO

Apêndice D – Alarme para nível de pressão

Page 82: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

73

Apêndice E – Open Predictor: Mapa Geográfico

Page 83: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

74

Apêndice F – Open Predictor – Geração e Temperatura das Usinas

Apêndice G – Open Predictor

Page 84: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

75

Apêndice H – Open Predictor – Gráfico de RPM com limites de alerta e alarme

Page 85: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

76

Apêndice I – Fatores monitorados em Turbina de Gás

Apêndice J – Relatório de Confiabilidade da Disponibilidade das Máquinas

Usinas Termoelétricas

Page 86: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

77

Apêndice K – Relatório de downtime em máquina específica

Apêndice L – Gerenciamento de Alarmes

Page 87: O USO DE MACHINE LEARNING NA IMPLEMENTAÇÃO DE …monografias.poli.ufrj.br/monografias/monopoli10021732.pdf · REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE

78

APÊNDICE M – Proposta de Modelo de Manutenção Preditiva