Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de...

105
UNIVERSIDADE DO RIO GRANDE DO NORTE FEDERAL UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO Análise de Desempenho de Abordagens Orientadas a Fluxo de Dados Aplicadas à Detecção de Falhas de Processos Industriais Amanda Lucena Germano Orientador: Prof. Dr. Luiz Affonso Henderson Guedes de Oliveira Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Mestre em Ciências. Número de ordem PPgEEC: M501 Natal, RN, julho de 2017

Transcript of Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de...

Page 1: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE TECNOLOGIA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E

DE COMPUTAÇÃO

Análise de Desempenho de AbordagensOrientadas a Fluxo de Dados Aplicadas à

Detecção de Falhas de Processos Industriais

Amanda Lucena Germano

Orientador: Prof. Dr. Luiz Affonso Henderson Guedes de Oliveira

Dissertação de Mestrado apresentada aoPrograma de Pós-Graduação em EngenhariaElétrica e de Computação da UFRN (área deconcentração: Engenharia de Computação)como parte dos requisitos para obtenção dotítulo de Mestre em Ciências.

Número de ordem PPgEEC: M501Natal, RN, julho de 2017

Page 2: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Germano, Amanda Lucena. Análise de desempenho de abordagens orientadas a fluxo dedados aplicadas à detecção de falhas de processos industriais /Amanda Lucena Germano. - 2017. 103 f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grandedo Norte, Centro de Tecnologia, Programa de Pós-Graduação emEngenharia Elétrica e de Computação. Natal, RN, 2017. Orientador: Prof. Dr. Luiz Affonso Henderson Guedes deOliveira.

1. Detecção de falhas - Dissertação. 2. Fluxo de dados -Dissertação. 3. TEDA - Dissertação. 4. RDE - Dissertação. 5. R-PCA - Dissertação. I. Oliveira, Luiz Affonso Henderson Guedesde. II. Título.

RN/UF/BCZM CDU 681.5.09

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

Page 3: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 4: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 5: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Resumo

Com a necessidade do aumento da qualidade dos produtos e do desempenho dos pro-cessos, o grau de automação cresceu bastante nas indústrias. Com isso, os sistemas estãocada vez mais complexos e vêm acompanhados por problemas difíceis de resolver devidoà alta dimensionalidade desses sistemas e do grande volume do fluxo de informações ne-cessárias, além da aleatoriedade de falhas e defeitos. Uma falha inesperada pode levar ariscos operacionais, por isso a importância de detectar e localizar a falha, principalmentequando a planta industrial ainda está operando em uma região controlável e é possívelagir para trazer o processo de volta para o estado normal, seguro e operacional. Assim, édesejável que o sistema de detecção de falhas forneça respostas rápidas e confiáveis comum esforço computacional adequado para processamento em tempo real, mesmo necessi-tando tratar com grandes quantidades de dados. Para trabalhar com grandes quantidadesde dados em tempo real, surgiu o modelo de fluxo de dados, que consiste de uma sequên-cia ordenada de pontos que só podem ser lidos apenas uma ou algumas poucas vezes. Essaárea cresceu bastante nos últimos anos, principalmente devido a grande quantidade de sis-temas que precisavam tratar com dados desse tipo, que incluem desde dados do mercadofinanceiro, registros telefônicos, transações web a dados médicos, redes de sensores oumesmo dados multimídia. Diante da relevância do tema de detecção de falhas, nessa teseforam utilizados o TEDA (Typicality and Eccentricity Data Analytics), o RDE (RecursiveDensity Estimation) e o R-PCA (Recursive Principal Component Analysis) como ferra-mentas para detecção de falhas em processos industriais. Para a análise do desempenhode cada uma dessas abordagens foi utilizado o clássico benchmark Tennessee EastmanProcess.

Palavras-chave: Detecção de falhas, fluxo de dados, TEDA, RDE,R-PCA.

Page 6: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 7: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Abstract

In order to increase product quality and process performance, the degree of automationhas grown significantly in industries. As a result, systems are increasingly complex andare accompanied by problems that are difficult to solve due to the high dimensionalityof these systems and the large amount of information flow, as well as the randomness offaults and defects. An unexpected failure can lead to operational risks, so the importanceof detecting and locating the fault, especially when the industrial plant is still operating ina controllable region and it is possible to act to bring the process back to normal, safe andoperational. Thus, it is desirable for the fault detection system to provide fast and reliableresponses with a computational effort appropriate for real-time processing, even though itrequires handling large amounts of data. In this context, data stream-oriented algorithmsto outlier detection may be promising candidates for fault detection of industrial process,because they work with sequences of temporarily ordered samples. In addition, theyhandle well with large amount of data because they are recursive and online algorithmsthat do not need to store past samples. Thus, in this dissertation two algorithms of thisclass are analyzed, named TEDA (Typicality and Eccentricity Data Analytics) and RDE(Recursive Density Estimation), when applied to fault detection of industrial processes.Their performances are compared to R-PCA (Recursive Principal Component Analysis)algorithm. The classic Tennessee Eastman Process benchmark was used as case study toevaluate these algorithms.

Keywords: Fault detection, data strems, TEDA, RDE, R-PCA.

Page 8: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 9: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas vii

Lista de Símbolos e Abreviaturas ix

1 Introdução 11.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Organização e Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . 4

2 Aporte Teórico 52.1 Detecção de Falhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Falhas, Erros e Defeitos . . . . . . . . . . . . . . . . . . . . . . 52.1.2 Tipos de falhas . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.3 Características desejáveis na detecção de falhas . . . . . . . . . . 82.1.4 Etapas do processo de detecção de falhas . . . . . . . . . . . . . 92.1.5 Métodos de Detecção de Falhas . . . . . . . . . . . . . . . . . . 9

2.2 Fluxo de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.1 Desafios em fluxo de dados . . . . . . . . . . . . . . . . . . . . . 132.2.2 Tipos de fluxos de dados . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Estado da arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Proposta 173.1 RDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.1 Detecção de falhas utilizando RDE . . . . . . . . . . . . . . . . 193.2 TEDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.1 Detecção de falhas utilizando TEDA . . . . . . . . . . . . . . . . 223.3 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.4 RPCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4.1 Detecção de falhas utilizando RPCA . . . . . . . . . . . . . . . . 26

4 Experimentos e Resultados 294.1 Tennessee Eastman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.2 Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

i

Page 10: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Conclusão 495.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2 Publicações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Referências bibliográficas 51

A Informações adicionais 55

Page 11: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Lista de Figuras

1.1 Automação de processos industriais. . . . . . . . . . . . . . . . . . . . . 2

2.1 Falha, Erro e Defeito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Tipos de falha segundo Venkatasubramanian. . . . . . . . . . . . . . . . 72.3 Tipos de falha segundo Isermann. . . . . . . . . . . . . . . . . . . . . . 82.4 Transformações no processo de detecção de falhas. . . . . . . . . . . . . 92.5 Classificações dos métodos de detecção segundo Venkatasubramanian . . 102.6 Detecção de falhas baseada em modelos de processo . . . . . . . . . . . 112.7 Detecção de falhas baseada em modelo dos sinais . . . . . . . . . . . . . 112.8 Classificação dos métodos de detecção de falhas por Isermann . . . . . . 112.9 Pirâmide do conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . 122.10 Diagrama de fluxo de dados . . . . . . . . . . . . . . . . . . . . . . . . 13

4.1 O processo Tennessee Eastman. Fonte:Yin et al. (2012). . . . . . . . . . 304.2 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3 Variáveis da Falha 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.4 Resultado do RPCA para a Falha 1. . . . . . . . . . . . . . . . . . . . . 394.5 Exentricidade normalizada para a Falha 1. . . . . . . . . . . . . . . . . . 404.6 Resultado do TEDA para a Falha 1. . . . . . . . . . . . . . . . . . . . . 404.7 Resultado do TEDA com seleção de variáveis para a Falha 1. . . . . . . . 414.8 Resultado do RDE para a Falha 1. . . . . . . . . . . . . . . . . . . . . . 414.9 Variáveis da Falha 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.10 Resultados do RPCA para a falha 3. . . . . . . . . . . . . . . . . . . . . 424.11 Excentricidade normalizada para a falha 3. . . . . . . . . . . . . . . . . . 434.12 Resultado do TEDA para a Falha 3. . . . . . . . . . . . . . . . . . . . . 434.13 Resultado do TEDA com seleção de variáveis para a Falha 3. . . . . . . . 444.14 Resultados do RDE para a falha 3. . . . . . . . . . . . . . . . . . . . . . 444.15 Variáveis da Falha 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.16 Resultado do RPCA para a Falha 6. . . . . . . . . . . . . . . . . . . . . 464.17 Excentricidade normalizada para a Falha 6. . . . . . . . . . . . . . . . . 464.18 Resultado do TEDA para a Falha 6. . . . . . . . . . . . . . . . . . . . . 474.19 Resultado do TEDA com seleção de variáveis para a Falha 6. . . . . . . . 474.20 Resultado do RDE para a Falha 6. . . . . . . . . . . . . . . . . . . . . . 48

A.1 Variáveis falha 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56A.2 Resultados do RDE para a falha 2. . . . . . . . . . . . . . . . . . . . . . 56A.3 Excentricidade normalizada para a falha 2. . . . . . . . . . . . . . . . . . 57

iii

Page 12: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

A.4 Resultados do TEDA para a falha 2. . . . . . . . . . . . . . . . . . . . . 57A.5 Resultados do TEDA para a falha 2 com seleção de variáveis. . . . . . . . 58A.6 Resultados do RPCA para a falha 2. . . . . . . . . . . . . . . . . . . . . 58A.7 Variáveis falha 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59A.8 Resultados do RDE para a falha 4. . . . . . . . . . . . . . . . . . . . . . 59A.9 Excentricidade normalizada para a falha 4. . . . . . . . . . . . . . . . . . 60A.10 Resultados do TEDA para a falha 4. . . . . . . . . . . . . . . . . . . . . 60A.11 Resultados do TEDA para a falha 4 com seleção de variáveis. . . . . . . . 61A.12 Resultados do RPCA para a falha 4. . . . . . . . . . . . . . . . . . . . . 61A.13 Variáveis falha 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62A.14 Resultados do RDE para a falha 5. . . . . . . . . . . . . . . . . . . . . . 62A.15 Excentricidade normalizada para a falha 5. . . . . . . . . . . . . . . . . . 63A.16 Resultados do TEDA para a falha 5. . . . . . . . . . . . . . . . . . . . . 63A.17 Resultados do TEDA para a falha 5 com seleção de variáveis. . . . . . . . 64A.18 Resultados do RPCA para a falha 5. . . . . . . . . . . . . . . . . . . . . 64A.19 Variáveis falha 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65A.20 Resultados do RDE para a falha 7. . . . . . . . . . . . . . . . . . . . . . 65A.21 Excentricidade normalizada para a falha 7. . . . . . . . . . . . . . . . . . 66A.22 Resultados do TEDA para a falha 7. . . . . . . . . . . . . . . . . . . . . 66A.23 Resultados do TEDA para a falha 7 com seleção de variáveis. . . . . . . . 67A.24 Resultados do RPCA para a falha 7. . . . . . . . . . . . . . . . . . . . . 68A.25 Variáveis falha 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68A.26 Resultados do RDE para a falha 8. . . . . . . . . . . . . . . . . . . . . . 69A.27 Excentricidade normalizada para a falha 8. . . . . . . . . . . . . . . . . . 69A.28 Resultados do TEDA para a falha 8. . . . . . . . . . . . . . . . . . . . . 70A.29 Resultados do TEDA para a falha 8 com seleção de variáveis. . . . . . . . 70A.30 Resultados do RPCA para a falha 8. . . . . . . . . . . . . . . . . . . . . 71A.31 Variáveis falha 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71A.32 Resultados do RDE para a falha 9. . . . . . . . . . . . . . . . . . . . . . 72A.33 Excentricidade normalizada para a falha 9. . . . . . . . . . . . . . . . . . 72A.34 Resultados do TEDA para a falha 9. . . . . . . . . . . . . . . . . . . . . 73A.35 Resultados do TEDA para a falha 9 com seleção de variáveis. . . . . . . . 74A.36 Resultados do RPCA para a falha 9. . . . . . . . . . . . . . . . . . . . . 74A.37 Variáveis falha 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75A.38 Resultados do RDE para a falha 10. . . . . . . . . . . . . . . . . . . . . 75A.39 Excentricidade normalizada para a falha 10. . . . . . . . . . . . . . . . . 76A.40 Resultados do TEDA para a falha 10. . . . . . . . . . . . . . . . . . . . . 76A.41 Resultados do TEDA para a falha 10 com seleção de variáveis. . . . . . . 77A.42 Resultados do RPCA para a falha 10. . . . . . . . . . . . . . . . . . . . . 77A.43 Variáveis falha 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78A.44 Resultados do RDE para a falha 11. . . . . . . . . . . . . . . . . . . . . 78A.45 Excentricidade normalizada para a falha 11. . . . . . . . . . . . . . . . . 79A.46 Resultados do TEDA para a falha 11. . . . . . . . . . . . . . . . . . . . . 79A.47 Resultados do TEDA para a falha 11 com seleção de variáveis. . . . . . . 80

Page 13: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

A.48 Resultados do RPCA para a falha 11. . . . . . . . . . . . . . . . . . . . . 81A.49 Variáveis falha 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81A.50 Resultados do RDE para a falha 12. . . . . . . . . . . . . . . . . . . . . 82A.51 Excentricidade normalizada para a falha 12. . . . . . . . . . . . . . . . . 82A.52 Resultados do TEDA para a falha 12. . . . . . . . . . . . . . . . . . . . . 83A.53 Resultados do TEDA para a falha 12 com seleção de variáveis. . . . . . . 83A.54 Resultados do RPCA para a falha 12. . . . . . . . . . . . . . . . . . . . . 84A.55 Variáveis falha 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84A.56 Resultados do RDE para a falha 13. . . . . . . . . . . . . . . . . . . . . 85A.57 Excentricidade normalizada para a falha 13. . . . . . . . . . . . . . . . . 85A.58 Resultados do TEDA para a falha 13. . . . . . . . . . . . . . . . . . . . . 86A.59 Resultados do TEDA para a falha 13 com seleção de variáveis. . . . . . . 86A.60 Resultados do RPCA para a falha 13. . . . . . . . . . . . . . . . . . . . . 87

Page 14: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 15: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Lista de Tabelas

4.1 Tipos de falhas do processo Tennessee Eastman . . . . . . . . . . . . . . 314.2 Variáveis manipulados do Tennessee Eastman . . . . . . . . . . . . . . . 314.3 Variáveis de processo do Tennessee Eastman . . . . . . . . . . . . . . . . 324.4 Resultados - Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.5 Resultados - Especificidade . . . . . . . . . . . . . . . . . . . . . . . . . 364.6 Resultados - Sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . 37

vii

Page 16: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 17: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Lista de Símbolos e Abreviaturas

AEM Abnormal Event Management

DSMS Data Stream Management System

FDD Fault Detection and Diagnosis

MVA Multivariate Analysis

PCA Principal Component Analysis

RDE Recursive Density Estimation

RPCA Recursive Principal Component Analysis

SPE Squared Prediction Error

TE Tennessee Eastman

TEDA Typicality and Eccentricity Data Analytics

UCL Upper Control Limit

ix

Page 18: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada
Page 19: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Capítulo 1

Introdução

O conceito de automação foi instituído nos Estados Unidos apenas em 1946, nas fábri-cas automotivas e, atualmente, o termo significa qualquer sistema que utilize máquinas eque substitua o trabalho humano com o objetivo, por exemplo, de aumentar a velocidade ea qualidade dos processos produtivos, a segurança dos funcionários, além de obter maiorcontrole, planejamento e flexibilidade da produção (Venceslau 2013). A partir de meadosda década de 1960, a influência da automação cresceu progressivamente nos processosindustriais até que, por volta de 1975, a disponibilidade de microcomputadores relati-vamente baratos e confiáveis, capazes de resolver muitos dos problemas de automação,gerou um drástico crescimento do grau de automação nas indústrias (Isermann 2006).

A automação de processos industriais pode ser dividida em três partes principais, con-forme ilustrada na Figura 1.1. O nível inferior contempla as estratégias de controle –sequencial, por realimentação e feedforward –; o nível intermediário abrange os sistemasde supervisão; e o nível superior é composto de atividades de coordenação, otimização emanutenção (Isermann 2006).

Com o progresso nas áreas de controle digital e sistemas dinâmicos, muitos dos pro-cessos com comportamento complexo agora podiam ser controlados. Com isso, muitasdas variáveis dos processos industriais modernos passaram a ser operadas com controleem malha fechada, cujos controladores foram projetados para manter as operações satisfa-tórias, compensando distúrbios e mudanças nos processos. No entanto, existem mudançasque os controladores não conseguem lidar adequadamente, como é o caso de falhas. Umafalha consiste em um desvio não permitido de pelo menos uma propriedade característicado sistema de seu comportamento aceitável, usual ou da condição padrão; uma condi-ção anormal que pode causar redução ou perda da capacidade de uma unidade funcionaldesempenhar a função designada (Chiang et al. 2001).

Uma falha inesperada pode ignorar as estratégias operacionais construídas com cui-dado. A tarefa de responder a esses eventos é uma tarefa muito importante na gestãode processos e envolve a detecção em tempo real de um evento anormal, diagnosticandosuas origens causais, seguido da tomada de decisões de controle adequadas e ações paratrazer o processo de volta para o estado normal, seguro e operacional. Ainda hoje, grandeparte dessa atividade é manual, realizada por operadores humanos (Venkatasubramanianet al. 2003).

Neste contexto, surgiu-se a área de detecção e diagnóstico de falhas (do inglês, Fault

Page 20: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

2 CAPÍTULO 1. INTRODUÇÃO

Figura 1.1: Automação de processos industriais.

Detection and Diagnosis - FDD). O objetivo da detecção de falhas é determinar e sina-lizar se há uma falha em algum lugar do sistema. O diagnóstico de falhas visa fornecerinformações mais específicas sobre a falha; o isolamento de falhas é identificar os com-ponentes (sensores, atuadores ou componentes da planta) onde a falha está localizada,enquanto a identificação de falhas é determinar (estimar) o tamanho da falha e, em algunscasos, o tempo de chegada (Gertler 2013).

As abordagens mais simples de FDD consistem em comparar os valores medidos paracada variável da planta com os limites pré-estabelecidos, sem utilizar qualquer conhe-cimento do modelo da planta (verificação de limiares). Esse método era suficiente emmuitos casos para previnir defeitos e danos graves ao sistema, mas não conseguia detec-tar as falhas rapidamente e geralmente não possibilitava um diagnóstico detalhado dasfalhas (Isermann 2006). Técnicas mais sofisticadas dependem de um modelo matemá-tico explícito da planta, elas comparam as medidas da planta com as estimativas obtidaspelo modelo; qualquer discrepância pode ser uma indicação de falha. Outra classe detécnicas (geralmente denominada "orientadas a dados"(do inglês, data driven)), princi-palmente a análise de componentes principais (do inglês, Principal Component Analysis- PCA), incluem a estimativa de um modelo implícito, a partir de dados empíricos daplanta e, em seguida, utiliza isso de maneira semelhante aos métodos baseados em mo-delo (Gertler 2013). Portanto, a detecção de falhas se torna um problema importanteem engenharia, sendo o componente central de gerenciamento de eventos anormais (doinglês, Abnormal Event Management - AEM).

Page 21: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

1.1. MOTIVAÇÃO 3

1.1 Motivação

São muitos os sistemas de engenharia que exigem segurança crítica, que vão desdemotores aéreos, dinâmicas de veículos, processos químicos, sistemas/equipamentos in-dustriais até sistemas elétricos e de energia. Existe uma demanda cada vez maior deconfiabilidade e segurança de sistemas industriais sujeitos a possíveis anormalidades deprocesso e falhas de componentes (Gao et al. 2015).

A detecção precoce de falhas em processos, enquanto a planta ainda está operando emuma região controlável, pode ajudar a evitar a progressão do evento anormal e reduzir aperda de produtividade. Tais tipos de perdas são estimadas em até 20 bilhões de dólarespor ano apenas nas indústrias petroquímicas (Venkatasubramanian et al. 2003). Dependerapenas dos operadores humanos para lidar com eventos e emergências anormais é difícildevido ao amplo escopo da atividade de diagnóstico e pelo tamanho e complexidade dasplantas de processos modernas. Por exemplo, em uma grande planta de processo, podehaver mais de 1.500 variáveis de processo observadas a cada poucos segundos, que levamà sobrecarga de informações (Bailey 1984).

Dadas essas difíceis condições, não deve ser nenhuma surpresa que os operadoreshumanos tendam a tomar decisões inadequadas e que tornam as mais frágil a operaçãodo processo, como relatado na literatura. De fato, pesquisas estatísticas em indústriasindicam que cerca de 70% dos acidentes de trabalho são causados por erros humanos(Venkatasubramanian et al. 2003).

São diversos os relatos de acidentes de grandes proporções causados por diversas fa-lhas nos processos industriais. Entre eles podemos citar o que ocorreu em dezembro de1984, na cidade de Bhopal (Índia), onde o aumento de pressão em um tanque levou àruptura de uma válvula de segurança em uma planta industrial da Union Carbide. Comisso, uma reação exotérmica desencadeada pela entrada de água no tanque fez com quefossem liberados 41 toneladas de gás tóxico, matando cerca de 2000 pessoas no momentodo acidente e outras milhares mais tarde, devido aos efeitos colaterais (de Sá Feital 2011).

Um outro acidente, ocorreu da plataforma P-36 da PETROBRAS no ano de 2001,onde 2 explosões e o consequente naufrágio da plataforma resultou na morte dos 11 funci-onários da equipe de emergência da plataforma, além da poluição ambiental e um prejuízofinanceiro de cerca de cinco bilhões de dólares (Venkatasubramanian 2003a). Segundo orelatório da ANP(Agência Nacional do Petróleo, Gás Natural e Biocombustíveis), dentreos erros de operação, manutenção e projeto que estão relacionados com o acidente, está anecessidade de ser utilizados dispositivos de detecção e contenção de gás (Grabois 2001,online).

Em abril de 2010, no Golfo do México (Estados Unidos), uma plataforma da BP (Bri-tish Petroleum) foi responsável por um dos maiores vazamentos de óleo da história: cercade cinco milhões de barris de óleo vazaram durante 86 dias. Diversas falhas em série,como o aumento anormal da pressão, ruptura da sonda marinha e liberação e combustãode metano em alta pressão, foram apontadas como as causas que levaram as explosões.Ao todo foram 11 mortes, 17 feridos e 4 estados americanos atingidos (de Sá Feital 2011).Além disso, existem muitos acidentes menores que as indústrias acabam por encobrir osfatos reais, fazendo com que os mesmos problemas perdurem por ainda mais tempo. Rela-

Page 22: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4 CAPÍTULO 1. INTRODUÇÃO

tos sobre outros acidentes industriais podem ser vistos nos trabalhos de Koteswara Reddy& Yarakula (2016) e Abdolhamidzadeh et al. (2011). Com isso, podemos concluir que anecessidade da automação do processo de detecção e diagnóstico de falhas é um pontocrucial da indústria e disponibilizar ferramentas que auxiliem os operadores humanos natarefa de responder a eventos anormais deve ser extremamente útil.

1.2 ObjetivoDiante da importância da área, são diversos os métodos de detecção de falhas já de-

senvolvidos. O objetivo principal desta dissertação é o estudo comparativo de desem-penho de técnicas de detecção de outliers em fluxos de dados aplicadas no contexto dedetecção de falhas em processos industriais. Mais especificamente, as técnicas investiga-das nesse estudo foram: TEDA (Typicality Eccentricity Data Analytics), RDE (RecursiveDensity Estimation) e R-PCA (Recursive Principal Components Analysis). Essas técni-cas foram avaliadas quanto a acurrácia e precisão, que estão relacionadas com taxas defalsos-positivos e falsos-negativos. Os resultados foram obtidos utilizando-se cenários defalhas no benckmark Tennessee Eastman Process.

1.3 Organização e Estrutura do TextoO presente capítulo expõe os fundamentos e a relevância desta pesquisa. No Capítulo

2 é apresentado o aporte teórico básico referente à tarefa de detecção de falhas, abordandoos principais aspectos que devem ser considerados quando se trabalha nessa área. Alémdisso, são discutidas as características e principais considerações do modelo de fluxo dedados (do inglês, data stream) para as relações de dados, já que esse modelo foi utilizadopelas técnicas abordadas nesta pesquisa. Os princípios do funcionamento e a formula-ção matemática dos algoritmos que foram utilizados no desenvolvimento da pesquisa sãoapresentados no Capítulo, bem como é feita uma revisão da literatura relacionada as abor-dagens utilizadas. No Capítulo 4 é abordado o benchmark utilizado como estudo de casoe a partir disso são apresentados os resultados obtidos e o estudo comparativo dos algo-ritmos descritos no capítulo anterior. Finalmente, o Capítulo 5 expõe as consideraçõesfinais deste trabalho e as contribuições dessa pesquisa para a área.

Page 23: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Capítulo 2

Aporte Teórico

2.1 Detecção de Falhas

Os sistemas técnicos que nos interessa monitorar e detectar falhas (também referidoscomo ’plantas’) vão desde sistemas de produção complexos (plantas químicas, refinariasde petróleo, estações de energias), passando pelos principais equipamentos de transporte(aviões, navios), até mesmo máquinas de consumo (automóveis, sistemas de aquecimentodoméstico, etc). À medida que esses sistemas se tornam mais complexos, a área de detec-ção e diagnóstico de falhas ganha importância para a segurança operacional, manutençãoe qualidade do produto. Considerando tais aspectos, esse capítulo procura introduzir osconceitos e terminologias básicos da área de detecção de falhas, bem como as etapas noprocesso de detecção e as classificações dos métodos de detecção, além de abordar ostipos mais comuns de falhas.

2.1.1 Falhas, Erros e Defeitos

Antes de conceituar os principais termos da área, é necessário fazer considerações arespeito da tradução utilizada para as expressões falha e defeito. Alguns autores costu-mam traduzir o termo failure como ’falha’ e o termo fault como ’falta’, no entanto, é maiscomum se referir a sistemas de controles tolerantes a ’falhas’ ao invés de sistemas decontrole tolerantes a ’faltas’ (Rebouças 2011). Dessa maneira, nesta dissertação o termofailure será traduzido como ’defeito’ e o termo fault como ’falha’.

As falhas são desvios não permitidos de pelo menos uma propriedade característica dosistema técnico de seu comportamento aceitável, usual ou da condição padrão; de modogeral, são condições anormais que podem causar redução ou perda da capacidade de umaunidade funcional para desempenhar a função que foi lhe designada. As falhas podemafetar várias partes do sistema técnico principal (motores, bombas, tanques de armaze-namento, tubulações) ou dispositivos que interagem com o sistema técnico principal comcomputadores que fornecem controle, monitoramento e informações do operador. Estesúltimos incluem sensores (dispositivos de medição) e atuadores (dispositivos que atuamno processo, como válvulas) (Gertler 2013).

Um erro, por sua vez, está relacionado com o estado do sistema e pode iniciar defeitos(Rebouças 2011). Já o termo defeito, é definido por Isermann (2006) como uma interrup-

Page 24: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

6 CAPÍTULO 2. APORTE TEÓRICO

ção permanente da capacidade do sistema de desempenhar a função designada sob certascondições de operação; são casos extremos de falhas. Na Figura 2.1 ilustra-se a relaçãoentre esses termos.

Figura 2.1: Falha, Erro e Defeito.

2.1.2 Tipos de falhasSegundo Venkatasubramanian et al. (2003), as falhas que podem ocorrer em um pro-

cesso industrial são classificadas de acordo com a sua localização, podendo ser:

1. Alterações abruptas nos parâmetros do modeloEm um modelo, existem processos acontecendo em níveis inferiores ao nível dedetalhe do modelo. Esses processos que não são modelados são utilizados comoparâmetros. Falhas de parâmetros surgem quando há um distúrbio proveniente doambiente que afeta o sistema por meio de uma ou mais variáveis exógenas (inde-pendentes), como, por exemplo, a alteração na concentração de um reagente.

2. Mudanças estruturaisSe referem às mudanças que ocorrem no próprio processo. Isso acontece devido adefeitos graves no equipamento, por exemplo, o vazamento em um tanque. Essecomportamento defeituoso resulta em alterações no fluxo de informações entre asdiversas variáveis. Para lidar com esse tipo de falha, em um sistema de diagnóstico,por exemplo, seria necessário a remoção das equações do modelo e reestruturar asoutras equações para descrever a situação atual do processo.

Page 25: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

2.1. DETECÇÃO DE FALHAS 7

3. Sensores e atuadores

Erros grosseiros geralmente ocorrem com atuadores e sensores. Isto poderia serdevido a um defeito fixo, uma tendência constante ou defeito inesperado. Algunsdos instrumentos fornecem sinais de retorno, que são essenciais para o controle daplanta. Uma falha em um dos instrumentos pode levar as variáveis de estado daplanta a um desvio além dos limites aceitáveis, a menos que a falha seja detectadaimediatamente e ações corretivas sejam realizadas a tempo. O propósito do diag-nóstico para detectar rapidamente qualquer falha do instrumento pode comprometerseriamente o desempenho do sistema de controle. As incertezas não estruturadas –ruídos do processo e da medição – são as principais falhas que não são modeladasa priori.

Essas falhas são ilustradas na Figura 2.2.

Figura 2.2: Tipos de falha segundo Venkatasubramanian.

Já segundo Isermann (2006), as falhas podem ser classificadas em:

1. Abruptas

Surgem repentinamente, podendo ser resultante de imprevistos ou até mesmo aci-dentes. Elas mudam o comportamento do processo rapidamente, o que exige açõeságeis e eficazes a fim de minimizar as consequências.

2. Incipientes

Page 26: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

8 CAPÍTULO 2. APORTE TEÓRICO

Surgem a partir de pequenos desvios do comportamento normal do sistema, po-dendo ser mascaradas pela ação dos controladores. Muitas vezes essas falhas pas-sam despercebidas pelos operadores ou até mesmo pelos sistemas de detecção ediagnóstico de falhas.

3. Intermitentes

São aquelas falhas que se interrompem por intervalos no tempo. Podem ser cau-sadas por alguma perturbação periódica ou por alguma situação cíclica, caracteri-zando um cenário de defeito.

Essas falhas são apresentadas na Figura 2.3.

Figura 2.3: Tipos de falha segundo Isermann.

2.1.3 Características desejáveis na detecção de falhas

Com base no trabalho de Venkatasubramanian et al. (2003), algumas das principaiscaracterísticas desejáveis para um sistema de detecção de falhas, são:

1. Detecção e diagnóstico rápido

O sistema de diagnóstico deve detectar e diagnosticar falhas no processo rapida-mente. No entanto, em geral, diagnóstico "rápido"de falhas e desempenho aceitáveldurante o modo de operação normal são objetivos conflitantes.

2. Robustez

O diagnóstico deve ser confiável mesmo quando existir a presença de ruídos oude incertezas. E quanto ao desempenho, este deve decair suavemente ao invés deter uma queda abrupta de confiabilidade diante presença de ruídos ou incertezas.(Venceslau 2013).

3. Adaptabilidade

Em geral, os processos mudam devido a entradas externas ou mudanças estruturais.O sistema de diagnóstico deve ser capaz de se adaptar às mudanças nas condiçõesde operação do processo. Essa característica se torna bastante importante para ossistemas de detecção de falhas, de modo a evitar falsos-positivos.

Page 27: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

2.1. DETECÇÃO DE FALHAS 9

2.1.4 Etapas do processo de detecção de falhasDurante o processo de detecção de falhas, várias transformações são feitas nos dados

do processo. No trabalho de Venkatasubramanian et al.(2003), essas transformações sãodivididas em 4 etapas, conforme ilustradas na Figura 2.4.

Figura 2.4: Transformações no processo de detecção de falhas.

A primeira etapa é chamada de espaço de medição, no qual é feita a medição das variá-veis do processo sem nenhum conhecimento prévio do problema relacionado com essasmedições. São esses valores que irão para a entrada do sistema de detecção de falhas. Naetapa seguinte, chamada de espaço de características, as variáveis são analisadas e com-binadas com a ajuda de um conhecimento prévio do processo para extrair informaçõesúteis sobre o comportamento do processo, auxiliando na detecção de falhas. No espaçode decisões é formado um conjunto de pontos d = [d1,d2, ...,dk] em que k é a quantidadede variáveis de decisão, obtidas por transformações do espaço de características. A últimaetapa é o espaço de classes, que consiste de um conjunto de inteiros c = [c1,c2, ...,cm],em que cada elemento se refere a uma classe diferente que o sistema pode diagnosticar(Venceslau 2013).

2.1.5 Métodos de Detecção de FalhasDada a abrangência do problema, várias técnicas foram desenvolvidas a fim de re-

solver o problema de detecção e diagnóstico de falhas de sistemas. Segundo Venkata-subramanian et al. (2003), os métodos de diagnóstico de falhas podem ser classificadosem três classes distintas: métodos quantitativos baseados em modelos, métodos quali-tativos baseados em modelos e métodos baseados em históricos. Essa classificação éapresentada na Figura 2.5. Os métodos baseados em modelos necessitam de um conhe-cimento sobre o processo analisado para o desenvolvimento do sistema. Esse conheci-mento pode ser expressado por meio de funções matemáticas que descrevem a relação

Page 28: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

10 CAPÍTULO 2. APORTE TEÓRICO

entre as entradas e as saídas do processo – modelos quantitativos – ou, pode ser expres-sado por funções qualitativas de diferentes unidades de um processo – modelos qualita-tivos – (Venceslau 2013). Os métodos que se baseiam em histórico fazem uso apenasde dados históricos das variáveis do processo, ao contrário dos métodos baseados emmodelo que fazem uso do conhecimento prévio do modelo fenomenológico do processo(Venkatasubramanian et al. 2003).

Figura 2.5: Classificações dos métodos de detecção segundo Venkatasubramanian

De maneira semelhante, Isermann (2006) classifica os métodos de detecção de fa-lhas em duas classes: métodos baseados nos modelos dos sinais e métodos baseados nosmodelos dos processos.

Os métodos baseados no modelo de processo usam as relações entre diversas variáveismensuradas para extrair informações de possíveis mudanças causadas por falhas. Essasrelações são principalmente relações analíticas em forma de equações do modelo do pro-cesso, mas pode ser também em forma de causalidades. Este modelo é apresentado naFigura 2.6.

Já os métodos baseados no modelo dos sinais utilizam sinais com partes periódicas ouestocásticos para verificar se as mudanças no modelo desses sinais são provenientes defalhas nos processos, como mostra a Figura 2.7.

A partir desses dois grupos principais, Isermann (2006) subdivide os métodos con-forme a Figura 2.8.

Nesta dissertação será investigado o desempenho de técnicas baseadas em dados. Maisespecificamente, técnicas de análise de dados multivariado com características recursivase on-line, que são usuais no contexto de fluxo de dados (data stream).

Page 29: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

2.1. DETECÇÃO DE FALHAS 11

Figura 2.6: Detecção de falhas baseada em modelos de processo

Figura 2.7: Detecção de falhas baseada em modelo dos sinais

Figura 2.8: Classificação dos métodos de detecção de falhas por Isermann

Page 30: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

12 CAPÍTULO 2. APORTE TEÓRICO

2.2 Fluxo de dadosOs dados são frequentemente vistos como o menor nível de abstração a partir do qual

a informação e o conhecimento são derivados. Os dados brutos referem-se a uma coleçãode números, caracteres, imagens ou outras saídas de dispositivos que coletam informaçõespara converter quantidades físicas em símbolos. A informação, por sua vez, é um dado noqual foi atribuído um "significado", podendo ser útil ou não. Dados que são processadospara serem úteis, fornecem respostas às perguntas de "quem", "o quê", "onde"e "quando".Já o conhecimento, é a coleta adequada de informações, de modo que a intenção é ser útil.Por fim, a sabedoria é a capacidade de aplicar de maneira otimizada (efetiva e eficiente)percepções e conhecimentos e, assim, produzir os resultados desejados. A sabedoriaé a compreensão do que é verdadeiro ou corretamente associado ao julgamento idealquanto à ação (Joseph 2011). Essa hierarquia informacional pode ser visualizada no que échamada de pirâmide do conhecimento ou pirâmide DIKW (do inglês, Data, Information,Knowledge, Wisdom) na Figura 2.9.

Figura 2.9: Pirâmide do conhecimento

Fluxo de dados (do inglês, data stream) é uma sequência ordenada de pontos x1; ...;xnque deve ser acessada em ordem e só pode ser lida poucas vezes (geralmente uma únicavez). Alguns conjuntos de dados, como estatísticas de pacotes de roteador, dados meteo-rológicos e dados de rede de sensores, são transitórios e não precisam ser armazenados emdisco, logo os dados devem ser processados à medida que são produzidos e descartadosassim que for possível, como ilustrado na Figura 2.10. Como o tamanho de tais conjuntosde dados ultrapassa em muito a quantidade de espaço (memória principal) disponível paraum algoritmo, não é possível que um algoritmo que processe este tipo de dado armazeneos dados digitalizados no passado (Guha et al. 2003).

Esta escassez de espaço requer o desenho de um novo tipo de algoritmo que arma-zena apenas um resumo de dados passados, deixando memória suficiente para o pro-cessamento de dados futuros. Com isso, surgiu a área intitulada mineração de fluxo dedados (do inglês, data stream mining) que consiste no processo de extração de estruturasde conhecimento representada por modelos e padrões do fluxo contínuo de informação(Joseph 2011). Essa área tem ganhado bastante atenção devido à importância de suasaplicações e o aumento na geração do fluxo de informação nos sistemas atuais.

Trabalhar com o modelo de fluxo de dados não impede que alguns dados sejam arma-zenados conforme as relações convencionais. Muitas vezes, as consultas de fluxo de dadospodem realizar junções entre fluxos de dados e dados relacionais armazenados. Assim,

Page 31: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

2.2. FLUXO DE DADOS 13

Figura 2.10: Diagrama de fluxo de dados

ao trabalhar com qualquer um desses tipos de modelos de dados é necessário conside-rar as restrições do ambiente para adotar a abordagem mais apropriada para o problema.Dessa maneira, as próximas sessões deste capítulo irão abordar os principais desafios aose trabalhar com esse modelo, bem como as estratégias que podem ser utilizadas.

2.2.1 Desafios em fluxo de dadosNo modelo de fluxo de dados, alguns ou todos os dados de entrada que devem ser

operados não estão disponíveis para acesso aleatório a partir de disco ou memória, massim chegam como um ou mais fluxos de dados contínuos (Babcock et al. 2002). Os fluxosde dados diferem do modelo de relação armazenada convencional de várias maneiras(Mohammed & Soliman 2010) (Babcock et al. 2002):

1. Os dados chegam como uma sequência de itens em tempo real, contínua e ordenada(implicitamente por hora de chegada ou explicitamente por timestamp). Portanto, ositens de dados pertencentes ao mesmo fluxo de dados são normalmente processadosna ordem em que chegam.

2. Os fluxos de dados geralmente são gerados por fontes externas ou outras aplicações,e são enviados para um sistema de gerenciamento de fluxo de dados (do inglês, DataStream Management System - DSMS). Normalmente os DSMSs não tem acessodireto ou controle sobre as fontes de dados.

3. As características de entrada de um fluxo de dados geralmente não são controláveise são tipicamente imprevisíveis, assim, é impossível controlar a ordem em que ositens chegam.

4. Os fluxos de dados são potencialmente ilimitados em tamanho, logo não é viávelarmazenar localmente um fluxo em sua totalidade. E uma vez que um elementode um fluxo de dados foi processado é descartado ou arquivado - não pode serrecuperado facilmente a menos que seja explicitamente armazenado na memória,que tipicamente é pequena em relação ao tamanho dos fluxos de dados.

5. Os itens de dados em um fluxo de dados não estão livres de erros porque as fontesde dados são externas. Alguns itens de dados podem estar corrompidos ou teremsido descartados devido a problemas de rede/transmissão.

Page 32: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

14 CAPÍTULO 2. APORTE TEÓRICO

2.2.2 Tipos de fluxos de dadosOs fluxos de dados podem ser classificados segundo o modelo de janelamento dos

dados utilizados, podendo ser:

• Janela deslizante fixa: é a maneira mais fácil de limitar os dados. As janelas po-dem incluir apenas os n últimos pontos de dados ou apenas as t unidades de dadosmais recentes (onde n e t são constantes). Embora a implementação deste modeloseja muito simples, existe a dificuldade em selecionar o tamaho da janela, já quejanelas muito estreitas produzirão representações muito precisas do estado atual,sendo fortemente afetadas por dados ruidosos; enquanto janelas muito amplas re-sultam em resultados mais estáveis, embora igualmente imprecisos. Apesar dessasrestrições, esse modelo se mostra apropriado para aplicações financeiras (Jiang &Gruenwald 2006).

• Janela adaptativa: devido às desvantagens de um tamanho de janela fixo, Bifet &Gavalda (2007) introduziu a técnica de janela adaptativa que redimensiona dinami-camente a janela com base nos dados recebidos e um valor de confiança especifi-cado pelo usuário λ. De maneira geral, o redimensionamento é feito considerandoas possibilidades de dividir a janela de dados atual W em duas janelas consecutivasW1 e W2, de modo que W1W2 =W e verificar se a média dessas duas janelas é maiorque um limiar εcorte. Se for esse o caso, a janela mais antiga W1 será descartada deW . Usando esta técnica, pode-se comprovar que se manterá uma largura de janelaideal ao longo do processo de transmissão (Matysiak 2012).

• Landmark: neste tipo de janela, o processamento é feito nos valores entre um pontoespecífico chamado marco e o presente. No entanto, este modelo não é adequadopara aplicações onde as pessoas estão interessadas apenas nas informações mais re-centes dos fluxos de dados, como nos sistemas de monitoramento de estoque, ondeinformações e resultados em tempo real serão mais significativos para os usuáriosfinais (Zhu & Shasha 2002).

• Damped Window: Neste modelo, as janelas deslizantes mais recentes são maisimportantes do que as mais antigas. Assim, são atribuídos pesos para as transações,e este peso diminui conforme o dado for mais antigo. Este modelo considera pesosdiferentes para transações novas e antigas. Isto é adequado para aplicações em quedados antigos têm um efeito sobre os resultados de mineração, mas o efeito diminuicom o passar do tempo (Jiang & Gruenwald 2006).

2.3 Estado da arteA área de detecção de falhas é de extrema importância para a tarefa de responder a

eventos anormais. Com isso, várias técnicas foram desenvolvidas e estudadas nas últimasdécadas. No entanto, muitas dessas abordagens apresentam limitações que não se mos-tram adequadas quando se considera o ambiente industrial e que muitas das informaçõesnecessárias da indústria não estão disponíveis ou não são de fácil acesso.

Page 33: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

2.3. ESTADO DA ARTE 15

De maneira geral, os métodos de detecção de falhas podem ser divididos em trêscategorias: baseados em modelo (model-based), baseados no conhecimento(knowledge-based) e baseados em dados (data driven). Os métodos que necessitam do conhecimentoprévio do comportamento do processo através de um modelo matemático apresentam alimitação de que, dado a complexidade desses sistemas, encontrar o modelo não é umatarefa simples, assim como a necessidade de trabalhar com parâmetros de treinamento.Outras abordagens na literatura apresentam a limitação de treinamento off-line de cenáriosde falhas, o que não é uma suposição realística em muitos casos e não há a garantia queo sistema detectará cenários de falhas não treinados previamente; é o caso de sistemas dedetecção de falhas baseados em redes neurais artificiais tradicionais.

Além dessas restrições, é desejável que o processamento do sistema de detecção defalhas ocorra em tempo real, fornecendo respostas rápidas e confiáveis a fim de man-ter o processo em uma região controlável. Ou seja, o esforço computacional exigidono processamento deve ser adequado ao tratamento com grandes quantidades de da-dos (Venkatasubramanian et al. 2003). Assim, técnicas com custosos processos de re-treinamento em tempo de operação e/ou com armazenamento de longos períodos de his-tóricos de dados são inadequadas para detecção de falhas de processos complexos.

Assim, técnicas adequadas de detecção de falhas de processos industriais complexosdevem preceder de conhecimento do modelo matemático do processo sob supervisão,evitar se basear apenas em treinamento off-line e possuir mecanismos on-line de apren-dizagem de novos cenários de falhas. O processamento também deve ser realizado demaneira que não necessite de armazenamento de longos períodos de históricos de dados.

Os métodos baseados em dados vêm se tornado mais populares em muitos setoresda indústria, graças à sua simplicidade e aos poucos requisitos necessários. Dentre osmétodos baseados em dados, as abordagens multivariadas de monitoramento de processoforam propostas devido ao grande número de variáveis medidas em plantas industriais. Otrabalho de Yin et al. (2012) faz uma análise entre diversas técnicas baseadas em dadospara detecção de falhas; no entanto, as técnicas que foram abordadas necessitavam dearmazenamento de períodos de dados e/ou de dados para treinamento.

Dentre as abordagens multivariadas, a análise de componentes principais (PCA) esuas variações, análise de componentes independentes (ICA) e mínimos quadrados par-ciais (PLS) são reconhecidas como ferramentas poderosas para abordar estatísticas demonitoramento de processos e problemas de diagnóstico. Assim, diversos trabalhos fo-ram desenvolvidos propondo variações desses métodos para obter melhores resultadosno ambiente industrial. Nesse contexto, os trabalhos de Rato et al. (2016), Rato & Reis(2013), de Sá Feital (2011) e Jiang et al. (2013) que desenvolveram métodos baseadosno modelo do PCA para detectar falhas. No entanto, muitos desses métodos apresentamalgumas das restrições indesejadas.

Outros trabalhos relevantes para situar a pesquisa desenvolvida, foram as produçõesde Costa et al. (2014) e Bezerra et al. (2015), que utilizaram uma das abordagens estu-dadas nesta dissertação (o RDE) para o problema de detecção de falhas, no entanto, obenchmark que foi utilizado nesses trabalhos foi o DAMADICS, que é uma planta me-nos complexa do que o processo modelado pelo benchmark Tennessee Eastman Process,que foi utilizado na presente dissertação. Além disto, naqueles trabalhos não realizaram

Page 34: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

16 CAPÍTULO 2. APORTE TEÓRICO

análises comparativas de desempenho do RDE com outros métodos.

Page 35: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Capítulo 3

Proposta

Como visto nos capítulos anteriores, a área de monitoramento de processos e detecçãode falhas vem sendo um campo de pesquisa ativo na comunidade de controle e automaçãonas últimas décadas. Devido aos avanços das tecnologias da informação e infraestruturacomputacional, uma quantidade massiva de dados de medições está disponível e podeser utilizada para extrair informação útil sobre o estado atual do processo e auxiliar nasdecisões dos operadores humanos (Yin et al. 2012).

Diferente das abordagens baseadas no modelo quantitativo, onde existe um conheci-mento a priori do comportamento da planta, os métodos investigados nesta dissetaçãodependem apenas das medições das variáveis de processo (data-driven). Dessa maneira,esses algoritmos extraem informações acerca do estado atual do processo com base nosdados que são gerados continuamente ao monitorar as variáveis da planta industrial. As-sim, uma amostra de dados é composta pelas medições de todas as variáveis do processoem um determinado instante de tempo, e é a partir disso que o sistema de detecção defalhas classifica a amostra como sendo proveniente do estado normal ou de falha do pro-cesso estudado.

A partir dessas considerações, oapresenta-se neste capítulo os conceitos e o funcio-namento das abordagens investigadas na presente dissertação, que são nominadamente:RDE, TEDA e RPCA. Essas três técnicas são descritas em detalhes nas seções seguintes.

3.1 RDEO RDE (Recursive Density Estimation) teve seu conceito introduzido originalmente

por Angelov & Buswell (2001), mas foi nomeado RDE em 2008 (Angelov & Zhou 2008),e a versão mais recente é parte de um pedido de patente (Angelov 2014a). Esse métodofoi desenvolvido para a detecção de outliers em um conjunto de dados.

O conceito do RDE se baseia na densidade do conjunto de dados, que indica a proxi-midade dos dados uns dos outros em um determinado instante de tempo; assim, se umaamostra de dados se distancia da distribuição normal das demais amostras, ela se tornaum possível outlier (Bezerra et al. 2015).

O cálculo da densidade dos dados recursiva não faz nenhuma pré-suposição a respeitoda distribuição dos dados e apenas uma pequena quantidade de informação necessita serarmazenada na memória e atualizada. Em teoria, isso permite que uma quantidade infinita

Page 36: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

18 CAPÍTULO 3. PROPOSTA

de dados possa ser processada em tempo real, de forma recursiva e exata (Costa 2014).

Seja o vetor x ∈ Rn composto por todas as variáveis. Assim, para qualquer vetorx ∈ Rn, o valor da densidade dos dados é calculado através da distância Euclidiana por(Costa et al. 2014):

dx =1

1+ 1N ∑

Ni=1 ‖xk− xi‖2 (3.1)

Em que dx representa a densidade dos dados e N é a quantidade de amostras conside-radas. Pode-se mostrar que essa equação pode ser derivada de maneira exata e recursivapor (Angelov 2012):

Dx[k] =1

1+‖xk−µk‖2 +Xk−‖µ2‖(3.2)

Sendo µk a média, e Xk o produto escalar, calculados recursivamente por (Costa et al.2014):

µk =k−1

kµk−1 +

1k

xk, µ1 = x1 (3.3)

Xk =k−1

kXk−1 +

1k‖xk‖2, X1 = ‖x1‖2 (3.4)

Os dados são coletados continuamente, de maneira on-line, durante a execução doprocesso. Alguns dos novos dados reforçam e confirmam a informação contida dos dadosanteriormente adquiridos, ou seja, o valor da densidade incluindo esse dado é próximo aovalor da densidade desconsiderando essa nova amostra. Outros dados, entretanto, trazemnova informação, o que pode indicar uma variação nas condições de operação, desenvol-vimento de uma falha ou, simplesmente, uma variação mais significativa na dinâmica doprocesso (Costa 2014). Comportamentos desse tipo, que provocam alterações expressivasnas medições das variáveis, acabam por alterar expressivamente o valor da densidade dosdados.

Na detecção de dados anômalos dentro de um stream de dados, a suposição é que,na análise de um determinado conjunto de características, o comportamento normal detais características deve ser invariante; ou seja, em regime permanente, não apresentamvalores substancialmente oscilatórios, mas, obviamente, podem variar dentro dos limitesde operação do regime para um processo industrial real. O vetor xk é n-dimensional ecomposto pelos valores das n características selecionadas, para a amostra k (Costa 2014).

A partir das equações 3.3 e 3.4 é possível calcular a densidade da amostra k em relaçãoa um conjunto de dados, conforme equação 3.2. Ao longo desse procedimento, só énecessário armazenar os valores de µ, e X referente as k− 1 amostras anteriores paraencontrar os valores de µ, X e a densidade Dx da amostra atual. Isso faz com que oRDE seja um algoritmo rápido, com baixo custo computacional e uso de memória, sem anecessidade de estimação de parâmetro ou treinamento prévio (Bezerra et al. 2015).

Page 37: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

3.2. TEDA 19

3.1.1 Detecção de falhas utilizando RDEPara o caso de detecção de falhas, é preciso considerar que os dados classificados

como possíveis outliers, podem ter como origem dessa anomalia de comportamento aocorrência de alguma falha no processo. Desta maneira, Costa (2014) propôs um limiarde densidade baseado na média de densidade, como segue:

µD =

(ke−1

keµD +

1ke

Dx[k])(1−∆D)+Dx[k]∆D (3.5)

Em que µD representa a média das densidades, ke é o contador do número de amos-tras em que o sistema permanece em um mesmo estado e ∆D representa a variação dadensidade da amostra atual em relação à densidade da amostra anterior (valor absoluto).

O processo de detecção de falhas consiste em calcular a densidade dos dados e amédia das densidades. Inicialmente, o sistema parte do estado "normal", e caso as últimasn1 densidades consecutivas tenham sido superiores à média das densidades anteriores, oestado atual do processo é classificado como "falha". Ou seja, será considerado que oestado da planta está em "falha"caso seja verificado o comportamento onde os dadosestejam se espalhando (densidade aumentando) mais do que a média dos dados anteriores,de forma consecutiva em n1 amostras.

De maneira semelhante, caso o processo esteja classificado no estado "normal"e casoas últimas n2 densidades consecutivas tenham sido inferiores ou iguais à média das den-sidades anteriores, o estado atual do sistema passa a ser "normal". Ou seja, caso não hajavariações expressivas nas densidades dos dados, apresentando um comportamento está-vel, o estado atual do sistema de classificação passa a ser "normal". As variáveis n1 e n2são definidas pelo usuário, e conforme a natureza das falhas e/ou do processo, os valoresideiais para essas variáveis podem diferir. Assim, é possível que para uma mesma planta,os valores dessas variáveis sejam diferentes para cada tipo de falha.

O Algoritmo 1 mostra o procedimento para detecção de falhas utilizando os princípiosda estimativa de densidade recursiva.

3.2 TEDAO TEDA (Typicality and Eccentricity Data Analytics) é um método proposto por An-

gelov (2014b) para detecção de outliers, generalizando e evitando as restritivas suposi-ções das tradicionais abordagens estatísticas e probabilísticas, como a independência dasamostras de dados (observações) entre si, o grande número de amostras necessárias e asuposição da distribuição a priori das amostras.

Essas premissas não são adequadas quando se trabalha com detecção de falhas emprocessos industriais reais, que consiste na distinção entre estado normal e estado defalha, apesar do uso da abordagem estatística tradicional ter sido utilizada por muitosanos (Costa et al. 2015).

O TEDA é uma abordagem de evolving system proposta por Angelov (2014b), nasquais as métricas de tipicalidade e excentricidade foram definidas para determinar, res-pectivamente, se um dado é "normal"ou "anormal"(outliers). Além disso, o TEDA foi de-

Page 38: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

20 CAPÍTULO 3. PROPOSTA

Algoritmo 1: Algoritmo para detecção de falhas utilizando RDE.Entrada: xk: amostra composta por todas as variáveis da planta no instante k; n1 e

n2: quantidades de amostras necessárias para entrar/sair do estado defalha.

Saída: estado: saída com o resultado da classificação do sistema para a amostrarecebida. Saídas possíveis: ”normal” ou ” f alha”

1 ke← 1;2 estado← ”normal”;3 enquanto receber xk faça4 se k = 1 então5 µk← xk;6 Dx[k]← 1,0;7 µD← Dx[k];8 Xk←‖x1‖2;9 senão

10 atualizar µk pela equação 3.3;11 atualizar Xk pela equação 3.4;12 calcular Dx[k] pela equação 3.2;13 ∆D← abs(Dx[k]−Dx[k−1]);14 atualizar µD pela equação 3.5;15 se estado = ”normal” então16 se Dx[k])< µD para as últimas n1 amostras então17 estado← ” f alha”;18 ke← 0;19 fim20 senão21 se D(xk)>= µD para as últimas n2 amostras então22 estado← ”normal”;23 ke← 0;24 fim25 fim26 fim27 k← k+1;28 ke← ke +1;29 retorna estado;30 fim

Page 39: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

3.2. TEDA 21

senvolvido generalizando e evitando as restritivas suposições das tradicionais abordagensestatísticas e probabilísticas, como a independência das amostras de dados (observações)entre si, a necessidade de um grande número de amostras e a suposição da distribuição apriori das amostras (Costa et al. 2015).

Outra vantagem do TEDA é que o algoritmo pode ser utilizado com uma pequenaquantidade de amostras (a partir de 3 amostras) e não necessita de limiares ou parâmetrospré-definidos. No entanto, essa abordagem não é adequada quando o processo é pura-mente aleatório e as amostras são completamente independentes entre si (Angelov 2014b),uma vez que ele se destina à análise de fluxo de dados.

Através da análise de proximidade/similaridade das amostras no espaço de dados, no-vas grandezas foram definidas como base para o algoritmo TEDA. O termo ’tipicalidade’foi utilizado conforme Osherson & Smith (1997) para descrever a medida em que objetossão bons exemplos de um conceito. Angelov (2014b) formaliza matematicamente essesconceitos no TEDA, conforme é descrito em seguida.

Seja um espaço de dados n-dimensional, χ ∈ Rn, cuja distância d(x,y) pode ser defi-nida como a distância Euclidiana, ou de Mahalanobis, ou qualquer outra. Considerandoque as amostras de dados são uma sequência ordenada {x1,x2, · · · ,xk, · · ·} em que xi ∈ℜn,i ∈ N e k representa a ordem da amostra na sequência.

A proximidade acumulada, π, de um ponto particular x ∈ χ para cada elemento até ok-éssimo elemento é definida como (Costa et al. 2015):

π[x,k] =k

∑i=1

d(xk,xi), k > 1 (3.6)

A excentricidade, ξ, da k-éssima amostra de x é calculdada conforme (Angelov 2014b):

ξk(x) =

2πk(x)

∑ki=1 πk(xi)

=2∑

ki=1 d(x,xi)

∑ki=1 ∑

kj=1 d(xi,x j)

k

∑i=1

πk(xi)> 0, k ≥ 2

(3.7)

Como um complemento da excentricidade, a tipicalidade τ da k-éssima amostra de xé calculada como (Costa et al. 2015):

τk(x) = 1−ξ

k(x)

0≤ ξk(x)≤ 1, 0≤ τ

k(x)≤ 1(3.8)

Para a distância Euclidiana, a excentricidade e, consequentemente, a tipicalidade po-dem ser calculadas recursivamente, conforme (Costa et al. 2015):

ξk(x) =

1k+

1k(µk

x− x)T (µkx− x)

[σkx]

2 (3.9)

Page 40: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

22 CAPÍTULO 3. PROPOSTA

No caso, µkx é a média e σk

x é a variância, calculadas recursivamente pelas seguintes equa-ções:

µkx =

k−1k

µk−1x +

1k

xk, µ1x = x1 (3.10)

[σkx]

2 = µkxτx− [µk

x]T µx µ1

x = 1 (3.11)

Por fim, a excentricidade normalizada, ζk(x), é dada por:

ζk(x) =

ξk(x)2

=12k

+12k

(µkx− x)T (µk

x− x)[σk

x]2 (3.12)

Na computação recursiva para o cálculo da excentricidade e tipicalidade de uma amos-tra qualquer não é necessário armazenar as amostras passadas, apenas os valores da médiaµk−1

x e da variância σk−1x no instante anterior para o cálculo da média e variância atual e,

consequentemente a excentricidade e tipicalidade da amostra atual. Isso resulta em umalgoritmo eficiente e de baixo custo computacional (Costa et al. 2015). Portanto, TEDA éum procedimento de cálculo de tipicalidade e excentricidade baseado apenas nos dados,sem utilizar parâmetros ou limiares. No entanto, para classificar um dado como um ou-tlier, é necessário utilizar um limiar para separar os dados do estado anormal dos dadosdo comportamento normal do sistema.

3.2.1 Detecção de falhas utilizando TEDA

Um limiar bastante utlizado na detecção de outliers é o chamado princípio nσ. Esseprincípio necessita de uma grande quantidade representativa de dados e supõe a prioriuma distribuição Gaussiana dos dados, onde a grande maioria dos dados (> 99,7% para3σ, onde σ indica o desvio padrão) será considerada normal e a probabilidade de umponto ser considerado anormal é menor que 0,3%. Além disso, para qualquer distribui-ção, mas ainda assumindo uma grande quantidade representativa de amostras de dadosindependentes, pode-se utilizar a chamada desigualdade de Chebyshev, que indica quenão mais do que l/n2 das amostras estão mais distantes do que nσ da média (para 3σ,aproximadamente 11% das amostras estarão mais distantes do que 3σ da média, evitandomuitos falsos positvos). No entanto, esse princípio peca ao assumir uma condição a prioribastante restritiva, ao mesmo tempo em que relaxa demais ao ponto em que perde muitosverdadeiro positivo (Angelov 2014b).

Angelov (2014b) propôs o "σgap"que fornece exatamente o mesmo resultado (massem fazer quaisquer suposições sobre a quantidade de dados, a sua independência, etc)que a desigualdade Chebyshev. Logo, o limiar adotado que classifica um ponto comoanormal é dado por (Costa et al. 2015):

ζk >n2 +1

2k(3.13)

Com isso, o algoritmo 2 apresenta o processo para detecção de falhas utilizando asmétricas de tipicalidade e excentricidade.

Page 41: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

3.2. TEDA 23

Algoritmo 2: Algoritmo para detecção de falhas utilizando TEDA.Entrada: xk: k-éssima amostra composta por todas as variáveis da planta; n:

variável para definir o limiar na detecção; n1 e n2: quantidades deamostras necessárias para entrar/sair do estado de falha.

Saída: estado: saída com o resultado da classificação do sistema para a amostrarecebida. Saídas possíveis: ”normal” ou ” f alha”

1 k← 1;2 enquanto receber xk faça3 se k = 1 então4 µk← xk;5 σ← 0,0;6 ξ← 1,0;7 senão8 atualizar µk pela equação 3.10;9 atualizar σ pela equação 3.11;

10 calcular ξ pela equação 3.8;11 fim12 ζ← ξk(x)

2 ;13 se estado = ”normal” então14 se ζk >

n2+12k para as últimas n1 amostras então

15 estado← ” f alha”;16 fim17 senão18 se ζk <= n2+1

2k para as últimas n2 amostras então19 estado← ”normal”;20 fim21 fim22 k← k+1;23 retorna estado;24 fim

Page 42: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

24 CAPÍTULO 3. PROPOSTA

3.3 PCA

Como visto nos capítulos anteriores, na indústria de processos químicos, grandesquantidades de variáveis são monitoradas, o que torna a seleção de características umtópico importante para esse tipo de aplicação (Chebel-Morello et al. 2016). Ao projetaros dados em um espaço de dimensões inferiores que caracteriza com precisão o estadodo processo, as técnicas de redução de dimensionalidade podem simplificar e melhorar osprocedimentos de monitoramento do processo. Assim, os métodos de monitoramento deprocessos baseados em análise multivariada (do inglês, Multivariate Analysis - MVA) pro-grediram muito rapidamente e entre eles, a análise de componentes principais (do inglês,Principal Component Analysis - PCA) é a mais utilizada (Chiang et al. 2001). Devido àsua simplicidade e eficiência no processamento de grande quantidade de dados, a PCA jáfoi utilizada com sucesso em diversas áreas, como na compressão de dados, extração decaracterísticas, processamento de imagem, reconhecimento de padrões, análise de sinaise monitoramento de processos (Ding 2014).

Para alguns sistemas, a maior parte da variabilidade nos dados pode ser capturada emduas ou três dimensões, permitindo uma redução significativa da dimensão do espaço dedados. Para os demais sistemas, foram desenvolvidas técnicas para automatizar a ativi-dade de monitoramento de processos em conjunto com a PCA. Conforme Chiang et al.(2001), a utilização da PCA, mesmo nesses métodos, se deve a pelo menos um de trêsmotivos. Primeiro, a PCA pode produzir representações de dimensões mais baixas demaneira que melhor conduz para dados independentes que podem ser utilizados em umconjunto de treinamento, ao invés de usar todas as dimensões do espaço de observação,melhorando a proficiência de detectar e diagnosticar falhas. Em segundo lugar, a estru-tura abstraída pela PCA pode ser útil para identificar as variáveis responsáveis e/ou maisafetadas pela falha. Em terceiro lugar, a PCA pode separar o espaço de observação emum subespaço capturando as tendências do processo e um segundo subespaço contendoessencialmente o ruído aleatório.

De maneira geral, a PCA consiste de um método de transformações lineares que écapaz de obter um conjunto de variáveis não correlacionadas (chamadas de componen-tes principais), a partir do conjunto original de variáveis. Essas componentes possuempropriedades peculiares em relação à variância: a primeira componente é a combinaçãolinear normalizada das variáveis originais cujo o autovetor está na direção da máxima va-riância com conjunto original; a segunda componente é a combinação linear normalizadadas variáveis originais, cujo o seu autovetor tem a direção da segunda máxima variânciado conjunto original e é ortogonal ao autovetor da primeira componente (Misra 2008);e assim sucessivamente. Dessa maneira, assume-se uma matriz de dados observadosXn,p = [x1, · · · ,xn]

′, composta por n amostras de p variáveis. Sendo 1n = [1,1, · · · ,1]um vetor de tamanho n, a média das amostras pode ser calculada por (Rato et al. 2016):

x̄ =1n

X′n,p1n (3.14)

Page 43: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

3.4. RPCA 25

E a matriz de covariância S é dada por:

S =1

n−1(Xn,p−1nx̄′

)′ (Xn,p−1nx̄′)

(3.15)

Cada vetor p-dimensional x é transformado em um vetor de pontuação y = P′ (x− x̄),sendo P a matriz de carregamento (do inglês, loading matrix) p× p, em que cada colunaé um autovetor de S. Assim, resolver a equação 3.15 é equivalente a:

S = PΛP′ (3.16)

em que Λ = diag(λ1,λ2, · · · ,λp) contém os autovalores de S em ordem decrescente.Assim, ao calcular a matrix de covariância S e em seguida encontrar os autovalores eautovetores dessa matriz, será obtido as componentes da transformação linear dos dados,bem como as pontuações de cada uma delas. No entanto, é necessário determinar quan-tos e quais componentes principais devem ser extraídos ou retidas. Atualmente, váriosmétodos foram propostos para a seleção de componentes principais, como percentual devariação acumulada (do inglês, Cumulative Percentage of Variance - CPV), validação cru-zada, variância do erro de reconstrução (do inglês, Variance of the Reconstruction Error- VRE) e muitos estudos comparativos foram conduzidos (Jiang et al. 2013).

Nesta dissertação foi utilizado o CPV, que consiste em calcular a quantidade de va-riação capturada pelas c primeiras componentes. Dessa maneira, o CPV das c primeirascomponentes é dado por (Rato et al. 2016):

CPV (c) =∑

cj=1 λ j

∑pj=1 λ j

100% (3.17)

onde o valor de c deve ser tal que, seja superior a um limiar estabelecido.

3.4 RPCAO RPCA (Recursive Principal Component Analysis) foi proposto para monitorar pro-

cessos não estacionários. O RPCA usa a ideia de incorporar novas observações e desva-lorizar as antigas com um fator de esquecimento η para calcular a média e a matriz decovariância usadas na PCA (Rato et al. 2016). Com isso, a média e matriz de covariânciapodem ser calculadas pelas seguintes equações:

x̄k =

(1− N−1

)·xk +

N−1N

η · x̄k−1 (3.18)

Sk =

(1− N−1

)(xk− x̄k)(xk− x̄k)

′+N−1

Nη ·Sk−1 (3.19)

Conforme η se aproxima de 1, as amostras mais antigas demoram mais tempo paraserem esquecidas. Como o objetivo da pesquisa é fornecer uma análise comparativa entreos métodos para detecção de falhas, o valor de η = 1 fornece equações para média e

Page 44: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

26 CAPÍTULO 3. PROPOSTA

covariância semelhantes as utilizadas nos demais métodos. Assim, nesta dissertação foiutilizado o valor de η = 1.

A partir das equações recursivas da média e da matriz de covariância, o procedimentopara selecionar as componentes principais segue o descrito para a PCA, que é feito utili-zando o cálculo do CPV descrito na equação 3.17.

3.4.1 Detecção de falhas utilizando RPCAApós selecionadas as c componentes principais, a tarefa de detecção de falhas é feita

através de duas métricas bastante utilizadas na área: a estatística T 2 de Hotelling e a esta-tística Q, também conhecida como SPE (do inglês, Squared Prediction Error). Essas mé-tricas são calculadas recursivamente conforme as seguintes equações (Rato et al. 2016):

T 2 = (x− x̄)′PcΛ−1c P′c(x− x̄) = y′cΛ

−1c yc ‖x− x̂‖2 (3.20)

Q = (x− x̄)′(I−PcP′c

)(x− x̄) (3.21)

Os valores máximos dessas métricas para que a amostra seja considerada normal sãochamados de limiares de controle superior (do inglês, Upper Control Limit - UCL) e sãodefinidos por (Rato & Reis 2013):

UCLT 2 =c(t−1)(t +1)

t2− tcF(α,c,t−c) (3.22)

No caso, c é a quantidade de componentes principais selecionadas, t é a ordem daamostra atual na sequência de dados e F(α,c,t−c) é o α percentil superior da distribuição F ,com c e t− c graus de liberdade.

UCLQ = θ1

(Cαh0

√2θ2

θ1+1+

θ2h0 (h0−1)θ2

1

) 1h0

(3.23)

θi =p

∑j=c+1

λij, i = 1,2,3 h0 = 1− 2θ1θ3

3θ22

A estatística T 2 baseada nos c primeiros componentes principais não correlacionadosfornece um teste de desvios das variáveis de monitoramento que contribuem mais para avariância do conjunto de dados original. No entanto, esse método apenas detecta se a va-riação nas variáveis de monitoramento no espaço definido pelos c primeiros componentesprincipais excede o UCL ou não. A ocorrência de novos eventos podem ser detectadasao monitorar o SPE das observações residuais (os componentes principais que não foramconsiderados), que fornece uma medida do quão próximo uma observação está do espaçode dimensão c (Misra 2008).

A estatística T 2 fornece a distância de Mahalanobis ao quadrado de x no subespaçodo modelo da análise de componentes, enquanto a estatística Q fornece a distância or-togonal quadrática (Rato et al. 2016). Como o cálculo de T 2 desconsidera os menores

Page 45: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

3.4. RPCA 27

autovalores da matriz de correlação, essa métrica proporciona uma medida mais robustapara detecção de falhas, logo, um alto valor de T 2 indica que o sistema está fora de con-trole (Misra 2008). Assim, a cada nova observação obtida é feita uma avaliação conjuntadessas métricas: se as estatísticas de T 2 ou Q excederem os respectivos limiares, a obser-vação será considerada uma falha ou um outlier. Dessa maneira, o Algoritmo 3 apresentao processo para detecção de falhas utilizando o método abordado.

Page 46: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

28 CAPÍTULO 3. PROPOSTA

Algoritmo 3: Algoritmo para detecção de falhas utilizando RPCA.Entrada: xk: k-éssima amostra composta por todas as variáveis da planta; CPV :

variável para definir o número de componentes principais que serãoselecionadas; α: utilizado para calcular o intervalo de confiança utilizadodo limiar na detecção; n1 e n2: quantidades de amostras necessárias paraentrar/sair do estado de falha.

Saída: estado: saída com o resultado da classificação do sistema para a amostrarecebida. Saídas possíveis: ”normal” ou ” f alha”

1 k← 1;2 enquanto receber xk faça3 se k = 1 então4 x̄k← xt ;5 St ← 0;6 senão7 atualizar x̄k pela equação 3.18;8 atualizar Sk pela equação 3.19;9 encontrar os autovalores (matriz Λ) de Sk;

10 encontrar os autovetores (matriz P) de Sk;11 selecionar as c componentes principais segundo o CPV (equação 3.17);12 encontrar Λk e Pk;13 calcular T 2 e Q, segundo as equações 3.20 e 3.21;14 calcular os limiares UCLT 2 e UCLQ, segundo as equações 3.22 e 3.23;15 se estado = ”normal” então16 se T 2 >UCLT 2 ou Q >UCLQ para as últimas n1 amostras então17 estado← ” f alha”;18 fim19 senão20 se T 2 <=UCLT 2 e Q <=UCLQ para as últimas n2 amostras então21 estado← ”normal”;22 fim23 fim24 fim25 k← k+1;26 retorna estado;27 fim

Page 47: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Capítulo 4

Experimentos e Resultados

O presente capítulo apresenta os resultados obtidos para cada uma das abordagensestudadas, além de abordar o benchmark utilizado e as configurações do sistema para acoleta dos dados e detecção de falhas.

4.1 Tennessee EastmanO processo Tennessee Eastman (TE) é um benchmark criado pela Eastman Chemical

Company como sendo um simulador realístico baseado em um processo químico, permi-tindo avaliar o controle de processos e métodos de monitoramento (Downs & Vogel 1993).Apesar de ser um modelo de processo criado na década de 1990, o TE ainda hoje é am-plamente aceito na comunidade, sendo uma ferramenta importante para comparação e/ouvalidação de algoritmos por ser um modelo não-linear de um sistema de multicomponen-tes bastante complexo e bastante realístico (Bathelt et al. 2015).

O TE consiste de um processo onde quatro reagentes gasosos A, C, D e E, e umcomponente inerte B, são introduzidos no reator gerando dois produtos líquidos, G e H, eum subproduto F, como segue:

A(g)+C(g)+D(g)→ G(liq);A(g)+C(g)+E(g)→ H(liq);

A(g)+E(g)→ F(liq);3D(g)→ 2F(liq).

(4.1)

Todas as reações são irreversíveis e exotérmicas, e acontecem na presença de um cata-lisador líquido. Basicamente, este processo possui cinco unidades principais de operação:reator, condensador, compressor, coluna retificadora e separador. O diagrama do processoé apresentado na Figura 4.1.

O processo se inicia com os reagentes gasosos sendo alimentados no reator, ondereagem gerando seus produtos que abandonam o reator na forma gasosa. No condensador,os produtos do reator são resfriados e parte dele é condensado. Em seguida, um separadorlíquido-gasoso retira o produto gasoso não condensado e este é levado para reciclagemem um compressor que alimenta o reator. Esse processo é purgado para evitar o acúmulode subprodutos e produtos inertes. Já o produto que foi condensado, segue para a colunaretificadora a fim de retirar os reagentes remanescentes através da adição do reagente C.

Page 48: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

30 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figura 4.1: O processo Tennessee Eastman. Fonte:Yin et al. (2012).

Por fim, os produtos G e H são retirados da coluna retificadora e separados em uma seçãode refinação que não está presente neste problema. O produto inerte e os subprodutos sãopurgados do sistema principalmente na forma gasosa no separador líquido-gasoso (Downs& Vogel 1993).

O TE permite simular o comportamento desse processo químico quando ocorrem fa-lhas nos diversos componentes dessa planta. As falhas que podem ser simuladas no TEestão descritas na Tabela 4.1. As variáveis do processo e as variáveis manipuladas quepodem ser monitoradas ao longo do processo estão descritas nas Tabelas 4.3 e 4.2.

As simulações foram feitas através do modelo adaptado do TE proposto por Batheltet al. (2015), que está disponível para MATLAB, e garante a consistência dos dados, alémde melhorias quanto ao desempenho das simulações e ao acesso as variáveis monitoradas.Apesar de ter sido utilizado o problema adaptado, apenas foram utilizadas as variáveis demedição e manipuladas descritas no problema original. Além disso, o problema originalcontém 21 falhas, mas apenas as 13 primeiras falhas foram consideradas, pois as falhas14 a 21 devem ser simuladas em conjunto com outra falha ou com uma alteração do valornominal com um tempo de simulação de 24 a 48 horas (Downs & Vogel 1993).

4.2 MétricasA fim de realizar um estudo comparativo do desempenho dos algoritmos utilizados

para detecção de falhas, foram utilizados as métricas de sensibilidade (do inglês, sensiti-vity ou recall), precisão (do inglês, precision ou confidence) e especificidade (do inglês,specificity). Essas métricas utilizam os conceitos de verdadeiro positivo, falso positivo,

Page 49: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.2. MÉTRICAS 31

Tabela 4.1: Tipos de falhas do processo Tennessee EastmanNo Description Type1 A/C feed ratio, B composition constant Step2 B composition, A/C ratio constant Step3 D feed temperature Step4 Reactor cooling water inlet temperature Step5 Condenser cooling water inlet temperature Step6 A feed loss Step7 C header pressure loss - reduced availability Step8 A, B, C feed composition Random variation9 D feed temperature Random variation

10 C feed temperature Random variation11 Reactor cooling water inlet temperature Random variation12 Condenser cooling water inlet temperature Random variation13 Reaction kinetics Slow drift14 Reactor cooling water valve Sticking15 Condensor cooling water valve Sticking16 Unknown Unknown17 Unknown Unknown18 Unknown Unknown19 Unknown Unknown20 Unknown Unknown

Tabela 4.2: Variáveis manipulados do Tennessee EastmanNo Description1 D feed2 E feed3 A feed4 A and C feed5 Compressor recycle valve6 Purge valve7 Separator pot liquid flow8 Stripper liquid product flow9 Stripper steam valve

10 Reactor cooling water flow11 Condensor cooling water flow12 Agitor speed

Page 50: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

32 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Tabela 4.3: Variáveis de processo do Tennessee EastmanNo Description1 A feed2 D feed3 E feed4 A and C feed5 Recycle flow6 Reactor feed rate7 Reactor pressure8 Reactor level9 Reactor temperature10 Purge rate11 Product separator temperature12 Product separator level13 Product separator pressure14 Product separator underflow15 Stripper level16 Stripper pressure17 Stripper underflow18 Stripper temperature19 Stripper steam flow20 Compressor work21 Reactor cooling water outlet temperature22 Separator cooling water outlet temperature23 Reactor feed analysis - component A24 Reactor feed analysis - component B25 Reactor feed analysis - component C26 Reactor feed analysis - component D27 Reactor feed analysis - component E28 Reactor feed analysis - component F29 Purge gas analysis - component A30 Purge gas analysis - component B31 Purge gas analysis - component C32 Purge gas analysis - component D33 Purge gas analysis - component E34 Purge gas analysis - component F35 Purge gas analysis - component G36 Purge gas analysis - component H37 Product analysis - component D38 Product analysis - component E39 Product analysis - component F40 Product analysis - component G41 Product analysis - component H

Page 51: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.2. MÉTRICAS 33

Figura 4.2: Matriz de Confusão

verdadeiro negativo e falso negativo, que podem ser vistos na matriz de confusão da Fi-gura 4.2. As amostras consideradas verdadeiro positivo são aquelas em que a falha foidetectada corretamente e as amostras verdadeiro negativo são aquelas em que o sistemaé classificado corretamente como estado normal. As amostras do estado normal que sãoclassificadas como falha são falsos positivos e as amostras do estado de falha classificadaserroneamente como normais são falsos negativos. A partir disso, as métricas utilizadaspodem ser definidas como segue (Powers 2011):

A métrica de sensibilidade é a proporção de positivos reais que são classificados comopositivos e é definida por

sensibilidade =t p

t p+ f n100 (4.2)

em que tn é o número de amostras verdadeiro positivo e f n é a quantidade de amostrasfalso negativo.

A precisão é a proporção de amostras classificadas como positivas que são positivosreais e é calculada a partir de

precisao =t p

t p+ f p100 (4.3)

em que t p é o número de amostras verdadeiro positivo e f p é a quantidade de amostrasfalso positivo.

A especificidade é a proporção de negativos reais que são classificados como negativose é definida por

especi f icidade =tn

tn+ f p100 (4.4)

em que tn é a quantidade amostras classificadas corretamente como normal e f p é aquantidade de amostras sem falha classificadas com falhas.

Page 52: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

34 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

4.3 ResultadosOs dados coletados foram oriundos de simulações do processo, onde a planta foi ob-

servada durante cerca de 220 horas (22000 amostras) em que permaneceu em estado nor-mal, para que então a falha se manifestasse por cerca de 20 horas (2000 amostras) e enfimretornasse para o estado normal (mais 20 horas foram consideradas). A partir dessesdados, foram aplicados os algoritmos estudados para detectar falhas no processo.

O TEDA foi implementado conforme o algoritmo 2, e foram selecionados os valoresde 2 e 3 para o n utilizado no limiar do processo de detecção da equação 3.13. Em seguidaforam selecionadas algumas das variáveis da planta que mostraram ter mais informaçõessobre os períodos em que as falhas ocorreram e foram calculadas as métricas mencionadasanteriormente. Essas mesmas variáveis foram utilizadas posteriormente para o algoritmoRDE.

Além disso, para a detecção em todos os algoritmos propostos é preciso selecionaros valores de n1 e n2, que se referem as quantidades de amostras consecutivas em que asrespectivas métricas foram superiores/inferiores aos limiares consideras e são utilizadaspara o processo de classificação da amostra como "normal"ou "falha". Como é desejávelque a detecção seja rápida, os valores selecionados para essas variáveis necessitam seradequados ao problema. No entanto, as falhas nos componentes da planta alteram distin-tas variáveis de maneiras diferentes. Assim, os valores que melhor se adequam de n1 en2 para a detecção de uma determinada falha, pode ser diferente para detectar uma outrafalha. Por ser um processo químico com taxa de amostragem de 100 observações colhidasa cada 1 hora, os valores selecionados para n1 e n2 foram fixados em 10 amostras, mas épossível que os métodos apresentem melhores resultados ao selecionar valores distintosde acordo com a falha.

Em seguida, o algoritmo do RPCA foi aplicado para os mesmos dados e calculadoas métricas para análise de desempenho junto com os demais algoritmos. Os resultadosobtidos para cada métrica em cada um dos métodos pode ser visto nas Tabelas 4.4, 4.5 e4.6.

Page 53: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3.R

ESU

LTAD

OS

35

Tabela 4.4: Resultados - PrecisãoFalha TEDA (n = 2) TEDA+seleção (n = 2) TEDA (n = 3) TEDA+seleção (n = 3) RDE RDE+seleção RPCA

1 100.00% 89.45% 100.00% 100.00% 5.49% 5.49% 81.36%2 - 86.88% - 99.24% 14.34% 16.61% 89.19%3 - - - - 6.22% 6.22% 88.24%4 - 99.50% - 99.50% 7.24% 100.00% 87.86%5 - - - - 0.00% 54.26% 87.40%6 49.02% 43.53% 33.40% 47.70% 3.98% 2.35% 75.44%7 - 71.11% - 95.05% 5.46% 6.35% 80.85%8 100.00% 77.64% - 86.19% 10.76% 17.18% 80.58%9 - - - - 6.55% 100.00% 80.24%10 - 71.76% - 96.13% 4.24% 13.42% 80.06%11 - 47.47% - 76.11% 5.28% 9.13% 81.11%12 - 96.81% - 100.00% 13.62% 81.89% 81.25%13 72.28% 70.85% 72.28% 76.35% 10.85% 16.34% 77.74%

Page 54: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

36C

APÍT

UL

O4.

EX

PER

IME

NTO

SE

RE

SULTA

DO

S

Tabela 4.5: Resultados - EspecificidadeFalha TEDA (n = 2) TEDA+seleção (n = 2) TEDA (n = 3) TEDA+seleção (n = 3) RDE RDE+seleção RPCA

1 100.00% 99.07% 100.00% 100.00% 57.54% 42.59% 98.26%2 100.00% 98.72% 100.00% 99.94% 51.99% 56.23% 99.08%3 100.00% 100.00% 100.00% 100.00% 49.88% 100.00% 99.33%4 100.00% 99.96% 100.00% 99.96% 52.02% 100.00% 99.47%5 100.00% 100.00% 100.00% 100.00% 57.44% 97.43% 99.56%6 98.27% 97.85% 98.70% 98.27% 57.62% 53.38% 99.08%7 100.00% 96.29% 100.00% 99.53% 56.68% 51.44% 99.12%8 100.00% 97.73% 100.00% 98.85% 56.72% 60.20% 98.98%9 100.00% 100.00% 100.00% 100.00% 51.51% 100.00% 99.07%

10 100.00% 97.60% 100.00% 99.80% 54.57% 69.21% 99.15%11 100.00% 96.06% 100.00% 99.44% 54.83% 52.33% 99.21%12 100.00% 99.92% 100.00% 100.00% 52.96% 99.52% 99.26%13 97.67% 97.91% 98.77% 98.67% 56.23% 69.87% 99.01%

Page 55: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3.R

ESU

LTAD

OS

37

Tabela 4.6: Resultados - SensibilidadeFalha TEDA (n = 2) TEDA+seleção (n = 2) TEDA (n = 3) TEDA+seleção (n = 3) RDE RDE+seleção RPCA

1 31.85% 97.63% 14.30% 82.81% 30.67% 100.00% 94.42%2 0.00% 97.51% 0.00% 94.00% 92.23% 100.00% 90.50%3 0.00% 0.00% 0.00% 0.00% 40.62% 00.00% 60.78%4 0.00% 99.55% 0.00% 99.55% 44.63% 31.91% 45.84%5 0.00% 0.00% 0.00% 0.00% 0.00% 36.72% 36.69%

6 91.59% 91.38% 35.99% 87.07% 96.55% 61.64% 39.40%7 0.00% 99.59% 0.00% 99.36% 27.28% 35.88% 49.80%

8 14.26% 94.88% 0.00% 86.24% 62.93% 99.60% 56.17%9 0.00% 0.00% 0.00% 0.00% 38.99% 21.68% 49.16%

10 0.00% 73.97% 0.00% 61.45% 24.37% 57.82% 43.95%11 0.00% 42.40% 0.00% 21.20% 29.99% 57.05% 43.61%12 0.00% 28.35% 0.00% 7.32% 87.32% 25.55% 40.51%

13 57.69% 60.31% 38.16% 51.06% 63.12% 69.75% 43.70%

Page 56: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

38 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Quando as falhas ocasionam mudanças significativas nas variáveis do sistema, os va-lores de excentricidade (TEDA), densidade (RDE) e covariância (RPCA) aumentam sig-nificativamente com poucas amostras, como aconteceu na falha 1 que pode ser visto naFigura 4.3. Para melhor visualizar o comportamento das variáveis, as imagens inferioresmostram algumas das variáveis nos momentos que antecedem e sucedem a falha.

A Figura 4.4 é composta pelo resultado do sistema de detecção utilizando o RPCA,onde os pontos azuis indicam, quando iguais a 0, que a abordagem classificou a amostracomo no estado normal e, quando iguais a 1, como no estado em falha. Nas imagensinferiores são apresentados os valores das métricas Q e T 2 em azul, e em vermelho olimiar obtido ao longo do processo. Assim, quando Q ou T 2 são superiores ao limiar(ultrapassam a linha vermelha) por mais de 10 amostras, o sistema classifica o processocomo no estado de falha.

Na Figura 4.5 mostra os resultados da excentricidade normalizada (em azul) com esem seleção de variáveis e os limiares (em vermelho) para n = 2 e 3. Quando o valor daexcentricidade normalizada é superior ao limiar por pelo menos 10 amostras consecutivas,o estado do processo é classificado como em falha. As Figuras 4.6 e 4.7 apresentam osresultados da detecção para cada uma das configurações.

Por fim, a Figura 4.8 apresenta os resultados obtidos na detecção de falhas ao se utili-zar o método do RDE. Nas imagens superiores é possível verificar em azul a classificaçãoresultado do método (estado normal em 0 e estado em falha em 1). Nas imagens inferioresestão os gráficos contendo o valor da densidade em cada uma das amostras e a média dasdensidades ao longo do processo. Assim, para ir ao estado de falha é necessário que 10amostras consecutivas apresentem densidade inferior a media das densidades anteriores,ou seja, os dados estejam se espalhando; já para retornar ao estado normal, é necessárioque outras 10 amostras apresentem densidades superiores a média das densidades anteri-ores (os dados estão mais próximos).

Assim como a falha 1, as falhas 7 e 13, apresentaram um comportamento semelhantee por isso são identificadas mais facilmente.

Nas falhas 3, 5 e 9 apesar do processo estar em falha, tanto as variáveis de mediçãoquanto as variáveis de processo não sofreram alterações significativas dos seus valores,como mostra a Figura 4.9. Na imagem superior, temos as 53 variáveis por todo o tempoem que o processo foi monitorado, na qual é possível verificar que a ocorrência da falhapouco altera a dinâmica do processo, o que dificulta a tarefa de detecção de falha em todosos métodos que foram utilizados, como mostram as Figuras 4.10, 4.11, 4.13, 4.12 e 4.14.Resultado semelhante foi obtido no trabalho de Yin et al. (2012), onde foram utilizadosalgoritmos offline para a detecção de falhas.

Algumas falhas podem demorar para serem detectadas devido à própria dinâmica doprocesso, que pode ser lenta e levar um certo tempo até que os efeitos dos distúrbiossejam perceptíveis, como no caso da falha 6. Quando esta falha ocorre, existe um atrasoaté que as variáveis que estão sendo monitoradas apresentem alguma alteração. Dessamaneira, mesmo quando o sistema volta ao seu estado normal, as variáveis continuamapresentando valores característicos dos períodos com falha. Nesse sentido, é comum

Page 57: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3. RESULTADOS 39

Figura 4.3: Variáveis da Falha 1.

Figura 4.4: Resultado do RPCA para a Falha 1.

Page 58: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

40 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figura 4.5: Exentricidade normalizada para a Falha 1.

Figura 4.6: Resultado do TEDA para a Falha 1.

Page 59: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3. RESULTADOS 41

Figura 4.7: Resultado do TEDA com seleção de variáveis para a Falha 1.

Figura 4.8: Resultado do RDE para a Falha 1.

Page 60: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

42 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figura 4.9: Variáveis da Falha 3.

Figura 4.10: Resultados do RPCA para a falha 3.

Page 61: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3. RESULTADOS 43

Figura 4.11: Excentricidade normalizada para a falha 3.

Figura 4.12: Resultado do TEDA para a Falha 3.

Page 62: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

44 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figura 4.13: Resultado do TEDA com seleção de variáveis para a Falha 3.

Figura 4.14: Resultados do RDE para a falha 3.

Page 63: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3. RESULTADOS 45

Figura 4.15: Variáveis da Falha 6.

que amostras sejam classificadas como "normais"nos instantes iniciais aos períodos emque as falhas ocorreram, assim como, é comum que amostras sejam classificadas como"falhas"nos instantes seguintes ao momento em que o sistem retorna ao estado normal.Isso explica os baixos valores encontrados nas métricas de precisão e sensibilidade. AFigura 4.15 apresenta as variáveis monitoradas ao longo da ocorrência da falha 6, onde épossível verificar o comportamento descrito. Com isso, as Figuras 4.16, 4.17, 4.19, 4.18e 4.14 mostram que a detecção da falha aconteceu nos dados anômalos, mas que essessurgiram com um atraso em relação ao início da falha para os métodos RDE e TEDA.Além disso, é possível perceber que as variáveis continuaram oscilando mesmo com ofim da ocorrência da falha, levando todos os métodos estudados a classificar o estado doprocesso como em falha.

As demais falhas analisadas produziram variações menos perceptíveis do que as falhas1, 7 e 13, mas, ainda assim, foi possível obter bons resultados em algumas abordagens.As demais imagens com os resultados dos algoritmos para as outras falhas estudadas seencontram no Apêndice A, bem como as imagens contendo as variáveis selecionadas parao TEDA e RDE.

De maneira geral, considerando as métricas de precisão, especificidade e sensibili-dade, o RPCA e o TEDA (quando acompanhado de uma seleção de variáveis) foram asabordagens que apresentaram melhores resultados. No caso do TEDA, ao trabalhar comapenas algumas das variáveis, principalmente quando essas variáveis apresentam varia-ções de mesma escala, as métricas de excentricidade e tipicalidade passam a ser maissensíveis a mudanças no sistema. Assim, trabalhar com todas as variáveis quando as mes-mas não possuem mesma escala não é o cenário ideal para o TEDA, já que redimensionaras variáveis para uma mesma escala de maneira recursiva, online e obedecendo as res-trições do problema não é uma tarefa trivial. Uma alternativa para esse problema podeser a realização de um pré-processamento dos dados a fim de reduzir as dimensões dosdados. Além disso, é possível que a utilização da distância de Mahalanobis ao invés dadistância Euclidiana produza melhores resultados por se basear nas correlações entre as

Page 64: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

46 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figura 4.16: Resultado do RPCA para a Falha 6.

Figura 4.17: Excentricidade normalizada para a Falha 6.

Page 65: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

4.3. RESULTADOS 47

Figura 4.18: Resultado do TEDA para a Falha 6.

Figura 4.19: Resultado do TEDA com seleção de variáveis para a Falha 6.

Page 66: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

48 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figura 4.20: Resultado do RDE para a Falha 6.

variáveis. Já no caso do RPCA, ao analisar os resultados referentes às métricas T 2 e Q,é possível perceber que os falsos positivos e falsos negativos de cada uma das métricasse somam, mas a aplicação de um simples filtro em que há uma quantidade mínima deamostras consecutivas (10 amostras) necessárias para alterar o estado atual do sistema declassificação se mostrou uma abordagem eficiente.

A maneira como cada componente da planta afeta o processo é diferente; enquanto asfalhas em determinados componentes produzem grandes perturbações em pouco tempo,existem componentes da planta que pouco alteram a dinâmica do processo ou que levamum tempo para provocar distúrbios nas variáveis observadas. Assim, o valor de n1 = 10selecionado para o filtro que foi aplicado ao final dos métodos, pode não ser o mais apro-priado para todas as falhas. Apesar do RDE ter produzido alguns bons resultados, mostrouser o método mais sensível quanto aos valores de n1 e n2, já que a métrica utilizada nessaabordagem é apenas a densidade dos dados. Assim, valores pequenos para n1 e n2 podemnão ser apropriados para falhas com o comportamento semelhante as falhas incipientes;ao mesmo tempo que valores altos de n1 e n2 demorariam para detectar a falha, além degerar mais falsos negativos e falsos positivos. Além disso, a seleção de variáveis não semostrou uma boa abordagem para o RDE pois, ao levar em consideração o cálculo da den-sidade (Equação 3.2) é possível perceber que quanto mais variáveis forem consideradas,as variações de todas elas serão somadas para o cálculo da densidade. Ou seja, quandoa falha acontece, as variações de três variáveis, por exemplo, mesmo que sejam maisperceptíveis, será bem menor do que as variações de todas as variáveis somadas; logo adensidade será bem menor com todas as variáveis do que quando se tem uma seleção devariáveis.

Page 67: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Capítulo 5

Conclusão

O cenário atual da indústria coloca o Gerenciamento de Eventos Anormais (AEM)como o desafio atual na automação dos processos industrias. A sobrecarga de informaçãogerada por plantas industriais cada vez mais complexas, deixa os operadores humanos,responsáveis pelo AEM, susceptíveis a erros de diagnostico de falhas, tomando açõeserrôneas ou depois do tempo hábil. Nesse contexto, este trabalho apresentou uma análisecomparativa de algoritmos recursivos e online para a detecção de falhas em processos daindústria. A partir da observação das variáveis dos componentes da planta industrial, osalgoritmos do TEDA, RDE e RPCA foram aplicados para detectar as falhas.

De maneira geral, os algoritmos empregados na pesquisa consistiram em processar ainformação contida nas variáveis observadas, extrair a informação através de alguma(s)métrica(s), e caso essa métrica fosse superior a um limiar definido pela abordagem ado-tada, o dado foi classificado como no estado normal do processo ou no estado com falha.O benchmark utilizado foi o processo Tennessee Eastman, que permite simular a ocor-rência de falhas em um processo de uma planta industrial química bastante complexa. Apartir dos dados obtidos em simulação, os algoritmos foram empregados com o objetivode detecção de falhas. Inicialmente foram consideradas todas as variáveis para o estudode desempenho dessas técnicas. Em seguida, foram selecionadas apenas algumas das va-riáveis a fim de verificar o desempenho das abordagens com redução de dimensão dosdados.

Com isso, os melhores resultados obtidos com base nas métricas de precisão, sensi-bilidade e especificidade foram utilizando as abordagens do RPCA e do TEDA após arealização de uma seleção prévia de variáveis e utilizando o limiar definido no métodocom n = 3. No entanto, não foi realizado nenhum estudo aprofundado para o método deseleção automático de variáveis. Apesar do RPCA ser o método com mais parâmetros, es-tes são simples de serem ajustados. O RDE apresentou alguns bons resultados quando seutiliza todas as variáveis observadas; no entanto, esse método se mostrou sensível quantoaos valores dos parâmetros n1 e n2 da abordagem, principalmente quando se considera anatureza das diferentes falhas estudadas.

As abordagens utilizadas para detecção de falhas são adequadas ao ambiente industriale podem ser aplicadas em diversos processos da indústria, já que só necessita das variáveisobservadas ao longo do processo– informação relativamente simples de se obter – e dealguns poucos parâmetros.

Page 68: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

50 CAPÍTULO 5. CONCLUSÃO

5.1 Trabalhos FuturosApesar das contribuições obtida na presente dissertação, a proposta ainda pode receber

melhorias quanto aos seguintes pontos:

• Estudo aprofundado da seleção automática de variáveis para a abordagem do TEDA;

• Utilização de outras distâncias, como a de Mahalanobis, tanto para o TEDA quantopara o RDE;

• Seleção automática dos valores de n1 e n2, bem como a utilização de outros filtrosnos métodos de detecção de falhas.

5.2 Publicações AssociadasAo longo desta pesquisa, foi desenvolvido o artigo intitulado "Detecção de falhas

no processo Tennesse Eastman utilizando métricas de Tipicalidade e Excentricidade"noCongresso Brasileiro de Automática 2016 (CBA).

Page 69: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Referências Bibliográficas

Abdolhamidzadeh, Bahman, Tasneem Abbasi, D Rashtchian & Sakineh A Abbasi (2011),‘Domino effect in process-industry accidents–an inventory of past events and iden-tification of some patterns’, Journal of Loss Prevention in the Process Industries24(5), 575–593.

Angelov, Plamen (2012), Autonomous learning systems: from data streams to knowledgein real-time, John Wiley & Sons.

Angelov, Plamen (2014a), ‘Anomalous system state identification’. US Patent App.14/541,036.

Angelov, Plamen (2014b), Anomaly detection based on eccentricity analysis, em ‘Evol-ving and Autonomous Learning Systems (EALS), 2014 IEEE Symposium on’, IEE,pp. 1–8.

Angelov, Plamen P & Xiaowei Zhou (2008), ‘Evolving fuzzy-rule-based classifiers fromdata streams’, IEEE Transactions on Fuzzy Systems 16(6), 1462–1475.

Angelov, Plamen & Richard Buswell (2001), Evolving rule-based models: A tool for in-telligent adaptation, em ‘IFSA world congress and 20th NAFIPS international con-ference, 2001. Joint 9th’, Vol. 2, IEEE, pp. 1062–1067.

Babcock, Brian, Shivnath Babu, Mayur Datar, Rajeev Motwani & Jennifer Widom (2002),Models and issues in data stream systems, em ‘Proceedings of the twenty-first ACMSIGMOD-SIGACT-SIGART symposium on Principles of database systems’, ACM,pp. 1–16.

Bailey, SJ (1984), ‘From desk-top to plant floor, a crt is the control operators window onthe process’, Control Engineering 31(6), 86–90.

Bathelt, Andreas, N Lawrence Ricker & Mohieddine Jelali (2015), ‘Revision of the ten-nessee eastman process model’, IFAC-PapersOnLine 48(8), 309–314.

Bezerra, Clauber Gomes, Bruno Sielly Jales Costa & Luiz Affonso Guedes (2015), ‘De-tecção de falhas em processos industriais baseada em estimativa de densidade recur-siva’.

Bifet, Albert & Ricard Gavalda (2007), Learning from time-changing data with adaptivewindowing, em ‘Proceedings of the 2007 SIAM International Conference on DataMining’, SIAM, pp. 443–448.

51

Page 70: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

52 REFERÊNCIAS BIBLIOGRÁFICAS

Chebel-Morello, Brigitte, Simon Malinowski & Hafida Senoussi (2016), ‘Feature selec-tion for fault detection systems: application to the tennessee eastman process’, Ap-plied Intelligence 44(1), 111.

Chiang, Leo H, Richard D Braatz & Evan L Russell (2001), Fault detection and diagnosisin industrial systems, Springer Science & Business Media.

Costa, Bruno Sielly Jales (2014), Detecção e diagnóstico de falhas não-supervisionadosbaseados em estimativa de densidade recursiva e classificador fuzzy auto-evolutivo,Tese de doutorado, Universidade Federal do Rio Grande do Norte.

Costa, Bruno Sielly Jales, Clauber Bezerra, Luiz Affonso Guedes & Plamen Angelov(2015), Online fault detection based on typicality and eccentricity data analytics, em‘Neural Networks (IJCNN), 2015 International Joint Conference on’, IEEE, pp. 1–6.

Costa, Bruno Sielly Jales, Plamen Parvanov Angelov & Luiz Affonso Guedes (2014),‘Real-time fault detection using recursive density estimation’, Journal of Control,Automation and Electrical Systems 25(4), 428–437.

de Sá Feital, Thiago (2011), Monitoramento da condição de processos químicos industri-ais, Tese de doutorado, Universidade Federal do Rio de Janeiro.

Ding, Steven X (2014), Data-driven design of fault diagnosis and fault-tolerant controlsystems, Springer Science & Business Media.

Downs, James J & Ernest F Vogel (1993), ‘A plant-wide industrial process control pro-blem’, Computers & chemical engineering 17(3), 245–255.

Gao, Zhiwei, Carlo Cecati & Steven X Ding (2015), ‘A survey of fault diagnosis andfault-tolerant techniques—part i: Fault diagnosis with model-based and signal-basedapproaches’, IEEE Transactions on Industrial Electronics 62(6), 3757–3767.

Gertler, Janos (2013), ‘Fault detection and diagnosis’, Encyclopedia of Systems and Con-trol pp. 1–7.

Grabois, Ana Paula (2001, online), ‘Explosão na p-36 foi causada por erros de manuten-ção e projeto, diz anp’. Disponível em: www1.folha.uol.com.br/folha/cotidiano/plataforma.shtml. Acesso em 14/07/2017.

Guha, Sudipto, Adam Meyerson, Nina Mishra, Rajeev Motwani & Liadan O’Callaghan(2003), ‘Clustering data streams: Theory and practice’, IEEE transactions on kno-wledge and data engineering 15(3), 515–528.

Isermann, Rolf (2006), Fault-diagnosis systems: an introduction from fault detection tofault tolerance, Springer Science & Business Media.

Jiang, Nan & Le Gruenwald (2006), ‘Research issues in data stream association rulemining’, ACM Sigmod Record 35(1), 14–19.

Page 71: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

REFERÊNCIAS BIBLIOGRÁFICAS 53

Jiang, Qingchao, Xuefeng Yan & Weixiang Zhao (2013), ‘Fault detection and diagnosisin chemical processes using sensitive principal component analysis’, Industrial &Engineering Chemistry Research 52(4), 1635–1644.

Joseph, Jyothis (2011), Data stream mining, Relatório técnico.

Koteswara Reddy, G & Kiran Yarakula (2016), ‘Analysis of accidents in chemical processindustries in the period 1998-2015’, International Journal of ChemTech ResearchCODEN (USA): IJCRGG ISSN pp. 0974–4290.

Matysiak, M (2012), Data stream mining: Basic methods and techniques, Relatório téc-nico, Technical Report, RWTH Aachen University.

Misra, Krishna B (2008), Handbook of performability engineering, Springer Science &Business Media.

Mohammed, Hoda K & Eng Amany F Soliman (2010), ‘Data stream mining’.

Osherson, Daniel & Edward E Smith (1997), ‘On typicality and vagueness’, Cognition64(2), 189–206.

Powers, David Martin (2011), ‘Evaluation: from precision, recall and f-measure to roc,informedness, markedness and correlation’.

Rato, Tiago J & Marco S Reis (2013), ‘Fault detection in the tennessee eastman bench-mark process using dynamic principal components analysis based on decorrelatedresiduals (dpca-dr)’, Chemometrics and Intelligent Laboratory Systems 125, 101–108.

Rato, Tiago, Marco Reis, Eric Schmitt, Mia Hubert & Bart De Ketelaere (2016), ‘A sys-tematic comparison of pca-based statistical process monitoring methods for high-dimensional, time-dependent processes’, AIChE Journal 62(5), 1478–1493.

Rebouças, Diogo Leite (2011), Utilização de redes neurais artificiais para detecção e di-agnóstico de falhas, Dissertação de mestrado, Universidade Federal do Rio Grandedo Norte.

Venceslau, Allan Robson Silva (2013), Detecção e diagnostico de agarramento em válvu-las posicionadoras, Dissertação de mestrado, Universidade Federal do Rio Grandedo Norte.

Venkatasubramanian, Venkat (2003a), Abnormal events management in complex processplants: challenges and opportunities in intelligent supervisory control, em ‘Procee-dings FOCAPO’, p. 117ff.

Venkatasubramanian, Venkat, Raghunathan Rengaswamy, Kewen Yin & Surya N Ka-vuri (2003), ‘A review of process fault detection and diagnosis: Part i: Quantitativemodel-based methods’, Computers & chemical engineering 27(3), 293–311.

Page 72: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

54 REFERÊNCIAS BIBLIOGRÁFICAS

Yin, Shen, Steven X Ding, Adel Haghani, Haiyang Hao & Ping Zhang (2012), ‘A compa-rison study of basic data-driven fault diagnosis and process monitoring methods onthe benchmark tennessee eastman process’, Journal of Process Control 22(9), 1567–1581.

Zhu, Yunyue & Dennis Shasha (2002), Statstream: Statistical monitoring of thousands ofdata streams in real time, em ‘Proceedings of the 28th international conference onVery Large Data Bases’, VLDB Endowment, pp. 358–369.

Page 73: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

Apêndice A

Informações adicionais

No Capítulo 4 foram analisados alguns dos resultados obtidos que representam grandeparte dos cenários encontrados. Neste apêndice se encontram os demais resultados obti-dos nessa pesquisa.

Page 74: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

56 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.1: Variáveis falha 2.

Figura A.2: Resultados do RDE para a falha 2.

Page 75: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

57

Figura A.3: Excentricidade normalizada para a falha 2.

Figura A.4: Resultados do TEDA para a falha 2.

Page 76: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

58 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.5: Resultados do TEDA para a falha 2 com seleção de variáveis.

Figura A.6: Resultados do RPCA para a falha 2.

Page 77: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

59

Figura A.7: Variáveis falha 4.

Figura A.8: Resultados do RDE para a falha 4.

Page 78: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

60 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.9: Excentricidade normalizada para a falha 4.

Figura A.10: Resultados do TEDA para a falha 4.

Page 79: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

61

Figura A.11: Resultados do TEDA para a falha 4 com seleção de variáveis.

Figura A.12: Resultados do RPCA para a falha 4.

Page 80: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

62 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.13: Variáveis falha 5.

Figura A.14: Resultados do RDE para a falha 5.

Page 81: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

63

Figura A.15: Excentricidade normalizada para a falha 5.

Figura A.16: Resultados do TEDA para a falha 5.

Page 82: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

64 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.17: Resultados do TEDA para a falha 5 com seleção de variáveis.

Figura A.18: Resultados do RPCA para a falha 5.

Page 83: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

65

Figura A.19: Variáveis falha 7.

Figura A.20: Resultados do RDE para a falha 7.

Page 84: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

66 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.21: Excentricidade normalizada para a falha 7.

Figura A.22: Resultados do TEDA para a falha 7.

Page 85: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

67

Figura A.23: Resultados do TEDA para a falha 7 com seleção de variáveis.

Page 86: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

68 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.24: Resultados do RPCA para a falha 7.

Figura A.25: Variáveis falha 8.

Page 87: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

69

Figura A.26: Resultados do RDE para a falha 8.

Figura A.27: Excentricidade normalizada para a falha 8.

Page 88: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

70 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.28: Resultados do TEDA para a falha 8.

Figura A.29: Resultados do TEDA para a falha 8 com seleção de variáveis.

Page 89: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

71

Figura A.30: Resultados do RPCA para a falha 8.

Figura A.31: Variáveis falha 9.

Page 90: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

72 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.32: Resultados do RDE para a falha 9.

Figura A.33: Excentricidade normalizada para a falha 9.

Page 91: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

73

Figura A.34: Resultados do TEDA para a falha 9.

Page 92: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

74 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.35: Resultados do TEDA para a falha 9 com seleção de variáveis.

Figura A.36: Resultados do RPCA para a falha 9.

Page 93: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

75

Figura A.37: Variáveis falha 10.

Figura A.38: Resultados do RDE para a falha 10.

Page 94: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

76 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.39: Excentricidade normalizada para a falha 10.

Figura A.40: Resultados do TEDA para a falha 10.

Page 95: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

77

Figura A.41: Resultados do TEDA para a falha 10 com seleção de variáveis.

Figura A.42: Resultados do RPCA para a falha 10.

Page 96: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

78 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.43: Variáveis falha 11.

Figura A.44: Resultados do RDE para a falha 11.

Page 97: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

79

Figura A.45: Excentricidade normalizada para a falha 11.

Figura A.46: Resultados do TEDA para a falha 11.

Page 98: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

80 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.47: Resultados do TEDA para a falha 11 com seleção de variáveis.

Page 99: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

81

Figura A.48: Resultados do RPCA para a falha 11.

Figura A.49: Variáveis falha 12.

Page 100: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

82 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.50: Resultados do RDE para a falha 12.

Figura A.51: Excentricidade normalizada para a falha 12.

Page 101: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

83

Figura A.52: Resultados do TEDA para a falha 12.

Figura A.53: Resultados do TEDA para a falha 12 com seleção de variáveis.

Page 102: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

84 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.54: Resultados do RPCA para a falha 12.

Figura A.55: Variáveis falha 13.

Page 103: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

85

Figura A.56: Resultados do RDE para a falha 13.

Figura A.57: Excentricidade normalizada para a falha 13.

Page 104: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

86 APÊNDICE A. INFORMAÇÕES ADICIONAIS

Figura A.58: Resultados do TEDA para a falha 13.

Figura A.59: Resultados do TEDA para a falha 13 com seleção de variáveis.

Page 105: Análise de Desempenho de Abordagens Orientadas a Fluxo de ... · Lista de Figuras iii Lista de Tabelas vii Lista de Símbolos e Abreviaturas ix ... 2.6 Detecção de falhas baseada

87

Figura A.60: Resultados do RPCA para a falha 13.