Uma Metodologia Baseada em Grafo de Conhecimento para ...

162
UNIVERSIDADE DO RIO GRANDE DO NORTE FEDERAL UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO Uma Metodologia Baseada em Grafo de Conhecimento para Análise de Registros de Alarmes e Eventos Industriais Aguinaldo Bezerra Batista Júnior Orientador: Prof. Dr. Ivanovitch Medeiros Dantas da Silva Tese apresentada ao Programa de Pós- Graduação em Engenharia Elétrica e de Computação da UFRN (área de concen- tração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Doutor em Ciências. Número de ordem PPgEEC: D305 Natal, RN, outubro de 2021

Transcript of Uma Metodologia Baseada em Grafo de Conhecimento para ...

Page 1: Uma Metodologia Baseada em Grafo de Conhecimento para ...

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE TECNOLOGIA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E

DE COMPUTAÇÃO

Uma Metodologia Baseada em Grafo deConhecimento para Análise de Registros de

Alarmes e Eventos Industriais

Aguinaldo Bezerra Batista Júnior

Orientador: Prof. Dr. Ivanovitch Medeiros Dantas da Silva

Tese apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e deComputação da UFRN (área de concen-tração: Engenharia de Computação) comoparte dos requisitos para obtenção do títulode Doutor em Ciências.

Número de ordem PPgEEC: D305Natal, RN, outubro de 2021

Page 2: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Batista Junior, Aguinaldo Bezerra. Uma metodologia baseada em grafo de conhecimento para análisede registros de alarmes e eventos industriais / AguinaldoBezerra Batista Junior. - 2021. 162 f.: il.

Tese (doutorado) - Universidade Federal do Rio Grande doNorte, Centro de Tecnologia, Programa de Pós-Graduação emEngenharia Elétrica e de Computação, Natal, RN, 2021. Orientador: Prof. Dr. Ivanovitch Medeiros Dantas da Silva.

1. Alarmes e eventos - Tese. 2. Grafos de conhecimento -Tese. 3. Processamento de linguagem natural - Tese. 4.Similaridade de dados - Tese. 5. Visualização de dados - Tese.I. Silva, Ivanovitch Medeiros Dantas da. II. Título.

RN/UF/BCZM CDU 004.93

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

Elaborado por Ana Cristina Cavalcanti Tinôco - CRB-15/262

Page 3: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Ao ideário de liberdade, igualdade,fraternidade e justiça.

Page 4: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Agradecimentos

Como dizia Lemmy Kilmister do Motörhead, “the chase is better than the catch”. Aofinal da jornada, além do alívio e regozijo pelo vencimento de mais uma etapa da vida,remanescem as edificantes memórias do período vivenciado, o incomensurável aprendi-zado adquirido e o sentimento de gratidão a pessoas especiais que me apoiaram ao longodesta caminhada.

Agradeço aos meus pais pela boa formação ética e moral, e por terem me proporcionadouma boa educação.

Agradeço à minha esposa, Ana Magda, pela irrestrita compreensão e apoio no decorrerdos longos anos dessa jornada.

Ao meu orientador, Prof. Ivanovitch Silva, agradeço pela direção e aconselhamento, pelaconfiança e amizade, pela paciência e pela serenidade no tratamento das adversidades.

Ao Prof. Luiz Affonso, sou grato pela confiança e pelos valiosos e edificantes conselhos.

Agradeço também à turma formada a partir da “sala B429” do IMD, em especial aosamigos Vinícius Campos, Vitor Greati e Gisliany Alves, pela recepção afetuosa, pelaparceria e pelo aprendizado.

Aos colegas do LII, registro minha gratidão pela ótima convivência e pelo instigante am-biente de aprendizado e contínuo aperfeiçoamento.

Aos amigos e colegas do CLBI e do INPE, agradeço pelo incentivo e apoio moral.

E ao PPgEEC, agradeço por ter me concedido a oportunidade de galgar mais um degrauem minha formação acadêmica.

Page 5: Uma Metodologia Baseada em Grafo de Conhecimento para ...

O desafio da modernidade é viversem ilusões, porém sem se desiludir.

(Antonio Gramsci)

Page 6: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Resumo

Os registros (logs) de alarmes e eventos compõem um volumoso e dormente reposi-tório de dados históricos de natureza tabular, comumente sub-valorada ou negligenciadana indústria. Embora constituam fontes potencialmente ricas em informações relevantessobre a planta ou processo monitorado, esses registros são tomados para análise apenascomo último recurso, sobretudo devido às dificuldades impostas pelo grande volume ebaixa expressividade dessas bases. Tal indiligência não se mostra mais admissível no ce-nário contemporâneo de orientação a dados, já ubíquo em diversos setores produtivos eque vem se apresentando fortemente na manufatura tradicional, sobretudo pelo adventodo paradigma da Indústria 4.0. Propõe-se, assim, a transposição dessas bases para umdomínio de representação mais expressivo e flexível, propiciando uma exploração maisproativa dos episódios narrados nos registros e, consequentemente, ensejando tarefas deanálise de incidentes, de anormalidades, de conformidade e de desempenho mais céleres.Para isso, a partir do reconhecimento de uma ontologia, entidades, atributos e associa-ções virtualmente imersas no contexto operacional historiado nos registros são mapeadosem um grafo de conhecimento (do inglês, Knowledge Graph - KG). A abordagem utilizatécnicas de Análise Exploratória de Dados, Processamento de Linguagem Natural, Aná-lise de Redes, Análise Multivariada e Indicadores Compostos para derivar dos dados umamiríade de aspectos, propriedades e relacionamentos (arestas) de natureza hierárquica,temporais e de similaridade instituídos entre as entidades (nós) identificadas. A visualiza-ção do KG se dá de forma dinâmica e interativa, com diferentes modos de visualização eníveis de detalhamento. Cenários de avaliação são desenhados para demonstrar a eficáciada abordagem.

Palavras-chave: alarmes e eventos, grafos de conhecimento, processamento de lin-guagem natural, similaridade de dados, visualização de dados.

Page 7: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Abstract

Alarm and event logs make up a voluminous and dormant historical repository oftabular-like data, commonly undervalued or overlooked in manufacturing. Although theyare a potentially rich source of relevant information about the monitored plant or process,these records are taken for analysis only as a last resort, mainly due to the difficultiesimposed by the large volume and low expressiveness of those databases. Such oversightis no longer acceptable in the contemporary data-oriented scenario, already ubiquitous inseveral productive sectors and gaining prominence in traditional manufacturing, especi-ally due to the advent of the Industry 4.0 paradigm. Therefore, it is proposed to transposethese bases to a more expressive and flexible representation domain, allowing a moreproactive exploration of the episodes reported in the records and, consequently, entailingmore agile incident, anomaly, compliance, and performance analysis tasks. For such,from the recognition of an ontology, entities, attributes, and associations virtually im-mersed in the operational context described in the records are mapped into a KnowledgeGraph (KG). The approach uses Exploratory Data Analysis, Natural Language Proces-sing, Network Analysis, Multivariate Analysis, and Composite Indicators techniques toderive a myriad of aspects, properties, and relations from data, which are incorporatedas hierarchical, temporal, and similarity relationships (edges) between identified entities(nodes). The visualization of the KG is dynamic and interactive, with different visuali-zation modes and levels of detail. Evaluation scenarios are designed to demonstrate theeffectiveness of the approach.

Keywords: alarms and events, knowledge graphs, natural language processing, datasimilarity, data visualization.

Page 8: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Sumário

Sumário i

Lista de Figuras v

Lista de Tabelas vii

Lista de Símbolos e Abreviaturas viii

1 Introdução 11.1 Premissas e Hipóteses da Tese . . . . . . . . . . . . . . . . . . . . . . . 31.2 Objetivos da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Contribuições da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Estruturação da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Fundamentação Teórica 62.1 Ciência de Dados e Big Data na Indústria 4.0 . . . . . . . . . . . . . . . 62.2 Registros Industriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.1 Registros de Variáveis de Processo . . . . . . . . . . . . . . . . . 82.2.2 Registros de Alarmes e Eventos Industriais . . . . . . . . . . . . 9

2.2.2.1 Alarmes . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2.2 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.3 Sistema de Alarmes . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.3.1 Partes de um SA . . . . . . . . . . . . . . . . . . . . . 122.2.3.2 Gerenciamento de Alarmes . . . . . . . . . . . . . . . 13

2.2.4 Conceitos e Convenções Relacionadas . . . . . . . . . . . . . . . 152.3 Ativos Industriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Descoberta de Conhecimento em Base de Dados . . . . . . . . . . . . . . 17

2.4.1 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . 182.4.1.1 Análise Exploratória de Dados . . . . . . . . . . . . . 19

2.5 Grafos de Conhecimento e Ontologias . . . . . . . . . . . . . . . . . . . 202.5.1 Ontologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5.2 Grafos de Conhecimento . . . . . . . . . . . . . . . . . . . . . . 222.5.3 Organização, Armazenamento e Visualização de KGs . . . . . . . 24

2.5.3.1 Modelo de Dados . . . . . . . . . . . . . . . . . . . . 242.5.3.2 Banco de Dados em Grafo . . . . . . . . . . . . . . . . 24

i

Page 9: Uma Metodologia Baseada em Grafo de Conhecimento para ...

2.5.3.3 Visualização de Grafos . . . . . . . . . . . . . . . . . 252.5.3.4 Representação Grafos em Espaço Vetorial . . . . . . . 27

2.6 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . . 282.6.1 Mineração de Texto . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.6.1.1 Extração de Informação . . . . . . . . . . . . . . . . . 282.6.1.2 Modelagem de tópicos . . . . . . . . . . . . . . . . . . 29

2.6.2 Similaridade textual . . . . . . . . . . . . . . . . . . . . . . . . 302.7 Similaridade entre Entidades . . . . . . . . . . . . . . . . . . . . . . . . 302.8 Indicadores Compostos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.8.1 Construção de Índices Compostos . . . . . . . . . . . . . . . . . 31

3 Trabalhos relacionados 333.1 Metodologia de Busca . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Análise de Registros de Alarmes e Eventos . . . . . . . . . . . . . . . . 343.3 Grafos de Conhecimento na Indústria . . . . . . . . . . . . . . . . . . . 38

3.3.1 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . 39

4 Caracterização do Problema e Proposta 414.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.1.1 Formato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.1.2 Principais problemas em bases de alarmes e eventos . . . . . . . 43

4.2 Abordagem Proposta: KG para Alarmes e Eventos . . . . . . . . . . . . 444.2.1 Diretrizes de Criação do KG . . . . . . . . . . . . . . . . . . . . 46

5 Grafo de Conhecimento de Alarmes e Eventos (KGAE) 485.1 Pré-processamento de dados . . . . . . . . . . . . . . . . . . . . . . . . 48

5.1.1 Avaliação Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . 495.1.2 Resolução de Problemas de Qualidade . . . . . . . . . . . . . . . 505.1.3 Análise Quantitativa e Qualitativa . . . . . . . . . . . . . . . . . 535.1.4 Enriquecimento e Suplementação . . . . . . . . . . . . . . . . . 55

5.1.4.1 Unicidade de Episódios . . . . . . . . . . . . . . . . . 565.1.4.2 Determinação de janelas de tempo . . . . . . . . . . . 565.1.4.3 Processamento de descrições dos registros . . . . . . . 57

5.2 Construção do KGAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.2.1 Derivação de Ontologia . . . . . . . . . . . . . . . . . . . . . . 59

5.2.1.1 Componentes afetos aos ativos . . . . . . . . . . . . . 605.2.1.2 Componentes afetos aos registros . . . . . . . . . . . . 655.2.1.3 Integração de componentes em uma ontologia . . . . . 65

5.2.2 Mapeamento da ontologia na base de registros . . . . . . . . . . 665.2.3 População do KGAE . . . . . . . . . . . . . . . . . . . . . . . . 67

5.2.3.1 Agregação de episódios e ocorrências . . . . . . . . . . 675.2.3.2 Agregação dos ativos . . . . . . . . . . . . . . . . . . 705.2.3.3 Propagação ascendente de sequências binárias . . . . . 70

5.3 Incremento do KGAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.3.1 Relacionamentos Sequenciais . . . . . . . . . . . . . . . . . . . 72

Page 10: Uma Metodologia Baseada em Grafo de Conhecimento para ...

5.3.1.1 Sequências originais . . . . . . . . . . . . . . . . . . . 725.3.1.2 Sequências de interesse . . . . . . . . . . . . . . . . . 73

5.3.2 Relacionamentos de Causalidade . . . . . . . . . . . . . . . . . . 745.3.3 Relacionamentos de Similaridade . . . . . . . . . . . . . . . . . 74

5.3.3.1 Medidas de Similaridade . . . . . . . . . . . . . . . . 755.3.3.2 Similaridade Composta . . . . . . . . . . . . . . . . . 78

5.4 Visualização do KGAE . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.4.1 Elementos e Propriedades Visuais . . . . . . . . . . . . . . . . . 825.4.2 Modos de Visualização . . . . . . . . . . . . . . . . . . . . . . . 83

5.5 Considerações Finais sobre o Capítulo . . . . . . . . . . . . . . . . . . . 845.5.1 Considerações sobre o ponto de ocorrência dos registros . . . . . 845.5.2 Sincronização com base de registros . . . . . . . . . . . . . . . . 845.5.3 Crescimento quadrático de relacionamentos de similaridade . . . 855.5.4 Mapa da Criação do KGAE . . . . . . . . . . . . . . . . . . . . 85

6 Experimentos e Resultados 876.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.2 Infraestrutura de Computação . . . . . . . . . . . . . . . . . . . . . . . . 87

6.2.1 Escolhas Arquiteturais e Tecnológicas . . . . . . . . . . . . . . . 876.2.2 Arquitetura da Infraestrutura de Computação . . . . . . . . . . . 89

6.3 Cenários de Análise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906.3.1 Cenário 1: Panorama Geral . . . . . . . . . . . . . . . . . . . . . 926.3.2 Cenário 2: Sequências de Ocorrências . . . . . . . . . . . . . . . 936.3.3 Cenário 3: Linha do Tempo . . . . . . . . . . . . . . . . . . . . 946.3.4 Cenário 4: Alarmes e Eventos Importantes . . . . . . . . . . . . 956.3.5 Cenário 5: Agrupamento de Templates . . . . . . . . . . . . . . . 976.3.6 Cenário 6: K Vizinhos Mais Similares . . . . . . . . . . . . . . . 986.3.7 Cenário 7: Mapa de Causalidade . . . . . . . . . . . . . . . . . . 996.3.8 Cenário 8: Comunidades de Similares . . . . . . . . . . . . . . . 100

6.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

7 Conclusão 1027.1 Sumário de Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 1037.2 Direções Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047.3 Produção Científica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

7.3.1 Artigos Publicados em Periódicos . . . . . . . . . . . . . . . . . 1067.3.2 Artigos Publicados em Anais de Eventos . . . . . . . . . . . . . 107

Referências bibliográficas 109

ApêndicesA Medidas de Similaridade entre Nós do KGAE 127

A.1 Similaridade Ancestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 127A.1.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127A.1.2 Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Page 11: Uma Metodologia Baseada em Grafo de Conhecimento para ...

A.2 Similaridade baseada na correlação cruzada . . . . . . . . . . . . . . . . 129A.2.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129A.2.2 Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

A.3 Similaridade Categórica . . . . . . . . . . . . . . . . . . . . . . . . . . . 132A.4 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133A.5 Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133A.6 Similaridade Textual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134A.7 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134A.8 Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135A.9 Similaridade Estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

A.9.1 GraphSAGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136A.9.2 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137A.9.3 Cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

B Similaridade Composta - Ponderação 138B.1 Estratégia de Ponderação . . . . . . . . . . . . . . . . . . . . . . . . . . 138B.2 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138B.3 Método objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

B.3.1 Verificação de Adequabilidade . . . . . . . . . . . . . . . . . . . 139B.3.2 Extração de Fatores . . . . . . . . . . . . . . . . . . . . . . . . . 140B.3.3 Seleção e análise dos fatores . . . . . . . . . . . . . . . . . . . . 140B.3.4 Cálculo dos Pesos . . . . . . . . . . . . . . . . . . . . . . . . . 141

C Infraestrutura de Suporte Computacional 143C.1 Soluções, Tecnologias e Bibliotecas . . . . . . . . . . . . . . . . . . . . 143

Page 12: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Lista de Figuras

2.1 Variáveis de processo em sistema de malha fechada. . . . . . . . . . . . . 92.2 Pirâmide da automação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Alarmes e eventos no contexto de uma variável de processo monitorada. . 112.4 Ciclo de vida para o gerenciamento de alarmes segundo a norma ISA-

18.2. Adaptado de (ANSI/ISA 2016). . . . . . . . . . . . . . . . . . . . 142.5 Grafos versus tabelas na representação de dados. . . . . . . . . . . . . . 212.6 Ontologia de uma universidade versus seu respectivo organograma (KG

parcialmente populado). . . . . . . . . . . . . . . . . . . . . . . . . . . 232.7 Exemplo de LPG abrigando um KG (infraestrutura aeroportuária). . . . . 262.8 Esquema de obtenção de embeddings para nós de um grafo. . . . . . . . . 272.9 Processo de EI sobre uma sentença textual. . . . . . . . . . . . . . . . . 29

4.1 Visão geral da abordagem proposta. . . . . . . . . . . . . . . . . . . . . 464.2 Estrutura básica do KGAE proposto. . . . . . . . . . . . . . . . . . . . . 47

5.1 Fases de geração do KGAE. . . . . . . . . . . . . . . . . . . . . . . . . 485.2 Processos da etapa de resolução de problemas de qualidade. . . . . . . . 505.3 Gráfico de barras empilhadas relacionando duas variáveis categóricas. . . 535.4 Diagrama aluvial para múltiplas variáveis categóricas. . . . . . . . . . . . 545.5 Diagrama aluvial evidenciando as frequências de categorias ao longo do

tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.6 Aplicação do MCA sobre variáveis categóricas de uma base de registros. . 555.7 Enriquecimento de dados via processamento de descrições dos registros. . 595.8 Visão geral da fase de construção do KGAE. . . . . . . . . . . . . . . . . 605.9 Ontologia obtida a partir de um esquema de banco de dados. . . . . . . . 625.10 Diagrama aluvial destacando proporções e hierarquia entre quatro variá-

veis categóricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.11 Diagrama sunburst destacando proporções e hierarquia entre três variá-

veis categóricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.12 Grafo das relações entre colunas categóricas da base de registros. . . . . . 645.13 Componentes ontológicos afetos aos registros. . . . . . . . . . . . . . . . 655.14 Ontologia resultante da etapa de derivação ontológica. . . . . . . . . . . . 665.15 Mapeamento entre elementos de uma tabela da base de registros e com-

ponentes ontológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.16 Mapeamento das marcações de tempo dos registros em sequências binárias. 695.17 Sequência binárias para os registros de alarmes. . . . . . . . . . . . . . . 705.18 Exemplo do KGAE obtido ao final da fase de construção. . . . . . . . . . 71

v

Page 13: Uma Metodologia Baseada em Grafo de Conhecimento para ...

5.19 Propagação ascendente as sequências binárias. . . . . . . . . . . . . . . . 715.20 Relacionamento sequencial indicando precedência/posterioridade entre nós. 735.21 Relacionamentos sequencias destacando sequências e transições. . . . . . 735.22 Mapa causal envolvendo uma seleção de episódios. . . . . . . . . . . . . 745.23 Múltiplos aspectos de similaridades entre episódios do KGAE. . . . . . . 785.24 Principais propriedades visuais do KGAE. . . . . . . . . . . . . . . . . . 835.25 Modos de visualização do KGAE. . . . . . . . . . . . . . . . . . . . . . 845.26 Mapa de fases, etapas, processos e procedimentos da abordagem de cria-

ção do KGAE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.1 Arquitetura da infraestrutura de computação desenvolvida para a aborda-gem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6.2 Abordagem de visualização relativa ao Cenário 1. . . . . . . . . . . . . . 936.3 Abordagem de visualização relativa ao Cenário 2. . . . . . . . . . . . . . 946.4 Abordagem de visualização relativa ao Cenário 3. . . . . . . . . . . . . . 956.5 Abordagem de visualização relativa ao Cenário 4. . . . . . . . . . . . . . 966.6 Abordagem de visualização relativa ao Cenário 5. . . . . . . . . . . . . . 976.7 Abordagem de visualização relativa ao Cenário 6. . . . . . . . . . . . . . 986.8 Abordagem de visualização relativa ao Cenário 7. . . . . . . . . . . . . . 996.9 Abordagem de visualização relativa ao Cenário 8. . . . . . . . . . . . . . 101

A.1 Árvore genérica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128A.2 Correlação cruzada entre sequências binárias (original de (Nishiguchi &

Takai 2010)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131A.3 Gráfico de dispersão de embeddings GraphSAGE com dimensão reduzi-

das utilizando UMAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

B.1 Fluxograma do processo de ponderação. . . . . . . . . . . . . . . . . . . 142

Page 14: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Lista de Tabelas

2.1 Registros relativos ao processo hipotético da Figura 2.3. . . . . . . . . . . 13

3.1 Principais trabalhos relacionados à análise de alarmes e eventos industriais. 363.2 Principais trabalhos relacionados à aplicação de KGs na indústria. . . . . 40

4.1 Entradas exemplificativas de uma base de registros de alarmes e eventostípica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1 Bases com diferentes graus de estruturação. . . . . . . . . . . . . . . . . 505.2 Janelas de tempo agregadas as registros. . . . . . . . . . . . . . . . . . . 565.3 Exemplo hipotético da aplicação do pipeline de processamento de descri-

ções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.4 Tabela de frequência multidimensional com quatro variáveis categóricas. . 625.5 Medidas de similaridade empregadas entre nós do KGAE. . . . . . . . . 77

6.1 Visão geral do conjunto de dados explorados. . . . . . . . . . . . . . . . 886.2 Visão geral do conjunto de dados enriqueceido. . . . . . . . . . . . . . . 886.3 Visão geral KGAE criado a partir dos dados originais. . . . . . . . . . . . 89

A.1 Formato de dados admissível no cálculo da similaridade ancestral. . . . . 128A.2 Formato de dados admitido no cálculo da similaridade baseada correlação

cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130A.3 Exemplo de formato de dados admissível no cálculo da similaridade de

atributos categóricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133A.4 Formato dos atributos admissíveis no cálculo da similaridade textual. . . . 135A.5 Formato de dados admissível no cálculo da similaridade estrutural. . . . . 137

B.1 Arestas de similaridade e seus atributos (similaridades individuais), ondem é o número total de arestas e n é o número total de similaridades. . . . . 139

C.1 Principais tecnologias, soluções e bibliotecas utilizadas no desenvolvi-mento do estudo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

vii

Page 15: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Lista de Símbolos e Abreviaturas

AC: Análise Conjunta

ACD: Análise Confirmatória de Dados

AED: Análise Exploratória de Dados

AF: Análise de Fatores

AS: Análise de Sentimento

DCS: Distributed Control Systems

EI: Extração de Informação

ETL: Extract, Transform, Load

GCN: Graph Convolution Networks

GDB: Graph Databases

IHM: Interface Homem-Máquina

IIoT: Industrial Internet-of-things

IKG: Industrial Knowledge Graph

KB: Knowledge Base

KDD: Knowledge Discovery in Databases

KG: Knowledge Graph

KGAE: Knowledge Graph de Alarmes e Eventos

LPG: Labeled Property Graph

MAC: Menor Ancestral Comum

MCA: Multiple Correspondence Analysis

MES: Manufacturing Execution System

MT: Mineração de Texto

viii

Page 16: Uma Metodologia Baseada em Grafo de Conhecimento para ...

MT: Modelagem de Tópicos

MTTC: Modelagem de Tópicos em Textos Curtos

PCA: Principal Components Analysis

PIMS: Process Information Management System

PLN: Processamento de Linguagem Natural

SA: Sistema de Alarmes

SBCP: Sistema Básico de Controle de Processos

SC: Similaridade Composta

SCADA: Supervisory Control and Data Acquisition

SGA: Sistema de Gerenciamento de Alarmes

SGAA: Sistema de Gestão de Ativos de Automação

SIS: Sistema Instrumentado de Segurança

SQL: Structured Query Language

TGC: Teste de Causalidade de Granger

TI: Tecnologia da Informação

TO: Tecnologia Operacional

Page 17: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 1

Introdução

A indústria carrega o estigma de ser um ambiente muito rico em dados, porém aindacom habilidade limitada na geração de informação útil para o aprimoramento ágil de suascompetências essenciais a partir de seus dados. A grande massa de dados oriunda de umainfinidade de fontes, sobretudo pelo crescente número de elementos geradores de dadoscompondo o ecossistema industrial, normalmente encontra o caminho da indiligência.Embora constituam fontes potencialmente ricas em informações relevantes sobre a plantaou processo monitorado, apenas uma pequena parte desses dados é utilizada para subsidiara produção de informação útil em tarefas rotineiras de melhoria contínua. A maior parte édisponibilizada apenas em segundo plano para acessos esporádicos, constituindo, muitasvezes, um último recurso para amparar a análise de problemas de alta importância ougravidade. Na maior parte dos casos, esses dados terminam fadados ao arquivamento,em conformidade com regramentos normativos ou legais, sem jamais serem acessados ouprocessados (van Aardt 2015, Bhagavatula 2019).

Entre os vários motivos dessa negligência da indústria com esses dados, estão as di-ficuldades impostas pelo grande volume, alta complexidade e baixa expressividade dasbases de dados, além de que o seus componentes encontram-se fortemente acoplados eisolados, ou seja, apartados de significantes interações com outros sistemas circunvizi-nhos (Lee et al. 2014). Além disso, o inerente conservadorismo do setor industrial acercade suas políticas, procedimentos e métodos, tradicionalmente definidos sob uma visãocentrada em operações de controle automático e monitoração de processos, cria uma bar-reira natural à orientação a dados (Lee et al. 2014). Os registros (logs) de alarmes e even-tos industriais, de interesse central desse estudo, constituem classe exemplar de dadosimersos nessa problemática. Narram textualmente todos episódios relevantes no contextode uma planta ou processo industrial, e, assim, formam bases profusas em repositórios dedados pouco explorados.

No cenário contemporâneo de orientação a dados, já ubíquo em diversos setores pro-dutivos e que vem se apresentando fortemente na manufatura tradicional, tal negligên-cia com dados não se mostra mais admissível. Essa incongruência vem, então, sendogradativamente desmontada à medida que o arcabouço teórico e tecnológico atualmentedisponível apresenta para a indústria oportunidades únicas de melhoria em desempenho,eficiência, segurança e lucratividade a partir de massas dormentes de dados geradas enão adequadamente aproveitadas. Esse movimento ganha moto adicional sob o advento

Page 18: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 1. INTRODUÇÃO 2

do paradigma da Indústria 4.0, conceito interdisciplinar que emerge como paradigma di-visor de águas na indústria, a partir da sinergia da disponibilidade de tecnologia digitalinovadora e da demanda dos consumidores por produtos customizados e de alta quali-dade (Kagermann et al. 2013). Fazendo referência a uma nova revolução industrial, por-tanto, a 4ª da nossa história, o termo Indústria 4.0 é um conceito “guarda-chuva”, definidosob várias e diversas perspectivas que possuem um ponto de convergência: representauma guinada em direção à digitalização e à informatização da manufatura, que vem trans-formando a produção e o seu gerenciamento (Lu 2017, Bartodziej 2017).

Nessa revolução, os objetivos de negócios, algoritmos inteligentes, investigações ana-líticas, tecnologias preditivas e sistemas ciber-físicos vem convergindo para promoveruma nova concepção do gerenciamento de produção e de transformação fabril (Lee et al.2014). Sob outra análise, representa uma convergência da Tecnologia da Informaçãoe Comunicação (TIC) e da Tecnologia Operacional (TO), sobre as quais as cadeias desuprimento e produção se ajustarão dinamicamente para fornecer personalização sob de-manda da produção (Lelli 2019). Ao promover uma integração holística de equipamentos,sistemas e tomadas de decisões inteligentes, uma rede composta de máquinas, materiais,trabalhadores e sistemas é estabelecida ao longo da cadeia de valor fabril para o atingi-mento da “fábrica inteligente” no contexto da Indústria 4.0 (Zhong et al. 2017).

Também firmada nesse abrangente conceito está a série de mudanças e desafios osquais a manufatura tradicional vem enfrentando para garantir a sua sobrevivência no cená-rio global de alta competitividade e orientação a dados (Bartodziej 2017, Hu et al. 2018a).O atual momento demanda, portanto, uma mudança postural no setor, orientada pe-los preceitos da Indústria 4.0. Essa inclinação tem ganhado alta prioridade e projeção,delineando-se como um processo estratégico e progressivo de melhoria contínua que, paraalgumas companhias, acabou de começar e tem um longo caminho pela frente. Assim,um passo plausível nesse gradual acercamento à Indústria 4.0 é a melhoraria do desem-penho e da governança operacional a partir da exploração proativa da grande massa dedados oriunda dos repositórios industriais.

As recentes inovações e avanços tecnológicos nas searas da Ciência de Dados e BigData vem contribuindo para que esse passo em direção à Industria 4.0 seja dado, favore-cendo a transformação da grande e crua massa de dados produzida e tipicamente deixadaem segundo plano pela manufatura em informação útil e atempada. Isso vem constituindouma inexorável tendência no setor, a partir da realização de que informações extraídasdessa massa dormente de dados proporcionam um aumento no domínio sobre os proces-sos industriais, garantindo um maior suporte a operadores, analistas e gerentes na tomadade decisões, no planejamento de ações e na melhoria contínua das operações.

Nesse contexto, insere-se o estudo descrito ao longo dos Capítulos desta tese, cujocerne é a viabilização de uma forma alternativa de representação, acesso e evidenciaçãode informações em bases de registros de alarmes e eventos industriais, normalmente denatureza tabular. Por meio da transposição destas para um domínio de representação maisexpressivo e flexível, propicia-se a exploração mais proativa dos episódios narrados nosregistros e, consequentemente, enseja-se tarefas de análise de incidentes, de anormalida-des, de conformidade e de desempenho mais céleres. A ideia é empregar uma abstraçãoconcisa e intuitiva baseada em grafos, aprimorados a um pouco além dos nós e arestas para

Page 19: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 1. INTRODUÇÃO 3

expressamente representar e interligar o conhecimento presente, melhorando a integração,o gerenciamento e extração de valor dessas bases. Os Grafos de Conhecimento (do inglês,Knowledge Graphs - KGs), estruturas voltadas à acumulação e transmissão de conheci-mento do mundo real, estendendo o tradicional modelo nó-aresta (Hogan et al. 2021),fornecem a versatilidade de representação, estruturação e armazenamento de dados re-querida dada a alta complexidade e profusão das bases de registros de alarmes e eventos.Os KGs são estruturas semânticas poderosas capazes de representar o conhecimento deforma eficiente, organizada e facilmente compreensível, inclusive para não-especialistasno domínio.

1.1 Premissas e Hipóteses da Tese

Os registros de alarmes e eventos industriais constituem bases de dados históricas debaixo nível e de natureza específica, estritamente relacionados aos equipamentos e siste-mas no contexto da planta ou processo. Por serem numerosos, muito frequentes e de corpotextual limitado, esses registros raramente entregam informações aproveitáveis se anali-sados isoladamente ou em pequeno conjunto. Assume-se, portanto, que procedimentosquantitativos e qualitativos de análise, tais como contabilizações, comparações, agrupa-mentos, agregações e generalizações, se fazem oportunos, quando não necessários, emprocessos de extração de informações dessas base de dados.

Ainda nesse contexto, presume-se também que, pelo fato dos registros de alarmes eeventos majoritariamente descreverem episódios relacionados a ativos de automação, po-dem existir relacionamentos intrínsecos entre esses ativos. Não obstante, os ativos cons-tantes desses registros, assim como os próprios registros, são comparáveis entre si sobvários aspectos (temporais, textuais, topológicos, etc.). Consequentemente, o estabeleci-mento de relações entre essas entidades se mostra também oportuna, além de desejávelem um processo de análise.

O estudo em tela pressupõe também que os registros de alarmes e eventos constituembase de dados suficiente para o emprego da metodologia proposta nessa tese, embora re-presentem apenas uma fatia da abundância de dados gerados em um contexto operacionalindustrial. É preciso destacar também que, como os episódios relatados nos registrossão expressões dos efeitos e não indicação de causa de problemas, o estabelecimento derelações de causa-efeito taxativas é tarefa irrealizável, embora indícios dessas relaçõespossam ser identificados e expressados por meio da metodologia em tela. Em suma, aabordagem de análise proposta, subsidiada por fatos expressos apenas por este tipo debase de dados, limita-se à compilação e organização de um conjunto de indícios poten-cialmente útil em investigações, mas sem o condão de conduzir análises a um desfechodefinitivo.

A partir dessas premissas, as seguintes hipóteses principais foram formuladas:

1. A transposição das bases de registros para um domínio de representação semanti-camente mais expressivo como o dos KGs é uma tarefa viável e conveniente.

2. Os registros explicitamente ou implicitamente mantém informações de cunho on-tológico (entidades, classes, atributos, relações, etc.) que podem ser identificadas e

Page 20: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 1. INTRODUÇÃO 4

empregadas para a construção de um KG.3. A comparação entre os elementos desse KG, derivados a partir dos registros, favo-

recem e auxiliam tarefas de análise de variadas naturezas e sob diversos aspectos.4. A representação visual dos elementos do KG tem a capacidade de tornar as infor-

mações presentes nos registros mais tangíveis e compreensíveis.5. A utilização de um KG juntamente com a sua representação visual favorece a sín-

tese e simplifica a navegação sobre dados, especialmente em bases de grande vo-lume.

1.2 Objetivos da Tese

Diante do cenário apresentado e no intuito de verificar as hipóteses formuladas, opresente estudo tem como objetivo principal o desenvolvimento de uma abordagem deprocessamento sobre bases tabulares de registros de alarmes e eventos industriais, base-ada em KGs, capaz de melhorar a síntese e a compreensibilidade destas imensas bases,ensejando e assistindo tarefas de gerenciamento e análise.

1.2.1 Objetivos EspecíficosPara ser atingível, esse objetivo geral pode ser desmembrado e detalhado nos seguintes

objetivos específicos:

1. Concepção de uma metodologia de pré-processamento e preparação de bases detabulares de registros de alarmes e eventos industriais para subsidiar a abordagem,com agregação de informações e sem perda dos dados originais.

2. Estabelecimento de uma ontologia com base na identificação de componentes on-tológicos nos registros, a partir da qual o KG deve ser construído.

3. Viabilização do mapeamento dos atores fundamentais identificáveis nos registros,bem como de seus respectivos atributos, em elementos de um KG.

4. Estabelecimento de novas relações entre elementos do KG, com base em acepçõesobtidas a partir dos dados e pertinentes para as tarefas de análise.

5. Viabilização de meios para análise visual do KG.6. Composição da infraestrutura computacional necessária para o estabelecimento, ar-

mazenamento e análise do KG.

1.3 Contribuições da Tese

Em linhas gerais, o presente estudo contribui com uma nova perspectiva sobre regis-tros de alarmes e eventos, a partir da criação de um KG de domínio específico baseadonestes dados e voltado às tarefas de análise. Sob esta perspectiva, as principais contribui-ções podem ser pontualmente destacadas:

1. Abordagem de pré-processamento visando o melhoramento e o enriquecimento debases de registros, em preparação ao seu emprego na criação de um KG.

Page 21: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 1. INTRODUÇÃO 5

2. Compilação, em um único modelo de dados, de relacionamentos entre fatos, enti-dades, conceitos e o resultado de análises.

3. Metodologia de derivação de uma ontologia com base nos registros para a criaçãode um KG.

4. Metodologia de conversão de registros em nós e relacionamentos de um KG.5. Ampliação do rol de aspectos de similaridade utilizados na comparação entre alar-

mes, eventos e ativos mencionados nos registros.6. Indicador composto de similaridade entre nós do KG com base em procedimentos

estatísticos.7. Motor de visualização voltado à evidenciação dos dados e dos componentes onto-

lógicos do KG.8. Infraestrutura computacional de suporte à abordagem.

1.4 Estruturação da Tese

O restante do documento está organizado em mais 7 capítulos:

• Capítulo 2 - Fundamentação Teórica: reúne os conceitos básicos necessários àcompreensão da proposta da tese.

• Capítulo 3 - Trabalhos relacionados: apresenta os principais trabalhos relaciona-dos ao tema da proposta.

• Capítulo 4 - Caracterização do Problema e Proposta: apresenta a caracterizaçãodo problema que motivou o desenvolvimento do estudo e a concepção da aborda-gem proposta.

• Capítulo 5 - Grafo de Conhecimento de Alarmes e Eventos (KGAE): dedica-seao detalhamento do desenvolvimento da abordagem proposta.

• Capítulo 6 - Experimentos e Resultados: demonstra a eficácia da proposta emcenários de análise.

• Capítulo 7 - Conclusão: encerra a dissertação com considerações finais e indica-ções dos trabalhos futuros.

Os Apêndices A, B e C reúnem informações suplementares ao entendimento de algunsaspectos abordados nos Capítulos 5 e 6.

Page 22: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 2

Fundamentação Teórica

Os domínios e conceitos que guardam relação estreita ou subsidiária com o objetodeste estudo estão organizados em temas gerais, a título de contextualização, e temasespecíficos, necessários ao entendimento da proposta, convenientemente encadeados aolongo do desenvolvimento das seções deste capítulo.

2.1 Ciência de Dados e Big Data na Indústria 4.0

Ciência de Dados e Big Data são temas de crescente relevância no domínio industrial,especialmente no contexto da Indústria 4.0, cuja mais importante dimensão é transforma-ção de como a indústria lida com seus dados em todos os estágios fabris. Em sentido am-plo, a Ciência de Dados refere-se ao conjunto fundamental e interdisciplinar de princípios,técnicas, tecnologias e processos que orientam a extração de introspecções, informaçõese conhecimento a partir dos dados, guiando o processo de tomada de decisão (Aasheimet al. 2015, NASEM 2017). Acompanhando as práticas em Ciência dos Dados, emergeo conceito de Big Data, que se refere essencialmente ao domínio científico da compu-tação aplicada a grandes, complexos e diversos conjuntos de dados (Bryant et al. 2008),que demandam abordagens diferenciadas no tocante ao armazenamento, manipulação,processamento e visualização de dados.

Embora ambos comumente apareçam fundidos ou sinonimizados na literatura, Ciên-cia de Dados e Big Data são conceitos diferentes, mas de fato relacionados e complemen-tares entre si. Enquanto a Ciência de Dados engloba as abrangentes áreas da matemática,estatística, engenharia e ciência da computação como ferramentas básicas nos processosde análise de dados (Peter Bruce & Bruce 2017), Big Data fundamenta-se em tornar essaanálise de dados computacionalmente viável no atual cenário de inundação de dados.

O estabelecimento de infraestruturas computacionais específicas são demandadas paragarantir a aptidão de lidar adequadamente com a captura, armazenamento, consulta, ge-renciamento, compartilhamento e visualização dessa massa de dados. Essa habilidadevem sendo obtida com o suporte de novos paradigmas computacionais tais como cloud,jungle, edge e fog computing, baseados elementarmente em computação distribuída, pa-ralela e de alto desempenho (Hajibaba & Gorgin 2014). A Ciência de Dados e o Big Datavem suportando o processo decisório em uma grande miríade de setores nos últimos anose teve como facilitadores tecnologias oriundas no domínio da TI (Obitko et al. 2013).

Page 23: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 7

Apesar de mais tardiamente do que em outros setores, a orientação a dados vem em-preendendo seu caminho na indústria e ganhando destaque na literatura (Diez-Olivanet al. 2019), apesar da produção de dados em larga escala na indústria ter pelo menosum século de história (Reis & Gins 2017). A coleta de dados operacionais se estabeleceucomo cultura do setor, especialmente a partir das primeiras incursões deste em direção àdigitalização ainda na década de 1980, com a adoção dos primeiros padrões e sistemasdigitais de coleta, processamento e transmissão de dados, e com a consolidação dos sis-temas de bancos de dados e mídias de armazenamento. A infraestrutura computacionaltípica, em termos do gerenciamento e processamento de dados da planta, foca principal-mente em coleta, agregação e armazenamento de dados, sob as restrições de um ambientecom visão centrada no controle de processos, com preservação de séries históricas emrepositórios de acesso sob demanda (Obitko et al. 2013).

Essa cultura faz da manufatura o setor da economia que mais gera e armazena da-dos, embora haja evidente e descompasso entre a enorme massa de dados coletada deinúmeros ativos monitorados e a adequada utilização desses dados na geração de valor,mantendo o setor como retardatário em relação à proporção de aproveitamento de seuspróprios dados (Immerman 2021). Desse modo, dados industriais frequentemente estãoacumulados em silos setoriais de dados, isolados em sistemas, máquinas, setores e depar-tamentos, com a acessibilidade limitada, devido ao grande volume e natureza complexadesses silos, bem como devido a dependências ou inviabilidade por questões relacionadasa hardware, software e licenciamento (Lorenz 2021).

A orientação a dados na indústria é um processo que, embora venha se desenhandolentamente pela postura mais conservadora do setor, ocorre de modo gradativo e natural,visto que a indústria além de dispor massivos repositórios de dados, vem ao longo dosanos, aumentando a convergência com tecnologias oriundas do domínio da TI (Wekare2016). A despeito do processamento requerido para consultas, manipulações e análisesmais aprofundadas sobre dados estar normalmente fora do escopo dos sistemas e além dacapacidade da infraestrutura de computação normalmente instalada, há uma clara incli-nação da indústria na direção da quebra desse silos de dados, advinda da oportunidade dese fazer uso dos diferentes preceitos e tecnologias de Ciência de Dados e Big Data, paramelhor aproveitar a sempre crescente massa de dados oriundos das plantas industriais.

Tornar a orientação a dados realidade fática em um ambiente conservador, com notá-veis restrições e peculiaridades é, porém, um desafio ainda a ser superado. Nesse contexto,surge o já bem aceito conceito de Big Data Industrial, que se refere basicamente à absor-ção do Big Data pela indústria, respeitando as minúcias do domínio. Herda, portanto, ascaracterísticas definidoras do conceito mais geral de Big Data, como volume, variedade,velocidade, variabilidade e veracidade (5 Vs), bem como estende esse conceito com no-vos Vs: visibilidade, que diz respeito à descoberta de introspecções a partir dos dados; evalor, que enfatiza a agregação de valor para toda a cadeia de produtiva a partir dos dadosmassivos (Basanta-Val 2018). Sob a égide dos preceitos da Indústria 4.0 e possibilitadopor abordagens aderentes ao Big Data Industrial, os negligenciados silos de dados podemser defrontados sob novos prismas, permitindo que sejam melhor aproveitados e com-preendidos. Entre esses silos de dados, estão as bases de registros de alarmes e eventos,motivo principal deste estudo.

Page 24: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 8

2.2 Registros Industriais

A manufatura vem experimentando um crescimento exponencial da produção de da-dos e informações relacionadas à planta, principalmente devido à evolução tecnológicados sistemas de automação (Habibi & Hollifield 2006) e à medida que o custo dos ati-vos continua a cair devido a fatores como o rápido avanço tecnológico da eletrônica, oaumento da produtividade com a melhoria dos processos, o aumento da competitividade,entre outros. As indústrias modernas, portanto, defrontam-se com uma já profusa e cres-cente massa de dados coletada continuamente e sob elevadas taxas de amostragem deseus inúmeros ativos, integrados e imbuídos no controle e monitoramento dos processospara os quais foram comissionados. Esses dados, além de consumidos pelos vários siste-mas circunjacentes, são também integrados e estruturados em registros (logs) históricosarquivados em repositórios de dados com hardware e software dedicados, normalmentechamados de historiadores, voltados ao armazenamento, processamento e consulta sobdemanda de registros industriais.

Os historiadores, por serem fundamentalmente constituídos de bases de registros des-critores dos acontecimentos no contexto do monitoramento, subsidiam uma visão do his-tórica e detalhada da produção. Combinados com outras ferramentas, podem fornecerinformações cruciais para a avaliação do desempenho de um processo ou planta e paraa elucidação de fatores que podem estar degradando a produção (Mehta & Reddy 2015).São, portanto, de extrema importância para a tomada de decisão em atividades de gerenci-amento, planejamento, investigação e auditoria. Entre os registros industriais, destacam-se os registros concernentes às variáveis de processo, normalmente reunidos em histo-riadores de processos, e aos alarmes e eventos industriais, comumente acumulados emhistoriadores de alarmes e eventos.

2.2.1 Registros de Variáveis de ProcessoVariável de processo é o termo utilizado na indústria para se referir a qualquer proprie-

dade aferível, normalmente de natureza numérica, relacionada a um processo monitoradoou controlado (ANSI/ISA 2009). Para tornar esse conceito mais claro, suponha-se que sedeseja manter constante a temperatura de um fluido em uma caldeira. Fatores externoscomo a temperatura do ambiente e a chegada de fluido mais frio na caldeira, entre outros,sejam ou não monitorados ou previstos, influenciam essa temperatura (aferida por umsensor) e podem ser contrabalançados pela atuação de um aquecedor (ou, mais generica-mente, um atuador).

A ação de tentar manter a referida temperatura (variável controlada) constante é o quese chama de processo, enquanto que a determinação de quando, como e em que medidadeve se dar essa atuação do aquecedor, corresponde ao controle, realizado por um con-trolador. O estado do atuador é uma variável manipulada (pelo controlador) e o valorreferencial de temperatura, a ser perseguido pelo trabalho conjunto entre controlador eatuador, é chamado de set point. Por haver retroalimentação da variável controlada, essesistema é considerado como de malha fechada. A Figura 2.1 demonstra esquematica-mente um exemplo de sistema controlado.

Page 25: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 9

Figura 2.1: Variáveis de processo em sistema de malha fechada.

Dinâmicas como a supramencionada, além de usualmente representadas em Interfa-ces Homem-Máquina (IHMs) dos sistemas, envolvem numerosas aferições das variáveisde processo, constituindo séries temporais que são incorporadas em estruturas de dadosmarcadas no tempo e consolidados nas bases de dados dos historiadores de processos.Além das leituras, os registros geralmente contam com a indicação da localização destasno contexto de monitoração, assim com informações acessórias como a taxa de amostra-gem, a unidade de medida, médias, leituras anteriores, entre outras. Esses registros nãoconstituem objeto deste estudo e, por isso, não serão explorados.

2.2.2 Registros de Alarmes e Eventos IndustriaisOs registros de alarmes e eventos industriais formam bases que catalogam a incidên-

cia dos alarmes e eventos no contexto operacional de um sistema industrial. Os alarmes eeventos industriais são mecanismos indicativos episódicos ou situacionais, normalmenteafetos ao nível de planejamento (nível 4) da pirâmide classicamente utilizada para de-monstrar a organização em camadas hierárquicas de um sistema automação (Scholten2007), ilustrada na Figura 2.2. Esse nível é composto por sistemas que realizam o aco-plamento entre os sistemas de gestão corporativa de alto nível (nível 5) com o chão de fá-brica (níveis 1-3), normalmente denominados MES (Manufacturing Execution System) ePIMS (Process Information Management System) (Colombo et al. 2014, Bartodziej 2017).Neste ponto, é essencial desenvolver a conceituação acerca dos alarmes e eventos assina-lados nos registros.

Page 26: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 10

5

VALO

RATIVOS

SENSORES / ATUADORES

CONTROLADORES

SCADA / DCS

MES

PIMS

NÍVEL DE CAMPO

NÍVEL DE CONTROLE

NÍVEL SUPERVISÓRIO

NÍVEL DE PLANEJAMENTO

NÍVEL DE GERENCIAMENTO

ER

PS

AP

4321

INFO

DADOS

Figura 2.2: Pirâmide da automação.

2.2.2.1 Alarmes

Os alarmes são meios audíveis ou visíveis de indicação de mal-funcionamento emequipamento, desvios no processo ou condições anormais, normalmente requerendo umaação interveniente do operador responsável (ANSI/ISA 2016). Quando determinada va-riável observada do processo viola uma condição de normalidade pré-estabelecida, umalarme é anunciado com indicação do tipo ou da natureza da violação e do ponto deocorrência da mesma no contexto do processo monitorado (Ahmed 2011). O ponto deocorrência (ou de interesse) se refere ao local físico ou lógico onde se deu essa violação,no contexto do inventário de ativos e dos processos monitorados, comumente referidocomo tag do alarme (Hu 2016).

Tipicamente, aos alarmes estão associados a um conjunto de estados e sub-estados cu-jas transições entre si dependem da configuração e calibração dos alarmes em relação aosparâmetros do processo monitorado, normalmente demandando uma série de ações in-tervenientes ou de reconhecimento explícito por parte dos operadores (ANSI/ISA 2016).Nesse contexto, os intervalos entre as transições desses estados também constituem ele-mentos de primordial importância. A área de segurança de processos considera alarmescomo barreiras fundamentais nos sistemas de controle de risco destinados a detectar des-vios no parâmetros do processo monitorado que possam resultar no comprometimento daintegridade dos processos e da planta (OGP 2011).

2.2.2.2 Eventos

No mesmo universo dos alarmes, também transitam outros meios indicativos im-portantes no contexto da planta ou processo monitorado, que não atendem estritamenteos requisitos para serem considerados alarmes. Tratam-se de mensagens, notificações,prompts, alertas ou registros de ações (automáticas ou manuais) instantâneas que declaramcircunstâncias gerais, rotineiras ou episódicas, assinalando quaisquer ocorrências detectá-

Page 27: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 11

veis ou alterações no sistema, podendo ou não estar associadas a alarmes (Stauffer 2019).Analogamente aos alarmes, esses meios também contam com elementos descritivos e coma indicação do ponto de ocorrência. Comumente, esses meios são referenciados simples-mente como eventos.

Apesar de numerosos, não há taxonomia formal de classificação de eventos, emborao comitê da Norma ISA-18.2 venha empreendendo esforços para suprir esta lacuna pormeio da publicação de um novo Relatório Técnico (TR-8) a ser incorporado à norma,mas com data de publicação indefinida (Joseph Alford & Nasby 2019). Como evento éum termo de natureza mais geral, comumente utilizado na literatura para designar umaocorrência ou mensagem relevante no escopo operacional de um sistema monitorado,convenciona-se agrupá-los em uma classe única, em oposição à bem definida classe dosalarmes (Hu et al. 2018c, Leitão 2018, Mannani et al. 2019). Esta convenção é tambémadotada neste estudo.

A Figura 2.3 auxilia no esclarecimento das distinções conceituais entre alarmes eeventos no contexto do monitoramento de um processo industrial hipotético. Essa fi-gura destaca os acontecimentos que, no geral, disparam alarmes (descritos em vermelho)e eventos (descritos em verde). Daqui em diante, o termo episódio será regularmente uti-lizado para generalizar alarmes e eventos industriais como acontecimentos relevantes nocontexto operacional monitorado.

Tempo

Variá

vel d

e Pr

oces

so

Limite Superior

Limite Inferior

High Level Alarm Active

High Level Alarm Inactive

Low Level Alarm Active

Low Level Alarm Inactive

I/O Failure Event

Valve Open Event

Rate of Change Event

Operação Normal

Figura 2.3: Alarmes e eventos no contexto de uma variável de processo monitorada.

Page 28: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 12

2.2.3 Sistema de AlarmesAlarmes e eventos industriais são dados consolidados no âmbito dos Sistema de Alar-

mes (SA). Os SA são ativos operacionais críticos que, nos tempos do controle analógicocom fios, consistiam de painéis de sinalizadores físicos (lâmpadas e sirenes) e de botoeirasfazendo a interface com operadores (Hu 2016). A instalação de alarmes era, portanto, umatarefa difícil devido ao alto custo do hardware e por limitações de espaço físico nos bas-tidores e painéis de controle (Hollifield & Habibi 2011). Com a gradual digitalização daindústria, tecnologias como DCS (Distributed Control Systems) e SCADA (SupervisoryControl and Data Acquisition prevaleceram como dominantes, transformando a instala-ção e configuração de alarmes em tarefas corriqueiras, de baixo esforço e complexidade,por meio da utilização de pacotes de software (Hollifield & Habibi 2011).

2.2.3.1 Partes de um SA

Em um SA típico, três subsistemas essenciais podem ser identificados (Hu 2016):

• Geração: A geração de alarmes e eventos relacionados acontece no escopo do mo-nitoramento das condições do processo e das lógicas usualmente implementadas noâmbito de sistemas como o Sistema Básico de Controle de Processos (SBCP) e oSistema Instrumentado de Segurança (SIS) (Hu 2016), entre outros sistemas gera-dores desse tipo de sinal. Entretanto, alarmes e eventos podem ter origem tambémnos próprios equipamentos de campo compondo o sistema monitorado (controla-dores, sensores e atuadores inteligentes).

• Visualização: A IHM desempenha a entrega visual das informações relativas aosalarmes e eventos, que são convenientemente mostradas por meio de diagramase painéis gráficos de controle em um SGA para chamar a atenção dos operado-res (Hollifield et al. 2008).

• Registro: Os alarmes e eventos gerados, além de devidamente diagramados e exi-bidos nas IHMs, tem suas indicações de ocorrência (traços) também previdente-mente formatados em registros (ou logs) normalmente tabulares, cronologicamenteordenados e consolidados em bases históricas para posterior consulta. Os registrosnormalmente incluem uma descrição da natureza do alarme ou evento, atributosindicativos do local de ocorrência, informações em relação a alterações de estado,além de propriedades complementares e acessórias relativas ao contexto sistêmicodo processo monitorado e do próprio SGA. Esses registros são então organizadosem bases de dados (via de regra relacionais) armazenadas em servidores dedica-dos, centralizados e voltados à retenção de longo prazo de alarmes, eventos e outrasatividades associadas (Rothenberg 2018, ANSI/ISA 2016), comumente referidoscomo historiadores de alarmes. Sob o ponto de vista textual, os registros normal-mente contam com descrições, que correspondem fundamentalmente a sentençascurtas em linguagem natural, geradas automaticamente por equipamentos e siste-mas, normalmente a partir de vocabulários e regras sintáticas pré-definidas (emboranem sempre conhecidas). Os registros de alarmes e eventos industriais, por cons-tituírem uma base histórica e detalhada de diferentes episódios em processos ou

Page 29: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 13

plantas, são de particular interesse no presente estudo e serão frequentemente refe-ridos apenas como registros ao longo do texto. A Tabela 2.1 contém uma amostra deuma base de registros típica refletindo os alarmes e eventos referentes ao processohipotético ilustrado na Figura 2.3.

Data_Tempo Tipo TAG Nó Identificador Estado Prioridade ... Descrição Id

19-05-23 10:42:03 EV AIO01 N001 IOFAIL ACTIVE WARNING ... I/O Failure ... 104819-05-23 10:41:29 EV VAL02 N002 VALOPEN ACTIVE INFO ... Valve Open ... 104519-05-23 10:34:18 AL LVL04 N003 PVLO INACTIVE CRITICAL ... Low Level ... 103719-05-23 09:57:02 AL LVL04 N003 PVLO ACTIVE CRITICAL ... Low Level ... 103119-05-23 09:23:54 AL LVL04 N003 PVHI INACTIVE CRITICAL ... High Level ... 102719-05-23 09:21:31 AL LVL04 N003 PVHI ACTIVE CRITICAL ... High Level ... 102519-05-23 09:19:46 AL LVL04 N003 PVHI INACTIVE CRITICAL ... High Level ... 102219-05-23 09:17:34 AL LVL04 N003 PVHI ACTIVE CRITICAL ... High Level ... 101919-05-23 09:15:16 AL LVL04 N003 PVLO INACTIVE CRITICAL ... Low Level ... 101719-05-23 09:12:57 AL LVL04 N003 PVLO ACTIVE CRITICAL ... Low Level ... 101019-05-23 09:04:22 EV LVL04 N003 PVRATE ATIVO WARNING ... Rate of Chan... 0996

Tabela 2.1: Registros relativos ao processo hipotético da Figura 2.3.

2.2.3.2 Gerenciamento de Alarmes

Por um lado os SA oferecem facilidade e flexibilidade ao processo de configuraçãoe operação de alarmes, fazendo com que o número de alarmes configurados em umaplanta seja frequentemente maior do que o número de variáveis de processo (Mannaniet al. 2019), aumentando as possibilidades e vascularidade de monitoramento. Por outro,podem causar um descompasso entre a excessiva quantidade de mensagens anunciadas apartir de um incidente importante e a capacidade de reconhecimento e assimilação des-tes por parte dos operadores, gerando problemas de gerenciabilidade e usabilidade dessessistemas. Em alguns cenários incidentais, operadores podem experimentar uma avalan-che intratável de dados provenientes dos SA que podem, como consequência, conduzira ações ou decisões operacionais inadequadas (da Silva et al. 2016). A ineficácia dosSA na exposição e descobrimento de problemas, assim como a má gestão de alarmes,são umas das principais causas de paradas não planejadas, incidentes graves e acidentesindustriais (EEMUA 2007, Habibi & Hollifield 2006).

O projeto e a administração de alarmes (e eventos relacionados) (ANSI/ISA 2016),chamado de gerenciamento de alarmes, é um importante processo no contexto do pla-nejamento operacional, normalmente guiado por Sistemas de Gerenciamento de Alar-mes (SGA). Apesar de bem estabelecido, o gerenciamento de alarmes é um dos aspectosmais subestimados na automação, por ser um processo erroneamente tido como simplese sobre o qual o setor dispensava uma conduta conservadora e, ao mesmo tempo, re-lapsa (Rothenberg 2018). Os alarmes nem sempre são eficientemente projetados durantea fase de comissionamento, logo, devem ser monitorados e mantidos durante toda o ciclooperacional. Em uma contribuição modernizadora para o setor, a norma ISA-18.2 propõe

Page 30: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 14

uma série de regulações na área de gerenciamento de alarmes e aborda problemas antigosrelacionados a definições, classificações, requisitos, ciclos de vida, atividades e processosde trabalho, bem como resolve divergências entre outros regramentos existentes, mas nãotão específicos à área (ANSI/ISA 2016).

A norma ISA-18.2 recomenda mudanças na filosofia de gerenciamento de alarmes,com ênfase no que é importante para o operador e no que pode ser utilizado para agre-gação de valor à instituição, e com dispersão do foco apenas em questões de hardware esoftware. Deve-se voltar a atenção ao aperfeiçoamento dos processos de trabalho para tor-nar o gerenciamento de alarmes um processo dinâmico e evolutivo, reativo às mudançasno processo e a novas práticas operacionais. Em particular, a norma prega a sistematiza-ção da área em termos de um ciclo de vida que envolve processos contínuos e integradosde monitoração, avaliação, racionalização, modelagem, manutenção e auditoria. A Fi-gura 2.4 esquematiza o ciclo de vida do processo de gerenciamento de alarmes segundo anorma ISA-18.2.

Figura 2.4: Ciclo de vida para o gerenciamento de alarmes segundo a norma ISA-18.2.Adaptado de (ANSI/ISA 2016).

Corroborando com isso, a literatura especializada das searas de segurança de proces-sos e integridade de ativos defende que dados de alarmes e eventos podem ser usadosna geração de indicadores de resultado e de tendência, métricas que fornecem evidênciasdo desempenho de uma empresa no gerenciamento de seus principais riscos (OGP 2008,OGP 2011).

O desenvolvimento de boas práticas de gestão de alarmes não é, portanto, uma ativi-dade pontual, mas um processo contínuo de evolução da maturidade institucional (Mehta& Reddy 2015), que deve ser pensado com a introdução do fator humano (ergonomia)na concepção de sistemas mais confortavelmente usáveis e gerenciáveis pelos operado-

Page 31: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 15

res (Bangert 2021). Além disso, muita atenção tem sido dedicada à parametrização econfiguração dos alarmes, a fim de tornar as operações do processo mais eficientes e se-guras (Wang et al. 2016), enquanto que os eventos da planta, embora sejam tão frequentesou numerosos quanto os alarmes, não recebem a mesma atenção. Na literatura corre-lata, os eventos industriais figuram apenas como coadjuvantes, sendo pouco exploradosquando não simplesmente ignorados.

Os episódios verbalizados pelos alarmes e eventos, após breve período de represen-tação nas IHMs dos SGAs, são arquivados por meio de registros nos historiadores dealarmes e passam a constituir volumoso silo de dados. Muitas vezes, esses silos sãomantidos apenas para fins de conformidade ou para, numa rara eventualidade, garantir oresgate do histórico desses episódios quando da necessidade de uma análise mais apro-fundada para elucidar incidentes ou desvios importantes da planta apontado por alarmesespecíficos (Rothenberg 2018).

De modo geral, apenas uma porção (principalmente alarmes) dos registros é efetiva-mente recebem a devida atenção de operadores e analistas. Sendo uma fonte importantede informações relevantes sobre plantas e processos, sustenta-se que esses registros sãotambém passíveis de exploração mais proativa, tanto para dar maior celeridade à eluci-dação de incidentes quanto para melhorar o desempenho operacional e a governança deuma organização. Fica claro, portanto, que a análise dos alarmes e eventos industriaisdeve ir além da simples seleção, agregação e apresentação de dados por parte das IHMsem SGAs tradicionais, uma vez que informações importantes podem estar ocultas do es-copo destas ferramentas ou dispersas em meio a massivos volumes dados. Então, um usomais propositivo dos dados de alarmes e eventos, sobre a égide de práticas atuais em Ci-ência de Dados e Big Data, pode entregar um valor inestimável de uma massa de dadoscomumente negligenciada.

2.2.4 Conceitos e Convenções RelacionadasNeste ponto, é adequado reforçar e unificar alguns conceitos e convenções relacio-

nados às bases de registros de alarmes e eventos que serão utilizados com frequência aolongo do texto:

• Episódio: corresponde a todo fenômeno univocamente identificável em determi-nado contexto operacional, que pode acontecer reiteradamente ao longo do tempo.Assim, episódio é a forma genérica utilizada nesta tese para se referir a determinadoalarme ou evento.

• Ocorrência: remete a toda instância ou acontecimento de um episódio ao longo dotempo.

• Registro: corresponde a uma entrada ou observação (com marcação de tempo)referente a uma ocorrência subscrita em uma base de registros de alarmes e eventos.

Page 32: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 16

2.3 Ativos Industriais

Os historiadores reúnem dados que mencionam ou se referem fundamentalmente aativos relevantes no contexto operacional de um sistema industrial monitorado. Umativo é um item, coisa ou entidade que tem valor potencial ou real para uma organiza-ção (ISO 2014). Assim como qualquer outro setor, a indústria depende de uma série deativos tangíveis (físicos, financeiros, humanos, informacionais, etc.), além de ativos in-tangíveis (propriedade intelectual, cultura organizacional, marcas registradas, etc.) cujagestão holística garante que uma organização venha a obter o desempenho esperado narealização de seus objetivos (Mehta & Reddy 2015, Hastings 2015). Nesse contexto, agestão de ativos figura como uma disciplina de reconhecida importância dada a naturezacomplexa dos sistemas modernos (Hastings 2015).

Embora gestão de ativos seja um termo bastante amplo, são de particular interesseneste estudo os ativos de automação, que compõem a infraestrutura crítica operacional.Esses ativos são fundamentalmente físicos, ciber-físicos ou de informação, responsáveispela condução contínua dos processos industriais. Sensores, atuadores, controladores,módulos computacionais, transdutores, redes de comunicação, dispositivos elétricos, dis-positivos de proteção, equipamentos mecânicos e softwares são exemplos de ativos deautomação, ou simplesmente, no escopo deste estudo, chamados de apenas de ativos.

Uma das formas de compreender como os diversos tipos de ativos em uma plantaestão organizados se dá por meio da pirâmide da automação, representação pictórica tra-dicionalmente utilizada para sumarizar as diversas camadas de sistemas que formam umafábrica típica (Figura 2.2). Os ativos podem ser classificados e agrupados em termosdos níveis hierárquicos dessa pirâmide, onde, do topo à base, os ativos aumentam emquantidade e variedade, enquanto decrescem em importância ou valor, seguindo a lógicahierárquica de uma árvore (Mehta & Reddy 2015). Da base ao topo, os dados gerados sãoprocessados, agregados e integrados na construção de informação útil para cada camada.

Para manter esses ativos disponíveis e saudáveis ao longo de todo o ciclo de vidado processo produtivo, bem como para preservar a operação eficiente e alinhada com osobjetivos institucionais, uma abordagem abrangente, estruturada e sistemática de monito-ramento e gestão de ativos se faz necessária (ISO 2014, Vasel 2012). Do ponto de vistadas operações e manutenção da planta, os Sistemas de Gestão de Ativos de Automação(SGAA) são utilizados no gerenciamento, controle e rastreamento de ativos fixos e dosdetalhes que os cercam, bem como para garantir a sustentabilidade dos riscos ao longodo ciclo de vida dos ativos, concentrando-se principalmente no prolongamento efetivo davida útil e na garantia de disponibilidade dos ativos (Mehta & Reddy 2015).

Os SGAAs combinam tecnologia, expertise e processos para guiar atividades de ge-renciamento de inventário, monitoramento de higidez, predição, prevenção e diagnós-tico de problemas, programação de manutenção preventiva, compra e substituição deequipamentos, monitoramento de disponibilidade e desempenho, entre outras (Mehta &Reddy 2015). O efetivo domínio dessas habilidades, assim como a compreensão das in-terações entre os diversos ativos, favorecem a aquisição de uma consciência situacionalconcernente ao inventário de ativos da planta, sendo, portanto, competências desejáveis aserem perseguidas pela indústria (Hastings 2015).

Page 33: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 17

2.4 Descoberta de Conhecimento em Base de Dados

O modelo mais intuitivo para transformação de dados em informação útil consiste noprocessamento manual (ou inspeção visual) da massa de dados por especialistas que, en-tão, produzem relatórios que deverão ser analisados pelos tomadores de decisão. Porém,geralmente, os dados estão em formatos pouco adequados à cognição humana, tornandoessa abordagem lenta, custosa, altamente subjetiva e propensa à erros, especialmente noatual cenário em que os volumes de dados crescem dramaticamente, fazendo esse tipo deabordagem impraticável em muitos domínios (Fayyad et al. 1996).

A Descoberta de Conhecimento em Base de Dados (do inglês, Knowledge Discoveryin Databases - KDD) é um termo bem aceito na literatura para se referir à sistematizaçãoe automatização do processo mais geral de transformação de dados de baixo nível (dadosbrutos) em conhecimento de nível mais alto (Goebel & Gruenwald 1999). Encarrega-se,portanto, de promover uma melhor compreensão desses dados, através do mapeamentode grandes massas de dados brutos em outras formas mais compactas, abstratas ou úteis,empregando técnicas que intersectam as áreas de aprendizado de máquina, reconheci-mento de padrões, mineração de dados, banco de dados, estatística, inteligência artificial,sistemas especialistas, visualização de dados e computação de alto desempenho (Fayyadet al. 1996).

A KDD é um processo iterativo, interativo e não-linear, que envolve vários estágiosinterdependentes, onde qualquer passo pode requerer ou resultar mudanças nas etapasanteriores, produzindo assim uma variedade de ciclos de retroalimentação (Goebel &Gruenwald 1999). Apesar de não haver uma definição rígida desses estágios, Fayyad et al.(1996) faz um sumário compreensivo de um processo geral de KDD composto (emboranão limitado a) de nove estágios básicos:

1. Entendimento do domínio: consiste no entendimento do domínio da aplicação,com aquisição do conhecimento prévio relevante para a definição dos objetivos doprocesso de KDD.

2. Seleção do conjunto de dados: refere-se à seleção dos dados relevantes no con-texto do domínio da aplicação, sobre os quais será desempenhado o processo deKDD (amostras ou subconjunto de variáveis).

3. Limpeza e preprocessamento dos dados: nesse estágio estão incluídas opera-ções de remoção de ruído (se aplicável), coleta de informações para modelageme contabilização do ruído, estratégias para tratamento de dados faltantes, apuraçãoinformações de tempo e sequência, entre outras.

4. Redução, projeção e transformação dos dados: consiste em descobrir caracterís-ticas fundamentais para a representação dos dados, através de métodos de transfor-mação e redução de dimensionalidade dos dados. Esta etapa pode reduzir o númerode variáveis em consideração.

5. Definição da abordagem: refere-se à escolha da abordagem de análise (sumari-zação, classificação, regressão, clusterização, etc.) segundo as metas definidas noestágio 1.

6. Escolha dos algoritmos e métodos: refere-se à escolha dos métodos e algoritmosde mineração de dados, o que inclui a seleção de modelos e parâmetros apropriados.

Page 34: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 18

7. Mineração de Dados: trata-se da etapa mais proeminente do processo de KDD,encarregada da busca e reconhecimento de padrões utilizando métodos de suma-rização, classificação, clusterização, regressão, estimação e detecção de desvios,baseados principalmente em aprendizagem de máquina e estatística.

8. Visualização e Interpretação: consiste em interpretar os resultados da mineração,utilizando técnicas de visualização. Visando melhorar os resultados, esta etapa podedemandar novas iterações das etapas anteriores.

9. Incorporação do Conhecimento: refere-se à aplicação do conhecimento gerado,que pode ser diretamente utilizado, incorporado em outro sistema ou apenas docu-mentado e encaminhamento às partes interessadas. Esta etapa inclui a verificaçãoe a resolução de possíveis conflitos com conhecimentos prévios (ou previamenteextraídos em processos anteriores).

2.4.1 Mineração de DadosO termo mineração de dados, por ser a etapa de maior prominência no KDD, é, mui-

tas vezes, confundido com o próprio KDD. Porém o KDD refere-se ao processo geral deobtenção de conhecimento de alto nível em dados de baixo nível, enquanto que a mine-ração de dados, embora seja a principal engrenagem do processo de KDD, geralmentecorresponde a uma pequena parte do esforço global (Goebel & Gruenwald 1999). Esseimportante estágio do KDD, completamente orientado aos dados, combina métodos e téc-nicas tradicionais de análise de dados com algoritmos sofisticados para processar de formaautomática imensos volumes de dados, na busca por padrões e modelos de interesse (Tanet al. 2014). Os métodos, tarefas e ferramentas em mineração de dados podem ser catego-rizados sob diferentes aspectos, considerando os propósitos do processo e a natureza dosdados (Rao et al. 2005, Tan et al. 2014). No entanto, é possível identificar na mineraçãode dados dois objetivos amplos de alto nível (Tan et al. 2014):

• Descrição: refere-se à descoberta e à derivação de padrões (correlações, tendên-cias, agrupamentos, trajetórias, etc.) que descrevem e sumarizam os relacionamen-tos inerentes aos dados, de forma legível aos humanos. As tarefas descritivas demineração de dados são frequentemente de natureza exploratória e explanatória,frequentemente requerendo técnicas de pós-processamento para validar e explicarseus resultados. Recaem nesta categoria de objetivos os métodos de sumarização,clusterização, modelagem de dependência e associação, redução de dimensionali-dade, reconhecimento de padrões, detecção de anomalias, análise exploratória dedados, entre outras.

• Predição: envolve predição de valores desconhecidos ou futuros de um determi-nado atributo de interesse com base nos valores de outros atributos. O atributo aser previsto é comumente conhecido como variável-alvo ou dependente, enquantoos atributos usados para fazer a predição são conhecidos como variáveis explana-tórias ou independentes. Inseridas nesta categoria de objetivos estão técnicas declassificação, regressão e estimação.

A Análise Exploratória de Dados (AED) é creditada como um precursor de raízes es-tatísticas da mineração de dados no contexto do KDD (Rao et al. 2005), figurando ainda

Page 35: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 19

como importante ferramenta no processo geral de análise de dados e, ainda, como fase ini-cial da mineração de dados, tendo grande representatividade no processo de KDD comoum todo. A AED é um método interativo de exploração de dados que não demanda assun-ções prévias ou modelos preconcebidos, com intuito principal de maximizar introspeçõesacerca dos dados com grande ênfase no uso de representações gráficas (explorando ospoderes da visão e intuição humana) que favorecem a identificação de padrões e relaci-onamentos, bem como a geração de hipóteses sobre os dados (Rao et al. 2005, Heckertet al. 2013).

2.4.1.1 Análise Exploratória de Dados

A AED, apesar de relativamente nova na estatística, vem assumindo um papel degrande importância no processo geral de análise de dados. É uma tarefa-chave na mo-delagem descritiva e preditiva, pois consiste em resumir os dados numericamente e gra-ficamente e, consequentemente, preparar os dados para as etapas de modelagem maisformais (Shmueli 2010). Ao resumir e contabilizar os dados, a AED pode prontamentefornecer informações úteis, destacar padrões e favorecer a percepção de relacionamentosgerais que podem orientar uma investigação mais aprofundada e potencializar os resul-tados da análise. A AED não pode levar a conclusões definitivas, mas é um primeiro eessencial passo na compreensão dos dados (Diggle & Chetwynd 2011).

Após as etapas básicas de preparação e formatação dos dados, a abordagem AEDclássica faz uso de técnicas de investigação estritamente orientadas aos dados, na buscade informações e relacionamentos interessantes, a partir de uma abordagem ativamenteincisiva, com ênfase real na descoberta do inesperado (Jones 1987). A AED isola padrõese características dos dados e os revela vigorosamente ao analista (Jones 1987), sem exigiro conhecimento prévio ou hipóteses pré-especificadas, ou seja, sem exigir que perguntasantecipadas e bem definidas sejam direcionadas aos dados como requisito para o sucessoda análise (Mao 2015).

Os métodos básicos em AED tentam tornar a análise de dados mais fácil e eficaz parao analista, sejam ele estatístico ou não (Weihs 1993). Dessa forma, um ponto-chave naAED é a aplicação de vários métodos gráficos para convenientemente representar os dadose apresentar os resultados da análise, combinando a afiada percepção gráfica humana como poder e versatilidade computacional atualmente disponíveis. Na pratica, o AED associamétodos de análise quantitativos e qualitativos da abordagem estatística clássica com aanálise gráfica tornada possível pelas ferramentas atuais (Heckert et al. 2013).

Por fim, a AED pode ser comparado ao trabalho de um detetive: é o processo de coletade evidências como uma etapa de geração de hipóteses que precede a etapa da AnáliseConfirmatória de Dados (ACD), que, em contraste, é comparável a um julgamento no tri-bunal, com foco na avaliação de evidências usando medidas estatísticas tradicionais comosignificância, inferência e confiança (testes de hipótese) (Jones 1987). Assim, nesse con-texto, a AED se apresenta como um conceito complementar à ACD, já que os dados, pornão estarem em conformidade com os pressupostos da análise confirmatória (as inferên-cias feitas a partir de pressupostos de modelagem inválidos ou irreais podem estar sujeitasa erros grosseiros), podem exigir uma abordagem abdutiva, pautada na exploração livre eintuitiva dos dados, como é o caso do AED (Yu 1994).

Page 36: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 20

No contexto do KDD, a AED insere-se como fase embrionária do processo de minera-ção de dados que, por sua vez, dá continuidade às tarefas de análise de dados. A AED, quevem se desenvolvendo em torno dos avanços das técnicas de análise, do aumento do podercomputacional e do crescente volume dos dados, tem expandido seu escopo original, deuma abordagem orientada aos meios para uma abordagem orientada às metas, utilizandotécnicas mais sofisticadas, com objetivos mais bem definidos e com a possibilidade deentregar resultados mais conclusivos (Qi Liu 2014). Assim, devido à sua natureza explo-ratória e abdutiva, o AED pode ser considerada uma ferramenta importante na modelagemtanto da etapa de mineração de dados como do processo de KDD globalmente.

2.5 Grafos de Conhecimento e Ontologias

A utilização de grafos na resolução de problemas remonta ao Séc. XIII (Shields 2012)e vem se mostrando crescente, interdisciplinar e pervasiva, tendo aplicações importantesem Ciência da Computação, neurociência, bioinformática, química, sociologia, mídiassociais, planejamento urbano, para nomear apenas algumas. Grafos provém abstraçõesconcisas e intuitivas capazes de modelar ou descrever de modo sistemático as interaçõesentre entidades (nós) por meio de relacionamentos (arestas). O termo rede é tambémfrequentemente utilizado na literatura para remeter a essa abstração.

Os grafos são, portanto, proeminentes aliados na formulação e resolução de problemascomplexos de cunho teórico e prático, além de convenientes para lidar com dados muitonumerosos ou complicados para serem satisfatoriamente caracterizados apenas textual-mente ou por meio de tabelas (Slutsky 2014). A Figura 2.5 mostra como uma abstraçãoutilizando grafos se mostra mais conveniente frente à utilização de tabelas na represen-tar dados complexos e interligados, favorecendo a evidenciação dos relacionamentos econceitos embutidos nos dados.

Como a teoria mais geral dos grafos é um ramo do conhecimento bastante amplotanto para a matemática quanto para a Ciência da Computação, não convém realizar umaprofundamento da área nesta tese. Grafos não serão abordados nesse estudo em termosestritos da teoria de grafos clássica, mas sim, em termos dos conceitos de ontologia ede grafo de conhecimento para utilizá-los como ferramentas efetivas de representação econsolidação de conhecimento.

2.5.1 OntologiaNo contexto da Ciência da Computação, ontologia é uma especificação formal e ex-

plícita de uma conceitualização, onde termos, conceitos, propriedades, relações, funções,restrições e axiomas definidos formam um modelo abstrato, geralmente de compreensãoconsensual, de algum fenômeno ou conteúdo (Morais & Ambrósio 2007). Esse conjuntode elementos especificam o domínio-alvo por meio de construções de alto nível e elevadatransmissibilidade, definidas a priori na estruturação ou a posteriori na análise desse do-mínio, sob o nível de formalidade exigido (Roche 2003). A utilização de ontologias temtambém grande relevância na exploração de premissas e hipóteses sobre o objeto de aná-lise.

Page 37: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 21

Figura 2.5: Grafos versus tabelas na representação de dados.

As ontologias podem ser classificadas de acordo com o grau de explicitude em relaçãoao domínio de análise. São consideradas explícitas quando há representação manifesta,simbólica e formal acerca das entidades e suas interações em um domínio (Roche 2003).São, por sua vez, consideradas implícitas quando a ontologia é derivada a partir dos dados,por meio de um processo de extração ou aprendizado de conhecimento conceitual para adefinição de uma ontologia (Asim et al. 2018). No contexto da construção de sistemasbaseados em conhecimento como os KGs, ontologias explícitas, por serem normalmenteproduto de um processo amplo, minucioso e custoso de anatomização de um domínio ba-seado em documentação existente sobre o mesmo, constituem muito mais exceção do queregra (Watróbski 2020). Assim, o aprendizado ontológico vem figurando como alterna-tiva para suprir, a partir de dados, a necessidade de construção novas ontologias ou paraenriquecimento e adaptação de ontologias existentes.

O aprendizado ontológico visa efetuar o reconhecimento dos componentes ontológi-cos relevantes no contexto do sistema aos quais os dados em análise se referem, utilizandouma miríade de técnicas e recursos lógicos, estatísticos, de aprendizagem de máquina ede processamento de linguagem natural (Wong et al. 2012). Obtém, portanto, uma mode-lagem alternativa do domínio em estudo, exclusivamente a partir dos dados, sem que hajaa necessidade do conhecimento da modelagem formalmente ou informalmente concebidana construção do domínio. Esse processo resulta fundamentalmente, mas não exclusiva-mente, na identificação dos seguintes componentes:

• Indivíduos: são os elementos mais básicos da ontologia, considerados realizaçõesexpressas de tudo que é importante ou relevante para o domínio em análise (Wong

Page 38: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 22

et al. 2012). Correspondem à terminologia utilizada para descrever as entidadesorganizadas segundo uma ontologia.

• Classes: referem-se à interação da ontologia com um determinado domínio (Morais& Ambrósio 2007), ou seja, representam conjuntos, coleções, conceitos ou tipos determos. A tarefa de formar classes envolve descobrir as variantes dos indivíduos eagrupá-las em uma abstração mais geral, a partir de conhecimento prévio, análisede estrutura sintática ou por meio de agrupamento baseado em medidas de simila-ridade (Wong et al. 2012).

• Relações: são usadas para modelar na ontologia as interações entre as classes,assim como entre classes e indivíduos. Essas relações podem ser taxonômicas,quando apontam a existência de uma hierarquia entre os entes relacionados, e não-taxonômicas, quando derivam uma associação de outra natureza (Wong et al. 2012).

• Atributos: são aspectos, propriedades, características que qualificam e quantificamclasses e relações. Normalmente, para cada classe ou relação distinta conta com umconjunto difrente de atributos.

A complexidade do processo de aprendizado ontológico depende do grau de estru-turação da base de registros. Quanto menos estruturada é uma base, mais complexo edesafiador é o processo de aprendizagem da ontologia a partir dos dados.

2.5.2 Grafos de ConhecimentoEm geral, uma ontologia constitui a essência de um Grafo de Conhecimento (do in-

glês, Knowledge Graph - KG), um tipo especial de base de conhecimento (do inglês,Knowledge Base - KB) cuja estrutura é semanticamente modelada na forma de um grafo,normalmente direcional e rotulado, evidenciando entidades, classes e relacionamentos.Mesmo atualmente sendo frequentemente aplicados em diferentes domínios, não há con-senso em torno de uma definição formal (Bellomarini et al. 2020, Hogan et al. 2021). OsKGs podem ser entendidos como instâncias dos conceitos introduzidos por uma ontologia,sejam estes explícitos ou implícitos (Wong et al. 2012). Um KG é destinado a acumulare transmitir conhecimento do mundo real, cujos nós representam entidades de interesse ecujas arestas representam relações entre essas entidades. Uma ontologia estabelece clas-ses de entidades, a natureza desses relacionamentos e as propriedades admissíveis paraentidades e relacionamentos (Hogan et al. 2021).

Uma exemplo conveniente para reforçar o entendimento da associação conceitual en-tre ontologia e KG considera como domínio-alvo a forma de estruturação organizacionalde uma universidade1, ilustrada na Figura 2.6. A organização entre as classes de en-tes subordinados, vinculados e consultivos representam a ontologia do domínio-alvo (Fi-gura 2.6a), enquanto que um organograma parcial de uma universidade, com a indicaçãonominal de alguns de seus entes constitutivos, corresponde a um KG aderente a essa on-tologia (Figura 2.6b). Uma analogia cabível é a que segue: as ontologias estão para osKGs assim como os esquemas estão para as bases de dados SQL. É comum, portanto,ontologias serem referidas como os “esquemas” dos KGs.

1https://ufrn.br/resources/documentos/ organograma-geral-UFRN.pdf

Page 39: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 23

Figura 2.6: Ontologia de uma universidade versus seu respectivo organograma (KG par-cialmente populado).

Os KGs vem se mostrando como ferramentas de elevada relevância na literatura e naprática, já que são capazes de fornecer, sob diversos níveis de detalhamento, uma estruturade acumulação de conceitos e de dados taxonomicamente e semanticamente expressivapara um determinado domínio. Com isso, permite-se a utilização da inferência lógicapara recuperar o conhecimento implícito e encadeado no KG, em detrimento às consultasconvencionais, voltada apenas à obtenção de conhecimento explícito sob consultas comescopo e formato previamente definidos. A criação de KGs pode seguir uma abordagemtop-down, onde um especialista do domínio modela conceitualmente uma ontologia (on-tologia explícita) para o KG ou uma abordagem bottom-up, onde a ontologia do KG éinduzida a partir dos dados (Buchgeher et al. 2021).

Uma abordagem utilizando KGs permite que os dados em uma base de conhecimento(e seu escopo) evoluam de uma maneira mais flexível do que o normalmente possívelem um ambiente relacional ou tabular, acumulando conhecimento de fontes externas oua partir do próprio KG, sem que haja a necessidade de refatoramentos ou adequaçõesna estrutura de dados básica. A versatilidade dos KGs permite o suporte à captura deconhecimento incompleto ou em formação (Hogan et al. 2021), assim como a organizaçãodos dados de um domínio sob diferentes formas de estruturação e níveis de granularidade.

Nesse estudo, a utilização de KGs se dá sob a integração de três perspectivas comple-mentares entre si e interdependentes (Bellomarini et al. 2020): na primeira, os KGs sãoempregado como forma de representação e acumulação dos ativos informacionais (da-dos, informações e conhecimento) do domínio-alvo. Na segunda, a estrutura construídacom KGs favorece processos de gerenciamento desses ativos, dando suporte à consultas,inserções e edições. Na terceira e última perspectiva, os KGs desempenham o papel deplataforma de suporte ao desenvolvimento de aplicações relacionadas ao referido domí-nio, como aplicações de visualização de dados.

Page 40: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 24

2.5.3 Organização, Armazenamento e Visualização de KGsOs grafos podem ser compreendidos como modelos ou estruturas genéricas de abstra-

ção do relacionamento entre entidades e conceitos. Logo, não dependem da forma comoestes estão computacionalmente representados, organizados e armazenados, tampouco decomo são pictoricamente apresentados. Esses aspectos, entretanto, vem constituindo pro-eminentes subcampos de rápido desenvolvimento na última década.

2.5.3.1 Modelo de Dados

Um modelo de grafo que se mostra perfeitamente adequados à implementação de KGsé o de Grafo Rotulado de Propriedades (do inglês, Labeled Property Graph - LPG). Nestemodelo de grafo, nós e arestas figuram rotulados, univocamente identificados e dotadosde seus respectivos atributos qualificadores (Francis et al. 2018). Esse modelo de dadosvem se tornando proeminente por possui poucas restrições, sendo tão flexível e escalávelcom uma “tela em branco”, para evoluir em compasso como os dados e as demandas dodomínio, sem a necessidade de refatoramentos ou remodelagens na base. A Figura 2.7apresenta um exemplo de um LPG empregado para acomodar um KG refletindo dadosrelacionados a uma infraestrutura aeroportuária.

No LPG, além dos elementos básicos (nós e arestas), o grafo é também dotado demetadados sobre estes elementos, incorporados na forma de rótulos e de atributos apli-cáveis aos nós e arestas. Mais formalmente, considere-se o universo composto pelosconjuntos disjuntos e infintos: N , dos identificadores de nós; R , dos identificadores dosrelacionamentos; P , das propriedades dos nós e relacionamentos; e V , dos valores dessaspropriedades. Assuma-se, ainda, como parte desse universo, os conjuntos contáveis L ,dos rótulos dos nós, e T , dos tipos de relacionamentos. A definição de um LPG se dápelo que segue (Angles 2018):

Definição 1 Um grafo rotulado de propriedades (LPG) é definido pela tupla G=(N,R,ρ,λ,σ,ψ)onde:

• N é um subconjunto finito de N , correspondente aos nós ou vértices de G;• R é um subconjunto finito de R , correspondente aos relacionamentos ou arestas de

G que interligam os nós em N;• ρ : R→ (N×N) é uma função total que associa toda relação de R a um par de nós,

normalmente referidos como nó de origem e nó de destino da relação;• λ : N→ 2L é uma função total que atribui a todo nó pelo menos um rótulo;• σ : R→ T é uma função total que atribui a toda aresta um tipo de relacionamento;• ψ : (N ∪R)× 2P×V é uma função parcial que mapeia um identificador (de nó ou

de aresta) em um conjunto de pares propriedade-valor.

2.5.3.2 Banco de Dados em Grafo

As estruturas de dados tradicionalmente utilizadas para organizar e armazenar grafosincluem listas de arestas, listas de adjacência, matrizes de adjacência, listas de incidên-cia (Saoub 2021). São também utilizados dados formatados em texto estruturado (XML,

Page 41: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 25

RDF, JSON, DOT, GraphML, GML,etc.) e em formatos binários, entre outras formas. Amaioria dessas estruturas, entretanto, por não terem sido nativamente concebidas para es-truturar grafos, ou ainda, por serem dependentes de outras estruturas de dados, possuemlimitações em desempenho, complexidade e escalabilidade. Ademais, tem deficiênciasem relação ao suporte integral à representação das características e propriedades de mo-delos de grafos mais complexos, como os grafos de propriedades, por exemplo. Como advento dos Bancos de Dados em Grafo (do inglês, Graph Databases - GDB), váriosdesses problemas são sanados ou amenizados.

Os GDBs são bases não-relacionais cujo modelo de dados é aderente à sistemáticabásica representação de grafos, com dados representados, organizados e armazenados demaneira análoga a como são conceitualmente idealizados (Robinson et al. 2015). Dessemodo, assim como em bases SQL os elementos básicos são as linhas, colunas e tabelas,em GDBs, os elementos constitutivos essenciais são os nós e arestas. Os dados de umdomínio são então consolidados na forma de uma rede de entidades interconectadas quepode ser consultada e manipulada por meio de consultas semânticas sob um modelo dedados intuitivo, com fácil mapeamento entre o formato de operações CRUD (Create,Read, Update or Delete) e o que se quer, de fato, obter da base (Francis et al. 2018).

Nos GDBs, os relacionamentos entre os dados, além de ter a mesma importância queos dados propriamente ditos (entidades), estão objetivamente representados e armazena-dos no GDB. O LPG vem se tornando o modelo de dados majoritário na área, implemen-tado em diversos GDBs. Por todas essas características, os GDBs se mostram alternativasmais flexíveis e ágeis quando comparadas às bases de dados convencionais, sobretudoquando da necessidade de se cobrir domínios abundantes em atributos e em conexõesentre as entidades representadas (Sasaki et al. 2018).

2.5.3.3 Visualização de Grafos

A visualização é um aspecto fundamental e inerente ao trato geral de grafos, já quea reprodução pictórica é um aspecto que traz, em certa medida, materialidade à abstra-ção utilizada para representar as entidades e conceitos interligados. O desenho de grafosrealiza um mapeamento da informação para sua representação gráfica, mantendo ou apri-morando a expressividade ora almejada quando da adoção da abstração em grafos. Nor-malmente o desenvolvimento do desenho de grafos ocorre com observância a uma sériede princípios e critérios (Tamassia 2013):

• Convenções: referem-se ao conjunto de preceitos básicos e amplamente aceitossobre as quais o desenho de grafos deve estar submetido, considerando aspectosgerais (como, por exemplo, usar formas geométricas para representar nós e seg-mentos de reta para arestas, ou posicionar no topo do desenho o nó raiz de umaestruturada hierárquica) ou específicos de um domínio (tal como a utilização dearestas direcionais).

• Estética: a boa estética é uma das principais metas perseguidas na modelagem devisualização de dados. Aspectos como a simetria, proporcionalidade, uniformidade,balanceamento de cores, formas, rotulagem, resolução, quando cuidadosamente ob-

Page 42: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 26

Figura 2.7: Exemplo de LPG abrigando um KG (infraestrutura aeroportuária).

servados, além de tornar o diagrama mais agradável e visualmente atraente, aper-feiçoam sua legibilidade.

• Disposição de elementos: diversos métodos e algoritmos estão disponíveis paraautomatizar a disposição de elementos gráficos no diagrama (layout), procurandootimizar critérios estéticos, de organização e de legibilidade. A oclusão e agrupa-mento de elementos, o cruzamento e a curvatura das arestas, o tamanho do diagramae a analogia com fenômenos físicos (gravidade, inércia, magnetismo, vento, etc.)são os critérios mais comumente considerados.

• Animação e interação: a animação é um aspecto bastante comum na visualizaçãode grafos, geralmente modeladas em consonância com os métodos de disposiçãode elementos e vinculada a eventos de interação com o usuário. As animações sãoespecialmente importantes para visualização dinâmica de dados, onde os elementosgráficos podem ser desenhados sob medida, respondendo a alterações de zoom, defoco, de layout ou de nível de detalhamento.

• Desempenho: a complexidade computacional e o desempenho é outra importantedimensão observada no desenho (não somente) de grafos. A complexidade (e, con-sequentemente, o tempo de execução) dos algoritmos de disposição e animação doselementos gráficos apresenta uma ordem de crescimento alta em relação à quanti-dade de elementos gráficos a serem desenhados. O adequado balanceamento entrea complexidade computacional demandada e benefício esperado é geralmente umdos fatores determinantes na modelagem e na escolha dos algoritmos.

Page 43: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 27

• Eficácia e eficiência: um último aspecto pondera que a informação seja percebidacorretamente (eficácia) e com baixo esforço cognitivo (eficiência). Desse modo,tornar uma aplicação de visualização de grafos demasiadamente abundantes emelementos e recursos pode ir de encontro aos objetivos de boa legibilidade e trans-missibilidade de informações.

2.5.3.4 Representação Grafos em Espaço Vetorial

Os KG implementam um modelo de dados inerentemente discreto, que favorece par-ticularmente tarefas de busca e atualização, bem como facilita a assimilação das informa-ções lá estruturadas e a construção de conhecimento. Entretanto, apesar da conveniênciado uso dos KGs na modelagem dos mais diversos problemas, a larga escala e complexi-dade dessas redes de dados frequentemente torna tarefas analíticas de análise e de aprendi-zagem de máquina computacionalmente custosas ou intratáveis (Zhang et al. 2020). Essastarefas normalmente requerem uma representação contínua, homogênea e estruturalmentesimples desses dados. Para isso, é necessário embutir as entidades e relações em um es-paço vetorial contínuo, criando representações vetoriais embeddings do conhecimento.

Os embedding são calculados com o objetivo de posicionar as entidades e relaçõesem um espaço regular, de baixa dimensionalidade e de tamanho fixo, de forma que asprincipais características do grafo sejam preservadas no novo espaço de representação.Vários métodos para o cálculo de embedding em grafos vem sendo ultimamente propos-tos (Makarov et al. 2021). Esses métodos tem como principais diferenciadores o modocomo entidades e relações são agregados no espaço vetorial e as características subjacen-tes do grafo consideradas no cálculo de embeddings. A Figura 2.8 retrata esquematica-mente a obtenção de embeddings para os nós de um grafo.

Figura 2.8: Esquema de obtenção de embeddings para nós de um grafo.

Page 44: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 28

2.6 Processamento de Linguagem Natural

O processamento de Linguagem Natural (PNL) é um subcampo da Linguística e daCiência da Computação concernente às interações entre a computação e a linguagem na-tural, combinando o poder da linguística computacional e da inteligência artificial parapermitir que máquinas analisem, modelem, compreendam e, consequentemente, geremalgum valor a partir de texto, fala ou símbolos (Vajjala et al. 2020). O PLN é uma se-ara do conhecimento vasta e multidisciplinar, frequentemente abordada na literatura soba perspectiva de tarefas fundamentais que envolvem a manipulação de linguagem natu-ral, entre as quais estão a correção ortográfica, classificação, sumarização e tradução detextos, rotulamento gramatical e semântico, auxílio à busca textual, conversão texto/voze voz/texto, gerenciamento de diálogos, detecção de intenção, modelagem de tópicos eanálise de sentimento, apenas para citar algumas. Como os registros de alarmes e eventosformam um conjunto de dados com predominância de dados de natureza textual, o PLNé utilizado em diversas tarefas deste estudo.

Costuma-se convencionar, neste domínio, texto como um conjunto não vazio de sen-tenças (corpus) e sentença como um conjunto de palavras de cardinalidade maior que aunidade. As tarefas em PLN, no escopo deste estudo, são enquadráveis sob as perspec-tivas de dois subprocessos importantes do PLN: a mineração de texto e a similaridadetextual.

2.6.1 Mineração de TextoA Mineração de Texto (MT) é uma especialização da mineração de dados voltada

ao descobrimento ou de derivação de informação útil implícita a partir de texto não-estruturado (Jo 2019). A mineração de texto envolve a descoberta de padrões, aspectos,associações e introspecções ocultas à percepção do analista ou além do escopo de proce-dimentos de acesso ou recuperação de informação. Nesta seara, estão tarefas que visama extração de padrões e a derivação de atributos de interesse de um domínio a partir desentenças textuais, de especial interesse neste estudo.

2.6.1.1 Extração de Informação

A Extração de Informação (EI) é o processo de extrair automaticamente elementosfactuais (entidades, atributos, relações, tópicos, etc.) a partir de texto não-estruturadoem linguagem natural (notícias, artigos, comentários, descrições, registros, etc), gerandocomo resultado informações convenientemente estruturadas (ou semi-estruturadas) paratarefas subsequentes de processamento e análise (Zong et al. 2021). Um pipeline detarefas típico em EI inclui:

1. Reconhecimento de entidades mencionadas: visa identificar e classificar as enti-dades de um domínio mencionadas em uma sentença textual.

2. Desambiguação de entidades: refere-se ao problema em que uma palavras detec-tada como possíveis candidata à entidades do domínio pode se referir, factualmente,a entidades diferentes.

Page 45: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 29

3. Extração de relações: objetiva realizar a detecção, em uma sentença textual, depotenciais relações entre as entidades identificadas.

4. Extração de templates: refere-se à identificação dos elementos que estabelecem aestrutura semântica básica que descreve um evento (no sentido amplo, de um acon-tecimento de qualquer natureza) descrito por uma sentença textual. Nesse processo,ocorre o apontamento dos participantes (entidades), de eventuais quantificadores ouqualificadores e dos gatilhos (palavras-chaves ou tópicos) do evento. O resultadoé reunido sob uma informação estruturada que representa a natureza ou tipo doevento na forma de um molde ou modelo (template), composto de uma parte fixae uma parte variável (wildcards). A Figura 2.9 ilustra a aplicação desse pipelinesobre uma sentença textual.

HiHi Alarm Value 110.05 Limit 90.0/100.0 on MD116.PV06

HiHi Alarm Value <NUM> Limit <NUM> on <ENT>

EntidadesAtributos

ArgumentosRelação

Gatilhos

Tópico/Tipo Wildcards

Extração

de

Templates

Figura 2.9: Processo de EI sobre uma sentença textual.

2.6.1.2 Modelagem de tópicos

A Modelagem de Tópicos (MT) refere-se a uma família de métodos normalmente não-supervisionados de aprendizagem de máquina, que buscam identificar as palavras-chave(tópicos) latentes em um corpus textual, sem a necessidade de conhecimento prévio sobreo mesmo. Tem como principal meta o favorecimento de tarefas de agrupamento, classifi-cação e organização de textos (Vajjala et al. 2020). A MT é uma das estratégias frequen-temente utilizadas na tarefa de reconhecimento de eventos no processo de EI (Tsolmon &Lee 2014).

A Modelagem de Tópicos em Textos Curtos (MTTC), por sua vez, constitui espe-cialização da MT voltada ao processamento de textos curtos, de relevância no presenteestudo, já que as descrições dos registros de alarmes e eventos são essencialmente senten-ças curtas. Este tipo de texto impõe adversidades adicionais à MT convencional, já que asocorrências e co-ocorrências de palavras em textos curtos desempenham um papel menosdiscriminativo em comparação com documentos longos, assim como contextos textuaismais limitados tornam mais difícil a identificação de palavras ambíguas pela modelagemde tópicos convencional (Yan et al. 2013).

A MTTC, então, lança mão de uma série de estratégias para contornar o problema daalta dispersão dos dados em textos curtos e obter um conjunto de tópicos satisfatórios a

Page 46: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 30

partir desses textos, o que inclui, entre outras, a utilização de metadados e textos externoscomplementares (se disponíveis), a construção de pseudo-documentos mais longos partirde uma fração do conjunto de textos curtos, a conjunção de métricas de co-ocorrênciae similaridade entre palavras para inferir tópicos latentes e aplicação de representaçõesvetoriais pré-treinadas de vocabulário externo para identificar palavras importantes (Yanet al. 2013, Qiang et al. 2020).

2.6.2 Similaridade textualO cálculo da similaridade entre sentenças textuais é uma tarefa básica utilizada em

diversos estágios em um pipeline de PLN típico. Tal medida corresponde à estimação dograu de semelhança entre sentenças, considerando uma variedade de aspectos linguísti-cos (morfológicos, sintáticos e semânticos). Segundo a taxonomia proposta em (Farouk2019), as abordagens para o cálculo da similaridade textual podem ser baseadas em:

• Palavras: refere-se a abordagens cujos elementos primordiais analisados são aspalavras que formam as sentenças. A similaridade entre sentenças é, então, cal-culada em termos da combinação do resultado do cálculo das similaridades entreessas palavras. A similaridade entre palavras comumente pondera aspectos léxicos,semânticos e distribucionais (em relação ao corpus considerado).

• Estrutura: a abordagem analisa sentenças integralmente no cálculo da similari-dade, levando em consideração, assim, além do conjunto de palavras, aspectos es-truturais (morfológicos e sintáticos) das sentenças.

• Representação vetorial: nesta abordagem, a similaridade entre sentenças é avali-ada a partir das representações vetoriais (embeddings) geradas por modelos. Essasrepresentações tem o intuito capturar em suas várias dimensões os diferentes as-pectos e propriedades de uma sentença. A similaridade é, por sua vez, computada apartir de uma operação entre esses vetores, normalmente o cálculo de uma distância(euclidiana, angular, Manhattan, Chebyshev, Minkowski, etc.).

2.7 Similaridade entre Entidades

A similaridade é uma medida que quantifica a semelhança entre um par de entes se-gundo alguma perspectiva ou aspecto. Quanto maior o grau de semelhança, maior seráo valor numérico atribuído ao par pela função de similaridade, fazendo dessas medidas,em certo sentido, o inverso das medidas de distância. As medidas de similaridade sãogeralmente reais, simétricas (Si j = S ji), não-negativas e limitadas à unidade (Gower &Warrens 2017). Desse modo, quanto mais próximo de zero o valor da similaridade, me-nos similar é o par. Analogamente, valores mais próximos da unidade indicam uma maiorsemelhança entre as entidades comparadas.

Similaridade e distância são termos frequentemente utilizados indistintamente na lite-ratura, por tratarem essencialmente do mesmo conceito (grau de semelhança ou de dife-rença) e pelo fato de que é geralmente possível converter uma similaridade em distânciae vice-versa. Tanto as similaridades quanto as distâncias tentam otimizar a quantificação

Page 47: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 31

da diferença entre as entidades comparadas sob o aspecto observado. Similaridades entreentidades são utilizadas em várias etapas do desenvolvimento deste estudo, em especialna forma de indicadores utilizados para quantificar o grau de similaridade entre entidadessegundo determinado aspecto observável.

2.8 Indicadores Compostos

Os índices, indicadores compostos ou indicadores sintéticos são medidas formadasa partir da combinações de indicadores individuais, também referidos como indicadoressimples ou sub-indicadores, com intuito de sintetizar aspectos multidimensionais de umconceito (Greco et al. 2019). Os indicadores individuais são ponderados em termos de suaimportância ou contribuição relativa e agregados para a formação do indicador composto.

Por ambicionarem idealmente o estabelecimento de um proxy entre múltiplas dimen-sões de um domínio e uma única dimensão de cunho mais amplo para o mesmo domínio(geralmente envolvendo perda de informação), os indicadores compostos vem crescendoem popularidade e interdisciplinaridade (Greco et al. 2019). Entretanto, há também criti-cismo acerca do uso indiscriminado dese tipo de indicador na tomada de decisão, em des-favor de análises mais granulares e departamentalizadas (Nardo et al. 2008). Há, contudo,consenso em relação ao papel geral benéfico dos indicadores compostos, desde que con-cebidos sob um processo de construção coeso e transparente, além de matematicamentee estatisticamente rigoroso, e apresentados com pesar acerca de suas limitações (Nardoet al. 2008, Greco et al. 2019).

2.8.1 Construção de Índices CompostosA construção de um índice composto é um problema que tem sido tratado sob vários

ângulos e em várias áreas do conhecimento, com uma farta gama de abordagens meto-dológicas. Todavia, de modo geral, a construção de um índice composto é normalmenteestruturada em um processo formado elementarmente por três etapas subsequentes e in-terdependentes (El Gibari et al. 2019):

1. Normalização: como podem estar em diferentes escalas, unidades ou intervalos,os indicadores devem ser normalizados para que possam ser comparáveis entre si e,então, submetidos a procedimentos de ponderação e agregação. Existem os váriosmétodos de normalização disponíveis, como o ranqueamento, o reescalonamento(MinMax), a estandardização (z-scores), a indicização (distance to) e a categori-zação, apenas para citar os mais difundidos (Mazziotta & Pareto 2013, El Gibariet al. 2019).

2. Ponderação: constitui etapa mais importante do processo e refere-se à definiçãoda importância (ou contribuição) de cada indicador, por meio do cálculo de seusrespectivos pesos, para a composição do índice. A literatura oferece uma rica gamade métodos de ponderação, que podem ser classificados em:

• Simples: a ponderação é equânime, ou seja, atribui-se o mesmo peso paratodos os indicadores, assumindo que estes contribuem da mesma forma para o

Page 48: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 32

índice composto. Apesar de ser o método mais amplamente utilizado na cons-trução de indicadores compostos (Nardo et al. 2008, El Gibari et al. 2019), ométodo é bastante criticado por ser demasiadamente ingênuo ao não conside-rar a natureza ou estrutura estatística dos dados, tampouco aspectos externosconsiderados cruciais no balanceamento da ponderação (Nardo et al. 2008).

• Subjetivos ou participativos: a ponderação é realizada de forma exógenae participativa, baseando-se em julgamentos de valor expressos por especi-alistas, que podem determinar a valoração de cada indicador no contextoda criação do índice composto para o fenômeno analisado (Gómez-Limónet al. 2020). Neste tipo de ponderação, é comum a utilização da Análise Con-junta para capturar como os diferentes especialistas ou tomadores de decisãovaloram a influência dos diversos aspectos expressos pelos indicadores (Nardoet al. 2008). Este tipo de ponderação deve ser considerada sobretudo em con-textos onde indicadores compostos podem ser utilizados para balizar decisõesgovernamentais ou políticas públicas.

• Objetivos: os pesos são obtidos de modo endógeno (partir dos próprios da-dos), utilizando procedimentos matemáticos e estatísticos para capturar a qua-lidade estatística dos dados e atribuir pesos proporcionais à variabilidade des-ses indicadores. Entre esses métodos destacam-se a Análise de Fatores (AF), aAnálise Envoltória de Dados e o Benefício da Dúvida (Nardo et al. 2008, Maz-ziotta & Pareto 2013).

3. Agregação: refere-se a como os indicadores e pesos serão combinados para formaro índice composto. Os métodos de agregação variam segundo a forma de trata-mento da propriedade de compensabilidade entre indicadores (se é ou não admis-sível a possibilidade de compensação de uma desvantagem em um indicador poruma vantagem suficientemente grande em outro). Podem ser classificados em aditi-vos, quando assume-se uma total compensabilidade entre indicadores, geométricosou parcialmente compensatórios, quando admite-se um certo grau de compensabi-lidade, ou multi-critério, quando não se admite compensabilidade entre os indica-dores (Nardo et al. 2008, El Gibari et al. 2019). As estratégias compensatórias deagregação são muito criticadas por serem excessivamente simplistas, por mascara-rem eventuais sinergias e conflitos entre os indicadores e, ainda, por eventualmenteposicionarem indivíduos muito diferentes (observando os indicadores individuais)num mesmo patamar de valoração (Nardo et al. 2008, El Gibari et al. 2019, Grecoet al. 2019). Apesar disso, na prática, a utilização de métodos de agregação com-pensatórios constituem muito mais a regra do que a exceção (Greco et al. 2019),principalmente devido à elevada dificuldades de modelagem e alta complexidadecomputacional intrínsecas aos métodos não-compensatórios (Nardo et al. 2008).

Idealmente, uma quarta etapa referente à análise de robustez e sensibilidade deve serempreendida para concluir a construção de indicadores compostos. Essa análise, apesarde prover uma garantia da qualidade do indicador, ilustrando o quão robusto é o indi-cador às mudanças em etapas ou parâmetros do processo, normalmente está ausente damaioria dos frameworks de construção de índices compostos (Nardo et al. 2008, Grecoet al. 2019).

Page 49: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 3

Trabalhos relacionados

Neste capítulo, é apresentada uma breve revisão sistemática da literatura acerca doescopo da contribuição ora pretendida no estudo em tela. Com base nos objetivos geraisdo estudo, o escopo de busca a seguir retratado foi estreitado em dois temas fundamentais:(1) análise de alarmes e eventos industriais e (2) utilização de grafos de conhecimento naindústria.

3.1 Metodologia de Busca

Utilizando combinações de palavras-chaves (em português e em inglês) remetendo aostemas fundamentais, foi empreendida buscas por publicações eletrônicas, em especial, ar-tigos de conferências e workshops, artigos de periódicos, teses e dissertações acadêmicas,livros, relatórios técnicos, normas e publicações online), sobre bases de dados científicose acadêmicos. Plataformas como Scopus1, IEEEXplore2, ScienceDirect3, ACM DigitalLibrary4, Springer Link5 e MDPI6, foram primariamente utilizadas. Suplementarmente,foram utilizados mecanismos de busca sobre fontes com escopo mais amplo, como Goo-gle Scholar7 (voltado à publicações acadêmicas, científicas e técnicas) e Google8 (buscageral utilizando filtros para restringir o escopo).

A busca foi aplicada primariamente sobre os metadados dos documentos (títulos, re-sumos e palavras chaves) e secundariamente sobre o corpo do textual, quando este tipode busca estava disponível nas fontes supracitadas. Os documentos obtidos foram entãoorganizados com auxílio da ferramenta Mendeley9, onde foram triados e classificados emcategorias gerais. Na triagem, utilizando inspeção visual, documentos de baixa qualidade(mal-editados, mal-escritos, sem referências, sem identificação única, incompletos, rascu-nhos, apresentações, peças publicitárias, etc.) ou de origem questionável (sem indicaçãoclara de origem ou fontes de baixa relevância ou credibilidade) foram desconsiderados.

Sobre o conjunto de documentos pré-selecionados, foi realizada a leitura dos resu-mos e das conclusões (quando aplicável), além da utilização da técnica de leitura dinâ-

1https://www.scopus.com2https://ieeexplore.ieee.org3https://sciencedirect.com4https://dl.acm.org/5https://link.springer.com/

6https://mdpi.com/7https://scholar.google.com.br8https://google.com.br9https://elsevier.com/mendeley

Page 50: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 3. TRABALHOS RELACIONADOS 34

mica (skimming) e de buscas mais localizadas por palavras-chaves sobre o corpo textual,para eliminação de produções pouco correlatas, aprimoramento da classificação e plane-jamento do processo de leitura. Na leitura, publicações identificadas como de alta rele-vância (alto numero de citações) e de estreito relacionamento com os temas fundamentaisda busca, além de revisões sistemáticas de área, foram anotadas e destacadas das demaiscomo referências primordiais. O rol bibliográfico dessas publicações evidenciadas foitambém analisado para nortear novas rodadas de busca e aquisição de publicações, comrepetição do processo.

Embora a revisão bibliográfica realizada não esteja, de fato, limitada apenas aos tra-balhos a seguir mencionados, a seleção explicitada é representativa dos trabalhos maisrecentes e estreitamente relacionados com os temas fundamentais definidos para a busca.Trabalhos aqui não explicitados, mas constantes do rol de referências bibliográficas destatese, também constituem acervo decorrente deste processo. As Tabelas 3.1 e 3.2 elencamos trabalhos mencionados neste capítulo.

3.2 Análise de Registros de Alarmes e Eventos

A análise de alarmes industriais é um campo de estudo amplo, já bastante tradicionale consolidado na indústria, tipicamente vinculado à seara de gerenciamento de alarmes.Neste cenário, alarmes são mais frequentemente analisados em termos de contabilizaçõesquantitativas e qualitativas, da eficácia e eficiência como barreiras de prevenção de in-cidentes, da otimização da modelagem e da configuração de alarmes, do tratamento dealarmes indesejáveis (alarmes fugazes e repetidos, alarmes redundantes, chattering dealarmes, etc.) e de avalanche de alarmes (propagação de falhas), da determinação decausa-raiz dos alarmes e da correlação entre alarmes, para citar algumas das preocupa-ções do campo. Neste ponto, é importante ressaltar os alarmes (e eventos) propriamenteditos e os registros destes em bases de dados são frequentemente tratados indistintamentena literatura da área, sendo o real foco compreendido pelo contexto ou pelos objetivosdos trabalhos. O presente estudo concentra-se nos alarmes e eventos apenas em termosde seus registros em bases históricas.

Tão logo iniciada a busca por contribuições, é possível constatar que algumas dasproduções mais relevantes na área tem origem em três grupos proeminentes. O primeirogrupo, proveniente do Japão (Instituto Nara, Yamatake Corp. e Idemitsu Kosan) publi-cou, entre o final da década de 2000 e o início da década de 2010, uma série de artigosimportantes explicitando o papel fundamental da racionalização no contexto do ciclo devida do gerenciamento de alarmes propostos na norma ISA-18.2. Nesses trabalhos essaracionalização é empreendida a partir da utilização de técnicas de análise correlacional dealarmes e eventos (Higuchi et al. 2009, Nishiguchi & Takai 2010, Noda et al. 2011).

O segundo e mais proeminente grupo, com vinculação à Universidade de Alberta,Canadá, é responsável pelas produções em maior número e de maior impacto na área pu-blicados na última década. Abarcando um espectro amplo de temas dentro da análise dealarmes e eventos, o grupo conta com dezenas de publicações que utilizam registros devariáveis de processo e registros de alarmes e eventos como fonte primária de informa-ção. Destacam-se os trabalhos nas searas de pré-processamento e tratamento de alarmes

Page 51: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 3. TRABALHOS RELACIONADOS 35

indesejáveis (Kondaveeti et al. 2013, Wang & Chen 2014, Mannani et al. 2019), de de-terminação causa-efeito e de dependência modal para suportar a tomada decisória combase nas variáveis de alarmes industriais (Hu et al. 2017a, Hu et al. 2017b), de capturado comportamento de operadores em resposta a alarmes industriais (Hu et al. 2016, Huet al. 2018a) e de desenvolvimento orientado a dados de métricas de desempenho deprocessos industriais (Hu et al. 2015, Al-Dabbagh et al. 2017). Sobressaem-se tambémproposições de novas ferramentas e diagramas de visualização de dados de alarmes paraavaliação e suporte à decisão orientados a dados (Kondaveeti et al. 2012, Al-Dabbaghet al. 2018, Hu et al. 2018b).

O terceiro grupo, oriundo da Universidade de Pannonia, Hungria, vem mais recen-temente realizando uma série de incursões na área de mineração de registros de eventosdiscretos em plantas industriais petroquímicas, que incluem a análise de registros de variá-veis de processo, alarmes, eventos, alertas e ações de operadores. Entre esses, destacam-sea mineração de padrões sequenciais multi-temporais para a prevenção de avalanches dealarmes (Karoly & Abonyi 2016), a investigação de relacionamentos temporais e hierár-quicos entre sequências de alarmes (Dorgo & Abonyi 2018a), o rastreamento das inter-venções de operadores e suas relações causais com os alarmes (Dörgo et al. 2018a, Dorgo& Abonyi 2019), a criação de regras de supressão de alarmes irrelevantes baseadas em in-terpretação probabilística de sequências de alarmes frequentes (Dorgo & Abonyi 2018b),a avaliação das semelhanças entre os alarmes sob o ponto de vista da detecção e isola-mento de falhas (Dorgo et al. 2018c).

Mais recentemente, estudos desse grupo propuseram a criação de uma extensão dométodo seq2seq para a construção de árvores de probabilidade para análise de sequên-cias (Abonyi et al. 2021) e a avaliação qualitativa dos alarmes em termos novas mé-tricas baseadas em critérios de informatividade e utilidade para as mensagens (Dorgoet al. 2021).

Esses conjuntos de trabalhos constituem um repertório de grande importância e es-treita relação com os objetivos do presente estudo. Entretanto, apesar de muitos introdu-zirem técnicas sofisticadas para resolução de problemas reais a área de gerenciamento dealarmes, a maioria se restringe a escopos mais específicos ou observa apenas uma seleçãoreduzida de aspectos em relação aos registros de alarmes e eventos (geralmente apenaso aspecto temporal). Em contraste, neste estudo, os alarmes e eventos são tomados emtermos dos seus registros, sob uma perspectiva orientada aos dados e aos relacionamentosextraíveis destes (sejam explícitos ou implícitos), sem assunções prévias rígidas de do-mínio ou com determinação estrita de foco. Esses registros são analisados sob aspectosmais gerais, especialmente em termos de forma, formato, características e estrutura, via-bilizando a incorporação desses dados em um KG, a partir do qual um leque ainda maisamplo de possibilidades análise pode ser aberto.

Page 52: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CA

PÍTU

LO

3.T

RA

BA

LH

OS

RE

LA

CIO

NA

DO

S36

Referência Título Ano Síntese

(Abonyiet al. 2021)

Event-Tree Based Sequence Mining UsingLSTM Deep-Learning Model

2021Propõe o modelo seq2probTree como extensão do seq2seq para cons-trução de árvores de probabilidade para análise de sequências.

(Dorgoet al. 2021)

Quality vs. quantity of alarm messages - Howto measure the performance of an alarm sys-tem

2021Propõe a aferição da qualidade das mensagens dos alarmes em termosdo quão adequadas são as configurações dos parâmetros para o trabalhodiário e quão acionáveis as mensagens são para os operadores.

(Mannaniet al. 2019)

Preprocessing of Alarm Data for Data Mi-ning

2019Apresenta modelos orientados por dados, explorando as relações con-sequência entre alarmes e ações de operadores.

(Dorgo &Abonyi 2019)

Learning and predicting operation strategiesby sequence mining and deep learning

2019Apresenta modelos orientados por dados, explorando as relações con-sequência entre alarmes e ações de operadores.

(Dorgo &Abonyi2018b)

Sequence Mining Based Alarm Suppression 2018Propõe um algoritmo multi-temporal de mineração de sequeência paraaperfeiçoar o processo de supressão de alarmes.

(Dorgoet al. 2018c)

Understanding the importance of processalarms based on the analysis of deep recur-rent neural networks trained for fault isola-tion

2018Utiliza sequências multi-temporais de sinais de alarmes e alertas comoentradas de uma rede neural recorrente para extrair informações deeventos discretos em uma planta química.

(Dörgoet al. 2018a)

Towards operator 4.0, increasing productionefficiency and reducing operator workload byprocess mining of alarm data

2018Apresenta uma metodologia para extração de padrões temporais emsequências de alarmes e ações de operadores a partir de registros desistemas de gerenciamento de alarmes.

(Dorgo &Abonyi 2018a)

Sequence Mining Based Alarm Suppression 2018Apresenta uma metodologia de análise que incorpora a estrutura hie-rárquica da planta em um algoritmo multi-temporal de mineração desequências em uma base de alarmes e eventos.

(Huet al. 2018a)

Extraction and Graphical Representation ofOperator Responses to Multivariate Alarmsin Industrial Facilities

2018Foca na mineração de conhecimento a partir das respostas de opera-dores aos alarmes para geração de gráficos de fluxo de trabalho, utili-zando como base os registros históricos de alarmes e eventos.

(Huet al. 2018b)

Design of visualization plots of industrialalarm and event data for enhanced alarm ma-nagement

2018Propõe novas categorias de diagramas para a análise offline de desem-penho e para análise dinâmica de aplicações em tempo real.

(Al-Dabbaghet al. 2018)

Toward the Advancement of Decision Sup-port Tools for Industrial Facilities: Addres-sing Operation Metrics, Visualization Plots,and Alarm Floods

2018Apresenta uma série de ferramentas de suporte à decisão que contem-plam métricas de operação, visualizações e ranqueamento para avalan-ches de alarmes, utilizando dados históricos.

Tabela 3.1: Principais trabalhos relacionados à análise de alarmes e eventos industriais.

Page 53: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CA

PÍTU

LO

3.T

RA

BA

LH

OS

RE

LA

CIO

NA

DO

S37

Referência Título Ano Síntese

(Al-Dabbaghet al. 2017)

Better understanding of process operationusing performance metrics and visualizationplots

2017Desenvolve métricas de desempenho para caracterizar relacionamentosde tempo e frequência entre os eventos, bem como propõe visualiza-ções para essas métricas.

(Huet al. 2017a)

Cause-effect analysis of industrial alarm va-riables using transfer entropies

2017Propõe um método baseado em transferência de entropia para análisede relacionamentos de causa-efeito entre variáveis de alarme utilizandobases históricas de alarmes.

(Huet al. 2017b)

Cause and Effect Analysis for Decision Sup-port in Alarm Floods

2017Apresenta um framework para combinar inferências de causalidade,utilizando dados de variáveis de processo e de alarmes, suportando adecisão na identificação da causa-raiz de avalanches de alarmes.

(Karoly &Abonyi 2016)

Multi-temporal sequential pattern mining ba-sed improvement of alarm management sys-tems

2016Foca na mineração de conhecimento a partir das respostas de opera-dores aos alarmes para geração de gráficos de fluxo de trabalho, utili-zando como base os registros históricos de alarmes e eventos.

(Huet al. 2016)

Process Discovery of Operator Actions inResponse to Univariate Alarms

2016Propõe um método sistemático de perfilamento de ações de operadoresem resposta a alarmes univariados, utilizando registros de alarmes eeventos.

(Wang &Chen 2014)

An online method to remove chattering andrepeating alarms based on alarm durationsand intervals

2014Formula regras de identificação e de remoção de alarmes indesejados,baseando-se nas durações e intervalos dos alarmes.

(Kondaveetiet al. 2013)

Quantification of alarm chatter based on runlength distributions

2013Propõe uma metodologia de quantificação de alarmes repetitivos comcriação de um indicador para indicar o grau de repetitividade.

(Kondaveetiet al. 2012)

Graphical tools for routine assessment of in-dustrial alarm systems

2012Apresenta diagramas para avaliação de desempenho dos sistemas dealarme usando dados de alarme coletados rotineiramente e métricas danorma ISA-18.2.

(Nodaet al. 2011)

Event correlation analysis for alarm systemrationalization

2011Propõe a utilização de correlação de eventos para racionalização dealarmes em SGAs.

(Nishiguchi &Takai 2010)

IPL2 and 3 performance improvementmethod for process safety using eventcorrelation analysis

2010Utiliza análise correlacional entre eventos para evidenciar o relaciona-mento entre alarmes e ações de operadores.

(Higuchiet al. 2009)

Use of Event Correlation Analysis to ReduceNumber of Alarms

2009Utiliza análise correlacional para redução do número de alarmes a se-rem analisados em uma petroquímica.

Principais trabalhos relacionados à análise de alarmes e eventos industriais (continuação da Tabela 3.1).

Page 54: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 3. TRABALHOS RELACIONADOS 38

3.3 Grafos de Conhecimento na Indústria

Apesar da conceituação no entorno dos KGs remeter à década de 1980, é recente naliteratura a convergência em direção ao emprego do termo para designar estruturas se-mânticas baseadas em grafos, ricas em relacionamentos, propriedades e atributos. Sendofundamentalmente utilizadas para construir e manter, de modo coeso, um corpo de conhe-cimento sobre um domínio específico, essas estruturas vem figurando como importantesferramentas de suporte à modelagem e à análise sobre uma diversidade de domínios com-plexos (Buchgeher et al. 2021).

Embora não exista consenso em relação a uma definição formal amplamente aceitaou, ainda, um conjunto bem definido de diretrizes ou de boas práticas relacionadas a suautilização, os KGs vem sendo frequentemente utilizados para dar suporte à construção desistemas de recomendação, de resposta automática a perguntas, de recuperação de infor-mações, de integração e de representação de conhecimento, de predição e de visualizaçãode dados, em domínios como o da medicina, da segurança cibernética, das finanças, dojornalismo, das redes sociais, da educação, para citar alguns (Zou 2020). Por outro lado, autilização de KGs como ferramenta de solução de problemas na indústria, embora venhamais recentemente atraindo grande atenção da academia e da indústria, mostra-se aindaem estágios iniciais de desenvolvimento, conforme apontado em algumas produções. Osprincipais estudos envolvendo a utilização de KGs no domínio industrial, ou mais abre-viadamente, IKGs, tem origem difusa e são bastante recentes, tendo sido a sua absolutamaioria publicados nos últimos cinco anos.

No rol de publicações obtidas sobre o tema, destacam-se revisões de área acerca dautilização de KGs na indústria, recentemente publicadas no ano corrente. Buchgeher et al.(2021) apresenta o que é provavelmente a primeira revisão sistemática especificamentevoltada ao levantamento do estado da arte concernente à aplicação de KGs na indústria,com uma célere porém profunda e extensiva imersão no tema, sob aspectos históricos,quantitativos, qualitativos e bibliométricos. Fornece também um extrato preciso de comoos KGs vem sendo aplicados à indústria, consequentemente, apontando oportunidadesde contribuição. Yahya et al. (2021) investiga sistematicamente o cenário bibliográficorelativo à aplicação da web semântica e ontologias para a construção de KGs de altonível, aderentes ao paradigma da Indústria 4.0. Outra produção recente aponta tendênciase questões em aberto na área, a partir de uma investigação bibliométrica utilizando aferramenta Cite Space (Weihua & Dong 2021).

As revisões sistemáticas supramencionadas, publicadas no decorrer do desenvolvi-mento do presente levantamento bibliográfico, juntamente aglutinam grande parte daspublicações relevantes apuradas, indicando convergência e tempestividade do estudo telacom o que vem sendo investigado pela a academia. Comprovando o estado emergente dedesenvolvimento do tema, a maioria das produções estão limitadas à frameworks concei-tuais, com proposições mais generalistas e de alto nível, sem indicação explícita da searade aplicação, tampouco de demonstrações práticas da utilidade do uso de IKGs. Contudo,foi possível identificar algumas produções com clara e estreita relação com as hipóteses eobjetivos do estudo, em especial, a construção e o gerenciamento de KGs em searas maisespecíficas da indústria e a partir de dados pré-existentes.

Page 55: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 3. TRABALHOS RELACIONADOS 39

A construção de um IKG com o objetivo de interligar semanticamente vários silos dedados anteriormente isolados, para aproveitá-los no suporte a processos de planejamentofabril em uma indústria automobilística é sucintamente apresentada em (Dombrowskiet al. 2019). Zhou et al. (2020) fazem uso do modelo de PLN ALBERT-BiLSTM-Attentionpara identificar entidades a partir de documentos não-estruturados em língua chinesa, comobjetivo de construir um IKG para dar suporte a uma sofisticada aplicação de respostasautomáticas no contexto de uma manufatura da área aeroespacial. Yan et al. (2020) des-crevem o desenvolvimento de um sistema de informações construído a partir de dadosheterogêneos, não-estruturados e de múltiplas fontes concernentes a equipamentos fabris,utilizando os conceitos de KGs e bancos de dados em grafo. Por último, Ringsquandlet al. (2017) propõem a exploração de dados de chão-de-fábrica (logs de equipamentos)com objetivo de se extrair entidades, atributos e relações para complementação de um KGconstruído no contexto de “gêmeo” digital.

Corroborando com as constatações de Buchgeher et al. (2021) e Weihua & Dong(2021), percebe-se que a aplicação de KGs na indústria constitui tópico emergente, am-plo e multidisciplinar, repleto de questões em aberto e oportunidades de contribuição.Uma das principais lacunas observadas é escassez de estudos demonstrando a eficácia eeficiência dos KGs em abordagens práticas para alguns dos problemas que tipicamenteafetam os ambientes de manufatura e produção. Esta deve-se, em parte, ao contraste entreo tipo de dado predominante e majoritariamente explorado no setor (numérico, tabular emarcado no tempo) e dados de natureza eminentemente textual que atualmente balizam amaioria das soluções baseadas em KGs. A indústria dispõe de uma secular e irrefutávelhabilidade no trato de seus dados numéricos, mas em se tratado de dados de natureza tex-tual e categórica (apesar de também abundantes na indústria), ainda está vários estágiosde desenvolvimento atrás de outros setores.

3.3.1 Considerações FinaisAs contribuições do presente estudo se inserem no contexto estabelecido pela con-

fluência entre os temas fundamentais abordados na revisão bibliográfica em tela. Isto é,a já consolidada área de análise de alarmes e eventos encontra o emergente campo dosKGs aplicados ao setor industrial. Mais especificamente, a estruturação dos dados-alvodo estudo em um KG, além de tornar tarefas de análise sobre alarmes e eventos maispropícias, também é competente em incorporar os resultados dessas análises na forma deconhecimento no próprio KG. Esse conhecimento pode, então, ser facilmente consultado,visualizado e empregado em outras tarefas de análise subsequentes.

Page 56: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CA

PÍTU

LO

3.T

RA

BA

LH

OS

RE

LA

CIO

NA

DO

S40

Referência Título Ano Síntese

(Weihua &Dong 2021)

Visual analysis of industrial knowledge graphresearch based on Citespace

2021Apresenta o resultado de uma análise visual sobre tendências e oportu-nidades na área de IKG, utilizando o software CiteSpace.

(Yahyaet al. 2021)

Semantic Web and Knowledge Graphs for In-dustry 4.0

2021Revisão sistemática da literatura sobre KGs em ambientes de manufa-tura e produção.

(Buchgeheret al. 2021)

Knowledge Graphs in Manufacturing andProduction: A Systematic Literature Review

2021Revisão sistemática acerca da utiçização de modelos ontológicos e websemântica para construção de KGs aderentes à Indústria 4.0.

(Zhouet al. 2020)

BA-IKG: BiLSTM Embedded ALBERT for In-dustrial Knowledge Graph Generation andReuse

2020Utiliza o modelo ALBERT-BiLSTM-Attention como base para cons-trução de um IKG de suporte a uma aplicação de respostas automáticas.

(Yanet al. 2020)

KnowIME: A System to Construct a Kno-wledge Graph for Intelligent ManufacturingEquipment

2020Com base em dados heterogêneos de múltiplas fontes, KGs são usadospara construir sistemas de integração de informações para equipamen-tos industriais inteligentes.

(Zhaoet al. 2019)

Construction of an Industrial KnowledgeGraph for Unstructured Chinese Text Lear-ning

2019Utiliza PLN para suportar a construção automática de um IKG a partirde texto não-estruturado da indústria automotiva em língua chinesa.

(Dombrowskiet al. 2019)

Knowledge Graphs for an Automated Infor-mation Provision in the Factory Planning

2019Constrói um KG para interligar semanticamente vários silos de dadosem uma indústria automobilística.

(Ringsquandlet al. 2017)

On event-driven knowledge graph completionin digital factories

2017Utiliza aprendizagem de máquina para completar KGs, utilizando re-presentação em espaço vetorial e conhecimento prévio.

Tabela 3.2: Principais trabalhos relacionados à aplicação de KGs na indústria.

Page 57: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 4

Caracterização do Problema e Proposta

A indústria, pela necessidade de se rastrear o que está acontecendo em tempo real emrelação a uma infinidade de ativos relacionados com o processo produtivo, gera dadosmais rápido e em maior quantidade do que qualquer outro setor (van Aardt 2015). Com adigitalização, a evolução das tecnologias de armazenamento de dados, dos processos e doconjunto normativo, dados vem sendo continuamente acumulados em bases históricas denatureza tabular. Esse acúmulo acontece espontaneamente ou por força normativa, sobre-tudo para garantia da disponibilidade de um arcabouço suficiente para subsidiar eventuaisnecessidades de investigação de incidentes ou auditorias. Desse modo, bases de naturezatabular constituem a classe de dados predominante na indústria (Buchgeher et al. 2021).Contudo, o dilúvio causado pelo crescimento exponencial das fontes e da alta granula-ridade, aliado à falta de padronização e clareza sobre o que fazer com esses recursos,contribuem para a circunstância em que dados potencialmente importantes estão fadadosa “descansar” em enormes e pouco explorados silos de dados.

Bases tabulares são meios eficazes e familiares de organização de dados amplamenteadotadas nos mais diversos campos do conhecimento, já que matrizes são estruturas pri-mordiais de fácil reconhecimento, compreensão e transmissibilidade. Constitui classesituada no caminho intermediário entre à compreensão cognitiva humana e a assimila-ção pela máquina. Entretanto, considerando as limitações do poder cognitivo humano,a expressividade de dados de natureza tabular costuma ser inversamente proporcional aotamanho e à complexidade das mesmas (múltiplas tabelas, elevado numero de linhas ecolunas). Se por um lado a capacidade de conversão em informação útil é aspecto de ele-vada importância na tomada de decisão, por outro, bases tabulares complexas costumamatravancar até mesmo a mais superficial das análises com esse objetivo. Ademais, essetipo de organização põe dados em evidência, enquanto obscurece ou negligencia eventuaisrelacionamentos existentes.

O cerne da abordagem em proposição consiste de uma metodologia para conversãodesses dados tabulares em dados interligados, por meio da construção de um KG de domí-nio específico, para propiciar meios mais convenientes de acesso, análise e visualizaçãode dados relativos aos registros de alarmes e eventos industriais. Esse KG é modeladopara ser capaz de evidenciar relacionamentos explícitos e implícitos entre os atores queprotagonizam os episódios operacionais narrados nas bases de alarmes e eventos, garan-tindo uma maior navegabilidade, compreensibilidade e agregação de valor a esses grandes

Page 58: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 4. CARACTERIZAÇÃO DO PROBLEMA E PROPOSTA 42

repositórios. Mais especificamente, a abordagem busca estabelecer relações de diversasnaturezas tanto entre os ativos de automação referenciados quanto entre os próprios alar-mes e eventos representados nessas bases de registros. Um passo fundamental para acompreensão da proposta é o entendimento da natureza dos dados em estudo.

4.1 Dados

Os dados-alvo desse estudo são oriundos de bases históricas de registros de alarmes eeventos industriais, normalmente salvaguardados em servidores historiadores de alarmespara eventual consulta. Esses dados formam uma KB autocontida, construída a partirdos registros operacionais relativos a ativos em uma planta ou processo. Normalmenteconsistem de uma combinação de dados estruturados e não-estruturados, reunidos sobestruturas de natureza tabular (Mehta & Reddy 2015) e com marcação de tempo.

4.1.1 FormatoOs registros de alarmes descrevem episódios relativos à dinâmica operacional de pro-

cessos monitorados em uma planta industrial e concernem a atuação de importantes ativosde automação nesse contexto, tais como sensores, atuadores, controladores, módulos deentrada/saída, módulos de comunicação, softwares, entre outros. Podem ser também en-tendidos como observações marcadas no tempo de diversas variáveis, majoritariamentecategóricas (ou qualitativas) e textuais. Embora, na prática, esses episódios possam estarinscritos nas bases de registros sob esquemas de dados complexos, por razões de clarezae simplicidade, podem ser compreendidos com elementos de uma grande tabela, ondeas linhas correspondem aos registros propriamente ditos (ou observações) e as colunasrepresentam as variáveis observadas (ou atributos desses registros).

A Tabela 4.1 apresenta uma amostra de entradas típicas de uma base de registros hi-potética, porém representativa do tipo de dados em estudo. As colunas dessas bases nor-malmente constituem atributos que podem ser atribuídos aos registros propriamente ditosou relativos aos pontos de ocorrência dos episódios (ativos). Assim, pode-se classificaresses atributos segundo essa relação de pertencimento:

• Atributos dos registros: por se referirem aos próprios registros, podem ser consi-derados como metadados dos registros. As colunas Ind, Data_Tempo, Tipo, Iden-tificador, Estado e Descrição da Tabela 4.1 são enquadráveis nesta categoria deatributos.

• Atributos dos ativos: correspondem aos ativos aos quais os registros fazem men-ção. No exemplo da Tabela 4.1, as colunas TAG e PV aos pontos de ocorrência dosepisódios narrados nos registros ocorrem, além de indicarem uma potencial relaçãohierárquica entre ativos.

Já quanto à natureza, esses atributos podem ser essencialmente classificados em:

• Quantitativos ou numéricos: obedecem a uma escala numérica, podendo ser dis-cretos (contável) ou contínuos. Na tabela 4.1, a coluna Data_Tempo, correspon-dente à marcação de tempo, é um exemplo de atributo numérico.

Page 59: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 4. CARACTERIZAÇÃO DO PROBLEMA E PROPOSTA 43

• Qualitativos ou categóricos: os valores podem assumir apenas um número limi-tado e bem definido de categorias possíveis, geralmente associadas a propriedadesqualitativas expressas de modo textual. Esses atributos categóricos são considera-das ordinais, quando há ordenação entre as categorias, e nominais, no caso contrá-rio. A coluna Prioridade da Tabela 4.1 representa um atributo categórico ordinal,enquanto que Tipo corresponde a um atributo categórico nominal.

• Textuais: assumem valores expressos em termos de sentenças em linguagem natu-ral. A coluna Descrição da Tabela 4.1 é um exemplo do que pode ser consideradocomo atributo textual.

Data_Tempo a Tipoa TAG b Nó b Identificadora Estado a Prioridadea ... Descrição a Inda

19-05-23 10:42:03 EV AIO01 N001 IOFAIL ACTIVE WARNING ... I/O Failure ... 104819-05-23 10:41:29 EV VAL02 N002 VALOPEN ACTIVE INFO ... Valve Open ... 104519-05-23 10:34:18 AL LVL04 N003 PVLO INACTIVE CRITICAL ... Low Level ... 103719-05-23 09:57:02 AL LVL04 N003 PVLO ACTIVE CRITICAL ... Low Level ... 103119-05-23 09:23:54 AL LVL04 N003 PVHI INACTIVE CRITICAL ... High Level ... 1027

a Atributos dos registros; b Atributos dos ativos.

Tabela 4.1: Entradas exemplificativas de uma base de registros de alarmes e eventos típica.

É importante frisar que, apesar de já existir consenso na literatura acerca das boas prá-ticas de estruturação e composição mínima desses registros (Hollifield & Habibi 2011),na prática, as bases tem formatos bastante divergentes em meio às implementações. Po-dem ter diferentes magnitudes, formatos, complexidade, níveis de detalhamento, formasde organização e graus de estruturação, segundo as especificidades dos sistemas que ge-ram, coletam, formatam, integram, consolidam e armazenam as mensagens de alarmese eventos que integram esses registros. Ademais, muitas dessas bases resultam da inte-gração e consolidação de dados de várias fontes e sob vários padrões de estruturação emum único esquema, para fins de compatibilidade, interoperabilidade e centralização dedados. Assim, é possível encontrar tanto bases de dados pobres, que constam apenas doselementos minimamente aceitáveis para a identificação de um alarme ou evento, quantobases complexas e detalhadas, dotadas um grande número de atributos qualificativos.

Apesar dessa heterogeneidade de formatos, normalmente uma tripla fundamental decomponentes é reconhecível em uma base de registros típica, independentemente de es-tarem bem definidos ou delimitados: (a) marcação de tempo; (b) indicação do local deocorrência do episódio (tag); e (c) descrição do episódio. Esses componentes respondem,respectivamente, a uma tripla de perguntas primordiais acerca de uma base histórica: (a)quando?; (b) onde?; e (c) o que?

4.1.2 Principais problemas em bases de alarmes e eventosO paradigma de orientação a dados supõe que deter a competência de extrair informa-

ções úteis à atividade produtiva é tão ou mais importante que obter, acumular e, eventual-mente, consultar dados. Contudo, os repositórios de alarmes e eventos industriais, alvosdeste estudo, impõem uma série de adversidades a serem mitigadas, a seguir detalhadas:

Page 60: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 4. CARACTERIZAÇÃO DO PROBLEMA E PROPOSTA 44

• Grande magnitude: normalmente de grande tamanho, a bases de alarmes e even-tos industriais imprimem enormes desafios de gerenciabilidade e latência que des-favorecem ou desestimulam até mesmo análises mais triviais. O aprimoramentoda acessibilidade de bases de tamanha magnitude propicia análises mais proativas,fazendo com que os dados estejam facilmente e tempestivamente acessíveis.

• Baixa compreensibilidade: além de grandes, essas bases comumente abrigam es-truturas de dados complexas, não suficientemente auto-explicativas e pouco docu-mentadas, tornando complexos os procedimentos de estruturação de consultas paraobtenção de informações.

• Natureza categórica e textual: os dados contidos em bases de alarmes e eventosindustriais são majoritariamente categóricos e textuais, inerentemente demandan-tes de mais complexa análise em relação a dados numéricos. Aos dados categó-ricos comumente estão associadas adversidades relacionadas à alta cardinalidade,redundância e ausência de padronização ou curadoria que dificultam a análise e de-mandam estratégias alternativas (Cerda et al. 2018). Já aos dados textuais, estãorelacionados os desafios aos quais todo o rico campo de PLN se dedica.

• Baixa navegabilidade: a dificuldade em navegar nesse “mar de dados” é tambémfator limitante das possibilidades de análise. Entenda-se por navegação as opera-ções despretensiosas de leitura e busca de informações sobre um conjunto de dados.É adequado que essas operações sejam intuitivas e céleres, a partir de diretivas sim-ples e universalmente aceitas para orientação e direcionamento das consultas.

• Baixa flexibilidade: bases tabulares impõem restrições de formato que entravam aevolução dos próprios dados em termos de novos conceitos, entidades, atributos, re-lações e granularidade. O advento de novos elementos em formatos divergentes dosinicialmente concebidos exigem readequações ou refatoramentos que normalmenteaumentam a complexidade e diminuem a compreensibilidade da base.

• Dificuldades de visualização: dados tabulares, em especial no formato de umabase cronológica de registros, normalmente falham em demonstrar ou evidenciar,por conta própria, aspectos de natureza mais global, tornando opacos eventuaispadrões e associações inerentes aos dados. A análise visual de uma base tabular in-natura pode privar o analista da noção do que é realmente importante nos dados ede quais diferenças são significativas. Além disso, como mencionado na Seção 2.2,os registros de alarmes e eventos formam bases usualmente idealizadas para utili-zação como referência para subsidiar eventuais apurações de incidentes, e não paracomunicação eficiente ou compreensão aprofundada do fenômeno monitorado. Édesejável, portanto, que esse conjunto de dados possa ser também utilizado parafavorecer a análise visual, promovendo o desvendamento e a evidenciação mais efi-ciente de padrões, propriedades e relacionamentos ocultados pelo formato tabular.

4.2 Abordagem Proposta: KG para Alarmes e Eventos

A principal intenção da proposição é dotar a camada de gerenciamento da pirâmideda automação (Camada 3) de uma nova habilidade de processamento e de análise paraalarmes e eventos. A abordagem busca reformar o práxis de se conservar esses dadosem segundo plano, para consultas eventuais, quando, na realidade, estes tem potencial

Page 61: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 4. CARACTERIZAÇÃO DO PROBLEMA E PROPOSTA 45

para constituir fontes relevantes de informação se analisados sob outros primas e comferramentas mais adequadas. Para isso, propõe-se que os dados das bases tabulares con-vencionalmente utilizadas para abrigar os registros sejam remontados para um domínio derepresentação mais flexível, possibilitando a evidenciação de entidades, relacionamentose propriedades imersas nesses dados. O intuito é o de realçar (ou maximizar) os seguintesaspectos em relação a bases tabulares:

• Hierarquia: a estruturação deve evidenciar os ativos que compõem a planta ouprocesso em análise flagrados nos dados, bem como refletir relações hierárquicaspresumidas ou descobertas entre esses ativos. Deve, ainda, ser capaz de relacionarhierarquicamente esses ativos com os registros da base.

• Estruturação e organização: a estrutura deve promover uma reorganização dosdados, de modo que a busca, o particionamento, a agregação, a generalização e oagrupamento de dados tornem-se tarefas triviais e intuitivas, em contraste à organi-zação monotônica e semanticamente pouco expressiva de bases de dados tabulares,especialmente as de grande tamanho e complexidade.

• Relacionamentos: além da organização hierárquica, é determinante para a aborda-gem evidenciar os potenciais relacionamentos explícitos ou implícitos entre as enti-dades que figuram nos dados. Para isso, é necessário relaxar as restrições impostaspor uma estrutura hierárquica, permitindo que relacionamentos também sejam es-tabelecidos entre entidades de mesmo nível hierárquico.

• Evolução: a abordagem deve propiciar a evolução dos dados, ou seja, deve facilitara integração de novos elementos de dados, bem como promover a incorporaçãodos resultados das análises na própria base de dados por meio novas entidades,relacionamentos e atributos.

• Navegabilidade e visualização: a estrutura deve maximizar a legibilidade e a na-vegabilidade dos dados, por meio de uma lógica de consultas fácil e intuitiva, coma possibilidade de visualização dinâmica de dados.

O domínio dos KGs, conforme fundamentação apresentada no Capítulo 2, ofereceversatilidade de representação e de estruturação de dados requerida para a abordagem emproposição. Assim, a abordagem prevê a construção de um KG idealizado para assistir aanálise de registros de alarmes e eventos, facilitando a obtenção de respostas para ques-tionamentos que possam ser realizados sobre esses registros. O transplante da base deregistros, de caráter tabular, para um KG vinculado e autocontido, amplia o horizonte deanálise e torna a superação dos desafios mencionados na Seção 4.1.2 mais tangível.

O KG é concebido para fornecer, além de uma melhor estruturação dos dados, umavisão conceitual do domínio-alvo, expresso sob a um esquema ou ontologia definida a par-tir da base tabular original. O KG é, logo, formado por nós representando indivíduos dodomínio-alvo (ativos, alarmes, eventos, registros, etc.), interligados por arestas represen-tando conexões lógicas (hierarquia, precedência, similaridade, etc.) a serem estabelecidasentre esses indivíduos. A Figura 4.1 contempla a visão geral da abordagem.

O conhecimento em KGs é representado como triplas (sujeito, predicado, objeto) quedenotam fatos no contexto do domínio-alvo. Nessa tripla, sujeito e objeto indicam asentidades e o predicado representa uma relação qualquer entre essas entidades. Em um

Page 62: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 4. CARACTERIZAÇÃO DO PROBLEMA E PROPOSTA 46

Ontologia

Registros de Alarmese Eventos

KG

Figura 4.1: Visão geral da abordagem proposta.

grafo construído a partir de tais triplas, os nós se referem às entidades, enquanto que asarestas, normalmente direcionais, correspondem às relações. Para estruturação dos dadosem um grafo, o modelo seguido é o de LPG, amplamente utilizado na modelagem deKGs de domínios complexos e implementado em diversos GDBs. Esse modelo ofereceuma flexibilidade adicional na organização de informações em um grafo, já que estendeo modelo de grafo heterogêneo (nós e arestas de diferentes tipos) com a incorporaçãopropriedades (ou atributos) tantos para os nós quanto para as arestas (Hogan et al. 2021).

4.2.1 Diretrizes de Criação do KGA criação do KG envolve a transferência reformatação e reorganização dos dados da

base de registros, a partir do modelo de grafo estabelecido conforme a Definição 1 esegundo as seguintes diretrizes principais:

1. Entidades e conceitos: Os nós devem refletir as entidades e conceitos-chave dodomínio-alvo. Os ativos de automação aos quais os registros normalmente se re-ferem e os registros propriamente ditos formam um conjunto de nós que incorporacomo atributos as propriedades desses ativos e registros. As arestas, por sua vez,retratam relações entre esses ativos e registros, sejam intrínsecas ou firmadas em de-corrência de análises. As características dessas relações devem ser materializadascomo atributos das arestas.

2. Organização: A organização primária do KG em proposição deve buscar a repro-dução, a partir dos dados disponíveis, de uma pirâmide de ativos, tal qual preconizaa Norma ISA-95 (Scholten 2007). Os elementos dos sistemas de automação devemestar distribuídos em classes e hierarquicamente organizados ao longo de camadas,de acordo com o seu nível de importância ou especialização. Para tal, utiliza-seárvores, tipos especiais de grafos em que os nós estão conectados hierarquicamentecom o menor número possível de arestas e sem formar ciclos. Além de convenien-tes para a retratação de hierarquias, árvores são estruturas extensivamente utilizadaspara organizar os mais diversos tipos de dados e informações, já que favorecem abusca, o particionamento, a agregação, a generalização e o agrupamento de dados.Uma ontologia, a ser estabelecida a partir dos próprios dados nos momentos inici-ais da construção do grafo, fornecem as regras para estruturação e distribuição das

Page 63: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 4. CARACTERIZAÇÃO DO PROBLEMA E PROPOSTA 47

informações ao longo da estrutura dessa árvore. Em decorrência dessa estrutura, oKG proposto constitui um grafo conectado, já que para todo par de nós existe umcaminho que interliga esses nós.

3. Sem perdas: A transposição da base de registros para o KG proposto deve ocorrersem qualquer perda ou supressão dos dados originais da base de registros. Assim,preconiza-se que os registros propriamente ditos, por serem a fonte primordial dedados a partir da qual o KG é construído, devem também ser incorporados ao KG.Estabelece-se, para tal, que os registros devem concluir a cadeia hierárquica (nós-folhas) da estrutura básica do KG. Ainda, devido à alta cardinalidade e pelo fato deserem expressões de episódios que podem ser recorrentes ao longo do tempo, é im-prescindível que estes registros sejam congregados no KG com base nos episódiosaos quais se referem.

4. Classes de relacionamentos: O KG deve ser concebido para suportar não apenasligações de cunho hierárquico entre seus nós, mas também relações de outras na-turezas. Assim, as relações entre nós devem ser modeladas sob duas classes dearestas: (a) arestas empregadas na estruturação hierárquica da árvore, doravantechamadas de arestas primárias ou hierárquicas; e (b) arestas estabelecendo cone-xões de natureza não-hierárquica, daqui em diante denominadas arestas secundá-rias. Com o estabelecimento de arestas primárias, o referido KG, a rigor, não podemais ser referido como uma árvore, já que árvores não formam ciclos.

O KG proposto, deste ponto em diante, será referido como KGAE (KG de Alarmes eEventos) em alusão à natureza dos dados-alvo desta tese. A Figura 4.2 ilustra a estruturabásica do KGAE proposto, onde os diferentes formatos (rótulos) dos nós representam osníveis hierárquicos, enquanto que arestas primárias e secundárias estão diferenciadas noKGAE por preenchimentos de linha distintos.

Nív

eis

H

ierá

rquic

os

Arestas primárias

Arestas secundárias

Figura 4.2: Estrutura básica do KGAE proposto.

Page 64: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 5

Grafo de Conhecimento de Alarmes eEventos (KGAE)

No capítulo anterior a abordagem proposta foi explanada em termos mais gerais, coma definição do problema, dos desafios e das diretrizes adotadas. A criação do KGAE éorganizada em três fases subsequentes e pormenorizadas ao longo deste capítulo: (1) pré-processamento, que se refere aos procedimentos avaliativos e preparatórios sobre a basede dados original para viabilizar a abordagem; (2) construção, que consiste na montagemda estrutura básica do KGAE a partir desses dados pré-processados; e (3) incremento, quese atém ao estabelecimento de relacionamentos secundários entre os entes distribuídos eorganizados no KGAE. A Figura 5.1 fornece uma visão geral das fases envolvidas nacriação KGAE.

Pré-processamento Construção IncrementoRegistros

de Alarmese Eventos

KGAE

Figura 5.1: Fases de geração do KGAE.

Ao final do capítulo, um aspecto indissociável do estudo de grafos é também abor-dado: a sistemática de visualização dos dados do KGAE.

5.1 Pré-processamento de dados

Os registros de alarmes e eventos, como qualquer outro conjunto de dados, devem seravaliados e preparados para garantir uma mineração mais frutífera e conclusiva. A fasede pré-processamento utiliza extensivamente técnicas de manipulação de dados tabulares,

Page 65: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)49

bem como de de técnicas de AED, para realizar um célere reconhecimento dos dados,em termos de estrutura e propriedades básicas, aspectos quantitativos e qualitativos, re-lacionamentos notórios e atributos. Dando ênfase também a técnicas de visualização dedados, esse processo inicial de análise busca aperfeiçoar a interpretabilidade dos dados,promove descobertas úteis para várias etapas subsequentes da abordagem proposta, comoa descoberta ontológica e o mapeamento dos dados no KGAE. A AED provê elementosque subsidiam e orientam a automatização de procedimentos de cunho reparatório, prepa-ratório, analítico e melhorativo na fase de pré-processamento. A AED pode ser utilizadade modo incremental e interativo a fim de aperfeiçoar os procedimentos envolvidos nestaetapa. A fase de pré-processamento é organizada em 4 etapas: (1) avaliação inicial; (2)resolução de problemas de qualidade; (3) análise quantitativa e qualitativa; e (4) enrique-cimento e suplementação de dados, a seguir pormenorizadas.

5.1.1 Avaliação InicialA avaliação inicial tem o objetivo de realizar o reconhecimento das características

básicas da base de registros, como passo inicial na construção do KG proposto. Para tal, sefaz necessária, como passo anterior, a assimilação de um mínimo de conhecimento teóricoe prático de domínio, necessário à adequada abordagem aos dados, o qual pode ser obtidopor meio de consulta à literatura especializada ou a especialistas da área. Essa abordagemutiliza essencialmente ferramentas de manipulação e perfilagem de dados para descrevere destacar aspectos primordiais para o prosseguimento da etapa de pré-processamento.Entre os aspectos a serem avaliados, destacam-se:

• Grau de estruturação: a averiguação do grau de estruturação da base de registrosdetermina a estratégia de análise a ser tomada nas etapas seguintes. O reconheci-mento do formato da base em relação ao número de registros (linhas ou observa-ções) e o número de atributos (colunas ou variáveis) desses registros tem grandeimportância para todo a fase de pré-processamento, especialmente em termos dadescoberta de componentes ontológicos. Considerando bases de natureza tabular emarcadas no tempo, o grau de estruturação destas é proporcional ao número atri-butos qualificadores (colunas) dos registros. Uma base altamente estruturada contacom um conjunto numeroso e diverso de atributos qualificadores dos registros. Emcontrapartida, uma base que dispõe de poucos atributos qualificadores além dos mí-nimos necessários para a identificação unívoca dos registros pode ser consideradacomo de baixo grau de estruturação. Neste último caso, pode ser necessário lançarmão de técnicas de EI sobre os escaços atributos disponíveis (se possuírem corpotextual relevante) na tentativa de se derivar novos atributos capazes de propiciar pro-cessos de análise subsequentes. A Tabela 4.1 mostra exemplos de bases hipotéticascom alto e baixo graus de estruturação.

• Características dos atributos: a inspeção dos atributos dos registros quanto à na-tureza também é fator determinante na estratégia de pré-processamento. Normal-mente predominam neste tipo de base de dados atributos categóricos e textuais,além do temporal (numérico) que fornece o instante de ocorrência do alarme ou do

Page 66: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)50

evento (Hollifield & Habibi 2011). Entretanto, a base pode ainda contar com atri-butos quantitativos, como contagens, frequências e diferenças que podem ser úteis.Além disso, é importante avaliar também a natureza dos atributos categóricos, jáque atributos dicotômicos e ordinais podem ser eventualmente mapeados para oespaço numérico (Rudas 2018), enquanto que os nominais tem que ser avaliadosprincipalmente em termos suas frequências totais e relativas (Agresti 2007).

Timestamp Type ... Tag Identifier Priority Description

20-03-21 10:20:03 Alarm ... LVL01 HI CRITICAL High level Al...20-03-21 10:18:01 Event ... ANL01 IO WARNING I/O error on p...20-03-21 10:17:24 Alarm ... PVS03 LO CRITICAL Low level Ala...20-03-21 10:17:03 Alarm ... LVL01 HIHI CRITICAL High High lev...20-03-21 10:16:57 Alarm ... COM4 COM WARNING Comm error ...

(a) Alto grau de estruturação.

Timestamp Description

20-03-21 10:20:03 N001.LVL01 High Alarm V...20-03-21 10:18:01 N002.ANL01 Input/Output...20-03-21 10:17:24 N003.PVS03 Low Alarm V...20-03-21 10:17:03 N001.LVL01 High High A...20-03-21 10:16:57 M001.COM4 Comm error ...

(b) Baixo grau de estruturação.

Tabela 5.1: Bases com diferentes graus de estruturação.

5.1.2 Resolução de Problemas de QualidadeOs dados do mundo real são coletados, estruturados e armazenados sob a regras e

restrições do do seu respectivo domínio. Procedimentos exógenos de coleta, despejo ou autilização de ferramentas de Extração, Transformação e Carregamento (do inglês, Extract,Transform and Load - ETL) não suficientemente bem ajustadas sobre essas bases podem,eventualmente, introduzir inconsistências e problemas de qualidade. Estes devem ser,idealmente, sanados antes dos estágios de análise subsequentes. Para tal, propõe-se oconjunto de processos ilustrados na Figura 5.2 e na sequência pormenorizados:

Limpeza e Simplificação

Tratamento de

Dados Ausentes

Normalização

Idiomática

Regularização

Categórica

Figura 5.2: Processos da etapa de resolução de problemas de qualidade.

Page 67: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)51

• Limpeza e simplificação de dados: constitui tarefa interativa fundamental da etapade resolução de problemas de qualidade. O objetivo geral da tarefa é reduzir a com-plexidade e a redundância do conjunto de registros, com consequente redução detempo e dos recursos computacionais necessários nas etapas subsequentes. Nessatarefa, forma e formato da base são avaliados na busca por inconformidades eviden-tes, que vão desde registros com deficiências insanáveis (duplicados, corrompidos,com dados faltantes em muitas colunas, com ausência de marcação de tempo, etc.)à presença de colunas irrelevantes, desnecessárias, vazias ou desalinhadas da estru-tura da base. No caso de registros envolvendo várias tabelas em uma base, umatarefa de simplificação pode incluir procedimentos de junção, projeção e agregaçãosobre as tabelas para racionalizar o conjunto de dados. Além disso, pode ser ne-cessária a unificação de formatos, no caso da existência de registros em formatosdiscrepantes na mesma coluna ou no caso de atributos atômicos inadequadamentesegregados em colunas (por exemplo, marcação de tempo em formatos divergen-tes, discrepâncias de fuso-horário, data e tempo separados em colunas diferentes,codificação de texto inconsistente, etc.). A meta final da tarefa é formulação de umconjunto de regras de edição da base original, aplicáveis a um processo de sanea-mento automático desses problemas.

• Tratamento de dados ausentes: constitui etapa primordial na compreensão daqualidade geral dos dados e refere-se à detecção e tratamento de dados ausentes (fal-tantes, inexistentes ou nulos) na base. Dados ausentes podem ser definidos comovalores de dados que não estão presentes para uma variável em uma observação.São geralmente reflexos de uma gama de problemas, como falhas de equipamentos,erros de configuração, problemas de comunicação, coleta, transformação entre ou-tros. Lidar com a ausência em dados categóricos e textuais (como majoritariamentesão os registros de alarmes e eventos) requer uma estratégia cautelosa, pois nor-malmente pouco se sabe sobre o mecanismo que causou as ausências. Abordagensde imputação pouco criteriosas em dados categóricos frequentemente produzem re-sultados piores do que a simples desconsideração da observação afetada, visto quepodem causar enviesamentos (Allison 2005). As ausência de dados em registrosde alarmes demandam análise cuidadosa, especialmente na possibilidade da infor-mação de uma transição de estados estar ausente, as análises decorrentes podemser comprometidas (por exemplo, um registro pode acusar a ativação de um alarmeem um determinado intervalo, quando, na verdade, a informação da desativaçãodo alarme foi perdida). Estratégias específicas de tratamento devem, portanto, serdeterminada caso a caso, à medida que se desvenda o papel de cada variável (co-luna) da base no processo de criação do KGAE, após a compreensão do cenáriogeral dos dados ausentes em termos da identificação e da contabilização das au-sências, bem como do reconhecimento de padrões de ausência em um conjuntode dados. Nesse sentido, a correlação entre as ausências pode ser calculada paraevidenciar quão fortemente a presença ou ausência de uma variável influencia apresença ou ausência de uma outra, o que pode indicar uma correlação tambémentre os mecanismos que podem ter causado os problemas (Bilogur 2018). Ferra-mentas de perfilamento de dados com módulos capazes de fornecer, com utilização

Page 68: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)52

de recursos visuais, análises e resumos acerca da integridade de um conjunto dedados (Bilogur 2018, Brugman 2021). Feitas essas considerações, duas estratégiasde imputação são majoritariamente adotadas:

– Por registros similares: a semelhança entre um registro com categorias fal-tantes e registros completos é utilizada como base para imputação. Dessemodo, categorias de registros completos são empregadas para completar asausências em registros incompletos, desde que sejam semelhantes em termosde outros atributos categóricos.

– Pela categoria mais frequente: a categoria mais frequente em uma determi-nada coluna é utilizada para imputar as categorias faltantes. Esta estratégia édestinada a colunas identificadas como referentes apenas a atributos, ou seja,não essenciais à criação do KGAE.

• Normalização idiomática: o AED também pode denunciar colunas com a pre-sença de dados categóricos ou textuais em diferentes idiomas, o que pode aumentara complexidade de etapas subsequentes, especialmente as demandantes de PLN. Oproblema é decorrente de uma variedade de causas, entre as quais estão a ausênciaou falhas de internacionalização nas mensagens produzidas pelos sistemas, ou, ex-cepcionalmente da possibilidade de inserção de mensagens textuais não padroniza-das por operadores humanos (Hu 2016). É recomendável, portanto, que as colunascategóricas e textuais dos registros sejam submetidos a um processo de normaliza-ção idiomática em favor do idioma de maior frequência ou relevância (normalmenteo inglês). Como textos em idiomas discrepantes geralmente constituem minoria emrelação ao todo da base, a detecção dessas discrepâncias idiomáticas e a normali-zação para um único idioma são tarefas trivialmente realizáveis em um pipeline dePLN simples, utilizando técnicas e bibliotecas padrão de fato da área.

• Regularização categóricos: a AED sobre uma base registros real pode revelar umproblema comum de qualidade de dados tabulares, relacionado à presença de da-dos categóricos não curados ou padronizados. Isto pode levar à percepção de umgrande número de entradas categóricas diferentes em uma coluna (alta cardinali-dade) nas análises, potencialmente crescente com o número de observações (Cerdaet al. 2018). Esse problema é estatisticamente e computacionalmente adverso, jáque a codificação dessas categorias pode resultar em vetores binários de alta di-mensionalidade. Além disso, frequentemente, muitas dessas categorias não padro-nizadas referem-se, na verdade, à mesma categoria, evidenciando um problema deredundância potencialmente mitigável. Propõe-se, então, a regularização de colu-nas categóricas de alta cardinalidade por meio de um processo de fusão de cate-gorias semelhantes, utilizando representações em espaço vetorial que exaltam as-pectos léxico-semânticos para as categorias, permitindo a aplicação de algoritmosde agrupamento com base em similaridade (Gugger 2020). Categorias com re-presentações vetoriais muito próximas são então fundidas em uma única categoria,considerando como dominante o valor da categoria mais frequente no agrupamento.Por exemplo, considerando uma determinada variável categórica onde “5-INFO” e“INFORMATION” figuram dentre suas categorias, é conveniente que estas sejamfundidas em uma única, já que, provavelmente, tratam do mesmo nível categórico.

Page 69: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)53

5.1.3 Análise Quantitativa e QualitativaConforme já evidenciado, as bases de registros de alarmes e eventos são formadas por

dados majoritariamente categóricos e textuais. Sobre dados categóricos, as análises quan-titativas e qualitativas se concentram na utilização de técnicas de visualização e métodosgráficos para evidenciar contagens e relações proporcionais entre variáveis categóricas,assim como entre suas categorias. Diagramas tipicamente voltados à análise quantitativa,como os gráficos de barras empilhadas (Figura 5.3), podem ser também utilizado paravisualizar contagens e proporções entre as variáveis categóricas, embora limitadamente.

0 100 200 300 400 500 600Número de entradas

ALARM

EVENT

Type

CategoryHARDWAREINSTRUMENTPROCESSSYSTEMUSER

Figura 5.3: Gráfico de barras empilhadas relacionando duas variáveis categóricas.

Existem, porém, métodos de visualização mais adequados ou projetados especifica-mente para dados categóricos, fornecendo um melhor panorama da inter-relação entreas proporções e interações das variáveis. Uma ferramenta conveniente e versátil de exi-bir os resultados da análise de variáveis categóricas é o diagrama aluvial, construído apartir de uma tabela frequências multi-dimensional obtida das variáveis categóricas. Odiagrama, exemplificado na Figura 5.4, permite a visualização de relações proporcionaisentre múltiplas variáveis categóricas simultaneamente, destacando o fluxo e a dispersãoqualitativa entre variáveis e suas categorias ao longo dos dados em análise. O mesmo tipode diagrama pode ser também utilizado para evidenciar a evolução das frequências dascategorias de uma variável categórica ao longo do tempo, como mostrado a Figura 5.5.

Outra forma de evidenciar relacionamentos entre as categorias de várias variáveis ca-tegóricas se dá por meio do método de Análise de Correspondência Múltipla (do inglês,Multiple Correspondence Analysis - MCA), contraparte da Análise de Componentes Prin-cipais (do inglês, Principal Components Analysis - PCA) para dados categóricos, baseadaem tabelas de frequência (Kassambara 2017). A Figura 5.6 mostra o gráfico de dispersãodas coordenadas de variáveis categóricas no mapa de fatores obtido a partir da aplicaçãoda MCA sobre algumas variáveis categóricas de uma base de registros. Nesse gráfico

Page 70: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)54

EV

EN

TA

LA

RM

SY

ST

EM

PR

OC

ES

SO

TH

ER

INS

TR

UM

EN

T

INF

OC

RIT

ICA

LA

DV

ISO

RY

OT

HE

R

INA

CT

/UN

AC

KIN

AC

TIV

EA

CK

AC

TIV

EA

CT

/UN

AC

KA

CT

/AC

K

MO

DE

2M

OD

E0

NIG

HT

MO

RN

ING

LA

TE

NIG

HT

EV

EN

ING

AF

TE

RN

OO

N

0

250000

500000

750000

1000000

Type Category Level State IsArchived par t_of_the_day

Type ALARM EVENT

Núm

ero

de E

ntra

das

Categorias

Figura 5.4: Diagrama aluvial para múltiplas variáveis categóricas.

1 2 3

Dias

Lev

el

CRITICAL

INFO

WARNING

CRITICAL

INFO

WARNING59

Figura 5.5: Diagrama aluvial evidenciando as frequências de categorias ao longo dotempo.

Page 71: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)55

ALARM EVENT

DEVICE

HARDWARE

INSTRUMENT

PROCESS

SYSTEM

ACT/ACK

ACT/UNACK

ACTIVE

INACT/ACKINACT/UNACK

ADVISORY

CRITICAL

IGNPV

INFO

MAINTENANCE

WARNING

MODE 0

MODE 2

afternoon

eveninglate night

morning

night

−2

−1

0

1

0 1 2 3 4

Dim1 (16.1%)

Dim

2 (8

.5%

)

5

10

15

contrib

Variable categories − MCA

Figura 5.6: Aplicação do MCA sobre variáveis categóricas de uma base de registros.

é possível comprovar, assim como no diagrama aluvial, o grau de relacionamento entrecategorias em termos de suas frequências relativas.

Análises visuais como as demonstradas possibilitam a aquisição de uma percepçãoquantitativa e qualitativa sobre as variáveis categóricas identificadas em uma base de re-gistros. Essa percepção é importante para orientar etapas subsequentes da fase de criaçãodo KGAE. Sobretudo, fornece um conjunto de indícios que podem ser utilizados no pro-cesso de seleção de colunas (variáveis) de interesse a serem empregadas na derivação deuma ontologia, especialmente em termos de suas classes, relações e atributos.

5.1.4 Enriquecimento e SuplementaçãoUma etapa importante na fase de pré-processamento consiste no enriquecimento base

de registros original com a criação de novas colunas (variáveis) suplementares, normal-mente de cunho agregativo e derivados dos próprios dados, demandadas pelas etapas sub-sequentes de processamento. A necessidade ou conveniência da criação desses atributoscomplementares depende da natureza e do grau de estruturação da base, bem como dosobjetivos da análise. Por exemplo, pode ser adequada a criação de um atributo categóricocujas categorias remetam às partes do dia (manhã, tarde, noite, madrugada), baseando-sena marcação de tempo. Pode ser conveniente, ainda, a criação de uma nova coluna numé-rica indicativa da diferença de tempo entre o registro atual e o seu antecessor imediato. Oenriquecimento da base, necessário à construção do KGAE, considera majoritariamenteo aspecto temporal (marcações de tempo) e o aspecto textual (descrições) dos registros.

Page 72: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)56

5.1.4.1 Unicidade de Episódios

No contexto operacional de um processo ou planta industrial, a unicidade um epi-sódio (alarme ou evento) é determinada pela combinação unívoca entre o seu local deocorrência e a sua caracterização básica (Ahmed 2011, Mannani et al. 2019). Então, ti-picamente, a combinação singular entre o ativo referenciado nos registros (geralmenteassinalado por uma tag) e os demais atributos que utilizáveis para distinguir os episódios(tipo, descrição, etc.), excluindo-se a marcação de tempo e a indicação de estado (parao caso dos alarmes), determinam a unicidade de um episódio. Dado que os registrossão verbalizações na base de ocorrências de diferentes episódios no contexto operacional,faz-se conveniente o estabelecimento de um atributo capaz de vincular univocamente umregistro a um determinado episódio (novo ou reincidente).

Para melhor entendimento, considere-se os registros (linhas) com Id 1037 e 1031 naTabela 4.1. Analisando as colunas desta tabela, constata-se que os registros tem a mesmadescrição, tipo, identificador e acontecem no mesmo ativo (tag), diferenciando-se apenasem termos da marcação de tempo e do estado indicado em coluna específica. Trata-se, portanto, da mera transcrição, na base de registros, de ocorrências que informam atransição entre estados de um mesmo episódio.

5.1.4.2 Determinação de janelas de tempo

Uma tarefa de crucial importância na fase de pre-processamento é a vinculação decada registro com sua respectiva janela temporal, determinada segundo sua marcação detempo. A partir do intervalo de tempo (T ), compreendido entre as marcações do primeiroe o último registro considerado, e do tamanho de janela (∆t) pretendido para a construçãodo KGAE, uma sequência inteira de janelas de tempo de tamanho (T/∆t) é determinada.As marcações de tempo dos registros são, então, confrontadas com essa sequência de ja-nelas para produzir a indicação da janela de tempo a qual o registro pertence. A Tabela 5.2retrata o resultado do processo com adição de uma nova coluna aos dados.

Data_Tempo · · · Janela de Tempo

2021-05-13 09:21:09 · · · 012021-05-13 09:23:51 · · · 012021-05-13 09:32:02 · · · 022021-05-13 09:44:17 · · · 032021-05-13 09:57:53 · · · 042021-05-13 09:59:31 · · · 04

.... . .

...

Tabela 5.2: Janelas de tempo agregadas as registros.

O tamanho da janela de tempo deve ser adequado à dinâmica dos processos monito-rados, estipulado pela granularidade desejada nas análises ou ainda, aderente a algumaconvenção frequentemente utilizada. O interstício de 10 minutos é um intervalo-chave nosetor de gerenciamento de alarmes, constante de normatizações e guias de boas práticas

Page 73: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)57

de ergonomia concernentes à quantidade e frequência administrável de alarmes e even-tos por parte dos operadores (Hollifield & Habibi 2011, Mehta & Reddy 2015, Dorgoet al. 2021).

5.1.4.3 Processamento de descrições dos registros

As descrições dos registros, por serem elementos de natureza textual e, portanto, nor-malmente mais ricos em informação, constituem fontes de grande utilidade nesse pro-cesso de derivação de novos atributos. Por este motivo, as descrições demandam umaabordagem de processamento mais diligente em comparação aos outros atributos dos re-gistros, sobretudo em bases com baixo grau de estruturação, onde há escassez de atri-butos. Por denotarem textualmente a essência dos fenômenos historiados nos registros,essas descrições são componentes de crucial importância neste estudo. A riqueza textualdas descrições, principalmente se comparadas aos outros atributos dos registros, podemfornecer elementos de caracterização e diferenciação entre registros, bem como subsidiaro enriquecimento de dados.

As descrições dos registros são majoritariamente constituídas por sentenças textu-ais curtas, geradas por sistemas automáticos de vocabulário ou fraseologia normalmentecontrolada, embora comumente também possam constar de textos em vocabulário livre,como, por exemplo, anotações de ações interventivas por parte de operadores huma-nos (Hu et al. 2016). As semelhanças léxicas, sintáticas e semânticas compartilhadasentre as descrições dos registros ensejam operações de síntese, agrupamento e classifica-ção, importantes etapas subsequentes da abordagem de análise proposta nesta tese. Con-siderando a importância dessas sentenças, a última etapa da fase de pré-processamentovolta-se ao enriquecimento da base de registros por meio de de um pipeline de processa-mento das descrições dos registros. Ilustrado na Figura 5.7, o pipeline é composto de trêsprocessos subsequentes e interdependentes:

1. Extração de templates: consiste na extração de formatos padrões, moldes ou mo-delos (templates) que podem ser reconhecidos a partir da análise de um grupo desentenças que compartilham similaridades léxicas e sintáticas. Nesse processo, sen-tenças são confrontadas no intuito de identificar, dentre as sentenças com estruturasemelhante, trechos constantes e trechos variáveis. Dos trechos constantes, deriva-se o template que, por sua vez, parametriza os trechos variáveis. Assim, as descri-ções dos registros podem ser consideradas instâncias parametrizadas desses templa-tes. Os templates extraídos podem ser relacionados à natureza ou tipo do episódionarrado na descrição, enquanto que os parâmetros detectados podem se referir aosativos, endereços, setpoints, códigos de erro, etc. Sob outro prisma, esse processopode se entendido como um agrupamento por tipo de sentença, no qual o templateé o representante do grupo (cluster head) e as sentenças individuais são os mem-bros do grupo. Esta estratégia, por favorecer a diminuição drástica do número desentenças a serem analisadas, visa, principalmente, reduzir a complexidade de tare-fas subsequentes de processamento textual, bem como de tarefas de comparação eagrupamento de registros. Para extrair esses templates das descrições dos registros,adotou-se um procedimento baseado no método Drain (He et al. 2017), voltado à

Page 74: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)58

análise online de logs. O método é capaz de extrair automaticamente templates,definindo grupos entre os quais os logs estão segregados. O método emprega umaárvore de busca com profundidade fixa para guiar o processo de agrupamento e ex-tração de templates com base em um conjunto extensível de expressões regularesbásicas voltadas à identificação de termos variáveis (parâmetros). Um parâmetrocontrola a agressividade do método em termos do que deve ser englobado comoparte do template. Na Tabela 5.3, a coluna Template resulta da aplicação do métodosobre a coluna Sentença.

2. Extração de tópicos: compreende a extração dos principais tópicos que podem serdeduzidos a partir sentenças (geralmente representadas por um pequeno conjunto depalavras-chave). Embora os templates obtidos no processo anterior já destaquem,por meio de suas partes fixas, algumas dessas palavras-chave, uma abordagem maisincisiva pode ser utilizada. Considerando que as descrições dos registros consti-tuem corpo textual limitado (uma única sentença curta), métodos de MTTC como omodelo Biterm (Yan et al. 2013) podem ser empregados. O processo de extração detópicos tem o objetivo de derivar um novo atributo categórico referente à naturezada mensagem da descrição, especialmente importante em bases de registros combaixo grau de estruturação ou com dados faltantes. A coluna Tópico da Tabela 5.3exemplifica o resultado de um processo de extração dos tópicos aplicados sobre ostemplates da coluna Template.

3. Classificação de prioridade: o processo final do pipeline de processamento desentenças consiste na interpretação automática dos tópicos extraídos, com atribui-ção de um nível de prioridade equivalente para cada um deles. Este processo éempreendido sobretudo em bases pobres, no caso de não existir atributo com indi-cação explícita do grau de prioridade, criticidade ou severidade do registro. Essainformação é, então, obtida a partir das tópicos extraídos de cada template. Para tal,utiliza-se um método de Análise de Sentimento (AS) para detecção dos vieses sen-timentais (negativo, positivo e neutro) normalmente vinculáveis às palavras-chavesque formam os tópicos. Aos vieses sentimentais detectados, são associados, res-pectivamente, a níveis de prioridade (CRÍTICO, INFO e ATENÇÃO) no intuito defornecer, despretensiosamente, um vislumbre da severidade a ser atribuída ao regis-tro no caso de ausência de indicação explícita nos dados. O método Vader (Hutto& Gilbert 2014) é capaz de obter vieses sentimentais a partir de textos curtos deforma simples e eficiente, a partir de modelos treinados com textos de redes sociaise com validação humana. A coluna Severidade da Tabela 5.3 mostra o resultado daaplicação do método aos tópicos da coluna Tópico.

Ao final desse pipeline, os resultados de cada processo enriquecem a base de registrosoriginal na forma de novos atributos para os registros. Os processos 2 e 3 deste pipelinesão especialmente relevantes em bases com baixo grau de estruturação ou na ausência deuma categoria para uma observação, já que atributos originalmente inexistentes referentesà natureza e à severidade dos episódios podem ser derivados das descrições. A Tabela 5.3mostra os resultados da aplicação do pipeline a um conjunto hipotético de sentenças.

Page 75: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)59

Figura 5.7: Enriquecimento de dados via processamento de descrições dos registros.

Sentença Template Tópico Prioridade

01 Critical Failure 0x05

Critical Failure <ID> Failure, Critical, General

CRITICAL

02 Critical Failure 0x0803 General Failure Mod M001

General Failure Mod <ID>

04 General Failure Mod M00305 I/O Error Addr 0x3B

I/O Error <TYP> <ADD>

Error, Lost, Communication06 I/O Error Card A:0:107 Lost Communication M001

Lost, Communication <ID>

08 Lost Communication M003

Tabela 5.3: Exemplo hipotético da aplicação do pipeline de processamento de descrições.

5.2 Construção do KGAE

A fase de construção do KGAE se ocupa de remontagem da base de registros pré-processada na estrutura primária preconizada para o KG (árvore). Esta fase é organizadaem três etapas: (1) derivação de ontologia, onde a base de registros é analisada com focona obtenção de uma ontologia sobre a qual o KGAE será construído, (2) mapeamento daontologia na base de registros, onde são estipuladas regras de mapeamento entre compo-nentes da ontologia e elementos (dados) da base de registros; e (3) população, em que osdados constantes dos registros são adicionados à estrutura do KGAE, segundo a ontolo-gia derivada. A Figura 5.8 ilustra a fase de a construção do KGAE a partir de uma basetabular de registros preparada e enriquecida na fase anterior (pré-processamento).

5.2.1 Derivação de OntologiaPara a construção do KGAE, adota-se uma abordagem bottom-up fundada em um

processo semi-automático e interativo de derivação de ontologia. O intuito é reconhecer aestrutura de entidades e relacionamentos intrínseca da base de registros, traduzindo-a emuma ontologia que servirá de alicerce para a construção do KGAE proposto, considerando

Page 76: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)60

Derivação deOntologia

Mapeamento

Base Preparadae Enriquecida

Construção

Pré-processamento

População

Base Original

Figura 5.8: Visão geral da fase de construção do KGAE.

as diretrizes de construção. Como os registros de alarmes e eventos, tal como outros tiposde dados industriais, normalmente formam bases com dados majoritariamente estrutura-dos (Mehta & Reddy 2015), vários aspectos dessa estruturação são também capazes decomunicar ou induzir, embora normalmente de modo indireto, elementos empregáveis naformação de uma ontologia do domínio de interesse. Esta, por sua vez, orienta como oscomponentes do KGAE devem ser organizados e distribuídos em termos de indivíduos,classes, relacionamentos e atributos mapeados. A identificação dos componentes da on-tologia considera, assim, a natureza e as características da base-alvo, bem como as pre-missas, hipóteses, diretrizes e metas de análise instituídas. Os componentes ontológicos aserem identificados ou estabelecidos com base nos registros podem ser categorizados em(1) afetos aos ativos e (2) afetos aos registros, a serem detalhados no que se segue.

5.2.1.1 Componentes afetos aos ativos

Uma das premissas utilizadas nessa etapa é a de que os registros incluem, expressa-mente ou tacitamente, informações sobre ativos de automação e relacionamentos notada-mente hierárquicos entre estes, além de diversos outros atributos que podem ser explo-rados na criação de um KG. Pressupõe-se, assim, que dos dados é possível derivar uminventário taxonomicamente organizado de ativos, do mais especializado até o mais gene-ralizado, constantes do contexto estabelecido pelos registros de interesse, formando umaárvore de ativos.

Tomando por exemplo o registro com identificação 1037 na Tabela 4.1, uma das lei-turas que pode ser feita é a seguinte: “um alarme de prioridade crítica que acusava oatingimento do nível baixo de variável de processo sob a tag LVL03, pertencente ao nóN004, passou para o estado de inatividade em 23/05/2019, às 10h34min18”. Dessa lei-tura, presume-se a existência de uma relação intrínseca de pertencimento entre LVL03e N004, ativos de duas classes hierarquicamente segregadas (Tag e Nó). Essas presun-ções podem ser atestadas por meio da investigação da base de registros sob as seguintesperspectivas não mutuamente excludentes:

Page 77: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)61

1. Conhecimento do domínio: idealmente, uma compreensão básica do universo aoqual esses registros pertencem (processos industriais, variáveis, alarmes, eventos,ativos de automação, estados de um alarme, etc.) é conveniente para determina-ção de uma ontologia. Em específico, o entendimento acerca dos principais blocosconstitutivos de uma base de registros de alarmes e eventos, considerando as melho-res e mais frequentes práticas se favorece a diligência na identificação de potenciaiscomponentes ontológicos para posterior mapeamento em meio aos componentes dabase (tabelas, linhas e colunas).

2. Documentação e metadados da base: se disponíveis, documentos da base de re-gistros como esquemas (conceituais, lógicos e físicos), diagramas UML, diagra-mas entidade–relacionamento (ER) e dicionários de dados, assim como seus me-tadados (nomes de tabelas, cabeçalhos de colunas, tipagem dos dados, restrições,chaves, descrições, índices, etc.), constituem fontes latentes de elementos ontológi-cos (Mulwad et al. 2011). Embora o objetivo primordial desses artefatos não sejao de comunicar ontologias, eles provém acepções, terminologias e relacionamen-tos sobre os quais os dados estão suscetíveis, analogamente ao que preconiza umontologia (Uschold 2015). Desse modo, é possível estabelecer as correspondênciasentre essas fontes e elementos da ontologia. A Figura 5.9 ilustra um exemplo decomo uma ontologia pode ser prontamente derivada de um esquema de uma basede dados e representada na forma de um grafo direcionado. Neste exemplo, classes,relacionamentos e atributos de uma ontologia são derivados de tabelas, registros,colunas e relações do esquema lógico (diagrama ER) de um banco de dados.

3. Dados da base: no caso da obtenção de informações ontológicas a partir do es-quema da base ou do conhecimento do domínio não ser suficientemente frutífera,ou ainda, havendo necessidade de complementação às informações levantadas, ele-mentos ontológicos podem ser também inferidos dos próprios dados. Para isso, amanipulação de dados, incursões exploratórias e combinacionais (junção de tabe-las e colunas), análises visuais, análises de co-ocorrências e frequências relativas,processamento de sentenças textuais e inferência lógica estão entre os artifícios uti-lizados. A utilização de técnicas de AED, com enfoque na evidenciação de relaçõesproporcionais entre atributos, auxiliam a compreensão da estrutura dos dados e natriagem de colunas cujos dados podem revelar uma estrutura ontológica relativaàs classes de ativos afetas ao contexto operacional estabelecido pelos registros. Aprincipal estratégia de AED empregada toma por base a construção de tabelas defrequência (ou de contingência) multi-dimensionais a partir de diferentes combina-ções entre colunas da base de registros. Em cada uma das linhas dessa tabela sãocontabilizadas as frequências de ocorrência conjuntas das categorias das variáveisselecionadas, conforme mostrado no exemplo da Tabela 5.4. A partir deste tipode estrutura de contabilização, ferramentas visuais dedicadas ao realce de relaci-onamentos proporcionais e hierárquicos entre variáveis categóricas (colunas) sãoutilizadas. Entre estas destacam-se os diagramas aluvial (Figura 5.10) e o sunburst(Figura 5.11), eficazes em revelar, considerando os quantitativos proporcionais en-tre as categorias das diferentes colunas contabilizados em uma tabela de frequência,arranjos análogos a árvores, evidenciando relacionamentos potencialmente hierár-

Page 78: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)62

quicos (ou de pertencimento) entre essas colunas. Sistematicamente, essa relaçãohierárquica entre as pretensas classes de ativos também pode ser inferida a partirde uma formulação lógica considerando as co-ocorrências de categorias ao longodas linhas de uma tabela de frequência: se sempre que uma determinada categoriab ocorre em uma coluna B, uma outra categoria específica a também ocorre emuma coluna A, e ainda, se o contrário não é verdadeiro, julga-se haver uma co-ocorrência unidirecional entre essas categorias (b⇒ a e a 6⇒ b). Conjectura-se,logo, uma eventual relação de pertencimento entre elementos da coluna B para comelementos da coluna A, ou seja, que a B é parte de A (A ← B). Por outro lado,co-ocorrências bi-direcionais apuradas entre categorias (d ⇔ c) podem evidenciarque os elementos de uma coluna D correspondem a atributos de elementos de umacoluna C ou vice-versa (C↔D). Um grafo intermediário é utilizado para represen-tar essas potenciais relações entre colunas da tabela de frequência, conforme ilustraa Figura 5.12. Nesse grafo, arestas de pertencimento transitivas entre colunas sãodesconsideradas (para não formar ciclos) enquanto que uma coluna envolvida ape-nas em uma co-ocorrência bidirecional é considerada como atributo da coluna coma qual faz par nessa relação.

Figura 5.9: Ontologia obtida a partir de um esquema de banco de dados.

AR ND MD CR Frequência

1 AR01 ND01 MD02 CR11 32 AR01 ND03 MD08 CR13 23 AR01 ND05 MD01 CR01 54 AR02 ND04 MD05 CR15 25 AR03 ND02 MD06 CR04 1...

......

......

...

Tabela 5.4: Tabela de frequência multidimensional com quatro variáveis categóricas.

Page 79: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)63

AR03

AR02

AR01

ND05

ND04

ND03

ND02

ND01

MD08

MD07

MD06

MD05

MD04

MD03

MD02

MD01

CR16

CR15

CR14

CR13

CR12

CR11

CR10

CR09

CR08

CR07

CR06

CR05

CR04

CR03

CR02

CR01

0

20

40

60

AR ND MD CRVariáveis categóricas

Reg

istr

os

Figura 5.10: Diagrama aluvial destacando proporções e hierarquia entre quatro variáveiscategóricas.

Figura 5.11: Diagrama sunburst destacando proporções e hierarquia entre três variáveiscategóricas.

Page 80: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)64

Figura 5.12: Grafo das relações entre colunas categóricas da base de registros.

As percepções e informações obtidas desses processos correspondem aos componen-tes ontológicos intrínsecos, ou seja, prontamente tangíveis a partir da base de registros.Desse resultado, uma ontologia afeta aos ativos é montada, representando a cadeia declasses de ativos mencionada nos registros na forma de grafo, em que os nós se referemàs classes ontológicas (com seus respectivos atributos) e as arestas correspondem aos rela-cionamentos hierárquicos. Uma classe especial de indivíduos é criada para abrigar apenasa raiz do KGAE, representando o sítio (físico ou lógico) onde os ativos estão localizados.Assim, um KG montado a partir dessa ontologia representaria rigorosamente a árvorehierárquica de ativos (inventário) constantes em um sítio (raiz).

Para o caso de bases com baixo grau de estruturação (Figura 5.1b) onde há poucosatributos a serem explorados, a identificação de componentes ontológicos é tarefa maiscomplexa. Deve-se recorrer a um processo de EI para derivação de entidades, termos,conceitos e relações predominantemente ou unicamente sobre o corpo textual disponível(geralmente as descrições dos registros). Por exemplo, alguns dos os elementos variáveisdos templates extraídos das descrições dos registros podem refletir um relacionamentohierárquico entre ativos de automação, o que pode ser confirmado ao serem analisadosem termos de de suas co-ocorrências e frequências relativas, com ajuda das ferramentasde análise visual supramencionadas.

De todo modo, atualmente dispõe-se de uma vasta gama de abordagens estatísticas,de PLN e de aprendizagem de máquina que podem tornar viável o processo de desvenda-mento de uma ontologia satisfatório mesmo utilizando apenas texto não-estruturado comofonte de informações para a estruturação de KGs (Watróbski 2020, Yan et al. 2020, Khadiret al. 2021). Ademais, esses componentes textuais das das bases de registros (descriçõesdo alarme ou evento, descrição da tag, etc.) constituem importante fonte de informa-ção suplementar, particularmente quando da necessidade de preenchimento de eventuaislacunas ou de complementações necessárias para a consolidação da ontologia.

Ainda, no caso da construção da ontologia não ser satisfatória unicamente a partirda própria base de registros, outros tipos de bases de dados afetas ao domínio podemser consultadas, se disponíveis. Concretamente, dados de bases de inventário de ativosoriundas de SGAAs, por exemplo, podem ser cruzados com os registros de alarmes e

Page 81: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)65

eventos em procedimentos de identificação e desambiguação de ativos, bem como pararevelar eventuais associações hierárquicas entre as entidades constantes dos registros.

5.2.1.2 Componentes afetos aos registros

Além de entidades e relacionamentos derivados no processo anterior, a ontologia a serdefinida pode incorporar outros componentes convenientes à construção do KGAE ou àsanálises decorrentes. Uma das diretrizes de criação do KGAE estabelece que os regis-tros devem ser integralmente incorporados ao KG, assim como devem ser congregadosem relação aos episódios que reiteradamente relatam. É adequado, neste ponto, recapi-tular a convenção instituída Capítulo 2 concernente a registros, ocorrências e episódios:registros são inscrições de ocorrências de determinados episódios ao longo do tempo. As-sim, as ocorrências são consideradas instâncias dos episódios e, por isso, devem herdaros atributos destes.

A complementação do encadeamento de classes ontológicas para o KGAE se dá, en-tão, pelo estabelecimento de duas novas classes que modelam as ocorrências (registrospropriamente ditos) e os episódios (alarmes ou eventos) relatados nos registros. Essas no-vas classes ontológicas estão hierarquicamente ligadas por uma relação de instanciação,conforme ilustrado na Figura 5.13.

Figura 5.13: Componentes ontológicos afetos aos registros.

5.2.1.3 Integração de componentes em uma ontologia

A partir da determinação dos componentes ontológicos afetos aos ativos e dos afetosaos registros, a ontologia do KGAE é formada. Interligando as duas categorias de com-ponentes ontológicos, um novo componente é instituído na forma de relação hierárquicaentre a classe relativa aos episódios e a classe hierárquica de ativos aos quais os episó-dios se referem ou onde os episódios acontecem (geralmente a de maior profundidade ouespecialização na cadeia). Por fim, como as diretrizes de criação do KGAE estabelecemarestas de cunho não-hierárquico para relacionar indivíduos de mesma classe ontológicaou nível hierárquico, este tipo de relação é também contemplado na ontologia. A Fi-gura 5.14 ilustra a ontologia resultante, cujas classes ontológicas representam as camadasou níveis hierárquicos do KGAE a ser construído. Doravante, palavras capitalizadas serãoutilizadas para fazer menção às classes ontológicas supra definidas.

Page 82: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)66

Figura 5.14: Ontologia resultante da etapa de derivação ontológica.

5.2.2 Mapeamento da ontologia na base de registrosA etapa anterior mirou nos componentes que formam os registros com o intuito de se

definir uma ontologia necessários para a construção do KGAE. No contexto da constru-ção do KGAE, as diferentes classes de indivíduos presentes na ontologia correspondemtambém aos níveis hierárquicos da árvore da estrutura básica do KGAE em construção.Componentes ontológicos como classes e relacionamentos, com seus respectivos atribu-tos, podem ser implementados computacionalmente por meio de classes (no sentido doparadigma de orientação à objetos) cujos objetos (ou instâncias) correspondem aos indi-víduos a popularem o KGAE.

Antes de proceder a população do KGAE, é necessário estabelecer um conjunto deregras de mapeamento e instanciação entre os componentes da ontologia (classes, rela-ções, atributos e indivíduos) e elementos-chaves da base de registros (tabelas, cabeçalhos,colunas, linhas, etc.) já examinados na derivação ontológica. Essas regras indicam ondedevem ser buscados os dados necessários para a população automática do KGAE, bemcomo estipulam como deve se dar a instanciação das classes e relações ontológicas em

Page 83: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)67

elementos do KGAE. Devem levar em consideração, portanto, a organização da base deregistros, as definições da ontologia e as peculiaridades relacionadas a estrutura lógica dedados sob a qual o KGAE será montado.

Figura 5.15: Mapeamento entre elementos de uma tabela da base de registros e compo-nentes ontológicos.

5.2.3 População do KGAEA população, a última etapa da fase de construção, consiste no percorrimento da base

de registros para efetiva criação e arranjo de nós e relacionamentos, segundo uma onto-logia e regras de mapeamento desta em elementos da base de registros. Os nós e rela-cionamentos criados no KGAE recebem identificadores únicos, incorporam os rótulos eatributos conforme as definições dos respectivos elementos ontológicos. A abordagem depopulação é ascendente, iniciando pelos nós que compõem a base do KGAE.

5.2.3.1 Agregação de episódios e ocorrências

Conforme as diretrizes de construção e a ontologia definida, os registros (linhas dabase tabular) de alarmes e eventos são incorporados à base do KGAE (nós-folhas) naforma de sua respectiva classe ontológica (Ocorrência), modelada especificamente paraabrigar registros integralmente e fielmente. Consequentemente, as ocorrências e os re-gistros correspondem essencialmente ao mesmo conjunto de dados, mas em forma derepresentação diferente.

Procedendo à formação do nível hierárquico adjacente superior, conforme tambémpreconizado na ontologia, a atenção é voltada aos episódios. Tomados como generali-

Page 84: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)68

zações das ocorrências com características idênticas, os episódios são mapeados em suacorrespondente classe ontológica (Episódio) e também incorporados ao KGAE. Assim,nós dos episódios são estabelecidos, portanto, para agregar as menções aos mesmos fenô-menos que se apresentam ou se repetem ao longo do tempo e são cronologicamente re-gistrados na base de registros. São estabelecidas, desse modo, arestas hierárquicas entreas os nós das ocorrências e seus respectivos nós dos episódios.

Como um episódio representa, de fato, um conjunto de ocorrências idênticas acercade um determinado ativo, as marcações de tempo (timestamps) presentes nos registrosdessas ocorrências devem ser tomadas de modo a refletir no KGAE a dinâmica de ocor-rências desse mesmo episódio em relação ao período de tempo tomado para a análise.A informação de tempo dos registros das ocorrências é contabilizada nos nós referentesaos episódios por meio do mapeamento das marcações de tempo em uma sequência bi-nária, que relaciona janelas de tempo com as múltiplas ocorrências desses episódios. Assequências binárias são, então, incorporadas no KGAE como atributos dos nós relativosaos episódios.

Como mencionado no Capítulo 2, alarmes normalmente remetem a acontecimentoscom duração, envolvendo transições de estados, enquanto que os os eventos normalmenteremetem a acontecimentos atômicos. Por isso, seus respectivos registros demandam ave-riguações distintas quando da computação das sequências binárias na ocasião da criaçãodos nós dos episódios no KGAE. Quando um determinado evento ocorre uma ou maisvezes em uma janela de tempo, convenciona-se que o respectivo evento está sempre ativonesta janela de tempo. No caso dos alarmes, a ativação na janela de tempo depende, alémda sua ocorrência, do estado do alarme manifestado no registro.

Sequências binárias para episódios relativos a eventos

A construção das sequências binárias como atributo para os episódios relativos a even-tos considera apenas a ocorrência de um episódio relativo a um evento em uma janela detempo. Assim, para cada episódio Ei é atribuída uma sequência binária Si tal que:

Si(n) =

1, se há ocorrência do Ei em n;0, caso contrário,

(5.1)

onde n identifica uma janela (ou slot) de tempo de tamanho fixo ∆t. Ou seja, para cadaepisódio Ei, se este ocorrer uma ou mais vezes no intervalo (n∆t,(n+1)∆t], ao elementoda sequência binária correspondente é atribuído o valor 1, enquanto que 0 é atribuídose não for verificada a ocorrência do episódio na janela. A quantidade de elementos dasequência binária é dado pela razão entre o período observado T e o tamanho definido paraa janela de tempo (T/∆t). O tamanho (em tempo) desta janela pode ser parametrizada emtermos das variações conhecidas na dinâmica dos processos em análise, inferida com basena magnitude intervalar entre as marcações de tempo dos registros ou à rigor do analista.A Figura 5.16 ilustra o mapeamento das marcações de tempo em sequências binárias paraepisódios de eventos.

Page 85: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)69

Não ocorreu

... ...

...

...

...

...

...

...

1 1 1 0 0 1 1 0 1 ...

...

...

1E01

Dt

1 1 0 1 0 0 0 0 0 0

00

11

02

03

04

05

06

17

08

0n

E02

E03

tempo

Sequências Binárias

1:0:

Ocorreu

Ep.

Figura 5.16: Mapeamento das marcações de tempo dos registros em sequências binárias.

Sequências binárias para episódios relativos a alarmes

As múltiplas ocorrências de um mesmo episódio em diferentes instantes de tempo nabase de registros podem indicar o eventual trânsito entre os estados de episódio referentea um alarme. A computação das sequências binárias para episódios referentes a alarmestem foco nas indicações dos estados de ativação e desativação (retorno à normalidade) dosalarmes, normalmente presentes em coluna ou campo específico da estrutura do registro.O intuito é o de capturar essa dinâmica de ativações e desativações nas sequências bináriasa serem incorporadas como episódios referentes a alarmes.

Para cara episódio Ei referente a um alarme, uma sequência binária Si é calculadaconforme a Equação 5.2:

Si(n) =

1, se o último registro do Ei em n é de ativação;1, se há janela m com ativação do Ei;0, se o último registro do Ei é de desativação,

(5.2)

onde n é a janela de tempo atual e m < n é a janela de tempo onde foi verificada a úl-tima ativação do episódio Ei. Desse modo, o valor “1” é atribuído a todas as janelasde tempo compreendidas entre a ativação e a desativação de um alarme. Para contornareventuais flutuações de estado dentro de uma mesma janela de tempo (registros com ati-vações e desativações transientes do mesmo alarme), o valor a ser atribuído à janela detempo considera apenas o estado verificado para último registro dentro dessa janela. Estaestratégia utilizada para desprezar oscilações transitórias entre os estados de um alarmeem uma mesma janela de tempo, atenuando os efeitos negativos de conjuntos verborrá-gicos de registros de alarmes na determinação do estado corrente. A modelagem dos dealarmes e eventos em sequências binárias é uma estratégia frequentemente utilizada naliteratura (Nishiguchi & Takai 2010, Izadi et al. 2010, Ahmed et al. 2013). A Figura 5.17ajuda a esclarecer a abordagem de tratamento dos estados para a composição das sequên-cias binárias de episódios referentes a alarmes.

Page 86: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)70

Alarme não ativo

1 1 1

0 1 2 3 4 5 6 7 n

1 0 ... 0 1 1

Dt

0 0 0 0 0 0 0 0

E01

E02

E03

tempo

Sequências Binárias

1:0:

Alarme ativo

1 0 0 1 0 1 0 1

...

......

...

...

...

...

...

...

Figura 5.17: Sequência binárias para os registros de alarmes.

5.2.3.2 Agregação dos ativos

Seguindo em direção ao topo da estrutura básica do KGAE, após completados osníveis hierárquicos relativos às ocorrências e aos episódios (elementos da ontologia ex-trínseca), são agregados os nós referentes ao nível hierárquico imediatamente superiordo KGAE, correspondente à classe mais profunda (ou mais especializada) da ontologiaintrínseca. Esta classe refere-se, de um modo geral, aos ativos nos quais acontecem osepisódios constituintes da base de registros. São estabelecidas, por conseguinte, arestashierárquicas entre esses nós mais profundos e seus respectivos episódios.

Os próximos níveis hierárquicos são formados pelos nós referentes às classes onto-lógicas que refletem a cadeia hierárquica de ativos mencionados na base de registros ecompletam a estrutura básica do KGAE. O processo de população culmina na criaçãode um último nó, a raiz do KGAE, que integra os ativos de mais alto nível hierárquico(menor especialização) referenciados e representa o sítio de origem dos dados a partir dosquais o KGAE é construído. A Figura 5.18 mostra um exemplo da estrutura básica doKGAE obtida ao final da fase de construção, considerando uma ontologia com dois níveishierárquicos para ativos. O KGAE fica, portanto, a seguinte configuração estrutural final:

• Níveis hierárquicos: o total de camadas ou níveis hierárquicos do KGAE corres-ponde ao número de classes de indivíduos da ontologia.

• Nós: o total T de nós do KGAE é dado por T = 1+ |A|+ |E|+ |O|, onde A éinventário de ativos, E é o conjunto de nós dos episódios e O é o conjunto de nósdas ocorrências.

• Arestas: o total de arestas hierárquicas do KGAE é dado por T −1.

5.2.3.3 Propagação ascendente de sequências binárias

A modelagem do KGAE na forma de uma árvore permite deduzir que uma episódioque se refere ou acontece em um determinado ativo, também está relacionado a um ativohierarquicamente superior. É conveniente, portanto, que a informação da dinâmica deocorrências dos episódios seja propagada de forma ascendente no KGAE, ou seja, dos nósdos episódios para os nós referentes aos ativos. A partir dos nós dos episódios, cada nó dosníveis hierárquicos superiores deve ter suas respectivas sequências binárias computadascom base no nível inferior, por meio de uma operação lógica bit-a-bit com o operador

Page 87: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)71

Figura 5.18: Exemplo do KGAE obtido ao final da fase de construção.

OU entre as sequências binárias dos seus nós-filhos. Assim, cada nó referente aos ativosde automação agrega as sequências binárias da subárvore da qual é raiz. A propagaçãodessas sequências para o níveis superiores permite que os ativos reflitam indiretamente adinâmica dos episódios. A Figura 5.19 ilustra esse processo de propagação das sequênciasbinárias.

Figura 5.19: Propagação ascendente as sequências binárias.

Neste ponto, é importante destacar que o atributo de sequência binária definido paranós referentes a ativos e episódios tem suma relevância para ao menos duas atividades noâmbito da utilização do KGAE para analisar alarmes e eventos:

• Filtragem e visualização de dados: as sequências binárias podem ser utilizadaspara realizar filtragens de natureza temporal sobre os nós da KGAE, como, por

Page 88: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)72

exemplo, selecionar e evidenciar nós de diferentes níveis hierárquicos associados aum conjunto de janelas de tempo.

• Relacionamentos temporais: as sequências binárias ensejam a quantificação equalificação das interações temporais entre nós de mesma de uma mesma classe noKGAE.

5.3 Incremento do KGAE

Ao final da fase de construção, o KGAE tem rigorosamente a estrutura de uma árvore,montada sob os ditames hierárquicos de uma ontologia em um LPG. A etapa de constru-ção remonta a base de registros de alarmes e eventos em um domínio de representaçãode maior compreensibilidade e versatilidade, com evidenciação das entidades, relaciona-mentos hierárquicos e atributos. Com a estruturação básica do KGAE, possibilita-se oacesso a um conjunto de dados enriquecido sob vários prismas, além de uma melhor vi-são panorâmica de aspectos quantitativos e qualitativos da base. A fase de incremento,por sua vez, utiliza-se da premissa de que relacionamentos podem ser estabelecidos entrenós de mesma classe ontológica (ou nível hierárquico), ou ainda, de que esses nós sãocomparáveis entre si. Sob este prisma, cada nível hierárquico do KGAE é abordado iso-ladamente, na forma de um grafo homogêneo (nós de mesmo tipo e mesmo conjunto deatributos), entre cujos nós podem ser estabelecidos arestas exprimindo relacionamentosde natureza não-hierárquica.

As arestas entre nós de mesma classe, aqui nomeadas de arestas secundárias, instituemrelacionamentos cuja natureza e peso são determinadas pelos seus rótulos e propriedades,respectivamente. Os relacionamentos secundários tem o objetivo de representar eventuaisassociações de diferentes naturezas que podem ser instituídas entre esses nós de mesmaclasse ontológica. A criação de arestas secundárias está, portanto, estreitamente ligadaa objetivos de análises que buscam exacerbar aspectos não contemplados na estrutura-ção básica do KGAE ou responder a questionamentos mais específicos sobre o domíniodos alarmes e eventos. No contexto deste estudo, os relacionamentos secundários sãoabordados sob três prismas: sequencial, de causalidade e de similaridade.

5.3.1 Relacionamentos SequenciaisOs relacionamentos sequenciais correspondem às vínculos de precedência ou posteri-

oridade que podem ser estabelecidos entre nós, tomando por base as marcações de tempooriginalmente presentes ou a ordem dos registros na base original.

5.3.1.1 Sequências originais

No caso dos nós das ocorrências, como estes são representações acuradas dos registrosno espaço do KGAE, é pertinente utilizar relacionamentos direcionais e únicos entre paresde nós, encadeando-os segundo a sequência original dos registros na base original (oupelas marcações temporais). A diferença de tempo entre um par sequencial de ocorrências

Page 89: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)73

é integrada como atributo dessa aresta. A Figura 5.20 mostra um exemplo deste tipo derelacionamento entre um par de nós referentes a ocorrências.

Figura 5.20: Relacionamento sequencial indicando precedência/posterioridade entre nós.

5.3.1.2 Sequências de interesse

Arestas secundárias podem ainda ser estabelecidas no nível dos episódios para desta-car sequências de interesse na análise ou contabilizar sequências frequentes. Transiçõesfrequentes entre episódios, padrões de sequências (calculadas por métodos de minera-ção de sequências como os propostos em (Dorgo & Abonyi 2018a), (Law et al. 2019) e(Abonyi et al. 2021)), sequências conhecidas (oriundas de uma base de cenários de anor-malidade conhecidos (Leitão 2018)) e sequências concernentes a avalanches (calculadossegundo os métodos propostos em (Hu 2016), (Lai et al. 2017) ou (Dorgo et al. 2018b),por exemplo) podem ser indicadas e destacadas no KGAE por meio desse tipo de aresta.A Figura 5.21 mostra exemplos de utilização desta classe de relacionamento entre nós deepisódios.

Figura 5.21: Relacionamentos sequencias destacando sequências e transições.

Page 90: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)74

5.3.2 Relacionamentos de CausalidadeA determinação de causalidade é um tópico tipicamente abordado em estudos relacio-

nados à racionalização, otimização de configuração, detecção de anomalias, avalanches echattering de alarmes e eventos. O Teste de Causalidade de Granger (TGC) é uma métricaestatística recorrentemente utilizada nesta seara para subsidiar a inferência de interaçõescausais entre sinais de alarmes (Wang et al. 2015, Miranda 2017). Realizado sobre um parde séries temporais, o teste determina se uma série temporal Y pode ser melhor previstamediante conjunção de seus próprios valores históricos com valores anteriores de uma se-gunda série temporal X , do que baseando-se apenas nos seus próprios valores anteriores.Nesse caso, diz-se que X Granger-causa Y (rejeição da hipótese nula h0 do teste).

Arestas secundárias do KGAE podem ser utilizadas para indicar relações de causali-dade (ou indícios de) entre episódios, com base, por exemplo, no método proposto em(Wang et al. 2015), que implementa o TGC sobre séries temporais binárias. Empregandoo método, é possível construir um mapa causal baseando-se nas sequências binárias deum conjunto de episódios. As arestas causais estabelecidas entre episódios submetidosao TGC podem incorporar como atributos os resultados do referido teste. A Figura 5.22ilustra um mapa causal de episódios.

Figura 5.22: Mapa causal envolvendo uma seleção de episódios.

5.3.3 Relacionamentos de SimilaridadeUm conceito central em análise de grafos é a similaridade entre seus nós. A similari-

dade entre um par de entidades está invariavelmente vinculada a um aspecto (ou conjunto

Page 91: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)75

de) sobre o qual uma comparação possa ser efetuada, a fim de determinar o quão próximos(ou distantes) essas entidades estão sob este aspecto. Procedimentos de busca e agrupa-mento em grafos frequentemente demandam o cálculo de similaridades entre nós. Nocaso do KGAE, nós representam entidades tangíveis do domínio e seus atributos refletemos diversos aspectos desse domínio. Estes, por sua vez, servem de base de comparaçãopara o estabelecimento de relações de similaridade utilizadas em uma miríade de análi-ses subsequentes, bem como em buscas e recomendações de entidades no contexto danavegação sobre a estrutura do KGAE.

A similaridade entre alarmes e eventos é tópico frequentemente visitado na litera-tura especializada (Nishiguchi & Takai 2010, Ahmed et al. 2013, Yang et al. 2013, Wanget al. 2015), visto que a percepção de similaridade se faz importante para operadores eanalistas no contexto de investigações sobre incidentes, mau funcionamento de equipa-mentos, avalanches de alarmes, determinação de causa-raiz, entre outras. A maioria dasabordagens compara, contudo, alarmes (eventos sequer são considerados) apenas em ter-mos temporais. Um das metas deste estudo é comparar não só alarmes e eventos, mastambém ativos de automação, considerando vários outros aspectos além do temporal.

Os aspectos ou dimensões (ou uma combinação destes) comparados devem ser rele-vantes ao contexto de análise. Sob esta perspectiva, para cada classe ou nível hierárquicodo KGAE, excluindo-se o último nível (relativo às ocorrências), estabelece-se um grafocompleto, cujos nós estão interligados por arestas secundárias, não-direcionais e multi-plamente ponderadas. É importante frisar que o nível das ocorrências não é consideradopara este tipo de relação, devido à alta cardinalidade desta classe (cada ocorrência refleteum registro da base original) e pelo fato de que as principais propriedades das ocorrênciasjá são fundamentalmente captadas pelos seus respectivos episódios. Os pesos dos rela-cionamentos estabelecidos representam os graus de similaridade entre o par de nós sobos diferentes aspectos, que podem ser considerados individualmente ou em conjunto, pormeio do cálculo de uma medida composta.

5.3.3.1 Medidas de Similaridade

Para o estabelecimento das arestas secundárias de similaridade, propõe-se a definiçãoprévia de um rol de medidas similaridades serem computadas para pares de nós de mesmaclasse hierárquica no KGAE. Essas similaridades devem considerar uma gama aspectossob os quais os nós do KGAE podem ser confrontados, incluindo, mas não exclusiva-mente, os que se seguem:

1. Ancestral: em uma estrutura hierárquica como a árvore que estrutura o KGAE,a acentralidade é um aspecto de fundamental importância, já que denota o graude especialização ou o papel da entidade representada pelo nó no contexto hierár-quico estabelecido pelo KGAE. Semelhanças ancestrais podem ser aferidas a partirda confrontação dos caminhos (conjunto de nós e arestas) entre cada um dos nóscomparados e a raiz da árvore. Quanto mais semelhantes neste aspecto, mais pro-ximamente os nós estão dispostos na árvore, e, por consequência, mais congêneresou relacionados podem ser considerados.

Page 92: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)76

2. Temporal: é o principal aspecto considerado na literatura acerca da análise de alar-mes e eventos. Com base na marcação de tempo dos registros de alarmes e eventos,são observados os inter-relacionamentos temporais entre as entidades representa-das no KGAE, considerando fenômenos como co-ocorrências, exclusões mútuas,intervalos de ocorrência e padrões de defasagem.

3. Categórico: como os nós do KGAE incorporam como atributos dados majoritaria-mente categóricos oriundos dos registros de alarmes e eventos, é natural que estesatributos também sejam tomados como base de comparação das entidades repre-sentadas no grafo. O confronto de indivíduos segundo seus respectivos atributoscategóricos não é um processo tão intuitivo tão trivial quanto a comparação numé-rica. Normalmente recorre-se à contabilização de correspondências e incompati-bilidades entre as categorias dos atributos comparados, assim como à avaliação davariabilidade, da frequência e do quantitativo de categorias, entre outras questõesintrínsecas aos atributos categóricos.

4. Textual: conforme já mencionado, os registros de alarmes e eventos normalmentecontam com colunas textuais descritivas (descrições de alarmes, eventos ou ati-vos), também incorporadas como atributos de nós do KGAE. Estes podem, logo,ser comparados em termos dessas descrições. A comparação de sentenças textuais,tarefa pervasiva na área de PLN, baseia-se sobretudo em métodos que codificam assentenças textuais a serem comparadas em representações vetoriais de baixa dimen-sionalidade (embeddings). Estas, por terem caráter numérico, podem ser sujeitadasa operações matemáticas vetoriais, como o cálculo de distâncias e de similaridades.

5. Estrutural: em uma estrutura interligada como um grafo, a comparação de nós sobo prisma da semelhança estrutural se faz pertinente, uma vez que os nós desempe-nham papéis estruturais que podem ser quantificados em termos de uma miríade deperspectivas previstas na teoria de grafos (ascendência, descendência, centralidade,intermediação, conectividade, pagerank, indegree, outdegree, etc.). Para tal, umaestratégia em voga consiste na utilização de métodos que realizam a captura dascaracterísticas estruturais de nós e arestas (e vizinhança) e as codificam em vetoresde características (embeddings). Estes vetores representam os nós em um espaçovetorial multidimensional e podem ser então submetidas ao cálculo de distâncias,de similaridades ou à técnicas de redução de dimensionalidade para plotagem emespaço bidimensional.

Com base no repertório de aspectos supra listado, propõe-se o emprego de um igualnúmero de medidas de similaridade (uma para cada um dos cinco aspectos considerados),sumarizadas na Tabela 5.5 e detalhadamente explicadas no Apêndice A. O cálculo destasmedidas de similaridade se dá sob o intervalo unitário ([0,1]) e está condicionado à exis-tência, nos nós a serem comparados, dos atributos-alvo demandados para o seu cálculo.

Page 93: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CA

PÍTU

LO

5.G

RA

FOD

EC

ON

HE

CIM

EN

TOD

EA

LA

RM

ES

EE

VE

NTO

S(K

GA

E)

77

Similaridade Aspecto Dados-alvo Descrição Referência(s)

1Similaridade

AncestralAncestral

Caminhos dosnós à raiz

Considera as ancestralidades em relação à raiz do KGAE (caminhosdos nós à raiz) e emprega o Menor Ancestral Comum (MAC) comoreferência no cálculo da similaridade entre os nós comparados.

(Sologub 2011)

2Similaridade

por CorrelaçãoTemporal

TemporalSequências

binárias

As sequências binárias dos nós comparados são confrontadas emtermos da correlação cruzada máxima e da distribuição de proba-bilidade da correlação cruzada. O método empregado penaliza co-ocorrências muito frequentes enquanto bonifica co-ocorrências ra-das no cálculo da similaridade.

(Nishiguchi &Takai 2010)

3SimilaridadeCategórica

CategóricoAtributos

categóricos

Utiliza o conjunto de atributos de natureza categórica dos nós com-parados para o cálculo de uma similaridade chamada Variable En-tropy (VE), que leva em consideração tanto as correspondências en-tre categorias dos nós quanto as frequências destas categorias.

(Šulc &Rezanková

2019)

4Similaridade

VetorialTextual

TextualAtributostextuais

Compara os nós em termos de seus atributos textuais (descrições)obtidos da base de registros, utilizando o modelo fastText no apren-dizado de representações em espaço vetorial (embeddings) das sen-tenças textuais presentes nas respectivas descrições dos nós. O graude similitude entre essas embeddings é calculada pela similaridadeangular por cosseno.

(Bojanowskiet al. 2017,NIST 2018)

5Similaridade

VetorialEstrutural

EstruturalNós, arestas e

vizinhança

Utiliza o modelo GraphSAGE para calcular a similaridade entre re-presentações em espaço vetorial dos nós do grafo, calculados se-gundo a estrutura (vizinhança) e atributos (numéricos) dos nós earestas. O grau de similitude entre as embeddings dos nós é calcu-lada pela similaridade angular por cosseno.

(Pandeet al. 2019,NIST 2018)

Tabela 5.5: Medidas de similaridade empregadas entre nós do KGAE.

Page 94: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)78

5.3.3.2 Similaridade Composta

As medidas de similaridade podem ser consideradas como indicadores quantitativosde escopo específico, derivados de aspectos de semelhança observáveis e mensuráveis (ograu de semelhança entre atributos textuais de dois objetos, por exemplo). Esses indica-dores, se numerosos, podem imprimir dificuldades operacionais quando da interpretaçãoholística de todo o conjunto de aspectos, o que pode obstaculizar a utilização destes comoferramenta prática de apoio à decisão (Gómez-Limón et al. 2020).

O discernimento da semelhança entre os nós do KGAE sob um prisma mais geral (se-melhança no sentido amplo) pode ser alcançado ao tomar-se as diversas similaridades in-dividualmente calculadas como indicadores de similaridade no sentido estrito e combiná-los em uma única medida de similaridade. Obtém-se, assim, um indicador composto ouíndice, idealmente representativo da semelhança entre dois nós no sentido amplo, comoilustra a Figura 5.23. Para isso, estruturou-se um processo de formação de um indica-dor composto de similaridade, denominado Similaridade Composta (SC), cujos procedi-mentos são orientados pelas recomendações gerais expressas em (Nardo et al. 2008) ebaseados em metodologia adaptada de (Alves 2020).

Figura 5.23: Múltiplos aspectos de similaridades entre episódios do KGAE.

O processo de cálculo da SC é organizado em três estágios: (1) normalização, (2)ponderação e (3) agregação, sequencialmente executados sobre uma estrutura de dadosque associa arestas secundárias de similaridades e seus respectivos atributos (similaridadeindividuais).

1) NormalizaçãoA primeira etapa no processo de construção de um indicador composto é a normali-

zação, que torna todos os indicadores individuais comparáveis. Apesar de todas as simi-laridades calculadas já estarem no intervalo unitário ([0,1]), ou seja, já sob uma mesmaescala, decidiu-se, por prudência, proceder a estandardização (z-scoring) sobre os dados,ou seja, realizar normalização sob uma distribuição com média zero e variância unitária

Page 95: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)79

(distribuição gaussiana). Apesar de existir notável controvérsia acerca de fazer assunçõesdistribucionais como premissa ou condição para utilização de técnicas de análise explora-tória como PCA (Shlens 2014), utilizada na próxima etapa de construção da SC, acatou-seo argumento de que estandardização é aconselhada como forma de evitar o enviesamentoda influência de certas variáveis quando estas tem padrões de dispersão significativamentediferentes (Gewers et al. 2021).

2) PonderaçãoA etapa de ponderação estabelece a contribuição de cada similaridade para a com-

posição da SC, por meio do cálculo de pesos a serem aplicados na etapa de agregação.Para isso, propõe-se uma estratégia híbrida que prioriza a aplicação de um método obje-tivo (ou endógeno), mas utiliza um método simples (a atribuição equânime de pesos aosindicadores) quando o método objetivo não é adequado ou admissível para o conjuntode dados. Como o juízo acerca da valoração da importância das diversas similaridadesna construção da SC (método subjetivo) não é possível ou aplicável no contexto desseestudo, um método objetivo foi priorizado por considerar analiticamente estrutura esta-tística dos dados na determinação dos pesos. A literatura recomenda que a ponderaçãoequânime seja utilizada apenas nas ocasiões em que métodos de maior rigor estatísticonão são exequíveis (Nardo et al. 2008).

O método objetivo de ponderação selecionado neste estudo é o da Análise Fatorial(AF), por ser um método puramente estatístico de análise multivariada, endógeno, com-putacionalmente acessível, além de amplamente recomendado e utilizado na construçãode índices compostos (Nardo et al. 2008, Greco et al. 2019). A AF tem como meta arevelação de como as diferentes variáveis evoluem em relação umas às outras e comoestão associadas (Nardo et al. 2008), por meio da redução das variáveis observadas emum número reduzido de fatores ou componentes que resumem, explicam ou melhoram ainterpretabilidade do conjunto de dados (Figueiredo Filho & da Silva Júnior 2010).

Para a condução da AF, faz-se necessário, primariamente, realizar a extração dos fa-tores a serem analisados. Dentre as técnicas de extração de fatores, a PCA é o métodoselecionado, dado seu uso extensivo como ferramenta de análise exploratória em diversasáreas (Gewers et al. 2021) e por ser amplamente recomendada na literatura relacionada àconstrução de indicadores compostos (Nardo et al. 2008, El Gibari et al. 2019).

A etapa de ponderação pelo método objetivo da AF é complexa e composta de umgrande número de passos que fogem do foco desta Seção. Desse modo, a etapa de ponde-ração foi organizada em quatro sub-etapas a seguir elencadas e resumidamente descritas,mas devidamente detalhadas no Apêndice B.

1. Verificação de adequabilidade: consiste na averiguação de cumprimento dos re-quisitos mínimos de adequabilidade dos dados à AF. Para tal, submete-se os da-dos à uma compilação de testes quantitativos, qualitativos e estatísticos para ates-tar se a análise de fatores é eficaz dada a natureza desses dados (Figueiredo Filhoet al. 2015). Quando os dados reprovam nestes testes, a AF é julgada não adequadapara o conjunto de dados e recorre-se à estratégia alternativa.

2. Extração de fatores: refere-se à realização do procedimento computacional dePCA propriamente dito, tendo como resultado um conjunto de fatores (na PCA

Page 96: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)80

comumente denominados componentes principais) extraídos a partir das variáveisobservadas (similaridades).

3. Seleção e análise dos fatores: a partir do resultado da PCA, devem ser seleciona-dos dentre os resultantes da PCA, os fatores que resumem a maior parte da variân-cia total, segundo uma gama bem aceita de critérios de seleção (Nardo et al. 2008).Deve-se, ainda, submeter os fatores selecionados à aferição das comunalidades,ou seja, a quantidade total de variância que uma variável compartilha com todasas outras variáveis, para decidir se a mesma deve prosseguir ou ser eliminada daAF (com recálculo da PCA). Por final, deve-se rotacionar os fatores selecionados,para evidenciar o grau de carga das variáveis nos fatores e tonar o resultado empí-rico mais interpretável, conservando as a propriedades estatísticas (Figueiredo Filhoet al. 2015).

4. Cálculo dos pesos: a fase final da ponderação consiste no cálculo dos pesos paracada indicador individual de similaridade a serem empregados na etapa subsequente(agregação) do processo de construção da SC. Os pesos são determinados pela agre-gação dos fatores intermediários obtidos a parir da matriz de cargas fatoriais resul-tante da sub-etapa anterior.

3) AgregaçãoA agregação é a etapa responsável pela combinação os pesos obtidos na etapa de pon-

deração para cada similaridade com as próprias similaridades para a computação da SCentre cada par de nós em análise. Para determinação do método a ser empregado na agre-gação, é necessário discorrer sob aspectos de compensabilidade em relação às medidas desimilaridade (indicadores individuais). Como neste estudo não fez juízo de valor prévioem relação ao repertório de similaridades selecionados para posterior construção da SC,optou-se pela admissão da propriedade da compensabilidade no processo de agregação.Dessa forma, aceita-se que um deficit em uma similaridade pode ser compensado por umsuperavit em outra no cálculo final da SC. A Equação 5.3 refere-se ao processo geral deagregação, onde m é o número de arestas, n é o número de similaridades (e de pesos) e ♦é a função de agregação.

Apesar da admissão de compensabilidade, adotou-se, um método de agregação inter-mediário, compensatório em essência, mas que confere certo grau de não-compensabilidadeao cálculo final do índice composto: a agregação geométrica (Nardo et al. 2008), mos-trada na Equação 5.4. Entretanto, para contornar o problema da eventual anulação de umaSC na agregação geométrica pela presença de algum indicador nulo, a agregação linear(Equação 5.5) é admissível como estratégia alternativa (Talukder et al. 2017). Em ambasas equações de agregação, SC é o indicador composto de similaridade, n é o número desimilaridades individuais, si representa cada similaridade individual e wi corresponde aopeso associado a cada uma delas, de modo que ∑i wi = 1.

Page 97: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)81

Arestas

e1(v1,v2)e2(v1,v3)

...em(vi,v j)

SimilaridadesS1 S2 · · · Sns1,1 s1,2 · · · s1,ns2,1 s2,2 · · · s2,n

...... . . . ...

sm,1 sm,2 · · · sm,n

Pesosw1w2...

wn

=

SCssc1

sc2...

scm

(5.3)

SC =n

∏i=1

swim,i (5.4) SC =

n

∑i=1

wism,i (5.5)

Apesar de um índice composto favorecer uma interpretação mais fácil (embora menosaprofundada) da similaridade entre um par de nós no KGAE, resta importante a preserva-ção das medidas de similaridade individuais para filtragens e análises mais granulares. NoKGAE, tanto as similaridades individuais quanto as SCs são incorporadas como atributosdas respectivas arestas secundárias interligando os nós de mesma classe.

5.4 Visualização do KGAE

Em termos gerais, a representação visual é uma faceta de inerente importância no es-tudo de grafos, que tem como objetivo replicar na seara visual os benefícios da abstraçãoem grafos, ampliando significativamente as possibilidades de compreensão dos dados. Odesenho de grafos é uma área consolidada da matemática e da ciência da computaçãoque combina métodos da teoria de grafos e visualização de informação para derivar re-presentações pictóricas dos elementos que compõem um grafo (Tamassia 2013). Assim,é possível combinar o poder computacional (gráfico e de propósito geral), a versatilidadede ferramentas de visualização e a percepção visual humana para construir um ambientepropício à exploração e investigação visual sobre os dados do KGAE.

A abordagem utilizada para a visualização do KGAE lança mão de um conjunto deconvenções gráficas e regras de disposição de elementos da área de representação de gra-fos, de modo que uma representação legível, útil à análise e esteticamente agradável sejaproduzida. O processo de desenho do grafo envolve, essencialmente, a estipulação deformas e aspectos visuais para nós e arestas, normalmente baseada em atributos tangíveisdo KGAE. A abordagem de visualização buscar maximizar os seguintes aspectos:

• Nitidez: os elementos do KGAE devem ser representados com nitidez e boa or-ganização, equilibrando a exibição de informações com a legibilidade, evitandooclusões de dados.

• Expressividade: a visualização do KGAE deve ampliar a expressividade em rela-ção aos dados originais, destacando ou tornando as informações mais importantesintuitivamente disponíveis.

Page 98: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)82

• Previsibilidade: as informações devem estar disponíveis onde supostamente deve-riam estar disponíveis. O diagrama deve respeitar critérios lógicos para disposiçãoe ordenação de componentes gráficos para representação do elementos do KGAE.

• Abstração e foco: adesão ao “mantra” da navegação e busca de informações: avisão geral primeiro, zoom e filtragem, depois detalhes sob demanda (Shneiderman1996). Deve fornecer uma visão mais abstrata de um cenário por meio da omissãoe redistribuição de elementos e informações. Ou seja, deve ser possibilitada a alte-ração do foco de visão sem abrir mão do contexto, agrupar, filtrar e consultar dadospara extrair informações pormenorizadas quando necessário.

• Interação e manipulação: a visualização do KG deve ser dinâmica, permitindoque o usuário interaja com e manipule os elementos do diagrama. Tal aspecto pro-porciona uma maior engajamento e imersão do usuário no processo de análise.

5.4.1 Elementos e Propriedades VisuaisO desenho gráfico da KGAE proposto utiliza preceitos convencionais da área de teo-

ria de grafos e visualização de informação para obter representações bidimensionais doselementos que compõem o grafo. Basicamente, os nós são representados na tela de exi-bição (canvas) por formas geométricas (círculos, retângulos, elipses, triângulos, etc.) eas arestas por segmentos de reta ou de curva. As propriedades visuais dos elementos dografo, mostradas na Figura 5.24, respeitam a seguinte convenção básica:

• Formato dos nós: O formato (forma geométrica) dos nós revela a classe ontológica(ou nível hierárquico) a qual o nó pertence.

• Cor e aspecto dos nós: utiliza-se paletas de cores e alterações de aspeto (contornoe preenchimento) dos nós para destacar visualmente atributos dos nós, por exemplocores diferentes são utilizadas para diferenciar alarmes e eventos dentro das classesontológicas Episódio e Ocorrência.

• Tamanho dos nós: o tamanho dos nós é proporcional à alguma medida numéricadisponível ou analítica calculável a partir do KGAE, como, por exemplo, a quan-tidade de arestas que chegam a ou partem de um nó, ou mais especificamente, onúmero de Ocorrências de um Episódio.

• Cor e aspecto das arestas: uma paleta de cores e diferentes aspectos das aresta(reta, tracejada, pontilhada, etc.) são utilizada para diferenciação em termos dasclasses de relacionamentos do KGAE.

• Espessura das arestas: é calculada proporcionalmente a um valor numérico indi-cativo do grau de associação entre nós, se disponível ou determinável, de acordocom aspecto considerado na análise (temporal ou de similaridade).

• Rótulos e atributos dos nós e das arestas: os elementos textuais passíveis de des-taque no KGAE, como identificadores dos nós e das arestas podem constar na telacomo rótulos. Os atributos dos nós e arestas, por serem mais numerosos, são mos-trados sob demanda, respondendo às interações do usuário com elementos plotadosno canvas.

• Interatividade: a visualização da KGAE é concebida de forma a permitir a inte-ração do usuário com os elementos do KGAE plotados na tela de exibição. Esta

Page 99: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)83

interação engloba os seguintes aspectos:

– Navegação: é possível navegar sobre os elementos plotados na tela de exibi-ção e efetuar operações de zoom in/out para alter o foco de visão.

– Seleção: elementos podem ser selecionados e destacados na tela de exibição.– Reposicionamento: nós e arestas podem ser manualmente reposicionados na

tela de exibição de acordo com a conveniência do usuário.– Layouts: diferentes layouts de disposição de elementos podem selecionados

de acordo com o aspecto que se deseja evidenciar.– Tooltips: atributos dos nós e das arestas são exibidos por meio de uma tooltip

mostrada para o elemento em evidência.

Figura 5.24: Principais propriedades visuais do KGAE.

5.4.2 Modos de VisualizaçãoOs modos de visualização concebidos na visualização do KGAE consideram duas

abordagens de análise visual:

• Árvore: apenas as arestas primárias são consideradas na construção do diagramae os nós são dispostos de modo a formarem uma árvore, evidenciando a estruturahierárquica entre os nós. O intuito deste modo de visualização é fornecer uma visãode como os dados se organizam primariamente no KGAE, destacando a hierarquiae classes de ativos da ontologia do KGAE. A Figura 5.25a ilustra esse modo devisualização.

• Grafo: arestas primárias são desconsideradas na construção do diagrama e apenaso nível selecionado dentre os níveis hierárquicos (ou classes de nós) é desenhadopor vez, na forma de um grafo. Nesse modo, as os relacionamentos estipuladospelas arestas secundárias são evidenciados. A Figura 5.25b mostra exemplo dessemodo de visualização.

Page 100: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)84

Figura 5.25: Modos de visualização do KGAE.

5.5 Considerações Finais sobre o Capítulo

5.5.1 Considerações sobre o ponto de ocorrência dos registrosA fase de construção do KGAE proposta prevê a criação de uma árvore que retrata

a hierarquia de ativos do sistema monitorado associada com os registros produzidos poresses ativos, do ativo de maior importância hierárquica ao registro referente ao ativo maisespecializado (maior profundidade na árvore). Os registros dessas bases são expressõesde episódios normalmente associados a ativos de maior profundidade hierárquica, ou me-lhor, no último nível hierárquico referente aos ativos, precisamente por estes constituíremo chão de fábrica da planta (ou nível monitorado mais especializado) e serem, normal-mente, os elementos geradores ou motivadores dos registros. Contudo, existe a possibili-dade, embora infrequente, de constarem na bases de registros ocorrências relativas a ativosem níveis superiores hierárquicos. Nesse caso, a ontologia deve ser ajustada de modo aabarcar a ligação dos Episódios em outros níveis hierárquicos além do mais profundo.

5.5.2 Sincronização com base de registrosAs fases de pré-processamento e construção do KGAE contam com etapas interativas.

No entanto, após o reconhecimento da base, a definição de uma ontologia e estabeleci-mento das regras de mapeamento da ontologia em elementos da base, o processo de popu-lação é automático. Desse modo, esses processos podem ser convertidos ou remodeladospara atuarem com uma etapa contínua de ETL, com objetivo de manter a base original ea estrutura básica do KGAE síncronas.

Page 101: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 5. GRAFO DE CONHECIMENTO DE ALARMES E EVENTOS (KGAE)85

5.5.3 Crescimento quadrático de relacionamentos de similaridadeA fase incremento do KGAE pode introduzir problemas de escalabilidade na aborda-

gem. Se forem estabelecidas todas as arestas secundárias de similaridade possíveis paracada par de nós em determinado nível hierárquico, o resultado será um grafo completoKn, com n (n−1)

2 arestas, onde n é o número de nós. Dessa forma, o número de similarida-des entre pares de nós a serem calculadas cresce quadraticamente com o número de nósdo KGAE, ou seja, a fase de incremento terá uma complexidade assintótica na ordem deO(n2). Além disso, no contexto de visualização, uma grande quantidade de arestas poderepresentar problemas de difícil saneamento em realização à renderização e à clareza dodesenho. Esses problemas podem limitar a utilização da abordagem para conjuntos denós muito grandes. Para contornar esse problema, os seguintes artifícios são utilizados:

• Limitação do intervalo de análise: o intervalo inicial de análise deve ser cui-dadosamente selecionado, evitando intervalos de análise muito longos, que possamresultar em um grande número de nós entre os quais serão estabelecidos um númeroainda maior relacionamentos par-a-par, a um alto custo computacional.

• Limitação do ramo a ser analisado: com base em conhecimento prévio ou a partirde percepções obtidas do próprio KGAE, o âmbito da análise pode ser limitado a umramo ou subárvore específica do KGAE, limitando, por conseguinte, a quantidadede nós entre os quais serão estabelecidos relacionamentos de similaridade.

• Utilização de paralelismo: as medidas de similaridade, em sua maioria, são cal-culadas considerando exclusivamente o par de nós (e seus atributos). Dessa forma,a fase de análise de análise pode lançar mão do paralelismo computacional paralograr um melhor aproveitamento do tempo e dos recursos computacionais e, con-sequentemente, acelerar o processamento.

• Vizinhos próximos: Ao invés de disparar o cálculo de todas as similaridades entrepares de nós compreendidos no intervalo de seleção, pode-se lançar mão de téc-nicas Vizinhos mais Próximos (do inglês, Nearest Neighbors - NN), onde a partirde um nó selecionado são calculados os k NNs segundo os múltiplos aspectos desimilaridade (convertidos em distâncias).

5.5.4 Mapa da Criação do KGAEPara um melhor entendimento da abordagem, o mapa da Figura 5.26 destaca as prin-

cipais fases, etapas, processos e procedimentos compreendidos na criação do KGAE,estruturado na forma de uma árvore.

Page 102: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CA

PÍTU

LO

5.G

RA

FOD

EC

ON

HE

CIM

EN

TOD

EA

LA

RM

ES

EE

VE

NTO

S(K

GA

E)

86

Figura 5.26: Mapa de fases, etapas, processos e procedimentos da abordagem de criação do KGAE.

Page 103: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 6

Experimentos e Resultados

Os resultados da aplicação da abordagem proposta serão apresentados neste capítuloem termos de um estudo de caso utilizando um conjunto de dados com origem no mundoreal. Em virtude disto, uma breve explanação acerca da base de dados utilizados nodesenvolvimento e na validação da abordagem é apresentada, bem como a infraestruturade suporte computacional desenvolvida para a abordagem. Cenários reais e hipotéticosde análise são introduzidos para demonstrar o potencial de aplicabilidade da abordagem.

6.1 Dados

Os dados utilizados no desenvolvimento e validação da abordagem proposta consti-tuem conjunto real de dados de uma base histórica de alarmes e eventos, provenientes deuma refinaria de uma indústria petroquímica. Foi fornecida uma amostra, na forma dedespejo de um banco de dados relacional, cujas características principais estão listadas naTabela 6.1. A Tabela 6.2 mostra um perfil dos dados enriquecidos no pré-processamento.

Para a criação do KGAE cujas características gerais estão sumarizadas na Tabela 6.3,os dados fornecidos foram então submetidos aos procedimentos pormenorizados no Ca-pítulo 5 e implementados sobre infraestrutura a seguir descrita.

6.2 Infraestrutura de Computação

Para dar o apropriado suporte computacional à abordagem proposta, foi necessárioo desenvolvimento de uma infraestrutura de computação modular e adequada à carga deprocessamento exigida. Em especial, a infraestrutura computacional foi arquitetada darguarida ao desenvolvimento e à operação de um protótipo mínimo viável (MVPr) paravalidação da abordagem.

6.2.1 Escolhas Arquiteturais e TecnológicasA soluções tecnológicas utilizadas ao longo do desenvolvimento deste estudo, além

de satisfazerem os requisitos da abordagem, foram selecionadas predominantemente se-gundo os seguintes critérios:

Page 104: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 88

Estatísticas gerais do conjunto de dados

Tabelas 1Observações (registros ou linhas) 1.020.765Variáveis (colunas) 17Observações duplicadas 2Colunas vazias/má qualidade (ausências ≥ 20%) 3Células com valor ausente (desconsiderando colunas vazias) 760.666 (5%)Completude (desconsiderando colunas vazias) 96%Registros de eventos 601.773 (58%)Registros de alarmes 418.992 (42%)Intervalo de tempo entre o primeiro e o último registro 2d 18h 57min 28s

Variáveis

Data/Tempo 1Numéricas 3Categóricas/Textuais 11Vazias 2

Tabela 6.1: Visão geral do conjunto de dados explorados.

Estatísticas do conjunto de dados enriquecido

Observações (registros ou linhas) 1.020.763Variáveis (colunas) 23Colunas originais desconsideradas 3Tamanho da janela 10minNúmero de janelas 402

Variáveis (tipos)

Data/Tempo 1Numéricas 5Categóricas/Textuais 17

Tabela 6.2: Visão geral do conjunto de dados enriqueceido.

• Padrões de fato: soluções tidas como padrão de fato (aceitação ampla ou de po-sição dominante dentre as alternativas disponíveis) são preteridas por gozarem deabundante documentação oficial, ativo desenvolvimento, contínua melhoria e esta-bilidade de código, além da vasta produção de conteúdo sendo produzido acerca.

• Documentação disponível: soluções que dispõem de documentação clara, bemestruturada e abrangente, com detalhamento suficiente e satisfatório em relação àutilização e ao funcionamento interno dos componentes constituintes, tornam mais

Page 105: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 89

Estatísticas do KGAE

Nós 1.025.173Arestas primárias 1.025.172Classes ontológicas (níveis hierárquicos) 7Classes de ativos 4Atributos distintos (nós) 77Média de atributos por classe 11

Nós e Arestas

Ocorrências 1.020.763Episódios 3019Ativos 1391Templates (Episódios) 85Arestas secundárias ' 6×106

Tabela 6.3: Visão geral KGAE criado a partir dos dados originais.

céleres os processos de análise, prova de conceito e prototipagem. Preferencial-mente, devem disponibilizar abertamente o seu código-fonte.

• Respaldo científico: soluções atreladas a uma produção científica consistente tam-bém são preteridas. O respaldo através de produção científica confere maior rigorem relação ao processo de concepção da solução, normalmente com elucidação edetalhamento de premissas, preceitos, conceitos, técnicas e tecnologias utilizadas,assim como de eventuais limitações da solução.

• Compatibilidade: a compatibilidade e interoperabilidade entre as soluções são cri-térios de crucial importância na seleção. A possibilidade de utilização de soluçõescapazes de realizar interface por meio de canais comuns e padronizados de comu-nicação com várias outras ampliam o leque de soluções viáveis para o atingimentodos objetivos almejados.

6.2.2 Arquitetura da Infraestrutura de ComputaçãoA infraestrutura de computação de suporte à abordagem é baseada em soluções de

software de código-fonte aberto, montadas sobre uma arquitetura elástica e autocorretivade orquestração de contêineres (máquinas virtuais leves, em nível de sistema operacionale de propósito específico). Esse tipo de arquitetura proporciona o dimensionamento efailover automáticos dos recursos computacionais, garantindo a execução contínua e re-siliente dos componentes. Garante, ainda, um uso mais racional e flexível dos recursoscomputacionais disponíveis, com célere mobilização e desmobilização desses recursos.

No vislumbre de utilização da abordagem em ambientes produtivos reais, a arquite-tura da infraestrutura de informação é concebida de modo a ser o menos invasiva possível,não requerendo qualquer tipo de adaptação ou adequação dos sistemas ou bases de dadosa serem acessadas para coleta dos dados. Os componentes dessa infraestrutura são orga-

Page 106: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 90

nizados em quatro camadas especializadas e interdependentes:

1. Ingestão: estabelece a ponte entre a infraestrutura de informações da qual se desejaobter os dados-alvo e a infraestrutura computacional da abordagem. A implemen-tação dessa ponte se dá pelo uso de adaptadores (ou drivers) que possibilitem aomenos o unidirecional (somente leitura) às bases de dados de alarmes e eventos porparte dos motores de processamento.

2. Processamento e análise: utiliza os recursos computacionais disponíveis para rea-lizar os processos e procedimentos propostos pela abordagem sobre os dados inge-ridos, consolidando-os, em seguida, na camada de Armazenamento e Recuperação.

3. Armazenamento e Recuperação: consolida e armazena os dados processados, naforma preconizada pela abordagem (em grafo) disponibilizando-os para acesso dacamada de visualização ou recuperação em caso de necessidade de reprocessamentoou atualização dos dados.

4. Visualização: utiliza os recursos computacionais disponíveis para implementaruma aplicação interativa de visualização de dados estruturada duas seções: (1) telade exibição (canvas), onde a visualização de dados é efetivamente renderizada; e(2) controle, responsável por capturar as interações do usuário e transformá-las emconsultas para a camada inferior.

A Figura 6.1 ilustra a organização em camadas da infraestrutura de computação. Umbreve sumário das principais tecnologias empregadas na abordagem segundo as camadasinfraestrutura desenvolvida está disponível no Apêndice C.

É importante elucidar que as escolhas de tecnologias e ferramentas efetuadas no âm-bito deste estudo, segundo os critérios acima descritos, não refletem necessariamente oresultado de processos de otimização ou ajuste fino concernentes aos blocos constitutivosda abordagem proposta nesta tese.

6.3 Cenários de Análise

Os cenários a seguir especificados visam demonstrar como tarefas de análise sobre osregistros de alarmes e eventos industriais podem ser beneficiadas a partir da utilização daabordagem proposta nesta tese, sejam elas sejam elas de escopo geral ou mais específico,corriqueiras ou infrequentes. As abordagens enfatizam a avaliação visual dos elementosdo KGAE construído a partir da amostra de dados fornecida, com vistas à evidenciaçãodos entes e relações sujeitas às análises, ao afunilamento de escopo de análise, à percepçãode características e padrões (até então ocultados pelo formato tabular dos dados), e àvisualização de modo mais apropriado dos resultados de análises empreendidas sobre osdados. As abordagens de visualização aos cenários são construídas mediante consultas emanipulações sobre banco de dados que aloja o KGAE e configurações da aplicação devisualização.

Page 107: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 91

Visualização

Armazenamento e Recuperação

Processamento e Análise

Ingestão

CONTROLECANVAS

3

2

1

4

Cluster Kubernetes

Figura 6.1: Arquitetura da infraestrutura de computação desenvolvida para a abordagem.

Page 108: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 92

6.3.1 Cenário 1: Panorama GeralEm qualquer tarefa de análise sob um determinado domínio, é esperado que a fer-

ramenta utilizada possibilite uma uma rápida e fácil assimilação da estrutura básica dosdados sob investigação. No contexto dos alarmes e eventos, é importante que os principaisatores aludidos na circunstância operacional e dentro do intervalo de análise selecionadoestejam visualmente acessíveis e facilmente identificáveis. Entretanto, bases tabulares,por serem meios primários de organização de dados, tem expressividade limitada e, con-sequentemente, falham em transmitir informações panorâmicas ou de nível mais geralacerca desses atores relevantes no contexto do sistema historiado. As análises de dadossob este formato normalmente envolvem tarefas insípidas e custosas de manipulação e fil-tragem de dados sobre tabelas. Diante de bases extensas e de alta complexidade, e na faltade informações concernentes à estruturação e organização dos registros na base, a análisese torna muitas vezes pouco frutífera em relação à potencialidade de conhecimento quepode ser extraído dessas bases.

Abordagem de visualização

O KGAE é desenhado sob o layout de árvore relacionando ativos e episódios, ondeo nó raiz é posicionado no topo e toda estrutura hierárquica é construída descendente-mente (top-down), posicionando pais e filhos em níveis hierárquicos distintos e adjacen-tes. São, portanto, exploradas apenas as arestas primárias originadas na fase de construçãodo KGAE. O objetivo é obter uma visão panorâmica do grafo, destacando por meio deseus nós, arestas e níveis hierárquicos, os ativos, episódios e ocorrências envolvidos nointervalo de análise desejado (em janelas de tempo). A Figura 6.2 ilustra o cenário, comdestaque aos seguintes convenções e elementos (utilizados também nos outros cenários):

• Formato e cor dos nós: indicam a classe ontológica ou níveis hierárquicos. Nonível dos episódios, cores são utilizadas para fazer distinção entre os dois tipos deepisódios (alarmes e eventos).

• Tamanho dos nós: é proporcional à quantidade de nós-filhos considerando o KGAEem sua totalidade.

• Seletor de intervalo: seleciona o intervalo de análise (em janelas de tempo) dese-jado para a filtragem e desenho do KGAE no canvas.

• Legenda: reflete as classes de nós do KGAE.

Interpretação do Diagrama

A partir desse contexto de visualização do KGAE, é possível identificar e relacionar,em um mesmo diagrama, os ativos organizados em suas respectivas classes (U,A,S,N,M)e os correspondentes episódios (E) no intervalo de janelas selecionado. O nível das ocor-rências foi ocultado devido a sua alta cardinalidade (equivalente ao número de registrosda base original) e a quantidade de nós exibidos foi limitada a 50 para fins de clareza. Oformato e posicionamento dos nós auxiliam na identificação da classe ontológica ao qualo nó pertence e o tamanho dos nós remetem à importância quantitativa dos indivíduos(total de filhos) no intervalo selecionado. É possível notar, entre outras constatações, a

Page 109: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 93

Figura 6.2: Abordagem de visualização relativa ao Cenário 1.

predominância de alarmes (círculos em vermelho) em relação aos eventos (círculos emazul) no nível dos episódios ou, ainda, que a subárvore formada a partir do ativo S5 (noterceiro nível hierárquico desde a raiz) é mais diversa e possui maiores cardinalidadesquando comparada às outras subárvores do mesmo nível.

6.3.2 Cenário 2: Sequências de OcorrênciasEm um esforço de investigação sobre incidentes ou em decorrência de auditorias, é

comum que seja necessário recorrer à inspeção de sequências de registros suspeitas oude relativas a um intervalo de interesse. Entretanto, além de numerosos, os registros, setomados isoladamente, sem uma visão do contexto mais geral, são pouco elucidativos. Éimportante, portanto, que esses registros sejam analisados em meio a uma contextualiza-ção miníma estabelecida a partir de informações extraídas dos próprios registros.

Abordagem de visualização

O último nível do KGAE é desenhado segundo uma seleção de sequências de ocor-rências (registros) candidatas à análise, encadeadas por arestas secundárias identificandoa sequência-alvo. Para cada nó dessas sequências de ocorrências, é expandida e dese-nhada toda a cadeia (ou caminho) ancestral de nós que liga esse nó à raiz do KGAE. AFigura 6.3 ilustra a abordagem de visualização para o cenário.

Interpretação do Diagrama

No diagrama da Figura 6.3, são mostrados na base do KGAE duas sequências de ocor-rências (SEQ450 e SEQ1038). A expansão dos caminhos até a raiz para cada nó dessassequências evidencia os ancestrais comuns, ou seja, os episódios e ativos diretamente ouindiretamente envolvidos com àquelas ocorrências selecionadas na base do KGAE. Dessemodo, é possível rapidamente identificar esses atores e afunilar ainda mais o escopo da

Page 110: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 94

Figura 6.3: Abordagem de visualização relativa ao Cenário 2.

análise. A mesma abordagem pode ser empregada a partir nível dos episódios, já que umaocorrência é uma instância de um episódio.

6.3.3 Cenário 3: Linha do TempoEm complemento ao contexto do cenário anterior, ainda considerando a necessidade

de análise dos registros individualmente, se faz conveniente a visualização da distribuiçãoe sequência dos registros em relação ao eixo temporal (janelas de tempo).

Abordagem de visualização:

Com foco nas ocorrências, constrói-se, ao longo do eixo horizontal do canvas, umalinha temporal correspondente ao conjunto de janelas, sobre as quais as as sequências deocorrências são verticalmente posicionadas. O intuito dessa abordagem de visualizaçãoé promover a distribuição das sequências de ocorrências segundo suas respectivas janelastemporais, ao longo da linha temporal formada pelas janelas de tempo horizontalmentedispostas. Arestas secundárias encadeiam as ocorrências, dando a orientação de sentidodas sequências, enquanto que a espessura das arestas é proporcional à diferença temporalentre as ocorrências. Cores distintas são utilizadas para diferenciar ocorrências relativasa alarmes (vermelho) de ocorrências relativas a eventos (azul). Esta abordagem de vi-sualização, que também pode se aplicada a partir do nível dos episódios, é ilustrada naFigura 6.4.

Interpretação do Diagrama

O diagrama da Figura 6.4 mostra nós relativos a 30 ocorrências distribuídas vertical-mente ao longo de seis janelas de tempo dispostas horizontalmente. A desconexão entre

Page 111: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 95

Figura 6.4: Abordagem de visualização relativa ao Cenário 3.

nós no eixo vertical representa as bordas de uma grande sequência ocultada no diagramapor questões de clareza espaço. Como as ocorrências situam-se na base do KGAE, a con-venção do tamanho dos respectivos nós ser proporcional ao número de filhos não podeser utilizada e nenhum outro aspecto quantitativo é considerado. O tamanho dos nós va-ria apenas segundo o tamanho do rótulo do nó no diagrama e a cor diferencia o tipo deepisódio do qual a ocorrência é instância (alarme ou evento).

6.3.4 Cenário 4: Alarmes e Eventos ImportantesOutro aspecto de relevância em um contexto de análise é a evidenciação de alarmes e

eventos potencialmente importantes ou influentes no contexto operacional. Esta evidenci-ação pode se dar segundo uma miríade de aspectos. Um destes refere-se à contabilizaçãodas frequências de alarmes e eventos e das transições entre essas ocorrências segundo asequência temporal dos registros da base.

Page 112: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 96

Abordagem de visualização

Considerando apenas o nível dos episódios para o desenho, a visualização de um grafoexplicitando relacionamentos sequenciais entre episódios é construído, com as transiçõesde um episódio para outro contabilizadas nas arestas que os ligam no diagrama. O desenhode nós e arestas se dá segundo o modelo gravitacional Barnes-Hut (Trenti & Hut 2008)implementado na biblioteca vis.js, configurado para dispor os nós com mais arestas nocentro do diagrama e evitar oclusão de elementos visuais. Formas e cores são utilizadaspara diferenciar episódios referentes a eventos, alarmes não-críticos e alarmes críticos. Otamanho dos nós e espessura das arestas são proporcionais, respectivamente, ao númerode ocorrências do respectivo episodio e da contagem de transições entre os episódiossegundo a sequência original dos registros. O rótulo das arestas corresponde ao númerode transições entre os episódios no intervalo de análise selecionado. A Figura 6.5 retrataeste a abordagem de visualização para o cenário.

Figura 6.5: Abordagem de visualização relativa ao Cenário 4.

Interpretação do Diagrama

O grafo da Figura 6.5 mostra um entrelaçado das transições mais frequentes (frequên-cias expressas nos rótulos das arestas) entre episódios, apurado ao longo de 41 janelas detempo. É possível notar, nesse intervalo, a predominância de transições entre episódios dealarmes (círculos em verde e em vermelhos) em relação às transições entre episódios dealarmes e episódios de eventos (hexágonos em azul). Também é notável que as transiçõesmais numerosas ocorrem entre episódios referentes a alarmes críticos (em vermelho).

Page 113: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 97

6.3.5 Cenário 5: Agrupamento de TemplatesEm uma situação envolvendo a análise de um grande número de registros, é desejável

dispor de uma visão geral acerca dos principais tipos ou espécies de atributos textuais(descrições) dos registros, já que esses atributos aludem à natureza do acontecimentorelatado nos registros.

Abordagem de visualização

O desenho do grafo considera super-nós virtuais formados pela aglutinação os episó-dios que compartilham de um mesmo template. A Figura 6.6 mostra esse grafo virtual,em que os super-nós estão ligados segundo as transições entre os respectivos episódios.Similarmente ao cenário anterior, o tamanho dos nós é proporcional ao número de episó-dios aglutinados e a espessura das arestas é proporcional ao número de transições entretemplates decorrentes da aglutinação dos episódios. Os rótulos dos nós explicitam os tem-plates e os pesos das arestas correspondem ao número de transições de um template paraoutro segundo a cronologia dos registros da base original.

Figura 6.6: Abordagem de visualização relativa ao Cenário 5.

Interpretação do Diagrama

Na fase de pré-processamento da criação do KGAE, a partir das descrições dos re-gistros de alarmes e eventos, obtém-se um conjunto de grupos, chamados templates, cor-respondentes aos formatos ou moldes sobre os quais essas sentenças textuais são enqua-dráveis. Esses templates, que estão incorporados como atributos dos nós dos Episódiosno KGAE, podem ser utilizados como base de comparação para relacionar Episódios. O

Page 114: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 98

diagrama da Figura 6.6 evidencia alguns dos templates mais relevantes no intervalo se-lecionado (40 janelas), juntamente com as transições mais frequentes. Dependendo daestrutura das sentenças analisadas (sem partes variáveis), frequentemente o template ge-rado corresponde à própria descrição original do alarme ou evento.

6.3.6 Cenário 6: K Vizinhos Mais SimilaresDada uma seleção de episódios ou de ativos de interesse em uma análise, uma das

formas de afunilamento do escopo de análise se dá pela identificação dos K elementosmais similares a cada item da seleção.

Abordagem de visualização

A partir de um ou mais nós de interesse no KGAE, é desenhada uma rede ego, ondeo ego é o nó de interesse, centralizado no diagrama e, em seu raio, os alters são posicio-nados. Neste caso, os alters correspondem aos K nós mais similares ao nó de interesse,de acordo com o aspecto de similaridade (ou similaridade composta) a ser considerado,previamente calculado e disponível como atributo da relação de similaridade entre os nós.A Figura 6.7 ilustra uma rede ego construída para um episódio selecionado.

Figura 6.7: Abordagem de visualização relativa ao Cenário 6.

Page 115: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 99

Interpretação do Diagrama

Considerando o todo o intervalo disponível, a rede ego retratada na Figura 6.7 mostra oepisódio selecionado (E1) centralizado no canvas e os K = 10 episódios mais similares. Ovalores para a similaridade composta são mostrados como rótulos das arestas. O diagramamostra que, tanto episódios de alarmes (em vermelho) quanto episódios de eventos (emazul), formam os alters dessa rede ego.

6.3.7 Cenário 7: Mapa de CausalidadeA busca por indícios de causalidade entre os episódios narrados na base de registros

é uma tarefa de importante para o afunilamento do escopo de análise e para a obtençãode introspecções que capazes de subsidiar a explicações mais plausíveis para problemas.Mapas causais são recorrentemente utilizados para representar os resultados de análisesde causalidade entre variáveis de processo e entre alarmes (Yuan & Qin 2014, Wanget al. 2015, Miranda 2017).

Abordagem de visualização

A partir da aplicação de um método de análise de causalidade sobre um conjunto deepisódios, um mapa causal é implementado na forma de um grafo no qual os episódiosestão relacionados segundo indício de causalidade (no sentido de Granger) apontado nosresultados dessa análise. Os indicadores desse resultado são incorporados como atributosde arestas direcionais instituídas entre os nós. A Figura 6.8 ilustra um grafo de causalidadeestabelecido para uma seleção de episódios, segundo o método proposto em (Wang et al.2015). Nesse grafo, são mostrados apenas os episódios ligados por arestas causais comatributos mais estatisticamente significantes para o TCG.

Figura 6.8: Abordagem de visualização relativa ao Cenário 7.

Page 116: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 100

Interpretação do Diagrama

A Figura 6.8 mostra um grafo causal formado por 16 nós referentes a episódios de alar-mes e eventos encadeados por arestas direcionais (com rótulo G-CAUSES), que guardamcomo atributos os indicadores (f-stat e p-value) resultantes da aplicação de um TCG sobrepares de nós (mostrados em uma tooltip). O grafo evidencia interações potencialmentecausais entre episódios segundo o TCG, sendo exibidas no diagrama apenas as arestas cu-jos indicadores permitem rejeitar a hipótese nula do teste. No exemplo do diagrama, dadoque a hipótese nula de que E70 não G-Causa E71 pode ser rejeitada (Fteste > p− valor,considerando uma significância de 5%), pode-se afirmar que E70 G-Causa E71 (Yuan &Qin 2014, Miranda 2017).

6.3.8 Cenário 8: Comunidades de SimilaresFace à necessidade de análise de uma grande quantidade de registros, seja pelo longo

intervalo considerado ou pela dinâmica dos processos geradores dos registros, é apropri-ado ser possível empreender o agrupamento destes com base em algum critério desejado.Com base nos grupos de registros, é possível particionar e direcionar o escopo de análise.

Abordagem de visualização

Considerando o pré-estabelecimento de relacionamentos de similaridade entre todosos nós em um nível hierárquico do KGAE (grafo completo), procede-se a aplicação deuma técnica de detecção de comunidades em grafos extensos, como o consagrado métodoheurístico Louvain (Blondel et al. 2008). O método maximiza a modularidade de cadacomunidade com base na estrutura do grafo e no peso de arestas, avaliando quão maisdensamente conectados estão os nós de uma comunidade, em comparação com o quãoconectados estariam em uma rede aleatória (Lu et al. 2014). De posse da associação decada nó com sua respectiva comunidade por meio de atributo específico, desenho empregao método de simulação de dinâmica de partículas Barnes-Hut para segregar comunidadese condensar nós em uma mesma comunidade. A Figura 6.9 mostra o diagrama resultantedesse processo sobre o nível dos episódios.

Interpretação do Diagrama

O diagrama mostrado na Figura 6.9 refere-se aos nós relativos a 500 episódios apura-dos segundo a totalidade de janelas disponíveis (402 janelas). As comunidades detectadaspelo método Louvain estão segregadas e e diferenciadas por cores. As arestas interligandonós em uma mesma comunidade são mostradas (formando grafos completos dentro dascomunidades) enquanto que são ocultadas todas as outras arestas interligando comuni-dades, com exceção das arestas com maior similaridade composta. Essas arestas sãomantidas apenas para limitar o afastamento entre as comunidades produzido pelo métodoBarnes-Hut, que usa uma lógica gravitacional para o desenho de partículas. Comunidadesunitárias ou com poucos elementos ficam condensadas no centro do diagrama. Os rótulose nós e arestas são ocultados no nível de zoom utilizado na captura da imagem.

Page 117: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 6. EXPERIMENTOS E RESULTADOS 101

Figura 6.9: Abordagem de visualização relativa ao Cenário 8.

6.4 Considerações Finais

Os cenários supra-elencados foram utilizados para validação das potencialidades danova visão sobre os registros de alarmes e eventos proposta nesta tese. Embora a aborda-gem por si própria não tenha o condão de desvendar ou estabelecer respostas definitivas aincidentes e problemas na planta ou processo monitorado, demonstra aptidão para apoiare tornar mais produtivas as missões de análise sobre os registros de alarmes e eventos.Entre estas, estão a racionalização de episódios, a apuração de incidentes, a investiga-ção sobre anormalidades ou disfunções, elucidação de causas avalanches de alarmes eeventos, assim como tarefas de auditorias, avaliação de desempenho e das revisão dasconfigurações de SGAs. Com a abordagem proposta, dados, entidades, abstrações, re-lações, introspecções e os resultados de análises estão logicamente e convenientementevinculados, compartilhando de um mesmo domínio.

As abordagens de visualização apresentadas nos cenários são baseadas estritamenteno KGAE criado a partir dos registros originais fornecidos, sem promover alterações nosdados ou em sua estrutura. Os componentes gráficos presentes nessas visualizações nãorefletem necessariamente componentes ou estruturas reais do KGAE. Em alguns casos,os componentes existem apenas no âmbito da aplicação de visualização, construídos apartir de representações intermediárias e filtragens resultantes dos processamentos sobreos dados KGAE, necessários ou oportunos à implementação das visualizações.

Page 118: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Capítulo 7

Conclusão

A eficácia e tempestividade da tomada decisória lastreada em dados vem sendo maisrecentemente e gradativamente transformada, à medida que a manufatura se volta ao apri-moramento de sua habilidade analítica de coletar, organizar, processar, analisar e interpre-tar seus vastos conjuntos de dados. Nessa conjuntura, dados costumeiramente negligen-ciados em silos isolados são alçados à condição de ativo institucional primordial, do qualé possível obter conhecimento útil ao desenvolvimento e implementação de estratégiasorganizacionais. O desafio está, no entanto, em dar sentido a essa massa de dados, reve-lando suas principais características e padrões, para que possam apoiar aperfeiçoamentosoperacionais e tomada de decisões estratégicas.

Sob essa perspectiva, o estudo retratado nesta tese atacou um desses silos de dados:os registros de alarmes e eventos, dados operacionais que constituem evidências históri-cas de episódios relevantes ocorridos no âmbito de um processo ou planta industrial. Opresente estudo se debruçou sobre o problema do grande tamanho e baixa compreensibili-dade de bases tabulares de registros de alarmes e eventos, que normalmente obstaculizama utilização mais proativa desses dados em processos investigativos ou decisórios. Vi-sando contribuir para um melhor aproveitamento de dados dessa natureza, propôs-se umasistemática alternativa de processamento de registros de alarmes e eventos, que prega atransposição desses dados para uma estrutura de KG. Nesse KG, entidades, conceitos,relacionamentos e acontecimentos participantes do contexto estabelecido pelos registrossão convertidos em elementos tangíveis, a partir dos quais as tarefas de análise se tornammais propícias e, consequentemente, mais frutíferas.

A abordagem proposta baseou-se na premissa de que os registros de alarmes e eventosconstituem ricas e autocontidas bases de conhecimento operacional. Essas bases incluemexplicitamente ou implicitamente informações que permitem a derivação de uma ontolo-gia, com base na qual um KG de âmbito específico é edificado e populado com os dadosdos próprios registros. Assim, a metodologia de criação do chamado KGAE (KG de Alar-mes e Eventos) buscou identificar ativos, episódios e suas ocorrências, organizando-os emuma estrutura lógica essencialmente hierárquica (árvore). Entretanto, o modelo de dadostambém prevê o estabelecimento de relações entre entes de mesmo nível, acolhendo nografo os resultados de análises conduzidas sobre os dados do KGAE.

Com a abordagem, dados originais da base de registros, conceitos derivados e os re-sultados de pertinentes análises sobre os dados ficam reunidos sob um domínio único,estruturado em um LPG assentado em um banco de dados baseado em grafo. Além disso,

Page 119: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 7. CONCLUSÃO 103

a estrutura propicia a evolução do modelo em compasso com os próprios dados, bastandopara tal, o estabelecimento de novos elementos e mapeamentos ontológicos. A visualiza-ção do KGAE fica ao cargo de uma aplicação dinâmica especificamente modelada pararessaltar graficamente os elementos do KGAE e favorecer a interação do usuário comesses elementos.

Cenários de avaliação demonstraram a efetividade da abordagem no apoio à tarefasde análise de alarmes e eventos, das simples às complexas. Em termos práticos, a abor-dagem se mostra capaz de suplementar ou até mesmo suplantar o modo convencionalcomo as análise sobre dados históricos de alarmes e eventos são conduzidas, já que, alémde agregar diversos elementos convenientes à análise, incorpora também os dados origi-nais. Contudo, a abordagem deve ser tratada como plataforma para o desenvolvimento deanálises, não tendo, por si própria, a capacidade de resolver problemas típicos da seara.

Nas seções a seguir, são apresentados um sumário das contribuições alcançadas, umalista de oportunidades para trabalhos futuros e a produção científica realizada no decorrerdo curso.

7.1 Sumário de Contribuições

Seguem sumarizadas as principais contribuições concretizadas neste estudo:

1. Em termos mais gerais, a abordagem proposta nesta tese contribui com uma formainovadora de interpelação aos registros de alarmes e eventos, transpondo-os paraum domínio mais versátil e conveniente à condução de análises.

2. Abordagem de pré-processamento visando o melhoramento e enriquecimento debases de registros, considerando aspectos que vão desde a resolução de problemasde qualidade ao enriquecimento da base mediante processamento das descriçõesdos registros.

3. Fornece modo de relacionar fatos, entidades, conceitos e o resultado de análisessob o mesmo domínio lógico de representação, materializado em um KG de âmbitoespecífico.

4. Metodologia de derivação de uma ontologia referente aos ativos de automação eseus respectivos fatos relevantes assinalados nos registros.

5. Definição de uma metodologia de conversão de registros e dos ativos mencionadosnesses registros em nós e relacionamentos de um KG.

6. Estabelecimento de framework de comparação entre os nós do KG, em que aspectosfrequentemente considerados quando da análise de alarmes e eventos são materia-lizados em relacionamentos do KG.

7. Ampliação do rol de aspectos de similaridade relativamente à comparação entrealarmes, eventos e ativos mencionados nos registros. Por meio do estabelecimentode arestas de similaridade do KGAE, além do aspecto temporal, mais frequente-mente contemplado, são considerados também os aspectos ancestrais, textuais, es-truturais e categóricos.

8. Emprego de procedimento estatístico para construção de um indicador composto desimilaridade com base nas medidas de similaridade calculadas entre nós do KGAE.

Page 120: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 7. CONCLUSÃO 104

9. Concepção e desenvolvimento de um motor dinâmico de visualização, voltado àevidenciação, em dois modos (árvore e grafo), dos componentes ontológicos e da-dos do KGAE, assim como do produto de análises sobre os seus elementos.

10. Implementação de uma infraestrutura computacional de suporte à abordagem, uti-lizando orquestração de contêineres para o estabelecimento de camadas especiali-zadas.

7.2 Direções Futuras

Os resultados alcançados neste estudo se mostram consistentes, na medida em quetrazem melhorias visíveis aos processos de análise de alarmes e eventos. Todavia, umagama de oportunidades de aprimoramentos e extensões do estudo são vislumbrados e aseguir elencados:

1. Avaliação de resultados: os estudos na área ainda não formam um arcabouço su-ficiente para o delineamento de um conjunto de diretrizes claras ou regras de boaspráticas em relação à criação e avaliação de KGs da indústria. Conforme eviden-ciado em (Buchgeher et al. 2021), além da limitada convergência, poucos estudosforam exitosos em validar as soluções propostas ou avaliá-las em relação à eficáciae eficiência, mostrando estes serem problemas em aberto no setor. Entre as poucaslinhas avaliativas até então exploradas, destaca-se a aferição, mediante o estabe-lecimento de indicadores, das melhorias eventualmente introduzidas pela a novaabordagem com o emprego de KGs e prática convencional de busca de informaçõesnos processos de análise (He & Jiang 2019, Yan et al. 2020). Outra possibilidade éviável é a tomada de opinião de especialistas de domínio, por meio de formuláriosde pesquisa, em relação à utilização da abordagem em cenários reais cotidianos.Em ambos os casos se faz necessário o estabelecimento de canal estreito com es-pecialistas de domínio, com disponibilização e utilização de um protótipo mínimoviável, o que, apesar de ter sido previsto, foi impedido pela conjuntura atualmenteinstalada. Desse modo, um caminho subsequente natural é o restabelecimento dessecanal para que a abordagem possa possa ser efetivamente avaliada por especialistas.

2. Ações de operadores: um aspecto não contemplado neste estudo é o de que nãofrequentemente os registros de alarmes e eventos remetem também (explicitamenteou implicitamente) a ações de operadores dos SGAs (Kondaveeti et al. 2012, Huet al. 2018a). Respostas de operadores a distúrbios operacionais informados poralarmes e eventos, podem estar nominalmente ou anonimamente assinaladas nos re-gistros. Uma extensão à abordagem proposta consiste na identificação e introduçãodesses atores e suas ações como novas classes e relações da ontologia, adicionandoo fator humano ao KGAE. Enseja-se, assim, estudos acerca da compreensão do pa-pel dos operadores na dinâmica monitorada, além de percepções de cunho ergonô-mico e relacionados ao perfil e à experiência dos operadores (Hu et al. 2018a, Dörgoet al. 2018a, Dorgo & Abonyi 2019).

3. Aspectos de grupo: os componentes-alvo da abordagem proposta (ativos, regis-tros, etc.) são majoritariamente considerados de forma individualizada. Contudo,

Page 121: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 7. CONCLUSÃO 105

muitas das tarefas de análise consideram esses componentes em grupos. Sequên-cias de alarmes e eventos são frequentemente comparadas, por exemplo, em análi-ses visando a classificação, detecção e predição de anomalias e avalanches (Ahmedet al. 2013, Dorgo et al. 2018b). É importante, portanto, que o KGAE seja tambémcapaz de incorporar conhecimento resultante desse tipo de análise. Para tal, novasclasses ontológicas referentes a super-nós devem ser criadas para agregar e repre-sentar estas sequências, assim como novas classes de arestas relacionando essassequências.

4. Outras medidas de similaridade: o presente estudo utilizou uma gama de mé-todos para o estabelecimento de relacionamentos de similaridade entre os nós doKGAE, cada um representando um prisma distinto de abordagem. Contudo, essagama precisa ser expandida em termos da incorporação de outros aspectos e, noescopo desses aspectos, diferentes métodos devem comparados para determinaçãodo método mais eficiente e adequado a cada caso de utilização.

5. Aprimoramento da derivação ontológica: o processo de derivação de uma on-tologia a partir dos registros adotado no estudo é interativo e semi-automático,não contemplando todos os formatos existentes de bases de registros de alarmese eventos. O processo deve ser aperfeiçoado para suportar, eficazmente e automa-ticamente, os dois extremos relativos aos graus de estruturação dessas bases, ouseja, tanto bases altamente estruturadas, com dados distribuídos em várias e com-plexas tabelas, como bases formadas apenas por sentenças textuais marcadas notempo. Para isso, é necessário lançar mão de técnicas mais avançadas e automáti-cas de derivação ontológica a partir de dados tabulares (Mulwad et al. 2011, Sharmaet al. 2015) e de métodos de PLN direcionados à extração ontológica a partir detexto (Wong et al. 2012, Asim et al. 2018).

6. Incorporação de dados externos: apesar de se ter utilizado no desenvolvimentodo estudo a premissa de que os registros de alarmes e eventos formam bases auto-contidas, é importante frisar que as informações constantes dos registros são bas-tante limitadas. É desejável e conveniente que o KGAE incorpore informaçõescompletas acerca das entidades que o constituem. Para isso, se faz pertinente aintegração ou cruzamento com outras bases de dados, como, por exemplo, as ba-ses de SGAAs para obtenção de informações mais detalhadas sobre os ativos deautomação constantes do KGAE.

7. Representação em espaço vetorial: a natureza simbólica de grafos é um fator deentrave à utilização de métodos de aprendizagem de máquina tradicionais na reso-lução de problemas. A representação de entidades, relacionamentos e até mesmodo grafo inteiro em um espaço vetorial (graph embeddings), numérico e de baixadimensionalidade é uma das abordagens atualmente mais empregadas em tarefas declassificação, predição de relações e visualização em grafos. Contudo, esse aspectofoi abordado apenas subsidiariamente neste estudo (no cálculo de uma das medidasde similaridade entre nós do KGAE, baseada em embeddings geradas com o métodoGraphSAGE), muito em decorrência da falta de suporte dos principais métodos aatributos textuais, temporais e categóricos. Porém, alguns métodos mais recentes,voltados especificamente à geração de embeddings em KGs, consideram atributos

Page 122: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 7. CONCLUSÃO 106

multimodais de nós e arestas no cálculo de embeddings (Costabello et al. 2020).Desse modo, um ramo de extensão ao estudo prevê a utilização desses métodos emtarefas de predição de relações para completação (dados faltantes) e complemen-tação (relações não previstas) do KGAE, bem como em tarefas de classificação,desambiguação e deduplicação de entidades.

8. Outras aplicações: os de KGs, por terem a capacidade de definir as bases factuais esemânticas acerca de seu domínio-alvo, podem ser considerados como plataformasde informação para a estruturação de uma miríade de aplicações. Uma das exten-sões vislumbradas prevê o emprego de modelos de PLN voltados à correspondênciasemântica, indexação de dados e e embeddings para a concepção de um sistema derecomendações integrado, para auxiliar, por exemplo, na navegação dos dados e naseleção de elementos a serem desenhados no canvas de visualização.

7.3 Produção Científica

Seguem listadas as produções científicas desenvolvidas e publicadas no período docurso.

7.3.1 Artigos Publicados em Periódicos

Extracting Value from Industrial Alarms and Events: A Data-driven Approach Ba-sed on Exploratory Data Analysis

Autores: A. Bezerra, I. Silva, L. A. Guedes, D. Silva, G. Leitão e K. SaitoPeriódico: Sensors (Volume: 19, Issue: 12)Abstract: Alarm and event logs are an immense but latent source of knowledge com-monly undervalued in industry. Though, the current massive data-exchange, high ef-ficiency and strong competitiveness landscape, boosted by Industry 4.0 and IIoT (In-dustrial Internet of Things) paradigms, does not accommodate such a data misuse anddemands more incisive approaches when analyzing industrial data. Advances in DataScience and Big Data (or more precisely, Industrial Big Data) have been enabling no-vel approaches in data analysis which can be great allies in extracting hitherto hiddeninformation from plant operation data. Coping with that, this work proposes the useof Exploratory Data Analysis (EDA) as a promising data-driven approach to pave in-dustrial alarm and event analysis. This approach proved to be fully able to increaseindustrial perception by extracting insights and valuable information from real-worldindustrial data without making prior assumptions.DOI: https://doi.org/10.3390/s19122772

Page 123: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 7. CONCLUSÃO 107

7.3.2 Artigos Publicados em Anais de Eventos

Enabling Interactive Visualizations in Enabling Interactive Visualizations in Indus-trial Big Data

Autores: A. Bezerra, V. Greati, V. Campos, I. Silva, L. A. Guedes, G. Leitão, D. SilvaNome: 21st IFAC World Congress (IFAC2020), Volume 53, Issue 2Abstract: Industries are considered data rich but information poor environments.Mainly due to systems design restrictions, to the lack of adequate processing powerand to a sector culture notably focused on collecting, selecting, storing and preservinghistorical series in on-demand access repositories, massive data generated in indus-trial operations is traditionally neglected (or simply took aside). This huge amount ofunprocessed data resting in these repositories is a latent and rich source of informa-tion that could be used to improve industrial processes. This work then proposes anapproach in which an elastic processing engine is designed to be plugged-in to cur-rently installed industrial information infrastructure to provide it with the ability ofperforming visual analytics on massive industrial data. A case study where an interac-tive visualization application is made possible in real-world industrial data scenarioof over 100 million records is presented to attest the effectiveness and potential of theproposed approach in enabling interactive visualizations to Industrial Big Data.DOI: https://doi.org/10.1016/j.ifacol.2020.12.292

An Industrial Big Data Processing Engine

Autores: A. Bezerra, V. Greati, V. Campos, I. Silva, L. A. GuedesEvento: Simpósio Brasileiro de Automação Inteligente (SBAI 2019)Abstract: Industries are generally data rich but information poor environments. Mas-sive data generated in industrial operations is traditionally neglected (or simply tookaside) mainly due to systems design restrictions, to the lack of adequate processingpower of typically installed computing infrastructure and to a sector culture notablyfocused on collecting, selecting, storing and preserving historical series in on-demandaccess repositories. This huge amount of unprocessed data resting in these reposito-ries is a latent source of information that could be used to improve industrial processes.This work then proposes an approach in which a proper computing power processingengine is plugged-in to current industrial information infrastructure to provide it withthe ability of handling massive industrial data. Testing on real-world industrial datavolumes of 5GB, 50GB and 100GB attested the effectiveness and potential of the pro-posed approach in dealing with Industrial Big Data.DOI: https://doi.org/10.17648/sbai-2019-111445

Page 124: Uma Metodologia Baseada em Grafo de Conhecimento para ...

CAPÍTULO 7. CONCLUSÃO 108

A Preliminary Exploration of Uber Data as an Indicator of Urban Liveability

Autores: A. Bezerra; G. Alves; I. Silva; P. Rosati; P. T. Endo; T. LynnEvento: International Conference on Cyber Situational Awareness, Data AnalyticsAnd Assessment (Cyber SA 2019)Abstract: Urban liveability is a key concept in the New Urban Agenda (NUA) adoptedby the United Nations (UN) in 2016. The UN has recognized that effective bench-marks and monitoring mechanisms are essential for the successful implementation ofthe NUA. However, the timely and cost effective collection of objective internationalquality of life urban data remains a significant challenge. Urban liveability indexes areoften complex, resource intensive and time consuming to collect, and as a result cos-tly. At the same time, competing methodologies and agendas may result in subjective ornon-comparable data. Historically, transit has been a central organizing factor aroundwhich communities have been built. This paper explores the use of Uber data as a sim-ple real-time indicator of urban liveability. Using data from the Uber Ride Request(URR) API for the Brazilian city of Natal, our preliminary findings suggest that UberEstimated Time to Arrive (ETA) data is strongly correlated with selected quality of lifeindicators at a neighborhood and region level. Furthermore, unlike other urban livea-bility indicators, our findings suggest that Uber ETA data is context-sensitive reflectingdaily and seasonal factors thereby providing more granular insights. This preliminarystudy finds strong evidence that Uber data can provide a simple, comparable, low cost,international urban liveability indicator at both city and neighborhood level for urbanpolicy setting and planning.DOI: https://doi.org/10.1109/CyberSA.2019.8899714

Uma Abordagem Orientada a Dados para Análise de Eventos e Alarmes na In-dústria 4.0

Autores: A. Bezerra, I. Silva, L. A. Guedes, G. LeitãoEvento: Congresso Brasileiro de Automática (CBA 2018)Resumo: Os registros de alarmes e eventos constituem uma latente e massiva fontede conhecimento comumente subaproveitada na indústria. Os avanços das práticasem Ciência de Dados e Big Data e o atual cenário de alta competitividade e eficiên-cia, impulsionado pela Indústria 4.0, demandam novas abordagens no trato dos dadosoriundos das plantas. Este trabalho propõe a utilização de Análise Exploratória de Da-dos (AED) como abordagem preliminar de análise, orientada somente aos dados e comalto potencial na extração de insights valiosos.

Page 125: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Referências Bibliográficas

Aasheim, Cheryl L., Susan William, Paige Rutner & Adrian Gardiner (2015), ‘Dataanalytics vs. data science: A study of similarities and differences in undergraduateprograms based on course descriptions’, Journal of Information System Education26(2), 103–115.URL: https://search.proquest.com/docview/1783992856?pq-origsite=gscholar (Acessado em 01-10-2021)

Abdi, Hervé & Lynne J. Williams (2010), ‘Principal component analysis’, WileyInterdisciplinary Reviews: Computational Statistics 2(4), 433–459.

Abonyi, János, Richárd Károly & Gyula Dörgö (2021), ‘Event-Tree Based SequenceMining Using LSTM Deep-Learning Model’, Complexity 2021, 1–24.URL: https://www.hindawi.com/journals/complexity/2021/7887159/ (Acessado em 01-10-2021)

Agresti, Alan (2007), An Introduction to Categorical Data Analysis, Willey.

Ahmed, Kabir (2011), Similarity analysis of industrial alarm flood data, Tese de douto-rado, University of Alberta.

Ahmed, Kabir, Iman Izadi, Tongwen Chen, David Joe & Tim Burton (2013), ‘Simila-rity Analysis of Industrial Alarm Flood Data’, IEEE Transactions on AutomationScience and Engineering 10(2), 452–457.URL: http://ieeexplore.ieee.org/document/6419854/ (Acessadoem 01-10-2021)

Al-Dabbagh, Ahmad W., Wenkai Hu, Shiqi Lai, Tongwen Chen & Sirish L. Shah (2017),‘Better understanding of process operation using performance metrics and visualiza-tion plots’, 1st Annual IEEE Conference on Control Technology and Applications,CCTA 2017 2017-January, 2015–2020.

Al-Dabbagh, Ahmad W., Wenkai Hu, Shiqi Lai, Tongwen Chen & Sirish L. Shah(2018), ‘Toward the Advancement of Decision Support Tools for Industrial Faci-lities: Addressing Operation Metrics, Visualization Plots, and Alarm Floods’, IEEETransactions on Automation Science and Engineering 15(4), 1883–1896.

Allison, Paul D (2005), ‘Imputation of categorical variables with PROC MI’, SUGI 30Proceedings 113(30), 1–14.

109

Page 126: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 110

Alves, Gisliany Lillian de Oliveira (2020), Uma abordagem orientada a dados para acriação de um indicador de habitabilidade baseado na API da UBER, Tese dedoutorado, Universidade Federal do Rio Grande do Norte.URL: https://repositorio.ufrn.br/handle/123456789/28706(Acessado em 01-10-2021)

Angles, Renzo (2018), The property graph database model, em ‘CEUR Workshop Proce-edings’, Vol. 2100, CEUR.URL: http://ceur-ws.org/Vol-2100/ (Acessado em 01-10-2021)

ANSI/ISA (2009), Instrumentation Symbols and Identification, ISA ANSI/ISA-5.1-2009,ISA.

ANSI/ISA (2016), Management of Alarm Systems for the Process Industries, ISAANSI/ISA-18.2-2016, ISA.

Asim, Muhammad Nabeel, Muhammad Wasim, Muhammad Usman Ghani Khan, WaqarMahmood & Hafiza Mahnoor Abbasi (2018), ‘A survey of ontology learningtechniques and applications’, Database 2018(2018), 1–24.URL: https://academic.oup.com/database/article/doi/10.1093/database/bay101/5116160 (Acessado em 01-10-2021)

Bangert, P (2021), Machine Learning and Data Science in the Oil and Gas Industry: BestPractices, Tools, and Case Studies, 1stª edição, Joe Hayton.URL: https://books.google.com.br/books?id=4-L7DwAAQBAJ(Acessado em 01-10-2021)

Bartodziej, Christoph Jan (2017), The Concept Industry 4.0, Springer Fachmedien Wies-baden, Berlin.

Basanta-Val, Pablo (2018), ‘An Efficient Industrial Big-Data Engine’, IEEE Transactionson Industrial Informatics 14(4), 1361–1369.URL: http://ieeexplore.ieee.org/document/8047971/ (Acessadoem 01-10-2021)

Bellomarini, Luigi, Emanuel Sallinger & Sahar Vahdati (2020),Knowledge Graphs and Big Data Processing, Vol. 12072 de Lecture Notes inComputer Science, Springer International Publishing, Cham.

Bhagavatula, Srinivas Rao (2019), ‘Tackling data deluge in the era of industry 4.0’.URL: https://www.mindtree.com/blog/tackling-data-deluge-era-industry-40 (Acessado em 01-10-2021)

Bilogur, Aleksey (2018), ‘Missingno: a missing data visualization suite’, The Journal ofOpen Source Software 3(22), 547.URL: http://joss.theoj.org/papers/10.21105/joss.00547(Acessado em 01-10-2021)

Page 127: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 111

Blondel, Vincent D., Jean-Loup Guillaume, Renaud Lambiotte & Etienne Lefebvre(2008), ‘Fast unfolding of communities in large networks’, Journal of StatisticalMechanics: Theory and Experiment 2008(10), P10008.URL: https://iopscience.iop.org/article/10.1088/1742-5468/2008/10/P10008 (Acessado em 01-10-2021)

Bojanowski, Piotr, Edouard Grave, Armand Joulin & Tomas Mikolov (2017), ‘Enri-ching Word Vectors with Subword Information’, Transactions of the Associationfor Computational Linguistics 5, 135–146.

Boriah, Shyam, Varun Chandola & Vipin Kumar (2008), Similarity Measures for Cate-gorical Data: A Comparative Evaluation, em ‘Proceedings of the 2008 SIAM In-ternational Conference on Data Mining’, Vol. 1, Society for Industrial and AppliedMathematics, Philadelphia, PA, pp. 243–254.URL: https://epubs.siam.org/doi/10.1137/1.9781611972788.22 (Acessado em 01-10-2021)

Brugman, Simon (2021), ‘pandas-profiling: Exploratory Data Analysis for Python’,https://github.com/pandas-profiling/pandas-profiling.

Bryant, R. E., R. H. Katz & E. D. Lazowska (2008), Big-Data Computing: Creatingrevolutionary breakthroughs in commerce, science, and society, Relatório técnico,Computing Community Consortium.URL: https://cra.org/ccc/wp-content/uploads/sites/2/2015/05/Big_Data.pdf (Acessado em 01-10-2021)

Buchgeher, Georg, David Gabauer, Jorge Martinez-Gil & Lisa Ehrlinger (2021), ‘Kno-wledge Graphs in Manufacturing and Production: A Systematic Literature Review’,IEEE Access 9, 55537–55554.URL: https://ieeexplore.ieee.org/document/9393345/ (Aces-sado em 01-10-2021)

Cerda, Patricio, Gaël Varoquaux & Balázs Kégl (2018), ‘Similarity encoding for learningwith dirty categorical variables’, Machine Learning 107(8-10), 1477–1494.URL: http://link.springer.com/10.1007/s10994-018-5724-2(Acessado em 01-10-2021)

Colombo, Armando W, Thomas Bangemann, Stamatis Karnouskos, Jerker Delsing,Petr Stluka, Robert Harrison, François Jammes & Jose L.Martinez Lastra (2014),Industrial Cloud-Based Cyber-Physical Systems, Vol. 9783319056, Springer Inter-national Publishing, Cham.URL: http://link.springer.com/10.1007/978-3-319-05624-1(Acessado em 01-10-2021)

Costabello, Luca, Sumit Pai, Nicholas McCarthy & Adrianna Janik (2020), ‘Knowledgegraph embeddings tutorial: From theory to practice’.URL: https://doi.org/10.5281/zenodo.4268208 (Acessado em 01-10-2021)

Page 128: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 112

da Silva, M. J., C. E. Pereira & M. Götz (2016), A Dynamic Approach for IndustrialAlarm Systems, em ‘2016 International Conference on Computer, Information andTelecommunication Systems (CITS)’, pp. 1–5.

Dean, James (2009), ‘Choosing the Right Type of Rotation in PCA and EFA’, Shiken:JALT Testing & Evaluation SIG Newsletter 13(November), 20–25.

Deza, Elena & Michel Marie Deza (2009), Encyclopedia of Distances, Vol. 53, SpringerBerlin Heidelberg, Berlin, Heidelberg.URL: http://link.springer.com/10.1007/978-3-642-00234-2(Acessado em 01-10-2021)

Diez-Olivan, Alberto, Javier Del Ser, Diego Galar & Basilio Sierra (2019), ‘Data fusionand machine learning for industrial prognosis: Trends and perspectives towards In-dustry 4.0’, Information Fusion 50, 92–111.URL: https://linkinghub.elsevier.com/retrieve/pii/S1566253518304706 (Acessadoem 01-10-2021)

Diggle, Peter J. & Amanda G. Chetwynd (2011), Statistics and Scientific Method,Oxford University Press.URL: http://www.oxfordscholarship.com/view/10.1093/acprof:oso/9780199543182.001.0001/acprof-9780199543182(Acessado em 01-10-2021)

Ding, Cunsheng & Xiaohu Tang (2010), ‘The cross-correlation of binary sequences withoptimal autocorrelation’, IEEE Transactions on Information Theory 56(4), 1694–1701.

Dombrowski, U., A. Reiswich & C. Imdahl (2019), Knowledge Graphs for an AutomatedInformation Provision in the Factory Planning, em ‘2019 IEEE International Con-ference on Industrial Engineering and Engineering Management (IEEM)’, IEEE,pp. 1074–1078.URL: https://ieeexplore.ieee.org/document/8978887/ (Aces-sado em 01-10-2021)

Dörgo, G, K Varga, M Haragovics, T Szabó & J Abonyi (2018a), ‘Towards operator 4.0,increasing production efficiency and reducing operator workload by process miningof alarm data’, Chemical Engineering Transactions 70(July), 829–834.URL: https://www.scopus.com/inward/record.uri?eid=2-s2.0-85051344271 (Acessado em 01-10-2021)

Dorgo, Gyula, Ferenc Tandari, Tibor Szabó, Ahmet Palazoglu & Janos Abonyi (2021),‘Quality vs. quantity of alarm messages - How to measure the performance of analarm system’, Chemical Engineering Research and Design 173, 63–80.URL: https://doi.org/10.1016/j.cherd.2021.06.022 (Acessadoem 01-10-2021)

Page 129: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 113

Dorgo, Gyula & Janos Abonyi (2018a), ‘Sequence Mining Based Alarm Suppression’,IEEE Access 6(c), 15365–15379.URL: https://ieeexplore.ieee.org/document/8268070 (Acessadoem 01-10-2021)

Dorgo, Gyula & Janos Abonyi (2018b), ‘Sequence Mining Based Alarm Suppression’,IEEE Access 6(c), 15365–15379.URL: https://ieeexplore.ieee.org/document/8268070/ (Aces-sado em 01-10-2021)

Dorgo, Gyula & Janos Abonyi (2019), ‘Learning and predicting operation strategiesby sequence mining and deep learning’, Computers & Chemical Engineering128(June), 174–187.URL: https://linkinghub.elsevier.com/retrieve/pii/S0098135419300456 (Acessado em 01-10-2021)

Dorgo, Gyula, Kristof Varga & Janos Abonyi (2018b), ‘Hierarchical Frequent SequenceMining Algorithm for the Analysis of Alarm Cascades in Chemical Processes’,IEEE Access 6, 50197–50216.URL: https://ieeexplore.ieee.org/document/8453788/ (Aces-sado em 01-10-2021)

Dorgo, Gyula, Peter Pigler & Janos Abonyi (2018c), ‘Understanding the importance ofprocess alarms based on the analysis of deep recurrent neural networks trained forfault isolation’, Journal of Chemometrics 32(4).

EEMUA (2007), Alarm Systems: A Guide to Design, Management and Procurement,EEMUA Publication Series, 2ª edição, E E M U A (Engineering Equipment & Ma-terials Users Association).

El Gibari, Samira, Trinidad Gómez & Francisco Ruiz (2019), ‘Building composite indi-cators using multicriteria methods: a review’, Journal of Business Economics 89(1).URL: https://doi.org/10.1007/s11573-018-0902-z (Acessado em01-10-2021)

Farouk, Mamdouh (2019), ‘Measuring Sentences Similarity: A Survey’, Indian Journalof Science and Technology 12(25), 1–11.URL: https://indjst.org/articles/measuring-sentences-similarity-a-survey (Acessado em 01-10-2021)

Fayyad, Usama, Gregory Piatetsky-Shapiro Articles & Padhraic Smyth (1996), ‘FromData Mining to Knowledge Discovery in From Data Mining to Databases’, AIMagazine 17(3), 85–95.

Figueiredo Filho, Dalson Brito & José Alexandre da Silva Júnior (2010), ‘Visão além doalcance: uma introdução à análise fatorial’, Opinião Pública 16(1), 160–185.URL: http://www.scielo.br/scielo.php?script=sci_arttext&

Page 130: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 114

pid=S0104-62762010000100007&lng=pt&tlng=pt (Acessado em 01-10-2021)

Figueiredo Filho, Dalson Britto, Enivaldo Carvalho da Rocha, Ranulfo PARANHOS, An-derson Henrique Silva, José Alexandre Silva Jr., Lucas Silva & Dáfni Priscila Alves(2015), ‘Análise Fatorial Garantida Ou O Seu Dinheiro De Volta: Uma IntroduçãoÀ Redução De Dados’, Revista Eletrônica de Ciência Política 5(2).

Francis, Nadime, Alastair Green, Paolo Guagliardo, Leonid Libkin, Tobias Lindaaker,Victor Marsault, Stefan Plantikow, Mats Rydberg, Petra Selmer & Andrés Taylor(2018), Cypher: An Evolving Query Language for Property Graphs Citation, em‘Proceedings of the 2018 International Conference on Management of Data’, ACM,New York, NY, USA, pp. 1433–1445.URL: https://dl.acm.org/doi/10.1145/3183713.3190657 (Aces-sado em 01-10-2021)

Gewers, Felipe L., Gustavo R. Ferreira, Henrique F. De Arruda, Filipi N. Silva, Cesar H.Comin, Diego R. Amancio & Luciano da F. Costa (2021), ‘Principal ComponentAnalysis’, ACM Computing Surveys 54(4), 1–34.URL: https://dl.acm.org/doi/10.1145/3447755 (Acessado em 01-10-2021)

Goebel, Michael & Le Gruenwald (1999), ‘A survey of data mining and knowledge dis-covery software tools’, ACM SIGKDD Explorations Newsletter 1(1), 20–33.URL: http://link.springer.com/10.1007/3-540-39949-6 (Aces-sado em 01-10-2021)

Gómez-Limón, José A., Manuel Arriaza & M. Dolores Guerrero-Baena (2020), ‘Buil-ding a composite indicator to measure environmental sustainability using alternativeweighting methods’, Sustainability (Switzerland) 12(11).

Gower, John C. & Matthijs J. Warrens (2017), ‘Similarity, Dissimilarity, and Distance,Measures of’, Wiley StatsRef: Statistics Reference Online pp. 1–11.

Greco, Salvatore, Alessio Ishizaka, Menelaos Tasiou & Gianpiero Torrisi (2019), ‘Onthe Methodological Framework of Composite Indices: A Review of the Issues ofWeighting, Aggregation, and Robustness’, Social Indicators Research 141(1), 61–94.URL: https://doi.org/10.1007/s11205-017-1832-9 (Acessado em01-10-2021)

Gugger, Jeremy Howard; Sylvain (2020), Deep Learning for Coders with fastai and PyTorch,first editª edição, O’Reilly Media, Sebastopol, CA.

Habibi, Eddie & Bill Hollifield (2006), ‘Alarm Systems Greatly Affect Offshore FacilitiesAmid High Oil Prices’, World Oil Magazine 227(9).

Page 131: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 115

Hair Jr., Joseph F., William C. Black, Barry J. Babin & Rolph E. Anderson (2014),Multivariate Data Analysis, seventh edª edição, Pearson Education Limited.

Hajibaba, Majid & Saeid Gorgin (2014), ‘A review on modern distributed computingparadigms: Cloud computing, jungle computing and fog computing’, Journal ofComputing and Information Technology 22(2), 69–84.

Hamilton, William L., Rex Ying & Jure Leskovec (2017), ‘Inductive Representation Lear-ning on Large Graphs’, Advances in Neural Information Processing Systems 2017-Dec(Nips), 1025–1035.URL: http://arxiv.org/abs/1706.02216 (Acessado em 01-10-2021)

Hastings, Nicholas Anthony John (2015), Physical Asset Management, 2ndª edição,Springer International Publishing, Cham.URL: http://link.springer.com/10.1007/978-3-319-14777-2(Acessado em 01-10-2021)

He, Longlong & Pingyu Jiang (2019), ‘Manufacturing Knowledge Graph: A Connecti-vism to Answer Production Problems Query With Knowledge Reuse’, IEEE Access7, 101231–101244.URL: https://ieeexplore.ieee.org/document/8777086/ (Aces-sado em 01-10-2021)

He, Pinjia, Jieming Zhu, Zibin Zheng & Michael R. Lyu (2017), Drain: An Online LogParsing Approach with Fixed Depth Tree, em ‘2017 IEEE International Conferenceon Web Services (ICWS)’, IEEE, pp. 33–40.URL: http://ieeexplore.ieee.org/document/8029742/ (Acessadoem 01-10-2021)

Heckert, Nathanael, James Filliben, C Croarkin, B Hembree, William Guthrie, P Tobias& J Prinz (2013), ‘Handbook 151: NIST/SEMATECH e-Handbook of StatisticalMethods’.URL: https://www.itl.nist.gov/div898/handbook/ (Acessado em01-10-2021)

Higuchi, Fumitaka, Ichizo Yamamoto, Tsutomu Takai, Masaru Noda & HirokazuNishitani (2009), Use of Event Correlation Analysis to Reduce Number of Alarms,em ‘Computer Aided Chemical Engineering’, Vol. 27, Elsevier Inc., pp. 1521–1526.URL: https://linkinghub.elsevier.com/retrieve/pii/S1570794609706443 (Acessado em 01-10-2021)

Hogan, Aidan, Eva Blomqvist, Michael Cochez, Claudia D’amato, Gerard De Melo,Claudio Gutierrez, Sabrina Kirrane, José Emilio Labra Gayo, Roberto Navigli, Se-bastian Neumaier, Axel-Cyrille Ngonga Ngomo, Axel Polleres, Sabbir M. Rashid,Anisa Rula, Lukas Schmelzeisen, Juan Sequeda, Steffen Staab & Antoine Zimmer-mann (2021), ‘Knowledge Graphs’, ACM Computing Surveys 54(4), 1–37.URL: https://dl.acm.org/doi/10.1145/3418294 (Acessado em 01-10-2021)

Page 132: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 116

Hollifield, Bill R., Dana Oliver, Ian Nimmo & Eddie Habibi (2008),The High Performance HMI Handbook, 1ª edição, PAS.

Hollifield, Bill R. & Eddie Habibi (2011), Alarm Management: A Comprehensive Guide,secondª edição, International Society of Automation (ISA).

Hu, Wenkai (2016), Advanced Alarm Monitoring Based on Alarm Data, Thesis, Univer-sity of Alberta.

Hu, Wenkai, Ahmad W. Al-Dabbagh, David Li & Tongwen Chen (2018a), ‘Extractionand Graphical Representation of Operator Responses to Multivariate Alarms inIndustrial Facilities’, IFAC-PapersOnLine 51(18), 25–30.URL: https://linkinghub.elsevier.com/retrieve/pii/S2405896318319165 (Acessado em 01-10-2021)

Hu, Wenkai, Ahmad W. Al-Dabbagh, Tongwen Chen & Sirish L. Shah (2016),‘Process Discovery of Operator Actions in Response to Univariate Alarms’,IFAC-PapersOnLine 49(7), 1026–1031.URL: http://dx.doi.org/10.1016/j.ifacol.2016.07.337 (Aces-sado em 01-10-2021)

Hu, Wenkai, Ahmad W. Al-Dabbagh, Tongwen Chen & Sirish L. Shah (2018b), ‘Designof visualization plots of industrial alarm and event data for enhanced alarmmanagement’, Control Engineering Practice 79(April), 50–64.URL: https://doi.org/10.1016/j.conengprac.2018.07.005(Acessado em 01-10-2021)

Hu, Wenkai, Jiandong Wang, Tongwen Chen & Sirish L. Shah (2017a), ‘Cause-effectanalysis of industrial alarm variables using transfer entropies’, Control EngineeringPractice 64, 205–214.URL: http://dx.doi.org/10.1016/j.conengprac.2017.04.012(Acessado em 01-10-2021)

Hu, Wenkai, Muhammad Shahzad Afzal, Gustavo Brandt, Eric Lau, Tongwen Chen &Sirish L. Shah (2015), ‘An Application of Advanced Alarm Management Tools toan Oil Sand Extraction Plant’, IFAC-PapersOnLine 48(8), 641–646.URL: https://linkinghub.elsevier.com/retrieve/pii/S2405896315011210 (Acessado em 01-10-2021)

Hu, Wenkai, Tongwen Chen & Sirish L. Shah (2018c), ‘Discovering Association Rulesof Mode-Dependent Alarms From Alarm and Event Logs’, IEEE Transactions onControl Systems Technology 26(3), 971–983.URL: https://ieeexplore.ieee.org/document/7921590/ (Acessado em 01-10-2021)

Hu, Wenkai, Tongwen Chen, Sirish L. Shah & Martin Hollender (2017b), ‘Causeand Effect Analysis for Decision Support in Alarm Floods’, IFAC-PapersOnLine50(1), 13940–13945.

Page 133: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 117

URL: https://doi.org/10.1016/j.ifacol.2017.08.2215 (Aces-sado em 01-10-2021)

Hutto, C & Eric Gilbert (2014), ‘VADER: A Parsimonious Rule-Based Model forSentiment Analysis of Social Media Text’, Proceedings of the International AAAIConference on Web and Social Media 8(1).URL: https://ojs.aaai.org/index.php/ICWSM/article/view/14550 (Acessado em 01-10-2021)

IBM (2021), ‘KMO and Bartlett’s Test’.URL: https://www.ibm.com/docs/en/spss-statistics/23.0.0?topic=detection-kmo-bartletts-test (Acessado em 01-10-2021)

Immerman, Graham (2021), ‘How the manufacturing industry can unlock the value indata?’.URL: https://www.weforum.org/agenda/2021/03/how-the-manufacturing-industry-can-unlock-the-value-in-data/(Acessado em 01-10-2021)

ISO (2014), Asset management — Overview, principles and terminology, Relatóriotécnico, ISO, Geneva.URL: http://link.springer.com/10.1007/978-3-7908-2720-0_12 (Acessado em 01-10-2021)

Izadi, Iman, Sirish L. Shah & Tongwen Chen (2010), Effective resource utilization forAlarm Management, em ‘49th IEEE Conference on Decision and Control (CDC)’,IEEE, pp. 6803–6808.URL: http://ieeexplore.ieee.org/document/5717328/ (Acessadoem 01-10-2021)

Jo, Taeho (2019), Text Mining, Vol. 45 de Studies in Big Data, Springer InternationalPublishing, Cham.

Jones, L.V. (1987), The Collected Works of John W. Tukey: Philosophy and Principles ofData Analysis 1965-1986, número v. 4, Taylor & Francis.

Joseph Alford, Bridget Fitzpatrick, Doug Metzger & Graham Nasby (2019), ‘Applyingalarm management’, InTech .URL: https://www.isa.org/intech-home/2019/january-february/features/applying-alarm-management (Acessado em01-10-2021)

Kagermann, Henning, Wolfgang Wahlster & Johannes Helbig (2013), Recommendationsfor implementing the strategic initiative INDUSTRIE 4.0, Relatório técnico, Natio-nal Academies of Sciences and Engineering.

Page 134: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 118

Karoly, Richard & Janos Abonyi (2016), Multi-temporal sequential pattern mining basedimprovement of alarm management systems, em ‘2016 IEEE International Confe-rence on Systems, Man, and Cybernetics (SMC)’, IEEE, pp. 003870–003875.URL: http://ieeexplore.ieee.org/document/7844838/ (Acessadoem 01-10-2021)

Kassambara, Alboukadel (2017), Practical Guide To Principal Component Methods in R:PCA, M(CA), FAMD, MFA, HCPC, factoextra, Multivariate Analysis, CreateSpaceIndependent Publishing Platform.

Khadir, Ahlem Chérifa, Hassina Aliane & Ahmed Guessoum (2021), ‘Ontology learning:Grand tour and challenges’, Computer Science Review 39, 100339.URL: https://doi.org/10.1016/j.cosrev.2020.100339 (Acessadoem 01-10-2021)

Kondaveeti, Sandeep R., Iman Izadi, Sirish L. Shah, David S. Shook, Ramesh Kadali& Tongwen Chen (2013), ‘Quantification of alarm chatter based on run lengthdistributions’, Chemical Engineering Research and Design 91(12), 2550–2558.URL: https://linkinghub.elsevier.com/retrieve/pii/S0263876213001779 (Acessado em 01-10-2021)

Kondaveeti, Sandeep R., Iman Izadi, Sirish L. Shah, Tim Black & Tongwen Chen (2012),‘Graphical tools for routine assessment of industrial alarm systems’, Computers &Chemical Engineering 46, 39–47.URL: http://dx.doi.org/10.1016/j.compchemeng.2012.06.042(Acessado em 01-10-2021)

Lai, Shiqi, Fan Yang & Tongwen Chen (2017), ‘Online pattern matching and predictionof incoming alarm floods’, Journal of Process Control 56(October), 69–78.URL: http://dx.doi.org/10.1016/j.jprocont.2017.01.003(Acessado em 01-10-2021)

Law, Po-Ming, Zhicheng Liu, Sana Malik & Rahul C. Basole (2019), ‘MAQUI: Interwe-aving Queries and Pattern Mining for Recursive Event Sequence Exploration’, IEEETransactions on Visualization and Computer Graphics 25(1), 396–406.URL: https://ieeexplore.ieee.org/document/8440851/ (Aces-sado em 01-10-2021)

Lee, Jay, Hung-An Kao & Shanhu Yang (2014), ‘Service Innovation and Smart Analyticsfor Industry 4.0 and Big Data Environment’, Procedia CIRP 16, 3–8.URL: http://dx.doi.org/10.1016/j.procir.2014.02.001 (Aces-sado em 01-10-2021)

Leitão, Gustavo Bezerra Paz (2018), Classificação On-line de Situações Anormais emOperação de Processos Industriais Baseada em Processamento de Alarmes e Va-riáveis de Processos, Tese de doutorado, Universidade Federal do Rio Grande doNorte.

Page 135: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 119

URL: https://repositorio.ufrn.br/jspui/handle/123456789/26508 (Acessado em 01-10-2021)

Lelli, Francesco (2019), ‘Interoperability of the Time of Industry 4.0 and the Internet ofThings’, Future Internet 11(2), 36.

Lorenz, Rafael (2021), Data-Enabled Productivity Improvement in Manufacturing, Tesede doutorado, ETH Zurich, Zurich.

Lu, Hao, Mahantesh Halappanavar & Ananth Kalyanaraman (2014), ‘Parallel Heuristicsfor Scalable Community Detection’, Parallel Computing 47, 19–37.URL: http://arxiv.org/abs/1410.1237 (Acessado em 01-10-2021)

Lu, Yang (2017), ‘Industry 4.0: A survey on technologies, applications and open researchissues’, Journal of Industrial Information Integration 6, 1–10.

Makarov, Ilya, Dmitrii Kiselev, Nikita Nikitinsky & Lovro Subelj (2021), ‘Survey ongraph embeddings and their applications to machine learning problems on graphs’,PeerJ Computer Science 7, e357.URL: https://peerj.com/articles/cs-357 (Acessado em 01-10-2021)

Mannani, Zahra, Iman Izadi & Nasser Ghadiri (2019), ‘Preprocessing of Alarm Data forData Mining’, Industrial & Engineering Chemistry Research 58(26), 11261–11274.URL: https://pubs.acs.org/doi/10.1021/acs.iecr.8b05955(Acessado em 01-10-2021)

Mao, Yingsen (2015), Data Visualization in Exploratory Data Analysis: An Overview ofMethods and Technologies, Dissertação de mestrado, University of Texas at Arling-ton.URL: http://hdl.handle.net/10106/25475 (Acessado em 01-10-2021)

Mazziotta, Matteo & Adriano Pareto (2013), ‘Methods for constructing composite indi-cators: One for all or all for one’, Italian Journal of Economic Demography andStatistics 67(2), 67–80.URL: http://www.sieds.it/listing/RePEc/journl/2013LXVII_N2_10_Mazziotta_Pareto.pdf (Acessado em 01-10-2021)

Mehta, B. R. & Y. J. Reddy (2015), Industrial Process Automation Systems, Elsevier.URL: https://linkinghub.elsevier.com/retrieve/pii/C20130189544 (Acessado em 01-10-2021)

Miranda, Tiago Fernandes De (2017), Análise de desempenho de técnicas de indicaçãode causalidade aplicadas a alarmes industriais, Tese de doutorado, Universidade Fe-deral do Rio Grande do Norte.URL: https://repositorio.ufrn.br/jspui/handle/123456789/24011 (Acessado em 01-10-2021)

Page 136: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 120

Morais, Edison Andrade Martins & Ana Paula L. Ambrósio (2007), Ontologias: concei-tos, usos, tipos, metodologias, ferramentas e linguagens, Relatório técnico, Institutode Informática da Universidade Federal de Goiás, Goiânia.URL: http://www.portal.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-07.pdf (Acessado em01-10-2021)

Mulwad, Varish, Tim Finin & Anupam Joshi (2011), Automatically Generating Govern-ment Linked Data from Tables, em ‘Working notes of AAAI Fall Symposium onOpen Government Knowledge: AI Opportunities and Challenges’, Association forthe Advancement of Artificial Intelligence.URL: https://aaai.org/Press/Proceedings/aaai11.php (Aces-sado em 01-10-2021)

Nardo, Michaela, Michaela Saisana, Andrea Saltelli & Stefano Tarantola (2008),Handbook on Constructing Composite Indicators: Methodology and User Guide,OECD, Ispra.URL: https://www.oecd-ilibrary.org/economics/handbook-on-constructing-composite-indicators-methodology-and-user-guide_9789264043466-en (Acessado em 01-10-2021)

NASEM (2017), Strengthening Data Science Methods for Department of DefensePersonnel and Readiness Missions, National Academies Press, Washington, D.C.URL: https://www.nap.edu/catalog/23670 (Acessado em 01-10-2021)

Nishiguchi, Junya & Tsutomu Takai (2010), ‘IPL2 and 3 performance improve-ment method for process safety using event correlation analysis’, Computers andChemical Engineering 34(12), 2007–2013.URL: http://dx.doi.org/10.1016/j.compchemeng.2010.07.029(Acessado em 01-10-2021)

NIST (2018), ‘Cosine Distance, Cosine Similarity, Angular Cosine Distance, AngularCosine Similarity’.URL: https://www.itl.nist.gov/div898/software/dataplot/refman2/auxillar/cosdist.htm (Acessado em 01-10-2021)

Noda, Masaru, Fumitaka Higuchi, Tsutomu Takai & Hirokazu Nishitani (2011), ‘Eventcorrelation analysis for alarm system rationalization’, Asia-Pacific Journal ofChemical Engineering 6(3), 497–502.URL: https://onlinelibrary.wiley.com/doi/10.1002/apj.575(Acessado em 01-10-2021)

Obitko, Marek, Václav Jirkovský & Jan Bezdícek (2013), Big Data Challenges in Indus-trial Automation, em V.Mavrík, J. L. M.Lastra & P.Skobelev, eds., ‘Industrial Appli-cations of Holonic and Multi-Agent Systems’, Springer Berlin Heidelberg, Berlin,Heidelberg, pp. 305–316.

Page 137: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 121

OGP (2008), Asset integrity – the key to managing major incident risks, Relatório Técnico415, The International Association of Oil & Gas Producers.

OGP (2011), Process Safety – Recommended Practice on Key Performance Indicators,Relatório Técnico 456, The International Association of Oil & Gas Producers.

Pande, Amit, Kai Ni & Venkataramani Kini (2019), SWAG: Item Recommendations usingConvolutions on Weighted Graphs, em ‘2019 IEEE International Conference on BigData (Big Data)’, pp. 2903–2912.

Peter Bruce & Andrew Bruce (2017), Practical Statistics for data scientists, O’Reilly Me-dia.

Qi Liu (2014), The Application of Exploratory Data Analysis (EDA) in Auditing, Disser-tation, The State University of New Jersey.

Qiang, Jipeng, Zhenyu Qian, Yun Li, Yunhao Yuan & Xindong Wu (2020), ‘Short TextTopic Modeling Techniques, Applications, and Performance: A Survey’, IEEETransactions on Knowledge and Data Engineering 14(8), 1–1.URL: https://ieeexplore.ieee.org/document/9086136 (Aces-sado em 01-10-2021)

Rao, C. R., Edward J. Wegman & Jeffrey L. Solka (2005), Statistical Data Mining,Vol. 24, 1stª edição, Elsevier B.V.URL: https://linkinghub.elsevier.com/retrieve/pii/S0169716104240020 (Acessado em 01-10-2021)

Reis, Marco & Geert Gins (2017), ‘Industrial Process Monitoring in the Big Data/Industry4.0 Era: from Detection, to Diagnosis, to Prognosis’, Processes 5(3), 35.

Ringsquandl, Martin, Evgeny Kharlamov, Daria Stepanova, Steffen Lamparter, RaffaelloLepratti, Ian Horrocks & Peer Kroger (2017), On event-driven knowledge graphcompletion in digital factories, em ‘2017 IEEE International Conference on BigData (Big Data)’, Vol. 2018-Janua, IEEE, pp. 1676–1681.URL: http://ieeexplore.ieee.org/document/8258105/ (Acessadoem 01-10-2021)

Robinson, Ian, Jim Webber & Emil Eifrem (2015), Graph Databases, 2ndª edição, Else-vier, Sebastopol, CA.

Roche, Christophe (2003), ‘Ontology: A Survey’, IFAC Proceedings Volumes36(22), 187–192.URL: https://linkinghub.elsevier.com/retrieve/pii/S1474667017377157 (Acessado em 01-10-2021)

Rothenberg, D H (2018), Alarm Management for Process Control: A Best-practice Guidefor Design, Implementation, and Use of Industrial Alarm Systems, secondª edição,Momentum Press, New York, New York, USA.

Page 138: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 122

Rudas, Tamás (2018), Lectures on Categorical Data Analysis, Springer Texts in Statistics,ebookª edição, Springer US, Budapest.URL: http://link.springer.com/10.1007/978-1-4939-7693-5(Acessado em 01-10-2021)

Saoub, Karin R. (2021), Graph Theory: An Introduction to Proofs, Algorithms, and Applications,1stª edição, CRC Press, Boca Raton.

Sasaki, Bryce Merkl, Joy Chao & Rachel Howard (2018),Graph Databases for Beginners, Neo4j.URL: https://go.neo4j.com/rs/710-RRC-335/images/Graph_Databases_for_Beginners.pdf (Acessado em 01-10-2021)

Scholten, B (2007), The Road to Integration: A Guide to Applying the ISA-95 Standardin Manufacturing, ISA, Research Triangle Park.

Sharma, Kumar, Ujjal Marjit & Utpal Biswas (2015), ‘Automatically Converting TabularData to RDF: an Ontological Approach’, International journal of Web & SemanticTechnology 6(3), 71–86.URL: http://www.airccse.org/journal/ijwest/papers/6315ijwest06.pdf (Acessado em 01-10-2021)

Sharma, Sachin (2021), ‘A comprehensive case-study of graphsage using pytorchgeome-tric and open-graph-benchmark’.URL: https://www.arangodb.com/2021/08/a-comprehensive-case-study-of-graphsage-using-pytorchgeometric/ (Acessadoem 01-10-2021)

Shields, Rob (2012), ‘Cultural Topology: The Seven Bridges of Königsburg, 1736’,Theory, Culture & Society 29(4-5), 43–57.URL: https://doi.org/10.1177/0263276412451161 (Acessado em01-10-2021)

Shlens, Jonathon (2014), ‘A tutorial on principal component analysis’, CoRRabs/1404.1100.URL: http://arxiv.org/abs/1404.1100 (Acessado em 01-10-2021)

Shmueli, Galit (2010), ‘To Explain or to Predict?’, Statistical Science 25(3), 289–310.

Shneiderman, B. (1996), The eyes have it: a task by data type taxonomy for informa-tion visualizations, em ‘Proceedings 1996 IEEE Symposium on Visual Languages’,pp. 336–343.

Slutsky, David (2014), ‘The Effective Use of Graphs’, Journal of Wrist Surgery03(02), 067–068.URL: http://www.thieme-connect.de/DOI/DOI?10.1055/s-0034-1375704 (Acessado em 01-10-2021)

Page 139: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 123

Sologub, G. (2011), On Measuring of Similarity between Tree Nodes, em ‘V RussianSummer School in Information Retrieval (RuSSIR’2011)’, St. Petersburg UniversityPress, St. Petersburg, pp. 63–71.URL: http://hdl.handle.net/10995/3713 (Acessado em 01-10-2021)

Stauffer, Todd (2019), When is an alarm not an alarm?, Relatório técnico, Exida AlarmManagement Services.URL: https://www.exida.com/Blog/when-is-an-alarm-not-an-alarm (Acessado em 01-10-2021)

Šulc, Zdenek & Hana Rezanková (2014), Evaluation of Recent Similarity Measures forCategorical Data, em ‘International Scientific Conference’, número December 2015,Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu.URL: http://www.dbc.wroc.pl/dlibra/docmetadata?id=25059&from=publication (Acessado em 01-10-2021)

Šulc, Zdenek & Hana Rezanková (2019), ‘Comparison of Similarity Measures for Cate-gorical Data in Hierarchical Clustering’, Journal of Classification 36(1), 58–72.URL: https://doi.org/10.1007/s00357-019-09317-5 (Acessadoem 01-10-2021)

Talukder, Byomkesh, Keith W. Hipel & Gary W. VanLoon (2017), ‘Developing compositeindicators for agricultural sustainability assessment: Effect of normalization andaggregation techniques’, Resources 6(4).

Tamassia, Roberto (2013), Handbook of Graph Drawing and Visualization, 1ª edição,Chapman & Hall/CRC.

Tan, Pang-Ning, Michael Steinbach & Vipin Kumar (2014), Introduction to Data Mining,2ndª edição, Pearson Education Limited, Harlow, UK.

Trenti, M. & P. Hut (2008), ‘N-body simulations (gravitational)’, Scholarpedia 3(5), 3930.revision #91544.URL: http://www.scholarpedia.org/w/index.php?title=N-body_simulations_(gravitational) (Acessado em 01-10-2021)

Trninic, Viktorija, Igor Jelaska & Janez Stalec (2013), ‘Appropriateness and limitationsof factor analysis methods utilized in psychology and kinesiology: Part II’, Fizickakultura 67(1), 1–17.URL: http://scindeks.ceon.rs/Article.aspx?artid=0350-38281301001T (Acessado em 01-10-2021)

Tsolmon, Bayar & Kyung-Soon Lee (2014), ‘An event extraction model based on ti-meline and user analysis in Latent Dirichlet allocation’, Proceedings of the 37thinternational ACM SIGIR conference on Research & development in informationretrieval pp. 1187–1190.URL: https://dl.acm.org/doi/10.1145/2600428.2609541 (Aces-sado em 01-10-2021)

Page 140: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 124

Uschold, Michael (2015), ‘Ontology and database schema: What’s the difference?’,Applied Ontology 10(3-4), 243–258.URL: https://www.medra.org/servlet/aliasResolver?alias=iospress&doi=10.3233/AO-150158 (Acessado em 01-10-2021)

Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta & Harshit Surana (2020),Practical Natural Language Processing, 1stª edição, O’Reilly, Sebastopol, CA.

van Aardt, Deon (2015), ‘More data is only useful if it leads to more wisdom’,IT in Manufacturing .URL: https://www.instrumentation.co.za/8423a (Acessado em 01-10-2021)

Vasel, Jeffrey (2012), One plant, one system: Benefits of integrating process and powerautomation, em IEEE, ed., ‘2012 65th Annual Conference for Protective Relay En-gineers’, ABB, pp. 215–250.URL: http://ieeexplore.ieee.org/document/6201235/ (Acessadoem 01-10-2021)

Wang, Jia, Hongguang Li, Jinwen Huang & Chong Su (2015), ‘A data similarity basedanalysis to consequential alarms of industrial processes’, Journal of Loss Preventionin the Process Industries 35, 29–34.URL: http://dx.doi.org/10.1016/j.jlp.2015.03.005 (Acessadoem 01-10-2021)

Wang, Jiandong, Fan Yang, Tongwen Chen & Sirish L. Shah (2016), ‘An Overview ofIndustrial Alarm Systems: Main Causes for Alarm Overloading, Research Status,and Open Problems’, IEEE Transactions on Automation Science and Engineering13(2), 1045–1061.

Wang, Jiandong & Tongwen Chen (2014), ‘An online method to remove chattering andrepeating alarms based on alarm durations and intervals’, Computers & ChemicalEngineering 67, 43–52.URL: http://dx.doi.org/10.1016/j.compchemeng.2014.03.018(Acessado em 01-10-2021)

Watróbski, Jarosław (2020), ‘Ontology learning methods from text - an extensiveknowledge-based approach’, Procedia Computer Science 176, 3356–3368.URL: https://doi.org/10.1016/j.procs.2020.09.061 (Acessadoem 01-10-2021)

Weihs, C. (1993), ‘Multivariate exploratory data analysis and graphics: A tutorial’,Journal of Chemometrics 7(5), 305–340.

Weihua, Yang & Xu Dong (2021), Visual analysis of industrial knowledge graph rese-arch based on Citespace, em ‘2021 7th International Conference on Condition Mo-nitoring of Machinery in Non-Stationary Operations (CMMNO)’, Vol. 41, IEEE,

Page 141: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 125

pp. 297–300.URL: https://ieeexplore.ieee.org/document/9467534/ (Aces-sado em 01-10-2021)

Wekare, Simbarashe Pagious (2016), IT and OT Convergence : The case of implementingthe connected enterprise, Dissertation, University of Dublin.

Wong, Wilson, Wei Liu & Mohammed Bennamoun (2012), ‘Ontology learning fromtext’, ACM Computing Surveys 44(4), 1–36.URL: https://dl.acm.org/doi/10.1145/2333112.2333115 (Aces-sado em 01-10-2021)

Yahya, Muhammad, John G. Breslin & Muhammad Intizar Ali (2021), ‘Semantic Weband Knowledge Graphs for Industry 4.0’, Applied Sciences 11(11), 5110.URL: https://www.mdpi.com/2076-3417/11/11/5110 (Acessado em01-10-2021)

Yan, Hehua, Jun Yang & Jiafu Wan (2020), ‘KnowIME: A System to Construct a Kno-wledge Graph for Intelligent Manufacturing Equipment’, IEEE Access 8, 41805–41813.URL: https://ieeexplore.ieee.org/document/9018023/ (Aces-sado em 01-10-2021)

Yan, Xiaohui, Jiafeng Guo, Yanyan Lan & Xueqi Cheng (2013), A biterm topic model forshort texts, em ‘Proceedings of the 22nd international conference on World WideWeb - WWW ’13’, ACM Press, New York, New York, USA, pp. 1445–1456.URL: http://dl.acm.org/citation.cfm?doid=2488388.2488514(Acessado em 01-10-2021)

Yang, Zijiang, Jiandong Wang & Tongwen Chen (2013), ‘Detection of correlated alarmsbased on similarity coefficients of binary data’, IEEE Transactions on AutomationScience and Engineering 10(4), 1014–1025.

Yu, Chong Ho (1994), Abduction ? Deduction ? Induction ? Is there a Logic ofExploratory Data Analysis ?, em ‘Annual Meeting of American EducationalResearch Association’, American Educational Research Association, New Orleans,Louisiana.URL: www.creative-wisdom.com/pub/Peirce/Logic_of_EDA.html (Acessado em 01-10-2021)

Yuan, Tao & S. Joe Qin (2014), ‘Root cause diagnosis of plant-wide oscillations usingGranger causality’, Journal of Process Control 24(2), 450–459.URL: http://dx.doi.org/10.1016/j.jprocont.2013.11.009(Acessado em 01-10-2021)

Zhang, Daokun, Jie Yin, Xingquan Zhu & Chengqi Zhang (2020), ‘Network Representa-tion Learning: A Survey’, IEEE Transactions on Big Data 6(1), 3–28.

Page 142: Uma Metodologia Baseada em Grafo de Conhecimento para ...

REFERÊNCIAS BIBLIOGRÁFICAS 126

URL: https://ieeexplore.ieee.org/document/8395024/ (Aces-sado em 01-10-2021)

Zhao, Mingxiong, Han Wang, Jin Guo, Di Liu, Cheng Xie, Qing Liu & Zhibo Cheng(2019), ‘Construction of an Industrial Knowledge Graph for Unstructured ChineseText Learning’, Applied Sciences 9(13), 2720.URL: https://www.mdpi.com/2076-3417/9/13/2720 (Acessado em01-10-2021)

Zhong, Ray Y., Xun Xu, Eberhard Klotz & Stephen T. Newman (2017), ‘Intelligent Ma-nufacturing in the Context of Industry 4.0: A Review’, Engineering 3(5), 616–630.

Zhou, Bin, Jinsong Bao, Yahui Liu & Dengqiang Song (2020), BA-IKG: BiLSTM Em-bedded ALBERT for Industrial Knowledge Graph Generation and Reuse, em ‘2020IEEE 18th International Conference on Industrial Informatics (INDIN)’, IEEE,pp. 63–69.URL: https://ieeexplore.ieee.org/document/9442198/ (Aces-sado em 01-10-2021)

Zong, Chengqing, Rui Xia & Jiajun Zhang (2021), Text Data Mining, 1stª edição, Sprin-ger Singapore, Singapore.

Zou, Xiaohan (2020), ‘A Survey on Application of Knowledge Graph’, Journal ofPhysics: Conference Series 1487(1), 012016.URL: https://iopscience.iop.org/article/10.1088/1742-6596/1487/1/012016 (Acessado em 01-10-2021)

Page 143: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Apêndice A

Medidas de Similaridade entre Nós doKGAE

As medidas propostas de similaridade entre nós do KGAE, listados e sumarizados naTabela 5.5, são pormenorizadas neste Apêndice. Todas as medidas de similaridade estãoinerentemente ou imperiosamente no intervalo unitário ([0,1]).

A.1 Similaridade Ancestral

A acentralidade é um aspecto de crucial em árvores utilizadas para a representação deuma estrutura hierárquica. Esse critério pode ser utilizado na comparação de nós perten-centes a estrutura, já que o papel de um nó em um contexto hierárquico está intimamenteligado à sua profundidade na árvore. Quanto mais semelhanças ancestrais compartilham,mais proximamente os nós estão dispostos na árvore, e, por consequência, mais relacio-nados ou semelhantes podem ser considerados. A profundidade em árvores hierárquicastambém corresponde ao grau de especialização dos nós, logo, nós mais especializadostendem a ser mais semelhantes. A semelhança ancestral entre um par de nós pode sercalculada a partir da confrontação dos caminhos (conjunto de nós e arestas) entre cadaum dos nós comparados e a raiz da árvore.

A.1.1 DadosO conjunto de dados esperado para o cálculo da similaridade ancestral são as indica-

ções, para cada nó, dos caminhos até a raiz da árvore. A Tabela A.1 ilustra o formatoadmitido.

A.1.2 CálculoPara o cálculo da similaridade ancestral, é preciso primordialmente encontrar, entre

cada par de nós em comparação (vi,v j), o Menor Ancestral Comum (MAC), ou seja, o nómais profundo (mais baixo ou mais longe do nó raiz) que tem como descendentes ambosos nós vi e v j. Na Figura A.1, o MAC entre os nós B1 e B2 é o nó A1, enquanto que paraos nós C3 e C4, o MAC é o nó B3. O MAC está, portanto, no caminho mais curto entre vi

Page 144: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 128

Nós Caminhos do nó à raiz

v1 v1→ . . . → v0v2 v2→ . . . → v0v3 v3→ v1→ . . . → v0...

... . . . ...vm vm→ . . .→ vl → . . . → v0

Tabela A.1: Formato de dados admissível no cálculo da similaridade ancestral.

e v j, e no caso de existir uma ligação entre o MAC e os nós vi e v j, diz-se que esses nóssão irmãos.

Figura A.1: Árvore genérica.

Uma medida de distância entre nós que considera a ancestralidade é dada pelo tama-nho (l) do caminho mais curto entre estes (Deza & Deza 2009), contabilizado a partir dacontagem das arestas e utilizando o MCA como referência:

Da(vi,v j) = l(vi,MCA(vi,v j))+ l(v j,MCA(vi,v j)) (A.1)

Uma medida de similaridade ancestral (S ) baseada na distância calculada na Equa-ção A.1 pode, então, ser expressa como:

Sa(vi,v j) =1

1+D(vi,v j)=

11+ l(vi,MCA(vi,v j))+ l(v j,MCA(vi,v j))

(A.2)

Entretanto, essa medida de similaridade não leva em consideração a granularidade dodomínio determinada pela profundidade da árvore (pares de nós mais profundos tendem

Page 145: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 129

a ser mais similares). Dessa forma, observando a Figura A.1 a similaridade entre os nósB1 e B2 tem o mesmo valor da similaridade entre os nós C3 e C4, quando, idealmente,os nós C3 e C4, por estarem em um nível hierárquico mais especializado, deveriam sermais similares quando considerados apenas o aspecto de ancestralidade. Para contornaressa dissonância, em (Sologub 2011) é proposto o ajuste do cálculo da distância ancestral(Equação A.1) pode ser ajustado para (Sologub 2011):

Da∗(vi,v j) =l(vi,MCA(vi,v j))+ l(v j,MCA(vi,v j))

1+ l(MCA(vi,v j),r)(A.3)

onde r é o nó raiz da árvore.A partir da Equação A.3 é possível derivar a o cálculo final da similaridade ancestral

(Sa) entre um par de nós:

Sa∗(vi,v j) =1

1+Da∗(vi,v j)

=1+ l(MCA(vi,v j),r)

1+ l(MCA(vi,v j),r)+ l(vi,MCA(vi,v j))+ l(v j,MCA(vi,v j))

(A.4)

Desse modo, ainda com base na Figura A.1, Sa(C3,C4) > Sa(B1,B2), confirmandoque a profundidade dos nós passa a ser considerada no cálculo da similaridade ancestral.

A.2 Similaridade baseada na correlação cruzada

A medida de similaridade a seguir detalhada tem como objetivo quantificar inter-relacionamentos temporais e sequenciais entre nós que possuem sequências binárias comoatributo, utilizando uma abordagem baseada na análise de correlação de eventos, introdu-zida em (Nishiguchi & Takai 2010). Na análise de correlação de eventos, pares de eventosseparados por intervalos de tempo consistentes são considerados relacionados. O padrãode defasagem pode ser determinado por fatores como a dinâmica do processo monitorado,a calibração dos alarmes, intermitências sistêmicas, tempo de resposta do operadores, en-tre outros. Essa medida de similaridade toma por base a distribuição de probabilidade dacorrelação cruzada entre sequências binárias.

A.2.1 DadosAlguns nós do KGAE (Ativos e Episódios) agregam as informações tempo na forma

de sequências binárias que relacionam janelas de tempo com as suas múltiplas ocorrên-cias, em procedimento detalhado no Capítulo 5. No cálculo, os nós são referenciadospelas suas respectivas sequências binárias. A Tabela A.2 mostra o formato de dados ad-mitido para o cálculo da similaridade em tela.

Page 146: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 130

SequênciasBinárias

Janelas de Tempo

j1 j2 j3 . . . jn

sv1 1 0 1 . . . 0sv2 0 1 0 . . . 1sv3 0 1 1 . . . 0...

......

... . . . ...svm 0 0 0 . . . 1

Tabela A.2: Formato de dados admitido no cálculo da similaridade baseada correlaçãocruzada.

A.2.2 Cálculo1) Cálculo da correlação cruzada:

A correlação cruzada entre as sequências binárias svi e sv j para uma determinada de-fasagem l (em janelas de tempo) é calculada por:

ci j(l) =

T∆t−l

∑n=1

svi(n)sv j(n+ l), l ≥ 0, −K ≤ l ≤ K;

c ji(−l), l < 0,(A.5)

onde T é o período de observação, ∆t é o tamanho da janela, K é a defasagem máxima.A função de correlação cruzada para sequências binárias é equivalente à contagem de uns(janelas ativadas) em ambas as sequências quando estas estão deslocadas no eixo temporalpela defasagem l.

O valor máximo da correlação cruzada c∗i j e sua respectiva defasagem m∗i j são dadospor:

c∗i j = maxci j(l) ∴ l∗i j = argmaxci j(l) (A.6)

2) Cálculo da similaridade:Embora a correlação cruzada máxima já aponte indício do grau de relacionamento en-

tre os pares de sequências binárias, a medida não é considerada apropriada para compararpares de sequências com padrões de ocorrência muito destoantes (Ding & Tang 2010,Wang et al. 2015). Para contornar isto e produzir resultados mais robustos, o valor má-ximo da correlação cruzada c∗i j é avaliado em termos da distribuição de probabilidade dascorrelações cruzadas calculadas para um par de sequências binárias. Como resultado, asimilaridade entre duas sequências binárias (logo, entre seus respectivos Episódios) é defi-nida pela probabilidade (P) de que a correlação cruzada entre as duas sequências bináriastomadas seja menor do que a correlação cruzada máxima c∗i j:

Page 147: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 131

Scc(v1,v2) = Scc(svi,sv j) = P(ci j(l)< c∗i j | −K ≤ l ≤ K)∼=

( c∗i j−a

∑a=0

λle−λ

a!

)2K+1

(A.7)

onde λ é o valor esperado da distribuição de Poisson para a ocorrência de eventos inde-pendentes. O valor de λ é aproximado pelo número médio de co-ocorrências entre o parde eventos independentes em análise:

λ =T∆t

pi p j ∼=∆tT

T/∆t

∑n=0

svi(n)T/∆t

∑n=0

sv j(n) (A.8)

Em outros termos, é realizado um teste estatístico da hipótese de que as sequênciasbinárias i e j são geradas independentemente. A correlação máxima c∗i j é comparada coma distribuição da correlação cruzada entre as sequências independentes em análise. A si-milaridade Si j é então calculada subtraindo-se a taxa de rejeição da hipótese (distância)de um. Por este método, mesmo que os valores de correlação máxima c∗i j calculados se-jam os mesmos para dois pares de sequências binárias, um par de eventos com ocorrênciafrequente tem alta probabilidade de co-ocorrência, resultando em uma pequena seme-lhança. Por outro lado, um par de eventos com ocorrência rara tem baixa probabilidadede co-ocorrência, resultando em uma alta similaridade (Nishiguchi & Takai 2010). AFigura A.2 ilustra os dois procedimentos para um par de sequências binárias.

Figura A.2: Correlação cruzada entre sequências binárias (original de (Nishiguchi &Takai 2010)).

Page 148: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 132

A.3 Similaridade Categórica

O aspecto considerado para o cálculo desta medida de similaridade é a semelhançaentre nós em termos apenas de seus atributos categóricos. Diferentemente dos atributosnuméricos, os atributos categóricos podem assumir um conjunto fixo de valores (catego-rias) que refletem propriedades qualitativas de natureza ordinal, dicotômica ou politômica(nominal) (Heckert et al. 2013). Como varáveis de natureza ordinal ou dicotômica sãotrivialmente mapeáveis no espectro numérico (0 ou 1, no caso das dicotômicas e níveisnuméricos, no caso das ordinais), frequentemente referências a variáveis categóricas cor-respondem a varáveis de natureza nominal (Rudas 2018). É este o caso assumido para amedida de similaridade em tela.

A noção de similaridade (ou distância) envolvendo indivíduos com atributos categó-ricos não é, portanto, tão intuitiva, já que a comparação entre categorias distintas nãoé tão trivial quanto a comparação numérica. Uma abordagem comum em relação à si-milaridade de indivíduos em termos de seus atributos categóricos consiste simplesmentena contagem do número de categorias idênticas entre os indivíduos comparados. Ouseja, atribui-se o valor máximo de similaridade (1) no caso das categorias dos atributoscomparados serem idênticas (correspondência) e o valor mínimo (0) no caso contrário(incompatibilidade). Esta medida de similaridade, conhecida como Overlap, é bastantepopular dada sua objetividade e simplicidade, sendo considerada uma medida basilar namaioria dos estudos (Boriah et al. 2008, Šulc & Rezanková 2014). Contudo, esta me-dida é claramente ingênua, já que apenas atesta correspondências e incompatibilidades,sem considerar as diferentes categorias possíveis, o total e a frequência dessas categorias,entre outros aspectos intrínsecos aos atributos categóricos.

Uma série de medidas de similaridade envolvendo atributos categóricos vem sendo in-troduzidas, especialmente nas últimas duas décadas, em diversas áreas no intuito de sanaras lacunas de abordagens simplistas como a Overlap. A maioria delas procura considerarno cálculo, além de correspondências e incompatibilidades, aspectos como a distribuiçãode frequência e variabilidade das categorias (Boriah et al. 2008, Šulc & Rezanková 2014).Diferem fundamentalmente na forma como interpretam, manipulam e ponderam esses as-pectos para produzir uma valor numérico que expresse mais eficazmente a similaridadeentre pares de indivíduos em termos de seus atributos categóricos. Mais recentemente, umextensivo estudo comparou e avaliou 13 medidas de similaridade categórica e destacou osuperior desempenho das já consolidadas medidas IOF, LIN, Goodall(1,3), bem como dasmedidas VE e VM, introduzidas no próprio estudo (Šulc & Rezanková 2019). Entretanto,há consenso de que não existindo “bala de prata” que desempenhe bem para o caso ge-ral, a medida ideal de similaridade categórica será determinada caso-a-caso, de acordocom a natureza dos dados, do fenômeno analisado e após testagem empírica (Boriahet al. 2008, Šulc & Rezanková 2014, Šulc & Rezanková 2019).

As principais medidas de desempenho analisadas em (Šulc & Rezanková 2019) foramtambém comparadas em testes empíricos considerando os dados de teste utilizados nodesenvolvimento deste estudo. Obtiveram resultados satisfatórios, embora semelhantes.Dentre estes, o método escolhido foi o da Variable Entropy (VE), por esta ter se mostradocomputacionalmente viável e robusto à categorias ausentes, além de considerar o critério

Page 149: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 133

de variabilidade para ponderar as correspondências entre as categorias.

A.4 Dados

Os dados utilizados no cálculo desta similaridade são os atributos de natureza categó-rica incorporados da base original como atributos dos nós, de acordo com mapeamentoontológico. Na Tabela A.3 é mostrado o formato dos dados admissível no cálculo. Cadaatributo categórico a1...n presume um conjunto de categorias específico e de tamanho fixo.

Nós Atributos Categóricos

c1 c2 c3 . . . cn

v1 B β C . . . Π

v2 A α G . . . Θ

v3 F φ D . . . ∆

......

...... . . . ...

vm Z ω E . . . Γ

Tabela A.3: Exemplo de formato de dados admissível no cálculo da similaridade de atri-butos categóricos.

A.5 Cálculo

Para o cálculo da similaridade categórica, realiza-se inicialmente a computação dassimilaridades por atributo do par de nós comparado, segundo a Equação da medida desimilaridade VE:

Sc(vic,v jc) =

− 1lnKc

Kc∑

u=1pu ln pu, vic = v jc

0, caso contrário(A.9)

onde pu denota a frequência relativa da u-ésima categoria em relação ao total de cate-gorias Kc, fazendo pu ln(pu) = 0 se pu = 0, para evitar indeterminação. A similaridadeentre o par de nós é, finalmente, calculada agregando-se as similaridades computadas paracada par de atributos categóricos. A agregação é realizada tomando-se a média ariméticaconsiderando as similaridades e o total de atributos categóricos:

Scat(vi,v j) =n

∑c=1

Scc

n(A.10)

Posto de outra forma, suponha-se que dois atributos diferentes, um com alta vari-abilidade (categorias distribuídas aproximadamente uniformemente) e outra com baixavariabilidade (há dominância de um pequeno grupo de categorias e as outras categorias

Page 150: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 134

estão esparsamente representadas). A VE atribui mais peso a uma correspondência deduas categorias no atributo com grande variabilidade porque esta será mais rara em rela-ção a uma correspondência no atributo de baixa variabilidade. Na VE, a variabilidade écalculada com base na entropia dos atributos.

A.6 Similaridade Textual

A semelhança textual é um aspecto de fundamental importância, já que os Episódiosdo KGAE incorporam como atributos as descrições dos registros de alarmes e eventos dabase original. Esses elementos textuais tem central importância por constituírem frequen-temente os elementos mais ricos em informação entre os constituintes da base. A medidade similaridade a seguir detalhada mira nesses atributos como base de comparação entrenós, no caso, referentes aos episódios.

A similaridade entre sentenças textuais é um conceito bastante familiar a uma série detarefas em Processamento de Linguagem Natural (PLN), tais como o reconhecimento, aclassificação, a sumarização, a tradução de textos, entre outras. As descrições dos regis-tros de alarmes e eventos são essencialmente sentenças curtas e demandam uma aborda-gem robusta à corpus textuais de pequeno tamanho. A abordagem mais comum consistena transmutação dessas sentenças para um espaço de representação vetorial (embedding),a partir do qual a distância entre um par de vetores relativos às sentenças pode ser nume-ricamente calculado. A representação vetorial de uma sentença é normalmente obtida apartir da agregação da representação vetorial das palavras que a formam.

O método Fasttext foi utilizado na obtenção da representação vetorial para das sen-tenças. O Fasttext estende o consagrado modelo skip-gram, fazendo com que o foco domodelo para a geração dos embeddings seja a estrutura interna das palavras (morfologia)e não apenas o contexto (palavras no entorno da palavra-alvo) (Bojanowski et al. 2017).Dessa forma, é possível calcular os embeddings também para palavras não pertencentesao conjunto utilizado no treinamento do modelo. Essas características do Fasttext de-monstraram ser importantes para o caso das descrições dos registros, já que constam desentenças curtas, atômicas (não fazem parte de um contexto textual), de vocabulário res-trito e de contexto semântico (fraseologia técnica) destoante dos previstos pelos modelospré-treinados de PLN mais amplamente utilizados.

A.7 Dados

Os dados admitidos no cálculo são os atributos textuais correspondentes às descriçõesdos registros de alarmes e eventos. A Tabela A.4 exibe uma amostra do formato de dadosesperado, que consiste dos atributos textuais (descrições) com indicação do respectivo nóde ocorrência.

Page 151: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 135

Atributos Sentenças textuais

dv1 PLC Module Error 21dv2 I/O Inputs Failuredv3 Reset after Surge Event... ...

dvm High Alarm Value 71.0 Limit 60.0

Tabela A.4: Formato dos atributos admissíveis no cálculo da similaridade textual.

A.8 Cálculo

O cálculo da similaridade textual é precedido de um breve treinamento do modeloFasttext, considerando como dados de treinamento apenas uma porção de templates ex-traídos das descrições dos registros na fase de pré-processamento. O modelo resultantefoi testado tanto para as descrições presentes na porção de dados sujeitada à extração detemplates quanto para descrições extraídas de outras porções de dados da mesma basede registros. A estratégia demonstrou ser, de modo geral, suficiente para a obtenção deembeddings satisfatórios (representativos), inclusive para sentenças não visitadas no trei-namento.

A determinação da semelhança entre um par de nós, considerando seus respectivosatributos textuais, é dada pelo cálculo da similaridade angular por cosseno (NIST 2018):

St(v1,v2) = St(dvi,dv j) = carccosCs(A,B)

π(A.11)

onde

c =

1, se há valores negativos2, caso contrário

(A.12)

e Cs é a similaridade por cosseno calculada entre o par de embeddings A e B, relativos aosatributos textuais dvi e dv j , respectivamente. A similaridade por cosseno é dada por:

Cs(A,B) = cos(θ) =A ·B‖A‖‖B‖

=

n∑

i=1AiBi√

n∑

i=1A2

i

√n∑

i=1B2

i

(A.13)

onde θ é o ângulo entre os embeddings e n é a dimensão dos embeddings.

Page 152: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 136

A.9 Similaridade Estrutural

Uma abordagem frequente para a mensuração de similaridade entre objetos consideraa transposição destes para formas de representação matematicamente e computacional-mente convenientes. Normalmente, essa transposição se dá para um espaço vetorial devalores reais, codificando as características definidoras desses objetos, de modo que ob-jetos similares tenham representações próximas neste espaço. Essa estratégia vem sendoreiteradamente empregada em diversas tarefas de aprendizagem de máquina envolvendografos. Modelos são treinados para gerar representações vetoriais (normalmente de baixadimensionalidade) de nós, arestas ou de ambos (do grafo propriamente dito), que tentamcapturar aspectos afetos à estrutura do grafo. Essas representações, chamadas de embed-dings, são então utilizadas como vetores de características em tarefas subsequentes deagrupamento, classificação e predição sobre o grafo.

Desse modo, tomando por base embeddings calculados para cada nó, com o fito decodificar algumas das características estruturais do KGAE, a quantificação da similitudeentre esses embeddings (vetores) determina a similaridade estrutural entre nós. Os méto-dos utilizados para o cálculo dos embeddings e da similaridade entre esses embeddingssão, respectivamente, o GraphSAGE e a similaridade angular por cosseno.

A.9.1 GraphSAGEGraphSAGE é um modelo de aprendizagem de máquina não-supervisionado para ge-

ração de embedddings representativos dos nós de um grafo, capaz de considerar no cálculotanto a estrutura (topologia) do grafo quanto os atributos de nós e arestas no processo. Ométodo apoia-se na resolução de um problema de classificação: dado um grande conjuntode pares de nós “positivos” (pares de nós que co-ocorrem dentro de uma janela contextualdeterminada por caminhamentos aleatórios realizados no grafo), e um conjunto igual-mente grande de pares de nós “negativos” (selecionados aleatoriamente do grafo segundouma determinada distribuição), o modelo implementa um classificador binário que prevêse pares de nós arbitrários são susceptíveis de co-ocorrer em um caminhamento aleatóriorealizado no grafo (Hamilton et al. 2017).

O processo do GraphSAGE é estruturado em duas etapas principais: (1) amostra-gem de vizinhança, onde em cada salto do caminhamento, apenas dois nós são amos-trados para assimilação da vizinhança local e dos atributos, e (2) aprendizado de funçãode agregação, onde é incorporado ao modelo uma função capaz de agregar informaçõessobre vizinhança local e atributos, mapeando-os indutivamente em embeddings. O Graph-SAGE é considerado uma versão indutiva e mais escalável das GCNs (Graph ConvolutionNetworks), implicando ser desnecessária a visitação de toda a estrutura do grafo durantea aprendizagem e na habilidade de generalizar bem para os nós não visitados no treina-mento (Sharma 2021).

A implementação do GraphSAGE embarcada na biblioteca GDS (vide Tabela C.1)para o banco de dados Neo4j, é utilizada com seus hiper-parâmetros padrões para o cál-culo dos embeddings dos nós. O KGAE inteiro é apresentado quando do treinamento doGraphSAGE e, por limitações da implementação, apenas atributos numéricos dos nós e

Page 153: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE A. MEDIDAS DE SIMILARIDADE ENTRE NÓS DO KGAE 137

arestas são utilizados. A Figura A.3 mostra um gráfico de dispersão dos embeddings de500 nós de Episódios, utilizando a técnica de redução de dimensionalidade UMAP.

10 5 0 5 10 15 20x1

20

10

0

10

20

x2

GraphSAGE Embeddings - UMAPType

ALARMEVENT

Figura A.3: Gráfico de dispersão de embeddings GraphSAGE com dimensão reduzidasutilizando UMAP.

A.9.2 DadosOs dados admitidos no cálculo são os os embeddings incorporados atributos dos nós

após a aplicação do GraphSAGE. A Tabela A.5 exibe uma amostra do formato de dadosesperado.

Nós Embeddings (dimensões)

d1 d2 . . . dn

v1 8.0906351933641e−34 4.7067319186515e−09 . . . 6.1491753645024e−08

v2 6.8038649239329e−17 5.987r590675622e−08 . . . 5.8767937582015e−03

v3 1.0687294672427e−14 2.8854875986573e−19 . . . 3.1412345642334e−07

......

... . . . ...vm 7.0784736264213e−12 2.1854875875735e−21 . . . 9.1456723671134e−05

Tabela A.5: Formato de dados admissível no cálculo da similaridade estrutural.

A.9.3 CálculoA similaridade estrutural entre um par de nós é determinada pelo cálculo da simi-

laridade angular por cosseno (Equação A.11) entre os vetores relativos aos embeddingsprevimente calculados para cada nó utilizando o método GraphSAGE.

Page 154: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Apêndice B

Similaridade Composta - Ponderação

A Similaridade Composta (SC) consiste de um indicador composto (índice) que con-sidera as medidas de similaridade, compreendidas como indicadores individuais dos múl-tiplos aspectos considerados, no cálculo de um índice unidimensional. Para a criação daSC seguiu-se um processo orientado pelas recomendações gerais do guia da OCDE paraa construção de indicadores compostos (Nardo et al. 2008) e baseado em metodologiaadaptada de (Alves 2020) para condução do procedimento.

O processo de cálculo da SC se dá em três etapas sequenciais: normalização, ponde-ração e agregação. Este apêndice refere-se apenas à etapa de ponderação.

B.1 Estratégia de Ponderação

A ponderação define o grau de contribuição de cada indicador individual de simila-ridade na construção da SC a partir do cálculo dos pesos a serem aplicados sobre estesindicadores na fase de agregação. A ponderação segue uma estratégia híbrida que priorizaa aplicação de um método objetivo, mas utiliza um método alternativo quando o métodoobjetivo não é adequado ou admissível para o conjunto de dados. O método alternativoatribui pesos equânimes aos indicadores de similaridade.

B.2 Dados

A etapa de ponderação admite como entrada uma estrutura de dados que associa ares-tas relacionais de similaridades e seus respectivos atributos de similaridade, conformeformato mostrado na Tabela B.1. As arestas representam os indivíduos e as similaridadessão os indicadores observados para a composição da SC. Os dados devem estar estandar-dizados.

B.3 Método objetivo

O método objetivo de ponderação utiliza a Análise de Fatores (AF) para a obtençãoautomática dos pesos dos indicadores, caso os dados sejam adequados à AF, em processo

Page 155: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE B. SIMILARIDADE COMPOSTA - PONDERAÇÃO 139

Arestas

SimilaridadesS1 S2 S3 . . . Sn

e1(v1,v2) s1,1 s1,2 s1,3 . . . s1,ne2(v1,v3) s2,1 s2,2 s2,3 . . . s2,ne3(v1,v4) s3,1 s3,2 s3,3 . . . s3,n

......

...... . . . ...

em(vi,v j) sm,1 sm,2 sm,3 . . . sm,n

Tabela B.1: Arestas de similaridade e seus atributos (similaridades individuais), onde m éo número total de arestas e n é o número total de similaridades.

a seguir pormenorizado.

B.3.1 Verificação de AdequabilidadeAntes de empreender a AF propriamente dita, é aconselhável verificar os requisitos de

adequabilidade dos dados à AF. Para tal, deve-se submeter os dados à uma compilação detestes quantitativos, qualitativos e estatísticos para atestar se a análise de fatores é eficazdada a natureza desses dados (Figueiredo Filho et al. 2015):

• Qualitativos e quantitativos:– Natureza das variáveis: as variáveis devem ser preferencialmente contínuas

e/ou discretas;– Tamanho da amostra: ao menos 50 observações são recomendadas para em-

preender a AF. A razão entre esse número de observações (m) e a quantidadede indicadores (n) deve ser de ao menos cinco (m/n > 5) (Trninic et al. 2013).

• Estatísticos:– Padrão de correlação: recomenda-se que a maior parte dos coeficientes

da matriz de correlações para os dados tenha valor absoluto superior a 0,3.Quanto maior o nível de correlação entre as variáveis observadas, maior seráa eficiência da AF.

– Adequação de amostragem: o critério estatístico de Kaiser-Meyer-Olkin(KMO) determina quão adequados são os dados à AF. Quanto mais próximoda unidade, mais adequados são os dados. O valor do teste KMO conside-rado minimamente aceitável para se proceder com a AF é de 0,5 (Hair Jr.et al. 2014);

– Esfericidade: o teste de esfericidade de Bartelett (do inglês, Bartelett’s Test ofSpherecity - BTS) testa a hipótese nula de que a matriz de correlação obtida apartir das variáveis em análise é uma matriz identidade, o que indicaria que asvariáveis não estão relacionadas e, portanto, inadequadas à AF (IBM 2021).O BTS deve ser sempre realizado em conjunto com o KMO e ter resultadoestatisticamente significante (p− valor < 0,05) (Hair Jr. et al. 2014).

Page 156: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE B. SIMILARIDADE COMPOSTA - PONDERAÇÃO 140

Ao submeter os dados aos testes de adequabilidade, se houver falha em qualquer dostestes, deve-se declinar da AF e recorrer à estratégia alternativa de ponderação.

B.3.2 Extração de FatoresA extração de fatores é realizada com o método de PCA. A PCA é uma técnica es-

tatística de análise multivariada que transforma ortogonalmente um conjunto de observa-ções de variáveis quantitativas e potencialmente inter-correlatas em um conjunto de igualou menor tamanho de fatores linearmente não correlacionados (independentes) (Abdi &Williams 2010). Na PCA, os fatores extraídos são normalmente chamados de componen-tes principais (ou simplesmente componentes), entretanto, continuarão sendo referidoscomo fatores. Uma formulação matemática concisa e abundantemente ilustrada da PCApode ser encontrada em (Gewers et al. 2021).

A PCA entrega como resultado um conjunto de fatores que capturam cumulativamentea variância (inércia) do conjunto de dados original, partindo do primeiro fator que devecapturar a maior variância possível. O fator seguinte é calculado sob a restrição de serortogonal ao anterior e ter a maior inércia possível, ato contínuo até o último fator sercalculado (Abdi & Williams 2010).

B.3.3 Seleção e análise dos fatoresA continuidade da AF se dá com um processo de seleção e análise sobre os fatores

extraídos como resultado da PCA, organizado sob os seguintes procedimentos:

1. Seleção dos fatores: os autovalores dos fatores a serem selecionados entre extraí-dos na PCA devem atender os seguintes requisitos (Nardo et al. 2008):

• Ser maiores do que a unidade (critério de Kaiser);• Contribuir individualmente com pelo menos 10% em relação à variância geral;• Ter, cumulativamente, uma contribuição superior a 60% da variância geral.

2. Comunalidades das variáveis: após a seleção dos fatores, a comunalidade, ouseja, quantidade total de variância que um indicador representado nos fatores se-lecionados compartilha com todos outros indicadores representados, deve atingirum valor mínimo de 0,5 (Hair Jr. et al. 2014). Os indicadores que não atingiremesse valor de comunalidade devem ser eliminados (um por vez) e a AF deve serreiniciada.

3. Rotação dos fatores: é uma etapa padrão em AF, que se refere à rotação dos eixosno espaço geométrico, para evidenciar o grau de carga dos indicadores nos fatorese tonar o resultado mais simples e interpretável, conservando as suas propriedadesestatísticas (Figueiredo Filho et al. 2015). A meta da rotação é revelar a estruturasimples dos indicadores representados, ou melhor, minimizar o número de indica-dores com altas cargas em mais de um fator (Dean 2009). O método selecionadoé o da rotação ortogonal varimax, por ser o mais amplamente utilizado (Nardoet al. 2008, Dean 2009)

Page 157: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE B. SIMILARIDADE COMPOSTA - PONDERAÇÃO 141

4. Detecção de estrutura complexa: após o procedimento de rotação, se ainda existirindicador cuja representação nos fatores selecionados tem estrutura complexa, ouseja, com cargas balanceadas nos fatores, o indicador deve ser eliminado (um porvez) e a AF reiniciada. Considera-se violação do pressuposto de estrutura simplesquando são detectadas cargas fatoriais consideradas altas (≥ 0,3) em dois ou maisfatores (Dean 2009).

Havendo a indicação da eliminação indicadores (medidas de similaridade) para a con-tinuidade da AF, deve-se avaliar o comprometimento dos aspectos que se deseja exacerbarou, ainda, se a quantidade restante de indicadores não está demasiadamente reduzida paraos propósitos fundamentais da análise. Neste caso, é adequado recorrer à estratégia alter-nativa de ponderação.

B.3.4 Cálculo dos PesosA fase final da etapa de ponderação corresponde ao cálculo dos pesos a partir dos fa-

tores selecionados e analisados na etapa anterior. Tomando-se a matriz de cargas fatoriais(indicadores representados × fatores selecionados) resultante da PCA por base, os pesospara os indicadores são alcançados após a seguinte sequência de procedimentos:

1. Matriz quadrática de cargas fatoriais: é obtida elevando-se ao quadrado cadacoluna da matriz de cargas fatoriais (fatores), em seguida redimensionando cadacoluna resultante de forma que seus elementos somem uma unidade. O quadradodas cargas fatoriais representa a proporção da variância unitária total da variávelexplicada pelo fator (Nardo et al. 2008).

2. Fatores intermediários: os fatores intermediários são obtidos a partir do agrupa-mento dos indicadores individuais com as maiores cargas fatoriais na matriz qua-drática de cargas fatoriais (Nardo et al. 2008). Ou melhor, na matriz quadrática decargas fatoriais, seleciona-se as maiores cargas por indicador entre todos os fatores(colunas), zerando-se as cargas do indicador nos demais fatores.

3. Ponderação dos fatores intermediários: os pesos da SC são obtidos pela agrega-ção dos fatores intermediários em um único vetor de pesos (preferivelmente preser-vando a indicação posicional definida pelos indicadores), ponderados pela fração devariância que os fatores explicam em relação à soma total das variâncias. O vetor depesos conseguinte deve ainda ser redimensionado para que os pesos somem a uni-dade. O vetor resultante é constituído dos pesos a serem aplicados à cada indicadorno subsequente processo de agregação para a determinação da SC.

O fluxograma da Figura B.1 esquematiza o processo de ponderação.

Page 158: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊNDICE B. SIMILARIDADE COMPOSTA - PONDERAÇÃO 142

Figura B.1: Fluxograma do processo de ponderação.

Page 159: Uma Metodologia Baseada em Grafo de Conhecimento para ...

Apêndice C

Infraestrutura de SuporteComputacional

Este apêndice apresenta um sumário das ferramentas e bibliotecas computacionaisempregadas na implementação da abordagem proposta nesta tese, bem como de seus con-textos de utilização.

C.1 Soluções, Tecnologias e Bibliotecas

A Tabela C.1 descreve as principais tecnologias utilizadas segundo as camadas arqui-teturais da infraestrutura computacional desenvolvida, detalhando o papel de cada umadelas no contexto da abordagem. O hardware principal utilizado no desenvolvimentodesta tese é um computador do tipo PC, dotado de processador AMD Ryzen 5 (6 nú-cleos, 12 threads) 3.6 GHz, 32 GB de memória RAM e sistema operacional GNU/Linux(distribuição Manjaro Linux).

Page 160: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊ

ND

ICE

C.

INFR

AE

STR

UT

UR

AD

ESU

POR

TE

CO

MPU

TAC

ION

AL

144Camada Tecnologia Descrição

Contêineres

Kubernetes Sistema para implantação, dimensionamento e gerenciamento automatizado de contêineres. É utilizado para exe-cutar todos os contêineres utilizados na abordagem, segregando-os em namespaces.

Debian Linux Versão reduzida da distribuição do sistema operacional GNU/Linux executada em todos os contêineres utilizados.

pykube-ng Cliente do Kubernetes para a linguagem Python. É utilizado para permitir a interação com o Kubernetes de formaprogramática a partir da linguagem Python.

IngestãoPostgreSQL

Sistema de Gerenciamento de Banco de Dados (SGBD) a partir do qual os dados de origem são acessados, simu-lando uma base de registros real.

psycopg Adaptador do PostgreSQL para a linguagem Python. É utilizado para efetuar a leitura de dados e metadados dabase de origem dos dados.

Proc

essa

men

toe

Aná

lise

PythonPrincipal linguagem de programação empregada na abordagem, primariamente ou subsidiariamente em todas ascamadas. De modo geral, todo processamento dos dados é feito com ou a partir dessa linguagem de programação.

RLinguagem de programação utilizada em algumas tarefas de análise visual sobre obtidos da Ingestão, especialmenteno processo de AED.

pandasBiblioteca para manipulação e análise de dados, que utiliza dataframes como estrutura de dados primária. Opandas é a principal ferramenta utilizada tarefas de manipulação, análise, transformação e enriquecimento sobreos dados obtidos da Ingestão.

matplotlibBiblioteca gráfica utilizada em conjunto com o pandas em tarefas de análise visual sobre os dados ingeridos,especialmente no processo de AED.

ggalluvialBiblioteca visual da linguagem R para geração de diagramas aluviais. Utilizada nos processos de AED e dederivação ontológica.

FactomineRe factoextra

Bibliotecas da linguagem R que reúnem métodos de AED para resumir, visualizar e descrever conjuntos de dados.São utilizadas, respectivamente, no cálculo e na visualização dos resultados das análises PCA e MCA.

d3.js Biblioteca gráfica sobre a linguagem Javascript utilizada na implementação do diagrama sunburst.

nltk Biblioteca que reúne uma grande variedade de ferramentas de PLN. É empregada na montagem do pipeline depré-processamento de sentenças textuais, a ser utilizado em vários processos de PLN utilizados na abordagem.

Tabela C.1: Principais tecnologias, soluções e bibliotecas utilizadas no desenvolvimento do estudo.

Page 161: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊ

ND

ICE

C.

INFR

AE

STR

UT

UR

AD

ESU

POR

TE

CO

MPU

TAC

ION

AL

145Camada Tecnologia Descrição

Proc

essa

men

toe

Aná

lise

Drain3Biblioteca que implementa o método Drain3 (He et al. 2017) de mineração de templates a partir de um fluxode mensagens. É empregada para extrair os templates das descrições dos registros de alarmes e eventos.

bitermplus Implementa o método Biterm (Yan et al. 2013) de MTSC. É empregado na extração de tópicos das partesfixas dos templates.

VADERFerramenta de análise de sentimento baseada em regras léxico-semânticas, treinada com os sentimentosexpressos em redes sociais. É empregada na análise de sentimento sobre as descrições dos registros paraextrair o viés de criticidade da mensagem, se previamente não indicado.

multiprocessing Biblioteca nativa da linguagem Python para paralelismo em nível de processos do sistema operacional. Éutilizado na abordagem fundamentalmente no cálculo concorrente de similaridades entre nós.

bitarray Provê a representação, manipulação e cálculo eficiente, sobre vetores de booleanos (sequências binárias).

scipy e numpyEcossistema de bibliotecas para computação numérica e científica para a linguagem Python. Assim como opandas, são também extensivamente utilizadas em tarefas envolvendo cálculo numérico e algébrico.

gensimBiblioteca que reúne uma gama de métodos de PLN voltados à representação vetorial de textos, incluindoo Fasttext (Bojanowski et al. 2017), utilizado na para geração de embeddings para o cálculo da similaridadetextual entre nós do KGAE.

umap-learnImplementa o método UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction)de redução de dimensionalidade. Utilizada para gerar gráficos de dispersão bidimensionais a partir de variá-veis com multidimensionais.

Armazenamentoe Recuperação

py2neoCliente e kit de ferramentas de interfaceamento com o banco de dados Neo4j para aplicações em Python. Aferramenta é utilizada para estabelecer interações com o Neo4j e na criação de classes e indivíduos ontoló-gicos, com utilização de mapeamento grafo-objeto.

Neo4jBanco de dados orientado a grafos que implementa o modelo LPG e utiliza Cypher como linguagem deconsultas. Constitui a estrutura de gerenciamento e armazenamento sobre a qual o KGAE é consolidado.

Neo4j APOC Biblioteca acoplável ao Neo4j que estende o conjunto nativo de procedimentos do banco de dados. É utili-zado tanto na criação como em consultas ao KGAE.

Neo4j GDSBiblioteca acoplável ao Neo4j que reúne algoritmos de detecção de comunidades (Louvain), centralidade,predição de links e representação vetorial (GraphSAGE) para grafos estruturados no banco de dados.

Continuação da Tabela C.1.

Page 162: Uma Metodologia Baseada em Grafo de Conhecimento para ...

APÊ

ND

ICE

C.

INFR

AE

STR

UT

UR

AD

ESU

POR

TE

CO

MPU

TAC

ION

AL

146Camada Tecnologia Descrição

Visualização

Javascript

Linguagem de programação que permite implementar funcionalidades complexas em páginas web, ampla-mente utilizada no desenvolvimento de aplicações e bibliotecas gráficas que executam a partir dos navega-dores (browsers). A aplicação de visualização do KGAE é totalmente escrita em HTML (Hyper-text MarkupLanguage) e Javascript.

flaskMicro-framework para o desenvolvimento de aplicações web a partir da linguagem Python. Sobre esteframework, a aplicação de visualização do KGAE, desenvolvida em HTML e Javascript, é disponibilizadapara utilização.

vis.jsBiblioteca de visualização dinâmica para aplicações web, que permite o desenho de diagramas com dadosdinâmicos, bem como a manipulação e interação com os dados. O canvas da aplicação de visualizaçãoutiliza o esta biblioteca para desenhar, de forma dinâmica, o grafo que representa pictoricamente o KGAE.

neovisEmpacota a biblioteca de visualização Vis.js e o adaptador em Javascript para o Neo4j em uma única bibli-oteca.

Continuação da Tabela C.1.