APLICAÇÃO DE TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL …
Transcript of APLICAÇÃO DE TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL …
MARCELO VERSIANI CARNEIRO
APLICAÇÃO DE TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL
PARA CARACTERIZAÇÃO DE TUBOS DE AÇO SEM COSTURA
Belo Horizonte
31 de julho de 2018
Universidade Federal de Minas Gerais
Escola de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
APLICAÇÃO DE TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL
PARA CARACTERIZAÇÃO DE TUBOS DE AÇO SEM COSTURA
Dissertação apresentada ao Programa dePós-Graduação em Engenharia Elétrica daUniversidade Federal de Minas Gerais comorequisito parcial para a obtenção do grau deMestre em Engenharia Elétrica.
MARCELO VERSIANI CARNEIRO
Orientador
ANTONIO PADUA BRAGA
Belo Horizonte
31 de julho de 2018
Resumo
A exploração de petróleo e gás, principalmente em águas profundas, exige propriedades
mecânicas e químicas restritas dos tubos de aço utilizados. Essas propriedades são
conferidas aos tubos por meio da adição de elementos de liga ao aço, do controle de sua
geometria e de tratamentos térmicos. Após essas etapas de fabricação, diversos testes
como tração, dureza e resistência à corrosão são exigidos pelas normas internacionais
do setor para certi�car que os tubos suportem as condições extremas a que serão
submetidos. O conhecimento dos resultados de tais testes de forma antecipada permite
a tomada de decisão otimizada gerando ganhos signi�cativos para as empresas. Esse é
o contexto desse trabalho que visa aplicar técnicas de inteligência computacional para
construir modelos baseados em dados reais de fabricação para a predição de algumas
propriedades mecânicas (limite de escoamento, resistência à tração, dureza e resistência
à corrosão) em duas plantas de tratamento térmico de tubos de aço sem costura da
Vallourec Soluções Tubulares do Brasil. Para essa �nalidade, uma metodologia que
inclui a coleta e processamento de dados, o desenvolvimento dos modelos e a medição de
desempenho foi estabelecida. Diversas técnicas para a seleção de variáveis, modelagem
e otimização foram implementadas em busca do melhor desempenho dos modelos. Além
disso, o trabalho também visa o desenvolvimento de aplicações industriais de forma a
possibilitar o uso dos modelos para a predição, simulação e escolha dos parâmetros
ótimos da linha de tratamento térmico resultando na melhor da produtividade e na
redução de custos de operacionais.
i
Abstract
The oil and gas industry, especially in deep water, requires restricted mechanical and
chemical properties of the steel pipes. Such properties can be achieved by means of
the addition of alloying elements to the steel, by the control of its geometry and by
thermal treatments. After these manufacturing stages, several tests, such as tensile
stress�strain, hardness and corrosion resistance, are required by international industry
standards to ensure that the pipes withstand the extreme conditions to which they will
be subjected. The forecast of the test's results allows the optimized operational deci-
sion making generating signi�cant gains for the steel companies. This is the context
of this work. The objective is to apply computational intelligence techniques to build
models based on real data from manufacturing stages to the prediction of some me-
chanical properties (yield strength, tensile strength, hardness and corrosion resistance)
of the seamless steel tubes from two plants of Vallourec Soluções Tubulares do Brasil.
In order to achieve that, a methodology that includes the data collection, data proces-
sing, the models development and performance measurement was established. Several
techniques for feature selection, modeling and optimization were applied in search for
the best performance. In addition, the work also aims at the development of industrial
systems in order to apply the models for the prediction, simulation and the choice of
optimum parameters of the thermal treatment line looking for better productivity and
the reduction of operational costs.
ii
Para Fernanda, João, Luís e Malu.
iii
�A inteligência é o que você usa
quando não sabe o que fazer.�
Jean Piaget
iv
Agradecimentos
Agradeço à Fernanda e nossos �lhos pela paciência e suporte. Peço desculpas por ter
abdicado de alguns momentos com vocês mas tenho certeza que todo esse sacrifício
será recompensado.
Agradeço aos meus pais e irmãos por sempre incentivar meu desenvolvimento.
Agradeço ao professor Braga pela orientação e grande parceria.
Agradeço aos colegas do LITC pela receptividade e ajuda.
Agradeço aos amigos da Vallourec pela mente aberta, pelas discussões �losó�cas, pela
ajuda e incentivo.
Agradeço à UFMG pelo constante acolhimento.
Agradeço à Vallourec pelo suporte �nanceiro e cessão dos dados utilizados nesse tra-
balho.
v
Sumário
1 Introdução 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Processo industrial em estudo 4
2.1 Plantas de tratamento térmico da Vallourec . . . . . . . . . . . . . . . 4
2.2 Limite de escoamento e resistência à tração . . . . . . . . . . . . . . . . 5
2.3 Dureza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Corrosão sob tensão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Metodologia 9
3.1 Visão geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Pré-processamento dos dados . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Exploração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 Seleção de características . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.6 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.6.1 Ajuste dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.7 Análise de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.7.1 Problemas de regressão . . . . . . . . . . . . . . . . . . . . . . . 14
3.7.2 Problemas de classi�cação . . . . . . . . . . . . . . . . . . . . . 15
3.7.3 Método de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.7.4 Apresentação dos resultados . . . . . . . . . . . . . . . . . . . . 16
3.8 Implantação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.8.1 Incertezas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.8.2 Simulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.8.3 Monitoramento online . . . . . . . . . . . . . . . . . . . . . . . 18
3.8.4 Otimização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Desenvolvimento dos modelos 20
vi
4.1 Dados coletados e pré-processamento . . . . . . . . . . . . . . . . . . . 21
4.2 Seleção de variáveis e modelos obtidos . . . . . . . . . . . . . . . . . . 25
4.2.1 Limite de escoamento . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2.2 Resistência à tração . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.3 Dureza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.4 Resistência à corrosão . . . . . . . . . . . . . . . . . . . . . . . 34
5 Aplicação dos modelos 37
5.1 Interface de simulação e funções de integração . . . . . . . . . . . . . . 37
5.2 Otimização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6 Conclusões e propostas de continuidade 44
A Resultados para a família 02 46
A.1 Limite de escoamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.2 Resistência à tração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
B Resultados para a família 03 51
B.1 Limite de escoamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
B.2 Resistência à tração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
B.3 Dureza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Referências Bibliográ�cas 58
vii
Lista de Figuras
2.1 Diagrama do processo de tratamento térmico estudado . . . . . . . . . . . 5
2.2 Representação do ensaio de tração . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Diagrama tensão-deformação típico . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Corpo de prova teste de corrosão sob tensão . . . . . . . . . . . . . . . . . 8
2.5 Câmara para o teste de corrosão sob tensão . . . . . . . . . . . . . . . . . 8
3.1 Diagrama da metodologia utilizada . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Exemplo de impacto da métrica de distância no erro de predição . . . . . . 18
4.1 Análise por componentes principais - tração e dureza . . . . . . . . . . . . 23
4.2 Variabilidade do laboratório . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 Evolução do RMSE para os métodos de seleção de variáveis - LE - família 01. 26
4.4 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
LE - família 01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Boxplot RMSE LE da família 01 . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Evolução do RMSE para os métodos de seleção de variáveis - RT - família 01. 29
4.8 Boxplot RMSE RT da família 01 . . . . . . . . . . . . . . . . . . . . . . . 30
4.7 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
RT - família 01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.9 Evolução do RMSE para os métodos de seleção de variáveis - dureza - família
01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.10 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
Dureza - família 01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.11 Boxplot RMSE DZ da família 01 . . . . . . . . . . . . . . . . . . . . . . . 34
4.12 Evolução do AUC para os métodos de seleção de variáveis - resistência à
corrosão - família 04. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.13 Boxplot AUC NACE da família 04 . . . . . . . . . . . . . . . . . . . . . . 36
4.14 Curva ROC classi�cador RF forward . . . . . . . . . . . . . . . . . . . . . 36
5.1 Tela do simulador desenvolvido . . . . . . . . . . . . . . . . . . . . . . . . 38
viii
5.2 Evolução da busca via algoritmos genéticos para o problema de otimização
simpli�cado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Tela do otimizador desenvolvido . . . . . . . . . . . . . . . . . . . . . . . . 43
A.1 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
limite de escoamento - família 02. . . . . . . . . . . . . . . . . . . . . . . . 47
A.2 Boxplot RMSE LE da família 02 . . . . . . . . . . . . . . . . . . . . . . . 48
A.3 Boxplot RMSE RT da família 02 . . . . . . . . . . . . . . . . . . . . . . . 49
A.4 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
resistência á tração - família 02. . . . . . . . . . . . . . . . . . . . . . . . . 50
B.1 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
limite de escoamento - família 03. . . . . . . . . . . . . . . . . . . . . . . . 52
B.2 Boxplot RMSE LE da família 03 . . . . . . . . . . . . . . . . . . . . . . . 53
B.3 Boxplot RMSE resistência à tração da família 03 . . . . . . . . . . . . . . 54
B.4 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
resistência à tração - família 03. . . . . . . . . . . . . . . . . . . . . . . . . 55
B.5 Boxplot RMSE dureza da família 03 . . . . . . . . . . . . . . . . . . . . . 56
B.6 Grá�cos de dispersão das estimativas dos modelos versus os valores reais -
Dureza - família 03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
ix
Lista de Tabelas
4.1 Dados coletados para cada amostra dos ensaios de tração e dureza . . . . . 21
4.2 Dados coletados para cada amostra do ensaio de corrosão . . . . . . . . . . 22
4.3 Número de amostras utilizadas para modelagem . . . . . . . . . . . . . . . 25
4.4 Métricas de desempenho obtidas para os modelos de predição do limite de
escoamento da Família 01 . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.5 Métricas de desempenho obtidas para os modelos de predição da resistência
à tração da Família 01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6 Métricas de desempenho obtidas para os modelos de predição da dureza da
Família 01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.7 Métricas de desempenho dos classi�cadores para a predição da resistência
à corrosão da Família 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1 Parâmetros utilizados pelo algoritmo genético implementado . . . . . . . . 41
A.1 Métricas de desempenho obtidas para os modelos de predição do limite de
escoamento da Família 02. . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.2 Métricas de desempenho obtidas para os modelos de predição da resistência
à tração da Família 02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
B.1 Métricas de desempenho obtidas para os modelos de predição do limite de
escoamento da Família 03. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
B.2 Métricas de desempenho obtidas para os modelos de predição da resistência
à tração da Família 03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
B.3 Métricas de desempenho obtidas para os modelos de predição da dureza da
Família 03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
x
Lista de Abreviaturas
MAE . . . . . . . . . . . . . . .Métrica de desempenho mean absolute error
RMSE . . . . . . . . . . . . . . .Métrica de desempenho root mean squared error
R2 . . . . . . . . . . . . . . .Métrica de desempenho coe�ciente de determinação
AUC . . . . . . . . . . . . . . .Métrica de desempenho area under the curve
Acc . . . . . . . . . . . . . . .Métrica de desempenho acurácia
GB . . . . . . . . . . . . . . .Método de modelagem multilayer perceptron
GB . . . . . . . . . . . . . . .Método de modelagem gradient boosting trees
RF . . . . . . . . . . . . . . .Método de modelagem random forest
NB . . . . . . . . . . . . . . .Classi�cador ingênuo de Bayes (Naive Bayes)
LM . . . . . . . . . . . . . . .Regressão linear múltipla
NACE-A. . . . . . . . . . . . . . .Ensaio de resistência à corrosão NACE TM0177 (2005) método A
LE . . . . . . . . . . . . . . .Limite de escoamento
RT . . . . . . . . . . . . . . .Resistência à tração
DZ . . . . . . . . . . . . . . .Dureza
1
Capítulo 1
Introdução
A exploração de petróleo e gás, principalmente em águas profundas, exige propriedades
mecânicas e químicas restritas dos tubos de aço utilizados. Essas propriedades são
conferidas aos tubos por meio da adição de elementos de liga ao aço, do controle de sua
geometria e de tratamentos térmicos. Após essas etapas de fabricação, diversos testes
como tração, dureza e resistência à corrosão são exigidos pelas normas internacionais
do setor para certi�car que os tubos suportem as condições extremas a que serão
submetidos. Entretanto, os resultados desses testes �cam disponíveis para a equipe
responsável pelo processo produtivo apenas alguns dias após a etapa de tratamento
térmico, causando atrasos na tomada de decisão durante a fabricação. Neste cenário,
antecipar os resultados desses testes, através de estimativas con�áveis calculadas por
modelos matemáticos, possibilita a redução de custos operacionais, a otimização do
projeto dos produtos e a redução de atrasos de entrega para os clientes �nais.
A modelagem matemática é a área do conhecimento que visa encontrar representa-
ções matemáticas de processos reais. Existem várias formas de se obter tais modelos e
estas podem ser agrupadas em 3 grandes conjuntos: modelos físicos, modelos baseados
em dados e modelos híbridos. Os modelos físicos, também conhecidos como modelos
caixa branca, baseiam-se nas relações matemáticas que governam os fenômenos físicos
envolvidos. Têm como vantagem a clareza das relações entrada e saída e a maior facili-
dade para aplicação do modelo em unidades semelhantes, bastando alguns ajustes nas
equações e constantes. Os modelos baseados em dados, ou modelos caixa preta, são
caracterizados pelo uso de dados do fenômeno em questão para o ajuste de uma estru-
tura matemática de�nida a priori. Tem como vantagem a não necessidade de conhecer
a fundo o processo a ser modelado, além da possibilidade de captar relações especí�cas
do processo em questão. Entretanto, perde-se na capacidade de utilizar o modelo para
interpretar o fenômeno, pois as relações de entrada e saída não são de fácil extração.
Os modelos híbridos são uma combinação dos dois anteriores, nesse caso, tanto dados
1
1. Introdução 2
da relação entrada e saída do sistema quanto algum outro tipo de informação são utili-
zados na modelagem (Aguirre, 2007). Portanto, a opção pelo uso de um ou outro tipo
de modelo depende de alguns fatores como a disponibilidade de dados, a viabilidade
do desenvolvimento das equações físicas, a necessidade de interpretação das relações
levantadas pelo modelo e da acurácia desejada.
Devido à complexidade e alta não linearidade na relação entre as variáveis envol-
vidas, o desenvolvimento de modelos matemáticos baseados em equações físicas para
descrever com precisão o sistema composição-processo-microestrutura-propriedades nos
aços é muito difícil (Pattanayak et al., 2015). Esse cenário aliado à disponibilidade de
dados e de computadores de alto desempenho é favorável ao desenvolvimento de mo-
delos baseados em dados. Nas últimas décadas, muitos estudos foram desenvolvidos
com o uso de dados para a predição dessas propriedades em produtos de aço em geral,
com destaque para o uso da técnica de regressão linear múltipla e das redes neurais
arti�ciais (Sampaio et al., 2015).
O aprendizado de máquina, algumas vezes chamado de aprendizado estatístico, con-
siste em um vasto conjunto de ferramentas e técnicas para a extração de conhecimento
a partir de bases de dados (James et al., 2013). Essas técnicas podem ser divididas em
dois grandes conjuntos: aprendizado supervisionado e não supervisionado. O apren-
dizado supervisionado refere-se à construção de modelos com o uso de amostras (ou
dados) da relação entrada e saída do fenômeno estudado. O aprendizado ocorre, es-
sencialmente, por meio de um processo iterativo para a redução do erro de predição
(diferença entre o valor estimado e o valor real). Esse tipo de problema é muito comum
na indústria e é o foco deste trabalho.
Modelos matemáticos que representem bem a realidade podem ser utilizados para
prever problemas, simular cenários e otimizar plantas industriais. A otimização, em
particular, representa outra importante fatia do universo da inteligência computacional
e pode ser de�nida como a busca das condições para a maximização ou minimização
de um determinado objetivo (Rao, 2009). Para o problema em questão, o desa�o é a
busca do menor custo e maior produtividade considerando os limites impostos pelas
propriedades mecânicas especi�cadas para os tubos.
O estudo de casos de sucesso relacionados à aplicação de técnicas de inteligência
computacional na indústria, disponíveis na literatura, possibilitou a elaboração de uma
metodologia composta por diversas fases e ferramentas para a análise de dados e mo-
delagem. Esta metodologia foi aplicada a dados reais de duas unidades de fabricação
de tubos de aço sem costura, ou seja, tubos de aço produzidos sem utilização de qual-
quer processo de união de chapas conformadas como a solda. Diversos modelos de
predição (regressão e classi�cação) foram desenvolvidos para o estudo dos resultados
de laboratório dos ensaios de tração, dureza e resistência à corrosão. Para a maioria
1. Introdução 3
das propriedades estudadas, os modelos atingiram o desempenho esperado e foram uti-
lizados para o desenvolvimento de ferramentas para a tomada de decisão integradas aos
sistemas industriais. Além disso, para o caso da predição dos resultados dos ensaios
de tração e dureza, um problema de otimização foi formalizado matematicamente e
uma aplicação piloto foi desenvolvida para a busca de soluções utilizando algoritmos
genéticos. Veri�cou-se por meio deste estudo de caso que a aplicação de técnicas de
aprendizado de máquina e otimização aliadas apresentam um grande potencial para a
indústria em geral em prol de maior e�ciência e produtividade.
1.1 Objetivos
Este trabalho tem como objetivo aplicar técnicas de aprendizado de máquina a dados
reais de fabricação coletados em duas plantas de tratamento térmico da Vallourec
Soluções Tubulares do Brasil para a elaboração de modelos de predição das seguintes
propriedades mecânicas de tubos de aço: limite de escoamento, resistência à tração,
dureza e resistência à corrosão. É uma continuação dos trabalhos de Sampaio et al.
(2015) e Corrêa (2014) visando ampliar as variáveis estudadas, o número de técnicas
de modelagem e seleção de características utilizadas.
Além da elaboração dos modelos, o trabalho visa o desenvolvimento de sistemas
industriais de forma a possibilitar a predição, simulação e escolha dos parâmetros
ótimos das linhas de tratamento térmico em questão.
1.2 Organização do Trabalho
Este trabalho está organizado da seguinte forma. No Capítulo 2, o processo industrial
e as variáveis a serem estimadas são apresentadas. No Capítulo 3, são apresentados
os métodos e técnicas empregados. No Capítulo 4, descreve-se os modelos obtidos
e o desempenho alcançado. Considerando que muitos modelos foram desenvolvidos,
apenas os resultados obtidos para a família de aços 01 foram incluídos nesse Capítulo,
os demais resultados são apresentados no Apêndices A e B. As aplicações desenvolvidas
para o uso dos modelos são apresentados no Capítulo 5. Finalmente, no Capítulo 6 o
trabalho é concluído e são apresentadas sugestões de continuidade.
Capítulo 2
Processo industrial em estudo
O processo de laminação frequentemente não fornece tubos de aço sem costura nas
condições desejadas para o uso. As tensões originadas nos processos de conformação
mecânica, usinagem e mesmo na fundição, afetam de forma negativa as proprieda-
des mecânicas dos materiais. O processo de tratamento térmico visa eliminar esses
inconvenientes. Consiste em aquecer o aço até uma determinada temperatura, perma-
necer nesta temperatura durante um período de tempo e depois resfriá-lo em um meio
adequado, com velocidade de resfriamento apropriada (Chiaverini, 1986).
Este capítulo tem como �nalidade descrever as plantas de tratamento térmico em
estudo e as propriedades dos aços a serem investigadas pelos modelos de predição
desenvolvidos.
2.1 Plantas de tratamento térmico da Vallourec
Este trabalho visa aplicar técnicas de inteligência computacional aos dados coletados
de duas plantas de tratamento térmico de tubos de aço sem costura da Vallourec
Soluções Tubulares em Minas Gerais. Essas unidades industriais contam com fornos
de austenitização, têmpera em tanque ou em anel, fornos de revenimento, inspeções
visuais e por ensaios não destrutivos e linha de serras conforme diagrama da �gura 2.1.
Os tubos iniciam o tratamento térmico nos fornos de austenitização onde são aque-
cidos a temperaturas acima da temperatura de recristalização. Nesta etapa, o tempo
que cada tubo �cou acima da temperatura desejada para o tratamento e a temperatura
dos tubos na saída do forno são as variáveis mais importantes. Logo em seguida os
tubos são resfriados rapidamente por meio de imersão em água no tanque de têmpera
ou pela passagem controlada pelos anéis de têmpera. Modi�cando-se a taxa de resfri-
amento, pode-se obter mudanças estruturais que promovem o aumento da ductilidade
ou elevação da dureza e resistência mecânica (Chiaverini, 1986). Neste sentido, o tan-
4
2. Processo industrial em estudo 5
que é dotado de mecanismos para a rotação do tubo e jatos de água internos e externos
enquanto os anéis possuem sistemas para o controle de vazão e pressão da água. Após
o resfriamento, os tubos passam por um novo ciclo de aquecimento no forno de reve-
nimento para atenuar ou eliminar as tensões internas, associados à excessiva dureza
e quase total ausência de ductilidade (Chiaverini, 1986). Novamente, o tempo que
cada tubo �cou acima da temperatura desejada para o tratamento e a temperatura
dos tubos na saída do forno são as variáveis de maior impacto. Ao �nal, após etapas
de resfriamento e inspeção (visual e via ensaios não destrutivos como o ultrassom),
algumas amostras são retiradas das pontas de tubos escolhidos aleatoriamente para
que ensaios mecânicos e químicos possam ser realizados, conforme descrito pelas seções
a seguir.
Figura 2.1: Processo de tratamento térmico em estudo.
2.2 Limite de escoamento e resistência à tração
O ensaio de tração é uma das formas mais simples e úteis de mensurar propriedades
mecânicas dos materiais. É um teste destrutivo que consiste em submeter uma amostra
do material a um esforço que tende a alongá-lo até a ruptura (Rizzo, 2007). Durante
esse processo são medidas a força aplicada e a deformação do corpo de prova. A
�gura 2.2 mostra uma representação esquemática do teste, enquanto que a �gura 2.3
apresenta um diagrama tensão-deformação típico de um material dúctil. Por meio
deste ensaio é possível determinar o limite de escoamento e a resistência à tração do
material, grandezas fundamentais para os projetos mecânicos de linhas de transporte
e extração de óleo e gás. O limite de escoamento (LE) é a tensão correspondente ao
início da deformação plástica do material (ponto P). Portanto, a magnitude do limite
2. Processo industrial em estudo 6
de escoamento para um metal é uma medida de resistência frente à deformação plástica,
ou seja, uma deformação permanente de sua forma (Callister, 2007). A resistência à
tração (RT) é de�nida como a tensão máxima que o material resiste quando submetido
a um esforço de tração (ponto M). Se essa tensão for aplicada e mantida, uma fratura
irá ocorrer (ponto F) (Callister, 2007).
Figura 2.2: Representação esquemática do ensaio de tração. Adaptado de Callister(2007).
Figura 2.3: Diagrama tensão-deformação típico de um material dúctil. Adaptado deCallister (2007).
2. Processo industrial em estudo 7
Limites de escoamento e resistência à tração fora da especi�cação geram retrata-
mento ou mesmo a perda de lotes inteiros de produção de tubos de aço. Como os
resultados dos ensaios de tração demoram dias para �carem disponíveis, modelos de
previsão dessas propriedades podem resultar em ganhos signi�cativos por meio do su-
porte à tomada de decisão dos operadores durante o processo de fabricação.
2.3 Dureza
A dureza é de�nida como uma medida da resistência de um material a uma deformação
plástica localizada como um pequeno risco ou arranhão (Callister, 2007). É medida por
meio de ensaios que consistem em produzir pequenas marcas feitas por um penetrador
conhecido, sob condições controladas, quanti�cando a dureza em função do tamanho
da impressão produzida na amostra.
Existem diferentes testes populares para a medição de dureza, cada um com sua
escala. Neste trabalho, dados provenientes dos testes Rockwell (HR) e Vickers (HV)
serão utilizados.
Antecipar os valores de dureza dos tubos de aço durante a fabricação dos mesmos
permite decisões mais acertadas pelos operadores do processo produtivo e a redução
de retratamentos e perdas.
2.4 Corrosão sob tensão
A norma NACE TM0177 (2005) estabelece as condições para a realização de uma
simulação dos esforços mecânicos associados a ataques químicos que os tubos estão
submetidos na extração de petróleo em ambientes corrosivos. Este teste (NACE método
A) consiste em aplicar uma força de tração constante a pelo menos 03 corpos de prova
de cada lote de tubos a serem comercializados. Durante a realização de todo o teste o
corpo de prova �ca submerso em uma solução ácida (H2S) e deve resistir sem fraturas
durante 720 horas. A �gura 2.4 apresenta o corpo de prova que deve ser usinado a
partir de amostras do tubo. A �gura 2.5 apresenta um desenho da câmara na qual o
teste deve ser realizado.
Todo o lote de tubos deve aguardar o resultado do teste para ser despachado.
Caso 2 corpos de prova falhem, o material deve ser retratado e o teste refeito. O
grande tempo despendido durante o teste e a necessidade de aguardar o resultado para
prosseguir para as etapas seguintes de produção resultam em aumento de estoques e
altos tempos para o atendimento dos pedidos dos clientes (lead time). Nesse sentido, a
utilização de tecnologias de inteligência computacional para a estimar a probabilidade
2. Processo industrial em estudo 8
Figura 2.4: Corpo de prova utilizado para o teste de corrosão sob tensão (NACETM0177, 2005).
Figura 2.5: Desenho da câmara para a realização do teste de corrosão sob tensão.Adaptado de (NACE TM0177, 2005).
de falha no teste poderia auxiliar a tomada de decisão pela continuidade do processo de
fabricação para os lotes de tubos com baixo risco. Isso representa grande potencial de
ganho para os produtores de tubos de aço devido à redução dos tempos de atendimento
e dos custos de estoque.
Capítulo 3
Metodologia
Nas indústrias modernas um grande volume de dados é gerado constantemente para a
fabricação de cada bem. Essas informações são coletadas e armazenadas em bases de
dados dos sistemas industriais de informação �cando disponíveis para estudo. Nesse
cenário, a extração de conhecimento a partir de dados para o entendimento e previsão
do comportamento dos processos industriais ganha força como uma alternativa ao uso
de equações físicas dos fenômenos em questão. Considerando que o campo de estudo
da inteligência computacional é muito vasto, um volume muito grande de técnicas
e algoritmos estão disponíveis e, para o bom andamento do trabalho, é importante
delimitar quais serão utilizados. Com essa �nalidade, este capítulo apresenta o conjunto
de métodos e ferramentas escolhidos na forma de uma metodologia.
3.1 Visão geral
A metodologia apresentada pela �gura 3.1 foi estabelecida a exemplo do que foi feito
por Agrawal et al. (2014) e Pattanayak et al. (2015) em estudos semelhantes para a
caracterização e projeto de produtos de aço. É constituída de 5 fases que vão desde a
coleta das informações à aplicação dos modelos desenvolvidos. Além das fases, existem
2 etapas de suporte que visam prover ferramentas de exploração e análise de desempe-
nho. O �uxo de trabalho da metodologia é linear mas prevê o retorno às fases anteriores
para correções de problemas detectados à frente. As fases e ferramentas utilizadas são
detalhadas nas seções a seguir.
3.2 Coleta de dados
A coleta de dados compreende as tarefas de encontrar e levantar os dados necessários
ao estudo em questão. No contexto desse trabalho, consiste na consulta a bancos de
9
3. Metodologia 10
Figura 3.1: Diagrama com as fases da metodologia utilizada no trabalho.
dados relacionais, não relacionais e de base temporal, assim como a dados armazenados
manualmente em planilhas diversas. Conforme o �uxo da metodologia apresentado na
�gura 3.1, pode ser necessário refazer a coleta de informações diversas vezes por razões
como, por exemplo, a necessidade de um maior número de amostras, a inclusão de
novas variáveis e a correção de erros descobertos apenas nas etapas seguintes. Além
disso, nessa fase é importante a participação de especialistas no processo em questão,
pois eles são as pessoas que devem indicar as unidades industriais envolvidas ou mesmo
as variáveis que têm mais chance de explicar os fenômenos estudados.
3.3 Pré-processamento dos dados
Esta etapa tem como objetivo garantir a consistência das informações coletadas e
colocá-las no formato correto para o processamento das etapas seguintes. As seguintes
tarefas são realizadas nessa fase:
• Harmonização: consolidação das diversas bases de dados coletadas conforme o
formato utilizado pelos algoritmos de aprendizado;
• Veri�cação de valores: participação dos especialistas no fenômeno em questão
para validar os valores coletados de cada variável;
• Transformações: alteração de unidades e cálculo de novas variáveis a partir dos
dados coletados;
• Remoção de outliers : exclusão de dados inválidos (outliers) de acordo com as
regras estabelecidas pelos especialistas no processo produtivo;
• Tratamento de dados faltantes: remoção de variáveis que contêm muitos dados
faltantes;
3. Metodologia 11
• Remoção de variáveis com baixa variância: exclusão de parâmetros de entrada
que apresentam baixa variabilidade, ou seja, pouca informação para a explicação
do fenômeno estudado;
• Normalização: padronização dos valores das variáveis de 0 (valor mínimo ob-
servado para a variável) a 1 (valor máximo observado para a variável). Isso é
necessário porque os valores absolutos das variáveis são muito diferentes, o que
impacta no desempenho de alguns dos algoritmos utilizados.
Em diversos momentos os dados precisam ser visualizados e mensurados, para isso
são utilizadas as ferramentas da etapa de exploração (seção 3.4). Além disso, o pré-
processamento pode ser refeito devido a mudança de estratégia ou correção de erros
detectados nas etapas seguintes.
3.4 Exploração
A análise exploratória tem como objetivo a visualização e mensuração dos dados. Para
isso foram utilizados cálculos de estatísticas descritivas, histogramas, análise em com-
ponentes principais, índices de correlação, grá�cos de dispersão e grá�cos XY.
3.5 Seleção de características
A etapa de seleção de características tem como objetivo melhorar a e�ciência de ar-
mazenamento e processamento dos dados por meio da determinação do conjunto de
variáveis mais compacto e que melhor explica o fenômeno em estudo (Guyon et al.,
2006). Com relação à elaboração de modelos orientados a dados, o objetivo é encon-
trar um conjunto de variáveis de entrada que apresentem o mínimo de redundância e
o máximo de relevância com a variável de saída. Para esse �m, duas técnicas foram
utilizadas: backward stepwise selection e a forward stepwise selection.
Os métodos stepwise selection consistem no cálculo sucessivo de alguma métrica
à medida que variáveis são adicionadas ou excluídas do conjunto de dados utilizados.
No forward stepwise selection, variáveis são adicionadas ao conjunto de entrada, inici-
almente vazio, à medida que melhoram a métrica utilizada. Particularmente, a cada
iteração, a variável que mais contribuir para melhora da métrica é adicionada ao con-
junto de entrada (James et al., 2013). De forma análoga, o método backward stepwise
selection retira sucessivamente variáveis do conjunto de entrada inicialmente composto
por todas elas. Nesse caso, a variável menos representativa é retirada a cada iteração.
3. Metodologia 12
Para os problemas de regressão a métrica utilizada foi o erro médio quadrático
(RMSE), conforme descrito na seção 3.7. O RMSE foi calculado a partir do ajuste de
regressões lineares múltiplas sem combinações entre as variáveis de entrada.
Para os problemas de classi�cação utilizou-se a área sob a curva (AUC), conforme
descrito na seção 3.7. A AUC foi calculada a partir do ajuste de classi�cadores baye-
sianos.
Além das técnicas de seleção de variáveis mencionadas anteriormente (forward e
backward stepwise selection), variáveis sugeridas diretamente pelos especialistas do pro-
cesso foram utilizadas como uma terceira opção e serviram como balizador acerca do
desempenho dos métodos automáticos de seleção.
3.6 Modelagem
O escopo desse trabalho está restrito a problemas de regressão e classi�cação. Nesse
sentido, duas classes de métodos de modelagem têm alcançado destaque: as redes
neurais arti�ciais e os métodos baseados em árvores de decisão. Além desses, outros
dois métodos clássicos foram experimentados nesse trabalho: para os problemas de
classi�cação, o classi�cador ingênuo de Bayes (NB), para os problemas de regressão, a
regressão linear múltipla (LM).
As redes neurais arti�ciais são estruturas computacionais inspiradas no funciona-
mento do cérebro humano. São compostas de diversas unidades que simulam o compor-
tamento dos neurônios biológicos. Para o cálculo das previsões, os valores das variáveis
preditoras são inseridos na camada de entrada e �uem até os neurônios por meio de co-
nexões (pesos sinápticos). Os neurônios computam os valores recebidos e, dependendo
do resultado, geram um sinal de saída para a conexão sináptica seguinte. Diversas
camadas de neurônios podem ser utilizadas entre a camada de entrada e a camada
de saída. Nas redes neurais, o "conhecimento"é armazenado no valor dos pesos de
cada conexão e estes são determinados por meio de algoritmos de aprendizado como o
backpropagation (Agrawal et al., 2014). Descrições detalhadas dessas estruturas, como
o multilayer perceptron (MLP), utilizada neste trabalho, podem ser encontradas nos
livros de Haykin (1999) e de Braga (2007).
Os métodos baseados em árvores de decisão consistem na estrati�cação do espaço
das variáveis de entrada em regiões simples. Para realizar uma predição para uma
dada observação, o sistema veri�ca a região a qual ela pertence e, tipicamente, calcula
a média das observações da base de treinamento pertencentes à mesma região (James
et al., 2013). Para aumentar o desempenho desses modelos, os métodos de aprendizado
baseados em árvores mais difundidos utilizam um número grande de árvores em comitê.
3. Metodologia 13
Uma descrição detalhada do funcionamento dessas estruturas pode ser encontrado no
livro de James et al. (2013). Neste trabalho, o método Random Forest (RF) e o
Gradient Boosting Trees (GB) foram utilizados.
Regressões lineares múltiplas são, provavelmente, a forma mais antiga de modelos
preditivos orientados a dados (Agrawal et al., 2014). Consiste no ajuste de parâme-
tros de estruturas lineares (retas e superfícies) utilizando, por exemplo, o método de
mínimos quadrados. Boa descrição do método pode ser obtida em James et al. (2013).
O classi�cador de Bayes é um classi�cador baseado na comparação entre as den-
sidades de probabilidade condicionais de pertencer às classes do problema quando co-
nhecidos os valores dos preditores (James et al., 2013). Esse classi�cador é chamado de
ingênuo (NB) ao assumir independência entre essas funções de densidade de probabi-
lidade dos preditores. É um classi�cador muito popular e será utilizado neste trabalho
como uma linha de base de desempenho para com os demais métodos, além de compor
o método de seleção de variáveis (seção 3.5).
Na fase de modelagem, todas as técnicas descritas foram aplicadas e exploradas
para a construção de modelos. A técnica que resultar no melhor modelo, conforme as
métricas utilizadas para avaliação de desempenho descritas na seção 3.7, será selecio-
nada. Tanto esta etapa, quanto as etapas anteriores podem ser refeitas caso os modelos
não atinjam os critérios de desempenho esperados, ou caso mudanças na aplicação dos
modelos (seção 3.8) sejam necessárias.
3.6.1 Ajuste dos modelos
Para um bom ajuste dos modelos à variável de saída estudada, todas as técnicas de
modelagem em questão, com exceção da regressão linear múltipla, dependem de uma
boa escolha do conjunto de hiper parâmetros (o termo hiper é utilizado para diferenciar
dos parâmetros do modelo em si). Os mais importantes são apresentados a seguir:
• Multilayer perceptron: número de épocas de treinamento, número de camadas,
número de neurônios em cada camada, termos de regularização e taxa de apren-
dizado;
• Random forest : número de variáveis escolhidas aleatoriamente para cada branch,
número de árvores, número mínimo de pontos em cada terminação e máximo de
terminações;
• Gradient boosting trees : termos de regularização, taxa de aprendizado, máximo
de terminações e número de iterações.
3. Metodologia 14
A regressão linear múltipla não possui hiper parâmetros a serem escolhidos, entre-
tanto, é necessário determinar quais transformações e combinações entre as variáveis
de entrada serão utilizadas no modelo. Essas transformações e combinações permitem
mapear relações não lineares entre as variáveis do problema. Neste trabalho, utilizou-se
as combinações do tipo xixj e transformações do tipo x2,√x.
Um método bem difundido para a escolha dos melhores hiper parâmetros é a explo-
ração força bruta conhecida como grid search. De forma sucinta, esse método consiste
no ajuste dos modelos para todas as combinações de hiper parâmetros dentro de uma
faixa de busca de�nida a priori. Este procedimento é muito caro do ponto de vista
computacional, mas é viável e foi utilizado neste trabalho graças à disponibilidade de
computadores de alto desempenho nos provedores de computação em nuvem.
3.7 Análise de desempenho
Esta etapa tem como objetivo quanti�car o desempenho dos modelos desenvolvidos.
Para esse �m, é necessário de�nir os índices utilizados neste trabalho, bem como as
formas de cálculo aplicadas.
3.7.1 Problemas de regressão
Para os problemas de regressão, os seguintes índices de desempenho foram utilizados:
• Raiz do erro quadrático médio (RMSE), conforme equação 3.1;
• Erro médio absoluto (MAE), conforme equação 3.2;
• Coe�ciente de determinação (R2), conforme equação 3.3.
RMSE =
√√√√ 1
N
N∑i=1
(yi − yi)2 (3.1)
MAE =1
N
N∑i=1
|yi − yi| (3.2)
R2 = 1−∑N
i=1(yi − yi)2∑Ni=1(yi − yi)2
(3.3)
Onde:
• yi: valor real da amostra i;
3. Metodologia 15
• yi: valor previsto para a amostra i;
• N : número de amostras utilizadas para calcular a métrica
Para os problemas de regressão, o índice RMSE é o principal índice de desempenho
utilizado neste trabalho pois, penaliza de forma mais severa os erros maiores de predição
de amostras individuais. O índice MAE é utilizado porque mantém a unidade de
engenharia da variável em estudo e por isso permite uma avaliação mais direta do
desempenho por parte dos especialistas de processo. O índice R2 também é utilizado
pois penaliza deslocamentos sistemáticos do conjunto de dados estimados com relação
aos dados reais, como pode ser veri�cado em alguns casos via grá�cos XY apresentados
no capítulo 4.
3.7.2 Problemas de classi�cação
Para os problemas de classi�cação, os seguintes índices de desempenho foram utilizados:
• Área sob a curva ROC (AUC ). A curva ROC é uma forma grá�ca para a vi-
sualização da relação entre as taxas de verdadeiros positivos e falsos positivos
do classi�cador para os vários limiares de probabilidade entre as classes (James
et al., 2013)
• Acurácia do classi�cador (Acc), conforme equação 3.4
Acc =1
N
N∑i=1
acci acci =
1, se amostra i classi�cada corretamente
0, se amostra i classi�cada incorretamente(3.4)
Para os problemas de classi�cação, o índice AUC é o principal índice de desempenho
utilizado neste trabalho pois é pouco sensível ao desbalanceamento entre o número de
amostras das classes. A acurácia é utilizada porque permite uma análise mais direta
do desempenho do classi�cador pelos especialistas do processo.
3.7.3 Método de cálculo
A análise de desempenho é realizada durante duas fases da metodologia, fase de mo-
delagem e fase de implantação. Durante a primeira, o cálculo é feito com os dados
disponíveis para modelagem por meio da validação cruzada k-fold. A validação cru-
zada k-fold consiste na separação dos dados em k partes, das quais k − 1 partes são
3. Metodologia 16
utilizadas para o treinamento do modelo e a parte remanescente é utilizada para a me-
dição de desempenho. Esse processo é repetido k vezes alterando-se a parte dos dados
utilizada para a medição de desempenho (James et al., 2013). Ao �nal do processo
pode-se extrair as médias e desvios dos índices de desempenho utilizados (a partir dos
cálculos feitos para cada k-fold), bem como as estimativas dos modelos para todos os
pontos do conjunto de treinamento, simulando pontos desconhecidos.
A validação cruzada é importante para a avaliação de desempenho dos modelos, pois
permite estimar o comportamento dos mesmos com novas amostras, fora da base de
treinamento. Um bom desempenho nessa situação diz que o modelo tem boa capacidade
de generalização. Isso é o oposto do conhecido over�tting, fenômeno que ocorre quando
os modelos tem bom desempenho apenas com os dados de treinamento e �cam sem
utilidade prática.
Durante a fase de implantação um mecanismo sistemático de cálculo de desempenho
deve ser implementado. Isso permite o acompanhamento do desempenho dos modelos
durante seu ciclo de vida garantindo sua sustentabilidade. Em caso de degradação,
a metodologia deve ser executada novamente para a disponibilização de modelos que
contemplem prováveis mudanças que ocorreram no processo produtivo.
3.7.4 Apresentação dos resultados
Os resultados obtidos para os melhores modelos de cada técnica (otimizado após o grid
search) são apresentados na forma de tabelas contendo os valores médios e respectivos
desvios padrão calculados via validação cruzada. Para os problemas de regressão, são
apresentados grá�cos XY nos quais veri�ca-se o desempenho das predições ponto a
ponto da base de dados. Ressalta-se que essas predições ponto a ponto foram obti-
das pela validação cruzada para os pontos do k-fold de teste, simulando dados novos
para o modelo (vide seção 3.7.3). Para os problemas de classi�cação, apresenta-se as
curvas ROC correspondentes a cada modelo. Adicionalmente, apresenta-se grá�cos
comparativos do tipo boxplot para avaliar a performance de cada técnica.
3.8 Implantação
Uma vez que os modelos estão �nalizados e validados, é necessário integrá-los aos
sistemas industriais para, de fato, obter resultados de negócio. Esta é a �nalidade
desta etapa. Muitas possibilidades de utilização desses modelos de predição podem ser
desenvolvidas, no entanto, antes deve-se estabelecer formas de lidar com as incertezas
relacionadas a eles.
3. Metodologia 17
3.8.1 Incertezas
Um modelo baseado em dados mapeia uma região especí�ca do espaço das variáveis de
entrada. Fora desse universo conhecido não é possível garantir que o erro de predição
se comporte conforme estimado pelas técnicas de validação cruzada. Essa incerteza
é ainda pior quando não se tem conhecimento acerca do fenômeno físico em questão.
Considerando isso, uma forma de lidar com as incertezas no uso de modelos desse
tipo é a medição do quão distante o conjunto de dados de entrada está desse universo
conhecido. Isso pode ser implementado usando métricas de distância como a distância
Manhattan, de�nida conforme a equação 3.5, para o cálculo da distância entre a nova
amostra (~a) e a amostra mais próxima pertencente ao conjunto de treinamento (B).
D(~a,B) = mind∑
k−1
|ak −Bjk|∀j (3.5)
Onde:
• ak: valor da variável k da nova amostra ~a;
• Bjk: valor da variável k da amostra j do conjunto de treinamento B;
• d: número de variáveis do problema;
• D: métrica de distância.
A �gura 3.2 mostra de forma grá�ca o signi�cado da métrica de distância(D) utili-
zada, exempli�cando o possível impacto de uma estimativa longe do universo conhecido.
Os pontos em azul representam o conjunto de treinamento que resultaram no modelo
linear representado pela linha vermelha. O uso do modelo longe do universo conhe-
cido (grande distância) gerou uma estimativa fora dos pontos reais (pontos pretos)
que representam o comportamento do sistema nessa região não mapeada pelo modelo
linear.
3.8.2 Simulações
O primeiro e mais simples modo de iniciar o uso dos modelos é a integração com uma
interface para o usuário �nal. Dessa forma, é possível interagir com o modelo inserindo
valores nas variáveis de entrada e visualizando as respostas calculadas. Como exemplo,
o usuário pode utilizar esse método para a escolha do melhor conjunto de parâmetros
de referência (setup) dos fornos de tratamento térmico do estudo de caso em questão.
Entretanto, como se trata de uma simulação livre, é importante mostrar ao usuário
a distância entre a amostra simulada e o conjunto de dados de teste conhecidos pelo
3. Metodologia 18
Figura 3.2: Exemplo de impacto métrica de distância no erro de predição
modelo. Assim, é possível levar em conta a incerteza da simulação ao tomar uma
decisão.
3.8.3 Monitoramento online
Modelos baseados em dados embarcados nos sistemas de rastreamento de materiais
possibilitam estimar as propriedades mecânicas de todo o volume de produção. Além
disso, se estiverem disponíveis nas salas de operação permitem ajustes no processo em
tempo real visando otimizar as propriedades mecânicas dos materiais. Como exemplo,
nos trabalhos de Sampaio et al. (2015) e Corrêa (2014) utilizou-se modelos neurais para
o cálculo das propriedades mecânicas dos tubos em tempo de produção apresentando os
resultados em cartas de controle para o time de operação de uma planta de tratamento
térmico.
3.8.4 Otimização
Outra possibilidade é, ao invés de interação manual, utilizar o modelo desenvolvido
como função objetivo de um problema de otimização. Sobre este problema é possível
aplicar algoritmos de otimização a exemplo do que foi realizado por Pattanayak et al.
(2015) para a busca de melhores valores das propriedades mecânicas variando a compo-
sição química dos aços. Nesses casos, as métricas de distância podem ser usadas como
3. Metodologia 19
restrições do problema de forma a garantir a exploração apenas de soluções dentro do
universo conhecido, ou pelo menos a uma distância controlada dele.
Capítulo 4
Desenvolvimento dos modelos
Esse capítulo é dedicado à apresentação e discussão dos modelos obtidos. A análise
inicial sugeriu a divisão dos dados coletados em 4 famílias de aço (vide seção 4.1). Por
simpli�cação, apenas os resultados para a família de aços 01 (modelos de regressão)
e família 04 (classi�cadores) serão apresentados. Os demais resultados podem ser
consultados nos apêndices A e B. O desenvolvimento das rotinas computacionais foi
todo realizado utilizando a plataforma R (R Core Team, 2017a) e, principalmente, os
pacotes stats (R Core Team, 2017b), xgboost (Chen et al., 2017), randomForest (Liaw
and Wiener, 2002), RSNNS (Bergmeir and Benítez, 2012) e naivebayes (Majka, 2018).
Neste estudo de caso, duas foram as fontes de informação: a base de dados do sistema
de rastreamento peça a peça, que possui as informações referentes a cada tubo durante
o processo produtivo, e a base de dados de resultados de laboratório que contém a
composição química do aço e os resultados das propriedades mecânicas em estudo.
A partir dessas fontes, dois conjuntos de dados foram formados: os dados para o
estudo do ensaio de dureza (seção 2.3) e tração (seção 2.2), provenientes da planta de
tratamento térmico 01, e o conjunto de dados para o estudo da resistência à corrosão
(seção 2.4), provenientes da planta de tratamento térmico 02. O primeiro estudo tem
como objetivo encontrar modelos de regressão para a predição dos valores dos ensaios
por meio dos dados de fabricação dos tubos. O segundo visa construir um classi�cador
que separe, por meio dos dados de preparação da amostra de teste e de fabricação,
os tubos que têm maior chance de passar e aqueles que devem falhar no ensaio de
resistência à corrosão. As seções a seguir apresentam a aplicação da metodologia
de�nida no capítulo 3 para a obtenção de tais modelos e os seus resultados.
20
4. Desenvolvimento dos modelos 21
Tabela 4.1: Dados coletados para cada amostra dos ensaios de tração e dureza
Descrição Unidade
Diâmetro do tubo mmEspessura de parede do tubo mmComposição química (um total de 14 elementos) %Carbono equivalente (Ceq) %Parâmetro de metal crítico (PCM) %Temperatura na saída do forno de austenitização ◦CTempo de encharque no forno de austenitização sParâmetro de Tsuchiyama no forno de austenitizaçãoTemperatura na saída do forno de revenimento ◦CTempo de encharque no forno de revenimento sParâmetro de Tsuchiyama no forno de revenimentoÍndice de retratamentoTempo de imersão no tanque sVazão de água no jato do tanque l/sValor medido de dureza HRC/HVValor medido de resistência à tração MPaValor medido de limite de escoamento MPa
4.1 Dados coletados e pré-processamento
As informações coletadas compreendem os dados de aproximadamente 2 anos de en-
saios de laboratório de 5 diferentes tipos de aço produzidos para o segmento de óleo
e gás. Compreendem, portanto, dados de bateladas diferentes, condições diversas de
produção e incertezas nas medições. O resumo das variáveis coletadas da planta de
tratamento térmico 01 (processo de têmpera em tanque) é apresentado pela tabela 4.1:
27 variáveis de entrada (após eliminação por muitos dados faltantes e/ou baixa varia-
ção) e 3 variáveis de saída. O resumo das variáveis coletadas da planta de tratamento
térmico 02 (processo de têmpera em anel) é apresentado pela tabela 4.2 (62 variáveis).
Conforme sugestão da equipe de especialistas do processo produtivo, variáveis adici-
onais foram coletadas para o estudo da resistência à corrosão: dados dos ensaios de
ultrassom e dados de preparação das amostras do teste.
Além das variáveis clássicas do processo de tratamento térmico (tempo, parâmetros
de resfriamento e temperaturas) um termo adicional foi utilizado, o parâmetro de
Tsuchiyama. O trabalho realizado por Gomes et al. (2010) mostrou que o parâmetro de
Tsuchiyama tem boa correlação com as propriedades mecânicas de materiais tratados
termicamente, além de ser um índice robusto e con�ável. Em resumo, o parâmetro
de Tsuchiyama é um aprimoramento do parâmetro de Hollomon-Ja�e (equação 4.1),
4. Desenvolvimento dos modelos 22
Tabela 4.2: Dados coletados para cada amostra do ensaio de corrosão
Descrição Unidade
Diâmetro do tubo mmEspessura de parede do tubo mmComprimento do tubo mComposição química (um total de 16 elementos) %Ciclo de tratamento no forno de austenitização sTemperatura na saída da austenitização ◦CTempo de encharque austenitização sParâmetro de Tsuchiyama austenitizaçãoCiclo de tratamento no forno de revenimento sTemperatura na saída da revenimento ◦CTempo de encharque revenimento sParâmetro de Tsuchiyama revenimentoÍndice de retratamentoTemperatura da água de resfriamento ◦CVazões de água dos anéis de têmpera (um total de 6) l/minVazão de água da lança de resfriamento interno l/minDimensões da amostra (6 valores) mmRugosidade da amostra RATensão do anel de teste NEstatísticas da inspeção via ultrassom (15 valores)Ph da solução utilizada MPaResultado do teste de corrosão (0/1)
permitindo seu uso para casos mais gerais, ou seja, ciclos térmicos mais complexos.
Isso é obtido por meio da divisão do ciclo térmico em pequenos intervalos para os quais
é feito o cálculo de um tempo equivalente na temperatura de referência. Mais detalhes
podem ser encontrados no trabalho de Gomes et al. (2010).
P = Tr[c+ log(t)] (4.1)
Onde:
• P é o parâmetro de Hollomon-Ja�e ou de Tsuchiyama caso o tempo (t) equivalente
seja utilizado
• Tr é a temperatura de referência
• c é uma constante obtida experimentalmente para cada material
• t é o tempo na temperatura de referência ou tempo equivalente de Tsuchiyama
4. Desenvolvimento dos modelos 23
Durante a etapa de pré-processamento dos dados, veri�cou-se a existência de clus-
ters, ou grupos de dados bem de�nidos nas bases coletadas. Isso ocorre porque as
unidades industriais em estudo produzem tubos com diferentes tipos de aço. A �gura
4.1 mostra as duas primeiras componentes obtidas a partir da análise de componentes
principais (PCA) do conjunto de dados de entrada coletados para os ensaios de tração
e dureza (tabela 4.1). É possível veri�car 3 grupos que possuem diferentes parâme-
tros de fabricação. Esses grupos foram denominados, nesse trabalho, como famílias de
aço 01, 02 e 03. Os dados coletados para o estudo sobre corrosão (tabela 4.2) foram
agrupados como família 04 pois referem-se a um único tipo de aço de uma planta de tra-
tamento térmico diferente. Devido a essas diferenças, optou-se por construir modelos
de predição separados para cada família.
Figura 4.1: Análise de componentes principais dos dados de fabricação - tração e dureza(tabela 4.1). Em vermelho a família de aços 01, em verde a família 02 e em azul afamília 03.
Após diversas tentativas de obtenção dos modelos de regressão (pré-processamento,
seleção de características e modelagem), decidiu-se checar a precisão dos resultados
dos ensaios mecânicos de laboratório. Quanto maior a imprecisão, mais ruído deve ser
tratado diretamente pelas técnicas de modelagem, o que pode gerar variabilidade das
predições. O histograma da �gura 4.2 foi elaborado a partir de resultados de limite de
escoamento da família 01 para o conjunto diâmetro x parede mais fabricado, 244.48mm
x 11.99mm . Apresenta as diferenças observadas para diversos pares de tubos (72 pares
4. Desenvolvimento dos modelos 24
ao todo) com dados de processo semelhantes, ou seja, mesma composição química e
parâmetros de processamento muito próximos.
Figura 4.2: Variabilidade dos resultados de laboratório - LE - Família 01
A diferença média é de 8,70 MPa e variabilidade de 21,0 MPa (percentil 95%).
Essa variação é fruto de todas as incertezas combinadas, desde a precisão dos testes de
laboratório (ensaios mecânicos e composição química) até a precisão dos instrumentos
de campo que medem as variáveis coletadas.
Montgomery (Montgomery and Runger, 2003) decompôs o erro de predição dos mo-
delos em geral SQE (soma quadrática dos erros) em duas componentes: o erro devido
à falta de ajuste do modelo (SQFA) e o erro puro do processo (SQEP ). Este último,
representa a variabilidade intrínseca do processo e não pode ser explicada por nenhum
modelo. Ainda segundo Montgomery (Montgomery and Runger, 2003), esse erro puro
pode ser estimado por meio das diferenças entre os valores da variável estudada para
amostras que possuam os mesmos valores das variáveis de entrada, assim como reali-
zado para a construção do histograma da �gura 4.2. O valor de 21,0 MPa (percentil
95%) é, portanto, uma boa estimativa do erro mínimo esperado para os modelos de
predição do limite de escoamento da família 01. Análise semelhante foi realizada para
os resultados de resistência à tração e dureza da família 01 com valores do percentil
95% de 15MPa e 1.4HRC, respectivamente.
A tabela 4.3 mostra o número de amostras dos ensaios utilizadas com o objetivo
de construir os modelos. Esse conjunto de amostras foi obtido ao �nal da etapa de
pré-processamento. Importante destacar que apenas uma amostra de cada lote de pro-
dução foi utilizada para o treinamento dos modelos. Isso visa reduzir a possibilidade
de existirem amostras repetidas na base de dados, pois essas, podem levar informações
4. Desenvolvimento dos modelos 25
do conjunto de treinamento para o conjunto de testes durante o processo de validação
cruzada, favorecendo o over�tting dos modelos. Além disso, 5 variáveis foram elimina-
das por possuírem um valor muito alto de dados faltantes ou por apresentarem valores
sem variação.
Tabela 4.3: Número de amostras utilizadas para modelagem
Família de Aço LE RT DZ NACE-A
Família 01 833 833 792 -Família 02 407 407 - -Família 03 162 162 134 -Família 04 - - - 306
4.2 Seleção de variáveis e modelos obtidos
4.2.1 Limite de escoamento
Para o limite de escoamento o objetivo é obter erros de predição máximos próximos a
20 MPa. Essa faixa foi de�nida em conjunto com os especialistas de processo e está de
acordo com a variabilidade intrínseca discutida na seção 4.1. Conforme a tabela 4.4,
os erros de predição médios (MAE) para todos os modelos estão abaixo dessa meta. A
coluna "Sel.Var."indica o método de seleção de variáveis utilizado. Tanto o índice MAE
quanto o índice RMSE mostram um melhor desempenho médio dos modelos neurais
(MLP), gradient boosting (XG) e regressões lineares (LM) com variáveis selecionadas
automaticamente. O método random forest (RF), apresentou desempenho médio ruim
se comparado aos demais, independentemente do conjunto de variáveis utilizado.
A �gura 4.3 mostra a evolução do RMSE com a adição (forward) e remoção
(backward) de variáveis, conforme métodos de seleção apresentados na seção 3.5. As
variáveis foram selecionadas desde que ocorra uma melhora de pelo menos 0.5% no
valor do RMSE. A linha tracejada nos grá�cos da �gura 4.3 mostra o limiar entre os
conjuntos de variáveis selecionadas e excluídas pelos métodos. O conjunto de variáveis
sugeridas automaticamente foi maior que o conjunto selecionado pelos especialistas
pois incluiu, principalmente, informações do forno de austenitização e do processo de
resfriamento.
A �gura 4.4 apresenta os grá�cos XY que comparam os valores reais (eixo Y) e os
valores estimados pelos modelos (eixo X). A linha vermelha indica a meta estipulada
4. Desenvolvimento dos modelos 26
Tabela 4.4: Métricas de desempenho obtidas para os modelos de predição do limite deescoamento da Família 01
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 10.9 0.62 8.5 0.874 0.036 0.575 14RF Back. 12.3 0.51 9.37 1.301 0.078 0.956 14XGB Back. 11.26 0.59 8.76 1.017 0.064 0.563 14MLP Back. 10.91 0.62 8.43 0.823 0.05 0.688 14LM Forw. 11.06 0.61 8.62 0.921 0.039 0.804 16RF Forw. 12.22 0.52 9.44 1.343 0.083 0.997 16XGB Forw. 11.05 0.6 8.51 1.298 0.085 0.895 16MLP Forw. 10.86 0.62 8.5 0.735 0.058 0.523 16LM Manual 12.91 0.46 10.01 1.148 0.076 0.877 8RF Manual 12.41 0.5 9.49 1.355 0.089 0.992 8XGB Manual 11.77 0.55 9.13 1.143 0.075 0.819 8MLP Manual 12.08 0.53 9.47 1.082 0.06 0.856 8
(a) backward selection (b) forward selection
Figura 4.3: Evolução do RMSE para os métodos de seleção de variáveis - LE - família01.
para o erro. Veri�ca-se que para os modelos de melhor desempenho (com legenda em
destaque) apenas alguns pontos estão fora dessas faixas. O pior desempenho médio
do método RF pode ser con�rmado nesses grá�cos pelo deslocamento entre os valores
estimados e reais, o que acarreta em maiores erros de predição para valores mais baixos
e mais altos do limite de escoamento.
A �gura 4.5 apresenta uma comparação grá�ca do índice de desempenho RMSE.
Os grá�cos foram gerados a partir das 10 amostras de RMSE calculadas via validação
cruzada 10-fold. Percebe-se o melhor desempenho dos modelos obtidos com as variáveis
selecionadas automaticamente com destaque para o forward selection.
Conclui-se, portanto, que o melhor modelo para o mapeamento das relações do
4. Desenvolvimento dos modelos 27
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura 4.4: Grá�cos de dispersão das estimativas dos modelos versus os valores reais -LE - família 01.
4. Desenvolvimento dos modelos 28
Figura 4.5: Comparação grá�ca (boxplot) RMSE dos modelos para o limite de escoa-mento da família 01.
limite de escoamento para a família 01 é o MLP com seleção forward stepwise, pois,
além de apresentar valor médio de RMSE entre os menores, apresentou também menor
variabilidade.
4.2.2 Resistência à tração
Para a resistência à tração o objetivo é obter erros de predição máximos próximos a
20 MPa. Essa faixa foi de�nida em conjunto com os especialistas de processo e está
um pouco maior que a estimativa de erro puro discutida na seção 4.1. Pela tabela
4.5, veri�ca-se o mesmo padrão de desempenho obtido para o limite de escoamento:
erros de predição médios (MAE) abaixo dessa meta (20MPa) e melhor desempenho
médio dos modelos neurais (MLP), gradient boosting (XG) e regressões lineares (LM)
com variáveis selecionadas automaticamente, além do baixo desempenho do método
random forest (RF). O que difere dos resultados obtidos para o limite de escoamento
são os valores menores dos índices de erro e o R2 mais alto. Isso vai de encontro à
menor estimativa de variabilidade intrínseca (15MPa).
Com relação aos métodos de seleção de variáveis, um número superior foi selecionado
se comparado com os resultados obtidos para o limite de escoamento. A �gura 4.6
mostra a evolução do RMSE com a adição (forward) e remoção (backward) de variáveis,
conforme método de seleção apresentado na seção 3.5. O mesmo critério foi utilizado
para a escolha do conjunto de variáveis, ou seja, a melhora de pelo menos em 0.5% no
valor do RMSE (limiar representado pela linha tracejada nos grá�cos da �gura 4.6).
Por meio desses grá�cos é possível perceber de forma mais clara a in�uência de variáveis
4. Desenvolvimento dos modelos 29
Tabela 4.5: Métricas de desempenho obtidas para os modelos de predição da resistênciaà tração da Família 01.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 9.06 0.69 7.02 0.531 0.057 0.465 17RF Back. 10.17 0.61 7.75 0.889 0.055 0.596 17XGB Back. 8.91 0.7 6.74 0.94 0.073 0.67 17MLP Back. 8.64 0.71 6.62 0.915 0.107 0.749 17LM Forw. 9.49 0.66 7.31 0.473 0.047 0.419 12RF Forw. 10.26 0.6 7.91 0.902 0.066 0.595 12XGB Forw. 9.31 0.67 7.1 0.881 0.062 0.64 12MLP Forw. 9.06 0.69 6.94 0.57 0.065 0.401 12LM Manual 11.46 0.5 8.99 1.133 0.103 0.799 8RF Manual 10.59 0.57 8.13 1.009 0.083 0.558 8XGB Manual 9.73 0.64 7.44 0.892 0.075 0.561 8MLP Manual 10.61 0.57 8.23 1.248 0.098 0.781 8
combinadas no resultado do RMSE, ou seja, em alguns casos duas variáveis juntas tem
impacto maior que a soma de suas contribuições individuais. Isso também ocorre para
os demais fenômenos estudados, entretanto, de forma mais sutil.
Novamente, o conjunto de variáveis sugeridas automaticamente foi maior que a
seleção manual dos especialistas devido à inclusão de informações do forno de austeni-
tização e do processo de resfriamento.
(a) backward selection (b) forward selection
Figura 4.6: Evolução do RMSE para os métodos de seleção de variáveis - RT - família01.
A �gura 4.7 apresenta os grá�cos XY que comparam os valores reais (eixo Y) e os
valores estimados pelos modelos (eixo X). A linha vermelha indica a meta estipulada
para o erro. Veri�ca-se que para os modelos de melhor desempenho (com legenda em
4. Desenvolvimento dos modelos 30
destaque) apenas alguns pontos estão fora dessas faixas. Veri�ca-se uma di�culdade
dos modelos baseados em árvores com relação às predições nos valores altos e baixos de
RT (modelos RF e GB). O mesmo pode ser observado com relação aos outros problemas
de regressão apresentados.
A �gura 4.8 apresenta uma comparação grá�ca do índice de desempenho RMSE.
Neste caso, veri�ca-se o melhor desempenho médio do modelo MLP com seleção backward
stepwise para a resistência à tração da família de aços 01.
Figura 4.8: Comparação grá�ca (boxplot) RMSE dos modelos para a resistência àtração da família 01.
4.2.3 Dureza
Para os modelos de predição de dureza da família 01, o objetivo é obter erros menores
que 1,4 HRC. Esse é o valor da estimativa de variabilidade intrínseca e é um pouco
maior que a incerteza média associada ao teste em laboratório (1,2 HRC). A tabela
4.6 apresenta os erros de predição calculados via validação cruzada e pode-se observar
que os erros de predição descritos pelo índice (MAE) estão abaixo da meta para todos
os modelos. Além disso, todos os modelos apresentaram desempenho muito próximo.
Para cada índice, o valor médio observado ± seu respectivo desvio (RMSE desv., R2
desv. e MAE desv.) intercepta o valor médio de todos os demais. O número de
variáveis selecionadas para a entrada dos modelos não alterou esse cenário.
Com relação à seleção automática, o mesmo critério foi utilizado para a escolha
das variáveis, ou seja, a melhora de pelo menos em 0.5% o valor do RMSE. O mé-
todo forward stepwise foi mais e�ciente, pois selecionou um conjunto de variáveis mais
compacto que o método backward stepwise sem prejuízo no desempenho dos modelos.
A �gura 4.10 apresenta os grá�cos XY para a comparação entre os valores estimados
4. Desenvolvimento dos modelos 31
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura 4.7: Grá�cos de dispersão das estimativas dos modelos versus os valores reais -RT - família 01.
4. Desenvolvimento dos modelos 32
Tabela 4.6: Métricas de desempenho obtidas para os modelos de predição da durezada Família 01.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 0.62 0.64 0.48 0.064 0.096 0.049 19RF Back. 0.67 0.59 0.5 0.086 0.083 0.059 19XGB Back. 0.64 0.62 0.49 0.06 0.082 0.045 19MLP Back. 0.63 0.63 0.48 0.066 0.08 0.046 19LM Forw. 0.65 0.61 0.49 0.061 0.09 0.052 10RF Forw. 0.66 0.59 0.49 0.086 0.088 0.06 10XGB Forw. 0.64 0.63 0.48 0.069 0.07 0.051 10MLP Forw. 0.64 0.63 0.48 0.067 0.081 0.055 10LM Manual 0.68 0.57 0.51 0.061 0.102 0.047 8RF Manual 0.68 0.58 0.5 0.082 0.088 0.053 8XGB Manual 0.65 0.6 0.49 0.055 0.093 0.035 8MLP Manual 0.66 0.6 0.5 0.065 0.091 0.053 8
(a) backward selection (b) forward selection
Figura 4.9: Evolução do RMSE para os métodos de seleção de variáveis - dureza -família 01.
(eixo X) pelos modelos e valores reais (eixo Y). Veri�ca-se um desempenho semelhante
para todos modelos, exceto pela di�culdade na predição dos valores mais baixos de
dureza apresentada pelos modelos baseados em árvores de decisão.
A �gura 4.11 apresenta uma comparação grá�ca do índice de desempenho RMSE.
Neste caso, veri�ca-se mais uma vez o desempenho semelhante de todos os modelos e
conclui-se que a melhor opção é a escolha daquele que apresenta a menor complexidade:
modelo LM com seleção forward stepwise.
4. Desenvolvimento dos modelos 33
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura 4.10: Grá�cos de dispersão das estimativas dos modelos versus os valores reais- Dureza - família 01.
4. Desenvolvimento dos modelos 34
Figura 4.11: Comparação grá�ca (boxplot) RMSE dos modelos para dureza da família01.
4.2.4 Resistência à corrosão
Para a predição do resultado do teste de resistência à corrosão conforme a norma NACE
TM0177 (2005), o objetivo é obter um classi�cador com 80% de acurácia. Além disso,
segundo os especialistas do processo, é importante que o modelo apresente uma baixa
taxa de falsos negativos. Isso tem como objetivo a redução do risco de tomar uma deci-
são de seguir com o processamento de um lote de tubos que falhem no teste de corrosão.
A tabela 4.7 apresenta os resultados obtidos para os 4 classi�cadores e 3 métodos de
seleção de variáveis. Veri�ca-se que nenhum dos classi�cadores obteve acurácia média
dentro da meta estabelecida. Os classi�cadores bayesianos (NB) apresentaram baixo
valor médio enquanto os neurais alta variabilidade. Os modelos em árvore obtiveram
os melhores resultados com destaque para o random forest.
A �gura 4.12 mostra a evolução do índice AUC com a adição (forward) e remo-
ção (backward) de variáveis, conforme métodos de seleção apresentados na seção 3.5.
Para esse método, o conjunto de variáveis utilizado foi aquele que maximizou o valor da
AUC representado pela linha tracejada no grá�co. Isso é possível porque o classi�cador
de Bayes apresenta pior desempenho devido à falta de variáveis preditoras e também
devido à inclusão de variáveis sem correlação com o fenômeno estudado. Veri�ca-se
que o conjunto de variáveis sugeridas automaticamente foi bem menor que o conjunto
selecionado pelos especialistas. Contudo, os classi�cadores resultantes alcançaram de-
sempenho igual ou superior aos com variáveis selecionadas manualmente.
Uma comparação grá�ca pode ser feita pela �gura 4.13 que apresenta a AUC de
todos os classi�cadores e suas respectivas dispersões. Veri�ca-se que, apesar da perfor-
mance semelhante de alguns modelos, o melhor foi o random forest com seleção pelo
4. Desenvolvimento dos modelos 35
Tabela 4.7: Métricas de desempenho dos classi�cadores para a predição da resistênciaà corrosão da Família 04
Modelo Sel.Var. Acc AUC Acc desvio AUC desvio Num.Var.NB Forw. 0.69 0.67 0.077 0.085 26RF Forw. 0.77 0.75 0.083 0.105 26XGB Forw. 0.73 0.69 0.091 0.132 26MLP Forw. 0.67 0.66 0.176 0.112 26NB Back. 0.61 0.66 0.108 0.087 39RF Back. 0.79 0.77 0.081 0.102 39XGB Back. 0.79 0.76 0.066 0.074 39MLP Back. 0.64 0.68 0.21 0.116 39NB Manual 0.49 0.63 0.065 0.057 58RF Manual 0.78 0.77 0.08 0.094 58XGB Manual 0.77 0.75 0.078 0.098 58MLP Manual 0.70 0.62 0.08 0.119 58
(a) backward selection (b) forward selection
Figura 4.12: Evolução do AUC para os métodos de seleção de variáveis - resistência àcorrosão - família 04.
método backward stepwise.
Uma avaliação da curva ROC (�gura 4.14) do melhor modelo obtido auxilia a busca
pela redução da taxa de falsos negativos. Pela curva ROC veri�ca-se a possibilidade
de aumentar de cerca de 80% para 90% a taxa de verdadeiros positivos (redução de
falsos negativos), entretanto paga-se o preço aumentando em cerca de 30% a taxa de
falsos positivos.
Conclui-se, portanto, que os classi�cadores obtidos para esse problema precisão ser
melhorados de forma a atender as expectativas iniciais. Isso pode ser obtido retornando
à fase de coleta de dados para inclusão de novas variáveis, como, por exemplo, as
propriedades mecânicas do aço testado.
4. Desenvolvimento dos modelos 36
Figura 4.13: Comparação grá�ca (boxplot) AUC dos classi�cadores de resistência àcorrosão da Família 04.
Figura 4.14: Curva ROC para classi�cador RF forward stepwise selection.
Capítulo 5
Aplicação dos modelos
Uma interface foi desenvolvida para a simulação de cenários e execução de algoritmos
de otimização para a busca das melhores condições de produção utilizando os modelos
apresentados no capítulo 4 como restrições. Além disso, foram desenvolvidas funções
que possibilitam integrar os modelos aos sistemas industriais existentes na planta. Isso
possibilita que as estimativas sejam utilizadas pelos operadores e engenheiros nas salas
de controle do processo de tratamento térmico. Os classi�cadores desenvolvidos para
estimar a probabilidade de falha de uma amostra no teste de corrosão carecem de
melhorias e ainda não foram integrados às ferramentas apresentadas a seguir. No
entanto, assim que validados, a mesma arquitetura pode e deverá ser aplicada.
5.1 Interface de simulação e funções de integração
O desenvolvimento da interface web para o simulador foi feito na plataforma R (R Core
Team, 2017a) com o uso do pacote Shiny (Chang et al., 2017) como pode ser observado
na �gura 5.1. A interface de simulação tem como principais funcionalidades:
• cálculo das estimativas de limite de escoamento, resistência à tração e dureza a
partir de dados de entrada fornecidos pelo usuário;
• possibilidade de buscar os dados de tubos já produzidos e carregar seus dados de
entrada para o modelo;
• cálculo da distância do ponto simulado do conjunto de treinamento do modelo,
conforme seção 3.8.1.
Funções de integração APIs RESTFul (Application Programming Interfaces sob o
protocolo HTTP) foram desenvolvidas para que as estimativas dos modelos possam ser
37
5. Aplicação dos modelos 38
Figura 5.1: Interface do simulador desenvolvido.
solicitadas pelos sistemas industriais. Essas funções foram desenvolvidas com o uso do
pacote plumber (Trestle Technology, LLC, 2017).
5.2 Otimização
Os objetivos das linhas de tratamento térmico podem ser resumidos em entregar tubos
com as propriedades mecânicas dentro das especi�cações, com o menor custo e maior
produtividade possível. Esse objetivo pode ser descrito matematicamente conforme as
equações a seguir.
minFobj = βC(~x) + γP (~x) (5.1)
C(~x) representa o custo simpli�cado de produção que contempla os custos de ener-
gia (associados às temperaturas dos fornos de tratamento térmico) e custos com os
elementos de liga do aço. O valor de C(~x) pode ser obtido pela expressão ~ω~x onde ~x
é o vetor quer contém os valores das variáveis de produção e ~ω é o vetor de pesos de
cada variável no custo.
P (~x) representa a produtividade da linha, associada ao tempo de ciclo de trata-
mento dos tubos. O valor de P (~x) pode ser obtido pela expressão max( ~xp) na qual
~xp representa os tempos de ciclo dos fornos de tratamento térmico. Para o problema
em questão, os tempos de ciclo dos fornos precisam ser iguais pois não há estoque
intermediário.
5. Aplicação dos modelos 39
Os parâmetros β e γ representam os pesos a serem aplicados aos objetivos custo e
produção, respectivamente. Essa é uma forma de transformar um problema multiobje-
tivo em um problema com apenas um objetivo. A abordagem multi objetivo pode ser
adotada em desenvolvimentos futuros.
Os melhores modelos de regressão desenvolvidos, conforme descrito no capítulo 4,
podem ser incluídos na descrição matemática do problema como restrições de desigual-
dade, conforme equações 5.2, 5.3 e 5.4.
h1 : LEmin ≤ LE(~x) ≤ LEmax (5.2)
h2 : RTmin ≤ RT (~x) ≤ RTmax (5.3)
h3 : DZmin ≤ DZ(~~x) ≤ DZmax (5.4)
De forma a controlar o grau de incertezas nas estimativas dos modelos (conforme
explicado na seção 3.8.1), a equação 5.5 estabelece uma forma de manter a distância
das soluções candidatas dentro de limites previamente estabelecidos.
h4 : Dist(~x) ≤ Distmax (5.5)
Além disso, as soluções do problema de otimização precisam estar dentro dos limites
do processo produtivo (equação 5.6).
h5 : ~xmin ≤ ~x ≤ ~xmax (5.6)
Em algumas situações, restrições de igualdade são necessárias de forma a manter
a coerência nas relações entre as variáveis durante a busca pelas soluções ótimas. Isso
ocorre, por exemplo, com as temperaturas de saída do tubo dos fornos e o parâmetro de
Tsuchiyama, conforme equação 4.1. Neste caso, como trata-se de uma otimização dos
parâmetros de referência (set points) do processo de fabricação, pode-se prever ciclos
simples de tratamento térmico nos fornos e utilizar o tempo previsto de encharque
como o tempo equivalente de Tsuchiyama e a temperatura de saída do tubo como a
temperatura de referência (equações 5.7 e 5.8).
h6 : Prevenimento = Trevenimento[c+ log(tencharque)] (5.7)
h7 : Paustenizacao = Taustenitizacao[c+ log(tencharque)] (5.8)
5. Aplicação dos modelos 40
Finalmente, o problema completo pode ser escrito conforme abaixo:
minFobj = βC(~x) + γP (~x)
subjeito a
LEmin ≤ LE(~x) ≤ LEmax
RTmin ≤ RT (~x) ≤ RTmax
DZmin ≤ DZ(~~x) ≤ DZmax
Dist(~x) ≤ Distmax
~xmin ≤ ~x ≤ ~xmax
Prevenimento = Trevenimento[c+ log(tencharque)]
Paustenizacao = Taustenitizacao[c+ log(tencharque)]
O problema proposto possui diversas não linearidades desconhecidas, pois depen-
dem do comportamento de modelos do tipo caixa preta (vide capítulo 1). As técnicas
candidatas para a solução precisam ser capazes de lidar com um misto de variáveis
contínuas e discretas e com espaços de busca não convexos e descontínuos. Se técni-
cas convencionais de programação não linear forem aplicadas nessa situação elas serão
ine�cientes, computacionalmente caras e, na maioria dos casos, encontrarão uma so-
lução muito próxima do ponto inicial de busca (Rao, 2009). Algoritmos genéticos são
adequados para esse tipo de situação. (Rao, 2009).
Algoritmos genéticos foram inspirados na teoria da evolução de Darwin, ou seja, na
sobrevivência do indivíduo mais adaptado ao meio. Incorpora conceitos de mutação,
cruzamento e elitismo. Boa descrição desse método pode ser encontrada no livro de
Rao (2009).
Para demonstrar o potencial dessa abordagem, uma versão simpli�cada do problema
de otimização foi implementada: função objetivo contendo apenas o custo simpli�cado
de produção e sem as restrições h2 e h3. Além disso, para melhor visualização, apenas
duas variáveis serão otimizadas: o percentual do elemento molibdênio (Mo) e a tem-
peratura de saída do tubo após o forno de revenimento. As demais variáveis foram
�xadas conforme uma amostra escolhida aleatoriamente na base de dados de treino.
O pacote GA (Scrucca, 2013) foi utilizado para a execução da busca via algoritmos
genéticos na plataforma R. A tabela 5.1 apresenta os valores dos principais parâmetros
do método de busca implementado.
A �gura 5.2 mostra as coordenadas dos indivíduos da população de busca em dife-
rentes momentos durante a execução do algoritmo. Na mesma �gura, é possível ver as
5. Aplicação dos modelos 41
Tabela 5.1: Parâmetros utilizados pelo algoritmo genético implementado
Parâmetro Valor
Tamanho da população 100 indivíduosProbabilidade de mutação 10%Probabilidade de cruzamento 80%Número de gerações 50Elitismo 5 indivíduosLimite de escoamento máximo (restrição h1) 650 MPaLimite de escoamento mínimo (restrição h1) 640 MPaDistância máxima (restrição h4) 1Tipo de codi�cação real
curvas de nível referentes ao limite de escoamento (restrição h1) estimado pelo modelo
MLP com 16 entradas (seleção manual de variáveis). As cores representam o valor da
distância para o conjunto de treinamento (restrição h4), neste caso, o intervalo de 0.1
(verde) à 1.0 (vermelho).
Veri�ca-se que com o passar das gerações, os indivíduos encontram uma solução
de menor custo, menor percentual de molibdênio e menor temperatura de tratamento,
com distância e limite de escoamento dentro dos intervalos estipulados.
Para facilitar o uso do algoritmo de busca pelos valores ótimos, uma interface que
permita montar o problema de otimização desejado, escolhendo os valores dos pesos ωc
e das constantes β e γ foi desenvolvida considerando apenas uma entre as restrições
h1, h2 e h3, conforme pode ser visto na �gura 5.3. Uma interface mais completa está
prevista na evolução futura deste trabalho.
5. Aplicação dos modelos 42
(a) 1 geração (b) 5 gerações
(c) 10 gerações (d) 50 gerações
Figura 5.2: Evolução da busca via algoritmos genéticos para o problema de otimizaçãosimpli�cado. Curvas de nível geradas pela estimativa de LE do modelo MLP comseleção de variáveis forward stepwise. Cores representam as distâncias, 0.1 (verde) a1.0 (cinza).
5. Aplicação dos modelos 43
Figura 5.3: Interface do otimizador desenvolvido.
Capítulo 6
Conclusões e propostas de
continuidade
Devido à disponibilidade de dados, computadores de alto desempenho e de novos algo-
ritmos de aprendizado de máquina, os modelos baseados em dados tem ganhado espaço
frente aos modelos baseados em equações físicas. No segmento siderúrgico, há ainda
um grande espaço a ser explorado, não somente no que tange ao desenvolvimento de
modelos orientados a dados mas também às diversas possibilidades de aplicação de tais
modelos visando a simulação, monitoramento e otimização da cadeia produtiva. Este
trabalho reuniu diversas técnicas de inteligência computacional como uma metodologia
para o desenvolvimento e implantação desses tipos de modelos. Essa metodologia foi
aplicada com o intuito de explorar as melhores formas para mapear as relações entre
os parâmetros de fabricação e as propriedades mecânicas dos tubos de aço sem costura
temperados nas planta da Vallourec Soluções Tubulares do Brasil.
Os resultados obtidos para os modelos de predição para o limite de escoamento, a
resistência à tração e dureza atingiram as expectativas das equipes do processo produ-
tivo. Com relação ao estudo da resistência à corrosão, o classi�cador obtido necessita
de melhorias para alcançar o desempenho desejado. Isso pode ser alcançado por meio
da inclusão de mais variáveis de entrada ao classi�cador como, por exemplo, os resul-
tados dos ensaios de tração e dureza que �cam disponíveis bem antes do resultado do
teste de corrosão.
As técnicas de seleção automática de variáveis utilizadas baseiam-se no uso de mo-
delos simples e de baixo custo computacional: regressões lineares múltiplas e classi�ca-
dores ingênuos de Bayes. O desempenho desses modelos foi utilizado como índice para
a eliminação de variáveis utilizando o método forward stepwise selection e backward
stepwise selection. Além disso, a seleção automática foi comparada à seleção de variá-
veis feita por especialistas do processo produtivo em estudo. O bom desempenho dos
44
6. Conclusões e propostas de continuidade 45
modelos obtidos com as variáveis selecionadas automaticamente mostra que é possível
fazer uma boa escolha de variáveis por meio de tais técnicas. Isso foi con�rmado pelo
desempenho superior dos modelos obtidos com as variáveis selecionadas automatica-
mente ou pelo desempenho semelhante mas com um conjunto menor de variáveis em
comparação com a seleção manual.
Com relação às diferentes técnicas de modelagem utilizadas, todas apresentaram
métricas de desempenho muito semelhantes. Como regra geral, os diferentes conjuntos
de variáveis selecionadas geraram mais impacto no desempenho dos modelos do que
as diferentes técnicas de modelagem. Algumas exceções à essa regra foram: o baixo
desempenho do método random forest para a predição dos resultados do ensaio de
tração da família 01 e o melhor desempenho dos métodos baseados em árvores de
decisão para a predição do resultado do teste de resistência à corrosão. Outro ponto
observado foi que, para os problemas de regressão, os métodos baseados em árvores
(principalmente o random forest) apresentaram di�culdades para a predição de valores
localizados nos extremos das faixas das propriedades mecânicas estudadas. Isso é,
provavelmente, uma limitação dessa classe de métodos, uma vez que, as predições
dos valores extremos acabam sendo feitas sempre como as médias dos ramos mais
externos das árvores. Isso di�culta a predição das faixas extremas que detêm uma
menor população de pontos para treinamento e reduz a capacidade de extrapolação
desses tipos de modelos.
Com relação à aplicação dos modelos na planta industrial em questão, foram de-
senvolvidas funções de integração com os sistemas industriais existentes e interfaces de
simulação para o estudo de cenários e avaliação de melhorias de processo. Além disso,
a modelagem matemática de um problema de otimização dos parâmetros de fabricação
foi apresentada e com a elaboração de um protótipo simpli�cado com solução por meio
de algoritmos genéticos. Todas as aplicações mostraram ótimo potencial de ganhos
mas precisam de desenvolvimentos adicionais e maior uso por parte dos especialistas
do processo.
Finalmente, sugere-se a continuidade do trabalho de otimização com a exploração
de uma abordagem multiobjetivo para a solução do problema, visando a busca de
um conjunto Pareto ótimo de soluções para o par custo x produtividade da linha de
tratamento térmico.
Apêndice A
Resultados para a família 02
A.1 Limite de escoamento
Tabela A.1: Métricas de desempenho obtidas para os modelos de predição do limite deescoamento da Família 02.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 14.96 0.67 12.29 1.535 0.106 1.424 15RF Back. 15.71 0.64 12.22 2.151 0.109 1.888 15XGB Back. 14.79 0.68 11.57 2.341 0.101 1.682 15MLP Back. 15.58 0.65 12.48 2.537 0.109 2.254 15LM Forw. 11.67 0.81 9.32 1.674 0.05 1.401 10RF Forw. 13.13 0.76 10.45 1.892 0.047 1.62 10XGB Forw. 12.46 0.78 9.79 2.067 0.068 1.404 10MLP Forw. 12.23 0.79 9.72 2.122 0.049 1.466 10LM Manual 13.66 0.73 11.05 1.591 0.057 1.644 8RF Manual 13.96 0.72 11.22 1.761 0.045 1.501 8XGB Manual 13.8 0.73 10.85 1.781 0.056 1.417 8MLP Manual 13.43 0.74 10.5 2.02 0.091 1.671 8
46
A. Resultados para a família 02 47
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura A.1: Grá�cos de dispersão das estimativas dos modelos versus os valores reais- limite de escoamento - família 02.
A. Resultados para a família 02 48
Figura A.2: Comparação grá�ca (boxplot) RMSE dos modelos para o limite de escoa-mento da família 02.
A.2 Resistência à tração
Tabela A.2: Métricas de desempenho obtidas para os modelos de predição da resistênciaà tração da Família 02.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 12.39 0.69 9.96 1.977 0.101 1.443 15RF Back. 13.59 0.63 10.7 2.259 0.115 1.962 15XGB Back. 12.96 0.66 10.09 2.45 0.105 1.905 15MLP Back. 13.77 0.62 11.07 2.642 0.111 1.936 15LM Forw. 11.19 0.75 8.96 1.891 0.065 1.497 9RF Forw. 12.07 0.72 9.66 2.444 0.066 1.981 9XGB Forw. 11.47 0.74 9.14 2.134 0.061 1.795 9MLP Forw. 11.69 0.73 9.4 2.031 0.059 1.584 9LM Manual 12.96 0.67 10.6 1.929 0.065 1.659 8RF Manual 12.8 0.68 10.31 2.041 0.05 1.521 8XGB Manual 12.65 0.69 10.08 1.821 0.053 1.31 8MLP Manual 12.46 0.7 9.85 2.239 0.063 1.888 8
A. Resultados para a família 02 49
Figura A.3: Comparação grá�ca (boxplot) RMSE dos modelos para a resistência àtração da família 02.
A. Resultados para a família 02 50
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura A.4: Grá�cos de dispersão das estimativas dos modelos versus os valores reais- resistência á tração - família 02.
Apêndice B
Resultados para a família 03
B.1 Limite de escoamento
Tabela B.1: Métricas de desempenho obtidas para os modelos de predição do limite deescoamento da Família 03.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 9.11 0.92 7.42 0.972 0.02 1.054 5RF Back. 12.55 0.86 9.21 2.6 0.051 2.226 5XGB Back. 10.77 0.89 8.3 3.036 0.068 1.86 5MLP Back. 8.54 0.93 6.98 0.963 0.017 1.047 5LM Forw. 8.59 0.93 7.09 0.774 0.023 0.833 9RF Forw. 8.84 0.92 7.08 2.122 0.049 1.444 9XGB Forw. 8.38 0.93 6.74 1.682 0.036 1.257 9MLP Forw. 8.65 0.93 6.99 1.584 0.038 1.526 9LM Manual 9.78 0.83 7.81 1.389 0.23 1.15 8RF Manual 9.07 0.86 7.23 1.447 0.177 1.052 8XGB Manual 8.67 0.89 7.02 1.714 0.085 1.435 8MLP Manual 8.81 0.84 6.98 1.37 0.236 1.27 8
51
B. Resultados para a família 03 52
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura B.1: Grá�cos de dispersão das estimativas dos modelos versus os valores reais- limite de escoamento - família 03.
B. Resultados para a família 03 53
Figura B.2: Comparação grá�ca (boxplot) RMSE dos modelos para o limite de escoa-mento da família 03.
B.2 Resistência à tração
Tabela B.2: Métricas de desempenho obtidas para os modelos de predição da resistênciaà tração da Família 03.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 8.32 0.92 6.63 0.596 0.028 0.376 7RF Back. 9 0.9 7.02 1.242 0.041 0.916 7XGB Back. 8.06 0.92 6.23 1.788 0.042 1.232 7MLP Back. 8.55 0.91 6.85 0.759 0.033 0.705 7LM Forw. 11.99 0.85 8.9 3.459 0.081 1.605 5RF Forw. 11.56 0.87 8.53 2.671 0.04 1.383 5XGB Forw. 11.82 0.87 8.74 3.759 0.045 1.739 5MLP Forw. 12.09 0.85 9 4.077 0.085 1.912 5LM Manual 8.6 0.83 7.01 1.409 0.232 1.276 8RF Manual 8.57 0.82 6.96 1.523 0.247 1.26 8XGB Manual 8.32 0.83 6.59 1.361 0.251 0.892 8MLP Manual 8.71 0.82 6.82 1.121 0.257 0.891 8
B. Resultados para a família 03 54
Figura B.3: Comparação grá�ca (boxplot) RMSE dos modelos para a resistência àtração da família 03.
B. Resultados para a família 03 55
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura B.4: Grá�cos de dispersão das estimativas dos modelos versus os valores reais- resistência à tração - família 03.
B. Resultados para a família 03 56
B.3 Dureza
Tabela B.3: Métricas de desempenho obtidas para os modelos de predição da durezada Família 03.
Modelo Sel.Var. RMSE R2 MAE RMSE desv. R2 desv. MAE desv. N.VarLM Back. 4.69 0.87 3.64 1.278 0.077 0.93 10RF Back. 5.06 0.85 3.9 1.392 0.08 1.022 10XGB Back. 5.27 0.84 3.93 1.287 0.078 0.856 10MLP Back. 4.87 0.87 3.91 1.144 0.067 0.938 10LM Forw. 4.55 0.89 3.62 0.976 0.067 0.845 6RF Forw. 4.95 0.86 3.85 1.019 0.114 0.735 6XGB Forw. 4.91 0.86 3.79 0.916 0.122 0.719 6MLP Forw. 4.63 0.87 3.71 1.122 0.118 0.95 6LM Man. 4.16 0.88 3.23 0.787 0.064 0.513 8RF Man. 4.34 0.87 3.44 0.74 0.052 0.512 8XGB Man. 4.46 0.86 3.39 0.823 0.067 0.575 8MLP Man. 4.15 0.88 3.23 0.871 0.069 0.64 8
Figura B.5: Comparação grá�ca (boxplot) RMSE dos modelos para a dureza da família03.
B. Resultados para a família 03 57
(a) LM - forward selection (b) LM - backward selection (c) LM - seleção manual
(d) MLP - forward selection (e) MLP - backward selection (f) MLP - seleção manual
(g) GB - forward selection (h) GB - backward selection (i) GB - seleção manual
(j) RF - forward selection (k) RF - backward selection (l) RF - seleção manual
Figura B.6: Grá�cos de dispersão das estimativas dos modelos versus os valores reais- Dureza - família 03.
Referências Bibliográ�cas
Agrawal, A., Deshpande, P. D., Cecen, A., Basavarsu, G. P., Choudhary, A. N., and
Kalidindi, S. R. (2014). Exploration of data science techniques to predict fatigue
strength of steel from composition and processing parameters. Integrating Materials
and Manufacturing Innovation, 3(1):8.
Aguirre, L. (2007). Introdução à identi�cação de sistemas: técnicas lineares e não
lineares aplicadas a sistemas reais. UFMG.
Bergmeir, C. and Benítez, J. M. (2012). Neural networks in R using the stuttgart
neural network simulator: RSNNS. Journal of Statistical Software, 46(7):1�26.
Braga, A. (2007). Redes neurais arti�ciais: teoria e aplicações. LTC Editora.
Callister, W. (2007). Materials science and engineering: an introduction. John Wiley
& Sons.
Chang, W., Cheng, J., Allaire, J., Xie, Y., and McPherson, J. (2017). shiny: Web
Application Framework for R. R package version 1.0.5.
Chen, T., He, T., Benesty, M., Khotilovich, V., and Tang, Y. (2017). xgboost: Extreme
Gradient Boosting. R package version 0.6-4.
Chiaverini, V. (1986). Tecnologia mecânica: processos de fabricação e tratamento.
McGraw-Hill.
Corrêa, R. (2014). Modelagem do processo de revenimento utilizando redes neurais
arti�ciais.
Gomes, C., Kaiser, A.-L., Bas, J.-P., Aissaoui, A., and Piette, M. (2010). Predicting
the mechanical properties of a quenched and tempered steel thanks to a tempering
parameter. Rev. Metall., 107(7).
Guyon, I., Gunn, S., Nikravesh, M., and Zaded, L. (2006). Feature Extraction Foun-
dations and Applications. SpringerVelag.
58
B. Resultados para a família 03 59
Haykin, S. (1999). Neural networks: a comprehensive foundation. Prentice Hall.
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to
Statistical Learning. Springer Science+Business Media.
Liaw, A. and Wiener, M. (2002). Classi�cation and regression by randomforest. R
News, 2(3):18�22.
Majka, M. (2018). naivebayes: High Performance Implementation of the Naive Bayes
Algorithm. R package version 0.9.2.
Montgomery, D. and Runger, G. (2003). Estatística aplicada e probabilidade para en-
genheiros. LTC.
NACE TM0177 (2005). Laboratory tests of metal resistance to sul�de stress cracking
and stress corrosion cracking in h2s environments. Standard, NACE International,
Houston, TX, USA.
Pattanayak, S., Dey, S., Chatterjee, Chowdhury, S., and Datta, S. (2015). Compu-
tational intelligence based designing of microalloyed pipeline steel. Computational
Materials Science, 104:60�68.
R Core Team (2017a). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria.
R Core Team (2017b). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria.
Rao, S. (2009). Engineering optimization : theory and practice. John Wiley & Sons.
Rizzo, E. (2007). Processos de laminação dos aços: Uma Introdução. ABM.
Sampaio, P., Corrêa, R., and Braga, A. (2015). Modelagem das propriedades mecânicas
de tubos de aço utilizando redes neurais arti�ciais. In Automation and IT Seminar.
ABM.
Scrucca, L. (2013). GA: A package for genetic algorithms in R. Journal of Statistical
Software, 53(4):1�37.
Trestle Technology, LLC (2017). plumber: An API Generator for R. R package version
0.4.4.