Modelação da digestão anaeróbia da ETAR da Guia com
Redes Neuronais Arti�ciais
Liliana Mafalda Soares Fernandes
Dissertação para obtenção do Grau de Mestre em
Engenharia Biológica
Orientadores: Professora Helena Maria Rodrigues Vasconcelos Pinheiro e Engenheira
Catarina Correia
Júri
Presidente: Professor Arsénio do Carmo Sales Mendes Fialho
Orientador: Professora Helena Maria Rodrigues Vasconcelos Pinheiro
Vogal: Doutora Nídia Dana Mariano Lourenço de Almeida
Novembro 2014
ii
Agradecimentos
Gostaria de agradecer a todos aqueles que estiveram presentes e de alguma forma contribuíram para esta
tese.
Gostaria de agradecer à Professora Helena Maria Pinheiro, minha orientadora, pelo apoio, con�ança,
orientação, simpatia e acessibilidade.
Ao Professor José Cardoso de Menezes, como co-orientador, pelas ideias e sugestões.
Gostaria ainda de expressar os meus agradecimentos a todos os colaboradores da SANEST, em especial,
ao Engenheiro João Santos Silva por todo o apoio oferecido na análise dos aspectos técnicos da ETAR da
Guia.
Gostaria igualmente de agradecer à Engenheira Catarina Correia da SANEST, minha orientadora externa,
bem como à Engenheira Fátima Paixão, também da SANEST pela assistência técnica, prestada durante
este projecto, bem como, por estarem sempre dispostas a ajudar em qualquer questão. À simpatia sempre
demonstrada e na disponibilização das informação e dados solicitados.
Aos Engenheiros Nuno Brôco e José Gascão, da Direcção de Engenharia das Águas de Portugal, pela
concretização deste projecto, no qual tive muito gosto em participar.
Aos meus pais pelo apoio constante ao longo do meu percurso académico, ao meu irmão pelo seu
constante encorajamento.
A todos os meus colegas e amigos de curso, em particular a: Catarina Cabanas, Ana Castanheiro, Marisa
Clemente e Andreia Correia e aos demais colegas pelo companheirismo, apoio e amizade.
Em especial, agradeço também às minhas colegas e amigas: Madalena Testas e Marina Esteves pela
amizade, paciência, apoio e pela cumplicidade.
Ao meu amigo João Vieira, pelo auxílio em questões informáticas, pelas críticas e apoio no decorrer
desta tese. Pela presença e paciência constantes, pelo encorajamento e apoio nos momentos mais difíceis
ao longo do meu percurso académico.
iii
iv
�In God we trust;
all others must bring data.�
- W. Edwards Deming
�All models are wrong,
but some are useful.�
- George E. P. Box
v
vi
Resumo
As redes neuronais arti�ciais (RNA) são uma das mais recentes técnicas utilizadas na modelação e previsão
de problemas complexos, que não podem ser tratados de forma e�caz com soluções convencionais. Um
exemplo deste tipo de problemas é a digestão anaeróbia. O presente estudo utiliza as RNA como uma
técnica de previsão da produção de metano nos digestores anaeróbios da ETAR da Guia localizada em
Cascais, Portugal. Os dados operacionais da ETAR durante um período de 12 meses foram recolhidos e
utilizados na análise. O estudo considerou o efeito dos seguintes parâmetros operacionais dos digestores:
caudal de entrada de lamas nos digestores, caudal de entrada de lamas que chegam à Fase Sólida dos
tratamentos da ETAR em estudo, a percentagem e a carga de sólidos totais de entrada nos digestores. Para
a previsão da produção de metano foi construído um modelo com RNA, com uma camada escondida, 30
nós e com um limite máximo de 600 iterações. O treino e teste do modelo com RNA foi efectuado com
dados relativos aos primeiros nove meses. Na construção do modelo, o desempenho obtido no conjunto
de teste foi de 9;84% de erro normalizado médio e um coe�ciente de determinação (R2) médio de 0;86.
Posteriormente, o modelo foi validado com dados que não foram utilizados durante as fases de treino e teste
da construção do modelo (últimos três meses dos dados), demonstrando a e�cácia do modelo para prever
a produção de metano, com um R2 de 0;79 e um erro normalizado de 11;6%.
Palavras-chave: Biogás, Previsão, Modelação, Redes Neuronais Arti�ciais, Digestão Anaeróbia
vii
viii
Abstract
Arti�cial neural networks (ANN) are one of the latest tools used to model and predict complex problems,
that cannot be treated using conventional solutions. An example of such problems is the anaerobic digestion.
This study uses the ANN to model and predict the production of methane in the anaerobic digesters of the
WWTP of Guia located in Cascais, Portugal. Operational data of the plant for a period of 12 months was
collected and employed in the analysis. The study considered the following digesters operational parameters:
Input sludge �ow in the digesters, input sludge �ow in the Solid Phase of the treatments of the WWTP
in study, the input percentage and load of total solids in the digesters. For predicting the production of
methane, a model with ANN was built, with one hidden layer containing 30 neurons and a maximum of
600 iterations. The training and testing parts of the construction of the model were performed with the
�rst 9 months of the data. During the construction of the model, the prediction of the testing set had a
mean normalized error of 9;84% and a mean coe�cient of determination (R2) of 0;86. The model was then
validated with the data that was not used during the training and testing phases of the construction of the
model (last 3 months of the data), demonstrating the e�ectiveness of the model to predict the production
of methane, with a R2 of 0;79 and a normalized error of 11;6%.
Keywords: Biogas, Prediction, Modeling, Arti�cial neural networks, Anaerobic Digestion
ix
x
Conteúdo
1 Motivação e objectivos 1
2 Introdução e revisão bibliográ�ca 4
2.1 Tratamento de águas residuais e conservação de recursos . . . . . . . . . . . . . . . . . . . 4
2.1.1 Tratamento de águas residuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2 Tratamento da fase sólida (lamas) . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Digestão Anaeróbia (DA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Modelação estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Introdução à modelação �data driven� . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Pré-tratamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2.1 Necessidade do pré-tratamento dos dados . . . . . . . . . . . . . . . . . 11
2.2.2.2 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2.3 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2.4 Análise de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Análise de componentes principais (PCA - Principal Component Analysis) . . . . . . 14
2.2.3.1 De�nição do método de PCA . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3.2 Contribuição e Interpretação de cada componente principal . . . . . . . . 14
2.2.3.3 Representação grá�ca dos componentes principais . . . . . . . . . . . . . 15
2.2.3.4 Scores Plot e Loadings Plot . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 Mínimos quadrados parciais (PLS - Partial least squares) . . . . . . . . . . . . . . . 17
2.2.4.1 De�nição do método de PLS . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4.2 Representação grá�ca do método PLS . . . . . . . . . . . . . . . . . . . 17
2.2.4.3 Scores e pesos (weights) . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.4 Validação cruzada (Cross-validation) . . . . . . . . . . . . . . . . . . . . 20
2.2.5 Redes neuronais arti�ciais (RNA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.5.1 Modelo de um neurónio biológico . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5.2 Modelo de um neurónio arti�cial . . . . . . . . . . . . . . . . . . . . . . 22
2.2.5.3 Tipos de redes neuronais arti�ciais . . . . . . . . . . . . . . . . . . . . . 22
2.2.5.4 Tipos de aprendizagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
xi
2.2.5.4.1 Aprendizagem supervisionada . . . . . . . . . . . . . . . . . . . 23
2.2.5.4.2 Aprendizagem não-supervisionada . . . . . . . . . . . . . . . . . 23
2.2.5.5 Regras de adaptação dos pesos . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.5.6 Rede perceptron multi-camada (Perceptron Multi-Layer - MLP) . . . . . 24
2.2.5.6.1 Número de entradas . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5.6.2 Número de camadas escondidas e de nós nestas camadas . . . . 25
2.2.5.6.3 Número de saídas . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5.6.4 Função de activação . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.5.6.5 Algoritmo de treino . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.5.6.6 Normalização dos dados . . . . . . . . . . . . . . . . . . . . . . 27
2.2.5.6.7 Conjunto de treino e conjunto de teste . . . . . . . . . . . . . . 27
2.2.5.6.8 Medidas de desempenho . . . . . . . . . . . . . . . . . . . . . . 27
2.2.5.7 Estado da arte da modelação/optimização em processos relacionados com
a DA utilizando RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Case Study: ETAR da Guia 31
3.1 Breve descrição da ETAR da Guia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Diagramas processuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Diagrama global dos processos na ETAR . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.2 Diagrama de processos do tratamento preliminar . . . . . . . . . . . . . . . . . . . 32
3.2.3 Diagrama de processos do tratamento primário . . . . . . . . . . . . . . . . . . . . 33
3.2.4 Diagrama de processos do tratamento para reutilização . . . . . . . . . . . . . . . 33
3.2.5 Diagrama de processos do tratamento de lamas . . . . . . . . . . . . . . . . . . . . 34
4 Materiais e métodos 40
4.1 Apresentação dos dados disponíveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Esquema global das várias etapas efectuadas no tratamentos dos dados e na construção dos
modelos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Aplicações e bibliotecas utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5 Resultados 45
5.1 Pré-tratamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.1 Histogramas e boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.2 Eliminação de outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Tratamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Coe�cientes de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.2 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Modelos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.1 PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
xii
5.3.2 RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3.2.1 Treino e teste dos modelos de previsão com os dados entre Agosto de
2013 e Abril de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3.2.1.1 Validação do modelo de previsão com os dados de Maio, Junho
e Julho de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3.2.2 Re-Treino e re-teste do modelo de previsão com a introdução dos meses
de Maio e Junho de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.2.2.1 Validação do modelo de previsão com os dados de Julho de 2014 74
6 Conclusões e Trabalho futuro 76
6.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.2 Trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Bibliogra�a 79
A Características das medições fornecidas relacionadas com o espessamento e desidratação 83
B Boxplots relacionados com a entrada na FS e com a digestão 87
C Outliers removidos entre Agosto de 2013 e Abril de 2014 98
D Loadings plot da análise PCA sem normalização das entradas 102
E Histogramas dos dados todos, dos dados de treino e dos dados de teste, na técnica PLS 103
F PCA de variáveis de entrada, para usar os scores como entradas num modelo de RNA 104
G Escolha do número de iterações e do número de nós óptimo pela métrica R2 e pela média 105
H Outliers removidos em Maio de 2014 e Junho de 2014 106
I Treino e teste dos modelos de previsão só com dados de verão 107
I.1 Validação do modelo com os dados de Julho de 2014 . . . . . . . . . . . . . . . . . . . . . 107
xiii
xiv
Lista de Tabelas
2.1 Exemplo de uma matriz de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Modelos de RNA, presentes na literatura, aplicados a problemas relacionados com a DA . . 30
4.1 Tipo de medições facultadas bem como o respectivo local de amostragem. . . . . . . . . . 41
5.1 Características das medições de caudal e % de metano relacionadas com a digestão, e
características da medição de caudal à entrada da FS . . . . . . . . . . . . . . . . . . . . . 46
5.2 Características das medições de %ST e %SV relacionadas com a digestão . . . . . . . . . . 47
5.3 Características das medições de alcalinidade e AGV relacionadas com a digestão . . . . . . 48
5.4 Características das medições da razão AGV/Alcalinidade, pH e temperatura relacionadas
com a digestão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.5 Número de dados de cada variável após agrupamento dos dados dos três digestores . . . . . 54
5.6 Matriz de correlações das variáveis selecionadas a usar nas análises futuras . . . . . . . . . 54
5.7 Matriz de correlações de parte das variáveis selecionadas com a adição das novas variáveis:
carga de ST de entrada e produção de metano . . . . . . . . . . . . . . . . . . . . . . . . 56
5.8 Matriz de correlações da restante parte das variáveis selecionadas com a adição das novas
variáveis: carga de ST de entrada e produção de metano . . . . . . . . . . . . . . . . . . . 56
5.9 Peso das variáveis nos componentes principais e fracção da variância explicada por estes. . . 58
5.10 Características dos modelo PLS com as variáveis de entrada: QE, pST_E, Carga_ST_E e
Qentrada_FS, variando o número de componentes . . . . . . . . . . . . . . . . . . . . . . 63
5.11 Medidas de desempenho dos modelos PLS, com um componente, usando as seguintes va-
riáveis de entrada: QE, pST_E, Carga_ST_E e Qentrada_FS . . . . . . . . . . . . . . . 63
5.12 Peso das variáveis no componente do modelo PLS para a previsão da produção de metano . 64
5.13 Medidas de desempenho da análise multivariada e análise univariada dos modelos PLS para
prever a produção de metano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.14 Características dos modelos de previsão construídos com a técnica de PLS, para prever a
produção de metano usando diferentes variáveis de entrada. . . . . . . . . . . . . . . . . . 65
5.15 Características dos vários modelos de RNA efectuados para a previsão da produção de metano. 69
5.16 Características dos vários modelos RNA construídos, adicionando mais variáveis à �melhor�
rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
xv
5.17 Características dos vários modelos RNA construídos, variando certos parâmetros à �melhor�
rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.18 Medidas de desempenho da �melhor� rede na previsão dos meses de Maio, Junho e Julho de
2014. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.19 Características do melhor modelo escolhido usando os dados todos até Junho de 2014 para
treino e teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.20 Medidas de desempenho, do modelo que foi o treinado e testado com os meses entre Agosto
de 2013 a Junho de 2014, na previsão do mês de Julho de 2014. . . . . . . . . . . . . . . . 75
A.1 Características das medições de %ST e %SV relacionadas com o espessamento e a desidratação 83
A.2 Características das medições de caudal relacionadas com o espessamento e a desidratação . 86
C.1 Outliers retirados correspondentes aos dias das intervenções efectuadas, para os dados entre
Agosto de 2013 e Abril de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
C.2 Dia e mês dos outliers retirados após se retirar os dias das intervenções e possível causa da
sua ocorrência para os dados entre Agosto de 2013 e Abril de 2014 . . . . . . . . . . . . . 98
C.3 Número de dados: iniciais, sem os dias das intervenções e sem os restantes outliers para
cada variável relacionada com a digestão, para os dados entre Agosto de 2013 e Abril de 2014.101
F.1 Peso das variáveis nos componentes principais e fracção que os componentes explicam da
variância, de forma a usar-se os scores como entradas num modelo de RNA. . . . . . . . . 104
H.1 Outliers retirados referidos aos mês de Maio de 2014 e Junho de 2014. . . . . . . . . . . . 106
I.1 Características do melhor modelo RNA escolhido usando só os dados de verão para treino e
teste do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
I.2 Medidas de desempenho para a previsão do mês de Julho, usando só os dados de verão no
conjunto de treino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
xvi
Lista de Figuras
2.1 Esquema das etapas de formação de biogás na digestão anaeróbia . . . . . . . . . . . . . . 9
2.2 Exemplo de um histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Exemplo grá�co da de�nição de IQR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Representação das partes de um boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Esquema do princípio da técnica PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Representação de um conjunto de dados a três dimensões . . . . . . . . . . . . . . . . . . 15
2.7 Representação de um conjunto de dados a três dimensões e os dois primeiros PCs . . . . . 15
2.8 Exemplo de um scores plot e de um loadings plot . . . . . . . . . . . . . . . . . . . . . . . 16
2.9 Esquema da decomposição de matrizes da técnica PLS . . . . . . . . . . . . . . . . . . . 17
2.10 Exemplo da representação das observações na técnica PLS . . . . . . . . . . . . . . . . . . 18
2.11 Exemplo da representação das observações na técnica PLS e do primeiro componente . . . 18
2.12 Esquema das relações entre as matrizes da técnica PLS . . . . . . . . . . . . . . . . . . . 19
2.13 Estrutura de um neurónio biológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.14 Estrutura de um neurónio arti�cial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.15 Os dois tipos de propagação da informação recebida em redes neuronais arti�cias . . . . . . 23
2.16 Classi�cação estrutural e funcional de redes neuronais arti�ciais . . . . . . . . . . . . . . . 24
3.1 Diagrama global dos processos da ETAR da Guia. . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Diagrama dos processos do tratamento preliminar da ETAR da Guia. . . . . . . . . . . . . 36
3.3 Diagrama dos processos do tratamento primário da ETAR da Guia. . . . . . . . . . . . . . 37
3.4 Diagrama dos processos do tratamento para reutilização da ETAR da Guia. . . . . . . . . . 38
3.5 Diagrama dos processos do tratamento de lamas (na FS) da ETAR da Guia. . . . . . . . . 39
4.1 Diagrama das etapas que compuseram o tratamento dos dados e a construção dos modelos
de previsão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Histogramas e boxplots dos caudais de lamas de entrada em cada digestor . . . . . . . . . 51
5.2 Representação grá�ca de cada uma das variáveis selecionadas a usar nas análises futuras,
contras as restantes para se analisar correlações lineares. . . . . . . . . . . . . . . . . . . . 55
5.3 Representação grá�ca de parte das variáveis selecionadas, umas contras as outras, com a
adição das novas variáveis: carga de ST de entrada e produção de metano . . . . . . . . . 57
xvii
5.4 Representação grá�ca da restante parte das variáveis selecionadas, umas contras as outras,
com a adição das novas variáveis: carga de ST de entrada e produção de metano . . . . . . 57
5.5 Scores plot com os digestores destacados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.6 Scores plot com as estações do ano: verão e inverno, destacadas. . . . . . . . . . . . . . . 60
5.7 Scores plot com os meses das intervenções destacados. . . . . . . . . . . . . . . . . . . . . 60
5.8 Loadings plot para os primeiros três PCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.9 Produção de metano real versus prevista com um modelo PLS . . . . . . . . . . . . . . . . 64
5.10 RMSE do teste do modelo de RNA versus número de iterações, para diferentes nós . . . . 68
5.11 RMSE do teste do modelo de RNA versus número de nós, para o número máximo de 600
iterações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.12 Valores previstos e reais da produção de metano, para o treino do �melhor� modelo obtido
anteriormente, com os dados entre Agosto de 2013 e Abril de 2014 e para a validação do
modelo com os meses de Maio, Junho e Julho de 2014, para cada digestor. . . . . . . . . . 74
B.1 Histogramas e boxplots do caudal de entrada na FS e da % de metano. . . . . . . . . . . . 87
B.2 Histogramas e boxplots da % ST e de % SV de entrada nos digestores. . . . . . . . . . . . 88
B.3 Histogramas e boxplots dos caudais de saída de biogás em cada digestor . . . . . . . . . . 89
B.4 Histogramas e boxplots da % ST de saída nos três digestores. . . . . . . . . . . . . . . . . 90
B.5 Histogramas e boxplots da % SV de saída nos três digestores. . . . . . . . . . . . . . . . . 91
B.6 Histogramas e boxplots da alcalinidade de saída nos três digestores. . . . . . . . . . . . . . 92
B.7 Histogramas e boxplots dos AGV de saída nos três digestores. . . . . . . . . . . . . . . . . 93
B.8 Histogramas e boxplots da alcalinidade, AGV e razão AGV/Alcalinidade de entrada nos três
digestores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
B.9 Histogramas e boxplots da razão AGV/Alcalinidade de saída nos três digestores. . . . . . . 95
B.10 Histogramas e boxplots do pH nos três digestores. . . . . . . . . . . . . . . . . . . . . . . 96
B.11 Histogramas e boxplots da temperatura nos três digestores. . . . . . . . . . . . . . . . . . 97
D.1 Loadings plot da análise de PCA sem as entradas normalizadas . . . . . . . . . . . . . . . 102
E.1 Histogramas para o conjunto original, conjunto de treino e teste para os dados da produção
de metano relacionadas com o melhor modelo obtido pela técnica PLS. . . . . . . . . . . . 103
G.1 Escolha do número de iterações e do número de nós óptimo pela métrica R2 e pela média,
aquando a construção dos modelos, com a técnica RNA . . . . . . . . . . . . . . . . . . . 105
xviii
Capítulo 1
Motivação e objectivos
Nos últimos anos, o tratamento de águas residuais tem criado grandes desa�os económicos e ambientais
[Khalid et al., 2011]. Um desses desa�os é a rejeição de resíduos orgânicos sólidos [Hilkiah Igoni et al.,
2008], um produto �nal do tratamento das águas residuais e, que se tornou num problema de poluição
como resultado do aumento de problemas de saúde pública e da crescente consciencialização ambiental da
sociedade em geral. Tem havido, por isso, uma forte necessidade em encontrar formas de transformar estes
resíduos em produtos �nais úteis.
Hoje em dia, estes resíduos orgânicos sólidos são reconhecidos como um recurso valioso que pode ser
convertido em produtos úteis por meio de transformações mediadas por microrganismos. Existem vários
métodos disponíveis para o tratamento de resíduos orgânicos mas a digestão anaeróbia é a abordagem mais
atractiva [Khalid et al., 2011].
A digestão anaeróbia de resíduos orgânicos em aterros liberta os gases metano e dióxido de carbono que
escapam para a atmosfera e poluem o meio ambiente. Em condições controladas, nomeadamente numa
ETAR, estes gases, que se formam na digestão anaeróbia e que são o componente principal do biogás,
podem ser usados como biocombustível pela ETAR para suprir necessidades energéticas.
Os resíduos sólidos tratados podem ser usados como fertilizantes [Khalid et al., 2011; Hilkiah Igoni et al.,
2008]. Entre as vantagens da digestão anaeróbia, está o potencial deste processo para reduzir a poluição
ambiental: o facto deste processo ser efectuado num ambiente isolado previne emissões de metano para a
atmosfera, enquanto que a queima de metano liberta dióxido de carbono como carbono �neutro� (não tem
efeito no dióxido de carbono atmosférico e nos outros gases do efeito de estufa). Em comparação com os
combustíveis fosseis, o biogás apenas contribui marginalmente para a diminuição do ozono na estratosfera
e para as chuvas ácidas [Khalid et al., 2011].
A digestão anaeróbia permite inactivar ervas daninhas, bactérias (como Salmonella spp., Escherichia
coli, Listeria spp), vírus, fungos e outros parasitas presentes nas lamas à entrada da digestão e por isso
produz lamas digeridas mais adequadas para serem usadas como fertilizantes. A digestão anaeróbia também
resulta numa diminuição signi�cativa do potencial de putrefacção (até 80%) e numa mudança positiva na
composição dos odores [Comparetti et al., 2013].
1
Em suma, a digestão anaeróbia ajuda na diminuição da poluição do meio ambiente e, ao mesmo tempo,
os produtos formados no decorrer desta (biogás e biofertilizantes) podem ser usados de modo a diminuir
os gastos energéticos da ETAR e a valorizar os resíduos orgânicos. Dada a crescente preocupação pela
diminuição da dependência dos combustíveis fósseis e pela, também crescente, preocupação em reutilizar os
compostos formados no decorrer do tratamento de águas residuais, como é o caso do biogás, é evidente a
necessidade de métodos para controlar e optimizar o processo de formação de biogás. Este trabalho surge
dessa necessidade.
Em Sulaiman et al. [2010] é mencionada a di�culdade em determinar completamente as reacções que
ocorrem num digestor anaeróbio. Como tal, a modelação matemática mecanística do processo de digestão
anaeróbia torna-se difícil. Embora muitos modelos analíticos, principalmente os modelos cinéticos [Sulaiman
et al., 2010; Holubar et al., 2003], tenham sido desenvolvidos para descrever o tratamento anaeróbio, estes
não são rotineiramente utilizados para o controlo [Sulaiman et al., 2010], pela sua elevada complexidade e
parâmetros que, ou não têm solução exacta, ou têm uma solução extremamente difícil de encontrar [Sulai-
man et al., 2010]. Além disso, os modelos cinéticos são altamente afectados pelas condições ambientais,
tornando-os desadequados para outros tipos de substratos ou ambientes [Sulaiman et al., 2010].
Dada a necessidade de modelar este processo e a desadequação das soluções existentes, têm sido de-
senvolvidas novas metodologias para a modelação do tratamento anaeróbio de águas residuais, que fazem
uso de redes neuronais arti�ciais [Holubar et al., 2003, 2002; Strik et al., 2005; Rocha, 2013], algoritmos
genéticos associados a redes neuronais arti�ciais [Abu Qdais et al., 2010] e fuzzy systems [Domnanovich
et al., 2002; Waewsak et al., 2010; Turkdogan-Ayd�nol and Yetilmezsoy, 2010].
As redes neuronais arti�cias são modelos computacionais massivamente paralelos para a representação
de dados e processamento de informação [Abu Qdais et al., 2010]. Os modelos que usam redes neuronais
têm atributos que os tornam particularmente úteis em lidar com a maior parte dos problemas de simulação
e previsão, pois são capazes de aprender relações não-lineares altamente complexas e as associações de
um grande conjunto de dados devido à intrínseca não-linearidade, capacidade de adaptação, resistência a
interferências resultantes da existência de �ruído� nos dados, capacidade de generalização e robustez destes
modelos [Abu Qdais et al., 2010].
As redes neuronais arti�ciais são uma ferramenta muito útil de modelação que é capaz de capturar e
representar relação complexas entre entradas/saídas como no caso da digestão anaeróbia. Deste modo,
as redes neuronais são uma ferramenta e�ciente para controlar e simular o processo de digestão anaeróbia
nomeadamente na produção de biogás [Abu Qdais et al., 2010]. De acordo com Holubar et al. [2003],
as redes neuronais arti�ciais têm uma grande vantagem face aos outros métodos de previsão não-lineares
usados em bio-processos: não necessitam de nenhum conhecimento a priori sobre a estrutura e as relações
que existem entre as variáveis importantes.
O objectivo deste trabalho consiste na construção de modelos com o objectivo de prever e eventualmente
controlar e optimizar a produção de biogás e metano com recurso a redes neuronais arti�ciais.
Este documento está organizado da seguinte forma:
2
Capítulo 2 - Neste capitulo estão presentes os conceitos teóricos acerca dos tratamentos de águas residuais
bem como, os princípios teóricos das várias ferramentas utilizadas no tratamento dos dados.
Capítulo 3 - Neste capítulo é feita uma breve descrição da ETAR em estudo bem como dos vários trata-
mentos efectuado às águas residuais.
Capítulo 4 - Neste capítulo apresenta-se os dados com os quais se efectuou este trabalho bem como os
passos gerais do tratamento dos dados e da construção dos modelos de previsão.
Capítulo 5 - Neste capítulo mostram-se os resultados dos tratamentos dos dados bem como os resultados
dos vários modelos obtidos.
Capítulo 6 - Por �m, neste capítulo apresentam-se as conclusões deste trabalho bem como o sugestões
para trabalho futuro.
3
Capítulo 2
Introdução e revisão bibliográ�ca
2.1 Tratamento de águas residuais e conservação de recursos
2.1.1 Tratamento de águas residuais
Qualquer comunidade produz resíduos líquidos, sólidos e emite resíduos gasosos para a atmosfera. Os
resíduos líquidos, também conhecidos como águas residuais, são essencialmente águas resultantes da utili-
zação de recursos hídricos pela comunidade para vários �ns (rega, uso doméstico, etc). As águas residuais
podem ser de�nidas como a combinação dos e�uentes líquidos provenientes das residências, instituições,
estabelecimentos comerciais e industriais que se juntam a águas subterrâneas, super�ciais ou pluviais que
eventualmente possam estar presentes na rede colectora [Tchobanoglous et al., 2003].
Quando estas águas residuais não são tratadas e se acumulam, com o passar do tempo, começam a
entrar em sépsis, ou seja, a matéria orgânica presente começa a ser decomposta o que conduz a condições
incómodas incluindo a libertação de gases fétidos. Adicionalmente, as águas residuais não tratadas contêm
vários microrganismos patogénicos que habitam o tracto intestinal humano. Estas mesmas águas também
contêm nutrientes, o que pode estimular o crescimentos de plantas aquáticas que, em grande quantidades,
conduzem a um processo de eutro�zação dos cursos de água onde estas águas residuais são descarregadas.
Além disso, estas águas, podem conter compostos tóxicos ou compostos potencialmente cancerígenos ou
mutagénicos [Tchobanoglous et al., 2003]. Por estas razões, a remoção imediata destas águas dos pontos
onde são geradas e o seu posterior tratamento é essencial para proteger a saúde pública e o ambiente
[Tchobanoglous et al., 2003]. Após tratamento, o reuso ou a reinserção no meio ambiente e no ciclo natural
da água pode ser possível [Tchobanoglous et al., 2003].
O tratamento das águas residuais tem várias etapas e é composto por dois tipos de métodos de trata-
mento: métodos que usam predominantemente forças físicas e métodos de tratamento onde a remoção de
contaminantes é feita por reacções biológicas ou químicas [Tchobanoglous et al., 2003].
Estes dois métodos podem ser usados em conjunto para proporcionar vários níveis de tratamento com-
mumente designados por tratamento preliminar, primário, primário avançado, secundário (com ou sem a
remoção de nutrientes) e tratamento terciário (ou avançado). Os tipos de tratamento servem os propósitos
4
seguintes:
Tratamento preliminar Neste tratamento inicial faz-se a remoção de constituintes das águas residuais como
trapos, paus, troncos, materiais �utuantes, areias, pedras e gordura que podem acarretar problemas
operacionais como entupir bombas ou tubos mais pequenos nas operações decorrentes dos processos
de tratamento de águas residuais. Normalmente isto é conseguido através da passagem dos esgotos
por tratar por uma tela, que remove então os materiais sólidos grosseiros. A tela pode ter buracos
maiores ou mais pequenos conforme necessário. As telas são geralmente colocadas numa câmara
ou num canal e inclinadas para o �uxo das águas residuais no tratamento. A tela inclinada permite
capturar os detritos a montante desta e permite também o acesso para a limpeza manual ou mecânica.
Algumas ETAR possuem dispositivos como trituradores que combinam as função da tela e as funções de
triturador. Este dispositivos captam os sólidos e cortam ou trituram. No processo, a matéria triturada
permanece no �uxo de águas residuais para ser removida posteriormente na operação seguinte. Após
o esgoto ter passado pela tela, a parte líquida pode ser conduzida para a câmara onde areias, brita,
cinzas e pequenas pedras que não �caram retidas nas telas vão sedimentar. Os materiais removidos
neste tipo de tratamento devem ser recolhidos periodicamente e transportados para um aterro sanitário
para eliminação ou incineração [Tchobanoglous et al., 2003; EPA, 2004].
Tratamento primário Após a remoção de areia, pedras, etc, as águas residuais contêm ainda, matéria
orgânica dissolvida e sólidos em suspensão. Nesta etapa procede-se à sua remoção destes últimos.
Os sólidos em suspensão são partículas minúsculas e podem ser removidos por tratamentos tais como
sedimentação, coagulação química ou por �ltração. Os poluentes que se encontram dissolvidos ou são
muitos �nos e �cam suspensos na água residual, não são removidos de forma e�caz por sedimentação,
que usa a gravidade. Quando o esgoto entra num tanque de sedimentação os sólidos suspensos vão
gradualmente depositar-se no fundo. Esta massa de sólidos que se deposita no fundo do tanque de
sedimentação designa-se de lamas primárias. Existem vários métodos para remover as lamas primárias
dos tanques de sedimentação. Estações de tratamento recentes têm um tipo de equipamento mecânico
que remove estes sólidos do �nal por uma pá que raspa o fundo do tanque e encaminha estas lamas
para o tratamento seguinte. Algumas estações fazem este processo continuamente enquanto outras
fazem-no intermitentemente [Tchobanoglous et al., 2003; EPA, 2004].
Tratamento primário avançado Este tipo de tratamento, comparativamente ao primário normal, consegue
remover uma maior fracção de sólidos suspensos e matéria orgânica presentes nas águas residuais.
Normalmente é conseguido através de adição de agentes químicos ou �ltração [Tchobanoglous et al.,
2003].
Tratamento secundário Após o esgoto ter passado por vários processos no tratamento primário este vai
ser transportado para a etapa seguinte que é o tratamento secundário. Os processos de tratamento
secundário podem remover até 90% da matéria orgânica biodegradável (em solução ou em suspensão)
presente nas águas residuais, bem como sólidos suspensos que ainda estejam presentes. O método
5
principal usado no tratamento secundário é a degradação aeróbia da matéria orgânica por microrga-
nismos. Os dois métodos convencionais mais utilizados no tratamento secundário são os processos de
crescimento em que os microorganismo são �xos a suportes sólidos e os processos de crescimento em
que os microorganismo estão em suspensão [Tchobanoglous et al., 2003; EPA, 2004].
Tratamento secundário com remoção de nutrientes Pode ser feito um tratamento secundário que, além
da remoção dos orgânicos biodegradáveis e sólidos suspensos, também efectua a remoção de nutrientes
(azoto, fósforo ou ambos), geralmente, também através de métodos biológicos [Tchobanoglous et al.,
2003].
Tratamento Terciário Nesta etapa, ocorre a remoção de sólidos suspensos, que ainda se encontrem nas
águas residuais após tratamento secundário, normalmente por �ltração através de um �ltro com um
meio granular ou microtelas. Tipicamente, a desinfecção também é parte do tratamento terciário e
pode ser feita pela irradiação UV, adição de compostos de cloro, entre outros. A remoção avançada
de nutrientes é, também ela, por vezes incluída na de�nição de tratamento terciário [Tchobanoglous
et al., 2003].
Tratamento Avançado Nesta última etapa ocorre remoção do material dissolvido e em suspensão que
permanece após o tratamento biológico normal, quando a água a ser tratada vai ser reutilizada para
vários �ns [Tchobanoglous et al., 2003].
2.1.2 Tratamento da fase sólida (lamas)
Como descrito anteriormente, nos tratamentos das águas residuais são removidos vários constituintes destas
águas, tais como, areias, cascalho e pedras, espumas, sólidos suspensos e biosólidos. A mistura de sólidos e
biosólidos é designada de lamas e resulta das várias operações que compõe o tratamento de águas residuais.
Geralmente estão na forma líquida ou líquida semi-sólida. O termo biosólido re�ete o facto que os sólidos
do tratamento de águas residuais são orgânicos e podem ser bene�camente utilizados depois de sofreram
tratamentos compostos por processos tais como estabilização e compostagem. Os principais processos que
constituem o tratamento de lamas são:
Tratamentos preliminares Estes tratamentos têm como função a redução de tamanho das partículas e a
remoção de certos materiais que ainda possam estar nas lamas, como as areias ou materiais �brosos.
Estas operações também servem para homogeneizar a composição dos sólidos bem como equalizar
o �uxo. Exemplos de operações que fazem parte deste tratamentos são a tamisagem e agitação
mecânica.
Espessamento Este tratamento serve para reduzir o volume das lamas removendo parte da água. Um
exemplo de uma operação deste tratamento é a centrifugação.
Estabilização Este tratamento tem como objectivo a estabilização dos sólidos e a redução de massa e
ainda a recuperação do produto �nal para fertilização de solos. Exemplos de operações deste tipo de
6
tratamento para além da compostagem são, a estabilização alcalina, a digestão anaeróbia e a digestão
aeróbia.
Condicionamento Este tratamento tem como função o aumentar do rendimento do tratamento de desi-
dratação. Um exemplo deste tratamento é o condicionamento químico.
Desidratação Neste tratamento ocorre a redução de volume por remoção de grande parte da água. Um
exemplo de uma operação usada neste tipo de tratamento é a centrifugação.
Secagem a quente Este tratamento tem como objectivo a redução mais completa do peso e do volume e
é realizado em secadores.
Incineração Neste tratamento ocorre a redução de volume por combustão da matéria orgânica e a recupe-
ração de grande parte do conteúdo energético. É realizado em incineradores.
Aplicação dos biosólidos em solos Subsequentemente ao tratamento de lamas procede-se ao descarte dos
sólidos ou ao uso bené�co destes para, por exemplo, a agricultura, como fertilizantes de solos.
Transporte e armazenamento A gestão de lamas de ETAR inclui também o seu armazenamento e trans-
porte para o seu destino �nal adequado.
De um modo geral, os tratamento de espessamento, condicionamento, desidratação e secagem são
usados essencialmente para remover a humidade dos sólidos. Os tratamentos de digestão, compostagem
e incineração são usados, principalmente, para tratar e estabilizar o material orgânico presente nos sólidos
antes de serem transportados para o seu destino �nal [Tchobanoglous et al., 2003].
2.1.3 Digestão Anaeróbia (DA)
Como mencionado anteriormente, a digestão anaeróbia é um dos processos de estabilização de sólidos e de
biosólidos. Esta consiste na decomposição ou conversão de matéria orgânica e inorgânica (por exemplo, sul-
fatos) por bactérias na ausência de oxigénio molecular. Uma das principais aplicações da digestão anaeróbia
é na estabilização de lamas produzidas no tratamento de águas residuais municipais e industriais.
Grandes progressos [Sulaiman et al., 2010] têm vindo a ser realizados tanto em perceber melhor os tipos
de reacções que ocorrem dentro de um tanque de digestão anaeróbia de lamas, como no controlo deste.
Dada a ênfase que existe na conservação e recuperação de energia e na desejável obtenção de uma utilidade
para os biosólidos produzidos, a digestão anaeróbia continua a dominar os processos de estabilização de
lamas. Tendo ainda a vantagem, que na digestão anaeróbia de águas residuais municipais, muitas vezes, é
produzido biogás su�ciente para satisfazer uma grande parte das necessidades energéticas de uma ETAR.
Existem vários tipos de digestão anaeróbia, como a digestão anaeróbia mesofílica (sendo esta a mais
commumente utilizada), na qual, a digestão anaeróbia é projectada para operar dentro da gama de tempe-
raturas de 30 e 38 �C. Outro tipo de digestão anaeróbia é a digestão anaeróbia termofílica onde, a digestão
anaeróbia, é projectada para operar dentro da gama de temperaturas de 50 e 57 �C. Existe ainda outro tipo
7
de digestão anaeróbia, a digestão anaeróbia de temperatura em fases (Temperature Phased Anaerobic Di-
gestion), que usa uma combinação da digestão mesofílica e termofílica em fases diferentes [Tchobanoglous
et al., 2003].
Existem quatro tipos de reacções químicas e bioquímicas que ocorrem durante uma digestão anaeróbia:
hidrólise, fermentação (também designada por acidogénese, que consiste na formação de compostos orgâni-
cos solúveis e ácidos orgânicos de cadeia curta), acetogénese (etapa onde os Ácidos Gordos Voláteis (AGV)
são convertidos em acetato e hidrogénio) e metanogénese (que consiste na conversão bacteriana de acetato
e hidrogénio em metano e dióxido de carbono) [Tchobanoglous et al., 2003].
Os factores ambientais importantes para este tipo de digestão são: (1) Tempo de retenção dos sólidos,
(2) Tempo de retenção hidráulico, (3) Temperatura, (4) Alcalinidade, (5) pH, (6) Presença de substâncias
inibitórias (7) Biodisponibilidade dos nutrientes e metais. De seguida descreve-se a importância dos três
primeiros factores ambientais na digestão anaeróbia:
Tempos de retenção de sólidos e hidráulico O dimensionamento de um digestor anaeróbio têm como
base o proporcionar de tempo su�ciente de residência em reactores bem agitados para permitir que
ocorra a destruição de sólidos suspensos voláteis (SSV). Os critérios de dimensionamento que têm
vindo a ser usados são: (1) tempo de retenção de sólidos (TRS), tempo médio que os sólidos são
mantidos no processo de digestão, e (2) tempo de retenção hidráulico (TRH), tempo médio que o
líquido é mantido no processo de digestão. As três reacções (hidrólise, fermentação e metanogénese)
estão directamente relacionadas com o TRS. Um aumento ou diminuição no TRS resulta num aumento
ou diminuição na extensão de cada uma destas reacções. Existe um valor mínimo de TRS para cada
reacção, ou seja, se o TRS for menor que o valor mínimo necessário, a taxa de crescimento das
bactérias não consegue manter estável a respectiva população e a digestão falhará eventualmente
[Tchobanoglous et al., 2003].
Temperatura A temperatura in�uencia as actividades metabólicas de uma população microbiana e também
têm um grande efeito em factores como taxas de transferência de gases e características de sedimen-
tação dos sólidos biológicos. Na digestão anaeróbia, a temperatura é importante na determinação da
taxa de digestão, particularmente nas taxas de hidrólise e de formação de metano. A temperatura
escolhida para a operação estabelece o mínimo valor de TRS necessário para atingir uma determinada
taxa de remoção de SSV. A maior parte dos sistemas de digestão anaeróbia são projectados para
operar à gama de temperaturas mesó�la, entre 30 e 38 �C. Outros sistemas são desenhados para
trabalhar a outra gama de temperaturas, já abordados anteriormente, como a gama de temperatura
termofílica que é dos 50 aos 57 �C. Enquanto escolher a gama de temperaturas da operação é impor-
tante, manter durante a operação a temperatura estável, é ainda mais importante porque as bactérias,
especialmente as que formam metano, são sensíveis a mudanças de temperatura. Geralmente, uma
oscilação de temperatura maior que 1 �C=dia afecta toda a operação e como tal, variações menores
que 0;5 �C=dia são recomendadas [Tchobanoglous et al., 2003].
Alcalinidade Carbonatos e bicarbonatos de cálcio, magnésio, e amónio, são exemplos de substâncias tampão
8
que se encontram num digestor. O processo de digestão produz amónia na degradação de proteínas
existentes na alimentação de lamas, os outros encontram-se nesta mesma alimentação. Alcalinidade
suplementar pode ser fornecida pela adição de bicarbonato de sódio, cal, ou carbonato de sódio
[Tchobanoglous et al., 2003].
Como referido anteriormente, durante a digestão anaeróbia é formado um gás, normalmente conhecido
como biogás. Este gás, por norma, contém cerca de 65% a 70% de metano (CH4) e cerca de 25% a
30% de dióxido de carbono (CO2), sendo estas percentagens volumétricas. Pode conter também pequenas
quantidades de N2, H
2, H
2S, vapor de água e outros gases [Tchobanoglous et al., 2003]. A formação de
biogás é um processo complexo que envolve as fases de: hidrólise, acidogénese (ou fermentação), aceto-
génese/desidrogenação e metanogénese, como já abordado anteriormente. Na Figura 2.1, encontra-se um
esquema destas etapas. Cada um destes passos é realizado por consórcios diferentes de microrganismos.
Partes destes mantêm inter-relações mas têm necessidades ambientais diferentes. Os microrganismos de
hidrólise e acidogénese são responsáveis pelo ataque inicial aos polímeros e pela fermentação dos monó-
meros resultantes e produzem quantidades variáveis de ácidos gordos voláteis, como se pode observar na
Figura 2.1. Os microrganismos responsáveis pela hidrólise excretam enzimas hidrolíticas, como por exemplo
as lipases e as proteases. Um consórcio complexo de microrganismos participa na hidrólise e acidogénese do
material orgânico. Os ácidos gordos voláteis são convertidos em acetato e hidrogénio por bactérias acetogé-
nicas produtoras de hidrogénio. No �nal da cadeia de degradação, dois grupos de bactérias metanogénicas
produzem metano e dióxido de carbono através do acetato ou do hidrogénio [Weiland, 2010].
Complex Polymers
(polysacch, proteins, lipids)
Monomers and Oligomers
(sugars, amino acids, long chain fatty acids)
Volatile Fatty Acids
(C > 2)
Acetate H2 + CO2
Biogas
(CH4 + CO2)
Hydrolysis
Acidogenesis
Acetogenesis Acetogenesis
Methanogenesis Methanogenesis
Figura 2.1: Esquema das etapas de formação de biogás na digestão anaeróbia, adaptado de Weiland [2010].
A produção de biogás é uma excelente forma de usar os resíduos orgânicos para produção de energia,
seguida de uma valorização das lamas digeridas para uso como fertilizantes. A produção total de biogás
é, usualmente, estimada através da percentagem de redução de sólidos voláteis. A produção de gás pode
9
�utuar entre uma vasta gama de valores, dependendo da concentração de sólidos voláteis presente nas lamas
a tratar e da actividade biológica dentro do digestor. Como mencionado anteriormente, o biogás pode ser
usado para satisfazer necessidades energéticas na ETAR, já que pode ser utilizado como combustível para
caldeiras e motores de combustão interna. Estes, por sua vez, são usados para gerar energia eléctrica,
utilizável para bombear a água residual e para por a funcionar ventiladores. A água quente das caldeiras
de aquecimento ou das camisas de arrefecimento dos motores pode ser usada para aquecimento das lamas
alimentadas ao digestor ou para aquecimento do ambiente na instalação. A energia produzida em excesso
pela ETAR pode, algumas vezes, ser vendida às companhias eléctricas [Tchobanoglous et al., 2003].
2.2 Modelação estatística
2.2.1 Introdução à modelação �data driven�
O controlo adaptativo pode ser de�nido como um método utilizado pelos controladores passíveis de modi�car
o seu comportamento em função das mudanças na dinâmica do processo que controlam, bem como, em
função de perturbações que ocorram no processo que controlam [Åström, 1983]. Este método tem vindo
a ser estudado há várias décadas [Åström, 1983]. A maior parte das técnicas e metodologias de controlo
adaptativo tipicamente assumem que a estrutura do sistema é conhecida e que os parâmetros variam pouco
com o tempo. No entanto, para sistemas práticos complexos a estrutura do sistema é muitas vezes difícil
de determinar e os parâmetros são difíceis de identi�car. Este facto faz com que o controlo adaptativo,
em certos casos, seja inadequado. Tal facto, motivou o aparecimento de outras abordagens de controlo,
nomeadamente o controlo �data driven� ou controlo baseado nos dados. Esta abordagem baseia-se na
construção de um modelo de controlo que apenas usa as medições das entradas e saídas do sistema, ou seja,
baseia-se nos dados disponíveis, obtidos através de medições efectuadas ao sistema. Como esta abordagem
não requer que se saiba um modelo estruturado para o sistema, o processo de modelação mecanística, e os
pressupostos teóricos da dinâmica do sistema deixam de ser necessários [Hou and Jin, 2011]. Existem várias
metodologias de modelação �data driven�.
As metodologias usadas nestes trabalho foram o PLS (Partial least squares, mínimos quadrados parciais) e
as redes neuronais arti�cias (RNA). Antes de se construírem os modelos usando as RNA é boa prática modelar
com a técnica PLS que é uma abordagem de regressão linear para melhor compreender o comportamento
dos dados, antes de se passar para uma abordagem mais complexa e não-linear como as RNA. Dada a
modelação �data driven� ser baseada nos dados, como o próprio nome indica, é necessário fazer um controlo
de qualidade prévio a estes. O propósito e a metodologia deste pré-tratamento serão abordados de seguida.
10
2.2.2 Pré-tratamento dos dados
2.2.2.1 Necessidade do pré-tratamento dos dados
De acordo com Han and Kamber [2006], os dados disponíveis para análise são na maioria das vezes, de
tamanho extenso e provêm de fontes heterogéneas. Como tal estes dados podem ser:
Incompletos: as variáveis têm vários valores em falta, ou então faltam variáveis de interesse.
Inadequados ou com ruído: contêm erros, ou valores que desviam do esperado.
Inconsistentes: como por exemplo apresentando discrepâncias sobre o nome/código de uma dada variável
entre departamentos diferentes.
Como a fraca qualidade dos dados pode levar a uma má qualidade do modelo construído a partir destes, é
necessário fazer um pré-tratamento aos dados. O pré-tratamento dos dados envolve quatro etapas:
Limpeza dos dados: A �limpeza� dos dados consiste em preencher os valores em falta (sempre que possível)
e retirar os valores aberrantes ou outliers. Existem vários métodos, como preencher os valores em falta
com a média dos valores disponíveis para essa variável, ou então, pelo valor mais frequente ou ainda,
pode-se fazer um modelo para prever os valores em falta dessa variável com as outras variáveis. No
entanto, isto tudo está dependente dos valores disponíveis. Sobre os outliers, a abordagem que se
costuma adoptar é a de representar os dados em boxplots construídos por análise estatística (distri-
buição normal ou gaussiana) para que se consiga observar os valores fora dos limites de cada caixa
nos boxplots. Uma breve descrição deste tipo de representação encontra-se na Subsubseção 2.2.2.3.
Integração dos dados: Nesta etapa juntam-se as variáveis que tenham nomes diferentes mas que são a
mesma, isto porque os dados vêm de fontes diferentes e é necessário juntá-los.
Redução dos dados: Nesta etapa obtêm-se os dados numa representação bastante menor em volume, mas
que contém a mesma informação que a original. Exemplos de estratégias incluem técnicas de redução
de dimensionalidade [Han and Kamber, 2006], como a Análise de Componentes Principais (PCA). Os
princípios teóricos desta técnica são abordada na Subseção 2.2.3.
Transformação dos dados: Por �m, nesta etapa o que se faz é normalizar os dados. Algumas técnicas
usadas para construir modelos de previsão necessitam de ter os dados normalizados.
2.2.2.2 Histogramas
O histograma é a ferramenta mais antiga e popular para representar gra�camente um dado conjunto uni-
variado de dados, esta representação permite ter uma percepção da distribuição dos dados. Na Figura 2.2
encontra-se representado um exemplo de um histograma para o peso à nascença de 1260 bebés do sexo fe-
minino. No eixo das abcissas pode-se observar vários intervalos de pesos e no eixo das ordenadas observa-se
a frequência de ocorrência de cada um destes intervalos de pesos. Um parâmetro importante que é preciso
11
Figura 2.2: Exemplo de um histograma adaptado de Daly and Bourke [2008], que representa a distribuiçãodos pesos à nascença de 1260 bebés do sexo feminino.
ter em conta na construção de um histograma é o número de intervalos ou bins, em que os dados são
agrupados [Wand, 1997]. O número de bins (k) pode ser calculado da seguinte forma: k = max(x)�min(x)h
.
Na qual, max(x) e min(x) são os valores máximo e mínimo, respectivamente, dos dados, e h é o valor da
largura dos bins. Existem várias abordagens para o cálculo do valor da largura dos bins (h) óptimo.
A abordagem seguida neste trabalho foi a regra de Freedman-Diaconis [Freedman and Diaconis, 1981],
que pode ser descrita da seguinte forma: h = 2 IQR(x)n1=3
, sendo que IQR = Q3�Q1. Na expressão do cálculo
de h, n é o número de dados. O IQR corresponde à distância inter-quartis (Interquartile Range) e no seu
cálculo, Q3 e Q1, correspondem aos valores do terceiro quartil e do primeiro quartil, respectivamente, de
uma distribuição normal, como se pode observar na Figura 2.3. As equações matemáticas que descrevem a
distribuição normal podem ser encontradas em Dixon et al. [1969].
Figura 2.3: Exemplo grá�co da de�nição deIQR, adaptado de for Disease Control and Di-vision [2006].
Figura 2.4: Representação das partes de umboxplot, adaptado de Friendly and Institute[1991].
12
2.2.2.3 Boxplots
Os boxplots são outro tipo de representação como os histogramas. São um método rápido de resumir e
interpretar dados. Os boxplot são uma das diversas famílias de técnicas estatísticas, designadas de análise
exploratória de dados, que são usadas para identi�car visualmente padrões que podem, de outra forma,
�car escondidos no conjunto de dados. Ao contrário dos histogramas, os boxplots fornecem informação
de aspectos-chave da distribuição dos dados, explicitamente mostram a mediana e os extremos, assim
como a variância dos dados à volta da mediana [Williamson et al., 1989]. De acordo com a Figura 2.4,
onde se encontra representadas as várias partes que compõem um boxplot, observa-se que este é composto
maioritariamente por cinco partes [Wickham and Stryjewski, 2011]: a mediana; as duas partes que compõem
a �caixa� que correspondem ao primeiro e ao terceiro quartis; os dados que se encontram entre o mínimo
da distribuição normal dos dados e o primeiro quartil, e os dados que se encontram entre o terceiro quartil
e o máximo da distribuição normal dos dados; o limite superior que é calculado por (Q3 + 1;5xIQR) e o
limite inferior que é calculado por (Q1 � 1;5xIQR) e os outliers que são pontos que estão acima do limite
superior e/ou abaixo do limite inferior. Na Figura 2.4 pode-se observar uma distinção entre outlier e far
outlier, sendo estes últimos, os pontos que estão 3xIQR acima do limite superior.
2.2.2.4 Análise de correlações
A medida da correlação entre duas variáveis fornece informação como estas duas variáveis estão relacionadas.
Uma matriz de correlações consiste numa tabela que lista o coe�ciente de correlação entre as variáveis,
distribuídas pelas colunas e linhas da tabela. O coe�ciente de correlação mede a força e a direcção da
relação linear entre duas variáveis, ou seja, se as variáveis se encontram directamente ou inversamente
relacionadas. O símbolo que representa o coe�ciente de correlação é o r . Existem várias abordagens
para calcular o coe�ciente de correlação entre duas variáveis, a abordagem seguida neste trabalho foi a do
coe�ciente de correlação de Pearson, que consta em Egghe and Leydesdor� [2009], e é dado por:
r =
nn∑
i=1
xiyi �(
n∑i=1
xi
)(n∑
i=1
yi
)√n
n∑i=1
x2i �(
n∑i=1
xi
)2√n
n∑i=1
y2i �(
n∑i=1
yi
)2 (2.1)
Os limites de r são de [�1;1] com 1 a signi�car uma correlação perfeita e 0 a signi�car que não existe
correlação entre as variáveis. Se o coe�ciente é negativo, a relação entre as varáveis é uma relação inversa,
ou seja, quando uma variável aumenta a outra diminui e vice versa. A matriz de correlações é deste modo,
uma matriz quadrada que mostra as correlações entre todos os pares de variáveis. A diagonal da matriz
de correlações é constituída sempre por 1 pois é a correlação entre uma variável e ela própria. A matriz
de correlação é sempre simétrica com os valores à esquerda da diagonal a serem um espelho dos valores
acima da diagonal [Yeh et al., 2007]. Na tabela Tabela 2.1, pode-se observar um exemplo de uma matriz
de correlações. Nesta tabela, pode-se observar por exemplo, que a peroxidase e o fenol estão inversamente
relacionadas e que a acidez e o fenol têm o coe�ciente de correlação mais próximo de zero, ou seja, não
13
têm uma correlação muito forte.
Tabela 2.1: Exemplo de uma matriz de correlações para os teores de fenol, activadade da enzima peroxidase,pH e acidez do guacamole, dados adaptados de Daiuto et al. [2009].
Fenol Peroxidase pH Acidez
Fenol 1,00 -0,56 -0,23 0,18
Peroxidase -0,56 1,00 0,38 0,20
pH -0,23 0,38 1,00 0,21
Acidez 0,18 0,20 0,21 1,00
2.2.3 Análise de componentes principais (PCA - Principal Component Analysis)
2.2.3.1 De�nição do método de PCA
A análise de componentes principais é uma técnica de estatística multivariada. A ideia principal na análise de
componentes principais (PCA) é a redução de dimensionalidade de um conjunto de dados que é composto
por um número considerável de variáveis, mantendo o máximo possível da variância presente nesse conjunto
de dados. Isto é conseguido através da transformação do conjunto de variáveis originais em outro conjunto
de variáveis de menor dimensão denominadas de componentes principais (Principal Component - PC). Os
componentes principais apresentam propriedade importantes: cada componente principal é uma combinação
linear de todas as variáveis originais, são linearmente independentes entre si e estimados com o propósito de
reter, em ordem de estimação, o máximo de informação, em termos da variância total contida nos dados
[Varella, 2008]. Esta transformação, dos dados originais (matriz X) para um novo sistema de coordenadas
pode ser descrito pelas matrizes: matriz dos scores (T), matriz dos loadings (P) e matriz E que contêm o
ruído presente nos dados originais: Figura 2.5. A matriz dos scores ilustra a estrutura nos dados e a matriz
dos loadings ilustra a in�uência das diferentes variáveis na estrutura dos dados [Böhm et al., 2013].
Figura 2.5: Esquema do princípio da técnica PCA retirado de Böhm et al. [2013].
2.2.3.2 Contribuição e Interpretação de cada componente principal
A contribuição de cada componente principal é expressa em percentagem. É calculada dividindo a variância do
componente em questão pela variância total e, como tal, representa a proporção de variância total explicada
14
por esse componente principal. A soma da variância explicada pelos primeiros k componentes principais
representa a proporção de informação retida na redução de J para k dimensões. Com esta informação
podemos decidir quantos componentes usar na análise. Não existe um modelo estatístico que ajude nesta
decisão. No entanto, para aplicação em diversas áreas do conhecimento o número de componentes utilizados
tem sido aquele que acumula 70% ou mais de proporção da variância total.
A interpretação de cada componente principal é realizada veri�cando o grau de in�uência que cada
variável da matriz X tem sobre cada componente principal. O grau de in�uência é dado pela correlação
entre cada variável de X e o componente principal que está a ser interpretado. Para comparar a in�uência
de cada uma das variáveis de X sobre, por exemplo, o primeiro PC, analisa-se o loading de cada variável
sobre esse componente [Varella, 2008].
2.2.3.3 Representação grá�ca dos componentes principais
Na Figura 2.6 pode-se observar um dado conjunto de dados a três dimensões. Na Figura 2.7, observa-
se o mesmo conjunto mas com os dois primeiros componentes principais desenhados, PC1 e PC2. Não
é interessante projectar-se o terceiro componente pois nesse caso estaríamos a projectar os dados para
três dimensões, ora, estando os dados originais já em três dimensões não se estaria a fazer redução de
dimensionalidade, que é um dos principais objectivos do uso desta técnica. O PC1, primeiro PC, é a linha
que melhor descreve a forma da nuvem de pontos que se observam nestas �guras. O PC1 representa a
direcção onde existe maior variância nos dados. O segundo PC, PC2, é orientado de modo a que re�ita a
segunda maior fonte de variância nos dados, mas de forma a ser ortogonal ao primeiro PC. Estes dois PCs
de�nem assim um plano num espaço em k-dimensões. Projectando todas as observações neste sub-espaço
de menor dimensões que o espaço do plano original dos pontos e representado estas projecções gra�camente,
é possível visualizar a estrutura dos dados em estudo. Os valores das observações neste novo plano são
designadas de scores e, deste modo, a sua representação grá�ca é designada por score plot [Eriksson, 1999].
Figura 2.6: Exemplo da representação de umconjunto de dados em três dimensões adaptadode Eriksson [1999].
Figura 2.7: Exemplo da representação de umconjunto de dados em três dimensões com osdois primeiros PCs representados, bem comoa projecção de uma observação � i �, a títulode exemplo, no plano formado por estes doiscomponentes principais, adaptado de Eriksson[1999].
15
2.2.3.4 Scores Plot e Loadings Plot
Na Figura 2.8 apresenta-se um exemplo das representações scores plot e loadings plot, para um dado
conjunto de dados. Estes dados correspondiam ao estudo das fracções de três tipo de açúcares (sacarose,
glucose e frutose) em quatro variedades diferentes de maçãs (Fuji, Catarina, Joaquina e Gala). Observa-se
que o primeiro PC compreende 87;95% da variância e que o PC2 descreve 12;05% da variância, sendo que,
estes dois primeiros PCs juntos, compreendem 100% da variância presentes nos dados originais. Pontos
mais próximos num score plot têm propriedades mais semelhantes. Pontos mais afastados signi�ca que os
pontos são distintos. No scores plot (�gura (a) da Figura 2.8) pode-se observar que as variedades Joaquina
e Gala são as variedades que parecem ter mais semelhanças entre si. Através da representação loadings
plot pode-se veri�car quais as variáveis responsáveis por certos padrões nos dados assim como, quais as
variáveis com mais in�uência e como estas se relacionam entre si. As variáveis mais próximas contribuem
com informação semelhante, e signi�ca que estão correlacionadas. Quando as variáveis estão em quadrantes
opostos diagonalmente signi�ca que estão correlacionadas negativamente (�inversamente�). Neste exemplo,
as variáveis glucose e frutose na �gura (b) da Figura 2.8 parecem estar correlacionadas negativamente.
Isto signi�ca que quando a glucose aumenta a frutose diminui, e vice-versa. No caso oposto, quando
as variáveis estão correlacionas positivamente, quando o valor de um variável aumenta ou diminui o valor
numérico da outra variável tem a mesma tendência. A distância à origem também é relevante. Quanto
mais afastada estiver uma variável da origem, mais impacto esta têm no modelo. Por �m, pode-se tirar as
seguintes conclusões deste exemplo: a variedade Fuji, comporta-se de modo diferente das outras variedades,
e apresenta maior in�uência da glucose e sacarose. A variedade Catarina tem maior teor em glucose, ao
contrário das variedades Joaquina e Gala que contêm maior quantidade em frutose [Eriksson, 1999; Gabriel
et al., 2013].
Mais detalhes acerca do funcionamento da técnica PCA e uma de�nição detalhada de como são obtidos
matematicamente os PCs pode ser encontrada em Jolli�e [2005]; Wold et al. [1987] e nos capítulos acerca
da técnica PCA de Eriksson [1999].
Figura 2.8: Exemplo de um (a) scores plot e de um (b) loadings plot retirado de Gabriel et al. [2013], ondeo objectivo era analisar a fracção de três tipo de açúcares (sacarose, glucose e frutose) presentes em quatrovariedades de maçãs (Fuji, Catarina, Joaquina e Gala).
16
2.2.4 Mínimos quadrados parciais (PLS - Partial least squares)
2.2.4.1 De�nição do método de PLS
O objectivo da técnica PLS (designado também muitas vezes na literatura por PLS regression), é prever
ou analisar um conjunto de variáveis, potencialmente linearmente dependentes, através da redução a um
conjunto de variáveis independentes, também designadas de preditores. A previsão é conseguida através da
extracção a partir dos preditores, de um conjunto de factores, designados de variáveis latentes ou compo-
nentes, que têm o melhor poder de previsão possível.
As n amostras descritas pelas p variáveis dependentes são guardadas numa matriz nxp designada por
Y . Os valores dos m preditores recolhidos nessas n amostras, são recolhidos na matriz nxm, matriz X
Figura 2.9.
Figura 2.9: Esquema adaptado de Geladi and Kowalski [1986] da decomposição das matrizes X e Y datécnica PLS .
O objectivo do PLS é então prever Y através de X e descrever a estrutura comum a estas duas matrizes
através de um modelo linear multivariado. A modelação pela técnica PLS, da relação entre estes dois blocos
de variáveis, pode ser descrita de várias maneiras. Talvez a maneira mais simples de a descrever é, que
esta técnica encaixa dois modelos do tipo PCA, ao mesmo tempo, um para X e outro para Y , e ao mesmo
tempo alinha estes dois modelos. Outra forma de descrever esta técnica de uma forma mais especí�ca é que,
esta técnica procura por um conjunto de componentes, designados de vectores latentes, que executam uma
simultânea decomposição de ambos X e Y , com a condição que estes componentes expliquem o máximo
possível da covariância entre X e Y . Após isso, segue-se um passo de regressão em que a decomposição de
X é usada para prever Y [Abdi, 2003; Eriksson, 1999].
2.2.4.2 Representação grá�ca do método PLS
Assim como no PCA, as observações no PLS podem ser representadas gra�camente. No entanto, a maior
diferença é que no PLS cada coluna da matriz dos dados corresponde a dois pontos invés de apenas um, um
no espaço de X e outro no espaço de Y . Na Figura 2.10 ilustra-se a representação grá�ca das observações
17
na técnica PLS, quando m = 3 e p = 1 (sendo estas variáveis relacionadas com a Figura 2.9). Observa-se
que, com um valor único da variável y , o espaço de Y é reduzido a um vector de uma dimensão.
Nesta técnica a análise dos dados é executada de modo a descrever as relações entre as posições das
observações no espaço preditor (X) e as suas posições no espaço da resposta (Y ). Na Figura 2.11 observa-se
o mesmo conjunto de pontos mas com a representação do primeiro componente PLS. Este componente é
uma linha no espaço de X que é uma boa aproximação da variância da nuvem de pontos e providência uma
boa correlação com o vector y . A ordenada de uma observação ao longo desta linha é obtida pela projecção
da observação nesta linha, como se pode observar nesta �gura. Este resultado é denominado de score, ti1, da
observação i . Os scores de todas as observações formam o primeiro vector de X, t1. O vector dos scores, t1,
pode ser interpretado como uma nova variável, uma variável latente, que re�ete a informação das variáveis
originais de X que são relevantes para a modelação e previsão da variável de reposta. Posteriormente, este
score pode ser usado para inquirir um y estimado, ŷ(1), após o primeiro componente do PLS, que é obtido
pela multiplicação de t1 pelos pesos do vector de y , c1. Tal como se apresenta representado na �gura
da direita da Figura 2.11. As diferenças entre a resposta dos dados medida e estimada são chamados de
resíduos. Os resíduos de y representam a variância que �cou por explicar pelo primeiro componente de PLS.
Um bom modelo têm resíduos pequenos. Os pontos à volta da diagonal que se observa na �gura da direita
da Figura 2.11 é uma maneira grá�ca de averiguar o desempenho do modelo. Quando todos os pontos estão
situados na diagonal, têm-se um modelo ideal dos dados de reposta, com resíduos zero [Eriksson, 1999].
Figura 2.10: Representação grá�caadaptada de Eriksson [1999], de umexemplo da representação das obser-vações na técnica PLS. Num pro-blema de regressão, as observaçõespodem ser intendidas como sendoduas nuvens de pontos, uma é no es-paço preditor (X) e outra no espaçoda reposta (Y ). Nesta representação,considera-se um única variável y , in-vés de uma matriz (Y ) de respostas.
Figura 2.11: Nesta representação adaptada de Eriks-son [1999], observa-se a representação do primeiro com-ponente PLS. O primeiro componente do modelo PLS,orienta-se de modo a que descreva os pontos da nuvem depontos do espaço de X e, ao mesmo tempo, dando umaboa correlação com o vector y . As projecções das obser-vações sobre a linha no espaço X dão os scores de cadaobservação. Estes são os novos valores das observaçõese formam o vector dos scores, t1. Este vector contêm asinformações das variáveis originais X. Um modelo de esti-mativa de y é ŷ(1), que após obtido o primeiro componentede PLS, é calculado pela multiplicação de t1 pelo peso dovector de y , c1.
2.2.4.3 Scores e pesos (weights)
Na Figura 2.9, a informação relacionada com as observações é guardada nas matrizes dos scores T e U. A
informação relacionada com as variáveis é guardada na matriz P 0, que correspondente aos loadings de X,
18
e na matriz C0 que corresponde aos pesos (weights) de Y . A variância dos dados que foi deixada fora da
modelação forma as matrizes residuais E e F . A diferença entre a PCA e PLS é que a primeira técnica
está relacionada com a variância máxima de X, enquanto que a última técnica está relacionada com a
covariância máxima entre X e Y . Uma representação grá�ca das relações entre as matrizes da técnica PLS
encontra-se na Figura 2.12. Nesta �gura, é indicado que existe uma matriz W . Esta matriz corresponde
aos pesos da matriz X, e contêm os vectores dos pesos wi , que mostram como as variáveis de X estão
linearmente combinadas para formar os vectores dos scores ti . Deste modo, pode-se entender quais das
variáveis originais, têm maior in�uência na nova variável latente ti . As variáveis de X que estão fortemente
correlacionadas com as variáveis Y têm valores de pesos maiores. Similarmente, os pesos de Y , ci , informam
como as variáveis de Y são resumidas pelo vector dos scores, ui .
Em conclusão, na técnica PLS formam-se �novas variáveis de x�, ti , como combinações lineares das
variáveis �antigas�, e desta forma usa-se estas novas variáveis ti como preditores de Y . Apenas um número
de ti (componentes) é formado como tendo capacidade de previsão signi�cativa. Isto é realizado através
de validação cruzada ou cross-validation na qual se separam os dados em conjunto de treino e conjunto de
teste e avalia-se o desempenho do(s) modelo(s) com uma métrica que geralmente é uma medida de erro
(como a RMSE - Root Mean Square Error, de�nida na Equação 2.3, presente na Subsubseção 2.2.5.6),
em que pretende que seja mínimo. Na Subsubseção 2.2.4.4 encontra-se os princípios de funcionamento
desta técnica. Para cada componente os parâmetros: ti ; ui ; wi ; pi e ci são calculados pelo algoritmo de PLS
(para mais detalhes, em especial do funcionamento do algoritmo de PLS recomenda-se a leitura de Eriksson
[1999], Abdi [2003] e Wold et al. [2001]. .
Para a interpretação do modelo PLS, os scores, t e u contêm informação acerca das observações e as
suas similaridades/dissimilaridades. Os pesos w e c dão informação acerca de como as variáveis combinam
para formar as relações quantitativas entre X e Y . Assim sendo, estes pesos são essenciais para se perceber:
quais as variáveis de X que são importantes (valores mais altos de wi), quais as variáveis que fornecem
informação semelhante (valores semelhantes de wi), a interpretação dos scores t, etc.
Figura 2.12: Esquema das relações entre as matrizes da técnica PLS, retirado de Wold et al. [2001].
19
2.2.4.4 Validação cruzada (Cross-validation)
Validação cruzada ou Cross-validation (CV) é uma estratégia bastante popular de selecionar um modelo. A
ideia principal desta estratégia é dividir os dados, uma vez ou várias vezes (sendo que neste trabalho quando
se fala em CV é no caso de se dividirem os dados várias vezes), e estimar o risco (erro) de cada modelo.
No caso de se dividirem os dados várias vezes o risco (erro) de um dado modelo será uma média. Parte
dos dados (o conjunto de treino) é usado para treinar cada modelo, e os restantes dados (o conjunto de
teste) é usado para estimar o risco (erro, p.ex., o RMSE) do modelo. Após isto, a estratégia de CV escolhe
o modelo com menor risco (erro) [Arlot et al., 2010]. Quando se fala em modelos diferentes pode ser por
exemplo, para o mesmo conjunto de dados, um modelo PLS com duas variáveis de entradas A,B (modelo 1)
e outro modelo pode ser por exemplo, um modelo de PLS com três variáveis de entrada A, B e C (modelo
2). Sendo assim, de modo a demonstrar como funciona na prática a estratégia de CV, para o modelo 1:
1. Divide-se aleatoriamente os dados em dois conjuntos: conjunto de treino e conjunto de teste;
2. Faz-se o treino do modelo com o conjunto de treino e valida-se o modelo com o conjunto de teste,
correspondente. A métrica utilizada para a validação costuma ser um medida de erro entre o previsto
e o real.
3. Divide-se novamente os dados em dois conjuntos e repete-se os passos anteriores.
Neste trabalho, o número de divisões dos dados usado foi de dez vezes. No �nal é calculada a média dos
erros de teste nas dez divisões diferentes dos dados. O mesmo processo é efectuado para o modelo 2. No
�nal escolhe-se o modelo com menor erro médio.
2.2.5 Redes neuronais arti�ciais (RNA)
Várias características das redes neuronais arti�ciais (RNA) fazem destas uma ferramenta bastante útil e
atractiva na construção de um modelo de previsão. Em primeiro lugar, em oposição aos métodos tradicionais
de previsão, as RNA são um método �orientado para os dados� e que se auto-adapta a estes, e por isso
são necessárias poucos pressupostos a priori, do modelo em estudo. Elas aprendem a partir dos exemplos
e capturam relações funcionais subtis existentes nos dados fornecidos, mesmo que as relações existentes
sejam desconhecidas ou difíceis de descrever.
Deste modo, as RNA são bastante apropriadas de usar em problemas cuja as soluções requerem conhe-
cimentos que seja difícil de especi�car mas que existam dados ou observações su�cientes. Esta abordagem
de modelação com a habilidade de aprender com a experiência é bastante útil para vários problemas práticos,
já que, é mais fácil obter dados que ter boas suposições teóricas sobre as existentes leis que governam o
sistema de onde os dados estão a ser gerados.
Em segundo lugar, as RNA podem generalizar. Depois de aprenderem os dados fornecidos a esta (uma
amostra), as RNA podem inferir correctamente a parte dos dados que não foram fornecidos anteriormente
a esta, mesmo que a amostra dos dados fornecida contenha ruído. Em terceiro lugar, as RNA aproximam
qualquer função, como demonstrado em Hornik et al. [1989].
20
Por �m, as RNA são um método não lineares. Os modelos de previsão eram na sua maioria compostos
por métodos estatísticos lineares. Modelos lineares têm grandes vantagens tais como: são fácies de ser
explicados e implementados. Mas, os métodos de previsão lineares podem ser totalmente inapropriados em
sistemas com um mecanismo não linear. Os problemas de sistemas reais são muitas vezes não lineares, deste
modo, como as RNA são abordagens não lineares e direcionadas para os dados, são capazes de modelar
sistemas não lineares sem conhecimento à priori das relações existentes entre as entradas e as saídas [Zhang
et al., 1998].
2.2.5.1 Modelo de um neurónio biológico
O cérebro humano consiste num grande número (aproximadamente 1011) de elementos extremamente co-
nectados (aproximadamente 104 conexões por elemento), estes elementos designam-se neurónios. De um
modo simpli�cado os neurónios têm três elementos principais: as dendrites, o corpo celular e o axónio, como
se pode observar na Figura 2.13.
As dendrites são receptores com um aspecto rami�cado que transmitem sinais eléctricos ao corpo celular.
O corpo celular trata esta informação que vai recebendo. O axónio por sua vez, transmite a informação do
corpo celular para outros neurónios. O ponto de contacto entre um axónio de uma célula e uma dendrite
de outro célula é designado de sinapse. É a disposição dos neurónios e a força das sinapses individuais,
determinadas por processos químicos complexos, que estabelecem as funções das redes neuronais.
As redes neuronais arti�cias não se aproximam da complexidade do cérebro humano. No entanto, existem
duas similaridades fundamentais entre neurónios biológicos e neurónios arti�cias. Em primeiro, ambas as
redes são construídas por elementos computacionais simples (embora as redes neuronais arti�cias sejam
muito mais simples que as redes neuronais biológicas) que estão extremamente conectados. Em segundo
lugar, as conexões entre os neurónios determinam a função da rede. Embora os neurónios biológicos
sejam mais lentos quando comparados com circuitos eléctricos (10�3 s comparados com 10�9 s), o cérebro
consegue fazer mais tarefas muito mais rápido que qualquer computador convencional. Em parte a razão
para isto, é a estrutura massivamente paralela das redes neuronais biológicas; todos os neurónios operam
ao mesmo tempo. As redes neuronais arti�cias partilham desta estrutura paralela.
Figura 2.13: Estrutura de um neurónio biológicoadaptado de Nastos et al. [2011].
Figura 2.14: Estrutura de um neurónio arti�cialHagan et al. [1996].
21
2.2.5.2 Modelo de um neurónio arti�cial
Na Figura 2.14 apresenta-se um esquema simpli�cado de um neurónio arti�cial. Este também pode ser
designado de nó. Nesta �gura, p1;p2;:::;pR, são as várias entradas que se fornece ao modelo. Todos as
entradas p1;p2; � � � ;pR, vão ser multiplicadas por um número correspondente w1;1;w1;2; � � � ;w1;R. Estes pesos
formam a matriz dos pesos W . Pode-se observar, na mesma �gura, uma variável designada por b. Esta
variável designa-se de bias e têm sempre valor 1, esta variável pode ou não estar presente num modelo de
redes neuronais. Esta variável permite deslocar horizontalmente a função de activação sem alterar o aspecto
desta, sendo que em alguns casos isto pode ser vantajoso. Assim sendo, o n que mais uma vez se observa na
Figura 2.14, é de�nido por: n = w1;1p1+w1;2p2+ :::+w1;RpR+b. De seguida, n é sujeito a uma função de
transferência f , também designada por função de activação. Esta função por sua vez, produz o output que
é designado por a e que é de�nido por: a = f (n) = f (Wp + b). Existem diferentes funções de activação,
sendo que, as mais usadas costumam ser a função logarítmica-sigmoidal (Log-Sigmoid) e a função tangente
hiperbólica sigmoidal (Hyperbolic Tangent Sigmoid). Vários exemplos de funções de activação assim como,
as suas expressões de cálculo podem ser encontradas em Hagan et al. [1996].
2.2.5.3 Tipos de redes neuronais arti�ciais
Na Figura 2.14 apresenta-se uma entidade de processamento relativamente simples que calcula uma função
de saída a, a partir das entradas pi e dos pesos wi , com uma função de activação prede�nida. O potencial
e �exibilidade do cálculo baseado em redes neuronais vêm da criação de conjuntos de neurónios que estão
interligados entre si. Esse paralelismo de elementos com processamento local cria a �inteligência� global da
rede. Um elemento da rede recebe um estímulo nas suas entradas, processa esse sinal e emite um novo sinal
de saída para fora que por sua vez é recebido pelos outros elementos. Uma forma
Top Related