Deteção de minas em imagens multi-espetrais
Ivo Fernando Fontes Linhas Guerra
Dissertação para obtenção do Grau de Mestre em
Engenharia Eletrotécnica e Computadores
Orientadores:
Professor Doutor José Manuel Bioucas Dias
Professor Doutor José Silvestre Serra da Silva
Júri
Presidente: Professor Doutor José Eduardo Charters Ribeiro da Cunha Sanguino
Orientador: Professor Doutor José Silvestre Serra da Silva
Vogais: Professor Doutor Jacinto Carlos Marques Peixoto do Nascimento
Cap Tm (Eng) Luis Filipe Xavier Cavaco Mendonça Dias
Dezembro de 2018
ii
iii
Declaração
Declaro que o presente documento é um trabalho original da minha autoria e que cumpre todos os
requisitos do Código de Conduta e Boas Práticas da Universidade de Lisboa.
iv
v
Agradecimentos
Esta dissertação simboliza o culminar de um percurso de seis anos cuja realização só foi possível
graças ao contributo, direto ou indireto de várias pessoas e instituições que me ensinaram e apoiaram,
às quais dirijo algumas palavras de agradecimento e reconhecimento, particularmente:
À minha família, em especial aos meus pais e irmão, que sempre me apoiaram nas decisões mais
difíceis e me deram força e coragem para trilhar este longo e árduo percurso;
À Academia Militar pelo contributo que teve na minha formação e no meu desenvolvimento enquanto
pessoa e soldado e pela disponibilidade em garantir as melhores condições possíveis ao
desenvolvimento deste trabalho;
Aos meus orientadores, Professor José Bioucas-Dias e Professor José Silvestre Silva, pela
disponibilidade permanente para esclarecer dúvidas, pela prontidão para ensinar, pela dedicação e
empenho irrepreensíveis, pelo constante entusiasmo que transmitiram ao longo de todo o trabalho e
pelas pormenorizadas correções durante a escrita da dissertação;
Aos meus camaradas da Academia Militar, ao Paulo Barbosa, Flávio Duarte, Romeu Carvalho, Tiago
Zão, João Tavares, Álvaro Rodrigues e ao curso de Transmissões, André Ferreira, João Pinto, Hélder
Reia, João Félix, pela amizade e espírito de corpo e pelo inestimável apoio ao longo destes anos;
Por último, e não menos importante queria agradecer à minha namorada pelo incansável apoio que
me deu ao longo de todos estes anos, fundamental para ultrapassar os momentos de maior dificuldade
e sacrifício.
vi
vii
Resumo
Este trabalho explora a deteção de minas terrestres usando imagens multi-espetrais adquiridas em
contexto militar. As condições em que as imagens são obtidas influenciam diretamente os métodos
usados para realizar a deteção automática de minas terrestres através de técnicas de processamento
de imagens.
Duas metodologias são propostas, uma usando classificadores tradicionais e outra utilizando
métodos de aprendizagem profunda, nomeadamente, uma Rede Neuronal Convolucional (CNN). Na
primeira metodologia, as técnicas de fusão de classificadores também são usadas para entender as
suas potencialidades. O desempenho foi avaliado de acordo com o número de características, do tipo
de minas, o ambiente e a profundidade da mina. Na CNN, foi realizado um estudo em função do mapa
de características, do tipo de minas terrestres e do meio.
Uma análise quantitativa mostra que o uso de classificadores tradicionais dá uma precisão geral
acima de 97% em ambientes internos e externos, até uma determinada profundidade testada. Foi
demonstrado que a robustez de alguns classificadores, quando expostos a padrões específicos (ou
seja, apenas minas enterradas), tem um desempenho reduzido, no entanto, a fusão de classificadores
é constante, 97,9% para 0 [mm] e 96,0% para 1-50 [mm], suprimindo esse facto. Os métodos de
aprendizagem profunda adotados apresentam um aumento desses valores para as minas maiores e
uma diminuição para as menores. Esses resultados experimentais esclarecem os fatores que
influenciam a deteção de minas e os méritos e deméritos da classificação baseada na CNN em
comparação com os métodos clássicos.
Palavras Chave— minas terrestres, deteção, combinação classificadores, aprendizagem profunda,
Rede Neuronal Convolucional
viii
ix
Abstract
This thesis explores the detection of landmines using multispectral images acquired in military
context. The conditions in which the images are obtained have a direct influence on the methods used
to perform the automatic detection of landmines through image processing techniques.
Two methods are proposed, one using traditional classifiers and the other using Deep Learning
methods, namely a Convolutional Neuronal Network (CNN). In the first methodology, classifier fusion
techniques are also used to understand their potentialities. The performance was evaluated according
to the number of features the type of landmine, the environment and the depth of the mine. In deep
learning, a study was carried out according to the feature map and regarding the type of landmine and
the environment.
A quantitative analysis shows that using traditional classifiers gives overall accuracy (OA) above 97%
in indoor and outdoor environments for the detection of land mines up to a given depth tested. It has
been shown that the robustness of some classifiers, when exposed to specific standards (ie. only buried
mines), has a decreased performance, however, the fusion of classifiers is constant, 97.9% for 0 [mm]
and 96.0% for 1- 50 [mm], suppressing this fact. The adopted deep learning methods present an
increase in these values for larger mines and a decrease for smaller ones. These experimental results
shed light into the factors that influence the detection of mines and into the merits and demerits of CNN
based classification compared with classical methods.
Index Terms— landmine, detection, classifier combination, deep learning, Convolutional Neuronal
Network
x
xi
Índice
Agradecimentos ........................................................................................................................................v
Resumo .................................................................................................................................................. vii
Abstract.................................................................................................................................................... ix
Índice ....................................................................................................................................................... xi
Índice de Tabelas ................................................................................................................................... xiii
Índice de Figuras .................................................................................................................................... xv
Lista de siglas e acrónimos ................................................................................................................... xix
1. Introdução ........................................................................................................................................ 1
1.1. Enquadramento e Motivação ........................................................................................... 1
1.2. Objetivos .......................................................................................................................... 1
1.3. Estrutura da Dissertação ................................................................................................. 2
1.4. Contribuições Científicas ................................................................................................. 2
2. Estado da Arte ................................................................................................................................. 3
2.1. Tecnologia Eletromagnética ............................................................................................ 3
2.2. Tecnologia Acústica/ Sísmica .......................................................................................... 6
2.3. Tecnologia Baseada na Deteção dos Explosivos Constituintes das Minas .................... 8
2.4. Tecnologias com Contacto Físico .................................................................................... 9
3. Minas e Solos ................................................................................................................................. 11
3.1. Campos de Minas ........................................................................................................... 11
3.2. Tipos de Minas .............................................................................................................. 12
3.2.1. Minas Reais ....................................................................................................... 12
3.2.2. Minas Simuladas e de Instrução ....................................................................... 14
3.2.3. Minas utilizadas no presente trabalho ............................................................... 14
3.3. Tipos de Solos ............................................................................................................... 16
4. Metodologia ................................................................................................................................... 19
4.1. Procedimentos Iniciais ................................................................................................... 19
4.2. Extração e Seleção de Características ......................................................................... 20
4.2.1. Estatística de Níveis de Cinzento de Primeira Ordem ...................................... 20
4.2.2. Estatística de Níveis de Cinzento de Segunda Ordem ..................................... 21
4.2.3. Estatísticas de ordem superior .......................................................................... 23
4.2.4. Método das diferenças de níveis de cinzento e Lacunaridade Diferencial ....... 24
4.2.5. Seleção e Normalização de Características ..................................................... 25
4.3. Classificação .................................................................................................................. 26
4.3.1. Aprendizagem Automática ................................................................................ 26
4.3.2. Redes Neuronais Artificiais ............................................................................... 27
4.3.3. Classificador SVM ............................................................................................. 28
4.3.4. Classificador KNN ............................................................................................. 29
4.3.5. Árvores de Decisão ........................................................................................... 30
xii
4.3.6. Análise de Componentes Principais ................................................................. 31
4.4. Fusão de Classificadores .............................................................................................. 32
4.4.1. Voto por Maioria ................................................................................................ 32
4.4.2. Voto Pesado ...................................................................................................... 32
4.5. Medidas de desempenho do sistema ............................................................................ 33
4.6. Aprendizagem Profunda ................................................................................................ 34
5. Resultados e Discussão ................................................................................................................ 37
5.1. Processo de Aquisição de Imagens .............................................................................. 37
5.2. Aquisição de Dados ....................................................................................................... 41
5.2.1. Aquisição de Dados via FLIR T440bx ............................................................... 41
5.2.2. Aquisição de Dados via Quest Condor3 VNN-618 ........................................... 42
5.2.3. Resultados qualitativos em função do tempo ................................................... 44
5.2.4. Conjunto de Dados ............................................................................................ 45
5.3. Extração e Seleção de Características ......................................................................... 49
5.4. Classificação .................................................................................................................. 53
5.4.1. Avaliação desempenho em ambiente indoor .................................................... 55
5.4.2. Avaliação desempenho em ambiente outdoor .................................................. 56
5.4.3. Avaliação desempenho em função da profundidade, comparativamente com
multi-classificação. .............................................................................................................. 58
5.5. Aprendizagem Profunda ................................................................................................ 62
6. Conclusões .................................................................................................................................... 67
Bibliografia ............................................................................................................................................. 73
Apêndice A ............................................................................................................................................ 77
Apêndice B ............................................................................................................................................ 81
Apêndice C ............................................................................................................................................ 83
Apêndice D ............................................................................................................................................ 85
xiii
Índice de Tabelas
Tabela 3.1: Especificações principais das minas AP representadas na figura 3.3 (tabela adaptada de
[12] [13])................................................................................................................................................. 14
Tabela 3.2: Especificações principais dos Objetos utilizados ao longo da dissertação ........................ 15
Tabela 4.1 Características de 1.ª ordem. .............................................................................................. 21
Tabela 4.2 Características de 2.ª ordem. .............................................................................................. 22
Tabela 4.3: Características de ordem superior. ..................................................................................... 24
Tabela 4.4: Exemplo método voto por maioria ...................................................................................... 32
Tabela 4.5: Matriz de confusão para classificação binária .................................................................... 33
Tabela 4.6: Métricas de avaliação de desempenho .............................................................................. 34
Tabela 5.1 Especificações dos equipamentos de imagem pertencentes à Academia Militar ............... 37
Tabela 5.1: Valores da escala de temperatura usada na obtenção das imagens do infravermelho térmico
para ambiente indoor e outdoor. ........................................................................................................... 41
Tabela 5.2: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em
ambiente indoor ..................................................................................................................................... 42
Tabela 5.3: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em
ambiente outdoor ................................................................................................................................... 42
Tabela 5.4: Valores da totalidade de aquisições por parte dos dois equipamentos em função do
ambiente, do diagrama dos objetos e da profundidade. ....................................................................... 46
Tabela 5.5: Bandas espetrais de cada uma das componentes da imagem multi-espetral construída. 46
Tabela 5.4: Valores da totalidade de ROIs obtidas para cada um dos ambientes e respetivo diagrama
constituindo assim o conjunto de dados total obtidos. .......................................................................... 49
Tabela 5.5: Valores totais das características usadas na metodologia bem como a sua posição relativa
no ficheiro de características feature.mat ............................................................................................. 50
Tabela 5.6: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de
características. ...................................................................................................................................... 52
Tabela 5.7: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de
dimensões (espetros) ............................................................................................................................ 53
Tabela 5.8: Conjunto de dados utilizado para o treino e a validação dos classificadores .................... 54
Tabela 5.9: Resumo dos classificadores usadas nesta metodologia, o seu tipo e os parâmetros usados
em cada. ................................................................................................................................................ 54
Tabela 5.10: Resultados dos diferentes classificadores para ambiente indoor e diagrama AP ........... 55
Tabela 5.11: Resultados dos diferentes classificadores para ambiente indoor e diagrama AC ........... 55
Tabela 5.12: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AP ......... 57
Tabela 5.13: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AC ......... 57
Tabela 5.14: Resultados da OA para cada um dos classificadores em função da profundidade das
minas. .................................................................................................................................................... 58
Tabela 5.15: Resultados da OA dos dois métodos de fusão de classificadores aplicados. ................. 59
Tabela 5.16: Tipologia da CNN de 15 camadas utilizada neste estudo, construída a partir da Deep
Learning toolbox.. .................................................................................................................................. 63
xiv
Tabela 5.17: Resultados da OA em função dos diferentes números de filtros utilizados nas camadas de
convolução obtidos para o estudo da CNN nos diferentes ambientes e diagramas.. .......................... 64
Tabela 5.18: Tempo de processamento necessário ao treino das diferentes CNNs ............................ 65
Tabela A.1: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 1). ................... 77
Tabela A.2: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 2). ................... 78
Tabela A.3: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 3). ................... 79
Tabela A.4: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 4). ................... 80
Tabela B.1: Resumo de projetos que fazem uso de imagens multi-espetrias/ hiper-espetrais ............ 81
xv
Índice de Figuras
Figura 2.1: Fotografias de infravermelho térmico obtido num terreno com vegetação esparsa e rasteira
onde se encontram dispostos cinco objetos ........................................................................................... 4
Figura 2.2: Princípio de funcionamento da técnica de indução eletromagnética.................................... 6
Figura 2.3: Princípio de funcionamento do método GPR. ....................................................................... 7
Figura 2.4: Princípio de funcionamento do método Acoustic Seismic Reflection ................................... 7
Figura 2.5: Geometria do esquema experimental elaborado por Krilov para o método de dispersão de
ondas Rayleigh ........................................................................................................................................ 8
Figura 2.6: Princípio de funcionamento do método NQR ....................................................................... 8
Figura 3.1: Esquema de uma mina terrestre real tipo ........................................................................... 12
Figura 3.2: Minas Anticarro modelo TM-62M ........................................................................................ 13
Figura 3.3: Minas AP típicas .................................................................................................................. 13
Figura 3.4: Minas AP real inerte ............................................................................................................ 15
Figura 3.5: Objeto B, C e D respetivamente utilizados para simular mina AP ...................................... 15
Figura 3.6: Objeto E e F respetivamente utilizados para simular minas AC genéricas ........................ 15
Figura 3.7: Areia do Rio ......................................................................................................................... 16
Figura 3.8: Terra Batida ......................................................................................................................... 16
Figura 3.9: Areia do Mar ........................................................................................................................ 16
Figura 3.10: Brita Nr.º 0 ......................................................................................................................... 16
Figura 3.11: Brita Nr.º 1 ......................................................................................................................... 16
Figura 3.12: Brita Nr.º 2 ......................................................................................................................... 16
Figura 3.13: Mistura de Solos de forma a simular uma estrada de baixo tráfego tipo U1 .................... 17
Figura 4.1 Fluxograma com a metodologia clássica implementada ..................................................... 19
Figura 4.2 Exemplo do cálculo do histograma normalizado da ROI 𝐼(𝑥, 𝑦). ......................................... 20
Figura 4.3 Matrizes Ω1, 0° e Ω1, 45°, correspondentes à ROI 𝐼𝑥, 𝑦 ....................................................... 22
Figura 4.4 Matrizes de primitivas run lenght ......................................................................................... 23
Figura 4.5: Representação de um neurónio artificial ............................................................................ 28
Figura 4.6: a) Solução para um problema de dados linear. b) Hiperplano do separador ótimo ........... 28
Figura 4.7: Exemplo de uma árvore de decisão ................................................................................... 31
Figura 4.8: Exemplo de um Deep learning workflow fazendo uso de CNN .......................................... 35
Figura 4.9: Exemplo da tarefa de classificação na deteção de mina segundo um esquema de CNN.. 35
Figura 4.10: Fase de Feature Learning.de uma CNN genérica ............................................................ 36
Figura 4.11: Fase de classificação de uma CNN genérica ................................................................... 36
Figura 5.1: Processo cronológico (da esquerda para a direita) de montagem dos recipientes usados
para a colocação dos solos e respetiva inserção do material isolante térmico. ................................... 38
Figura 5.2: Estrutura metálica, em ambiente indoor utilizada para suportar os equipamentos
necessários à aquisição de imagens .................................................................................................... 38
Figura 5.3: Estrutura metálica, em ambiente outdoor utilizada para suportar os equipamentos
necessários à aquisição de imagens .................................................................................................... 38
xvi
Figura 5.4: (a) Posicionamento dos equipamentos de aquisição de imagem com câmara FLIR esquerda
e câmara multi-espetral direita. (b) Imagem da perspetiva das câmaras vista do topo da estrutura
metálica. ................................................................................................................................................ 39
Figura 5.5: Diagrama dos campos de minas construídos para a realização da aquisição de imagens. À
esquerda, o diagrama para as minas AP. À direita o diagrama para as minas AC. .............................. 40
Figura 5.6: Representação prática do diagrama dos campos de minas com os respetivos objetos à
superfície. À esquerda, o diagrama para as minas AP. À direita o diagrama para as minas AC. ........ 40
Figura 5.7: Representação do diagrama dos campos de minas para a experiência em função do tempo.
À esquerda o diagrama. À direita a disposição prática dos objetos à superfície. ................................. 40
Figura 5.8: Exemplo da aquisição de imagem via câmara FLIR. À esquerda imagem do espetro visível
e à direita imagem do infravermelho térmico. ....................................................................................... 42
Figura 5.9: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente indoor
representando, da esquerda para a direita o canal 0, 1 e 2 ................................................................. 43
Figura 5.10: Amostra com zoom ≈ 1500 [%] da imagem original do canal 2 em que se verifica o
fenómeno supramencionado ................................................................................................................. 43
Figura 5.11: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente outdoor e em
escala de cinzento. Da esquerda para a direita o canal 0, 1 e 2. ......................................................... 44
Figura 5.12: Terceiro Diagrama utilizado. a) objetos à superfície, b) alguns objetos enterrados a
elevadas profundidades ........................................................................................................................ 44
Figura 5.13: Resultados para imagens TIR. a) obtenção às 10h00, b) obtenção às 19h00 ................ 44
Figura 5.14: Resultados para imagens obtidas a partir da câmara Quest Condor 3 VNN-618 a) obtenção
às 10h00, b) obtenção às 19h00 ........................................................................................................... 45
Figura 5.15: Exemplo da imagem multi-espetral, para Areia do mar, em ambiente indoor, com os objetos
à superfície, e diagrama AP, construída para o conjunto de dados. ..................................................... 47
Figura 5.16: Exemplo da imagem multi-espetral, para Areia do rio, em ambiente indoor, com os objetos
enterrados à profundidade 1mm, e diagrama AC, construída para o conjunto de dados. ................... 47
Figura 5.17: Exemplo da imagem multi-espetral, para mistura de solos em ambiente outdoor, com os
objetos enterrados, com a superfície descoberta, e diagrama AP........................................................ 47
Figura 5.18: Exemplo da imagem multi-espetral, para terra batida (orgânico), em ambiente outdoor,
com os objetos enterrados, com a superfície descoberta, e diagrama AC. .......................................... 48
Figura 5.19: Exemplo da imagem binária de target representando respetivamente, da esquerda para a
direita a imagem multi-espetral da Figura 5.15 e 5.16 .......................................................................... 48
Figura 5.20: Exemplo de duas ROIs multi-espetrais constituintes do conjunto de dados. ................... 49
Figura 5.21: Gráficos do ranking de importância das características para ambiente indoor ................ 51
Figura 5.22: Gráficos do ranking de importância das características para ambiente outdoor .............. 52
Figura 5.23: Esquema da rede neuronal usada .................................................................................... 54
Figura 5.24: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor
azul) em comparação com a fusão de classificadores (cor verde) para objetos à superfície. ............. 60
Figura 5.25: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor
azul) em comparação com a fusão de classificadores (cor verde) para objetos enterrados. ............... 60
xvii
Figura 5.26: Gráfico dos valores da precisão para novos padrões de a) árvore de decisão e b) Gaussian
svm (cor azul) em comparação os resultados obtidos no treino (cor verde). ....................................... 61
Figura 5.27: Gráfico dos valores da precisão para os classificadores a) árvore de decisão, b) Cubic
SVM e c) Ensemble ............................................................................................................................... 61
Figura C.1: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para
campos indoor e diagrama AP............................................................................................................... 83
Figura C.2: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para
campos indoor e diagrama AP............................................................................................................... 83
Figura C.3: Figura representativas da profundidade limite de 10 [mm] para a deteção do sistema para
campos indoor e diagrama AC .............................................................................................................. 84
Figura C.4: Figura representativas da profundidade limite de 100 [mm] para a deteção do sistema para
campos indoor e diagrama AC .............................................................................................................. 84
Figura D.1: Processo de treino da CNN referente a indoor AP para 64/128/256 Filtros ...................... 85
Figura D.2: Processo de treino da CNN referente a indoor AC para 16/32/64 Filtros .......................... 85
Figura D.3: Processo de treino da CNN referente a outdoor AP para 64/128/256 Filtros .................... 85
Figura D.4: Processo de treino da CNN referente a outdoor AC para 64/128/256 Filtros .................... 86
Figura D.5: Legenda dos gráficos dos processos de treino das CNNs ................................................ 86
xviii
xix
Lista de siglas e acrónimos
14N Isótopo de Nitrogénio
AAMA Aquartelamento da Academia Militar Amadora
AC Anticarro
AP Antipessoais
CINAMIL Centro de Investigação e Inovação da Academia Militar
CNN Convolutional neural network
DRDC Defence Research & Development Canada
EUA Estado Unidos da América
FOS First Order Statistics
GLDM Gray Level Difference Method
GLMC Gray Level Co-occurrence Matrix
GLRLM Gray Level Run-Lengh Method
GPR Ground Penetration Radar
GPU Graphic Processing Unit
HMX High Melting point eXplosive, ciclotetrametileno tetranitramina
IR Infra-Red
KNN K-nearest neighbors
LADAR Laser Detection and Ranging
LCC Linear Cross Correlation
LWIR Long Wave Infrared
MAD Magnetic Anomaly Method
MLP Multilayer Perceptons
MVM Método Voto por Maioria
MVP Método Voto por Peso
MWIR Mid Wave Infrared Radiation
NATO Organização do Tratado Atlântico Norte
NQR Nuclear Quadrupole Resonance
NSO Nato Standardization Office
OSP Orthogonal subspace projection
PCA Principal Component Analysis
PETN Tetranitrato de Pentaeritritol
RDX Research Department X, ciclotrimetileno trinitramina
RECPAD Conferência Anual Portuguesa de Reconhecimento de Padrões
RELU Rectified Linear Unit
ROI Region of Interess
SGLDM Spatial Gray Level Dependence Method
SV Support Vector
xx
SVM Support Vector Machine
SWIR Short Wave Infra-Red
TNT Trinitrotolueno
VNIR Visible-near Infra-Red
1
1. Introdução
1.1. Enquadramento e Motivação
O problema da desminagem é atual, complexo e exigente devido a uma multiplicidade de
fatores a considerar no momento da deteção. Devido ao crescente número de zonas de guerra e
conflitos no mundo, a ameaça de minas terrestres e munições não detonadas continua a ser um
problema muito grave que afetará os países empenhados nestas questões, nos próximos anos [1]. De
forma a solucionar este problema, nas últimas décadas têm sido desenvolvidas diversas tecnologias
com o objetivo de efetuar uma deteção o mais fidedigna possível independentemente do local, do tipo
de mina e da disposição das mesmas no solo.
Segundo o Nato Standardization Office (NSO) [2], existem dois tipos de desminagem. O
primeiro, durante operações militares que visa o objetivo do comandante militar, nomeadamente atingir
o princípio da liberdade de movimentos. Nestas circunstâncias, um grau de risco moderado é aceitável.
O segundo tipo de desminagem aparece em operações fora do artigo quinto1 (em tempo de paz), onde
as operações de desminagem requerem maior precisão e um risco mínimo aceitável.
No contexto operacional e durante operações militares, o desenvolvimento de uma metodologia
para a deteção de minas a partir de sensores multiespectrais facilita a deteção das minas, pela
utilização de sensores leves, de reduzidas dimensões e pequenos consumos energéticos [3] [4]. No
entanto, Florez [3] na sua análise aos sensores usados nos métodos de desminagem refere que é
necessária uma maior investigação acerca dos custos, velocidade de deteção e processamento destes
sensores, referindo ainda que são sensores bastantes promissores. No contexto humanitário, as
vantagens prendem-se essencialmente com o risco mínimo que este método apresenta, ou seja a
capacidade de ser usada remotamente sem risco para o operador, a possibilidade do seu uso nas mais
variadas operações humanitárias e de apoio à paz.
Surge assim, a motivação para desenvolver uma solução que vá ao encontro das necessidades
existentes, recorrendo à utilização de novas tecnologias e ao desenvolvimento de novas metodologias
tanto para o bem-estar das populações civis como para o aumento da proficiência do exército português
no âmbito desta matéria.
1.2. Objetivos
Para a resolução do problema indicado, propõe-se o desenvolvimento de um ou mais métodos
que permitam detetar a existência de minas terrestres a partir de imagens multi-espetrais de várias
fontes, com a aplicação de classificadores e métodos afins. É também objetivo deste trabalho a
construção de uma base dados/conjunto de dados de imagens multi-espetrais com minas terrestres
enterradas e à superfície.
1O artigo 5.º do Tratado Atlântico Norte requer que os Estados-Membros auxiliem qualquer membro que esteja sujeito a um ataque armado.
2
1.3. Estrutura da Dissertação
A presente dissertação encontra-se dividido em 6 capítulos, de acordo com a seguinte
estrutura:
• Capítulo 1 – Introdução: neste capítulo é descrita a definição do problema em estudo bem
como definidas as motivações que originam a escrita da dissertação sendo ainda definidos
os objetivos e a estrutura da dissertação.
• Capítulo 2 – Estado da Arte: neste capítulo é feito o estudo do estado da arte dos métodos
de deteção de minas terrestres, sendo proposto um possível agrupamento dos métodos
existentes segundo as características fundamentais consideradas como as mais relevantes.
• Capítulo 3 – Minas e Solos: neste capítulo são explanados conceitos referentes às minas
terrestres, referenciados segundo a doutrina NATO, essenciais à correta compreensão do
objeto de estudo. São também descritos os vários tipos de solos usados para as
experiências do trabalho
• Capítulo 4 – Metodologia: neste capítulo são definidas as metodologias a usar com vista à
consecução dos objetivos da dissertação.
• Capítulo 5 – Resultados e Discussão: neste capítulo são indicados os resultados obtidos
por ambas as metodologias e a sua respetiva análise e discussão.
• Capítulo 6 – Conclusões: neste capítulo são apresentadas as conclusões deste trabalho,
consolidando assim os objetivos propostos. São também apresentados os possíveis
trabalhos futuros.
1.4. Contribuições Científicas
O presente trabalho resultou em dois artigos científicos, o primeiro apresentado nas jornadas
da engenharia da Academia Militar, realizada em 6 de dezembro de 2017 denominado,
Ivo Guerra, José Silva e José Bioucas-Dias. “Deteção de minas em imagens
multiespectrais”, Jornadas das Engenharias da Academia Militar, pag 90-94, 2017
e o segundo foi aceite para publicação na 24ª Conferência Anual Portuguesa de
Reconhecimento de Padrões (RECPAD), a ser realizada em 26 de outubro de 2018 denominada:
Ivo Guerra, José Silva e José Bioucas-Dias. “Deep Learning versus Classical Machine
Learning in Landmine Detection from IR images”, 2 pag. RECAPAD 2018, Universidade de
Coimbra
3
2. Estado da Arte
Neste capítulo apresenta-se o estado da arte referente aos trabalhos de investigação na área
desta dissertação. A pesquisa centrou-se nas diferentes abordagens existentes que visam a deteção
de minas terrestres. Estas técnicas foram agrupadas em cinco grupos / famílias segundo as suas
características básicas de funcionamento, que contempla, a tecnologia eletromagnética, tecnologia
acústica / sísmica, tecnologia baseada nos explosivos constituintes das minas, e tecnologias com
contacto físico. No estado da arte foram realçados os métodos que usam tecnologia eletromagnética
nomeadamente as imagens multi-espetrais (onde estão inseridas as imagens do infravermelho
térmico), a sua metodologia, os métodos de extração de características, o método de classificação e
avaliação do desempenho do sistema. Foi ainda produzido o apêndice A referente a um resumo
bibliográfico dos artigos considerados relevante agrupados por ano de publicação e projetos que
usaram imagens multi-espetrais/híper-espetrais respetivamente. A revisão bibliográfica dos vários
métodos utilizados teve por base estas tabelas consideradas bastante úteis a quem necessite de uma
informação mais abrangente sobre este assunto.
2.1. Tecnologia Eletromagnética
A tecnologia eletromagnética corresponde aos métodos que usam como base o
eletromagnetismo, o espetro eletromagnético, ou a indução eletromagnética como ferramentas de
deteção. Nesta secção estão presentes os métodos associados às imagens multi-espetrais, os quais
possuem um maior enfase na sua descrição.
As imagens na banda do infravermelho2 são usadas frequentemente na deteção de objetos
enterrados. Krilov [5] afirma que este método baseia-se em diferentes taxas de libertação de calor pelos
objetos enterrados, em comparação com o seu meio envolvente, ao longo do dia. Usando câmaras de
infravermelho é possível recolher o contraste entre os objetos e a sua vizinhança, conforme ilustrado
na figura 2.1, onde se mostram uma imagem a cores (RGB3) do lado esquerdo e uma imagem de
infravermelho térmico da mesma superfície no lado direito. Uma fotografia de infravermelho térmico é
uma imagem obtida por um dispositivo optoelectrónico de forma a converter imagens na faixa do
infravermelho para faixa do visível usando pseudo-cor [6].
2 Neste caso concreto estas imagens são também conhecidas por imagens térmicas. 3 Abreviatura do sistema de cores vermelho (Red), verde (Green), azul (Blue), responsável pela
reprodução de cores em dispositivos eletrónicos de vídeo ou fotografia.
4
Figura 2.1: Fotografias de infravermelho térmico obtido num terreno com vegetação esparsa e rasteira onde se encontram
dispostos cinco objetos. À esquerda figura a imagem real dos objetos e à direita o contraste da taxa de libertação de calor entre
os objetos e o meio envolvente, (figura retirada de [6]).
A metodologia apresentada por Suganthi [7] baseia-se numa rede neural de retro-propagação
em que na entrada são usadas características de textura baseadas na matriz de co-ocorrência dos
níveis de cinzento, Gray Level Co-occurrence Matrix (GLMC). O processamento efetuado engloba
realce de contraste, filtragem, segmentação, extração de características e classificação. Assim sendo,
numa fase inicial é efetuado um pré processamento com equalização do histograma e o filtro de Wiener
para efetuar realce do contraste e remoção de ruido, respetivamente. De salientar que o filtro de Wiener
é eficiente quando a distribuição do ruído na imagem é gaussiana [7]. Se for necessário efetuar uma
suavização da imagem recorre-se à utilização do filtro da média. Posterior a esta fase, é efetuada a
segmentação para selecionar as zonas de interesse na imagem através da aplicação de limiares
baseados em crescimento de regiões posterior reconhecimento e classificação das zonas segmentadas
recorre-se à extração de características dessas regiões. Foram extraídas características de textura
baseadas em GLCM’s, nomeadamente contraste, correlação, energia e homogeneidade [7]. A
classificação é efetuada através de uma rede neural artificial com retro propagação (back propagation)
utilizando uma topologia de perceção em multicamada (Multilayer Perceptron - MLP). Esta rede neural
artificial foi treinada para duas classes (existência ou não de mina). Os resultados obtidos seguiram
uma métrica de qualidade baseada no erro quadrático médio. A classificação dos objetos ou regiões
segmentadas permitiu identificar 100% dos objetos correspondentes a minas e os objetos que não
correspondiam a minas também foram igualmente bem identificados, tendo sido obtido um valor de 0%
de falso alarme.
Utilizando um método similar, Makki [8] descreve um método cujo objetivo é diferenciar uma
mina terrestre da sua vizinhança numa imagem multi-espetral usando as bandas Visible-Near Infra-Red
(VNIR), Short Wave IR (SWIR) e Thermal IR (TIR). Este autor faz ainda uma revisão precisa de projetos
passados que usaram imagens multi-espectrais / híper-espetrais [1]. Destes projetos destacam-se os
seguintes:
• Projetos de investigação e desenvolvimento no âmbito da defesa do Canadá – um dos
primeiros países a fazerem investigação na deteção de minas terrestres usando imagens
multi-espetrais. Com o desenvolvimento da imagens multi-espetrais (com comprimentos de
onda da ordem dos 400-1000 [nm]) na banda do visível e do infravermelho próximo (VNIR)
várias experiências mostraram compatibilidade com a deteção de minas terrestres.
Investigações mais recentes usando duas câmaras multiespectrais (uma recolhendo
imagens TIR e a outra VNIR) mostram correlações sendo que a câmara TIR é responsável
5
pela deteção do contraste térmico entre a mina e as suas redondezas e a câmara VNIR é
responsável pela deteção das diferenças de contraste espetral entre o solo remexido e o
solo inalterado e/ou a presença de fios de ligação à mina [1].
• Equinox corporation fusion test – A empresa Equinox4, descrita como líder na solução para
a fusão de imagens teve como clientes governamentais o Departamento da Defesa dos
EUA e o US Army Night and Electronics Sensors Directorate5. A investigação desta empresa
confirma que uma fusão básica entre duas bandas do espetro produz uma aceitável
segmentação de objetos em relação ao seu fundo. Assim, selecionando duas ou três
imagens espetrais de bandas diferentes, é realizada a diferenciação entre objetos e o fundo.
Esta fusão tem o potencial de detetar objetos como minas terrestres numa imagem obtida
por uma câmara que integra sensores da banda do visível, da banda SWIR, e ainda usando
algoritmos de classificação.
• Defense Science and Technology Laboratory DSTL Countermine Project – Projeto realizado
no Reino Unido apelidado de DSTL Countermine Project fez uso de câmaras hiperespetrais
(banda VNIR) recolhendo imagens de alta resolução. Estes dados foram usados para o
desenvolvimento de técnicas de processamento, nomeadamente Principal Component
Analysis (PCA) para a redução da dimensionalidade.
• Projeto NATO – Realizado na Holanda, este projeto em parceria com a NATO tinha como
propósito a realização de um detetor de minas terrestres remoto. O principal objetivo foi a
deteção de um CM em tempo real durante um conflito, usando para isso um UAV a uma
altitude média de 100m. O resultado permitiu extrair recomendações para trabalhos futuros.
No apêndice B encontra-se uma tabela adaptada de Makki [1] com um resumo pormenorizado
de todos os projetos analisados por este autor. A partir da mesma é possível extrair conclusões sobre
quais tipos de dados a utilizar, que bandas do espetro usar, quais as técnicas que obtiveram melhores
resultados e alguns comentários preponderantes de cada projeto.
Passando para uma banda espetral diferente, o método difração de raios X utiliza um processo
em que são emitidos raios-X para o solo a ser analisado estimulando a cobertura exterior da mina.
Através de um detetor de raios-X é recolhida o resultado desta estimulação. Possui pouca penetração,
não distingue múltiplos alvos e tem pouca precisão [9].
Um método baseado na impedância elétrica dos materiais (Eletrical Impedance Tomography6)
usa correntes elétricas para representar a distribuição da condutividade do meio que se pretende
investigar. As implementações atuais usam uma disposição matricial bidimensional de elétrodos
colocados no solo, obtendo-se a informação da condutividade a partir de estímulos de combinações de
elétrodos emparelhados [9] .
4 Mais informações consultar http://www.equinoxsensors.com/company/ 5 Desenvolvedores de sensores tecnologicamente avançados destinados ao exército norte
americano. Mais informações consultar https://www.cerdec.army.mil/inside_cerdec/nvesd/ 6 Do português Tomografia de impedância elétrica.
6
Os campos magnéticos (Magnetic Anomaly Method, MAD7) também são usados na deteção de
minas terrestres. O método baseado na deteção de mudanças no campo magnético de um objeto, com
características ferromagnéticas, quando exposto a um campo magnético externo [4]. Qualquer variação
na densidade do fluxo da região onde o objeto magnético existe dá origem a uma alteração elétrica no
sensor magnético. Analisando estes dados é possível obter a localização, dimensão e outras
características do objeto [4]. Qualquer variação na densidade do fluxo da região onde o objeto
magnético existe dá origem a uma alteração elétrica no sensor magnético.
A indução eletromagnética assenta no facto de que quando um campo magnético variável no
tempo é estabelecido nas proximidades de um objeto condutor, um campo elétrico é induzido no objeto
condutor que provoca uma variação do fluxo de carga dentro do objeto (figura 3.3). Esta corrente
induzida (corrente de Faucault8) no objeto, devido ao fluxo de carga, produz um campo magnético
secundário. A análise deste campo magnético secundário permite obter um sinal específico e definido
do objeto [4].
Figura 2.2: Princípio de funcionamento da técnica de indução eletromagnética (figura adaptada de [4]).
2.2. Tecnologia Acústica/ Sísmica
Estes métodos são baseados nas ondas sonoras, os fenómenos da sua reflexão e nas ondas
sísmicas provenientes do interior da terra. Os principais métodos acústicos/sísmicos são – Ground
Penetration Radar (GPR), Acoustic Seismic Reflection e a Dispersão de ondas Rayleigh9.
O método Ground Penetration Radar, deteta objetos enterrados por emissão de ondas rádio na
direção do solo e posterior análise do sinal que é retornado [4]. Uma vez que cada objeto possui a sua
frequência de ressonância natural, que são diferentes das frequências de ressonância do local onde o
objeto está enterrado, as ondas refletidas a partir da superfície do objeto e as ondas refletidas a partir
7 Do português Método da anomalia magnética. 8 Corrente de Foucault também conhecidas por Eddy currents são ciclos de corrente elétrica
induzida por campos magnéticos variáveis. 9 Do Inglês Scattering of Rayleigh waves by land mines. Ondas Rayleigh são um tipo de ondas
acústicas de superfície que se propagam ao longo de sólidos. São constituintes das ondas sísmicas produzidas na terra.
7
da sua vizinhança, apresentaram no recetor uma diferença relativa à quantidade de ondas radio
absorvidas por cada um destes elementos. De salientar que a largura de banda dos sinais do radar
deve ser ajustada de modo a que a frequência ressonância natural do objeto possa ser extraída. Este
método apresenta como desvantagens a penetração relativamente baixa de ondas eletromagnéticas
de alta frequência (banda dos Giga Hertz) e o alto custo comparado com os tradicionais detetores de
metais. Na figura 2.3 verifica-se principio de funcionamento deste método.
Figura 2.3: Princípio de funcionamento do método GPR. Um feixe de ondas rádio é enviada e, ao encontrar uma mina
terrestre é refletida e posteriormente recebida e analisada num recetor rádio (figura adaptada de [4]).
Segundo Ege [4], a abordagem sísmica acústica baseia-se no princípio de que as ondas
sonoras emitidas por uma fonte sob o solo são refletidas a partir dos limites de estruturas e objetos.
Conforme a figura 2.4, são emitidas ondas sonoras de baixa frequência (inferiores a 1 Khz) para o solo,
recolhidas posteriormente por sensores e analisadas quanto às anomalias no seu período. Apresenta
um número elevado de falsos positivos quando usado em áreas húmidas e com alta condutividade, é
um método lento (2 a 15 minutos/m2) quando comparado com outros métodos e requer um elevado
número de passos computacionais no desenvolvimento do seu software.
Figura 2.4: Princípio de funcionamento do método Acoustic Seismic Reflection. Emissão de ondas sonoras para o solo, que
posteriormente são recolhidas por um Vibrômetro laser Dopler que analisa as anomalias no período das ondas sonoras
recebidas (figura adaptada de [4])
A dispersão de ondas Rayleigh pelas minas terrestres é um novo método explorado por
Krylov [5]. Este autor afirma que o facto de estas ondas serem eficientemente dispersas por
irregularidades de qualquer superfície faz com que estas propriedades sejam aproveitadas da deteção
8
de minas terrestres. Na figura 2.5 está representado o esquema experimental realizado por Krilov [5],
implementando este efeito para a deteção de minas terrestres. Os impulsos de ondas Rayleight com
uma frequência central f são gerados por um Eletromgnetic shaker que aplica uma força vertical F0
concentrada no solo. É assumido que uma mina terrestre está localizada a uma distância horizontal r0
do shaker e a uma dada profundidade. Do ponto de observação são recolhidas as ondas de Rayleight
dispersas, sendo estas analisadas posteriormente.
Figura 2.5: Geometria do esquema experimental elaborado por Krilov para o método de dispersão de ondas Rayleigh numa
mina terrestre (figura retirada de [8])
2.3. Tecnologia Baseada na Deteção dos Explosivos Constituintes
das Minas
Nestes métodos, a existência de explosivos como RDX (baseado em nitrogénio),
ciclotetrametileno tetranitramina (HMX, High Melting point eXplosive), tetranitrato de pentaeritritol,
(PETN) e TNT (à base de nitrogênio-hidrogênio), são determinantes para o funcionamento da deteção
das minas. Note-se que nestes métodos não são analisadas as restantes partes constituintes das
minas.
Figura 2.6: Princípio de funcionamento do método NQR. A partir da excitação do isótopo de Nitrogénio (14N), é recebido o
chamado sinal NQR a partir da radiação emitida por este elemento. A partir deste sinal obtido, é possível confirmar a presença
de explosivos, constituídos por nitrogénio, numa dada área (figura adaptada de [4])
9
A metodologia proposta por Ege [4] dá-se pelo nome de Nuclear Quadrupole Resonance
(NQR)10. Este método é descrito com sendo uma técnica especial de rádio frequência baseada na
deteção do isótopo de Nitrogénio (14N), encontrado na estrutura de muitos explosivos e drogas. As
frequências NQR observadas são obtidas com a interação entre o quadrupolo elétrico do núcleo do
isótopo e as mudanças de campo elétrico formadas a partir do exterior, em volta do núcleo (figura 2.6).
Uma metodologia diferente, proposta por MacDonald [9], usa um feixe de neutrões e envolve
a distinção do explosivo constituinte da mina em relação ao solo. Para isso, são enviados para o solo
neutrões que posteriormente irão induzir o núcleo atómico do explosivo. As diferenças de intensidade
da radiação recebida poderão assim indicar a presença de explosivo.
Outra abordagem é a deteção dos vapores libertados pelos explosivos. Estes métodos
baseiam-se essencialmente no facto de que os explosivos constituídos por TNT e RDX libertarem
vapores cuja deteção é possível usando métodos biológicos ou químicos.
A deteção biológica (usando cães, ratos, bactérias, entre outros) envolve o uso de mamíferos,
insetos ou microrganismos na deteção dos explosivos constituintes da mina. Estes métodos têm a
potencialidade de reduzir falsos alarmes referentes a aglomerados metálicos. Mahoney [10], na sua
pesquisa de deteção de minas terrestres com o uso de ratos afirma que existem, no entanto,
dificuldades inerentes ao treino dos animais. No caso das bactérias e outros microrganismos, subsiste
ainda falta de investigação e pesquisa de forma a obter resultados concisos e aceitáveis pela
comunidade científica [9].
A deteção por métodos químicos, que dependem da libertação dos vapores dos explosivos em
questão. Estes métodos podem ser denominados de Fluorescentes, Eletroquímicos, Piezoelétricos.
Todos estes métodos baseiam-se na excitação dos vapores libertados pelos componentes explosivos
das minas terrestres. A tecnologia Fluorescente mede alterações na fluorescência de um polímero na
presença dos vapores referidos. A Eletroquímica mede alterações na resistência elétrica de um
polímero na presença dos vapores referidos. A Piezoelétrica mede a alteração de frequência de
ressonância de vários materiais na presença também dos vapores referidos. Estes modelos
apresentam limitações quando usados em ambientes secos [11].
2.4. Tecnologias com Contacto Físico
O último passo na deteção de minas é a sonda manual. O operador da sonda, chamado
sapador, através de anos de treino e experiência aprende a distinguir entre uma mina e outro tipo de
objeto enterrado. Estes métodos colocam em risco vidas humanas, dependem da experiência do
operador e têm de ser rigorosos para serem aprovados pela comunidade.
No contexto operacional e em operações militares, segundo o exército dos Estados Unidos da
América e a doutrina NATO [12] as Clearing Operations ou Operações de limpeza/desminagem
operacional são designadas para limpar / neutralizar todas as minas ou obstáculos de uma dada rota
ou área. Para este fim, são utilizados equipamentos de abertura de brechas (explosivos, ou
10 Do português Ressonância Nuclear em Quadrupolo.
10
equipamentos de desminagem mecânicos) que, fisicamente desimpedem a área desejada. Estes
métodos exigem custos elevados e uma deteção prévia da existência de minas terrestres o que faz
com que métodos referidos anteriormente possam ser conjugados também com a desminagem
operacional.
11
3. Minas e Solos
Este capítulo explica de uma forma um pouco mais técnica e doutrinária os engenhos
explosivos em questão, quais os mais comuns, os seus tipos, as suas empregabilidades e,
seguidamente, os tipos de solos em que, maioritariamente se encontram presentes. De realçar que,
toda a informação presente foi retirada de documentação não confidencial sendo esta disponível para
trabalhos de investigação.
Tendo por base a doutrina NATO e a escola de engenharia do exército dos Estados Unidos da
América (EUA) [12], uma mina é um engenho explosivo usado para destruir ou incapacitar pessoas ou
veículos terrestres, barcos ou aeronaves. Pode ser detonada pela ação das suas vítimas, pela
passagem do tempo ou por meios controlados. Uma área do terreno contendo minas terrestres
dispostas segundo padrões ou aleatoriamente é dado o nome de campos de minas.
O emprego de campos de minas no campo de batalha destina-se, juntamente com os restantes
obstáculos do plano de barragens militares, a conseguir os efeitos de deter, retardar, canalizar ou
desorganizar o inimigo. As minas são excelentes obstáculos artificiais, facilmente transportadas e
instaladas no terreno, e constituem-se sempre como um perigo para o inimigo. Constroem-se campos
de minas nas seguintes circunstâncias: proteção local, economia de forças, reforço de posições
defensivas e para perturbar o avanço do inimigo [12].
3.1. Campos de Minas
Os campos de minas são planeados para desorganizar, canalizar, retardar ou deter o inimigo
e podem ser empregues de três modos: orientados para o terreno, para a situação e para o alvo. É
importante distinguir claramente os tipos de campos de minas dos seus métodos de lançamento. O
método de lançamento refere-se apenas ao modo como são colocadas/dispersadas as minas na sua
posição. O tipo de campos de minas está associado ao efeito pretendido no campo de batalha e
distinguem-se os seguintes tipos: de proteção, tático, pontual e simulado [13].
Os campos de minas de proteção são de natureza temporária e são utilizados como parte de
um perímetro defensivo de uma unidade, destinando-se à proteção próxima de unidades estacionadas.
São usados para proteger pessoal, material, equipamentos e infraestruturas de ataques e
ameaças [13]. Os campos de minas táticos são empregues de modo a interferirem diretamente com a
manobra do inimigo, devem para isso ser sincronizados em tempo, espaço, intenção tática, e devem
ser devidamente integrados com os planos da manobra. Os campos de minas pontuais podem incluir
todo o tipo de minas: anti-pessoal e anti-carro. Podem ser lançados para reforçar obstáculos existentes,
para conferir proteção rápida contra-ataques do inimigo ao longo de um flanco, lançados no interior do
dispositivo inimigo ou deixados em terrenos que o inimigo irá controlar [13]. Um campo de minas
simulado é desprovido de minas reais, mas pretende-se iludir o inimigo quanto à sua existência efetiva.
É normalmente utilizado quando existe escassez de recursos humanos, materiais e de tempo, sendo
empregue como medida de ilusão [13].
12
3.2. Tipos de Minas
Existe uma elevada categorização dos tipos de minas, dependendo da finalidade perspetivada
para cada mina. Assim, as minas podem dividir-se em três tipos diferentes: reais, simuladas e de
instrução.
3.2.1. Minas Reais
Uma mina terrestre real, é essencialmente composta por mecanismo de disparo, corpo, carga
principal, reforçador e detonador, tal como ilustrado na figura 3.1.
Figura 3.1: Esquema de uma mina terrestre real tipo. 1 - Espoleta, 2 - Detonador, 3 - Reforçador, 4 - Carga Principal, 5 –
Corpo/ Invólucro da mina (figura adaptada de [13]).
As minas reais podem ser classificadas de acordo com o corpo da mina, forma, carga principal,
ação iniciadora, facilidade em ser detetada e finalidade. Os corpos das minas podem ser de muitos
materiais como plástico, aço, cerâmica, vidro e madeira. Quanto à forma, as minas podem ser
essencialmente retangulares, cilíndricas e cúbicas. As cargas principais podem ser explosivas,
incendiárias ou químicas.
A cadeia de fogo é iniciada através de uma ação sobre a espoleta (e.g. movimento, pressão,
vibração ou magnetismo) que por libertação de energia térmica, cinética ou elétrica, iniciará o
detonador, e provocará o rebentamento da carga principal. Caso a energia necessária para ativar a
carga principal seja elevada, poderá existir um reforçador no mecanismo de fogo, nomeadamente entre
o detonador e a carga principal. O rebentamento da mina só ocorrerá se nenhuma das etapas da cadeia
de fogo for interrompida.
Quanto à facilidade de deteção, as minas podem ser metálicas ou não metálicas. Por fim, de
acordo com a finalidade, as minas podem ser classificadas em minas anticarro (AC) e minas
antipessoais (AP).
A generalidade das minas AC possui corpo metálico e o seu tamanho e pressão de detonação
é superior relativamente às minas AP. No entanto, já existem minas AC com corpo de madeira e
plástico. Possuem formas variadas (discos, cilindros, entre outros) e possuem cargas até 15 kg com
tendência a diminuir. O material explosivo é tipicamente Trinitrotolueno (TNT), Composto B ou RDX.
São ainda caracterizadas por gerar grandes estilhaços metálicos após a explosão.
Os principais alvos deste tipo de minas são veículos e a ação iniciadora pode ser por pressão,
devida ao peso do veículo, por comando à distância, por alterações magnéticas devidas à passagem
de um veículo, entre outros. Na figura 3.2 é apresentado um exemplo de uma mina anticarro.
13
Figura 3.2: Minas Anticarro modelo TM-62M [13]
Relativamente às minas AP, esta é concebida para explodir pela proximidade ou contacto e
destina-se a incapacitar, ferir ou matar pessoas. As minas AP são normalmente detonadas quando é
efetuada uma pressão sobre a espoleta ou quando um arame de tropeçar é tracionado. No entanto,
podem ser iniciadas por controlo remoto. Podem ser encontradas na superfície ou enterradas,
geralmente são caracterizadas por pequenos dispositivos com diferentes formatos. Muitas vezes estão
camufladas no ambiente em que são instaladas e podem ser fabricadas com plástico, madeira ou metal.
As minas AP causam baixas humanas essencialmente devidas aos efeitos de sopro de fragmentação.
As minas AP de sopro são normalmente acionadas por pressão, em particular pelo contacto
físico com a própria vítima. Estas minas são concebidas para provocar ferimentos graves, normalmente
a amputação de um ou mais membros ou até a morte. Possuem geralmente um formato cilíndrico e
medem entre 7 a 16 [cm] de diâmetro e entre 5 a 10 [cm] de altura, possuindo uma pequena quantidade
de explosivo (por norma inferior a 100 gramas).
As minas AP de fragmentação visam afetar um elevado número de pessoas, nomeadamente
pelos fragmentos expelidos pela carga explosiva e pelo corpo da mina. A maioria destas minas possui
objetos metálicos que se tornam projéteis quando ocorre a detonação da mina. Existem três tipos de
minas de fragmentação: minas de salto, direcionais e estáticas [12]. Na figura 3.3 são apresentados
alguns exemplos dos tipos de minas supramencionados
(a) (b) (c) (d) (e)
Figura 3.3: Minas AP típicas. (a) PRB-MR35, (b) PMN, (c) VALMARA-69, (d) MON-100 [6], (e) M15 [12]
14
Modelo Tipo Diâmetro
(mm)
Altura
(mm)
Massa
(kg)
Corpo da
mina Sensibilidade
Alcance
letal
PRB-
MR358 Sopro 58 64 0.158 Plástico 8 kg -
PMN Sopro 56 112 0.6 Plástico e
borracha 8 kg -
VALMARA-
59
Salto e
fragmentação 105 130 3.3 Plástico
10.8 kg
pressão 6 kg
tração
Raio 27m
MON-100 Direcional e
fragmentação 82 236 5 Aço -
100*9.5m
em arco
M14 Sopro 56 40 0.108 Plástico e
metal 9 -16 kg -
Tabela 3.1: Especificações principais das minas AP representadas na figura 3.3 (tabela adaptada de [12] [13])
Na tabela 3.1 estão descritas as especificações principais das minas AP representadas na
figura 3.3. Destas, é importante realçar o modelo M14, que atualmente é usado pelo exército Norte
Americano na península da Coreia [12] e encontrado em inúmeros países que estiveram em conflitos
nas últimas décadas. O modelo PMN, desenhado e construído pela União Soviética, atualmente de
fabrico russo possui diversas variantes sendo as atuais, PMN-4 encontradas na Ucrânia e na Síria.
3.2.2. Minas Simuladas e de Instrução
As minas simuladas são objetos que imitam minas reais. Estas minas têm o objetivo de iludir
acerca da existência de minas apenas quando o inimigo já está alertado para a possibilidade de
existência de minas instaladas no terreno. Este tipo de minas é usado geralmente quando existe
limitação nos recursos disponíveis. Estas minas são usadas em campos simulados.
As minas de instrução são utilizadas no treino / instrução e subdividem-se em minas de prática,
inertes e treino. São minas que se armam e desarmam como as minas reais, mas que substituem o
efeito destas pelo lançamento de fumos ou som quando acionadas. As minas inertes são idênticas às
minas reais, mas não possuem nenhum componente explosivo. São usadas em sala didática para
explicar o funcionamento e o manuseamento das minas reais. As minas de treino são cópias de baixo
custo de minas reais, usadas para a instrução com lançadores de minas.
3.2.3. Minas utilizadas no presente trabalho
Para a realização dos ensaios necessários foram utilizadas quatro minas AP distintas e duas
minas AC. Devido ao elevado grau de complexidade e de perigo apenas foram utilizadas duas variantes
de uma mina AP real inerte, disponibilizada pela Academia Militar e três objetos que simulam as
restantes minas (figura 3.4 e figura 3.5). Já para as minas AC foram utilizadas duas variantes de minas
AC reais inertes também disponibilizadas pela Academia Militar (figura 3.4).
15
Figura 3.4: Minas AP real inerte (objeto A), variação do modelo Valmara, sendo o seu acionamento (tração) por cordão de
tropeçar e material de metal.
Figura 3.5: Objeto B, C e D respetivamente utilizados para simular mina AP modelo Valmara, M14 e PMN
Figura 3.6: Objeto E e F respetivamente utilizados para simular minas AC genéricas
Os objetos utilizados para o desenvolvimento das experiências foram escolhidos de forma a
que as suas dimensões e materiais constituintes fossem o mais semelhante às minas mais comuns
existentes atualmente. Na tabela seguinte estão presentes as especificações principais destes objetos
e a qual das minas AP descritas na secção anterior estas têm o propósito de serem simuladas.
Objeto A B C D E F
Modelo ou
Tipo a
simular
Modelos de
acionamento
por tração
VALMARA,
entre outras M14 PMN
Mina AC
genérica
Mina AC
genérica
Diâmetro
[mm] 20 85 45 43 212 104
Altura
[mm] 95 44 33 83 212 102
Corpo do
Objeto Metal Plástico
Plástico e
metal
Plástico e
borracha
Metal e
madeira
Metal e
madeira
Imagem
vista de
cima
Tabela 3.2: Especificações principais dos Objetos utilizados ao longo da dissertação
16
3.3. Tipos de Solos
A assinatura térmica de minas terrestres depende de um conjunto de condições ambientais,
sendo que as propriedades do solo assumem um papel determinante na deteção das minas. De forma
a comparar a influência dos diferentes tipos de solos e a sua composição, e ainda, de maior importância,
permitir que o sistema implementado seja o mais generalizado possível (aspeto importante em
problemas de machine learning) foram utilizados vários tipos de solos, o mais diferenciados possível
de forma a tentar abranger todos os ambientes onde as minas podem ser utilizadas. Assim foi elaborada
uma pesquisa de forma a adquirir solos que fossem mais propícios à existência de minas terrestres.
Foram utilizados solos genéricos de simples composição e ainda uma mistura de solos de
forma a simular as estradas de baixo tráfego (as chamada estradas de terra batida, não alcatroadas)
muito comuns em países11 subdesenvolvido e com propensões para estarem em conflito ou terem saído
de um conflito recentemente [14]. Foram atribuídos nomes comuns de fácil compreensão aos diferentes
tipos de solos de forma a que seja feita uma divisão eficiente entre os mesmos. As figuras seguintes
representam os solos usados e as suas principais características.
Figura 3.7: Areia do Rio Figura 3.8: Terra Batida Figura 3.9: Areia do Mar
Figura 3.10: Brita Nr.º 0 Figura 3.11: Brita Nr.º 1 Figura 3.12: Brita Nr.º 2
No que concerne às características de cada solo, a figura 3.7, que representa a areia do rio é
o material, por exemplo que se utiliza para o fabrico do cimento. Este tipo de solo é frequentemente
encontrado à beira rio ou em caminhos rurais pedonais. A figura 3.8 representa a terra batida também
chamada de terra orgânica encontrada em terrenos agrícolas ou de cultivo e pode também ser
referenciada como terra de jardim. A figura 3.9 é a areia do mar encontrada nas praias e está presente
neste estudo com o intuito generalista já apresentado. No que respeita a tipos de solo mais específicos
e usados em aplicações mais profissionais temos as figuras 3.10, 3.11 e 3.12 que representam
materiais granulares usados maioritariamente na constituição de estradas de baixo tráfego [14]. Esta
brita dividida em três grupos consoante as dimensões dos seus grânulos possui respetivamente as
dimensões: 3-8mm para Brita Nr.º 0; 16-30mm para Brita Nr.º 1; 25-50mm para Brita Nr.º 2.
11 Exemplos destes países: Afeganistão, Síria, República Centro Africada, Kosovo, Mali.
17
Figura 3.13: Mistura de Solos de forma a simular uma estrada de baixo tráfego tipo U1.
Com base nos estudos de Fernandes [14] foi ainda elaborado um solo específico (Mistura de
Solos) com vista a simular uma estrada de baixo tráfego tipo U112 sendo utilizados para este fim Brita
Nr.º 0, Nr.º 1 e Nr.º 2 nas proporções aproximadas de 25/37.5/37.5% obtendo assim o solo representado
de duas perspetivas na figura 3.13.
12 Tipos das estradas de baixo tráfego variam entre U1-U5 consoante o esquema da sua composição sendo que as estradas tipo U1 possuem uma mistura de camadas de materiais granulares (brita) de dimensões 5mm – 10mm/ 15mm – 40mm/ 50 – 55mm na proporção 25/037.5/37.5% sendo aquelas que são mais usadas para o tráfego de pessoas e veículos em países subdesenvolvidos. Já as estradas tipo U4/U5 possuem apenas uma camada de desgaste de base granular com dimensões 50-55mm onde apenas se faz a remoção da vegetação existente [14].
18
19
4. Metodologia
Neste capítulo explicam-se os procedimentos adotados para a implementação de uma solução
para o problema formulado. Foram aplicadas duas metodologias, uma clássica (figura 4.1) que segue,
de uma forma geral, as fases de um problema de reconhecimento de padrões e uma outra, apresentada
na secção 4.5, que usa técnicas de aprendizagem profunda, como ferramenta essencial.
Atendendo à primeira metodologia, a construção da solução num problema de reconhecimento
de padrões inicia-se normalmente na obtenção dos dados a utilizar na implementação da solução,
secção 4.1, sendo que o tipo de dados e a informação que contêm é determinante para a definição de
uma estratégia de resolução do problema. Obtidos os dados é realizada uma análise aos mesmos no
sentido de escolher que características podem ser extraídas a partir destes.
A fase de extração de características, apresentada na secção 4.2, é uma das mais importantes
para a construção de uma boa solução, sendo por norma seguida da aplicação de algoritmos de
seleção de características, para que sejam escolhidas as que mais contribuem para a solução do
problema. Na fase seguinte realiza-se a classificação, secção 4.3, onde a escolha do classificador a
utilizar é fulcral na obtenção de bons resultados [15]. De seguida optou-se pela realização de uma fusão
de classificadores de forma a otimizar os resultados obtidos.
Como método de validação para este problema em concreto, utilizou-se o holdout Validation,
sendo este recomendado apenas para grandes conjuntos de dados e assenta na reserva de uma
percentagem do conjunto de dados como conjunto de teste (conjunto de teste).
De forma a complementar esta investigação e seguindo o estado de arte atual em problemas
de processamento/classificação de imagens, foi iniciado o estudo deste problema fazendo uso de
ferramentas de aprendizagem profunda criando assim uma rede neuronal convolucional (CNN) sendo
estas particularmente uteis e promissoras em problemas de classificação de imagens.
Figura 4.1 Fluxograma com a metodologia clássica implementada
4.1. Procedimentos Iniciais
Nesta fase são adquiridas imagens multi-espetrais. A obtenção destas imagens pode ser realizada
por vários equipamentos de imagem ou por um equipamento de imagem capaz de obter imagens em
vários intervalos espetrais. A obtenção destas imagens é feita em função de certos parâmetros de
acordo com o próprio equipamento, o ambiente em que são obtidas as imagens, ou dos objetos a serem
detetados. De seguida é comum efetuar-se o alinhamento das imagens, caso estas estejam
desalinhadas ou sejam obtidas por diferentes equipamentos com campos de visão diferente ou
resolução diferente. Este alinhamento é executado manualmente, destacando-se a necessidade do uso
de marcas/alvos de material visível nos diferentes espetros das imagens obtidas de forma a balizar o
campo minado, por exemplo, utilizando marcas construídas em alumínio, capazes de serem facilmente
identificados nas diferentes imagens recolhidas.
1. Aquisição de Imagens
2. Extração e seleção de
características3. Classificação
4. Fusão de Classificadores
20
4.2. Extração e Seleção de Características
Nesta fase é efetuada a definição das regiões de interesse (ROI). Esta definição é feita
automaticamente a partir de parâmetros obtidos na própria imagem ou definida manualmente.
A definição e respetiva extração de características (features) para os requisitos de um problema
é uma etapa fundamental em tarefas de aprendizagem automática, como a classificação de padrões,
assim nesta fase realiza-se uma análise aos dados obtidos na identificação das ROIs no sentido de
escolher que características que possam ser extraídas a partir das ROIs.
Uma imagem consiste em vários pixels com diferentes valores de intensidade de níveis de
cinzento. A textura é definida pela distribuição espacial dos níveis de cinzento, pelo que a sua análise
pode ser efetuada recorrendo ao uso de propriedades estatísticas, que analisam a distribuição espacial
dos níveis de cinzento, calculando características locais em cada ponto da imagem e deduzem um
conjunto de estatísticas [16].
4.2.1. Estatística de Níveis de Cinzento de Primeira Ordem
Segundo Gonzalez [17] a análise com o recurso a estatística de primeira ordem (FOS) tem
como base o histograma de níveis de cinzento. Admitindo que 𝑛𝑝 é o número de pixels de uma região
de interesse e 𝐿 o número de níveis de cinzento dessa ROI, o histograma normalizado de primeira
ordem é dado pela função de distribuição de probabilidades (4.1).
ℎ(𝑖) =#(𝑥, 𝑦) ∈ 𝐼(𝑥, 𝑦) = 𝑖
𝑛𝑝
, 0 ≤ 𝑖 ≤ 𝐿 (4.1)
No exemplo seguinte é analisado cada pixel individualmente, sem existir qualquer relação com
o valor de pixels vizinhos.
2 1 1 0
0 1 2 1
3 3 2 0
𝐼(𝑥, 𝑦)
𝑖 = 0 1 2 3
ℎ(𝑖) = 2/12 4/12 3/12 2/12
ℎ(𝑖), 0 ≤ 𝑖 ≤ 3
Figura 4.2 Exemplo do cálculo do histograma normalizado da ROI 𝐼(𝑥, 𝑦).
A partir do histograma normalizado, são propostas as várias características de primeira ordem,
sintetizadas na tabela seguinte.
21
Característica Equação Descrição
Média 𝜇 = ∑ 𝑖ℎ(𝑖)
𝐿−1
𝑖=0
Média dos níveis de cinzento de uma ROI. (4.2)
Desvio Padrão 𝜎 = √∑ ℎ(𝑖)(𝑖 − 𝜇)2
𝐿−1
𝑖=0
Máximo de dispersão dos níveis de cinzento em relação ao valor médio.
(4.3)
Variância 𝑣𝑎𝑟 = 𝜎2 = ∑ ℎ(𝑖)(𝑖 − 𝜇)2
𝐿−1
𝑖=0
Medida de largura do histograma, mede a
dispersão dos níveis de cinzento relativamente à média.
(4.4)
Entropia 𝐸𝑁𝑇 = − ∑ ℎ(𝑖) log2(ℎ(𝑖))
𝐿−1
𝑖=0
Medida estatística de aleatoriedade (incerteza) usada para dar informação sobre
a textura da imagem. Mede a não uniformidade da ROI, quanto mais uniforme for a ROI menor será a entropia, 0 ≤ 𝐸𝑁𝑇 ≤
log2 𝐿.
(4.5)
Simetria 𝑆𝐼𝑀 =1
𝜎3∑ ℎ(𝑖)(𝑖 − 𝜇)3
𝐿−1
𝑖=0
Medida do grau de simetria da distribuição de probabilidades.
(4.6)
Curtose (Kustosis)
𝐶𝑈𝑅 =1
𝜎4∑ ℎ(𝑖)(𝑖 − 𝜇)4 − 3
𝐿−1
𝑖=0
Medida do grau de achatamento da
distribuição de probabilidades relativamente à distribuição normal.
(4.7)
Energia 𝐸𝑁𝐸 = ∑ ℎ2(𝑖)
𝐿−1
𝑖=0
Medida da variação da intensidade na imagem. Se a imagem possui apena um
nível de cinzento (ENE = 1), por outro lado se tiver histograma uniforme, (ENE = 1/L).
(4.8)
Tabela 4.1 Características de 1.ª ordem.
4.2.2. Estatística de Níveis de Cinzento de Segunda Ordem
As estatísticas de primeira ordem refletem características que não têm em conta a distribuição
espacial de níveis de cinzento na imagem, pelo que podem apresentar-se como métricas limitadas. As
estatísticas de segunda ordem têm em conta a distribuição espacial de níveis de cinzento na imagem.
O método da dependência de níveis de cinzento (SGLDM) ajuda a extrair a matriz de coocorrência de
níveis de cinzento (GLCM) [18] [19]. O método, proposto por Haralick [20] descreve a dependência da
distribuição de níveis de cinzento entre pixels vizinhos que pode ser expressa através de uma matriz e
coocorrência (GLCM) que, segundo Priya [19] é baseada na função de densidade de probabilidade
condicional de segunda ordem 𝑝(𝑖, 𝑗 |𝑑, 𝜃) que pode ser estimada em várias direções 𝜃 e várias
distâncias 𝑑. Assim 𝑝(𝑖, 𝑗 |𝑑, 𝜃) é descrita como a probabilidade de dois pixels colineares segundo
(sabendo) a direção 𝜃 e a distância 𝑑 possuírem o nível de cinzento 𝑖 e 𝑗. Podem ser consideradas
várias direções, sendo as mais habituais correspondentes aos ângulos 𝜃 = 0°, 45°, 90°, 135°, pois os
pares obtidos por um ângulo de 0° serão similares aos pares obtidos por um ângulo de 180°,
estendendo-se este conceito aos restantes ângulos (𝜃 = 180°, 225°, 270°, 315°)
As funções 𝑝(𝑖, 𝑗 |𝑑, 𝜃) podem ser representadas na forma de matrizes da dependência espacial
dos níveis de cinzento/ GLCM como descrito pela equação:
Ω(𝑑, 𝜃) = 𝑝(𝑖, 𝑗 |𝑑, 𝜃), 0 ≤ 𝑖, 𝑗 < 𝐿 (4.9)
Estas matrizes são quadradas 𝐿 × 𝐿 sendo 𝐿 o nível de cinzento máximo da ROI e simétrica
pois 𝑝(𝑖, 𝑗 |𝑑, 𝜃) = 𝑝(𝑗, 𝑖 |𝑑, 𝜃). A análise desta matriz permite compreender a textura da região da
22
imagem em análise. Considere-se o seguinte exemplo do cálculo da matriz Ω(𝑑, 𝜃) segundo as direções
𝜃 = 0°, 45° e para 𝑑 = 1
0 0 1 1
1 2 1 3
1 0 3 0
2 0 3 1
𝐼(𝑥, 𝑦)
0 1 2 3
0 2/24 2/24 1/24 3/24
1 2/24 2/24 2/24 2/24
2 1/24 2/24 0/24 0/24
3 3/24 2/24 0/24 0/24
Ω(1, 0°)
0 1 2 3
0 0/18 2/18 1/18 2/18
1 2/18 2/18 2/18 0/18
2 1/18 2/18 0/18 0/18
3 2/18 0/18 0/18 2/18
Ω(1, 45°)
Figura 4.3 Matrizes Ω(1, 0°) e Ω(1, 45°), correspondentes à ROI 𝐼(𝑥, 𝑦)
As matrizes Ω(𝑑, 𝜃) são a base para o cálculo de diversas medidas estatísticas, sendo que para
cada par (𝑑, 𝜃) é calculada uma matriz Ω(𝑑, 𝜃) e um conjunto de descritores de textura, presentes na
tabela seguinte (extraídos de [19] [20]).
Descritor Equação Descrição
Contraste 𝐶𝑂𝑁 = ∑ ∑ 𝑝(𝑖, 𝑗)(𝑖 − 𝑗)2
𝐿−1
𝑖=0
𝐿−1
𝑖=0
Variação local dos níveis de cinzento na matriz de
coocorrência. Se os pixels vizinhos forem similares no valor dos níveis de cinzento, então o contraste da
imagem é baixo.
(4.10)
Correlação
𝐶𝑂𝑅
= ∑ ∑ 𝑝(𝑖, 𝑗) [(𝑖 − 𝜇𝑖)(𝑗 − 𝜇𝑗)
𝜎𝑖𝜎𝑗
]
𝐿−1
𝑖=0
𝐿−1
𝑖=0
Valor de correlação entre um pixel e os seus vizinhos. Valores
elevados indicam uma certa ordem local entre os níveis de cinzento.
(4.11)
Energia ou Segundo Momento
Angular
𝐸𝑁𝐸 𝑜𝑢 𝑆𝑀𝐴 = ∑ ∑ 𝑝2(𝑖, 𝑗)
𝐿−1
𝑖=0
𝐿−1
𝑖=0
Indicador do quão uniforme é a
textura na imagem. Mede o grau de Uniformidade.
(4.12)
Entropia 𝐸𝑁𝑇 = − ∑ ∑ 𝑝(𝑖, 𝑗) log2(𝑝(𝑖, 𝑗))
𝐿−1
𝑖=0
𝐿−1
𝑖=0
Medida de Aleatoriedade. (4.13)
Homogeneidade ou Momento Inverso da Diferença
𝐻𝑂𝑀 = ∑ ∑𝑝(𝑖, 𝑗)
1 + (𝑖 − 𝑗)2
𝐿−1
𝑖=0
𝐿−1
𝑖=0
Medida de homogeneidade local. (4.13)
Tabela 4.2 Características de 2.ª ordem.
Na expressão do cálculo da correlação, a média e o desvio padrão (segundo a coluna 𝑖) são
dados por:
Média 𝜇𝑖 = ∑ ∑ 𝑝(𝑖, 𝑗)𝑖
𝐿−1
𝑖=0
𝐿−1
𝑖=0
(4.14)
23
Desvio padrão 𝜎𝑖 = √∑ ∑ 𝑝(𝑖, 𝑗)(𝑖 − 𝜇𝑖)
2
𝐿−1
𝑖=0
𝐿−1
𝑖=0
(4.15)
Existem ainda outras características possíveis de extração não enunciadas na tabela, mas que
poderão ser utilizadas neste processo. Destas destacam-se a Variância, a Média da Soma, a Entropia
da Soma, a Variância da Soma, a Variância da Diferença, a Entropia da Diferença, e Medidas de
Informação de Correlações [20].
4.2.3. Estatísticas de ordem superior
O método do Comprimento de Primitivas dos Níveis de Cinzento (GLRLM) consiste na
contagem do número de sequências de pixels com a mesma intensidade numa dada direção.
Originalmente proposto por Galloway [21], baseia-se no cálculo de primitivas run length, que
correspondem a conjuntos consecutivos de pixels colineares com o mesmo nível de cinzento, numa
dada direção. Numa primeira fase são calculadas as matrizes de primitivas Ψ(𝜃) a partir das quais é
possível extrair descritores de textura.
Ψ(𝜃) = 𝑀(𝑎, 𝑟|𝜃), 0 ≤ 𝑎 ≤ 𝐿, 0 < 𝑟 ≤ 𝑁𝑟 (4.16)
Cada elemento da matriz 𝑀(𝑎, 𝑟|𝜃) representa o número de vezes que ocorrem na ROI
primitivas com nível de cinzento 𝑎 e comprimento 𝑟 segundo a direção 𝜃. Esta matriz possui dimensão
𝐿 × 𝑁𝑟, sendo 𝐿 o número de níveis de cinzento e 𝑁𝑟 o número de primitivas com comprimentos
distintos. O cálculo da matriz de primitivas 𝑀(𝑎, 𝑟|𝜃), segundo as direções 0° e 90°, encontra-se
ilustrado na figura 4.4.
0 0 1 1
1 2 1 3
1 0 3 0
2 0 3 1
𝐼(𝑥, 𝑦)
1 2 3 4
0 3 1 0 0
1 4 1 0 0
2 2 0 0 0
3 3 0 0 0
Ψ(0°)
1 2 3 4
0 3 1 0 0
1 2 2 0 0
2 2 0 0 0
3 1 1 0 0
Ψ(90°)
Figura 4.4 Matrizes de primitivas run lenght para as direções 0° e 90°, correspondentes à ROI 𝐼(𝑥, 𝑦)
Após este cálculo é possível extrair um conjunto de propriedades, Galloway [21] foi o primeiro
autor a propor um conjunto de cinco métricas, sendo que todas estas fazem uso de um fator de
normalização 𝑛𝑟 que expressa o número total de primitivas existentes na matriz e é dado por:
24
𝑛𝑟 = ∑ ∑ 𝑀(𝑎, 𝑟)
𝑁𝑟
𝑟=1
𝐿
𝑎=1
(4.17)
Na tabela seguinte estão expressos o conjunto de descritores proposto pelo autor e que
demonstram as propriedades da textura.
Descritor Equação Descrição
Ênfase em Primitivas Curtas
𝐸𝑃𝐶 = 1
𝑛𝑟
∑ ∑𝑀(𝑎, 𝑟)
𝑟2
𝑁𝑟
𝑟=1
𝐿
𝑎=1
Mede a predominância das primitivas curtas.
(4.18)
Ênfase em Primitivas Longas
𝐸𝑃𝐿 = 1
𝑛𝑟
∑ ∑ 𝑀(𝑎, 𝑟)𝑟2
𝑁𝑟
𝑟=1
𝐿
𝑎=1
Mede a predominância das primitivas longas.
(4.19)
Não Uniformidade dos Níveis de
Cinzento
𝑁𝑈𝑁𝐶 = 1
𝑛𝑟
∑ (∑ 𝑀(𝑎, 𝑟)
𝑁𝑟
𝑟=1
)
2𝐿
𝑎=1
Mede a não uniformidade dos níveis de cinzento da ROI.
(4.20)
Não Uniformidade do Comprimento
das Primitivas
𝑁𝑈𝑁𝑃 = 1
𝑛𝑟
∑ (∑ 𝑀(𝑎, 𝑟)
𝐿
𝑟=1
)
2𝑁𝑟
𝑎=1
Mede a não uniformidade do das primitivas run length.
(4.21)
Percentagem de Primitivas
𝑃𝑃 = 𝑛𝑟
𝑛𝑝
= 1
𝑛𝑝
∑ ∑ 𝑀(𝑎, 𝑟)
𝑁𝑟
𝑟=1
𝐿
𝑎=1
Relação entre o número total de
primitivas e o número total de primitivas possíveis.
(4.22)
Tabela 4.3: Características de ordem superior.
Posteriormente, outras características que aprofundam os descritores enunciado na tabela
anterior, foram introduzidas por outros autores [22] [23] das quais se destacam Ênfase em Primitivas
com Níveis de Cinzentos Baixos/ Altos, Ênfase em Primitivas Curtas/ Longas com Níveis de Cinzento
Alto/ Baixo.
4.2.4. Método das diferenças de níveis de cinzento e Lacunaridade Diferencial
Existem ainda outras características/descritores que, embora não tenham sido usados neste
trabalho, é importante defini-los. Destacam-se assim o método das diferenças de níveis de cinzento
(GLDM) e a Lacunaridade Diferencial.
O primeiro, abordado por Unser [24] e por Khelifi [25] baseia-se na coocorrência de pares de
pixels que possuem uma determinada diferença absoluta em termos do nível e cinzento e se
encontrarem a uma distância 𝑑 na direção 𝜃. Cria-se assim o histograma normalizado que indica a
probabilidade de ocorrência da diferença de níveis de cinzento 𝑖 entre dois pixels distancia e direção
(𝑑, 𝜃). Partindo de cada histograma é possível extrair diversos descritores: Segundo Momento Angular,
Entropia, Momento Inverso da Diferença, Variância, Contraste e a Correlação.
A Lacunaridade Diferencial assenta na terminologia fractal que significa fragmentado, foi
introduzida pelo matemático Benoit Mandelbrot [26] para descrever superfícies não euclidianas que se
apresentam autossemelhantes em diferentes escalas, isto é, o conjunto total é constituído por réplicas
dele próprio qualquer que seja a escala de visualização. No entanto a dimensão fractal por si só não
caracteriza um fractal, é necessário a introdução da lacunaridade de forma a distinguir situações em
que alguns objetos fractais com aspeto substancialmente diferentes possuem uma dimensão fractal
25
igual. Enquanto a dimensão fractal mede o quão preenchido se encontra o espaço Euclidiano, a
lacunaridade quantifica a forma como esse espaço está ocupado. Esta propriedade é altamente
dependente da escala. Padrões homogéneos observados em escalas pequenas podem apresentar-se
bastante heterogéneos se observados em escalas maiores e vice-versa. Portanto, a lacunaridade pode
ser considerada uma medida da heterogeneidade em múltiplas escalas [27]. Valores baixos de
lacunaridade estão relacionados com padrões espaciais homogéneos, enquanto valores altos de
lacunaridade estão associados a padrões heterogéneos. Em geral, quanto maior for a dispersão do
tamanho das lacunas na textura mais alta será a lacunaridade calculada, e vice-versa.
Foram propostos métodos para o cálculo da lacunaridade em imagens binárias, dos quais se
destacam gliding-box [28] e métodos para datasets não binários sendo estes uma conjugação do
método gliding box com o método differential box-couting [29].
4.2.5. Seleção e Normalização de Características
Em problemas de classificação, após a etapa de extração de características é comum ocorrer
um processo de seleção de características que visa reduzir a dimensão do conjunto de dados. Com o
objetivo de encontrar o subconjunto ótimo de características é necessário adotar uma estratégia de
pesquisa que permita, a partir da totalidade das características, escolher apenas algumas e um critério
que avalia a qualidade do subconjunto gerado. Este processo tem como propósito detetar as
características estatisticamente relevantes e descartar as irrelevantes e/ou redundantes [30].
Na prática e segundo a literatura a seleção de características reduz o efeito do Curse of
dimensionality13, identifica as características que aumentam a compreensão do problema, melhorando,
muitas vezes, a visualização dos dados e reduz os custos de processamento de futuras análises de
dados ou predição [31].
Neste contexto, segundo Hira [32] e Guyon [31] os algoritmos de seleção de características
estão separados em três categorias:
• Métodos Filters – Extraem características do conjunto de dados sem terem em consideração
a classificação ou qualquer outro método de aprendizagem como critério. Faz deles
eficientes ao nível computacional. Estão ainda divididos em multivariate (têm como critério
relações entre as características) e univariate (consideram cada característica
separadamente).
• Métodos Wrappers – Usam classificadores/técnicas de aprendizagem para avaliar que
características são estatisticamente relevantes. Menos eficientes ao nível computacional,
especialmente quando usados em problemas com multi-classificação, em que existe
variação nos parâmetros dos classificadores e principalmente quando se trabalha com um
grande conjunto de características. No que respeita à performance estes métodos são
13 O número de características determina a dimensão do espaço das hipóteses, que contém todas as hipóteses que podem ser inferidas a partir dos dados, e que permitem a predição das classes. Quanto maior o número de características maior será a dimensão do espaço das hipóteses. A um aumento linear do número de características corresponde um aumento exponencial do espaço das hipóteses.
26
melhores que os anteriores visto que têm em consideração os resultados e as hipóteses
das técnicas de aprendizagem como critério.
• Métodos Embedded – Têm com objetivo conjugar as vantagens dos dois métodos
anteriores. Possui maior eficiência computacional em relação aos métodos wrapper mas
tem como principal desvantagem o facto de serem dependentes da classificação ou seja a
seleção efetuada por este método pode ser a óptima para um dado classificador, mas não
resultar num outro classificador.
Os métodos Filters, realizam o processo de seleção de características como uma etapa de pré-
processamento sem existir introdução de algoritmos de indução. As características gerais do conjunto
de treino são utilizadas para selecionar as características (por exemplo, distâncias entre classes,
dependências estatísticas). Estes modelos são mais rápidos do que a abordagem Wrapper e resulta
numa melhor generalização pois atuam independentemente dos algoritmos de classificação usados,
no entanto tende a selecionar grandes subconjuntos de características sendo assim necessário
estabelecer limites (thresholds) à dimensão do subconjunto a selecionar. Um dos algoritmos deste tipo
de métodos, bastante utilizado é o algoritmo Relief. [33]
O algoritmo Relief original estima a qualidade das características de acordo com o quão bem
os seus valores se distinguem entre padrões que estão próximos uns dos outros. Assim, dado um
padrão aleatório 𝑥𝑖 de 𝑚 características, o Relief pesquisa aleatoriamente dois vizinhos mais próximos,
um para a mesma classe, chamado de nearest hit H e o outro para a classe diferente, chamado de
nearest miss M. De seguida, atualiza a qualidade das 𝑚 características dependendo dos valores de 𝑥𝑖,
M e H. O Relief original pode lidar com características discretas e contínuas, no entanto é limitado a
problemas binários (duas classes). Foram propostas várias extensões deste algoritmo de forma a poder
não só lidar com problemas multiclasse mas também para torná-lo mais robusto e apto a processar
dados incompletos e com ruído. Destes destacam-se o ReliefF e o RReliefF, o primeiro para lidar com
problemas multicalsse e o segundo para adaptado a problemas de regressão (continuous class
problems). A família destes algoritmos é especialmente atrativa pois podem ser aplicados em todas as
situações, é de fácil implementação em problemas em que se utilizam vários classificadores, inclui
interações entre características e pode captar dependências locais entre as mesmas que outros
métodos não conseguem. [33]
4.3. Classificação
Na classificação, são analisadas as propriedades numéricas das várias características e
organizando a informação em categorias. O problema de discriminar minas terrestres em relação ao
plano de fundo, verifica-se que é um problema binário. Para a sua resolução são propostas várias
técnicas de classificação: Redes Neurais, Classificador SVM, Árvores de Decisão, Classificador KNN
e Classificador linear usando PCA.
4.3.1. Aprendizagem Automática
A aprendizagem automática requer algoritmos de classificação, também denominados de
classificadores, que possuem a capacidade de aprender relações complexas de dados, para tomarem
decisões precisas na presença de novos dados. Pode-se dividir estes algoritmos em três categorias:
27
aprendizagem supervisionada, aprendizagem não supervisionada e aprendizagem por reforço
(Reinforcement learning). Na aprendizagem não supervisionada, os novos objetos não possuem
classificação à prior. Este tipo de classificação não permite obter resultados precisos, pelo que para a
resolução deste problema propõem-se o uso de aprendizagem supervisionada [34]. A aprendizagem
reforçada visa aprender o comportamento de agentes de software ou robôs baseando-se no feedback
do ambiente. Numa abordagem de aprendizagem supervisionada, usada neste problema, é necessário
um conjunto de padrões (exemplos, dados ou instâncias) de treino e respetivas classes. Consideremos
o conjunto de treino 𝑇 constituído por 𝑛 padrões:
(𝑥1, … , 𝑥𝑖) 𝑐𝑜𝑚 𝑥𝑖 ∈ ℜ𝑚 , ∀𝑖 = 1, … , 𝑛 (4.23)
E respetivas classes binárias:
(𝑦1, … , 𝑦𝑖) 𝑐𝑜𝑚 𝑦𝑖 ∈ +1, −1, ∀𝑖 = 1, … , 𝑛 (4.24)
Cada padrão de treino 𝑖 é caracterizado por um vetor 𝑥𝑖 de 𝑚 características. No caso presente,
cada vetor é constituído por descritores de textura extraídos das ROI. A cada padrão 𝑖 encontra-se
associada uma classe 𝑦𝑖 que, dado o problema ser binário, toma o valor de +1 ou -1, sendo que a
classe +1 corresponde à mina e a classe -1 ao plano de fundo. O algoritmo de aprendizagem deve
aprender a reconhecer as principais características associadas à classe +1 e associadas à classe -
1 e ajustar os seus parâmetros aos padrões que lhe são apresentados. Finalmente a sua capacidade
de generalização é avaliada no conjunto de teste, constituído por um novo conjunto de padrões cuja
classe é conhecida, mas que não integravam o conjunto de treino 𝑇.
4.3.2. Redes Neuronais Artificiais
As Redes Neuronais Artificiais são modelos matemáticos regidos pelo princípio das redes
neuronais biológicas. A escolha da quantidade de neurónios que constituem a rede irá depender do
processo de classificação a realizar. Existem várias formas de ligar os neurónios artificiais de modo a
criar uma rede neuronal, mas o mais comum é a rede feedforward. Cada dado de entrada no neurónio
possui um peso, este representa simplesmente um número flutuante que é ajustado quando se treina
a rede, assumindo valores positivos ou negativos, de modo a providenciar influências ativadoras ou
não ativadoras a cada dado de entrada. À medida que cada dado (de entrada) entra no núcleo, é
multiplicado pelo seu peso. O núcleo soma todos os valores, que despoletam a ativação. Se a ativação
for maior do que um valor threshold, o neurónio produz um sinal de saída diferente de zero. Caso
contrário, o neurónio produz um sinal de saída igual a zero [35].
A figura seguinte ilustra um neurónio artificial para os diferentes dados de entrada, neste caso
concreto serão as características 𝑚 de cada padrão 𝑥𝑖 , os pesos a elas associadas 𝑚𝑗 e o valor de
ativação, resultante do somatório do produto do dado de entrada pelo seu peso correspondente.
28
Figura 4.5: Representação de um neurónio artificial, considerando diferentes dados de entrada com diferentes pesos
Para potenciar estas redes neuronais, foram propostas duas importantes extensões, uma delas
é o uso de redes neuronais com múltiplas unidades, geralmente organizadas em camadas, a chamada
multilayer percepton (MLP) e a outra extensão foi a introdução de funções de ativação diferenciais e
continuas [36].
4.3.3. Classificador SVM
O algoritmo Support Vector Machines (SVM) consiste numa metodologia de aprendizagem
supervisionada, usada para a classificação estatística e análise de regressão. Representa um
classificador de objetos de acordo com as suas características, baseando-se no conceito de planos que
definem fronteiras de decisão. Um plano de decisão faz a separação de conjuntos de objetos de
diferentes categorias. Para um determinado conjunto de dados de treino, o SVM constrói de modo
iterativo um modelo que irá prever corretamente se um novo objeto pertence a uma categoria ou a
outra. O SVM constrói um hiperplano entre os objetos de diferentes classes, que maximize a distância
entre os pontos de dados de treino. Quanto maior for a distância entre as classes, mais baixo será o
erro da classificação. O número de hiperplanos pode variar, consoante o número de classes [35].
A situação mais simples corresponde a um conjunto de treino em que os dados são linearmente
separáveis. Considere-se o conjunto 𝑇 de 𝑛 padrões, cada um descrito através de 𝑚 características,
definido por:
(𝑥𝑖 , 𝑦𝑖) 𝑥𝑖 ∈ ℜ𝑚 , 𝑦𝑖 ∈ +1, −1, ∀𝑖 = 1, … , 𝑛 (4.25)
O conjunto 𝑇 é linearmente separável se existir pelo menos um hiperplano que permita separar
completamente os padrões correspondentes às duas classes.
a) b)
Figura 4.6: a) Possível solução para um problema de dados linearmente separáveis. b) Hiperplano do separador ótimo.
29
Como ilustrado na figura 4.6 a), existem vários hiperplanos que permitem a separação das
duas classes. O objetivo deste classificador é encontrar o hiperplano de separação ótimo que maximize
o valor da margem. A margem é a distância entre os padrões das duas classes mais próximos do
hiperplano de separação (figura 4.6 b)). Esse hiperplano é formado pelos pontos 𝑥 que satisfazem a
seguinte equação:
𝑤. 𝑥 + 𝑏 = 0 (4.26)
Sendo 𝑤 um vetor normal ao hiperplano e |𝑏|/||𝑤|| a distância do hiperplano à origem, com
𝑏 ∈ ℜ. O espaço de características fica dividido em duas regiões 𝑤. 𝑥 + 𝑏 > 0 para a classe +1 e 𝑤. 𝑥 +
𝑏 < 0 para a classe -1. Define-se o hiperplano canónico a 𝑇 de modo a que os padrões mais próximos
do hiperplano, satisfaçam a condição:
|𝑤. 𝑥𝑖 + 𝑏| = 1 (4.27)
Considerando a figura 4.6 b), sendo 𝑥1 um ponto do hiperplano 𝐻1, definido pelos pontos que
verificam a igualdade 𝐻1: 𝑤. 𝑥 + 𝑏 = +1 e 𝑥2 um ponto do hiperplano 𝐻2, definido pelos pontos que
verificam a igualdade 𝐻2: 𝑤. 𝑥 + 𝑏 = −1. Se 𝑤. 𝑥1 = +1 − 𝑏 e 𝑤. 𝑥2 = −1 − 𝑏, considerando a distância
𝑥1 e 𝑥2, obtemos a distância 𝐻1 𝑒 𝐻2, isto é a largura da margem, demostrada na equação 4.28.
(𝑤
||𝑤||. (𝑥1 − 𝑥2)) = (
𝑤. 𝑥1
||𝑤||−
𝑤. 𝑥2
||𝑤||) =
2
||𝑤|| (4.28)
Seguidamente é possível obter a maximização da margem com alguma manipulação
matemática, esta maximização é aquela que assegura o menor erro esperado.
É importante referir que em alguns problemas de classificação a distribuição dos dados não
permite uma separação linear entre as classes. Este problema é muitas vezes solucionado se
mapearmos estes dados num espaço com maior dimensionalidade chamado feature space,
segundo: 𝑥 = 𝜙(𝑥𝑖) onde os dados 𝑥𝑖, convertidos em 𝑥, possam ser separados por um hiperplano.
O algoritmo SVM não precisa de saber 𝑥𝑖 apenas precisa de saber o produto interno entre 𝑥𝑖 . 𝑥𝑗, assim
não é necessário calcular os feature vectors 𝑥 = 𝜙(𝑥𝑖) mas apenas os seus produtos internos
𝜙(𝑥𝑖) . 𝜙(𝑥𝑗). Estes produtos internos podem ser calculados usando funções de kernel da
forma 𝑘(𝑥𝑖 , 𝑥𝑗) = 𝜙(𝑥𝑖) . 𝜙(𝑥𝑗). As funções de kernel mais comuns são a linear, a Radial Basis Function
e Polinomial.
4.3.4. Classificador KNN
O classificador k-nearest neighbors (KNN) é um dos classificadores mais simples, mais
utilizados e que apresenta bons resultados na resolução de problemas de classificação [37]. Dada uma
amostra de teste, este classificador atribui-lhe uma classe com base no cálculo da distância da amostra
às 𝑘 amostras do conjunto de treino mais próximas. Analisada a classe das 𝑘 mostras escolhidas,
através de um sistema de votação, verifica-se qual a classe com maior frequência absoluta [37]. Uma
característica que distingue este classificador dos restantes é a necessidade de utilizar todo o conjunto
de treino durante a fase de testes. Na fase de treino as amostras (vetores de características
multidimensionais) e a respectiva classe associada são guardadas. Na fase de teste o valor de 𝑘 é
30
definido pelo utilizador e para a nova entrada de teste realiza-se uma comparação com as amostras de
treino guardadas, sendo essa amostra classificada com a classe das amostras que estiverem mais
próximas e que venceram o sistema de votação. [38].
O desempenho deste classificador depende essencialmente do número de vizinhos a
considerar (𝑘) e a métrica de cálculo de distâncias escolhidas. Em relação às métricas de distâncias
escolhidas habitualmente, estas podem ser: Euclidiana, correlação, cityblock, chebycebv [38].
4.3.5. Árvores de Decisão
As árvores de decisão14 são um dos modelos mais práticos e mais usados nomeadamente em
operações de pesquisa e na análise de decisões. Segundo Mitchell [39], este método apresenta-se
com sendo um método robusto ao ruído e capaz de ser utilizado como uma ferramenta útil à
aprendizagem. O mesmo autor refere que as árvores de decisão dividem o conjunto de dados de treino
em subconjuntos menores de uma forma a que as variáveis presentes em cada subconjunto sejam as
mais homogéneas possíveis.
Numa linguagem leiga, o classificador Árvores de Decisão efetua uma série de questões/
comparações matemáticas, acerca das características de um conjunto de dados. Cada vez que recebe
uma resposta, é feita uma nova questão até à obtenção da classificação dos dados. O classificador
organiza a série de questões e condições numa estrutura em árvore. Pode-se considerar que as árvores
de decisão possuem três tipos de nós, as raízes, que são os nós iniciais das árvores, os nós terminais,
que se encontram no final das árvores e os nós internos, que se encontram entre as raízes e os nós
terminais. As raízes e os nós internos contêm condições de teste para separar os dados que possuem
diferentes características. A todos os nós terminais é atribuída uma classificação. A árvore começa com
todos os dados de treino no primeiro nodo. Uma divisão inicial é feita usando uma variável de previsão,
segmentando os dados em 2 ou mais nós. A divisão sucessiva resulta em vários nós terminais, estes
apresentam a classificação final [39].
Uma vez construída a Árvore de Decisão, procede-se à classificação dos dados de teste.
Começando pelo nodo da raiz, aplicam-se as condições de teste aos dados e segue-se pelo ramo
apropriado, baseando-se no resultado dessa condição. Quando é alcançado o nodo terminal, a
classificação associada a esse nodo é atribuída aos dados de teste [39].
A figura seguinte apresenta um simples exemplo genérico de uma árvore de decisão para
classificação de dados para um problema de duas classes, sendo que para efeitos exemplificativos
consideremos o padrão 𝑥1 = 𝑚1, 𝑚2, 𝑚3 com as respetivas 3 características de forma a simplificar a
visualização do algoritmo.
14 Do inglês Decision Trees
31
Figura 4.7: Exemplo de uma árvore de decisão para problema de três características e duas classes.
Explicando o fluxo das árvores de decisão, neste exemplo concreto, o padrão a ser analisado,
é questionado, na raiz (Nó 1), se a sua característica 𝑚1 é maior ou menor que o valor 0.5. A partir da
sua resposta avança para o nodo interno (Nó 2) ou para o nodo terminal classificando este padrão
(𝑦1 = 1 (𝑀𝑖𝑛𝑎)) e assim sucessivamente até atingir um nodo terminal.
4.3.6. Análise de Componentes Principais
Segundo Almeida [40] quando existe um conjunto de dados com um número elevado de
dimensões, por vezes é aconselhável ter a capacidade de reduzir o número de dimensões mantendo a
mesma quantidade de informação, sendo assim possível facilitar a análise de dados com alta
dimensionalidade. Esta técnica designada por Principal Component Analysis (PCA) encontra uma
função linear que permite a separação das diferentes classes do conjunto de treino realizando a
projeção dos dados nos primeiros 𝑁 vetores próprios. O número de vetores próprios a utilizar é o
parâmetro que pode ser estimado para obter os melhores resultados.
A aplicação desta técnica tem como objetivo extrair dos dados de treino apenas a informação
importante, utilizando esta para a constituição de novas variáveis ortogonais entre si denominadas
componentes principais Este processo inicia-se na procura da direção que maximiza a variância nos
dados e ao mesmo tempo minimiza a raiz quadrada da soma da distância entre os dados e a reta que
materializa a direção principal.
A vantagens da utilização de métodos de redução de dimensionalidade é a diminuição do
tamanho de dados, e a diminuição do tempo de processamento. O tamanho das dimensões das
características é determinado por cada classificador com a melhor performance ao nível da
classificação [41].
Com esta técnica é possível utilizar classificadores lineares tais como PCLDC (Linear Classifier
using Principal Component expansion on the joint data) que procura uma função linear que permita a
separação das diferentes classes do conjunto de treino realizando a projeção dos dados nos primeiros
𝑁 vetores próprios extraídos da técnica PCA [38].
Nó 1
Nó 2
𝒚𝟏 = −𝟏 (𝑵ã𝒐 𝑴𝒊𝒏𝒂)Nó 3
𝒚𝟏 = −𝟏 (𝑵ã𝒐 𝑴𝒊𝒏𝒂)𝒚𝟏 = 𝟏 (𝑴𝒊𝒏𝒂)
𝒚𝟏 = 𝟏 (𝑴𝒊𝒏𝒂)
𝑚1 < 0.5 𝑚1 ≥ 0.5
𝑚2 ≥ 0.8 𝑚2 < 0.8
𝑚3 ≥ 0.6 𝑚3 < 0.4
32
4.4. Fusão de Classificadores
Uma estratégia que permite melhorar o desempenho global da classificação consiste em
combinar vários classificadores num único classificador (multiclassificador) em função da saída de
todos os classificadores utilizados. Consideram-se assim dois métodos plausíveis de serem usados
nesta etapa: os métodos de voto por maioria e os métodos de voto pesado.
4.4.1. Voto por Maioria
Os métodos de voto por maioria (MVM) têm em conta a classificação obtidas para cada
classificador utilizado. Em seguida, recorre-se a um voto, que consiste na constatação de qual das
classificações ocorre com maior frequência, atribuindo-a ao multiclassificador [42]. Na tabela seguinte
é apresentado um exemplo de forma a demonstrar o funcionamento deste método. As colunas
representam os diferentes classificadores, e as linhas correspondem às ROIs consideradas neste
exemplo. A classificação de 0 é dada aos casos em que não existe mina (pertencentes à classe -1) e
a classificação de 1 aos casos onde existe mina (pertencentes à classe +1).
nº da ROI Bayes KNN Árvore de
decisão SVM
Redes
Neurais Multiclassificdor
1 0 0 0 1 1 0
2 0 1 0 1 0 0
3 1 1 0 1 1 1
4 0 0 1 1 1 1
Tabela 4.4: Exemplo método voto por maioria.
Devido à simplicidade que o método de voto por maioria apresenta, não é considerado o
desempenho de cada classificador individual, assim os resultados do multiclassificador poderão ser
afetados, quando se considera que o resultado da saída de cada classificador possui um peso igual.
4.4.2. Voto Pesado
De forma a melhorar o desempenho do multiclassificador, existe um método de combinação de
classificadores que atribui um peso dinâmico (MVP), sendo este proporcional a cinco medidas de
desempenho (apresentadas na secção 4.5): sensibilidade (𝑆), especificidade (𝐸), precisão (𝑃),
exatidão (𝑂𝐴) e F-score (𝐹). Assim pode ser definida uma medida de 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 𝐺𝑙𝑜𝑏𝑎𝑙𝑖 dada por:
𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 𝐺𝑙𝑜𝑏𝑎𝑙𝑖 = 𝑆 + 𝐸 + 𝑃 + 𝑂𝐴 + 𝐹
5 (4.29)
Considerando 𝑇 como a soma de todos os valores de desempenho global, pode ser definido o
seguinte peso dinâmico para o classificador 𝑖:
𝑃𝑒𝑠𝑜 𝐷𝑖𝑛â𝑚𝑖𝑐𝑜𝑖 = 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 𝐺𝑙𝑜𝑏𝑎𝑙𝑖
𝑇 (4.30)
Assim, classificadores que apresentam um comportamento individual de baixo desempenho
possuem menor peso e consequente menor importância na classificação global [42].
33
4.5. Medidas de desempenho do sistema
A qualidade do algoritmo pode ser calculadas a partir de uma matriz de confusão (Confusion
Matrix) permitindo a visualização da performance de um algoritmo15 de aprendizagem numa tabela
específica onde se encontra informação sobre as classificações reais e as previstas segundo um
algoritmo de classificação. [35]. A tabela seguinte representa de forma genérica e exemplificativa uma
matriz de confusão para o problema binário em questão.
Classificação Real
Mina (1) Não Mina (0)
Classificação predita pelo
algoritmo
Mina (1) TP FP
Não Mina (0) FN TN
Tabela 4.5: Matriz de confusão para classificação binária.
Onde, os valores de cada elemento da matriz correspondem a:
• TP (True Positives) – Número de previsões corretamente classificadas como sendo casos
positivos
• TN (True Negatives) - Número de previsões corretamente classificadas como sendo casos
negativos.
• FP (False Positives) - Número de previsões incorretamente classificadas como sendo casos
positivos.
• FN (False Negatives) - Número de previsões incorretamente classificadas como sendo
casos negativos.
O objetivo do algoritmo será de maximizar a diagonal principal da matriz (elementos TP e TN)
e minimizar as previsões FP e FN. Com o auxílio desta matriz é possível calcular medidas que
caracterizam o desempenho dos diferentes algoritmos, sendo estas, a sensibilidade, especificidade,
precisão, exatidão16, F-Score entre outras. Denote-se que consoante as diferentes especificidades de
cada problema de classificações, poderá não ser eficiente, nem útil, utilizar/ calcular todas estas
medidas de avaliação de desempenho, sendo que existem ainda outras que não foram referidas [15]
[35]. Na tabela seguinte estão representadas as medidas referidas bem como uma breve descrição das
mesmas.
15 Matriz de Confusão é normalmente usada em algoritmos de aprendizagem supervisionada e pode ser chamada de matriz de erros (error matrix). Em aprendizagem não supervisionada é chamada de matching matrix
16 Retratada na literatura estrangeira como Overall Accuracy (OA)
34
Medida Equação Descrição
Sensibilidade 𝑆 = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁 Mede a capacidade do algoritmo em
classificar corretamente os casos positivos. (4.31)
Especificidade 𝐸 = 𝑇𝑁
𝑇𝑁 + 𝐹𝑃 Mede a capacidade do algoritmo em
classificar corretamente os casos negativos. (4.32)
Precisão 𝑆 = 𝑇𝑃
𝑇𝑃 + 𝐹𝑃
Mede a proporção de resultados TP em relação a todos os resultados
positivos
(4.33)
Exatidão (OA) 𝑂𝐴 = 𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
Medida de desempenho global, frequentemente usada, que mede a
proporção de resultados verdadeiros em relação a todos os resultados.
(4.34)
F-Score 𝐹 = 2 × 𝑃 × 𝑆
𝑃 + 𝑆 Medida de desempenho global também
encontrada e usada na literatura (4.35)
Tabela 4.6: Métricas de avaliação de desempenho.
4.6. Aprendizagem Profunda
A aprendizagem profunda (deep learning) é uma tendência atual no que concerne à análise de
dados e a técnicas de aprendizagem. Esta técnica é um tipo de aprendizagem automática que realiza
tarefas de classificação diretamente de imagens, vídeo, textos ou sons. Na literatura, a aprendizagem
profunda é caracterizada como sendo uma melhoria às redes neuronais artificiais, explicadas na secção
4.3, consistindo num aumento significativo de camadas, o que proporciona um nível de abstração maior
e melhorias nos dados preditos. É assim considerada como a principal ferramenta de aprendizagem
automática nos domínios gerais da visão computacional e do processamento de imagem [43] [44].
Segundo Xiaorui [44] as redes profundas são uma variação/upgrade das redes neuronais e têm
sido usadas com sucesso em campos como a visão computacional, nomeadamente na aprendizagem
de características híper-espetrais ou multi-espetrais e na classificação das imagens deste tipo. Não
existe na literatura trabalhos da aplicação da aprendizagem profunda na deteção de minas em imagens
multi-espetrais. No campo da aprendizagem profunda, a maioria dos algoritmos usa as CNNs [45].
A razão pela qual as CNNs são atualmente dos algoritmos de machine learning mais
investigados é que estas preservam as relações espaciais quando as imagens de entrada são filtradas.
Estas relações espaciais possuem importância crucial na deteção de diferenças nas imagens, por
exemplo na análise de imagens médicas esta informação é usada para distinguir, entre outras coisas,
um tecido pulmonar de um tecido cancerígena [43].
Outros aspetos que fazem as CNNs especialmente úteis são o facto de eliminarem a
necessidade da extração de características manualmente, as características são aprendidas
diretamente da rede e estas redes podem ser retreinadas para novas/diferentes tarefas de
reconhecimento permitindo construir/acrescentar em redes pré-existentes. As CNNs oferecem uma
arquitetura ótima para reconhecimento de imagens e deteção de padrões o que combinado com os
avanços nas Graphic Procesing Units (GPUs)17 e na computação paralela torna esta tecnologia
17 As ferramentas em aprendizagem profunda particularmente as CNNs necessitam de um grande poder de processamento, fazem uso das GPUs da máquina, para a realização do seu processamento.
35
bastante promissora [46]. A figura seguinte retrata de forma simplista o diagrama usado pelas CNNs,
para um problema muti classe de reconhecimento de veículos.
Figura 4.8: Exemplo de um Deep learning workflow fazendo uso de CNN. (figura adaptada de [46])
As redes utilizadas em Aprendizagem profunda possuem mais camadas em relação as redes
neuronais clássicas, particularmente as CNNs podem ser constituídas por dezenas ou centenas de
camadas, em que cada uma é treinada e responsável por detetar diferentes características numa dada
imagem. Na prática o que acontece é que são aplicados filtros, em diferentes resoluções, a cada
imagem de treino sendo que a saída de cada imagem convolvida é usada como entrada para a próxima
camada. Estes filtros começam a produzir características bastante simples como brilho ou cantos/
linhas e vão aumentando a complexidade para características únicas que definem o objeto [45] [46].
Como se verifica na figura 4.9, o fluxo de uma CNN é iniciado com a entrada de uma imagem sendo
esta exposta a camadas de extração de características via camadas de convoluções (Convolutinal
layers), camadas Rectified Linear Unit (RELU) e camadas de Pooling. A saída desta transformação,
alimenta posteriormente uma camada final chamada de Fully Connected Layer que atribui os valores
ou as probabilidades, classificando assim a imagem de entrada na classe com maior valor ou
probabilidade.
Figura 4.9: Exemplo da tarefa de classificação na deteção de mina segundo um esquema de CNN. (figura adaptada de
[45])
Esta tipologia de redes é genericamente separada em duas fases principais, a primeira de
aprendizagem das características (feature learning) e a segunda a parte da classificação. Na figura
4.10 está representada a componente do feature learning numa CNN genérica. As camadas presentes
nesta parte realizam operações que alteram os dados de forma a aprender características específicas.
36
Figura 4.10: Fase de Feature Learning.de uma CNN genérica (figura retirada de [46])
As camadas mais comuns nesta fase são: convolução, ativação ou RELU, e pooling, sendo
que, de uma forma resumida, cada camada diz respeito a:
• Convolution – Realiza um conjunto de filtros de convolução nas imagens de entrada, em
que cada um destes filtros ativa/ descobre certas características das imagens.
• Rectified linear unit – Torna o processo de treino mais rápido e eficiente mapeando os
valores negativos a zero e mantendo os valores positivos. Esta camada é frequentemente
referenciada como de ativação, pois apenas as características ativadas são levadas para a
próxima camada
• Pooling – Simplifica a saída fazendo uma downsampling não linear, reduzindo assim o
número de parâmetros que a rede necessita de aprender.
Como se verifica na figura anterior, estas operações não ocorrem apenas uma vez, são
repetidas dezenas a centenas de vezes de forma a identificar características os mais particulares e
individualizadas possível [46]. De seguida à fase de aprendizagem de características a arquitetura das
CNNs genéricas passa para a classificação (figura 4.11).
Figura 4.11: Fase de classificação de uma CNN genérica (figura retirada de [46])
A primeira camada desta fase é a fully connected layer (na literatura, a camada flatten é omitida
ou fundida com a fully connected layer) que tem como output um vetor de dimensão k onde k é o
número de classes que a rede terá de prever. Este vetor irá conter os scores ou probabilidades de uma
dada imagem pertencer a cada uma das classes (valores estes provenientes da camada flatten quando
existente). A camada final desta estrutura usa uma camada de classificação fazendo uso de uma função
softmax (cuja atribui probabilidades decimais a cada classe num problema multiclasse) que aplicada
ao vetor anterior fornece o output da classificação [46].
Classificação
37
5. Resultados e Discussão
Neste capítulo são apresentados os resultados das duas metodologias aplicadas à deteção de
minas terrestres. Primeiramente são descritos os procedimentos de aquisição das imagens multi-
espetrais. Seguidamente são apresentados os resultados qualitativos e quantitativos da classificação
para as imagens obtidas nos campos construídos em laboratório (indoor) e nos campos (outdoor)
construídos no Aquartelamento da Academia Militar na Amadora (AAMA). São comparados os
resultados segundo as profundidades a que as minas foram enterradas, o tipo de solo em que as
mesmas foram enterradas, o tempo em que estiveram enterradas e o tipo de classificador. No final do
capítulo são ainda apresentados os resultados do estudo em aprendizagem profunda da rede CNN e
analisado o desempenho obtido por este método em relação a uma metodologia clássica.
5.1. Processo de Aquisição de Imagens
A obtenção destas imagens foi efetuada, recorrendo a equipamentos de imagem da Academia
Militar, adquiridos durante a execução dos projetos FUSIMIL e FIVE, cujas especificações estão
presentes na tabela 5.1.
Nome do equipamento Resolução [pixéis] Banda Espetral [nm] Sensor
Quest Condor3 VNN-618
(Câmara multi-espetral) 640 × 494
(400-670); (670-850);
(850-1000)
Sony ICX-618 CCD,
1/4’’, 4.08 [µm]
FLIR T440bx (Câmara de
infravermelho térmico) 320 × 240
RGB18 + 7500-13000
-20º C até 650º C Integrado
Tabela 5.1 Especificações dos equipamentos de imagem pertencentes à Academia Militar
O processo de aquisição de imagens está subjacente a condições experimentais necessárias
para ser possível cobrir todas as conjunturas práticas que ocorrem neste tipo de problemas. Foram
construídos para a realização desta dissertação, dois tipos de experiências principais. A primeira, em
ambiente (indoor) dentro de uma sala disponibilizada pela Academia Militar que funcionou como um
laboratório para os ensaios iniciais. A segunda, em ambiente outdoor sem controlo das condições
ambientais, nos terrenos de exercícios militares do Aquartelamento da Academia Militar na Amadora.
Para a realização de ambas as experiências, foi necessário a construção de uma estrutura
metálica que fizesse suporte às duas câmaras de aquisição de imagens a uma altura fixa e pré-
determinada, de forma a se obter um conjunto de dados uniforme, e ainda de recipientes, neste caso
em plástico, para a colocação dos diferentes tipos de solos, indicados no capítulo 3. Foi ainda
necessário a colocação de um isolante térmico entre os solos e a caixa de forma a preservar o mais
possível as diferenças térmicas entre solo e a caixa de suporte ao solo. Nas figuras seguintes, de forma
cronológica, está representado o processo de montagem dos recipientes de plástico com uso do
respetivo isolante térmico, e ainda a colocação dos diferentes tipos de solos.
18 RGB corresponde aos canais: B=450-520nm, G=515-600nm, R=600-690nm
38
Figura 5.1: Processo cronológico (da esquerda para a direita) de montagem dos recipientes usados para a colocação dos
solos e respetiva inserção do material isolante térmico.
De seguida foi realizado o processo de construção da estrutura metálica, representada em
ambiente indoor e outdoor nas figuras seguintes.
Figura 5.2: Estrutura metálica, em ambiente indoor utilizada para suportar os equipamentos necessários à aquisição de
imagens
Figura 5.3: Estrutura metálica, em ambiente outdoor utilizada para suportar os equipamentos necessários à aquisição de
imagens
A estrutura metálica e os recipientes de plástico, como se verifica nas figuras anteriores, foram
utilizados para os dois ambientes distintos tornando as condições iniciais de posicionamento das
câmaras iguais para os dois casos.
De seguida procedeu-se ao posicionamento das câmaras na parte superior da estrutura
metálica. Este processo é de extrema importância para a aquisição de imagens pois todo o conjunto
39
de imagens utilizado neste trabalho foi obtido a partir da posição onde as câmaras se encontram. Na
figura seguinte está representado a disposição dos equipamentos de aquisição de imagem na estrutura
metálica, e respetiva imagem da perspetiva das câmaras.
a) b)
Figura 5.4: (a) Posicionamento dos equipamentos de aquisição de imagem com câmara FLIR esquerda e câmara multi-
espetral direita. (b) Imagem da perspetiva das câmaras vista do topo da estrutura metálica.
Denote-se a importância de ambas as câmaras estarem centradas com a parte inferior da
estrutura (onde são colocados os recipientes com os solos), estarem o mais alinhadas possível (de
forma a facilitar o processo de alinhamento das imagens nos vários espetros possíveis), possuírem a
mesma orientação e de existir um método de comunicação remoto com as câmaras de forma a evitar
possíveis alteração do foco das câmaras. Para este último ponto foi utilizado o módulo wi-fi da câmara
FLIR que permite a comunicação remota dos controlos/display da câmara por um smartphone ou
computador via aplicação FLIR Tools19. A câmara multi-espetral Quest Condor3 representa a
necessidade da instalação de drives fornecidos pelo fabricante de forma a utilizar o mecanismo de
comunicação, via Local Area Network (LAN). Foi utilizado o software Architector Vision Studio de forma
obter as imagens recolhidas pela câmara multi-espetral, bem como aceder às configurações manuais
desta câmara e ajustar o tempo de exposição20 (exposure time) e o ganho21 (gain) dependendo da
quantidade de luz presente (parâmetros diferentes para indoor/ outdoor, ambiente com Sol ou nublado).
Verifica-se que esta câmara não possui uma automatização destes parâmetros o que tornou a aquisição
destas imagens mais complexa.
Após as câmaras estarem posicionadas e os sistemas de comunicação remota estarem
operacionais foram introduzidos os diferentes tipos de solos nos diversos recipientes de forma a que o
processo de aquisição de imagens não alterasse a posição da estrutura. A troca dos solos foi feita
exclusivamente com a movimentação dos recipientes para o centro da parte inferior da estrutura (figura
19 Aplicação grátis disponível na PlayStore/AppleStore para smartphone e para computador na website oficial da FLIR em https://www.flir.com/products/flir-tools/
20 O tempo de exposição é o tempo em que o sensor de uma câmara está exposto à luz, em termos leigos é o tempo desde que o sensor abre até que fecha
21 O ganho é uma configuração digital presente nos equipamentos de aquisição de imagem, que controla a amplificação do sinal proveniente do sensor da câmara.
40
5.2, à direta). Este processo foi efetuado também em ambiente outdoor sempre com a preocupação de
garantir que as imagens obtidas fossem adquiridas da mesma posição.
Findo este processo, foi possível iniciar a construção dos campos de minas dentro dos
recipientes. O manuseamento dos objetos foi efetuado com o recurso a luvas isolantes de forma a que
não haja transferência de energia entre as mãos do operador e os objetos. Este simples procedimento
garante um maior rigor nos dados obtidos. Foram elaborados dois diagramas principais para a
construção dos campos de minas, e um terceiro diagrama elaborado para a experiência da deteção de
minas em função do tempo em que estão enterradas. O primeiro diagrama principal foi utilizado para
os ensaios das minas AP e o segundo para os ensaios com minas AC. Para a experiência da deteção
em função do tempo, foi utilizado um terceiro diagrama onde figuram minas AP e minas AC. As figuras
seguintes representam os três diagramas indicados
Figura 5.5: Diagrama dos campos de minas construídos para a realização da aquisição de imagens. À esquerda, o
diagrama para as minas AP. À direita o diagrama para as minas AC.
Figura 5.6: Representação prática do diagrama dos campos de minas com os respetivos objetos à superfície. À esquerda,
o diagrama para as minas AP. À direita o diagrama para as minas AC.
Figura 5.7: Representação do diagrama dos campos de minas para a experiência em função do tempo. À esquerda o
diagrama. À direita a disposição prática dos objetos à superfície.
Objeto B
Objeto D Objeto A
Objeto C
90 [cm]
68
[cm
]
Objeto E
Objeto F
90 [cm]
68
[cm
]
Objeto B
Objeto D Objeto A
Objeto C
90 [cm]
68
[cm
]
Objeto B
Objeto A
Objeto C
41
De realçar que os diagramas da figura 5.5 foram utilizados para os ensaios de minas AP e AC
quer em ambientes indoor e outdoor. O terceiro diagrama foi utilizado apenas outdoor. Após a execução
da criação dos campos de minas, foi iniciada a aquisição das imagens.
5.2. Aquisição de Dados
O processo de aquisição de dados corresponde a utilizar dois equipamentos indicados na
secção 5.1. As imagens obtidas do topo da estrutura metálica, a uma altura de 2.3 [metros] mostram
todo o conteúdo (solo e objetos enterrados) dentro do recipiente.
5.2.1. Aquisição de Dados via FLIR T440bx
As imagens obtidas a partir da câmara de infravermelhos possuem uma resolução de imagem
de 320×240 [pixéis], em que cada aquisição corresponde a uma imagem do espetro visível e a imagem
correspondente no infravermelho térmico. Esta última possui ainda uma escala de temperatura
correspondendo a falsa cor sendo que cores quentes22 correspondem a uma maior temperatura e cores
frias a uma menor temperatura. Para as imagens indoor e outdoor a escala de temperaturas foi sempre
fixa consoante o tipo de solo a utilizar. Na tabela seguinte estão presentes os valores das escalas de
temperatura usadas.
Tipo de Solo Escala de Temperatura indoor [ºC] Escala de Temperatura outdoor [ºC]
1. Areia do Rio 15.5 – 20.5 19.5 – 35.6
2. Terra Batida 16.5 – 23.6 22.0 – 35.0
3. Areia do Mar 17.5 – 22.0 22.2 – 39.6
4. Brita Nr.º 0 17.5 – 22.9 –
5. Brita Nr.º 1 17.0 – 22.0 –
6. Brita Nr.º 2 17.0 – 23.5 –
7. Estrada de baixo
Tráfego 17.0 – 23.5
16.9 – 25.4
Tabela 5.1: Valores da escala de temperatura usada na obtenção das imagens do infravermelho térmico para ambiente
indoor e outdoor.
A escolha dos valores enunciados na tabela anterior foi feita principalmente em função das
condições gerais do ambiente em que se inseriam as imagens. Em ambiente indoor, sendo este um
ambiente controlado, o parâmetro que alterava esta escolha foi a temperatura ambiente, em ambiente
outdoor a temperatura ambiente aliada às condições meteorológicas foram fatores que influenciaram
esta escala.
22 As cores quentes são psicologicamente dinâmicas e estimulantes já as cores frias são psicologicamente calmantes e transmitem a sensação de frio. Exemplo de cores do mais quente para o mais frio: amarelo, laranja, vermelho, rosa, roxo, azul.
42
Na figura seguinte encontra-se um exemplo que um conjunto de duas imagens (uma visível e
a outra térmica) adquirida diretamente pela FLIR T440 do diagrama de mina AP enterradas com a parte
superior descoberta.
Figura 5.8: Exemplo da aquisição de imagem via câmara FLIR. À esquerda imagem do espetro visível e à direita imagem
do infravermelho térmico.
5.2.2. Aquisição de Dados via Quest Condor3 VNN-618
As imagens obtidas a partir da câmara multi-espetral possuem uma resolução de imagem de
640×494 [pixéis] sendo que cada aquisição deste equipamento corresponde a três diferentes imagens.
A primeira (Canal 0) correspondem a uma imagem do espetro do visível em níveis de cinzento, com
comprimentos de onda no intervalo 400 – 670 [nm], as duas últimas imagens (canal 1 e canal 2)
correspondem a dois espetros pertencentes ao VNIR/infravermelho próximo sendo que o canal 1
pertence ao intervalo 670 – 850 [nm] e o canal 3 ao intervalo 850 – 1000 [nm]. Estas imagens são
convertidas automaticamente, pelo software, para escala de cinzento. As configurações efetuadas
nesta câmara, para cada canal e para cada ambiente estão presentes nas seguintes tabelas.
Canal tempo de exposição [ms] Ganho [db]
0 80000 3
1 200000 7.2
2 800000 7.2
Tabela 5.2: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em ambiente indoor
Canal Tempo de exposição [ms] Ganho [db]
0 60000 3
1 150000 7
2 400000 7
Tabela 5.3: Valores das configurações manuais a efetuar na câmara multi-espetral para os ensaios em ambiente outdoor
No que concerne ao ambiente em laboratório indoor, como se verifica na tabela 5.2, existe a
necessidade de configurar valores altos no tempo de exposição devido à baixa luminosidade presente
na sala. Este aumento do tempo de exposição e consequência ganho alto, correspondem a um
aumento do ruído presente, principalmente na imagem do canal 2 tendo como consequência a
diminuição de informação útil presente nesta banda espetral. A vantagem do ambiente indoor prende-
se com o facto de os valores considerados ideais para as configurações, permanecerem inalterados
durante todos os ensaios. As figuras seguintes representam um exemplo da aquisição de dados para
ambiente indoor com diagrama minas AP enterradas com a parte superior descoberta.
43
Figura 5.9: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente indoor representando, da esquerda
para a direita o canal 0, 1 e 2
Observando as imagens da figura 5.9 verifica-se o aparecimento do ruído (pixéis com valores
elevados de intensidade ao longo da imagem). A figura 5.10 representa uma amostra com zoom ≈ 1500
[%] da imagem original do canal 2 em que se verifica um pixel de elevada intensidade (255), não
correspondendo à informação real do recipiente.
Figura 5.10: Amostra com zoom ≈ 1500 [%] da imagem original do canal 2 em que se verifica o fenómeno
supramencionado. À esquerda a zona de pixéis a analisar e à direita os valores de intensidade de escala de cinzento
respetivos.
Relativamente ao ambiente outdoor, verifica-se a atribuição de valores mais baixos nas
configurações devido ao aumento da luminosidade em comparação com o interior da sala. Considera-
se uma redução efetiva do ruído especialmente no canal 2. No entanto em ambiente outdoor existe a
necessidade de uma alteração constante destes valores relativamente às condições meteorológicas
presentes no momento. As configurações representadas na tabela 5.3 são as configurações médias
fixadas na câmara ao longo da maior parte dos ensaios outdoor (efetuados nas condições de
aproximadamente 18 [ºC], céu nublado com poucas abertas). Nas condições em que existem abertas
ou céu limpo, estes valores são diminuídos na ordem dos 40-50 [%]. A figura seguinte representa um
exemplo da aquisição usando a câmara Quest Condor 3 VNN-618.
44
Figura 5.11: Exemplo da aquisição de imagem via câmara multi-espetral em ambiente outdoor e em escala de cinzento. Da
esquerda para a direita o canal 0, 1 e 2.
5.2.3. Resultados qualitativos em função do tempo
Antes da constituição do conjunto de dados final, a experiência resultante do terceiro diagrama,
permitiu a retirada de alguns resultados em função do tempo. A experiência em questão consistiu em
enterrar os objetos às 10 horas e adquirir imagens a parir dos equipamentos referidos, num intervalo
de uma hora até às 19 horas. O objetivo desta experiência foi perceber se a energia libertada pelos
objetos enterrados aumentava em função do tempo. Na figura seguinte está disposto o diagrama
utilizado. Para a experiência em questão, as imagens obtidas pelos diferentes equipamentos
representam a realidade da figura 5.12 b).
a) b)
Figura 5.12: Terceiro Diagrama utilizado. a) objetos à superfície, b) alguns objetos enterrados a elevadas profundidades
a) b)
Figura 5.13: Resultados para imagens TIR. a) aquisição obtida às 10h00, b) aquisição obtida às 19h00
A partir da Figura 5.13, verifica-se que no intervalo de tempo da experiência (sete horas), por
inspeção visual não existe melhoria no sinal transmitido pelos objetos enterrados no espetro TIR.
Passsando para os espetros dos canais 0,1 e 2 da câmara Quest Condor 3 VNN-618, a partir da figura
5.14 verifica-se que, à semelhança do espetro TIR, não existem melhorias visuais que auxiliem a
deteção.
45
a)
b)
Figura 5.14: Resultados para imagens obtidas a partir da câmara Quest Condor 3 VNN-618 a) aquisição obtida às 10h00,
b) aquisição obtida às 19h00
Dados estes resultados preliminares, pode-se afirmar que no intervalo de tempo de sete horas,
não existem alterações significativas à energia libertada por objetos enterrados. Deve-se assim
ponderar a consideração de um intervalo de tempo maior tal como acontece em ambiente real em que
por vezes as minas terrestres ficam enterradas durante meses ou anos. A partir deste momento, este
diagrama não foi mais utilizado para a constituição do conjunto de dados final.
5.2.4. Conjunto de Dados
Após a aquisição de todas as imagens pelos equipamentos indicados na secção anterior, foi
necessário efetuar um pré processamento nas mesmas, de forma a constituir o conjunto de dados. Este
pré-processamento, consistiu na eliminação, por inspeção visual, das imagens a que a uma dada
profundidade, deixam de possuir informação térmica relevante à deteção de minas, na rotação das
imagens (caso estas não tivessem a mesma orientação), na transformação de todas as imagens para
a mesma resolução, no recorte das imagens e alinhamento das diferentes imagens dos diferentes
espetros, na junção de todas as imagens de cada espetro numa imagem de multi-dimensão (multi-
espetral) e finalmente na execução do sliding window com o objetivo da extração de Rois.
A tabela seguinte representa a quantidade de aquisições obtidas em função das profundidades
a que os objetos estão enterrados, para os diferentes ambientes, diagramas e tipos de solos já
enunciados.
46
Ambiente Diagrama Tipo de Solo Profundidade [mm] Imagens
TIR
Imagens
VNIR
indoor AP Areia Rio, mar, orgânico 0, 1, 2 ,5 ,10 62 142
Britas 0, 3-6, 6-16, 16-30, 30-50
AC Areia Rio, mar, orgânico 0, 1, 2 ,5 ,10 82 170
Britas 0, 3-6, 6-16, 16-30, 30-50
outdoor AP Areia Rio, mar, orgânico 0, 1, 2, 5 62 161
Estrada de baixo tráfego 0, 3-8, 6-16
AC Areia Rio, Mar, orgânico 0, 1, 2, 2-5, 10 42 100
Estrada de baixo tráfego 0, 3-8, 6-16
Tabela 5.4: Valores da totalidade de aquisições por parte dos dois equipamentos em função do ambiente, do diagrama dos
objetos e da profundidade.
Os valores quantitativos das imagens indicados na tabela 5.4 dizem respeito a todas as
aquisições efetuadas ao longo do trabalho, incluindo casos pontuais de repetições. As imagens TIR
incluem uma imagem do visível e uma imagem do infravermelho térmico. As imagens VNIR incluem
três imagens correspondentes às bandas indicadas anteriormente.
Posteriormente, por inspeção visual verificou-se que a partir de uma dada profundidade, nestes
ensaios, não era possível detetar objetos enterrados em nenhum dos diferentes espetros testados,
sendo que as imagens adquiridas a partir dessa profundidade limite foram retiradas do conjunto de
dados, partindo do pressuposto que a partir dessas profundidades o sistema não deteta objetos
enterrados. No apêndice C estão as imagens obtidas à profundidade limite de cada caso. Estas são,
respetivamente, para cada caso:
• Campos indoor/ outdoor diagrama AP: 5 [mm] para todos os tipos de solos.
• Campos indoor/ outdoor diagrama AC: 10 [mm] para areia do rio, areia do mar e terra batida
e 100 [mm] para as britas.
Para a criação da imagem multi-espetral, foram selecionadas as imagens do espetro visível e
infravermelho térmico obtidas pela câmara FLIR T440, a imagem do espetro visível em níveis de
cinzento do canal 0, a imagem do canal 1 e a imagem do canal 2, da câmara Quest Condor3 VNN-618
obtendo assim uma imagem de 7-dimensões, explicada na tabela seguinte, em que a terceira coluna
representa se a dimensão ou dimensões são usadas na fases de extração de características.
Dimensão N.º Tipo de Imagem Entrada/Processamento
1, 2, 3 Visível (RGB) Não
4 TIR (gray scale) Sim
5 Visível (gray scale) Sim
6 VNIR (670 – 850 [nm]) Sim
7 VNIR (850 – 1000 [nm]) Sim
Tabela 5.5: Bandas espetrais de cada uma das componentes da imagem multi-espetral construída.
Como conjunto de dados de entrada na metodologia, a dimensão 1, 2 e 3 não entra no
processamento, estando apenas presente como imagem de controlo e de comparação com a
47
quantidade de informação que os restantes espetros oferecem. O facto de se inserir a dimensão
número 5 no processamento corrobora a não introdução da imagem do visível e tem como razão a
grande quantidade de informação obtida por estas imagens na deteção de minas parcialmente
enterradas (devido às condições ambientais algumas minas poderão ser descobertas com o passar do
tempo) e minas com a sua superfície ao descoberto. Solos remexidos também inserem informação
neste tipo de imagens. As restantes componentes 4, 6 e 7 (a dimensão 4 é convertida para escala de
cinzento e as restantes, como já fora indicado são convertidas para escala de cinzento
automaticamente pelo software) foram introduzidas devido às razões enumeradas na literatura.
Seguidamente foi efetuada a rotação das imagens que não possuíam a mesma orientação, foi
efetuado o processo de downscale, diminuindo a resolução das imagens obtidas pela câmara multi-
espetral, passando de uma resolução de 640×494 [pixéis] para 320×147 [pixéis]. De forma a evitar a
presença dos limites do recipiente bem como da escala de temperatura nas imagens, foi feito um
recorte e posteriormente o alinhamento de todas as imagens obtendo como conjunto de dados final
uma imagem multi-espetral de 7 dimensões (Tabela 5.5) em que todas as dimensões estão alinhadas
e com uma resolução final de 240×180 [pixéis] para ambiente indoor e de 210×180 [pixéis] para
ambiente outdoor. As figuras seguintes representam exemplos da imagem multi-espetral final
construída.
Figura 5.15: Exemplo da imagem multi-espetral, para Areia do mar, em ambiente indoor, com os objetos à superfície, e
diagrama AP, construída para o conjunto de dados.
Figura 5.16: Exemplo da imagem multi-espetral, para Areia do rio, em ambiente indoor, com os objetos enterrados à
profundidade 1mm, e diagrama AC, construída para o conjunto de dados.
Figura 5.17: Exemplo da imagem multi-espetral, para mistura de solos em ambiente outdoor, com os objetos enterrados e a
superfície descoberta, e diagrama AP, construída para o conjunto de dados.
48
Figura 5.18: Exemplo da imagem multi-espetral, para terra batida (orgânico), em ambiente outdoor, com os objetos
enterrados, com a superfície descoberta, e diagrama AC, construída para o conjunto de dados.
A aquisição do número de imagens de cada espetro presentes na tabela 5.4 possibilitou a
construção de um total de 19 imagens multi-espetrais para indoor AP, 24 imagens multi-espetrais para
indoor AC, 14 imagens multi-espetrais para outdoor AP, 12 imagens multi-espetrais para outdoor AC e
12 imagens para o teste da deteção de minas enterradas em função do tempo. Para cada uma destas
imagens multi-espetrais foi construída uma imagem binária (composta por branco onde a mina se
encontra e preto onde não existe mina) que funcionará como referência ao conjunto de treino.
Figura 5.19: Exemplo da imagem binária de target representando respetivamente, da esquerda para a direita a imagem
multi-espetral da Figura 5.15 e 5.16
A partir do conjunto de dados apresentado, foi desenvolvido um conjunto de algoritmos na
forma de scripts usando para esse fim o software de programação Matlab. Como produto desta
dissertação, todos os scripts elaborados estão publicados em repositório púbico, na plataforma github23
de forma a que qualquer um possa aceder e usar no seu projeto de processamento de imagem. No
entanto a disponibilidade, das imagens obtidas, poderá necessitar de autorização superior.
Quanto maior e mais generalizado o conjunto de dados for, melhor será a performance de um
algoritmo de machine learning, desta forma implementou-se um algoritmo de sliding window (sliding
box) que consiste na extração de ROIs de uma dada imagem de forma a obter múltiplas imagens em
que a extração de característica seja efetuada a cada uma das ROIs. As ROIs multi-espetrais extraídas
de cada uma das imagens multi-espetrais construídas formam o conjunto de dados usado nesta
dissertação. Para este processo é necessário a definição de dois parâmetros, o tamanho da ROI e a
distância, em pixéis, entre ROIs consecutivas.
Para o diagrama AP foi definido como tamanho da ROI o valor de 10 pixéis e foram extraídas
ROIs de 2 em 2 pixéis produzindo 9755 ROIs multi-espetrais em ambiente indoor e 8500 ROIs multi-
espetrais em ambiente outdoor para cada uma das imagens multi-espetrais construída. Para o
diagrama AC foi definido como tamanho da ROI o valor de 80 pixéis e foram extraídas ROIs de 2 em 2
23 Repositórios públicos na conta do autor em: https://github.com/GuerraIFFL. Repositório 1, metodologia clássica em: https://github.com/GuerraIFFL/Mine-Detection-Machine-Learning-Algorithm. Repositório 2, estudo em aprendizagem profunda usando CNN em: https://github.com/GuerraIFFL/Mine-Detection-Deep-Learning-CNN.
49
pixéis produzindo 4000 ROIs multi-espetrais em ambiente indoor e 3250 ROIs multi-espetrais em
ambiente outdoor para as imagens AC. A tabela seguinte representa os valores totais do número de
ROIs totais obtidos, bem como os parâmetros definidos. As figuras seguintes representam alguns
exemplos de ROIs extraídas pelo algoritmo, sendo que a linha divide a imagem do espetro do visível
(3 dimensões RGB) e as dimensões (número 4, 5, 6 e 7) usadas na extração de características e
restante processamento
Ambiente Diagrama Imagens multi-
espetrais
Tamanho
ROI [pixéis]
Distância
ROI [pixéis]
ROIs multi-
espetrais
indoor AP 20 10 2 195 100
AC 25 80 2 243 875
outdoor AP 11 10 2 107 305
AC 10 80 2 97 550
Tabela 5.4: Valores da totalidade de ROIs obtidas para cada um dos ambientes e respetivo diagrama constituindo assim o
conjunto de dados total obtidos.
Figura 5.20: Exemplo de duas ROIs multi-espetrais constituintes do conjunto de dados. Em cima está representada uma
ROI classificada como não mina e em baixo uma ROI classificada com tendo mina.
5.3. Extração e Seleção de Características
A etapa seguinte é a extração e seleção de características, etapa esta já fundamentada no
capítulo metodologia, como uma das etapas mais importantes em problemas de machine learning. Para
esta extração, como já foi referido anteriormente, foram utilizadas as 4 últimas dimensões da ROI multi-
espetral deixando de fora as dimensões RGB da imagem do visível.
As características extraídas das ROIs foram aquelas apresentadas no capítulo 4, metodologias
secção 4.2, extraídas a cada uma das dimensões a processar, sendo que os parâmetros utilizados e o
respetivo número total de características são respetivamente:
• Características de 1.ª Ordem: Encontradas na tabela 4.2
• Características de 2.ª Ordem (SGLDM): As encontradas na tabela 4.3 sendo as matrizes
Ω(𝑑, 𝜃) segundo os parâmetros 𝑑 = 1 [𝑝𝑖𝑥𝑒𝑙] e para os ângulos 𝜃 = 0°, 45°, 90° 𝑒 135° sendo
estes cálculos efetuados recorrendo às funções graycomatrix() e graycoprops() presentes
na image processing toolbox.
50
• Características de ordem superior (Método de primitivas dos Níveis de Cinzento): As
encontradas na secção 4.2.3., sendo as matrizes Ψ(𝜃) = 𝑀(𝑎, 𝑟|𝜃) segundo os
ângulos 𝜃 = 0°, 45°, 90° 𝑒 135°sendo 𝑎 = 256 [𝑛í𝑣𝑒𝑖𝑠 𝑑𝑒 𝑐𝑖𝑛𝑧𝑒𝑛𝑡𝑜] e 𝑟 = número de
primitivas com comprimentos distintos. Para o cálculo destas características recorreu-se à
Gray Level Run Lenght Matrix Toolbox24 desenvolvida por Wei [47].
Todas estas características foram extraídas às 4 dimensões da ROI multi-espetral sendo que
os números totais das características usadas nesta metodologia estão presentes na seguinte tabela.
Características Dimensão
(Espetro)
ROI uni-espetral ROI multi-
espetral
Posição no
feature.mat
1.ª Ordem 4 (TIR) 6 24 [1 – 6]
5 (RGB) [7 – 12]
6 (VNIR) [13 – 18]
7 (VNIR) [19 – 24]
2.ª Ordem 4 (TIR) 4×4=16 64 [25 – 40]
5 (RGB) [41 – 56]
6 (VNIR) [57 – 72]
7 (VNIR) [73 – 88]
Ordem Superior 4 (TIR) 11×4=44 176 [89 – 132]
5 (RGB) [133 – 176]
6 (VNIR) [177 – 220]
7 (VNIR) [221 – 264]
Total 66 264 [1 – 264]
Tabela 5.5: Valores totais das características usadas na metodologia bem como a sua posição relativa no ficheiro de
características feature.mat
Como se verifica na tabela 5.5, à medida que as características foram sendo extraídas, estas
eram guardadas em matrizes segundo ficheiros do tipo feature.mat. Considerando a teoria
apresentada em 4.3.1 Aprendizagem automática, estas matrizes correspondem ao conjunto de
dados 𝑇 constituído por 𝑛 padrões, sendo os padrões compostos por o conjunto de características
𝑚 de cada ROI. Por outras palavras obteve-se uma matriz com o número de ROIs como linhas e o
número de características (264) como colunas. A este conjunto é necessário adicionar as respetivas
classes binárias. Este processo foi realizado, adicionando na coluna 265 o valor de +1 caso a ROI
tenha mina ou 0 caso a ROI não tenha mina.
Foram extraídas as 264 características para todos os tipos de solos, ambientes, diagramas e
verificou-se que o conjunto de dados obtidos não se encontra balanceado. Isto significa que obtive-
se um maior número de ROIs da classe 0 em detrimento de ROIs da classe +1. Assim o conjunto
de treino final foi constituído por o número total de ROIs da classe +1 e o número igual a este,
24 Toolbox retirada e posteriormente adaptada aos objetivos propostos.
51
aleatoriamente obtido, de padrões da classe 0. Obteve-se assim um conjunto de dados com a
mesma quantidade de padrões para ambas as classes.
De seguida, o conjunto de dados foi sujeito à normalização dos seus valores de forma que os
valores das características sejam centrados num intervalo de valores. Como este processo não é de
importância crucial para o objetivo da metodologia, optou-se por uma normalização de dados simples
segundo a qual o valor máximo é 1 e o mínimo é 0 segundo a expressão:
𝑦′ = 𝑦 − 𝑚𝑖𝑛
𝑚𝑎𝑥 − 𝑚𝑖𝑛, 𝑦′𝜖[0,1] (5.1)
Obtendo os dados normalizados, a próxima etapa foi a realização de uma experiência de
seleção de caraterísticas fazendo uso de um método filter. Devido ao facto de que esta metodologia se
apoiar em múltiplos classificadores, o uso de outros tipos de métodos que têm por base os valores da
performance dos classificadores, tornaria o processo significativamente mais demorado, complexo e
requereria um tempo poder de processamento maior. Com este tipo de métodos foi possível realizar
um estudo da seleção de características sem ser necessário realizar múltiplos treinos nos
classificadores. Utilizou-se primeiramente o algoritmo ReliefF que calcula o ranking e respetivos pesos
das características por ordem de importância. Assim foram obtidos os seguintes rankings para indoor
e outdoor respetivamente.
a) b)
Figura 5.21: Gráficos do ranking de importância das características para ambiente indoor. a) diagrama AP e b) diagrama
AC
52
a) b)
Figura 5.22: Gráficos do ranking de importância das características para ambiente outdoor. a) diagrama AP e b) diagrama
AC
A partir destes resultados é possível fazer-se um estudo de redução de dimensionalidade
selecionando o número de características por ordem de importância. Da análise destes resultados é
possível fazer-se duas observações, a primeira em relação a quais as características (1.ª, 2.ª ou ordem
superior), o algoritmo ReliefF dá mais importância e a segunda, em quais espetros as características
são mais importantes. A tabela 5.6 representa a relação entre o peso médio (quociente entre o valor
dos pesos de cada uma das características e o número de características de cada tipo e de cada
espetro) e o respetivo tipo de característica para os diferentes casos, a tabela 5.7 faz uma análise
referente ao tipo de espetro usado.
Ambiente Diagrama Característica Peso Médio Peso Médio [%]
Indoor AP 1.ª Ordem 0.0070 40.70
2.ª Ordem 0.0038 22.09
Ordem Superior 0.0064 37.21
AC 1.ª Ordem 0.0006 42.86
2.ª Ordem -0.0004 0
Ordem Superior 0.0008 57.14
Outdoor AP 1.ª Ordem 0.0060 30.77
2.ª Ordem 0.0093 47.69
Ordem Superior 0.0042 21.54
AC 1.ª Ordem 0.0005 27.78
2.ª Ordem 0.0006 33.33
Ordem Superior 0.0007 38.89
Tabela 5.6: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de características.
53
Ambiente Diagrama Espetro Peso Médio Peso Médio [%]
Indoor AP 4 (TIR) 0.0062 26.50
5 (Visível) 0.0053 22.65
6 (VNIR) 0.0059 25.21
7 (VNIR) 0.0060 25.64
AC 4 (TIR) 0.0020 88.50
5 (Visível) 0.00006 2.65
6 (VNIR) -0.00007 0
7 (VNIR) 0.0002 8.85
Outdoor AP 4 (TIR) 0.0078 35.14
5 (Visível) 0.0053 23.87
6 (VNIR) 0.0038 17.12
7 (VNIR) 0.0053 23.87
AC 4 (TIR) 0.0020 74.07
5 (Visível) 0.00025 9.26
6 (VNIR) 0.00029 10.74
7 (VNIR) 0.00016 5.93
Tabela 5.7: Valores dos pesos médios atribuídos pelo algoritmo ReliefF a cada um dos tipos de dimensões (espetros)
Para a primeira análise verifica-se que não existe uma uniformidade no tipo de características
que possui maior peso de importância. Consegue-se observar que as características de ordem superior
assumem um peso de importância maior no caso de minas AC. A segunda análise já demonstra e
comprova o facto de que o espetro com maior importância segundo este algoritmo é o infravermelho
térmico. Em todos os casos, este espetro foi aquele que obteve maior peso médio em relação aos
restantes espetros sendo que esta análise é confirmada por inspeção visual, das diferentes dimensões
da imagem multi-espetral construída. Denote-se que esta análise produz resultados preliminares tendo
em conta as relações entre as características. O objetivo fulcral desta etapa é obter o ranking de
características para ser possível selecionar um menor número de características a usar no treino dos
classificadores.
5.4. Classificação
Para efeitos de avaliação de desempenho dos sistemas de classificação, é necessário a
constituição de um conjunto de dados. A partir da totalidade de ROIs multi-espetrais obtidas presentes
na tabela 5.4 e da necessidade da constituição de um conjunto de dados balanceado explicado na
secção anterior foi possível obter um conjunto de dados final. Dado o grande conjunto de dados e
número de ROIs como método de validação foi utilizado o holdout validation usando 15% do conjunto
de dados como conjunto de teste sendo o restante, 85%, reservado ao conjunto de treino. Na tabela
seguinte estão presentes o número de padrões usados para esta etapa.
54
Ambiente Diagrama Conjunto
de dados
Conjunto
de treino
Conjunto
de teste
indoor AP 10262 8723 1539
AC 29984 25487 4497
outdoor AP 7056 5998 1058
AC 11694 9940 1754
Tabela 5.8: Conjunto de dados utilizado para o treino e a validação dos classificadores
A partir destes conjuntos de dados foram treinados vários classificadores, sendo aqueles que,
em testes preliminares e fazendo uso da toolbox classification learner obtiveram valores de OA mais
elevados. Estes classificadores são, SVM com núcleo Cúbico, SVM com núcleo Gaussiano, Fine KNN,
Medium KNN, Fine Tree (Árvore de Decisão) e Bagged Tree (Conjunto de árvores de decisão)25. Foi
ainda utilizada uma rede neuronal simples com duas camadas, em que as entradas são as
características. Este tipo de rede, por definição, de todo o conjunto de dados,utiliza 70% para treino,
15% para validação e 15% para teste. Os parâmetros de configuração de cada um dos processos de
classificação, encontram-se na seguinte tabela.
Classificador Tipo Parâmetros
Árvore de Decisão Fine Tree Divisões máximas: 100 Critério: diversidade de Gini
SVM Cubic SVM Kernel: Cúbico Escala: Automática
Gaussian SVM Kernel: Gaussiano Escala: 4.1
KNN Fine KNN Vizinhos: 1 Métrica de distância: Euclidiana
Medium KNN Vizinhos: 10 Métrica de distância: Euclidiana
Ensemble Bagged Trees Tipo de aprendizagem: Tree Número de Trees: 30
Rede Neuronal Figura 5.23 Input: 264 características Hidden Layer: 10 neurónios Output layer: 1 neurónio Output: 2 classes
Tabela 5.9: Resumo dos classificadores usadas nesta metodologia, o seu tipo e os parâmetros usados em cada.
Figura 5.23: Esquema da rede neuronal usada construída a partir da Neural Pattern Recognition toolbox
25 Aos conjuntos de classificadores, do mesmo tipo ou de tipos diferentes, na toolbox utilizada dá-se o nome de Ensemble
55
Depois de todos os classificadores estarem configurados corretamente, e o treino dos mesmos
estar terminado, procedeu-se a avaliação do desempenho dos mesmos com base nas medidas de
avaliação de desempenho explanadas no capítulo 4 secção 4.5. Esta avaliação foi realizada em função
do ambiente e do diagrama utilizado. Foi ainda efetuada uma avaliação em função do número de
características fazendo para isso uma seleção de 10/25/50/75/100% do número total de características
(26/66/132/198/264 características respetivamente) a partir do ranking de relliefF. Denote-se que, para
uma análise mais eficiente foi utilizada a métrica Precisão/Overall Accuracy de forma a simplificar a
análise dos resultados em cada um dos casos. Cada um dos classificadores é treinado a partir do
conjunto de treino (85%), e de seguida é avaliados o seu desempenho pelo conjunto de teste (15%)
obtendo assim a OA. Depois da obtenção dos valores da OA, o modelo final de cada um dos
classificadores é treinado com a totalidade do conjunto de dados, ou seja, conjunto de treino mais o
conjunto de teste, e guardado para possíveis novas predições de padrões. Características
5.4.1. Avaliação desempenho em ambiente indoor
Para o ambiente indoor foram obtidos resultados para a deteção de minas AP e para minas AC.
Para o diagrama AP, a partir de um conjunto de dados constituído por 10262 ROIs multi-espetrais foram
obtidos os seguintes resultados.
Classificador Tipo Precisão (OA) [%]
26 features 66 features 132 features 198 features 264 features
Árvore Fine Tree 84.4 84.2 85.8 86.1 87.0
SVM Cubic SVM 90.4 95.0 94.9 94.9 96.4
Gaussian SVM 92.3 96.5 96.4 94.9 97.6
KNN Fine KNN 89.7 93.7 92.6 93.8 94.1
Medium KNN 88.5 91.9 91.5 92.3 92.6
Ensemble Bagged Trees 94.1 95.6 95.1 95.8 96.4
Rede Neuronal 75.0 87.9 89.4 86.6 90.4
Tabela 5.10: Resultados dos diferentes classificadores para ambiente indoor e diagrama AP
Para o diagrama AC, a partir de um conjunto de dados constituído por 29984 ROIs multi-
espetrais foram obtidos os seguintes resultados.
Classificador Tipo Precisão (OA) [%]
26 features 66 features 132 features 198 features 264 features
Árvores Fine Tree 91.9 91.5 94.4 94.1 93.8
SVM Cubic SVM 98.4 98.8 98.8 99.0 99.0
Gaussian SVM 97.2 97.6 97.9 98.0 98.4
KNN Fine KNN 97.9 98.0 98.3 98.3 98.4
Medium KNN 97.3 97.1 97.8 97.1 97.9
Ensemble Bagged Trees 98.5 98.7 98.8 99.1 99.1
Rede Neuronal 94.6 97.3 97.4 97.9 97.8
Tabela 5.11: Resultados dos diferentes classificadores para ambiente indoor e diagrama AC
56
Da análise dos resultados apresentados nas tabelas 5.10 e 5.11 observa-se que usando
apenas um único classificador, obtêm-se resultados bastantes promissores ao nível da deteção e da
possibilidade de efetuar uma redução da dimensionalidade do conjunto de dados. Verifica-se que, em
termos comparativos gerais, obtêm-se maiores valores de precisão na deteção de minas AC em relação
às minas AP. No geral verifica-se que o classificador Ensemble Bagged Tree foi dos classificadores que
obtiveram melhores resultados, com as Árvores de decisão a obterem o pior desempenho. Isto poderá
explicar-se com o facto de que métodos ensemble utilizam técnicas que combinam várias árvores de
decisão de forma a produzir melhores resultados, com uma performance mais elevada do que utilizar
apenas uma única árvore de decisão.
Para o diagrama AP, em termos quantitativos obtiveram-se resultados máximos de precisão de
97.6% para o classificador SVM Gaussiano com um vetor de características de 264, no entanto prova-
se a possibilidade de uma redução de dimensionalidade com a obtenção de valores de precisão de
96.5% e de 95.6% para o classificador SVM Gaussiano e para classificador Ensemble respetivamente,
ambos com as 66 características mais importantes segundo o algoritmo de feature selection utilizado
na secção 5.3. O classificador ensemble utiliza 30 árvores de decisão diferentes, que combinadas
obtiveram aumentos da OA na ordem dos 4.4 % – 6.6 % quando comparados com o Fine Tree. Para o
diagrama AC obtiveram-se resultados muito próximos da deteção total, com resultados máximos de
precisão de 99.1% e de 99.0% para classificador Ensemble e SVM Cúbico respetivamente e para um
vetor de características de 264. Curiosamente diminuindo o número de características em 50% obteve-
se exatamente os mesmos resultados máximos descritos anteriormente. Tal com no caso de minas AP,
a redução de dimensionalidade é também bastante promissora sendo que neste caso a diminuição de
90% do número de características apenas diminui em média aproximadamente 1.2% no valor da
precisão.
Realizando uma análise comparativa entre as duas variantes dos classificadores SVM e KNN,
verifica-se que, considerando os classificadores SVM, estes apresentam ambos resultados bastantes
similares, visto que ambos utilizam separações não linear, nomeadamente utilizando funções de kernel
polinomial cúbica para o Cubic SVM e função de kernel Radial Basis para o Gaussian SVM.
Relativamente aos classificadores KNN, o Fine KNN foi aquele que obteve melhores resultados em
ambos os diagramas. Visto que ambos utilizam a mesma métrica de cálculo de distâncias (euclidiana),
o aumento do número de vizinhos (de 1 para 10) diminui o desempenho deste classificador para o
problema em questão.
5.4.2. Avaliação desempenho em ambiente outdoor
Para o ambiente outdoor foram obtidos resultados para a deteção de minas AP e para minas
AC. Para o diagrama AP, a partir de um conjunto de dados constituído por 7056 ROIs multi-espetrais
foram obtidos os seguintes resultados.
57
Classificador Tipo Precisão (OA) [%]
26 features 66 features 132 features 198 features 264 features
Árvores Fine Tree 86.7 86.7 85.0 84.3 85.4
SVM Cubic SVM 94.8 93.9 97.0 96.0 94.0
Gaussian SVM 95.7 94.9 97.5 97.3 97.1
KNN Fine KNN 93.3 93.2 94.9 95.1 94.7
Medium KNN 92.3 91.5 92.5 92.5 93.3
Ensemble Bagged Trees 94.5 93.9 95.4 94.7 95.1
Rede Neuronal 74.0 89.6 84.4 84.4 81.8
Tabela 5.12: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AP
Para o diagrama AC, a partir de um conjunto de dados constituído por 11694 ROIs multi-
espetrais foram obtidos os seguintes resultados.
Classificador Tipo Precisão (OA) [%]
26 features 66 features 132 features 198 features 264 features
Árvores Fine Tree 90.5 92.4 90.9 93.9 92.3
SVM Cubic SVM 98.3 98.5 97.9 98.5 98.7
Gaussian SVM 97.2 96.8 96.7 97.0 97.0
KNN Fine KNN 97.5 97.9 97.9 97.6 97.4
Medium KNN 95.9 96.0 96.3 95.9 96.1
Ensemble Bagged Trees 98.2 98.2 98.4 98.2 98.2
Rede Neuronal 93.6 93.8 96.3 96.8 95.4
Tabela 5.13: Resultados dos diferentes classificadores para ambiente outdoor e diagrama AC
Da análise dos resultados apresentados nas tabelas 5.12 e 5.13 observa-se que estes
comprovam e corroboram os resultados obtidos em ambiente indoor, obtendo-se, no entanto, uma
diminuição geral nos valores de precisão. Este facto deve-se principalmente à diminuição do conjunto
de dados, em indoor foram utilizadas 40246 ROIs provenientes de 45 imagens multi-espetrais e em
outdoor foram utilizadas 18750 ROIs (cerca de 46.5% do número utilizado em indoor) provenientes de
21 imagens multi-espetrais. Tal como em ambiente indoor verifica-se valores maiores de precisão para
a deteção de minas AC em relação às minas AP.
Para o diagrama AP obtiveram-se resultados máximos de precisão de 97.5% para o
classificador SVM Gaussiano com um vetor de características de 132. Este resultado poderá
demonstrar que, algumas das características extraídas em ambiente outdoor não possuem valor
estatístico/ informação sendo que poderão estar a prejudicar a deteção por parte dos classificadores.
Em termos de redução de dimensionalidade esta, tal como em ambiente indoor poderá também ser
realizado pois como já referido, muitos valores de precisão são maiores com menos características do
que com a totalidade das mesmas. Para o diagrama AC obtiveram-se resultados gerais máximos de
precisão maiores do que em diagrama AP, com resultados máximos de 98.7% para SVM Cúbico com
um vetor de características de 264. No geral, diminuindo a dimensionalidade, os valores da precisão
não sofrem grandes alteração sendo estes muito próximos em relação aos diferentes classificadores.
58
5.4.3. Avaliação desempenho em função da profundidade, comparativamente
com multi-classificação.
Usando os modelos de classificação anteriormente indicados foi elaborado um estudo do
desempenho dos mesmos em função da profundidade e comparados com os resultados de uma
multiclassificação de voto por maioria (MVM) e voto de peso proporcional (MVP) ao desempenho do
classificador indicados no capítulo 4 secção 4.4. Para a realização deste estudo foram selecionadas
ROIs aleatórias provenientes de imagens multi-espetrais com objetos a 0 [mm] e objetos enterrados
entre a profundidade mínima de 1 [mm] e máxima 50 [mm]. Como conjunto de teste, foram
consideradas 8512 ROIs multi-espetrais, não utlizadas no treino e teste da secção anterior,
aleatoriamente escolhidas de ambos os diagramas e de ambos os ambientes, para objetos à superfície
e para objetos enterrados. Sendo que o objetivo desta experiência é avaliar o desempenho em função
de os objetos estão ou não enterrados, foram utilizados os classificadores treinados com a totalidade
das características (265) para realizar as predições. A não utilização da rede neuronal de duas camadas
deveu-se a várias razões. A primeira, devido aos baixos valores da OA obtidos na secção anterior, a
segunda devido à complexidade de, utilizando o modelo treinado anteriormente, conciliar novas
predições com o mesmo e associa-las às predições dos restantes classificadores (atente-se ao facto
do uso de diferentes toolboxes para a rede neuronal e para os classificadores tradicionais) e finalmente
a terceira razão, o estudo realizado na próxima secção, em aprendizagem profunda de uma CNN sendo
esta uma rede neuronal mais complexa. Salienta-se que devido à dificuldade de colocar os objetos a
uma dada profundidade optou-se pela realização deste tipo de estudo em detrimento de avaliar o
desempenho dos classificadores para cada uma das profundidades separadamente
Classificador Tipo Precisão (OA) [%]
0 [mm] 1-50 [mm]
Árvore de Decisão Fine Tree 87.4 73.6
SVM Cubic SVM 96.5 92.0
Gaussian SVM 89.4 87.2
KNN Fine KNN 95.3 92.5
Medium KNN 94.6 90.1
Ensemble Bagged Trees 93.4 92.7
Tabela 5.14: Resultados da OA para cada um dos classificadores em função da profundidade das minas.
A tabela 5.14 representa os valores da precisão obtida para cada um dos classificadores
treinados com o conjunto de dados apresentado na tabela 5.8 em função de as minas estarem
enterradas (1-50 [mm]) ou à superfície (0 [mm]). Da análise dos resultados verifica-se que, como
esperado, a deteção dos objetos à superfície obtém melhores resultados do que a deteção dos objetos
enterrados. Isto deve-se principalmente à maior quantidade de informação, recolhida pelas
características, nas ROIs multi-espetrais a 0 [mm]. Como indicado anteriormente, quando os objetos
estão à superfície, todos os diferentes espetros/ dimensões das ROIs multi-espetrais construídas
possuem informação relevante à deteção, à medida que os objetos vão sendo enterrados é coerente
afirmar-se que a deteção se torna mais difícil, no entanto os valores obtidos na tabela 5.14 confirmam
59
a possibilidade da deteção deste objetos até à profundidade limite definida nos anexos da dissertação.
A estratégia que, segundo a literatura, permite melhorar o desempenho global da classificação é a
combinação de vários classificadores. Assim consideraram-se dois tipos de métodos apresentados no
capítulo 4 secção 4.4. Na tabela seguinte estão representados os resultados obtidos pelos dois
métodos de fusão de classificadores, o método de voto por maioria e o método de voto proporcional ao
desempenho do classificador.
Classificador Tipo Precisão (OA) [%]
0 [mm] 1-50 [mm]
Fusão MVM 97.2 95.9
Fusão MVP 97.9 96.0
Tabela 5.15: Resultados da OA dos dois métodos de fusão de classificadores aplicados.
Para o MVM, considerando um novo padrão 𝑥𝑖, aplicando este padrão a cada modelo de
classificação já treinado, obtemos as predições 𝑦1𝑖 , 𝑦2𝑖 , 𝑦3𝑖 , 𝑦4𝑖 , 𝑦5𝑖 , 𝑦6𝑖. Considerando um número
par de classificadores (seis) e a soma de cada uma das predições realizada segundo 𝑦𝐴𝑢𝑥𝑖 = 𝑦1𝑖 +
𝑦2𝑖 + 𝑦3𝑖 + 𝑦4𝑖 + 𝑦5𝑖 + 𝑦6𝑖, foi definido que caso 𝑦𝐴𝑢𝑥𝑖 ≥ 3 a predição do MVM seria 𝑦𝑀𝑉𝑀𝑖 = 1
caso contrário 𝑦𝑀𝑉𝑀𝑖 = 0. A justificação de se atribuir classe 1 para o caso de empate (𝑦𝐴𝑢𝑥𝑖 = 3)
deve-se ao facto de que neste problema concreto é preferível ter mais casos de existência de mina,
mesmo que falsos (falsos positivos), do que falhar uma possível deteção. Para o MVP considerando
como Desempenho global (equação 4.29 capítulo 4) apenas o valores de OA obtido na tabela 5.14 e 𝑇
como a soma de todos os valores de OA obtemos os pesos dinâmicos a aplicar a cada uma das
predições 𝑦1𝑖 , 𝑦2𝑖 , 𝑦3𝑖 , 𝑦4𝑖 , 𝑦5𝑖 , 𝑦6𝑖. Atente-se no pormenor de que como foram definidas as classes
𝑦𝑖 ∈ 1 , 0, aplicando o peso dinâmico a uma predição de 0, esta multiplicação dará sempre 0
perdendo assim o interesse estatístico do uso de pesos na fusão. De forma a ultrapassar este facto,
aos valores das predições 𝑦1𝑖 , 𝑦2𝑖 , 𝑦3𝑖 , 𝑦4𝑖 , 𝑦5𝑖 , 𝑦6𝑖.foi somado +1, passando assim as classes
𝑦𝑖 ∈ 1 , 0 para 𝑦𝑖 ∈ 2 , 1. De seguida aplicaram-se os pesos dinâmicos a cada uma das predições e
a respetiva soma na forma da equação 5.1
𝑦𝐴𝑢𝑥𝑖 = 𝑃𝑇𝑟𝑒𝑒 × 𝑦1𝑖 + 𝑃𝑆𝑣𝑚𝐶 × 𝑦2𝑖 + 𝑃𝑆𝑣𝑚𝑄 × 𝑦3𝑖 + 𝑃𝐾𝑛𝑛𝐹 × 𝑦4𝑖
+ 𝑃𝐾𝑛𝑛𝑀 × 𝑦5𝑖 + 𝑃𝐸𝑠𝑒𝑚𝑏𝑙𝑒 × 𝑦6𝑖 (5.1)
Para este método, caso a variável auxiliar 𝑦𝐴𝑢𝑥𝑖 ≥ 1.5, (devido a adição do valor de +1, o valor
intermédio das duas classes é +1.5 ) a predição do MVP seria 𝑦𝑀𝑉𝑃𝑖 = 1 caso contrário 𝑦𝑀𝑉𝑃𝑖 =
0. Calculando a OA para os valores de 𝑦𝑀𝑉𝑀𝑖 e 𝑦𝑀𝑉𝑃𝑖, obtêm-se os resultados apresentados na
tabela 5.15.
O gráfico das figuras seguintes representa uma comparação visual entre os resultados obtidos
para os padrões dos vários classificadores e os resultados da fusão de classificadores.
60
Figura 5.24: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor azul) em
comparação com a fusão de classificadores (cor verde) para objetos à superfície.
Figura 5.25: Gráfico dos valores da precisão para novos padrões de cada um dos classificadores (cor azul) em
comparação com a fusão de classificadores (cor verde) para objetos enterrados.
A análise dos resultados obtidos nesta secção, permitem retirar várias elações nomeadamente
sobre a robustez e a generalização de cada classificador, bem como sobre as vantagens numéricas de
performance que a fusão apresenta. Irá ser feita uma análise dos resultados dos novos padrões em
função dos resultados obtidos em 5.4.1 / 5.4.2, de seguida uma análise da robustez dos classificadores
no que concerne à comparação entre objetos à superfície e objetos enterrados e finalmente uma análise
das vantagens do uso da multiclassificação.
Atendendo, numa primeira fase, à análise dos resultados obtidos para os novos padrões, no
geral estes são ligeiramente inferiores aos obtidos pelo conjunto de teste utilizado na secção
5.4.1 / 5.4.2. Este facto está mais evidenciado no classificador árvore de decisão (figura 5.26 alínea a)
) e no SVM com kernel Gaussiano (figura 5.26, alínea b) ). Na classificação por árvore de decisão e
como já foi afirmado, dada a sua instabilidade (alta variância) e muitas vezes imprecisas predições,
pequenas variações nos dados de treino podem resultar em árvores completamente distintas, assim é
recomendado o uso de conjuntos de árvores de decisão tal como o classificador Emsemble usado.
Para o SVM com kernel gaussiano, a diferença entre os resultados dos novos padrões e aqueles
obtidos no treino é bastante acentuada na ordem dos 10%. Assim poderemos afirmar que em SVM, o
72
76
80
84
88
92
96
100
Fine Tree CubicSVM
GaussianSVM
Fine KNN MediumKNN
BaggedTrees
MVM MVP
Classificadores vs Fusão de Classificadores (0[mm])
72
76
80
84
88
92
96
100
Fine Tree CubicSVM
GaussianSVM
Fine KNN MediumKNN
BaggedTrees
MVM MVP
Classificadores vs Fusão de Classificadores (1-50[mm])
61
kernel mais indicado para a predição de novos padrões poderá ser o polinomial cúbico cujo obteve
resultados muito próximos daqueles obtidos no treino.
a) b)
Figura 5.26: Gráfico dos valores da precisão para novos padrões de a) árvore de decisão e b) Gaussian svm (cor azul) em
comparação os resultados obtidos no treino (cor verde).
Os dados obtidos nesta seção permitem realizar uma análise sobre a robustez dos
classificadores no que concerne à profundidade e à deteção de objetos. O classificador árvore de
decisão (Figura 5.27, alínea a) ) é aquele que obtém maior discrepância entre os dois casos, na ordem
dos 13,8% de diferença. O classificador SVM com kernel polinomial cúbico (Figura 5.27, alínea b) ) é
aquele que obtém os melhores resultados para a média dos dois casos, no entanto apresenta menor
robustez quando aplicado a ROIs provenientes de imagens com objetos enterrados. Verifica-se ainda
que o classificador Ensemble (Figura 5.27, alínea c) ), embora não seja aquele que obtém maior
precisão geral, comporta-se de forma bastante eficaz e robusta aos subconjuntos selecionados de
diferentes ROIs, apresentando apenas uma diminuição de 0.7% na OA quando comparadas as
profundidades.
a) b) c)
Figura 5.27: Gráfico dos valores da precisão para os classificadores a) árvore de decisão, b) Cubic SVM e c) Ensemble
Como demonstrado nas figuras 5.24 e 5.25, a implementação de métodos de fusão de
classificadores potencia resultados bastante promissores sendo que, este aumento é mais significativo,
no caso dos objetos enterrados. Dado que a maior parte dos classificadores não apresenta a robustez
necessária quando expostos a padrões exclusivos de minas enterradas, a fusão de classificadores
suprime esta dificuldade apresentando valores igualmente altos para padrões exclusivamente de minas
enterradas. Realça-se também o facto de que estes métodos são de fácil implementação, consomem
muito poucos recursos e possuem um tempo de processamento irrelevante. Dada a atribuição de pesos
proporcionais aos resultados de OA obtidos por cada um dos classificadores, o MVP obtém ligeiramente
melhores resultados do que o MVM, este facto poderá dever-se a que como os resultados de cada
87,4
73,6
8793,8 93,8 92,3
Árvore de Decisão
0 [mm] 1-50 [mm] Indoor AP Indoor AC Outdoor AP Outdoor AC
89,4
87,2
97,698,4 98,4
97
Gaussian SVM
0 [mm] 1-50 [mm] Indoor AP Indoor AC Outdoor AP Outdoor AC
87,4
73,6
Árvore de Decisão
0 [mm] 1-50 [mm]
96,592
Cubic SVM
0 [mm] 1-50 [mm]
93,4 92,7
Ensemble
0 [mm] 1-50 [mm]
62
classificador já são elevados e sem diferenças consideráveis, exceto as árvores de decisão, o MVM irá
excluir automaticamente as predições erradas deste classificador sem necessitar de possuir pesos
associados.
5.5. Aprendizagem Profunda
A implementação de um método em aprendizagem profunda, para a deteção de minas,
apresenta-se como um estudo inovador ainda não abordado pela literatura. Assim a metodologia e os
parâmetros usados neste método e na construção da própria CNN sofreram várias alterações e
experimentações empíricas de forma a obter-se os melhores resultados possíveis. Para a obtenção
dos resultados, a construção da CNN foi obtida a partir da Neural Network Toolbox, sendo que o uso
desta toolbox tem algumas particularidades tais como a necessidade de agrupar as imagens em
diretorias segundo a classe a que pertencem, o uso da estrutura de dados imageDatastore, e o recurso
à GPU da máquina para a realização do treino.
O procedimento experimental deste estudo iniciou-se com a obtenção do conjunto de dados,
sendo este constituído pelas imagens multi-espetrais construídas na secção 5.2. A partir destas
imagens foram extraídas as ROIs presentes na tabela 5.4 sendo estas que serão a entrada da CNN.
As CNN construídas usando a toolbox indicada, só aceitam como entrada da rede imagens de uma
dimensão (gray scale) ou imagens em três dimensões (RGB). Dados os resultados obtidos na secção
da seleção de características e na classificação, optou-se por selecionar apenas o espetro TIR, em
gray scale. Assim o conjunto de dados usado é constituído pelas ROIs da tabela 5.4 com apenas 1
dimensão do infravermelho térmico. Agrupando as ROIs nas respetivas diretorias (procedeu-se também
ao balanceamento do conjunto de dados de forma a existir o mesmo número de ROIs para cada classe),
dividiu-se o conjunto de treino e validation set. A proporção, tal como na classificação da metodologia
anterior foi de 85% para o treino e 15% para a validação (funciona como conjunto de teste).
A construção da CNN partiu de uma rede genérica, apresentada no capítulo 4, metodologia, na
secção 4.6.1 sendo que os parâmetros de algumas das camadas foram alterados várias vezes de forma
a realizar um estudo comparativo da performance em função destas variações. Na tabela 5.16 está
representada a tipologia da rede (neste caso concreto para ROIs do diagrama AC de tamanho 80x80x1
[pixéis]), com todas as suas camadas constituintes, acompanhadas pelo nome atribuído, o tipo da
camada e ainda os parâmetros e detalhes de configuração de cada uma das camadas usadas nesta
CNN.
63
Número Camada
Nome Atribuído Tipo Argumentos/ detalhes
1 'Camada_Entrada' Image Input 80x80x1 images with 'zero center' normalization
2 'Camada_Convolução_1' Convolution 8 3x3 convolutions with stride [1 1] and padding [1 1 1 1]
3 'BN_1' Batch Normalization
Batch normalization
4 'relu_1' ReLU ReLU
5 'Pooling_1' Max Pooling 2x2 max pooling with stride [2 2] and padding [0 0 0 0]
6 'Camada_Convolução_2' Convolution 16 3x3 convolutions with stride [1 1] and padding [1 1 1 1]
7 'BN_2' Batch Normalization
Batch normalization
8 'relu_2' ReLU ReLU
9 'pooling_2' Max Pooling 2x2 max pooling with stride [2 2] and padding [0 0 0 0]
10 'Camada_Convolução_3' Convolution 32 3x3 convolutions with stride [1 1] and padding [1 1 1 1]
11 'BN_3' Batch Normalization
Batch normalization
12 'relu_3' ReLU ReLU
13 'FC' Fully Connected 2 fully connected layer
14 'softmax' Softmax softmax
15 'Camada_Saída' Classification Output
crossentropyex
Tabela 5.16: Tipologia da CNN de 15 camadas utilizada neste estudo, construída a partir da Deep Learning toolbox.
Camadas retiradas na integra da rede construída bem como os parâmetros e argumentos.
A configuração da rede construída para a experiência é construída por duas partes, a parte de
aprendizagem de características (camada 1-12) e a parte de classificação (camada 13-15). A primeira
parte é constituída por uma camada de entrada (camada 1) com o tamanho da ROI e a dimensão
(80x80x1 [pixéis] para AC e 10x10x1 [pixéis] para AP) como argumentos e três conjuntos constituídos
por: três camadas de convolução (camadas 2,6,10) com tamanho do filtro e número de filtros como
argumentos, três normalizadores de Batch (camadas 3,4,11) usados para normalizar as ativações e as
propagações na rede, três camadas ReLU (camadas 4,8,12) e duas camadas pooling (camadas 5,9)
utilizadas para a realização de operações de down-sampling. A parte da classificação é constituída por
uma camada Fully Connected (camada 13) responsável por ligar/conectar todos os neurónios
responsáveis pelas features de forma a classificar, segundo 2 classes, a imagem/ROI, uma camada
Soft max (camada 14) para normalizar a saída e finalmente a camada de saída (camada 15)
responsável pela exibição do valor da classificação.
Atendendo a esta configuração, fixando o primeiro argumento da camada de convolução
(tamanho do filtro) com o valor de 3x3 [pixéis], o segundo argumento, número de filtros, cujo está
diretamente ligado ao número de neurónios ligados a mesma região de entrada e assim determina o
número/ tamanho do nosso conjunto de características (feature map) pode ser variado várias vezes de
forma a realizar um estudo comparativo da performance, medida em OA, como função do feature map.
Assim foram estudadas quatro configurações possíveis de diferentes números de filtros para cada uma
das três camadas de convolução (8/16/32; 16/32/64; 64/128/256, 256/512/1024 respetivamente para
cada configuração. Como opções de treino foi definido método stochastic gradient descent com
momento para a minimização da função de erro, prática comum neste tipo de problemas, selecionado
64
como número máximo de épocas 50 (uma época é um ciclo de treino completo em todo o conjunto de
dados. Uma época possui um certo número de iterações em função do tamanho dos filtros, das ROIs
e do número de filtros), sendo que o processo de treino termina em muitos casos antes das 50 épocas,
foi feito o monitoramento da precisão da rede ao longo do treino sendo que foram especificados
anteriormente dados exclusivos para o treino e para a validação. A cada época os dados são
aleatoriamente misturados. O software usado, treina a rede com os dados do conjunto de treino e
cálcula a Overall Accuracy com base nos dados do conjunto de validação em intervalos regulares,
definido nas 60 iterações. Os dados do conjunto de validação não são utilizados para a atualização dos
pesos da rede. Dado estas especificações, o treino de cada uma das configurações da CNN, para cada
ambiente e diagrama foi acompanhado pelo recurso Monitor Deep Learning Progress onde é
apresentado ao longo das epochs as perdas e a precisão do conjunto de treino e as perdas e precisão
do conjunto de validação. Os resultados da precisão, segundo a OA, em função dos diferentes números
de filtros utilizados nas camadas de convolução obtidos nos diferentes ambientes e diagramas
encontram-se na tabela 5.17, sendo que o processo de treino dos melhores resultados para cada um
dos ambientes e diagramas encontra-se explanado nos gráficos presentes no apêndice D.
Aprendizagem Profunda (CNN)
1.ª camada 8 filtros 16 filtros 64 filtros 256 filtros
2.ª camada 16 filtros 32 filtros 128 filtros 512 filtros
3.ª camada 32 filtros 64 filtros 256 filtros 1024filtros
Overall Accuracy [%]
Indoor AP 82.4 82.7 84.7 86.1
Indoor AC 95.5 97.8 96.7 n/calculado
Outdoor AP 79.6 82.0 83.4 82.0
Outdoor AC 99.0 99.1 99.1 n/calculado
Tabela 5.17: Resultados da OA em função dos diferentes números de filtros utilizados nas camadas de convolução obtidos
para o estudo da CNN nos diferentes ambientes e diagramas. O “n/calculado” significa que o tempo necessário para o treino e
validação é muito elevado.
Da análise dos resultados obtidos e do processo de treino das diferentes CNNs verifica-se que
no geral os melhores resultados, à semelhança do que foi obtido nos métodos tradicionais, estão
relacionados com a deteção de minas AC. Neste caso concreto, e ainda analisando muito
superficialmente os resultados, podemos assumir que o número ideal de filtros/características a ser
implementado é a configuração 64/128/256 respetivamente para cada uma das camadas de
convolução. Atendendo mais pormenorizadamente aos resultados obtidos, é demonstrado que existe
uma diferença de aproximadamente 12-20% de OA entre a deteção de minas AP e AC. Este facto
poderá ser justificado com base no tamanho das minas e consequente tamanho da ROI pois, numa
ROI com mina AC é possível extrair maior informação textual do que numa ROI com mina AP.
Relativamente ao tempo de processamento, na tabela seguinte estão representados os valores de
tempo obtidos para o treino das diferentes CNNs deste estudo.
65
Aprendizagem Profunda (CNN)
1.ª camada 8 filtros 16 filtros 64 filtros 256 filtros
2.ª camada 16 filtros 32 filtros 128 filtros 512 filtros
3.ª camada 32 filtros 64 filtros 256 filtros 1024filtros
Tempo de Processamento [h:m:s]
Indoor AP 00:00:51 00:00:54 00:01:14 00:06:20
Indoor AT 00:04:46 00:09:31 00:29:37 05:15:0026
Outdoor AP 00:00:46 00:00:25 00:00:32 00:01:39
Outdoor AT 00:05:36 00:04:34 00:18:37 05:15:0027
Tabela 5.18: Tempo de processamento necessário ao treino das diferentes CNNs
Como as ROIs das minas AC possuem um tamanho de 80x80 [pixéis] e as ROIs das minas AP
um tamanho de 10x10 [pixéis], foi apurado que o tempo de processamento dos casos com diagrama
AC foi aproximadamente 5 vezes superior do que para diagrama AP na primeira configuração, 5 a 10
vezes superior na segunda configuração e 30 a 40 vezes superior na terceira configuração e uma
estimativa aproximado de 50 a 300 vezes superior na quarta configuração, como demonstrado nos
valores da tabela. Isto verifica-se devido ao facto de como é definido e fixado o tamanho do filtro (3x3
[pixéis]) para as ROIs de entrada, é de fácil compreensão que é mais demorado calcular as convoluções
deste filtro sobre uma imagem AC de 80x80 [pixéis] do que uma imagem AP de 10x10 [pixéis]. Verifica-
se ainda que existe a necessidade de ter em atenção e otimizar as configurações das camadas,
nomeadamente o número de filtros de forma a que não seja possível deparar com casos como os
obtidos na quarta configuração do diagrama AC. Nesta configuração, dado a definição do número de
filtros para um número superlativamente grande, a rede, quando sujeita a ROIs de tamanho
80x80 [pixéis], evolui para um número de iterações muito elevado e por consequência um tempo de
processamento enorme, podendo provocar o crash do algoritmo de treino.
Da análise dos gráficos do apêndice D, verifica-se que o número de epochs máximo poderia
ser reduzido, mesmo que o sistema de treino não utilize todas as epochs disponíveis, é de prática
comum definir um número de epochs que possibilite a execução de um treino completo. É demonstrado
que o número de iterações por epoch aumenta consideravelmente de minas AP para minas AC,
devendo-se principalmente ao maior número de convoluções executas nos cálculos de um filtro 3x3
[pixéis] numa ROI maior, o que confirma as elações obtidas em função do tempo de processamento
presente na tabela 5.18.
26 Tempo aproximado e estimado para o treino da CNN, com base no tempo obtido no treino (02:37:30) até à interrupção do mesmo na 6 epoch. Visto que o número médio de epochs que estas configurações necessitam, com base nas anteriores, é entre 11-15 epochs, estimou-se que aproximadamente o treino desta CNN iria demorar o dobro do valor obtido até à interrupção.
66
67
6. Conclusões
A questão da desminagem continua atualmente a ser complexa e exigente, dados os inúmeros
fatores a considerar no momento da deteção, sendo que aliada a esta complexidade, ainda existe a
vertente do perigo constante a que o sapador responsável pela inativação e remoção das minas. Em
conjugação com os teatros de operações aos quais o exército português, integrando a NATO, possui a
responsabilidade de estar presente, estes teatros encontram-se ou já se encontraram recentemente
em conflito armado, sendo necessário, quer do ponto de vista humanitário, quer do ponto de vista
operacional estudar uma metodologia capaz de detetar, de forma segura e eficaz, as minas terrestres.
A informação fornecida pelas imagens térmicas/ multi-espetrais tornou-se atualmente uma
ferramenta poderosa na resolução de diversos problemas em que o processamento de imagem e a
visão computacional em conjugação com algoritmos de aprendizagem automática procuram resolver.
A utilização deste tipo de ferramentas, num contexto da desminagem, poderá auxiliar o
desenvolvimento de um método que permita detetar a existência de minas terrestres a partir de imagens
multi-espetrais de várias fontes, com a aplicação de procedimentos de machine learning
nomeadamente o uso de classificação, multi-classificação, e o uso de metodologias inovadoras
baseadas na aprendizagem profunda mais precisamente as CNN.
Neste trabalho foram estudados da literatura os vários projetos/ técnicas/ métodos relacionados
com a deteção de minas terrestres, chegando à conclusão de que estes poderão ser agrupados em
cinco grupos/ famílias segundo as suas características básicas de funcionamento. No que concerne às
imagens multi-espetrais / híper-espetrais, ao longo dos últimos anos, vários projetos foram
desenvolvidos, ligados à defesa e efetuados por organizações militares de vários países e por
empresas privadas cujos principais objetivos são o desenvolvimento e construção de tecnologia militar.
De forma a que o leitor, que não possua conhecimentos técnicos no âmbito dos engenhos
explosivos e minas terrestres, posso corretamente compreender o problema ao qual esta dissertação
se debate, foi elaborado um estudo um pouco mais técnico e doutrinário sobre os mesmos, os seus
tipos e empregabilidade. Para complementar esta informação e numa forma de introdução nas
experiências efetuadas, foram explanados os diferentes tipos de solos a serem utilizados ao longo da
investigação, juntamente com a sua justificação e composição. Verificou-se que existe uma enorme
diversidade de solos sendo que foi elaborada uma tentativa de globalização de terrenos de forma a que
a metodologia efetuada pudesse ser o mais robusta possível.
A componente laboratorial deste trabalho iniciou-se com a construção de dois tipos de
experiências, a primeira em ambiente indoor, ambiente este controlado, sem grandes variações de
temperatura numa sala disponibilizada pela Academia Militar, e a segunda, em ambiente outdoor sem
controlo das condições ambientais, nos terrenos de exercícios militares do Aquartelamento da
Academia Militar na Amadora. Para a realização de ambas as experiências, foi necessário a construção
de uma estrutura metálica de forma a suportar os equipamentos de aquisição de imagem e recipientes
de plástico com o respetivo isolante térmico com o intuito da inserção dos diferentes tipos de solos.
Verificou-se que o uso da estrutura metálica permitiu que todas as imagens fossem obtidas a partir da
mesma altura criando assim um conjunto de dados uniforme. O uso de isolante térmico permitiu que
alterações de temperatura dos recipientes e de outros agentes externos à experiência não interferissem
68
de forma significativa na temperatura dos solos e por consequência no sinal térmico transmitido pelos
objetos enterrados.
A aquisição de dados foi realizada utilizando dois equipamentos de imagem, uma câmara de
infravermelho térmico e uma câmara multi-espetral de três canais. Verificou-se que em relação à
câmara de infravermelhos, a configuração da escala de temperatura assume um papel bastante
importante sendo que as repercussões de uma errada configuração se centram na não deteção do
sinal transmitido por parte das minas. As imagens obtidas a partir da câmara multi-espetral necessitam
de uma configuração manual dos parâmetros tempo de exposição e ganho. Nos testes indoor devido
aos grandes valores do tempo de exposição e ganho (dada a baixa luminosidade da sala) verificou-se
a ocorrência e o aumento do ruído, principalmente no canal 2, tendo como consequência a diminuição
da informação útil desta banda espetral. Conclui-se assim que existe a necessidade de, aquando da
realização dos testes em laboratório, estes serem feitos num ambiente de maior luminosidade.
A constituição do conjunto de dados foi efetuada segundo um conjunto de procedimentos
necessários, sendo estes efetuados de forma manual o que tem como consequência um grande tempo
despendido nesta tarefa. Dada esta limitação, a realização de um pré-processamento automático, faria
esta processo mais rápido, deixando mais tempo para outras questões de maior preponderância. De
realçar neste processo, a verificação de que, a uma dada profundidade e por inspeção visual, já não é
possível detetar objetos enterrados em nenhuma das diferentes profundidades. Foi dado como dogma
no início desta dissertação que, partir deste limite, inclusive, estas imagens multiespectrais não seriam
utilizadas no processamento seguinte, no entanto e dado os resultados obtidos para as restantes
profundidades, faria sentido inserir também estas imagens de forma a perceber se, mesmo que
visualmente não se perceba em nenhum dos espetros, as metodologias conseguissem detetar com
valores de precisão aceitáveis os objetos enterrados. Independentemente deste facto, foi feita a
construção das imagens multi-espetrais para posterior extração das regiões de interesse de forma a
obter-se um conjunto de dados o mais diversificado e robusto possível dado as dificuldades já
enumeradas.
Na fase seguinte foram extraídas, normalizadas e selecionadas as características, sendo estas
de primeira, segunda e de ordem superior. Realizada a normalização dos dados, foi efetuada a seleção
de características usando o algoritmo ReliefF. que permitiu retirar algumas conclusões, das quais se
destacam o facto de não existir uma uniformidade no tipo de características que possui a maior
relevância, poderendo-se considerar que para as minas AC as características de ordem superior
assumem um papel de maior importância e que o espetro que produz os melhores resultados é o
infravermelho térmico, como esperado pela literatura.
Na execução da classificação foram utilizados seis classificadores e uma rede neuronal simples
de duas camadas em que as entradas da mesma são as características obtidas e selecionadas. Para
uma análise mais eficaz e eficiente em termos de tempo, e dada a complexidade do uso de múltiplos
classificadores optou-se pelo uso da métrica de Precisão/ Overall Accuracy como única métrica de
avaliação de desempenho. Este aspeto poderá não representar corretamente a avaliação do
desempenho em todas as sus vertentes, no entanto, para um estudo introdutório e de análise de
possibilidades, a OA apresentou-se como ideal para a análise dos resultados. Os resultados obtidos
69
demonstram uma performance geral superior dos classificadores SVMs em relação aos demais, sendo
que este tipo de classificador é largamente usado em problemas binários dado a sua capacidade de
utilizar um grande número de características, utiliza fronteiras relativamente simples (mesmo em
funções de kernel não lineares), sendo que existem menor probabilidade de overfitting. Assim a maior
vantagem deste tipo de classificadores prende-se efetivamente com o chamado kernel trick cujo, se
explorado e afinado poderá criar espaços de características apropriadas, onde uma classificação linear
é capaz de executar a classificação com a maior performance possível.
A partir dos resultados no ambiente indoor conclui-se que existe uma dicotomia relevante que
se prende com o classificador Ensemble Bagged Trees que obteve melhor performance e a árvore de
decisão que obteve a pior performance. Conclui-se assim que para problemas de duas classes e dada
a variedade de características, os métodos ensemble, que utilizam técnicas que combinam várias
árvores de decisão, produzem melhores resultados do que a utilização de apenas uma árvore de
decisão. Relativamente ao ambiente outdoor, conclui-se que os testes feitos em laboratório corroboram
os resultados obtidos no outdoor, no entanto estes são ligeiramente inferiores, justificada pela
diminuição de 46.6% do conjunto de dados utilizado. Ainda sobre a classificação, verificam-se maiores
valores de precisão na deteção de minas AC do que de minas AP, devido ao tamanho das minas AC e
consequente aumento de ROI, que contêm maior informação útil nas ROIs AC do que nas ROIs AP.
Foi elaborado um estudo do desempenho dos classificadores, perante padrões aleatórios, em
função da profundidade e uma comparação destes resultados com os resultados obtidos por um
multiclassificação. Em relação ao estudo em função da profundidade, verificaram-se melhores
resultados na deteção de objetos à superfície/ parcialmente enterrados (0 [mm]) do que na deteção de
objetos enterrados até às profundidades limites. Numa primeira análise aos resultados obtidos para os
novos padrões, estes são ligeiramente inferiores aos obtidos pelo conjunto de teste utilizado na fase
de treino. Este facto é mais evidenciado em dois classificadores, as árvores de decisão e o SVM com
função de kernel Gaussiana. Em relação ao primeiro, conclui-se que dado a sua instabilidade,
pequenas variações nos dados resultam em árvores completamente diferentes o que pode explicar os
resultados obtidos, já no SVM conclui-se que este tipo de função de kernel poderá não ser o mais
indicado e robusto neste tipo de problemas. A implementação de métodos de fusão de classificadores
potencia o desempenho do uso de classificadores tradicionais, verificando-se que aqueles que foram
aplicados ao longo desta investigação, são de fácil implementação, consomem poucos recursos e um
tempo de processamento irrelevante.
Foi implementado um método em aprendizagem profunda para a deteção de minas. A CNN
construída assentou numa configuração genérica com a alteração de certos parâmetros de forma a
elaborar um estudo em função dos mesmos. Verifica-se que a abordagem, de variar o número de filtros
na camada de convolução, teve a vantagem de perceber qual o conjunto de características (feature
map) indicado aquando da resolução de um dado problema. Na prática apurou-se que um número
elevado de filtros para minas AC faz a rede ineficaz no que concerne ao tempo e performance da
mesma, devido ao enorme número de características que esta rede iria gerar. Existe assim a
necessidade de um balanceamento do número de filtros para cada problema específico de modo a
evitar configurações de redes que levem a tempos de processamento elevados, impossíveis de tratar
70
com o poder computacional tradicional. Os resultados da OA obtidos para a configuração 64/128/256
filtros são os mais promissores sendo que existe uma diferença considerável entre a deteção de minas
AP e AC. Esta diferença obtida entre o diagrama AP e AC, que se deve maioritariamente ao tamanho
reduzido da ROI AP, mostra que esta configuração é ótima para ROIs de dimensão 80×80 [pixéis] mas
não para ROIs de dimensão 10×10 [pixéis] sendo aconselhável a obtenção de ROIs maiores,
aumentando a resolução ou diminuindo a distância da câmara ao solo. Em relação ao processo de
treino da rede conclui-se que uma otimização do número máximo de epochs poderia ser realizado e,
dado o tamanho do filtro 3×3 [pixéis] é de fácil conclusão (e dado a operação de convulsão de um filtro
com uma imagem) que o número de iterações em ROIs 80×80 [pixéis] é maior do que em ROIs 10×10
[pixéis] o que corrobora as conclusões retiradas acerca do tempo de processamento.
Em jeito de considerações finais, os resultados obtidos são bastante promissores, para ambas
as metodologias, verifica-se que existe a potencialidade prática do uso da fusão de classificadores caso
o problema em questão assim o justifique, pois, o mesmo que a implementação desta fusão consuma
poucos recursos, não podemos esquecer que existe a necessidade do treino de vários classificadores
cujos carecem de bastantes recursos computacionais. Foi demonstrado que o uso de uma CNN neste
tipo de problemas necessita de ser bem ajustada ao problema, ao tamanho da imagem/ ROI de entrada,
ao número de filtros e especial atenção ao tamanho do mesmo. Verificou-se ainda no âmbito da CNN
que é possível encontrar uma configuração ótima para a resolução do problema em diagrama AC.
Comparando as duas abordagem e considerando apenas a configuração ótima, diagrama AC, pode-se
afirmar que os resultados da CNN são equiparados ao resultados dos classificadores tradicionais com
a vantagem de que, estes últimos apresentam o seu auge ao nível da configuração e otimização,
enquanto que a rede CNN não foi estudada em função do número de camadas ou conjuntos de
camadas; tamanho do filtro; utilização ou não de camadas intermédias de normalização, Relu, entre
outras.
Apesar dos resultados obtidos é importante referir que, dada a complexidade do problema, é
ainda cedo para generalizar e partir para a implementação de um sistema numa destas metodologias.
Isto deve-se principalmente à origem do conjunto de dados, sendo esta efetuado num ambiente
controlado. Assim existe a necessidade de aumentar o conjunto de dados com uma maior diversidade
de campos de minas sendo que estes devem ser montados em ambiente operacional/ treino e por
indivíduos formados e especializados neste âmbito. Atente-se para que, como se verifica na literatura,
o mais importante nestes problemas não é a quantidade do conjunto de dados, mas sim a qualidade e
a diversidade dos mesmos, sendo este o principal desafio no futuro para este tipo de problemas.
Após o términus de um trabalho de investigação, há sempre caminhos que não foram trilhados
assim como ideias que surgem no decorrer do mesmo. Neste projeto, em que as áreas do saber
abrangentes vão desde a componente militar, até ao processamento de imagem, desde a constituição
de um novo tipo de conjunto de dados até ao machine learning, as hipóteses de trabalho futuro são
muitas. Assim destacam-se algumas que são consideradas exequíveis a médio/longo prazo:
Aumentar e diversificar o número de imagens de minas terrestres quer enterradas quer à
superfície e a obtenção dos mesmos em contexto operacional, e se possível em situações reais. Este
aspeto permitiria consolidar e generalizar os resultados obtidos e tornar mais robustos os sistemas.
71
Testar o sistema para todas as profundidades, mesmo que, por inspeção visual não seja
possível verificar diferenças entre o sinal transmitido pelos objetos e pelo solo.
Efetuar um estudo focado principalmente e exclusivamente no espetro do infravermelho
térmico, explorando também outros espetros de maior comprimento de onda, superior aos utilizados
neste trabalho, permitindo assim melhorar o sistema no espetro que obteve melhores resultados, como
testar influência do aumento do comprimento de onda para a deteção dos objetos.
No nível, prático e operacional, testar estas metodologias integradas num sistema UAV de
vigilância em cooperação com a Força Aérea Portuguesa, e com as aeronaves não tripuladas
pertencentes a este ramo das Forças Armadas Portuguesas. Seria assim necessário a aquisição de
equipamentos de imagem de menores dimensões e a utilização de um sistema de comunicação capaz
de transmitir os dados obtidos para a unidade de processamento. Esta hipótese de trabalho futuro
poderia não só ser utilizada para a deteção de minas, como também para a deteção de combatentes,
viaturas, aeronaves militares em ambiente noturno ou cujas condições ambientais não permitem a
deteção no espetro do visível.
Por fim, e de forma a auxiliar à deteção, a integração deste sistema com outro método de
deteção de minas terrestres, tal como o GPR, de forma a que ambos os sistemas se complementem e
superem as lacunas de ambos.
72
73
Bibliografia
[1] I. Makki, R. Younes, C. Francis e M. Zucchetti, “A survey of landmine detection using
hyperspectral imaging,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 124, pp.
40-53, 2017.
[2] J. H. Eriksen, “Standardization Agreement, Countermine Operations in Land Warfare,” Nato
Standardization Agency, Brussels, Belgium, 2002.
[3] J. Florez e C. Parra, “Review of sensors used in robotics for humanitarian demining
application,” em IEEE Columbian Conference on Robotics and Automation, Colombia, 2016.
[4] Y. Ege, A. Kakilli, O. Kılıç, H. Çalık, H. Çıtak, S. Nazlıbilek e O. Kalender, “Performance
Analysis of Techniques Used for Determining Land Mines,” International Journal of
Geosciences, 2014.
[5] V. Krylov, “Detection of buried land mines using scattering of Rayleigh waves,” em 27th
International Conference onNoise and Vibration Engineering (ISMA 2016), Leuven, Belgium,
2016.
[6] J. Pimenta, “Identificação de minas terrestres em imagens de infravermelho térmico,”
Dissertação de Mestrado Instituto Superior Técnico, U. Lisboa, Lisboa, 2015.
[7] G. Siganthi e D. R. Korah, “Discrimination of Mine-Like Objects in Infrared Images Using
Artificial Neural Network,” Indian Journal of applied Research, vol. 4, pp. 206-208, 2014.
[8] I. Makki, R. Younes, C. Francis e M. Zucchetti, “Mathematical Methods for Hyperspectral
Imaging in Landmine Detection,” em Transactions of the American Nuclear Society, vol. 112,
San Antonio, Texas, 2015.
[9] J. MacDonald, “Alternatives for Landmine Detetion,” RAND, Santa Mónica, Califórnia, 2013.
[10] A. Mahoney, C. Cox e B. Weetjens, “Reinforcement for Operational Mine Detection Rats,”
the Journal of Conventional Wepons Destruction, vol. 17, pp. 58-62, 2013.
[11] L. Robledo, M. Carrasco e D. Mery, “A survey of land mine detection technology,”
International Journal of Remote Sensing, vol. 30, pp. 2399-2410, 2009.
[12] Deportment of US Army, “Explosive Hazard Operations,” US Army Enginneer School, EUA,
pp. 2.1-2.11, 2007.
[13] Regimento de Engenharia N. 1 do Exército Portguês, “Manual escolar do curso de
explosivos, destruições, minas e armadilhas,” Regimento de Engenharia Nº1 - Centro de Treino
em Explosivos e Contramedidas, Espinho, 2001.
[14] A. C. Fernades, “Pavimentos para estradas de baixo tráfego,” Dissertação de Mestrado
Instituto Superior Técnico, U. Lisboa, Lisboa, 2016.
[15] A. R. Webb e K. D. Cospsey, “Statistical pattern recognition,” Chichester: John Wiley &
Sons, 2011.
74
[16] S. Selvarajah e S. R. Kodituwakku, “Analysis and Comparison of Texture Features for
Content Based Image Retrieval,” International Journal of Latest Trends in Computing, vol. 2,
pp. 108-113, 2011.
[17] W. Gonzalez e R. Woods, “Digital Image Processing,” Prentice Hall, New Jersey, 2008.
[18] B. Pathak e D. Barooah, “Texture Analysis based on the gray-level co-occurence matrix,”
International Journal of Advanced Research in Electrical, vol. 3, pp. 4206-4212, 2013.
[19] M. S. Priya e G. M. Nawaz, “Matlab Based Feature Extration and Clustering Images using
K-Nearest Neighbour Algorithm,” iJact, vol. 2, pp. 1121-1126, 2016.
[20] R. M. Haralick, “Statical and structural approches to texture,” Proceedings of the IEEE, vol.
67, pp. 786-804, 1979.
[21] M. M. Galloway, “Texture analysis using gray level run lenghts,” Computer graphics and
image processing, Maryland, EUA, pp. 172-179, 1975.
[22] A. Chu, C. M. Sehgal e J. F. Greenleaf, “Use of gray value distribution of run lengths for
texture analysis,” Pattern Recognition Letters, pp. 415-419, 1990.
[23] B. V. Dasarathy e E. B. Holder, “Image characterizations based on joint gray level—run
length distributions,” Pattern Recognition Letters, pp. 497-502, 1991.
[24] M. Unser, “Sum and difference histograms for texture classification,” IEEE Transactions on
Pattern Analysis and Machine, vol. 1, pp. 118-125, 1986.
[25] R. Khelifi, M. Adel e S. Bourennane, “Texture classification for multi-spectral images using
spatial and spectral Gray Level Differences,” em 2nd International Conference on Images
Processing Theory, Tools and Application, Paris, France, 2010.
[26] B. Mandelbrot, “The Fractal geometry of nature,” W. H. Freeman, New Yorl, USA, 1982.
[27] R. E. Plotnick, R. H. Grdner, R. H. Hargrove, W. W. Prestegaard e M. Perlmutter, “Lacunarity
analysis: a general technique for the analysis,” Physical review E, pp. 53-55, 1996.
[28] C. Allain e M. Cloitre, “Characterizing the lacunarity of random and deterministic fractal sets,”
Physical review A, pp. 44-46, 1991.
[29] P. Dong, “ Test of a new lacunarity estimation method for image texture analysis,”
International Journal of Remote Sensing, vol. 21, nº 17, pp. 3369-3373, 2000.
[30] h. Liu e H. Motoda, “Computational methods of feature selection,” CRC Press, 2007.
[31] A. Guyon e G. Isabelle, “Feature Extraction Foundations and Applications,” Pattern
Recognition, 2006.
[32] Z. M. Hira e D. F. Gillies, “A review of feature selection and feature extraction methods
applied on microarray data,” Advances in bioinformatics, 2015.
[33] N. Morono e A. Betanzos, “Filter Methods for Feature Selection – A Comparative Study,” em
Intelligent Data Enginneering and Automated Learning - IDEAL, 8th International Conference,
Birmingham, UK, pp. 178-187, 2017.
75
[34] Y. Jin e B. Sendhoff, “Pareto-Based Multiobjective Machine Learning: An Overview and
Case Studies,” IEEE Transactions os Systems, Man, and Cybernetics, Part C: Applications and
Reviews, vol. 38, pp. 397-415, 2008.
[35] N. Macari, “Analysis of a machine learning algorithm and corpus as a tool for managing the
ambiguity problem of search engines,” Master of Science, Fakultat Informatik, Technische
Universitat Dresden, 2010.
[36] E. Fiesler e R. Beale, “Multilayer Perceptrons,” Handbook of Neural Computation, Institute
of Physics, Oxford, pp. C1.2.1-C.1.2.8, 1997.
[37] C. Romero, M. Valdez e A. Alanis, “A comparative study of machine learning techniques in
blog comments spam filtering,” em Neural Networks (IJCNN), The 2010 International Joint
Conference, 2010.
[38] M. F. Gonçalves, “Classificação do Coberto Vegetal em Ambiente Militar,” Dissertação de
Mestrado, Instituto Superior Técnico, U. Lisboa, Lisboa, 2014.
[39] T. Mitchell, “Decision Trees Learning,” Machine Learning, McGraw-Hill Education, 1 ed, pp
52-79, 1997.
[40] L. Almeida, “PCA-Notes An introduction to principal components analysis,” Instituto Superior
Técnico, U. Lisboa, Lisboa, 2015.
[41] S. Kaya, “Buried and Surface Mine Detection from thermal Image,” Dissertação de
Mestrado, Middle East Technical University, 2016.
[42] C. Orrite, M. Rodriguez, F. Mart e M. Fairhurst, “Classifier Ensemble Generation for the
Majority Vote Rule,” em 13th Iberoamerican congress on Pattern Recognition: Progress in
Pattern Recognition, Image Analysis and Applications, Havana, Cuba, pp. 340-347, 2008.
[43] H. Greenspan, B. Ginneken e R. Summers, “Guest Editorial Deep Learning in Medical
Imaging: Overview and Future Promise of an Exciting New Technique,” IEEE Transactions on
Medical Imaging, vol. 35, nº 5, pp. 1153-1159, 2016.
[44] M. Xiaorui, H. Wang e J. Wang, “Semisupervised classification for hyperspectral image
based on multi-decision labeling and deep feature learning,” ISPRS Journal of Photogrammetry
and Remote Sensing, nº 120, pp. 99-107, 2016.
[45] J. Ker, L. Wang, J. Rao e T. Lim, “Deep Learning Applications in Medical Image Analysis,”
Special Section on fodt Computing Techniques for image analysis in the medical industry
current trends, challenges and solutions, vol. 6, pp. 9375-9389, 2018.
[46] MathWorks, “Deep Learning,” MathWorks, 2017. [Online]. Available:
https://www.mathworks.com/solutions/deep-learning/convolutional-neural-network.html.
[Acedido em 24 Fevereiro 2018].
[47] X. Wei, “Gray Level Run Length Matrix Toolbox v1.0,” Software, Beijing Aeronautical
Technology Research Center, 2007.
76
77
Apêndice A
Tabela A.1 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 1).
Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência
Necessidade de fi ltragem de possíveis outros objetos
enterrados no solo.
Método deverá ser complementado por outros métodos de
deteção
1999 Collins L. Indução eletromagnética
Dados recolhidos usando 4 tipos
de sensores: GPR, EMI,
Magnetômetro e IR sendo
provenientes de 4 locais
distribuídos por duas
localizações
Uma análise teórica de deteção de sinal Bayesiana
rigorosa pode ser usada para a deteção, usando sensores
EMI
SR
Falsos
Positivos
(db) na
recepção
Falsos
Positivos
(db) na
recepção
Falsos
Positivos
(db) na
recepção
Falsos
Positivos
(db) na
recepção
20 1,8 E-0,3 -27 2,2 E-04 -37 5,0 E-06 -53 1,9 E-02 -17
15 3,5 E-06 -55 5,0 E-03 -23 1,8 E-06 -57 1,2 E-03 -29
10 2,5 E-03 -26 7,0 E-05 -42 6,5 E-05 -42 1,1 E-04 -40
Multilook 9,5 E-09 -80 4,0 E-07 -64 1,8 E-09 -87 5,0 E-07 -63
Minas plásticas ainda terão de ser testadas 26 22 30 23
5 cm de profundidade10 cm de
Profundidade
15 cm de
Profundidade
SR
Resultados obtidos apenas para minas de metal TM-62M,
enterradas a uma profundidade de 5, 10 e 15 centímetros,
em três locais, dois previamente preparados, l impos e
planos e um outro com as condições naturais.
Melhoramentos
comparativamente
com single look
Taxa de deteção na ordem dos 94%, taxa de falsos alarmes
muito baixa.
2002 Kositsky, J. Ground Penetretion Radar
Varrimentos de 4m de Aberturas
sintéticas de radar (synthetic
aperture radar) em intervalos de
2 a 5 metros de distância. Este
varrimento produziu centenas de
ficheiros de dados contendo
dados de polarização HH, VV,
HV e VH na banda dos 0,3 a 3,0
GHz em solo seco, húmido e
molha
Distância
ao solo(m)
Mina parcialmente
enterrada
Resultados Quantitativos
1998 Ivashov S.
Reconhecimento de
campo de minas com o
uso de um broad size
detector e sensores de
ondas rádio
Série de detetores envolvendo
transdutores de ondas de rádio.
Cada sinal recebido pelos
detetores corresponde a um certo
nível de densidade de pixel na
imagem.
Sem resultados quantitativos SR
Sem resultados quantitativos
2002 Donskoy, D.
Nonlinear seismo-
accoustic land mine
detection and
discrimination
Vibrações da superfície da terra
medidas a partir de vibrômetros
de laser ou micro-ondas
Deteção linear –Deteção linear ótima quando existe o
contraste máximo entre a vibração do solo superior à
mina e a vibração do solo inferior à mina (chamado on/off
contrast ). O contraste máximo é ainda proporcional ao
contraste da rigidez entre o solo e a mina que é maior
consoante maior seja o on/off contrast .
Deteção de mina VS1.6 AT a 0mm e a 25mm
Deteção não linear – baseada na interação das ondas
sísmicas recolhidas, com frequências diferentes no caso
das interfaces do solo e da mina. Restantes resultados
inconclusivos e não testados na prática.
Sem resultados quantitativos SR
Tabela A.1: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 1).
78
Tabela A.2 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 2).
Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência
Métodos
Usados
Fusão 3
métodos21 Minas 7 Objetos
IR 21 Minas 7 Objetos
detetor
metal21 Minas 7 Objetos
GPR 21 Minas 7 Objetos
Resultados numéricos teóricos para a reconstrução do
scattered field associado a um condutor perfeito.
Resultados para a taxa de convergência de forma a testar a
qualidade desta reconstrução (erros menores de 1%)
Depois de 25 iterações (Green’s Matrix) obtém-se a
reconstrução bastante aproximada da true scatter
1,5 3 5 8
81,2 86,6 98,9 95,3
97,2 50,5 63,8 77,7
44,4 33,3 44,4 77,7
60 83,3 80 73,3
66,6 70 83,3 70
6,6 13,3 23,3 33,3
Imagens obtidas na banda do
visível
3
Parcialmente
Visíveis
1
5
6
2013 Sem resultado quantitativos SR
2013
Latas de metal simulando minas
antipessoais.Melhores resultados quando UAV voa a altitude de 1m.
Resultados mais estáveis a uma velocidade média de
8Km/h (2.2m/s)
ExperienciaAltitude(m)
Resultados(%)
SRVisíveis
1
2Castiblanco, C.
Deteção minas vísseis e/
ou parcialmente
enterradas (Visual
Recognition)
Velociadade(Km/h)
SR
Shimoi, N.Imagens infravermelho
térmico
Imagens infravermelho térmico
convertidas em imagens 768 por
600 pixeis
Deteçaõ apenas de 3 das 6 minas enterradas
Erro Localização x x x
Cenário 2Falsos Positivos 3 1 0
Erro Localização 1 cm x
2007 Delbary F.
Inverse electromagnetic
scattering num meio de
duas camadas
/* dúvida pois diz no artigo
inducted voiltage Campo
eletromagético medido sobre
uma grelha rectangular
Sem resultado quantitativos
1,5 cm
Cenário 3Falsos Positivos 2 0 0
2004 Prado J.
Fusão de sensores:
Detetor de metal (triple
coil ) e sensor de gás
3 cenários diferentes coda um
com uma área de 0,75 metros por
0,85 metros de terra contendo um
ou mais objetos enterrados.
Um fusão Baysiana proposta reduz significativamente a
taxa de falsos alarmes, normalmente alta. Foram obtidas
taxas de deteção de 100% e um erro médio absoluto para
a localização de 3 cm. (Ver resultados Quantitativos)
Detetor Metal Sensor Gás Fusão
Cenário 1Falsos Positivos 1 2 0
Erro Localização 1 cm x 3 cm
Resultados Quantitativos
2003 Milisavljevic, N.
Fusão de sensores:
Detetor de metal, camera
térmica e GPR
Dados reais fornecidos pelo TNO
Physics and Electronics Laboratory
referentes ao projeto Dutch HOM-
2000
Modelo de dois níveis, o primeiro determina se o objeto em
análise é constituido por metal e o segundo analisa se
estamos na presença de uma mina ou de um objeto que
não apresenta perigo.
Dados Reias Detetados Falsos Positivos
SR
19 Minas 1 Mina
15 Minas 2 Minas
18 Minas 4 Minas
19 Minas 5 Minas
SR
Tabela A.2: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 2).
79
Tabela A.3 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 3).
Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência
2015 Ali, A. M.Neutron Backscattering
Technique
Imagens recolhidas por um
detetor constituido por 16
posições sensiveis ao neutrão
Hélio 3 sendo a resolução igual
ao comprimento do detetor
dividido pelo númeor de
posições, 500mm/16 = 31mm
Deteção até profundidade 10cm. Intensidade do fluxo igual
a 4,59% quando a mina é encontrada nas extremidades do
sistema de deteção e igual a 1,49% quando é detetada no
canto do sistema
SR
TV
L1 norm
SAR
TV-SAR
L1-SAR
Resultados referentes aos métodos matemáticos usados no
processamento das imagens.
Em VNIR obteve-se a deteção de minas à superfície usando
assinaturas espetrais, no entanto não existem muitas
características espetrais distintas comparando com
imagens SWIR. SWIR tendo mais características espetrais
faz com que aumente a sua taxa de deteção. Imagens na
banda do TIR mostram-se como bastante promissoras na
deteção de minas enterradas.
2015 Makki I. Imagens Multi espetrais
Imagens multi espetrais nas
bandas do Infravermelho
estreino visível (Visible Narrow
Infra-Red), infravermelho de onda
curta (Short Wave IR) e
infravermelho térmico (Thermal
IR)
[8]
PSNR
Sem resultado quantitativos
0,0016
800 minas
0,002
0,002
0,006
0,0021
0,002
MSR
600 minas
0,0014
0,015
0,0031
0,0016
800 minas
26,8
26,9
22,4
SR
0cm - fluxo 100% (3,458e-4n/cm2)
5cm - fluxo 26,8%
10cm - fluxo 7,5%
15cm -fluxo 3,7% (Imp. deteçao)
2015 Elkazaz S.Imagens Infravermelho
térmico
Simulação de imagens tipo
satélite de baixa resolução (100
metros por pixel) constituídas
com a mesma participação por
pixel de um típico campo de
minas anti-tank
Geração de uma imagem térmica realística, de alta
resolução de um campo de minas, derivada de muitas
imagens de satélite simuladas de baixa resolução.
Necessário existência de maior quantidade de imagens de
satélite para o desenvolvimento de melhores algoritmos de
super-resolução. Performance melhor do que um palpite
aleatório.
Técnica
Resultados Quantitativos
2014 Esposito S. Deteção Térmica
Variações de Temperatura,
recolhidas aquando o
aquecimento segundo infrared
heaters
Duas alternativas para o processamento dos dados
obtidos:
Análise Contraste da Temperatura - Problemas derivados
às propriedades de diferentes objetos e solos
Deteção dinâmica - Deteção mais robusta e melhor
contraste.
Sem resultado quantitativos
27,8
29,9
SR
26,6
26,4
600
minas
28,3
28,2
25,7
Tabela A.3: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 3).
80
Tabela A.4 – Resumos dos artigos referentes ao estado da arte da dissertação (Parte 4).
Ano Autor Método usado Dataset/ Sample Resultados Qualitativos Referência
Intensidade luminescente definida por um sinal
normalizado a 100% no tempo inicial, diminuindo
aproximadamente 6% no final de 200 segundos para
polímero Super Yellow e 4,5% para o polímero de
polifluoreno.
0 50 100 150 200
100 99 97,5 95,5 94
100 99 97,8 96,5 95,5
2016 Krylov V.
Difusão de ondas de
Rayleigh (scattering of
Rayleigh waves)
Análise da difusão de ondas de
Rayleight quando interagidas
com irregularidades à superfície
ou enterradas.
Resultados teóricos baseados na estimação das
amplitudes na difusão das ondas de Rayleigh. Mostra-se
ainda que estas amplitudes dependem da profundidade a
que as minas estão enterradas
[5]
0,7
0,74
Taxa de Deteção (%)
77
89
90
94
Tempo de Deteção (%)
209
197
202
198
[1]
Sem resultado quantitativos
2017 Makki I. Imagens Multi-espetrais
Revisão de projetos que usaram
imagens multi-espetrais para
deteção de minas
De forma a obter uma deteção rigorasa e fidedigna um
estudo comparativo entre algoritmos de classificação em
condiçoes diferentes terá de ser feito.
A ter em consideração: Altura das imagens, número de
pixeis em cada frame, velocidade da camera.
Sem resultado quantitativos
SR
Camaras CMOS como sistemas adequados na deteção
ótica de vapores de explosivos. Sistema leve e barato para
a sua sensibilidade.
2016 Kaya S.Imagens infravermelho
térmico
Imgens na banda do
infravermelho térmico de quatro
conjuntos de dados provenientes
de dois campos de minas
O período em que se obtiveram melhore resultados na
deteção prende-se aproximadamente ao intervalo de tempo
de duas horas antes e depois do pôr-do-sol/ amanhecer.
Aumentanto do training set , diminuimos a taxa de falsos
positivos em todos os algorítmos testados.
Necessidade futuros testes em ambientes reias, terrenos
rugosos com vegetação, chuva, neve, entre outros.
[41]
Periodo das Imagens
4:45 – 7:45
(3 horas)
4:00-7:15
(3 horas 15 minutos)
21:00 – 06.45
(9 horas 45 minutos)
17:00-20:00
(3 horas 15 minutos)
Taxa de falsos
alarmes (%)
0,62
0,88
Resultados Quantitativos
2016 Gillanders R.
Monotorização do efeito
de excitação aos vapores
libertados por uma
camara CMOS
Polímeros conjugados de
polifluorenos e Super Yellow,
preparados em laboratório para
detetar dinitrobenzeno (DNB)
Tempo (s)
Intensidade Super Yellow (%)
Intensidade Polifluoreno (%)
Tabela A.4: Resumos dos artigos referentes ao estado da arte da dissertação (Parte 4).
81
Apêndice B
Tabela B.1 - Resumo dos projetos que usaram imagens multi-espetrias/ híper-espetrais como
técnica de deteção de minas terrestres. Adaptada de [1]
Projeto Tipos de dados Método Usado Comentários
Deteção de minas à superfície
usando algoritmos de
processamento de imagem
hierárquico (DRDC)
Imagens
Monocromáticas
de Infravermelho
Processamento de
imagem Hierárquico
Método útil como fase posterior ao processamento de imagens híper-
espetrais de alta altitude, após o pré-processamento a fim de reduzir a
imagem híper-espetral a uma única banda.
Deteção de minas à superfície
usando VNIR (DRDC) VNIR
Linear Cross
Correlation (LCC) &
Linear Unmixing
Minas à superfície apresentam uma forma consistentes na banda VNIR;
LCC funciona bem em caso de imagens de alta resolução; Técnicas de
Unmixing têm maior probabilidade de deteção à custa de uma maior
taxa de falsos positivos.
Deteção de minas enterradas
usando VNIR (DRDC) VNIR LCC
Usando a banda VNIR, as minas enterradas não são detetadas
diretamente, no entanto é possível detetar mudanças no solo e na
vegetação devido à colocação das mesmas.
O Efeito da Spatial Resolution
na deteção de minas (DRDC) VNIR
LCC & Orthogonal
subspace projection
(OSP)
LCC é melhor quando o tamanho do pixel é menor do que o tamanho da
mina; OSP é melhor quando o tamanho da mina é menor do que o
tamanho do pixel. Melhores resultados quando ambos são combinados.
Deteção de minas à superfície
em tempo real usando VNIR
(DRDC)
VNIR Processamento de
imagem em pipeline
Os algoritmos apresentados e propostos, provam a possibilidade da
deteção de minas terrestres em quasi real time usando uma plataforma
aerotransportada.
Deteção de minas usando
SWIR (DRDC) SWIR LCC
Á semelhança de VNIR, o uso de SWIR auxilia a deteção de minas à
superfície ou recentemente enterradas.
Múltiplos sensores colocados
num robot (DRDC)
Fusão de VNIR,
SWIR, IR térmico
e outros sensores
Detetor dinâmico de
proximidade e
aprimoramento de
contraste
Sistema proposto usando imagens híper-espetrais para um detetor de
minas AP de proximidade.
Imagens híper-espetrais ativas
(DRDC/Itres) VNIR
Casi imager com
intensificador
Com o uso de iluminação externa, a taxa de falsos alarmes aumenta
consonante o aumento da refletividade do fundo.
Projeto Equinox Fusão de SWIR e
Visível
Índice de vegetação
com tresholded ratio
Maior número de bandas usando diferentes técnicas podem melhorar os
resultados.
Projeto DARPA
Mid-wave IR
(MWIR) e Long-
wave IR (LWIR)
Comparação espetral LWIR e MWIR são bastantes promissores para detetar minas
enterradas.
Programa de Sensor multi-
espetral conjunto
VNIR, SWIR,
MWIR, LWIR
Transformada de
Fourier
Sensores térmicos beneficiam a deteção em ambiente noturno. A banda
LWIR é mais eficaz do que a MWIR.
Projeto DSTL VNIR PCA Maior número de testes e aplicação de outros algoritmos devem ser
testados de forma a classificar a eficácia da banda VNIR.
Teste Indiano para detetar
minas usando imagens IR IR
Processamento de
imagem Hierárquico
Um maior número de imagens é necessário para treinar a rede neural.
Um classificador mais complexo poderá ser usado.
Projeto NATO VNIR, SWIR,
MWIR, LWIR
Processamento de
imagem Hierárquico
Os Radares aerotransportados são menos suscetíveis para a deteção
de minas. Combinação de várias bandas é necessária para ultrapassar
problemas relacionados com a meteorologia. Paralelamente, o
melhoramento dos algoritmos e técnicas é necessário.
FOI (MOMS)
VNIR, SWIR,
MWIR, LWIR, 3D
LADAR
Deteção de anomalias
e SVM
Imagens híper-espetrais são úteis para a deteção automática de minas
descobertas ou parcialmente enterradas. A escolha do sensor e dos
algoritmos usados deve depender das condições ambientais e
operacionais
TELOPS LWIR
Separação da
Emissividade de
temperatura, Linear
Unmixing
O solo por cima da mina está a uma temperatura superior em relação ao
restante solo. Informação complementar é necessária de forma a reduzir
a taxa de falsos positivos
Tabela B.1: Resumo de projetos que fazem uso de imagens multi-espetrias/ hiper-espetrais
82
83
Apêndice C
Exemplos de figuras relativas à profundidade limite à deteção de objetos enterrados pelo
sistema divididos nos dois diagramas/ tipos de minas. De forma a rentabilizar o tempo e as experiências
outdoor, considerou-se que não seriam obtidas imagens outdoor de objetos enterrados a partir das
profundidades limites obtidos em indoor
Campos indoor/ outdoor; diagrama AP – Limite = 5 [mm]
• Areia do Rio 5 [mm]
Figura C.1: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para campos indoor e
diagrama AP. Em cima da esquerda para a direita, Canal 1, 2 e 3. Em baixo, à esquerda espetro visível, à direita TIR
• Areia do Mar 5 [mm]
Figura C.2: Figura representativas da profundidade limite de 5 [mm] para a deteção do sistema para campos indoor e
diagrama AP. Em cima da esquerda para a direita, Canal 1, 2 e 3. Em baixo, à esquerda espetro visível, à direita TIR
84
Campos indoor/outdoor; diagrama AC – Limite = 10 [mm] para areia do rio, areia do
mar e terra batida/ Limite = 100 [mm] para as britas
• Terra Batida 10 [mm]
Figura C.3: Figura representativas da profundidade limite de 10 [mm] para a deteção do sistema para campos indoor e
diagrama AC. Em cima da esquerda para a direita, Canal 0, 1 e 2. Em baixo, à esquerda espetro visível, à direita TIR
• Mistura de solos (britas) 100 [mm]
Figura C.4: Figura representativas da profundidade limite de 100 [mm] para a deteção do sistema para campos indoor e
diagrama AC. Em cima da esquerda para a direita, Canal 0, 1 e 2. Em baixo, à esquerda espetro visível, à direita TIR
85
Apêndice D
Gráficos referentes ao processo de treino dos melhores resultados obtidos para cada um dos
ambientes e diagramas (Figura C.1-4) e respetiva legenda (Figura C.5). Gráficos retirados da
ferramenta Monitor Deep Learning Progress.
Figura D.1: Processo de treino da CNN referente a indoor AP para 64/128/256 Filtros
Figura D.2: Processo de treino da CNN referente a indoor AC para 16/32/64 Filtros
Figura D.3: Processo de treino da CNN referente a outdoor AP para 64/128/256 Filtros
86
Figura D.4: Processo de treino da CNN referente a outdoor AC para 64/128/256 Filtros
Figura D.5: Legenda dos gráficos dos processos de treino das CNNs
Top Related