Thays Ferreira da Silva - UFRPE Silva.pdf · Thays Ferreira da Silva Análise de Descritores de...

114
Thays Ferreira da Silva Análise de Descritores de Imagem e Classificadores Aplicados para Detecção de Lesões em imagens de Mamografia Digital Recife 2017

Transcript of Thays Ferreira da Silva - UFRPE Silva.pdf · Thays Ferreira da Silva Análise de Descritores de...

  • Thays Ferreira da Silva

    Análise de Descritores de Imagem eClassificadores Aplicados para Detecção deLesões em imagens de Mamografia Digital

    Recife

    2017

  • Thays Ferreira da Silva

    Análise de Descritores de Imagem e ClassificadoresAplicados para Detecção de Lesões em imagens de

    Mamografia Digital

    Monografia apresentada ao Curso de Ba-charelado em Ciência da Computação daUniversidade Federal Rural de Pernam-buco, como requisito parcial para obtençãodo título de Bacharel em Ciência da Com-putação.

    Universidade Federal Rural de Pernambuco – UFRPE

    Departamento de Estatística e Informática

    Curso de Bacharelado em Ciência da computação

    Orientador: Filipe Rolim Cordeiro

    Recife2017

  • Agradecimentos

    Agradeço ao meu orientador, pelo empenho dedicado à elaboração deste traba-lho. E aos meus pais e irmão pelo suporte durante todo o período da minha graduação.

  • ” O que não dá prazer não dá proveito. Em resumo, senhor, estude apenas o que lheagradar.”

    (William Shakespeare)

  • ResumoO câncer da mama é o segundo tipo de câncer que mais afeta mulheres na maioriadas regiões do Brasil, sendo a mamografia o teste de triagem mais utilizado para de-tecção precoce do câncer de mama. Para alguns tipos de tecidos da mama fica difícilidentificar a presença ou não da lesão e sua correta dimensão; o que gera resultadosfalsos positivos ou falsos negativos na identificação do câncer na mamografia. Estetrabalho se propõe a realizar uma análise dos métodos existentes de descritores eclassificadores, na classificação de 592 imagens de mamografia da base de dadosIRMA (Integrated to the Image Retrieval in Medical Applications). A relação que os fil-tros de imagemCLAHE, sobel e a equalização do histograma e a transformadawaveletou seletor de características PCA pode ter na classificação final; de acordo com o algo-ritmo classificador utilizado. Os descritores estudados foram SURF, BRISK, ORB, LBP,GLCM e HOG e observados em relação aos classificadores KNN, MLP, SVM e Ran-dom forest, avaliados quanto a precisão e a pontuação F-score. Ao final do trabalhoconcluiu-se que um descritor ou combinações de descritores podem ter melhor relaçãopara específicos classificadores resultando em melhor desempenho na pontuação declassificação.

    Palavras-chave: Visão computacional, processamento de imagem, mamografia, des-critores de imagem.

  • AbstractBreast cancer is the second common form of cancer affecting women in most regionsof Brazil. The mammogram is the most common screening test used for the early de-tection of breast cancer. For some types of breast tissues, it is difficult to identify apresence or not of the lesion and its correct size. This leads to a false positive or falsenegative result of cancer in mammograms identification. This paper intends to analyzethe relationship between descriptor and classifiers in the classification of 592 mammo-grams images which belongs to IRMA databases (Integrated to the Image Retrieval inMedical Applications). Another analysis is to understand if the filters of image CLAHE,Sobel, histogram equalization, and wavelet transform or the selector of characteristicsPCA can interfere in the classification, according to the classifier algorithm used. Thedescriptors studied were SURF, BRISK, ORB, LBP, GLCM and HOG and observedin relation to KNN, MLP, SVM and random forest classifiers, which was evaluated ac-cording to accuracy and F-score. In sum, this paper concludes that a descriptor orcombinations of descriptors may have a better relation to specifics classifying methods,resulting in better performance in classification evaluation.

    Keywords: Computer vision, image processing, mammography, image descriptor.

  • Lista de ilustrações

    Figura 1 – Tipos de tecido mamário: (a) Tecido gorduroso, (b) Tecido denso, (c)Tecido heterogeneamente denso e (d) Tecido extremamente denso 19

    Figura 2 – Classificação de formato de lesão, segundo o BI-RADS: circunscrita,obscurecida, microlobuladas, mal definida e espiculada. . . . . . . 21

    Figura 3 – Equalização de histograma: (a) Histograma (b) Equalização de his-tograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    Figura 4 – Delimitação de contraste do CLAHE, a área azul na primeira ima-gem mostra a seção do histograma que ultrapassou o limite e suaredistribuição na segunda imagem. . . . . . . . . . . . . . . . . . . 26

    Figura 5 – Representação de características globais e locais de uma imagem . 28Figura 6 – Para cada octave do espaço escalar, a imagem inicial é repetida-

    mente convolvida com a Gaussiana para produzir o conjunto de ima-gens do espaço escalar mostradas à esquerda. As imagens gaus-sianas adjacentes são subtraídas para produzir as imagens da dife-rença de gaussianas à direita. . . . . . . . . . . . . . . . . . . . . . 30

    Figura 7 – Detecção de pontos de interesse no espaço-escalar a partir de umaregião de 26 pixels vizinhos através dos níveis . . . . . . . . . . . . 31

    Figura 8 – Histograma de orientação, cujo o pico está em 20°-29°. Logo a ori-entação 3 (terceiro compartimento do histograma) é associado aoponto de interesse. É possível perceber que existe outro pico entreos valores de 300°-309° então um novo ponto de interesse é associ-ado ao compartimento 31. . . . . . . . . . . . . . . . . . . . . . . . . 32

    Figura 9 – Descritor dos pontos de interesse. Primeira imagem: Computaçãodo magnitude do gradiente e da orientação de cada ponto de amos-tragem na imagem, em torno da região de um ponto de interesse; ocírculo representa a janela gaussiana que funciona como um funçãode peso. Segunda imagem: Computação do histograma de orienta-ção através das 4× 4 sub regiões. O tamanho da seta representa asoma da magnitude do gradiente próximo da direção de uma deter-minada região. A figura mostra array de descrição 4×4, calculado deum conjunto de amostras de 16× 16. O tamanho padrão do descritorSIFT é 4× 4× 8 (orientações) = 128 elementos. . . . . . . . . . . . 33

    Figura 10 – SIFT (à esquerda): Reduzindo iterativamente o tamanho da imagem. SURF (à direita): o uso de imagens integrais permite o aumento dofiltro a um custo constante. . . . . . . . . . . . . . . . . . . . . . . . 34

  • Figura 11 – ilustração para mais baixa escala σ = 1, 2, é a derivada parcial desegunda ordem da gaussiana discretizada e cortada, que correspon-dem ao filtro do kernel em SURF. O par da esquerda corresponde aderivada na direção y e sua aproximação simplificada no SURF. Opar da direita corresponde a derivada na diagonal (esquerda inferiorpara direita superior). . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    Figura 12 – O resultado da wavelet Haar são mapeadas em um espaço 2D noseixos x (abscissas) e y (ordenadas) do plano cartesiano. O vetor deorientação mais longo no espaço mapeado, é definido como a orien-tação do ponto de interesse . . . . . . . . . . . . . . . . . . . . . . 35

    Figura 13 – Calculando o valor de um pixel em LBP, para janela de pixel 3x3. . 37Figura 14 – Detecção de ponto de interesse no espaço-escala: um ponto de inte-

    resse (ou seja,que possui saliência máxima) é identificado na octaveci ao analisar a pontuação de saliência de seus oito vizinhos na ca-mada atual cI e nas camadas imediatas abaixo ci−1 e acima ci+1. Emtodas as três camadas de interesse, a máxima saliência local é re-finada para três sub- pixels que são distribuídas em uma parábola1D, com o intuito de determinar a escala verdadeira do ponto de in-teresse. A localização do ponto de interesse sofre interpolação entreos trechos máximos próximo a escala determinada. . . . . . . . . . 38

    Figura 15 – (a) O padrão de amostragem usado no BRISK, 60 pontos de amos-tragem incluindo o ponto central regularmente distribuído em quatrocírculos concêntricos ao redor do ponto de interesse. (b) Os paresde curta distância dos pontos de amostra utilizados na construção dodescritor. (c) Os pares de longa distância utilizados para determinara orientação (cada cor indica um par). . . . . . . . . . . . . . . . . . 39

    Figura 16 – Direções do GLCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Figura 17 – Geração da Matriz GLCM. (a) Imagem 4X4 com quatro tons de cinza.

    (b) Forma geral do GLCM com tons de cinza no intervalo 0-3. Osvalores contido nas células (i,j) e a quantidade de vezes que i e jocorreram em um direção específica e determinada distância (nú-mero de pixels vizinhos). (c-j) mostra os resultados para cada pixelda imagem de acordo com a direção 0°, 45°, 90° e 135°. . . . . . . 44

    Figura 18 – Blocos e células ao calcular o descritor HOG. Os quadrados amare-los na imagem representa os blocos e os vermelhos as células. Amovimentação dos quadrados amarelos em (a,b,c) representa a mo-vimentação que um bloco executa ao gerar o descritor. (d) mostra osvetores com a magnitude do gradiente. . . . . . . . . . . . . . . . . 47

  • Figura 19 – Representação dos vetores com nove direções distintas em cada cé-lulas, representa os vetores de magnitude de gradiente acumuladosem uma das nove direções. . . . . . . . . . . . . . . . . . . . . . . 47

    Figura 20 – wavelet comumente utilizadas . . . . . . . . . . . . . . . . . . . . . 49Figura 21 – Cálculo da discreta transformadawavelet de duas dimensões na ima-

    gem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49Figura 22 – O gráficomostra separação do hiperplano principal e suas hipérboles

    de borda (w.x− b = 1,w.x− b = −1) . . . . . . . . . . . . . . . . . . 54Figura 23 – Diagrama de um perceptron com cinco sinais de entrada . . . . . . 55Figura 24 – Rede neural perceptron multi-camada de três níveis . . . . . . . . . 56Figura 25 – Árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58Figura 26 – A imagemmostra o resultado dos Filtros (CLAHE, Sobel, HE eCLAHE

    + HE) aplicados a imagem de mamografia (Original) . . . . . . . . . 68

  • Lista de tabelas

    Tabela 1 – Classificação de imagens de mamografia, segundo BI-RADS (MEN-DELSON; BOHM-VELEZ; BERG, 2013). . . . . . . . . . . . . . . . 21

    Tabela 2 – Sub-imagem 3X3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27Tabela 3 – Fórmulas para número de vizinhos emparelhados de acordo com a

    orientação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45Tabela 4 – Resumo do estado da arte . . . . . . . . . . . . . . . . . . . . . . . 63Tabela 5 – Resultado da melhor classificação de lesão entre benigna, maligna

    e normal para cada descritor . . . . . . . . . . . . . . . . . . . . . . 77Tabela 6 – Resultado da melhor classificação de lesão entre benigna, maligna

    e normal para combinação de descritores . . . . . . . . . . . . . . . 77Tabela 7 – Resultado da melhor Classificação de lesão entre normal e anormal

    para cada descritor . . . . . . . . . . . . . . . . . . . . . . . . . . . 78Tabela 8 – Resultado da melhor Classificação de lesão entre normal e anormal

    para combinação de descritores . . . . . . . . . . . . . . . . . . . . 79Tabela 9 – Resultado da Classificação de lesão entre benigna, maligna e nor-

    mal utilizando apenas o descritor SURF com e sem PCA . . . . . . 90Tabela 10 – Resultado da Classificação de lesão entre benigna, maligna e nor-

    mal utilizando apenas o descritor SURF e transformada Wavelet(Daubechies) com e sem PCA . . . . . . . . . . . . . . . . . . . . . 91

    Tabela 11 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor SURF e transformadaWavelet (Haar)com e sem PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    Tabela 12 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor ORB com e sem PCA . . . . . . . 93

    Tabela 13 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor BRISK com e sem PCA . . . . . 93

    Tabela 14 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor BRISK com e sem PCA e transfor-mada wavelet (Haar) . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    Tabela 15 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor BRISK com e sem PCA e transfor-mada wavelet (Daubechies) . . . . . . . . . . . . . . . . . . . . . . 94

    Tabela 16 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor HOG sem PCA . . . . . . . . . . 95

    Tabela 17 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor HOG com PCA . . . . . . . . . . 95

  • Tabela 18 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP sem PCA . . . . . . . . . . . 96

    Tabela 19 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP com PCA . . . . . . . . . . . 96

    Tabela 20 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP sem PCA e transformada wa-velet (Daubechies) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    Tabela 21 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP com PCA e transformada wa-velet (Daubechies) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    Tabela 22 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP sem PCA e transformada wa-velet (Haar) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    Tabela 23 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP com PCA e transformada wa-velet (Haar) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    Tabela 24 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP sem filtro com as transformadawavelet (Daubechies e Haar) . . . . . . . . . . . . . . . . . . . . . . 99

    Tabela 25 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor LBP com e sem PCA . . . . . . . 99

    Tabela 26 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor GLCM para o filtro Sobel . . . . . 100

    Tabela 27 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor GLCM para o filtro CLAHE . . . . 101

    Tabela 28 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor GLCM para o filtro HE . . . . . . . 102

    Tabela 29 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor GLCM para o filtro CLAHE + HE . 103

    Tabela 30 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor GLCM para o filtro CLAHE e eTransformada wavelet de Daubechies . . . . . . . . . . . . . . . . . 104

    Tabela 31 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando apenas o descritor GLCM para o filtro CLAHE e Trans-formada wavelet de Haar . . . . . . . . . . . . . . . . . . . . . . . . 105

    Tabela 32 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando os descritores LBP, GLCM e SURF com e sem PCA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

  • Tabela 33 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando os descritores LBP, GLCM, BRISK e SURF com e semPCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    Tabela 34 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando os descritores LBP, GLCM e SURF com e sem PCAe transformada wavelet (Daubechies) para GLCM . . . . . . . . . . 106

    Tabela 35 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando os descritores LBP, GLCM, BRISK e SURF com e semPCA e transformada wavelet (Haar) para GLCM . . . . . . . . . . . 107

    Tabela 36 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando os descritores LBP e GLCM com e sem PCA . . . . 107

    Tabela 37 – Resultado da Classificação de lesão entre benigna, maligna e nor-mal utilizando os descritores LBP e GLCM com e sem PCA e trans-formada wavelet (Haar) para GLCM . . . . . . . . . . . . . . . . . . 107

    Tabela 38 – Resultado da Classificação de lesão entre normal e anormal utili-zando apenas o descritor GLCM para o filtro CLAHE e Transformadawavelet de Daubechies . . . . . . . . . . . . . . . . . . . . . . . . . 108

    Tabela 39 – Resultado da Classificação de lesão entre normal e anormal utili-zando apenas o descritor GLCM para o filtro CLAHE e Transformadawavelet de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    Tabela 40 – Resultado da Classificação de lesão entre normal e anormal utili-zando os descritores SURF, BRISK, HOG, ORB e LBP com e semPCA para filtro CLAHE+HE . . . . . . . . . . . . . . . . . . . . . . . 110

    Tabela 41 – Resultado da Classificação de lesão entre normal e anormal utili-zando os descritores LBP e GLCM com e sem PCA e transformadawavelet (Haar) para GLCM . . . . . . . . . . . . . . . . . . . . . . . 111

    Tabela 42 – Resultado da Classificação de lesão entre normal e anormal utili-zando os descritores SURF, LBP e GLCM com e sem PCA e trans-formada wavelet (Haar) para GLCM . . . . . . . . . . . . . . . . . . 111

    Tabela 43 – Resultado da Classificação de lesão entre normal e anormal utili-zando os descritores SURF, LBP, BRISK e GLCM com e sem PCAe transformada wavelet (Haar) para GLCM . . . . . . . . . . . . . . 111

    Tabela 44 – Resultado da Classificação de lesão entre normal e anormal utili-zando os descritores SURF, e BRISK com e sem PCA e transfor-mada wavelet (Haar) para GLCM . . . . . . . . . . . . . . . . . . . 112

    Tabela 45 – Resultado da Classificação de lesão entre normal e anormal utili-zando os descritores SURF, ORB e BRISK com e sem PCA e trans-formada wavelet (Haar) para GLCM . . . . . . . . . . . . . . . . . . 112

  • Lista de abreviaturas e siglas

    ACR American College of Radiology

    ACS American Câncer Society

    ARM Association Rule Mining

    ASM Segundo Momento Angular

    BI-RADS Breast Imaging Reporting and Data System

    BoVW Bag of Visual Word

    BPNN Back-propagantion Neural Network

    BRIEF Binary Robust Independent Elementary Features

    BRISK Binary Robust Invariant Scalable Keypoints

    CBRC Case Based Reasoning Classification

    CLAHE Contrast-Limited Adaptive Histogram Equalization

    DCT Tranformada Curvelet Discreta

    DDSM The Digital Database for Screening Mammography

    DMM Depth Motion Map

    DWT Transformada Wavelet Discreta

    GLCM Gray-Level co-Occurence Matrix

    HE Equalização do Histograma

    HDG Histograma de Divergência de Gradiente

    HOG Histogram of Oriented Gradients

    HTD Homogeneous Texture Descriptor

    INCA Instituto Nacional de Câncer

    IRMA Integrated to the Image Retrieval in Medical Applications

    KNN k-vizinhos-mais-próximos

    LBP Local Binary Pattern

  • LCP Local Configuration Pattern

    LLNL Lawrence Livermore National Laboratory

    LSDA Locality Sensitive Discriminat Analysis

    MIAS Mammographic Image Analysis Society Digital Mammogram Data-base

    MLP Perceptron Multi-Camadas

    OpenCv Open Source Computer Vision Library

    ORB Oriented FAST and rotated BRIEF

    PCA Análise de componentes principais

    PRN Probabilística Rede Neural

    RBF Função gaussiana de Base Radial

    RBFNN Radial Basis Functional Neural Network

    RF Random Forest

    RWTH Rheinisch-Westfälische Technische Hochschule

    SIFT Scale Invariant Feature Transform

    SURF Speeded Up Robust Features

    SVD Decomposição por Valor Singular

    SVM Máquina de Vetores de Suporte

    VQNN Vector Quantization Neural Network

    WHO World Health Organization

  • Sumário

    Lista de ilustrações . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.1 Problemas de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2 CONCEITOS BÁSICOS DA MAMOGRAFIA . . . . . . . . . . . . 192.1 Densidade da Mama . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Classificação de Imagens de Mamografia . . . . . . . . . . . . . . . 20

    3 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 233.1 Aprimoramento de imagem . . . . . . . . . . . . . . . . . . . . . . . 233.1.1 Equalização do Histograma (HE) . . . . . . . . . . . . . . . . . . . . . . 243.1.2 Contrast-Limited Adaptive Histogram Equalization (CLAHE) . . . . . . . 253.1.3 Filtro Sobel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2 Descritores de características . . . . . . . . . . . . . . . . . . . . . 283.2.1 Scale-Invariant Feature Transform - SIFT . . . . . . . . . . . . . . . . . 293.2.1.1 Detecção extrema do espaço-escalar e localização de pontos . . . . . . . . . . 293.2.1.2 Atribuição de orientação . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2.1.3 Descritores de ponto de interesse . . . . . . . . . . . . . . . . . . . . . . . 323.2.2 Speeded Up Robust Features - SURF . . . . . . . . . . . . . . . . . . . 333.2.2.1 Detector Fast-Hessian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.2.2 Atribuição de orientação e construção do descritor . . . . . . . . . . . . . . 353.2.3 Local Binary Pattern - LBP . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.4 Binary Robust Invariant Scalable Keypoints - BRISK . . . . . . . . . . . 373.2.4.1 Detecção de ponto de interesse . . . . . . . . . . . . . . . . . . . . . . . . 373.2.4.2 Atribuição de orientação e construção do descritor . . . . . . . . . . . . . . 393.2.5 Binary Robust Independent Elementary Features - BRIEF . . . . . . . . . 403.2.6 Oriented FAST and rotated BRIEF -ORB . . . . . . . . . . . . . . . . . 413.2.6.1 Seleção de pontos de interesse . . . . . . . . . . . . . . . . . . . . . . . . 413.2.6.2 Atribuição de orientação . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.6.3 Construção do descritor . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

  • 3.2.7 Gray-level co-occurrence matrix - GLCM . . . . . . . . . . . . . . . . . . 433.2.8 Histogram of Oriented Gradients - HOG . . . . . . . . . . . . . . . . . . 463.2.9 Transformada Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2.9.1 Transformada wavelet discreta de duas Dimensões (2D - DWT) . . . . . . . 493.2.9.2 Transformada wavelet de Haar . . . . . . . . . . . . . . . . . . . . . . . . 503.2.10 Bag of Visual Word (BoVW) . . . . . . . . . . . . . . . . . . . . . . . 513.3 Seleção de Características . . . . . . . . . . . . . . . . . . . . . . . . 513.3.1 Análise de componentes principais - PCA . . . . . . . . . . . . . . . . . 523.4 Classificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.4.1 Máquina de Vetores de Suporte - SVM . . . . . . . . . . . . . . . . . . . 523.4.2 Perceptron Multi-Camadas - MLP . . . . . . . . . . . . . . . . . . . . . 543.4.3 Random Forest - RF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.4.4 K-vizinhos mais próximos - KNN . . . . . . . . . . . . . . . . . . . . . . 60

    4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . 61

    5 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . 665.1 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665.2 Ambiente experimental . . . . . . . . . . . . . . . . . . . . . . . . . 665.3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.4 Métricas de validação . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.1 Classificação de lesão entre benigna, maligna e normal . . . . . . 716.1.1 Análise SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.1.2 Análise ORB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.1.3 Análise BRISK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.1.4 Análise HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.1.5 Análise LBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.1.6 Análise GLCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.1.7 Resultado da Classificação de lesão entre benigna, maligna e normal . . . 766.1.8 Combinação entre descritores . . . . . . . . . . . . . . . . . . . . . . . . 776.2 Classificação de lesão entre normal e anormal . . . . . . . . . . . . 78

    7 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    A APÊNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

  • 16

    1 Introdução

    A agência internacional de pesquisa em câncer estima que ocorreram 1,67 mi-lhões de casos de câncer de mama no mundo em 2012, com aproximadamente 31%de taxa de mortalidade. A previsão para o período entre 2012 e 2017 é de 6,32 milhõesde novos casos (FERLAY et al., 2013). No Brasil, de acordo com o Instituto Nacionalde Câncer (INCA) (INCA, 2015), o câncer de mama é o segundo tipo de câncer quemais afeta mulheres, nas regiões centro-oeste, nordeste, sul e sudeste, e a previsãoé de 57.960 novos casos no ano de 2016 (INCA, 2015). A Organização Mundial deSaúde (World Health Organization, WHO) afirma que a detecção prévia é ainda umadas maiores estratégias contra o câncer de mama, e elucida que o rastreamento pormamografia é o único método de triagem que tem provado ser eficaz (WHO, 2016).

    Como citado por Pereira et al. (PEREIRA et al., 2014), organizações internaci-onais e pesquisas científicas indicam a mamografia como um dos principais examespara o rastreamento do câncer de mama. A mamografia, ou mamografia de triagem,é uma imagem de raios-X da mama, a qual é normalmente utilizada para o diagnós-tico precoce do câncer de mama, quando a doença ainda não apresenta sinais, ou ossintomas estão clinicamente ocultos. (NCI, 2016) Além disso, a mamografia permite avisualização de pequenos depósitos de cálcio (microcalcificações), que são em algunscasos associados à presença do câncer de mama (ACS, 2016d)

    Existem distintas metodologias terapêuticas para o tratamento do câncer demama, sendo algunsmétodosmais invasivos que outros. No entanto, a definição do tra-tamento apropriado depende da complexidade e do tipo de câncer de mama (SENKUSet al., 2015). Por isso, é importante a precisão na avaliação da condição do paciente,visto que a correta classificação do câncer pode determinar se um tratamento invasivoé de fato necessário, provendo maior qualidade de vida ao paciente. Um diagnósticofalso-positivo de mamografia é aquele que apresenta resultados anormais quando nãoexiste câncer. Estes resultados demandam exames adicionais para verificar se a anor-malidade é um câncer. As mulheres que recebem o resultado falso-positivo podemsofrer de uma significativa ansiedade durante o processo e outros tipos de estressepsicológico, além do tempo, valor investido e possíveis desconfortos físicos provenien-tes de alguns exames (ACS, 2016b) (WORLD HEALTH ORGANIZATION, 2014). En-quanto um diagnóstico falso-negativo apresenta resultado normal quando há presençade câncer, o que pode provocar atraso no tratamento, diminuindo as chances de re-cuperação (ACS, 2016b). Tanto o diagnóstico falso-positivo quanto o falso-negativoocorrem devido à má interpretação da mamografia.

  • Capítulo 1. Introdução 17

    Segundo a American Câncer Society, no período de 10 anos, metade das mu-lheres que fazem mamografia anual recebe um resultado falso-positivo; e uma a cadacinco mamografias não apresenta o câncer de mama existente (ACS, 2016b). O altovolume de dados da mamografia, distração, tipo de tecido mamário e baixa qualidadeda imagem são fatores que podem dificultar a interpretação dos especialistas e o di-agnóstico pode ser efetuado incorretamente (DESHPANDE; RAJURKAR; MANTHAL-KAR, 2013). Desta forma, é importante ter uma ferramenta computacional para auxiliaro especialista, melhorando assim a precisão da avaliação das imagens de mamografia.

    1.1 Problemas de PesquisaAo relacionar os critérios da análise de imagens de mamografia e o processo

    de classificação de imagens, as seguintes perguntas são levantadas:

    1. Dentre os descritores de imagens (conjunto de dados que representam a essên-cia de um todo ou parte da imagem (NIXON; AGUADO, 2012)) utilizados na lite-ratura, quais os melhores para classificar imagens de mamografia? Existe algumdescritor recente que ainda não foi testado na análise de imagensmamográficas?

    2. É possível que a combinação de descritores e algoritmo de seleção de caracte-rísticas diminua os resultados falso-positivo e falso-negativo obtidos pelo classi-ficador?

    3. Qual a relação entre a combinação de descritores e os classificadores aplicadosao problema de classificação de imagens de mamografias?

    1.2 JustificativaEsse projeto busca a análise da relação entre descritores e classificadores do

    estado da arte e como as características extraídas a partir deles influenciam na preci-são de classificação da mamografia. A maioria dos artigos estudados, como é possívelobservar no capítulo 3 (trabalhos relacionados) não avalia a relação entre descritorese classificadores. Além disso, o trabalho proposto procura também avaliar descritoresde imagens que não foram citados nas pesquisas mencionadas acima e que tem sidoutilizado em outras áreas de aplicação.

  • Capítulo 1. Introdução 18

    1.3 Objetivos

    1.3.1 Objetivo GeralO objetivo geral do trabalho é realizar uma análise dos descritores de imagens

    do estado da arte aplicados para classificação de imagens de mamografia; a fim deobservar a relação entre descritores e suas combinações, classificadores e a precisãoobtida na identificação de lesões.

    1.3.2 Objetivos Específicos

    • Analisar descritores para classificação de imagem e avaliar suas limitações;

    • Analisar as características extraídas que possuem maior influência na classifica-ção da imagem;

    • Avaliar descritores não utilizados para classificação de imagens de mamografia.

    1.4 Estrutura do trabalhoOs capítulos seguintes abordam conceitos e a metodologia utilizada neste tra-

    balho. O Capítulo 2 explica a estrutura da mama e o método de triagem através damamografia. O Capítulo 3 aborda os conceitos de computação visual importantes paracompreensão desse trabalho. O Capítulo 4 apresenta o estudo da arte. Os Capítulos5, 6 e 7 referem-se respectivamente a metodologia utilizada, resultados e conclusãoobtida.

  • 19

    2 Conceitos básicos da Mamografia

    As sessões abaixo explicam sobre a estrutura da mama e sua classificação emimagens de mamografia. Há também a exemplificação de diagnósticos de lesões paraum maior esclarecimento.

    2.1 Densidade da MamaAs mamas são formadas por tecido glandular (responsável por produzir leite),

    tecido fibroso e tecido adiposo, que concedem o formato e estrutura da mama. Asmamas são consideradas densas quando há um maior número de tecido fibroso ouglandular e pouca presença de tecido adiposo.

    A densidade damama pode ser percebida apenas pelamamografia (ACS, 2016a).Mamas com tecidos denso são mais difíceis de visualizar o câncer, pois em mamogra-fias os tecidos densos aparecem brancos, da mesma forma que aparecem massasmamárias ou tumores (ACS, 2016a). O Breast Imaging Reporting and Data System(BI-RADS) foi criado pela American College of Radiology e propõe um método padrãode reportar imagens da mama (mamografía, ultrasom e MRI)(ACR, 2016) .

    A densidade da mama é dividida em quatro categorias, de acordo com a classifi-cação de BIRADS (KEIKHOSRAVI et al., 2014). As quatro categorias são apresentadasna Figura 1.

    Figura 1 – Tipos de tecido mamário: (a) Tecido gorduroso, (b) Tecido denso, (c) Tecidoheterogeneamente denso e (d) Tecido extremamente denso

    Fonte: (ACR, 2016)

    Os quatro tipos de tecido podem ser descritos a seguir:

  • Capítulo 2. Conceitos básicos da Mamografia 20

    1. Tecido gorduroso: mama quase toda formada por tecido adiposo (Figura 1.a).Neste tipo de mama, a mamografia é capaz de mostrar qualquer anormalidade;

    2. Tecido denso: existem regiões dispersas de tecido glandular e fibroso (figura 1.b);

    3. Tecido heterogeneamente denso: maior parte da mama é composta de tecidoglandular e fibroso, o que dificulta a visualização de pequenas massas na mama(figura 1.c);

    4. Tecido extremamente denso: e mama é extremamente densa (figura 1.d), o quetorna difícil a detecção de câncer na mamografia, pois a lesão pode mesclar como tecido na leitura da imagem.

    2.2 Classificação de Imagens de MamografiaDe acordo com William R Hendee (HENDEE; MARKEY, 2013), o Bi-RADS

    provê uma terminologia padronizada para imagens da mama e é um sistema de re-latório desenvolvido para proporcionar organização na interpretação de imagens demamografia e geração de relatórios (HENDEE; MARKEY, 2013).

    O Bi-RADS possui uma categoria numérica no intervalo de 0 a 6 que classificamas lesões de imagens de mamografia digital (ACS, 2016c). Uma vez identificada àlesão como maligna, é realizada a biopsia para comprovar a existência do tumor. ATabela I, representada abaixo, descreve as categorias do BI-RADS:

  • Capítulo 2. Conceitos básicos da Mamografia 21

    Tabela 1 – Classificação de imagens de mamografia, segundo BI-RADS (MENDEL-SON; BOHM-VELEZ; BERG, 2013).

    Categoria Definição Significado0 Incompleto Precisa de imagens adicionais

    para avaliação.1 Negativo Exame normal2 Benigno Exame negativo, descreve que

    os nódulos, calcificação e linfo-mas são benignas

    3 Provavelmente Benigno Chance maior que 98% de be-nignidade.

    4 Suspeito Categoria 4A: baixasuspeita de malignidade;Categoria 4B: suspeita mode-rada de malignidade;Categoria 4C: alta suspeita demalignidade;

    Não apresenta malignidade,mas suspeita suficiente pararecomendação de biópsia. Ésubdividido em três subcatego-rias

    5 Altamente sugestivo para Ma-ligno

    Chance de cerca de 95% de sercâncer.

    6 Biopsia conhecida – Maligni-dade provada.

    Usada em mamografias, cujabiópsia comprovou a existênciade câncer.

    Fonte: (ELVERICI et al., 2015)

    Figura 2 – Classificação de formato de lesão, segundo o BI-RADS: circunscrita, obs-curecida, microlobuladas, mal definida e espiculada.

    Fonte: (Radiology Assistant, 2013)

    A margem da lesão na mama e sua morfologia são fatores importantes paradeterminar sua classificação (HENDEE; MARKEY, 2013) (ELVERICI et al., 2015). OBI-RADS também classifica as lesões por suas morfologias (ELVERICI et al., 2015),

  • Capítulo 2. Conceitos básicos da Mamografia 22

    onde as margens de uma lesão podem ser descritas como circunscrita, obscurecida,microlobuladas, mal definida, ou espiculada. A Figura 2 mostra os formatos de cadatipo de margem da lesão (HENDEE; MARKEY, 2013).

    Lesões com características benignas como, formato oval, orientação paralela,margem circunscrita, interface abrupta, e falta de presença de alteração nos tecidos,são classificados como BI-RADS3, que representa uma lesão de caráter benigno (EL-VERICI et al., 2015). Toda lesão que exibe uma combinação de ao menos três sinaisque sugerem malignidade (formato irregular, orientação não-paralela, margem não cir-cunscrita, e tecidos cercado por anormalidades) são classificadas com BI-RADS 5, querepresentam uma lesão maligna (ELVERICI et al., 2015).

  • 23

    3 Fundamentação teórica

    A computação visual busca replicar os efeitos da visão humana, ao perceber eentender uma imagem. Isso não é uma simples tarefa, tendo em vista que o mundoé 3D e a maioria das ferramentas de imagem fornecem apenas uma imagem 2D(SONKA; HLAVAC; BOYLE, 2014).

    Uma imagem digital é definida pela integração e amostragem de dados contí-nuos (amostra do sinal analógico da imagem real) em um domínio espacial. A imagemconsiste de um array retangular de pixels (x, y, v), que é a combinação da localização(x, y) com o valor de cada amostra (v) (KLETTE, 2014).

    O entendimento de uma imagem por uma máquina pode ser compreendidocomo a relação entre uma imagem de entrada, e o modelo previamente estabelecidona observação do mundo real. Essa transição da imagem para o modelo, reduz as in-formações contidas na imagem para produzir informações relevantes. Este processoé geralmente dividido em vários passos e diferentes níveis de representação da ima-gem, cujo primeiro nível possui a imagem original e o último a imagem interpretada. Acomputação visual cria algoritmos para definir a relação entre estes níveis (SONKA;HLAVAC; BOYLE, 2014). Neste capítulo é abordado as etapas e algoritmos utilizadosna computação visual para identificação de imagens.

    3.1 Aprimoramento de imagemAprimoramento de imagem é um processo no qual a imagem original é aperfei-

    çoada para se tornar mais adequada para uma aplicação específica. O tipo de aplica-ção pode variar entre imagens de raio-x, imagens termais e outras. O processo paraobtenção de aprimoramento também pode deferir entre si (CHAIRA, 2015). O objetivode utilizar o aprimoramento de imagem é para transformar a imagem mais adequadaa outros processamentos de imagens, como melhor visualização de característicasou restaurar imagens que foram deterioradas (CHAIRA, 2015). O aperfeiçoamento deimagem no domínio espacial (refere-se a imagens planas 2D, em termos de intensi-dade de pixels) engloba manipulação de contraste (ou transformação de intensidade),e melhoramento de borda (sharpering) da imagem (CHAIRA, 2015).

    A finalidade da manipulação de contraste é melhorar a visualização de con-traste geral da imagem, destacar as regiões de baixa intensidade, melhorando a leiturada imagem (DAS, 2015). Exemplos dessa técnica é a equalização de histograma e aequalização de contraste por meio de histogramas adaptativos limitados (CLAHE) . O

  • Capítulo 3. Fundamentação teórica 24

    processo de melhoramento de bordas é utilizado para enfatizar os detalhes mais finosda imagem em relação a transição de intensidade (CHAIRA, 2015), especialmente emimagens cujas as bordas não estão claramente visíveis (DAS, 2015). O filtro sobel éum exemplo desse processo.

    3.1.1 Equalização do Histograma (HE)Na equalização do histograma (HE) os valores de intensidade da imagem são

    redistribuídos para aperfeiçoar o contraste. HE remapeia os tons de cinza de uma ima-gem baseada na probabilidade de distribuição dos nos níveis de cinza dados (RAJU;DWARAKISH; REDDY, 2013).

    O contraste da imagem é determinado pela relação entre os pixels claros eescuros e que o histograma retorna informação de contraste e a distribuição de inten-sidade total da imagem (Figura 3a) (RAVICHANDRAN; MAGUDEESWARAN, 2012). Apartir das informações acima é possível obter a seguinte equação de equalização dehistograma:

    Sk = C(rk) =k∑

    i=0

    p(ri) =k∑

    i=n

    nin

    (3.1)

    onde 0≤Sk≤1 e k = 0, 1, 2, ..., L−1 (para uma imagem cuja a entrada seja f(x, y),composta de tons de cinza com valores discretos em um intervalo dinâmico entre [0,L-1] ). Na equação acima, ni representa o número de pixels cujo tom de cinza é ri, né número total de pixels na imagem. A função densidade de probabilidade (FDP) deum tom de cinza ri é representado por p(ri). A função distribuição acumulada (FDA) édefinida como C(rk). Essa técnica redistribui os pixels de forma que a imagem tenhaum histograma linear acumulado (Figura 3b) (RAJU; DWARAKISH; REDDY, 2013). EmHE, Sk pode ser facilmente mapeado para um intervalo dinâmico [0,L-1] ao multiplicá-lopor L-1 (RAVICHANDRAN; MAGUDEESWARAN, 2012).

    Em outras palavras o método de equalização do histograma, aplica um mape-amento não linear e de tom único, no qual redistribui os valores de intensidade dospixels da imagem de entrada, de forma que a imagem resultante contém uma distribui-ção uniforme de intensidades (KUMAR; SHAIK, 2016). O objetivo do HE não é apenasdistribuir intervalos randômicos de pixels, mas números iguais de pixels em todos deníveis de cinza (KUMAR; SHAIK, 2016). Esse método é uma operação global, e nãopreserva a iluminação da imagem. HE é amplamente utilizado em processamento deimagens médicas, imagens de radar e outros (RAJU; DWARAKISH; REDDY, 2013).

  • Capítulo 3. Fundamentação teórica 25

    Figura 3 – Equalização de histograma: (a) Histograma (b) Equalização de histograma

    Fonte: (RAJU; DWARAKISH; REDDY, 2013)

    3.1.2 Contrast-Limited Adaptive Histogram Equalization (CLAHE)Desenvolvida originalmente para imagens médicas, CLAHE é uma técnica utili-

    zada para melhorar o contraste local de uma imagem. CLAHE é uma generalização daequalização adaptativa do histograma (AHE) e da equalização ordinária do histograma(HE) (GEORGIEVA; DRAGANOV, 2016).

    CLAHE não é executada na imagem inteira como ocorre na equalização dohistograma (HE), mas como no AHE funciona em pequenas partes da imagem deno-minadas de tiles (blocos) (GEORGIEVA; DRAGANOV, 2016). Cada região tem seuhistograma calculado e o contraste de cada tile é otimizado. No entanto, no AHE seexistir ruído nos blocos, esse será amplificador (PIZER et al., 1987). Com o intuito deevitar o aumento de informações desnecessárias como ruído. CLAHE implementa umlimite de contraste, que pode ser definido de acordo com o tipo da imagem (GEORGI-EVA; DRAGANOV, 2016) (PIZER et al., 1987).

    Então, se alguma parte do histograma está acima do limite de contraste es-pecificado; esses pixels são recortados (Figura 4, região azul) . É uma desvantagemdescartar parte do histograma que excede o limite de contraste e, por isso, essas par-tes são distribuídas igualmente por todas as seções do histograma (PIZER et al., 1987).A redistribuição irá empurrar algumas seções para cima do limite (região verde na Fi-gura 4) especificado, o que resulta em um limite efetivo que é maior do que o limiteprescrito e cujo valor depende da imagem. Se o resultado for indesejável, essa téc-nica de redistribuição pode ser repetida recursivamente até o excesso ser irrelevante(PIZER et al., 1987). Para evitar a visualização da região de fronteira entre as tilesna imagem, uma interpolação bilinear é utilizada entre cada tile adjacente. Por fim, édeterminado a função distribuição acumulada (FDA) do histograma resultado da limi-tação de contraste para mapear os tons de cinza da imagem resultante (GEORGIEVA;DRAGANOV, 2016).

  • Capítulo 3. Fundamentação teórica 26

    Figura 4 – Delimitação de contraste do CLAHE, a área azul na primeira imagem mos-tra a seção do histograma que ultrapassou o limite e sua redistribuição nasegunda imagem.

    Fonte: (Wikimedia Commons, 2017b)

    3.1.3 Filtro SobelO filtro Sobel (ou operador sobel) auxilia na detecção de bordas e transição

    de imagens. O operador sobel utiliza dois kernels, um para modificação horizontal eoutra para modificação vertical. Seus kernels não possuem foco no pixel atual, masnos pixels vizinhos (AKHMADEEV, 2015).

    Para entender como o filtro Sobel funciona é necessário entender que, as mu-danças de intensidade de uma imagem podem ser medidas aplicando derivadas deprimeira ou segunda ordem (CHITYALA; PUDIPEDDI, 2015). A derivada de primeiraordem de qualquer ponto da imagem pode ser calculada pela magnitude de gradientedesse ponto (PLATANIOTIS; VENETSANOPOULOS, 2013).

    Uma imagem não é uma função contínua e sua derivada é calculada utilizandoaproximações discretas. Entretanto a nível de compreensão suponha que uma imagemseja uma função contínua dada por f(x, y), então o gradiente de f como vetor, é dadopela fórmula a seguir (CHITYALA; PUDIPEDDI, 2015):

    ∆f =

    [fx

    fy

    ](3.2)

    onde fx = ∂f∂x é a derivada parcial de f em relação a x, que representa a mudançade f na direção horizontal, e fx = ∂f∂y é a derivada parcial de f em relação a y querepresenta a mudança de f na direção vertical (CHITYALA; PUDIPEDDI, 2015). Entãoa intensidade do gradiente é uma quantidade escalar dada por:

    |∆f | = [fx2 + fy2]12 (3.3)

    E sua versão simplificada é :|∆f | = |fx|+ |fy| (3.4)

  • Capítulo 3. Fundamentação teórica 27

    Tabela 2 – Sub-imagem 3X3

    f1 f2 f3f4 f5 f6f7 f8 f9

    Fonte: (KLETTE, 2014)

    Sobel é um dos filtrosmais populares de derivada de primeira ordem (CHITYALA;PUDIPEDDI, 2015). O operador Sobel aproxima as duas derivadas parciais de umaimagem (utilizando os kernels mostrados na tabela 3 e 4 abaixo). Esses kernels sãoversões discretas de uma simples convolução gaussiana através de linhas ou colunas(KLETTE, 2014). Abaixo são apresentados os kernels do Sobel para encontrar bordasvertical e horizontal, respectivamente (AKHMADEEV, 2015):−1 0 1−2 0 2

    −1 0 1

    e−1 −2 −10 0 0

    1 2 1

    (3.5)Os kernels são convoluções locais que calculam a aproximação de fx e fy da

    derivada parcial. O valor do operador Sobel em um pixel localizado em (x, y) é igual a(KLETTE, 2014):

    |∆f(x, y)| ≈ |fx(x, y)|+ |fy(x, y)| (3.6)

    Para maior compreensão considerando uma imagem de dimensão 3×3 (tabela3) cujo os kernels horizontal e vertical do Sobel são aplicados para detectar borda.

    Uma vez que a derivada parcial de f em x, que é a alteração de f ao longo dadireção horizontal, a parcial pode ser obtida ao retirar a diferença entre a primeira eterceira linhas do kernel horizontal. Então fx = (f7 + 2f8 + f9) − (−f1 − 2f2 − f3). Oprocesso similar ocorre para a direção vertical, é possível obter a parcial subtraindo aterceira coluna com a primeira coluna do kernel vertical (KLETTE, 2014). Logo:

    fy = (f3 + 2f6 + f9)− (−f1 − 2f4 − f7) (3.7)

    Calculado fx e fy o gradiente discreto em f5 é dado por:

    |f5| = |f7 + 2f8 + f9 + f1 + 2f2 + f3|+ |f3 + 2f6 + f9 + f1 + 2f4 + f7| (3.8)

    Visto que a soma de todos os coeficientes do kernel é igual a zero, os tons decinza constantes da imagem não são afetados pelo filtro. Entretanto um efeito negativoda derivada é a adição de ruídos, pois os coeficientes +2 e -2 são utilizados namáscarapara produzir suavização (KLETTE, 2014).

  • Capítulo 3. Fundamentação teórica 28

    3.2 Descritores de característicasNo campo da visão computacional e no processamento de imagem são inú-

    meras as aplicações, que necessitam de um robusto detector de características deimagens (SRIVASTAVA; SHARMA; SINGH, 2013). As informações da imagem são uti-lizadas para caracterizar a aparência, formatos de qualquer objeto na imagem (NIXON;AGUADO, 2012), que são classificadas como local ou global e podem representar con-tornos, bordas, pontos, arestas ou outras (AWAD; HASSABALLAH, 2016). As carac-terísticas globais descrevem a informação de toda imagem e geralmente são repre-sentadas por um vetor multidimensional (Figura 5). Enquanto as características locaisdescrevem informações baseadas em estruturas locais, que são um conjunto de des-critores com características locais denominadas de região de interesse (Figura 5).

    Figura 5 – Representação de características globais e locais de uma imagem

    Fonte: (AWAD; HASSABALLAH, 2016)

    Normalmente os tipos de características a ser utilizado depende da aplicação.Por exemplo, o algoritmo de característica global pode ser utilizado para identificar adensidade entre duas imagens de mamografia, mas pode ter dificuldade para distin-guir a existência do tumor entre uma delas, uma vez que o histograma de intensidadeentre as duas imagens pode ter uma distribuição semelhante. Neste caso, descritoreslocais parecem ser melhor para descrever essas regiões de interesse (pequenos tumo-res). No entanto a extração de características globais é eficiente quando o objeto deinteresse foi previamente segmentado (AWAD; HASSABALLAH, 2016). A extração decaracterísticas globais são mais rápidas e compactas quando comparadas a extraçãode características locais, e seu uso é recomendado para grandes bancos de dados(AWAD; HASSABALLAH, 2016).

    Em uma imagem objetos são representados como uma coleção de pixels, entãopara reconhecer um objeto é necessário descrever esse conjunto de pixels (SRIVAS-TAVA; SHARMA; SINGH, 2013). O descritor de imagem é frequentemente um conjuntode números, que quando comparados, reconhecem objetos ao combinar descritores deum objeto de uma imagem, com o descritor de uma imagem conhecida (SRIVASTAVA;

  • Capítulo 3. Fundamentação teórica 29

    SHARMA; SINGH, 2013). Porém, para ser uma boa ferramenta de reconhecimentoos descritores devem possuir quatro propriedades (SRIVASTAVA; SHARMA; SINGH,2013):

    • Objetos devem possuir o mesmo descritor, apenas se tiverem formatos seme-lhantes;

    • Descritores devem ser correspondentes, ou seja a capacidade de identificar ob-jetos similares a partir de descritores similares;

    • Deve ser capaz de reconhecer um objeto independente de sua orientação, escalaou posição;

    • Deve representar de modo eficiente a essência de um objeto;

    Existem distintas técnicas para extrair descrição de características de uma imagem.Nesta seção iremos abordar os descritores locais: BRISK, GLCM, LBP, ORB, SIFT,SURF e o descritor global HOG.

    3.2.1 Scale-Invariant Feature Transform - SIFTO principal objetivo do SIFT é identificar locais na imagem em um espaço esca-

    lar, que são invariáveis a translação, rotação e dimensionamento; e que são minima-mente afetados por ruído e pequenas distorções (LOWE, 1999). O SIFT é formado porquatro etapas principais: detecção extrema do espaço-escalar, localização de pontosprincipais (keypoints), atribuição de orientação e descritor de pontos principais (AWAD;HASSABALLAH, 2016).

    3.2.1.1 Detecção extrema do espaço-escalar e localização de pontos

    Nesta etapa os pontos de interesse são identificados ao escanear a imagemno espaço escalar, e os possíveis pixels de interesse são localizados (AWAD; HAS-SABALLAH, 2016). Com o intuito de obter a invariância de rotação e o alto nível deeficiência, os pontos principais são selecionados da máxima e da mínima da diferençagaussiana aplicada no espaço escalar. De maneira eficiente, isto pode ser computadoimplementando uma pirâmide da imagem, com amostragem em cada nível (LOWE,1999). Como a função gaussiana 2D é separável, sua convolução com a imagem deentrada pode ser computada ao aplicar dois passo da função gaussiana 1D, uma vezna horizontal e outra na vertical (LOWE, 1999).

    g(x) =1√2πσ

    e−x22σ2 (3.9)

  • Capítulo 3. Fundamentação teórica 30

    Para localizar as regiões principais, a operação de suavização é feita utilizando σ =√2.

    Primeiro é aplicado convolução na imagem com a função gaussiana usando σ =√2, o

    que gera uma imagem A. Então o processo é repetido uma segunda vez (para melho-rar a suavização) gerando uma outra imagem B, que resulta em uma suavização maisefetiva onde σ = 2. A diferença da função gaussiana é dada ao subtrair a imagem B daimagem A, resultando em um coeficiente de 2√

    2=

    √2 entre duas funções gaussianas

    (LOWE, 1999), então uma pirâmide escalar é gerada (Figura 6). Para isso a imagemB que foi suavizada é redimensionada utilizando interpolação bilinear com o espaça-mento de pixel igual a 1,5 em cada direção (o valor 1,5 significa que cada amostragemserá um combinação linear de quatro pixels adjacentes) (LOWE, 1999). Os níveis deimagem suavizada recebe o nome de escala, e aos níveis de imagens redimensiona-das recebe o nome de oitavo (octave). Lowe (1999) sugere que para o algoritmo SIFTsão ideias: cinco níveis de suavização e quatro níveis de octave (LOWE, 1999).

    Figura 6 – Para cada octave do espaço escalar, a imagem inicial é repetidamente con-volvida com a Gaussiana para produzir o conjunto de imagens do espaçoescalar mostradas à esquerda. As imagens gaussianas adjacentes são sub-traídas para produzir as imagens da diferença de gaussianas à direita.

    Fonte: (YUAN, 2017a)

    Os valores máximo e mínimo da diferença gaussiana no espaço escalar é de-terminado ao comparar cada pixel na pirâmide com seu vizinho (LOWE, 1999). Ospixels são comparados primeiros aos seus oito vizinhos que estão no mesmo nível dapirâmide. Se o pixel permanece sendo o valor mais alto ou mais baixo que seus vizi-nhos o teste é repetido para um nível mais próximo, este pixel é comparado com seusnove vizinhos nos níveis adjacentes (como mostra a Figura 7). Se pixel continuar a serum valor acima ou abaixo dos pixels comparados, então o pixel é declarado como um

  • Capítulo 3. Fundamentação teórica 31

    candidato em potencial para ser um ponto de interesse (DAS, 2015).

    Figura 7 – Detecção de pontos de interesse no espaço-escalar a partir de uma regiãode 26 pixels vizinhos através dos níveis

    Fonte: (DAS, 2015)

    3.2.1.2 Atribuição de orientação

    Para descrever as características da imagem em cada região principal, a ima-gem suavizada A é processada em cada nível da pirâmide para extrair sua orientaçãoe gradiente. A cada pixel A(i, j)j a magnitude do gradiente da imagem (Mij), e orien-tação (Rij) são computadas pela diferença de pixel (KLETTE, 2014):

    Mij =

    √(A(i, j)− A(i+ 1, j)2 + (A(i, j)− A(i, j + 1)2 (3.10)

    Rij = atan2([A(i, j)− A(i+ 1, j)], [A(i, j + 1)− A(i, j)]) (3.11)

    onde atan2 significa a função arco tangente. Após computar o gradiente e a orienta-ção, um histograma de orientação é construído a partir da orientação do gradiente compontos de amostragens dentro das regiões de interesse (DAS, 2015). O histograma deorientação possui 36 compartimentos, cada um representando o intervalo de 10 graus,cobrindo um intervalo de 360° de rotação. Se uma direção está dentro dos 10 grausrepresentado por um compartimento, então o valor do gradiente correspondente é adi-cionado ao compartimento, isto define o histograma de orientação (KLETTE, 2014). Opico mais alto do histograma é identificado, e qualquer outro pico local que esteja den-tro dos 80% dos picos mais altos (Figura 7) é usado para criar um ponto de interessecom a sua orientação, isto define a direção dominante (KLETTE, 2014).

    Se existir mais de uma direção dominante (localização de múltiplos picos commagnitude similares), então múltiplos pontos de interesse são criados, na mesma lo-calização mas com orientações diferentes (DAS, 2015).

  • Capítulo 3. Fundamentação teórica 32

    Figura 8 – Histograma de orientação, cujo o pico está em 20°-29°. Logo a orientação 3(terceiro compartimento do histograma) é associado ao ponto de interesse.É possível perceber que existe outro pico entre os valores de 300°-309°então um novo ponto de interesse é associado ao compartimento 31.

    Fonte: (YUAN, 2017a)

    3.2.1.3 Descritores de ponto de interesse

    Ao obter estáveis localizações, dimensões e rotação para cada ponto, nestemomento é possível descrever a região local da imagem de forma a ser invariante atais transformações. No entanto, o próximo passo trata-se de construir um descritormais robusto a possíveis restantes variações geométricas (LOWE, 1999).

    Para isso, amostras do gradiente e orientação da imagem são retirados daslocalizações dos pontos de interesse, utilizando o ponto de interesse escalar. Uma fun-ção de peso gaussiana com desvio padrão igual a 1,5 de uma janela de descritores, éutilizada para associar as medidas de magnitude a cada ponto de amostragem (essajanela gaussiana, evita interferência no resultado do descritor caso ocorra pequenasmodificações de posição da janela). O histograma do gradiente é computado dos vizi-nhos dos pontos de interesse localizados, gerando uma janela de 16 × 16 pixels comos valores de gradientes dos pixels vizinhos (Figura 8) (DAS, 2015).

    Essa janela é quebrada em 6 janela de 4 × 4 pixels. Para cada janela, temosum vetor de comprimento 8 representando os valores do histograma de gradiente paraesta janela (Figura 8). Ao concatenar todos os 16 vetores de comprimento 8, é obtidoum vetor de comprimento 128. Esse é o descritor SIFT DSIFT (p) para um determinadoponto de interesse p (KLETTE, 2014).

  • Capítulo 3. Fundamentação teórica 33

    Figura 9 – Descritor dos pontos de interesse. Primeira imagem: Computação do mag-nitude do gradiente e da orientação de cada ponto de amostragem na ima-gem, em torno da região de um ponto de interesse; o círculo representa ajanela gaussiana que funciona como um função de peso. Segunda imagem:Computação do histograma de orientação através das 4 × 4 sub regiões.O tamanho da seta representa a soma da magnitude do gradiente próximoda direção de uma determinada região. A figura mostra array de descrição4× 4, calculado de um conjunto de amostras de 16× 16. O tamanho padrãodo descritor SIFT é 4× 4× 8 (orientações) = 128 elementos.

    Fonte: (PHAM; MORIN; GROS, 2008)

    3.2.2 Speeded Up Robust Features - SURFSURF é parcialmente baseado em SIFT, e foi desenvolvido para ter uma me-

    lhor performance de tempo de execução. SURF utiliza a integral das imagens e filtrossimplificados, no lugar da convolução da derivada da função gaussiana, como é feitono SIFT (KLETTE, 2014). O detector de pontos é baseado na matriz Hessiana, e utilizauma aproximação básica. Para reduzir o tempo de processo computacional é utilizadaintegral nas imagens nominando o detector de pontos de Fast-Hessian (BAY et al.,2008). O descritor descreve a resposta do wavelet Haar dentro das regiões vizinhasdo ponto de interesse (BAY et al., 2008).

    3.2.2.1 Detector Fast-Hessian

    A matriz Hessiana é utilizada para construção do detector de pontos de inte-resse. Para selecionar a localização e dimensão, a determinante da Hessiana é apli-cada. Dado um ponto x = (x, y) na imagem I, a matriz Hessiana H(x, σ) onde x nadimensão σ é definida abaixo (BAY et al., 2008):

    H(x, σ) =

    [Lxx(x, σ) Lxy(x, σ)

    Lxy(x, σ) Lyy(x, σ)

    ](3.12)

    onde Lxx(x, σ) é a convolução da derivada de segunda ordem da gaussiana no pontox da imagem I, o mesmo para Lxy(x, σ) e Lyy(x, σ) (BAY et al., 2008).

  • Capítulo 3. Fundamentação teórica 34

    A convolução e a derivada de segunda ordem são combinados para formar umúnico filtro (BAY et al., 2008). Os filtros de máscara de 9 × 9 mostrados na Figura 10são aproximações da derivada de segunda ordem da Gaussiana com σ = 1, 2 querepresenta a escala mais baixa. Essa aproximação é denotada por Dxx, Dyy e Dxy(BAY et al., 2008). É então necessário equilibrar os pesos relativos, e a determinadada Hessiana fica representada como (BAY et al., 2008):

    det(Haproxim) = DxxDyy − (0.9Dxy)2 (3.13)

    Assim como no SIFT, o espaço escalar é implementado como uma pirâmidede imagens. A diferença entre o espaço escalar do SURF para o SIFT (Figura 10),é que no SIFT são utilizadas diferentes dimensões de imagens para construção dapirâmide enquanto no SURF são aplicadas diferentes escalas demáscaras gaussianase a dimensão das imagens permanecem inalteradas (BAY et al., 2008).

    Figura 10 – SIFT (à esquerda): Reduzindo iterativamente o tamanho da imagem .SURF (à direita): o uso de imagens integrais permite o aumento do filtro aum custo constante.

    Fonte: (YUAN, 2017b)

    O filtro de 9 × 9 (como mostrado na Figura 9 ) é considerado como a camadaescalar inicial. As camadas seguintes são obtidas ao filtrar imagens com máscarascada vez maiores (BAY et al., 2008). Os filtros resultantes são 9 × 9, 15 × 15, 21 × 21,27× 27, etc (KLETTE, 2014).

    Os pontos de interesses são detectados ao aplicar a supressão não máxima(que é o anulamento de pixels, no qual os valores na direção do gradiente da imagemnão são máximos locais (AWAD; HASSABALLAH, 2016)). Isto significa que duas má-ximas locais são separadas por r pixels em cada nível, onde r é o raio da vizinhançautilizado na supressão não máxima. Uma interpolação similar ao SIFT é aplicada paraestabilizar a localização das amostras. Então a máxima dos pixels por níveis é obtidae utilizada com ponto de interesse (FAN; WANG; WU, 2015).

  • Capítulo 3. Fundamentação teórica 35

    Figura 11 – ilustração para mais baixa escala σ = 1, 2, é a derivada parcial de segundaordem da gaussiana discretizada e cortada, que correspondem ao filtro dokernel em SURF. O par da esquerda corresponde a derivada na direção ye sua aproximação simplificada no SURF. O par da direita corresponde aderivada na diagonal (esquerda inferior para direita superior).

    Fonte: (KLETTE, 2014)

    3.2.2.2 Atribuição de orientação e construção do descritor

    Com o intuito de ser invariável a rotação, primeiro é calculado a wavelet Haardas direções de x e y, com uma vizinhança de raio circular de 6s (onde s é a dimensãono qual o ponto de interesse foi detectado) ao redor do ponto de interesse (BAY etal., 2008). Para enfatizar o ponto central da amostra, a função de peso gaussiana éaplicada nas respostas da wavelet Haar. Então, todas as respostas de peso são mape-adas em um espaço 2D nos eixos x (abscissas) e y (ordenadas) do plano cartesiano.Como mostrado na Figura 12, a área de orientação é escaneada em uma varredurade tamanho π

    3, criando vetores de orientações locais com todas as somas dos pontos

    da região analisada. O vetor de orientação mais longo no espaço mapeado, é definidocomo a orientação do ponto de interesse (FAN; WANG; WU, 2015).

    Figura 12 – O resultado da wavelet Haar são mapeadas em um espaço 2D nos eixosx (abscissas) e y (ordenadas) do plano cartesiano. O vetor de orientaçãomais longo no espaço mapeado, é definido como a orientação do ponto deinteresse

    Fonte: (YUAN, 2017b)

    Para extrair o descritor, primeiro é criado uma região quadrada (de tamanho 20s)

  • Capítulo 3. Fundamentação teórica 36

    centrada no ponto de interesse e rotacionada de acordo com a orientação atribuída aeste ponto. Essa região é subdividida em quadrados menores de 4x4, esta técnicamantém importantes informações espaciais. Para cada ponto de amostragem na sub-região, é calculado awavelet Haar nas direções horizontal e vertical (FAN; WANG;WU,2015). Para tornar o descritor mais robustos as variações geométricas restantes, asrespostas da wavelet são ponderadas pela função gaussiana (BAY et al., 2008). Asrespostas somadas da wavelet de orientação horizontal dx, vertical dy e a soma deseus valores absolutos |dx|, |dy| (que permitem a obtenção de informações da polari-dade da mudança de intensidade) são mapeadas para um vetor de dimensão 4. Porfim, cada sub-região possui um vetor de 4 dimensões V = (

    ∑|dx|,

    ∑|dy|,

    ∑dx,

    ∑dy),

    resultando em um descritor de de tamanho 64 para todas as 4× 4 sub-regiões (BAY etal., 2008).

    3.2.3 Local Binary Pattern - LBPO Local binary pattern (LBP) que inicialmente foi desenvolvido para classifica-

    ção de textura, ganhou adesão rápida em outras aplicações de processamento deimagem, devido a boa performance e simplicidade computacional (FAN; WANG; WU,2015). O LBP caracteriza a estrutura espacial de uma textura e tem a capacidade deser invariante as transformações monotônicas dos tons de cinza (AWAD; HASSABAL-LAH, 2016).

    Ao aplicar LBP na imagem, cada pixel é rotulado com um valor inteiro deno-minado padrão LBP (FAN; WANG; WU, 2015). Para determinar esse padrão, o valordo pixel é calculado, comparando a relação do pixel central com seus pixels vizinhos.Como proposto na versão original do LBP (HE; WANG, 1990), os valores podem serdeterminados a partir de uma janela de pixel 3 × 3 (que representa a menor unidadecompleta de pixels vizinhos, tendo oito direções de pixels vizinhos ao redor do pixelcentral). Então o padrão LBP de um pixel é computado ao comparar o valor de intensi-dade do pixel central, com o valor de intensidade de seus pixels vizinhos (determinadopelo tamanho da janela) (HE; WANG, 1990). Essa comparação ocorre de maneira que,se um pixel vizinho tem valor de intensidade maior ou igual ao pixel central então arelação é rotulada com “1”, caso contrário a relação é rotulada com “0”. As compara-ções são armazenadas no sentido horário em um array binário (ou seja, o descritordescreve a vizinhança como um valor binário), esse array é então convertido em umvalor decimal (na Figura 13 esse processo é ilustrado) (AWAD; HASSABALLAH, 2016).Uma versão padrão é mostrada abaixo:

    S(gc − gp) =

    {1, se gp ≥ gc,0, se gp < gc.

    (3.14)

  • Capítulo 3. Fundamentação teórica 37

    Onde gc é a intensidade do pixel central e gp a intensidade dos pixels vizinhos.Em uma janela 3x3, p representa um dos oito possíveis vizinhos (intervalo [0-7]). Logo,o padrão LBP de um pixel é determinado pelos valores do limiar S(gc − gp) ponderadopor fator binomial de 2k (conversão binário para decimal). A fórmula geral é dada aseguir (AWAD; HASSABALLAH, 2016):

    LBPRN(x, y) =N−1∑k=0

    S(gc − gp)2k, S(gc − gp) =

    {1, se gp ≥ gc,0, se gp < gc.

    (3.15)

    O array LBP binário de um pixel com oito vizinhos possui oito elementos, quesignifica que 28 = 256, ou seja, 256 diferentes possibilidades de classificação são obti-das para cada pixel. Após definir o padrão LBP de cada pixel, é aplicado um histogramacom 256 compartimentos, que é utilizado como descritor de características do LBP.

    Figura 13 – Calculando o valor de um pixel em LBP, para janela de pixel 3x3.

    Adaptado de: (BENZAOUI; HADID; BOUKROUCHE, 2014)

    3.2.4 Binary Robust Invariant Scalable Keypoints - BRISKO binary robust invariant scalable keypoints é um descritor invariante a orien-

    tação e escala (LEUTENEGGER; CHLI; SIEGWART, 2011). O BRISK é construído apartir de 60 pontos distribuídos em quatro anéis concêntricos, uma vez que os pares depontos de amostragem são simétricos e circulares. Cada ponto representa uma áreade amostragem circular (onde os pontos de amostragem são escolhidos) que aumentade tamanho quanto mais distante estiver do ponto de interesse (MUHAMMAD, 2015).

    3.2.4.1 Detecção de ponto de interesse

    Com o intuito de obter invariância escalar, o máximo local é localizado no planoda imagem, e no espaço escalar utilizando pontuação FAST como medição de saliên-cia. O detector BRISK estima o verdadeiro valor dos pontos de interesse no contínuoespaço-escalar (LEUTENEGGER; CHLI; SIEGWART, 2011).

  • Capítulo 3. Fundamentação teórica 38

    Em BRISK a pirâmide espaço-escalar consiste de n octaves (onde n normal-mente igual a quatro) e n intra-octaves di (para i = (0, 1, ..., n − 1)). As octaves (cn)são meio amostras da imagem original. Cada intra-octave é localizado entre cama-das de octaves (cI e ci1), como ilustrado na Figura 14 (LEUTENEGGER; CHLI; SI-EGWART, 2011). Nos níveis de octave a imagem original é determinada como primeiracamada, e as camadas restantes são meio amostras sucessivas da camada anterior(FAN; WANG; WU, 2015). Nas intra-octaves a primeira camada é obtida pela reamos-tragem da imagem original em um fator de 1.5, e as camadas sucessivas são meioamostragem da camada anterior (LEUTENEGGER; CHLI; SIEGWART, 2011).

    Figura 14 – Detecção de ponto de interesse no espaço-escala: um ponto de interesse(ou seja,que possui saliência máxima) é identificado na octave ci ao anali-sar a pontuação de saliência de seus oito vizinhos na camada atual cI e nascamadas imediatas abaixo ci−1 e acima ci+1. Em todas as três camadas deinteresse, a máxima saliência local é refinada para três sub- pixels que sãodistribuídas em uma parábola 1D, com o intuito de determinar a escala ver-dadeira do ponto de interesse. A localização do ponto de interesse sofreinterpolação entre os trechos máximos próximo a escala determinada.

    Fonte: (LEUTENEGGER; CHLI; SIEGWART, 2011)

    Para detectar os pontos de interesse através das dimensões, o BRISK utilizao detector de característica FAST (FAN; WANG; WU, 2015). Em BRISK, usualmenteé utilizado uma máscara FAST de 9-16, que identifica o pixel de interesse ao testarnove pixels consecutivos dentro de uma janela circular de 16 pixels ao redor do pixel(LEUTENEGGER; CHLI; SIEGWART, 2011). A pontuação FAST de um possível pontode interesse é definida como o limiar máximo no qual o ponto pode ser detectado. En-tão para cada ponto candidato a ponto de interesse, a supressão não máxima é apli-cada ao comparar a pontuação FAST para esse ponto e seus vizinhos (FAN; WANG;WU, 2015). Primeiro, o pixel é analisado entre seus oito vizinhos dentro da mesmadimensão. Se o pixel permanecer com pontuação mais alta, então este é testado para

  • Capítulo 3. Fundamentação teórica 39

    camadas superiores e inferiores, através da interpolação (FAN; WANG; WU, 2015).

    Na primeira camada (c0), um caso especial ocorre pois não existe camada infe-riores para comparação, por isso a máscara utilizada é a FAST 5-8, que é aplicada ac0 com um sub-camada virtual Di−1. Neste caso, não é requerido a c0 uma pontuaçãomaior que a camada virtual (LEUTENEGGER; CHLI; SIEGWART, 2011).

    Para limitar a complexidade, são obtidas três pontuações refinadas FAST dacamada do ponto de interesse, e das camadas posterior e inferior, utilizando uma ja-nela de 3 × 3 pixels de vizinhança; que são ajustadas por uma função quadrática 2Dresultando em três sub-pixels refinados de saliência máxima. Essas pontuações refi-nadas e suas escalas, são utilizadas para construir uma parábola, da qual a escalarefinada do ponto de interesse é calculada como o máximo da posição. A posição doponto de interesse na escala refinada é obtida pela interpolação das coordenadas daimagem entre os trechos da camada com a escala de interesse (FAN; WANG; WU,2015) (LEUTENEGGER; CHLI; SIEGWART, 2011).

    3.2.4.2 Atribuição de orientação e construção do descritor

    O ponto-chave do descritor BRISK é fazer uso de padrões que são utilizadospara obter um amostra da vizinhança dos pontos-chaves (LEUTENEGGER; CHLI; SI-EGWART, 2011). Esses padrões contêm 60 pontos de amostragem, cuja intensidadesão obtidas aplicando suavização Gaussiana para evitar efeito de serrilhamento. Odesvio de padrão do kernel da gaussiana de cada pixel de amostragem é definidode acordo com sua distância para o ponto de interesse. Sendo 60 pontos de amos-

    Figura 15 – (a) O padrão de amostragem usado no BRISK, 60 pontos de amostragemincluindo o ponto central regularmente distribuído em quatro círculos con-cêntricos ao redor do ponto de interesse. (b) Os pares de curta distânciados pontos de amostra utilizados na construção do descritor. (c) Os paresde longa distância utilizados para determinar a orientação (cada cor indicaum par).

    Fonte: (FAN; WANG; WU, 2015)

  • Capítulo 3. Fundamentação teórica 40

    tragem N = 60 (Figura 15a), então existem 1770 combinações de pares possíveis(N(N − 1)/2 = 1770). Em relação a essas distâncias, dois subconjuntos podem ser ob-tidos, os pares de curta distância C (Figura 15b) e pares de longa distância L (Figura15c), matematicamente representados abaixo (FAN; WANG; WU, 2015):

    C = [(pi, pj)||pi − pj|| < δmax] (3.16)

    L = [(pi, pj)||pi − pj|| < δmin] (3.17)

    Onde δmax = 9.78δ e δmin = 13.67δ, e δ é a escala do ponto de interesse. En-tão a orientação do ponto de interesse é definida por L (pares de longa distância), enão por s (pares de curta distância), considerando que gradientes locais têm a tendên-cia de anular uns aos outro e não são necessários para calcular o gradiente global(LEUTENEGGER; CHLI; SIEGWART, 2011). A orientação do ponto de interesse é de-finida como a orientação da média dos gradientes locais obtidos pelos pares de longadistância. Dado abaixo:

    (gx, gy) =1

    n

    ∑(pi,pj)ϵL

    g(p1, pj) (3.18)

    (gx, gy) = (I(gi, σgi)− I(gj, σj))pi − pj

    ||pi − pj||2(3.19)

    Onde I(gi, σgi) é a intensidade suavizada em pi e n é o número de pares delonga distância. A orientação do ponto de interesse é definida por θ = atan2(gy, gx).É importante ressaltar que a orientação é calculada em relação a escala do ponto deinteresse, os pontos dos pares de longa distância são escalados de acordo com a es-cala do ponto de interesse (FAN; WANG;WU, 2015). Utilizando a escala e a orientaçãodo ponto de interesse, o descritor binário é definido pela comparação de intensidadeatravés da rotação e escala dos pontos dos pares de curta distância. Com os padrõesde amostragem e o limiar de distância, o BRISK é um descrito com tamanho de 512bits (LEUTENEGGER; CHLI; SIEGWART, 2011).

    3.2.5 Binary Robust Independent Elementary Features - BRIEFBinary robust independent elementary features (BRIEF) é um descritor com um

    reduzido número de bits e foi inicialmente introduzido como um descritor para combina-ção de imagens, com classificador de Random Forest (AWAD; HASSABALLAH, 2016).Resumidamente, BRIEF utiliza distância de Hamming (para combinação das imagens),e para construção do descritor é comparado a intensidade entre dois pixels localiza-dos ao redor dos pontos de interesses detectados (AWAD; HASSABALLAH, 2016). De

  • Capítulo 3. Fundamentação teórica 41

    forma mais específica, um descritor binário t de um trecho p de tamanho S × S pixels,é definido como:

    T (p;x, y) :=

    1, se p(x) < p(y),0, caso contrário (3.20)onde p(x) é a intensidade do pixel em uma versão suavizada de p em que x = u, vT .Isso define um conjunto (nd) com pares de localização (x, y), em vez de definir umconjunto com trechos inteiros (CALONDER M.AND LEPETIT; STRECHA; FUA, 2010).Para reduzir a sensibilidade a ruídos é aplicado aos trechos de pixel uma pré-suavizaçãocom o kernel da gaussiana com variância igual a 2 (σ = 2) e tamanho de 9x9 pixels(CALONDER M.AND LEPETIT; STRECHA; FUA, 2010). Para definir quais serão ospares de localização (x, y) do conjunto nd, BRIEF utiliza distribuição gaussiana iso-trópica com variância igual a 1

    25S2. O descritor BRIEF é definido pela localização dos

    pares de ponto de interesse, e a comparação entre as imagens é feita pela distânciade Hamming entres esses pontos (AWAD; HASSABALLAH, 2016).

    BRIEF não foi desenvolvido para ser invariante a rotação, no entanto é capaz detolerar pequenas variações de orientação (CALONDER M.AND LEPETIT; STRECHA;FUA, 2010)

    3.2.6 Oriented FAST and rotated BRIEF -ORBORB é um acrônimo para BRIEF orientado, e como o nome sugere o descritor

    baseia-se emBRIEF. Como visto na seção anterior o descritor BRIEF possui propensãoa variação de orientação, e o ORB adiciona invariância rotacional ao BRIEF (KRIG,2014). O ORB combina os pontos de interesse definido pelo detector de cantos doFAST com uma extensão do descritor de características do BRIEF (KLETTE, 2014).

    3.2.6.1 Seleção de pontos de interesse

    Assim como em BRISK, ORB utiliza o detector FAST para detecção do pontosde interesse, a diferença é que no ORB o detector utilizado é o FAST9, ou seja comraio circular de nove pixels (KRIG, 2014). Como FAST não possui medição de cantos,o algoritmo de medição de cantos Harris é implementado para ordenar os pontos deinteresse detectados por FAST. Para isso, é definido um baixo valor de limiarizaçãoem FAST, de forma que se obtenha um grande número de pontos. Então esses pontossão ordenados pela medição Harris, e os pontos com valores maiores são escolhidos(RUBLEE et al., 2011). Uma pirâmide escalar da imagem é construída e o FAST (eHarris) é aplicado a cada camada (RUBLEE et al., 2011)

  • Capítulo 3. Fundamentação teórica 42

    3.2.6.2 Atribuição de orientação

    A intensidade centróide é a técnica utilizada por ORB para atribuição de orien-tação dos cantos. Essa técnica assume que a intensidade de um canto é deslocada docentro e que esses vetores podem ser utilizado para medição de orientação (RUBLEEet al., 2011). Omomento de um trecho da imagem é utilizado para descobrir o centróide,a partir disso, é possível construir um vetor do centro de um canto ao seu centróide. Omomentompq de um trecho da imagem é utilizado para descobrir o centróide (RUBLEEet al., 2011):

    mpq =∑x,y

    xpyqI(x, y) (3.21)

    A partir disso, é possível construir um vetor do centro C de um canto ao seucentróide OC. A orientação desse trecho pode ser simplesmente obtida pela fórmulaabaixo:

    θ = atan2(m01,m10) (3.22)

    Para melhorar a performance de invariância de rotação, x e y pertencem a umadireção circular de raio r, que é o tamanho do trecho da imagem. O centróide são com-parados por duas medidas de gradiente (H, M) de uma imagem suavizada. M escolhe omaior gradiente no trecho do ponto de interesse. H constrói um histograma de direçãode gradiente com intervalo de 10°, e o compartimento de valor máximo é selecionado(é similar ao algoritmo do SIFT, no entanto nesta técnica apenas uma orientação éselecionada) (KRIG, 2014).

    3.2.6.3 Construção do descritor

    Para tornar o descritor BRIEF (fn(p)) invariável a rotação, ORB utiliza um mé-todo para guiar o BRIEF de acordo com a orientação dos pontos de interesse. Os paresde característica (xi, yi) para BRIEF forma uma matriz S que é rotacionada utilizandoa orientação de um trecho θ e sua correspondente Rθ (RUBLEE et al., 2011):

    Sθ = RθS = R =

    [x0 … xny0 … yn

    ]= RθS =

    [x0, θ … xn, θy0, θ … yn, θ

    ](3.23)

    Por fim o novo operador do BRIEF é determinado por:

    gn(p, θ) := fn(p)|(xi, yi)ϵSθ (3.24)

  • Capítulo 3. Fundamentação teórica 43

    Contanto que a orientação de um ponto de interesse θ seja consistente na ima-gem, o conjunto correto de pontos Sθ será utilizado para calcular seu descritor (RU-BLEE et al., 2011).

    3.2.7 Gray-level co-occurrence matrix - GLCMGLCM é uma estimativa de segunda ordem (medições que consideram a rela-

    ção entre o grupo de dois pixels da imagem original)(CUZZOCREA; MANCO; MASCI-ARI, 2012) e é especificado por uma matriz que sintetiza a frequência de como um tomde cinza, irá aparecer em relação a outro tom de cinza na imagem. A matriz é com-putada por diversas relações de ângulo (direção = 0°, 45°, 90°, 135°) e de distância(D =1,2,3,4,5. D determina o número de pixels vizinhos que será utilizado na análiseda matriz GLCM) (HARALICK; SHANMUGAM; DINSTEIN, 1973). Para definir a dire-ção, o GLCM baseia-se no ângulo, como mostrado na Figura 16 (que representa aformação do GLCM com quatro tons de cinza e distância igual a 1 pixel). Saindo docentro (o) para o pixel 1, o ângulo é igual a 0° e a direção é horizontal; para o pixel 2o ângulo é igual a 45° e a direção é diagonal direita; para o pixel 3 o ângulo é igual a90° e a direção é vertical; e para o pixel 4 o ângulo é igual a 135°, a direção é diagonalesquerda (MUKHERJEE, 2017). A direção define como ocorre a ordem da leitura daimagem original, ou seja a direção do pixel vizinho a ser analisado.

    Figura 16 – Direções do GLCM

    Fonte: (MUKHERJEE, 2017)

    Para melhor compreensão do funcionamento do GLCM, um exemplo é mos-trado abaixo na Figura 17, que representa uma imagem 4X4 com quatro tons de cinza.Na Figura 17(b) é representado a forma geral do GLCM correspondente a imagem. Ovalor contido na célula (2,1) por exemplo, representa quantas vezes o tons de cinza 2apareceu e seu pixel correspondente foi o tom de cinza 3. O pixel correspondente éespecificado pela direção (ângulo) e distância ( número de pixel vizinhos) (HARALICK;SHANMUGAM; DINSTEIN, 1973). Os resultados são apresentados na Figura 17(c-f),

  • Capítulo 3. Fundamentação teórica 44

    a partir das quatro direções dadas: horizontal (0°), vertical (90°), diagonal direita (45°),diagonal esquerda(135°), como as setas na figura mostram.

    Figura 17 – Geração da Matriz GLCM. (a) Imagem 4X4 com quatro tons de cinza. (b)Forma geral do GLCM com tons de cinza no intervalo 0-3. Os valores con-tido nas células (i,j) e a quantidade de vezes que i e j ocorreram em umdireção específica e determinada distância (número de pixels vizinhos). (c-j) mostra os resultados para cada pixel da imagem de acordo com a direção0°, 45°, 90° e 135°.

    Fonte: (TSO; MATHER, 2009)

    Para evitar o “efeito escalar” a matriz GLCM é comumente normalizada em umintervalo de zero a um (TSO; MATHER, 2009), que pode ser facilmente calculado. Paraisso, é necessário obter o número total de pixels vizinhos emparelhados da matriz edividir cada célula pelo valor obtido (TSO; MATHER, 2009)

    A fórmula para calcular o número de vizinhos emparelhados varia de acordocom a direção. Para direção horizontal e d = 1 (onde d equivale à distância): númerode linhas emparelhadas é igual a 2× (nùmero de coluna − 1), então o número depixels vizinhos emparelhados é igual a 2× (nùmero de coluna − 1) ×(nùmero delinhas). O mesmo princípio segue para a direção vertical. Para diagonal esquerda ediagonal direita (que possuem a mesma fórmula devido a simetria), o número de linhas

  • Capítulo 3. Fundamentação teórica 45

    emparelhadas é igual a 2× (nùmero de coluna −1) com exceção da última linha. Logoo número de vizinhos emparelhados é igual a 2× (nùmero de coluna −1)×(nùmero delinhas) (HARALICK; SHANMUGAM; DINSTEIN, 1973). A tabela 3 abaixo, apresentaas fórmulas para o número de vizinhos emparelhados de acordo com a orientação.

    Tabela 3 – Fórmulas para número de vizinhos emparelhados de acordo com a orienta-ção

    Direção (distância = 1) Número de vizinhos emparelhados (Nc)Horizontal Nc= 2 X (número de coluna -1) X (número de linhas)Vertical Nc= 2 X (número de linha -1) X (número de colunas)Diagonal esquerda Nc= 2 X (número de colunas -1) X (número de linha -1)Diagonal direita Nc= 2 X (número de colunas -1) X (número de linha -1)

    Fonte: (HARALICK; SHANMUGAM; DINSTEIN, 1973)

    No GLCM as características de textura é obtida por um conjunto de mediçõesretiradas a partir da matriz normalizada. Abaixo a descrição de algumas equaçõesutilizadas para definir essas medições.

    • Correlação: é a medida da dependência linear dos tons de cinza entre os pixel deuma posição específica. Pixels próximos possuem uma correlação mais próximaque pixels distantes entre si (LIU; YU; GAO, 2015).

    COR =L−1∑i=0

    L−1∑j=0

    (i− µ)(j − µ)p(i, j)σiσj

    (3.25)

    • Entropia: é a medição de textura não uniforme. Quanto menor o valor da entropia,maior a variação entre a região das imagem (DHAWAN, 2008).

    ENT = 1− 1Nc.ln(Nc)

    L−1∑i

    L−1∑j

    P (i, j).ln(P (i, j))δ (3.26)

    onde δ = 1 se P (i, j) ̸= 0 e δ = 0 caso contrário. Nc é número de ocorrências emP.

    • Contraste: mede o valor da diferença entre o valor da intensidade do pixels vizi-nhos (LIU; YU; GAO, 2015).

    CON =1

    Nc(L− 1)2L−1∑k=0

    k2∑

    |i−j|=k

    M(i, j) (3.27)

    • Segundo Momento Angular (ASM): indica o nível de homogeneidade entre astexturas, também representa a energia da imagem. ASM de baixo valor indica

  • Capítulo 3. Fundamentação teórica 46

    uma textura mais distinta (DHAWAN, 2008).

    ASM =L−1∑i

    L−1∑j

    p(i, j)2 (3.28)

    • Homogeneidade local: é a medição que proporciona a similaridade local da ima-gem, utilizando pesos que retorna baixos valores para imagens não homogênea,quando i diferente de j (LIU; YU; GAO, 2015).

    HOM =1

    Nc

    L−1∑i

    L−1∑j

    M(i, j)

    1 + (i− j)2(3.29)

    • Disparidade: essa medição mostra a heterogeneidade dos tons de cinza. Ima-gens com texturas mais grossas retornam altos valores de disparidade (LIU; YU;GAO, 2015).

    DIS =L−1∑i

    L−1∑j

    Abs(i− j)2p(i, j) (3.30)

    3.2.8 Histogram of Oriented Gradients - HOGO descritor HOG baseia-se na ideia de que alguns casos a aparência e a forma

    do objeto local podem ser caracterizadas pela distribuição do gradiente da intensidadelocal ou direções de borda, mesmo sem um conhecimento preciso das posições deinclinação ou borda correspondentes. O método avalia os histogramas locais normali-zados de orientações de gradiente de imagem em uma grade densa (DALAL; TRIGGS,2005).

    Abaixo segue umdos possíveis algoritmos para computar o descritor HOG,men-cionado por Kettle (2014):

    Para proporcionar invariância de iluminação, primeiro é aplicado a uma deter-minada imagem i normalização de intensidade e filtro de suavização. Em seguida omapa de borda é computado, ao estimar as derivadas direcionais no eixo x e y, a deri-vada dos gradientes de magnitude e de ângulo para cada pixel; o que gera um mapade magnitude Im e um mapa de ângulo Ia (Figura 18d).

    Então um grupo de pixels são agrupados sem sobreposição denominados cé-lulas (exemplo janela de 8 × 8 pixels, Figura 18-a,b,c). Os mapas Im e Ia são usadospara armazenar valores de magnitude dentro de compartimentos de orientação (exem-plo compartimentos divididos em n intervalos de t◦ cada, cobrindo uma área de nt◦),comomostrado na Figura 19. Por fim para gerar um descritor as células são agrupadasem grupos de 2 × 2 por exemplo, que são normalizadas e combinadas em um únicobloco (Figura 18-a,b,c). Quando todos os grupos estão combinados em blocos o des-critor HOG está definido (KLETTE, 2014). Em outras palavras, a é calculado a medida

  • Capítulo 3. Fundamentação teórica 47

    Figura 18 – Blocos e células ao calcular o descritor HOG. Os quadrados amarelos naimagem representa os blocos e os vermelhos as células. A movimentaçãodos quadrados amarelo