Técnicas de Computação de Alto Desempenho para o...

Técnicas de Computação de AltoDesempenho para o Processamento e

Análise Eficiente de Imagens Complexas

Carlos Alex S. J. Gulo

Orientador: Prof. Dr. João Manuel R. S. TavaresFaculdade de Engenharia da Universidade do Porto

Co-Orientador: Prof. Dr. Antonio Carlos SementilleUniversidade Estadual Paulista - Brasil

Programa Doutoral em Engenharia Informática

Novembro, 2015

Faculdade de Engenharia da Universidade do Porto

Técnicas de Computação de Alto Desempenhopara o Processamento e Análise Eficiente de

Imagens Complexas

Carlos Alex S. J. Gulo

Proposta de Tese submetida à Faculdade de Engenharia da Universidade do Portocomo requisito parcial para obtenção do grau de

Doutor em Engenharia Informática

Novembro, 2015

Resumo

A evolução constante na velocidade de cálculos dos processadores tem sido uma grandealiada no desenvolvimento de áreas da Ciência que exigem processamento de alto desem-penho. Associados aos recursos computacionais faz-se necessário o emprego de técnicasde computação paralela no intuito de explorar ao máximo a capacidade de processamentoda arquitetura escolhida, bem como, reduzir o tempo de espera no processamento. No en-tanto, o custo financeiro para aquisição deste tipo de hardware não é muito baixo, impli-cando na busca de alternativas para sua utilização. As arquiteturas de processadores mul-ticore e General Purpose Computing on Graphics Processing Unit (GPGPU), tornam-seopções de baixo custo, pois são projetadas para oferecer infraestrutura para o processa-mento de alto desempenho e atender aplicações que requerem resultados de forma muitorápida, em particular em tempo real. Com o aperfeiçoamento das tecnologias multicompu-tador, multiprocessador e GPGPU, a paralelização de técnicas de processamento e análisede imagem tem obtido destaque por viabilizar a redução do tempo de processamento demétodos complexos aplicados em imagens complexas. O objetivo deste projeto de dou-toramento é desenvolver novas técnicas de programação massivamente paralela aplicadasao processamento e análise, de forma eficiente, em particular em tempo real, de imagenscomplexas da cavidade pélvica feminina.

Keywords: Processamento de Alto Desempenho. Processamento e Análise de Ima-gem. Imagem Médica.

i

Abstract

Supported by processors evolution, high-performance computing have contributed todevelopment in several scientific research areas that require advanced computations, suchas image processing, augmented reality, and others. To fully exploit high-performancecomputing available to these resources and to decrease processing time, is necessaryapply parallel computing. However, those resources are expensive, which implies thesearch for alternatives ways to use it. The multicore and manycore processors architecturebecome a low-cost options, as they were designed to provide infrastructure for high-performance computing and attend real-time applications. With the improvements gainedin technologies related to multicomputer, multiprocessor and, more recently, to GPGPUs,the parallelization of computational image processing and image analysis techniques hasgained special prominence by enabling the reduction of the processing time of complexmethods applied in complex images. The main objective of this doctoral project is todevelop new techniques to parallel massively programming applied to the processing andanalysis, efficiently, particularly in real-time, complex images of a female pelvic cavity.

Keywords: High Performance Computing. Image Processing. Medical Image.

ii

Índice

Lista de Figuras iv

Lista de Tabelas v

Lista de Abreviaturas vii

1 Introdução 1

2 Revisão Sistemática de Literatura 32.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Planeamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Execução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4.1 Reconstrução de Imagem . . . . . . . . . . . . . . . . . . . . . . 122.4.2 Segmentação de Imagem . . . . . . . . . . . . . . . . . . . . . . 152.4.3 Registro de Imagem . . . . . . . . . . . . . . . . . . . . . . . . 17

2.5 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Proposta de Tese 223.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.2 Questão de Investigação . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3 Hipótese de Investigação . . . . . . . . . . . . . . . . . . . . . . . . . . 243.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.5 Metodologia Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.6 Plano de Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.7 Grupos de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.8 Periódicos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.9 Conferências de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Considerações Finais 30

Referências 32

iii

Lista de Figuras

2.1 Etapas realizadas na Revisão Sistemática de Literatura. . . . . . . . . . . 42.2 Os 10 termos mais frequentemente encontrados na coleção de artigos. . . 82.3 Arquitetura do modelo de classificação, seriação e recomendação de

artigos [13]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.4 Evolução na quantidade de produção científica envolvendo

Processamento e Análise de Imagem Médica (PAIM) acelerado porHigh Performance Computing (HPC). . . . . . . . . . . . . . . . . . . . 20

2.5 Principais periódicos interessados em pesquisas relacionadas à PAIM eHPC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

iv

Lista de Tabelas

2.1 Expressões de busca utilizadas nos repositórios eletrônicos selecionados. . 62.2 Pesquisas realizadas em processamento e análise de imagem médica

usando computação de alto desempenho. . . . . . . . . . . . . . . . . . . 11

3.1 Cronograma de Atividades. . . . . . . . . . . . . . . . . . . . . . . . . . 263.2 Periódicos relacionados aos temas de pesquisa. . . . . . . . . . . . . . . 283.3 Conferências de Interesse. . . . . . . . . . . . . . . . . . . . . . . . . . 29

v

Lista de Abreviaturas

API Application Programming Interface

AVX Advanced Vector Extensions

CBEA Cell Broadband Engine Architecture

CPU Central Processing Unit

CT Tomografia Computadorizada

CUDA Compute Unified Device Architecture

CWS Cluster Web Services

DIRECT DIviding RECTangles

EM Expectation-Maximization

FDK Feldkamp, Davis and Kress

FNAC Fine Needle Aspiration Cytology

fMRI Imagem por Ressônancia Magnética funcional

FPGA Field-Programmable Gate Array

GPGPU General Purpose Computing on Graphics Processing Unit

GPU Graphics Processing Unit

HPC High Performance Computing

ITK Insight Segmentation and Registration Toolkit

LBM Lattice Boltzmann

MAP Maximum A Posteriori

MDS Multi-Direcional Search

vi

Lista de Abreviaturas vii

MI Mutual Information

MIMD Multiple Instruction, Multiple Data Stream

ML Maximum Likelihood

MPI Message Passing Interface

MPP Massively Parallel Processor

MRI Imagem por Ressonância Magnética

MRE Elastografia por Ressonância Magnética

OMT Optimal Mass Transport

OpenCL Open Computing Language

OpenCV Open Source Computer Vision

OpenMP Open Multi-Processing

PAIM Processamento e Análise de Imagem Médica

PASA Parallel Adaptive Simulated Annealing

PC Personal Computer

PCNN Pulse Coupling Neural Network

PET Tomografia por Emissão de Positrões

RBF Função de Base Radial

RISC Reduced Instruction Set Computing

RSL Revisão Sistemática de Literatura

SIMD Single Instruction, Multiple Data Stream

SIMT Single Instruction, Multiple Thread

SMP Symmetric Multiprocessor

SPECT Tomografia Computadorizada por Emissão de Fóton Único

SPMD Single Program Multiple Data Stream

SSE Streaming SIMD Extensions

TF-IDF Term Frequency - Inverse Document Frequency

USCT Tomografia Computadorizada de Ultrassom 3D

Capı́tulo 1Introdução

Ao longo da história da Computação, o avanço da capacidade de processamento esteveligado diretamente ao aumento na velocidade de cálculo dos processadores. Tradicional-mente, a indústria tem aumentado a velocidade de cálculo inserindo um maior número detransístores nos processadores [1]. Esta abordagem tem enfrentado dificuldades devidoàs limitações físicas do silício, principalmente, pelo excesso de consumo de energia eaquecimento dos processadores [2].

Nos últimos anos, no entanto, os avanços nesta área seguiram outra direção, sendopopulares atualmente as arquiteturas multicore de uso geral e as General Purpose Com-

puting on Graphics Processing Units (GPGPUs). A indústria de processadores passou aoferecer chips com vários núcleos compondo o processador. Estes processadores baseadosna arquitetura multicore de uso geral, oferecem recursos de paralelismo, proporcionandoganho de desempenho e processamento mais rápido [2].

A procura por processamento de alto desempenho, em geral, tem sido atendida porequipamentos ou sistemas computacionais de custo elevado. Diante da popularização dasGraphics Processing Units (GPUs) e a aplicação de técnicas consolidadas de programa-ção paralela, diversas áreas de pesquisa como a computação científica [3], o processa-mento e a análise de imagem [4, 5], e muitas outras, podem conquistar avanços aindamais significativos, sem a necessidade de grandes investimentos financeiros.

Dentre as áreas mencionadas anteriormente, a área de processamento e análise de ima-gem médica [6, 5, 7, 8, 9, 10, 11] tem contribuído bastante com o avanço da medicina,incorporando técnicas e metodologias para auxílio em diagnósticos clínicos, no segui-mento de patologias e na definição de melhores planos de reabilitação. O diagnóstico,na maioria das vezes, é realizado a partir de imagens adquiridas por dispositivos de ima-giologia, como: raio X, microscopia, Tomografia Computadorizada (CT), Imagem porRessonância Magnética (MRI), Imagem por Ressônancia Magnética funcional (fMRI),

1

Introdução 2

Elastografia por Ressonância Magnética (MRE), Tomografia por Emissão de Positrões(PET), Tomografia Computadorizada por Emissão de Fóton Único (SPECT), Fine Needle

Aspiration Cytology (FNAC) e Tomografia Computadorizada de Ultrassom 3D (USCT).Contudo, para obter diagnósticos mais consistentes e precisos, bem como realizar o seuestudo em tempo real, é necessário combinar técnicas computacionais de processamentoe análise de imagem [6, 5, 7] e High Performance Computing (HPC) [8, 9, 10, 11]:

1. Processamento e análise de imagem: para realizar redução de ruído e imperfeiçõesque dificultem a identificação da informação de interesse, realçar dados importan-tes, permitir a extração de características de interesse, reconhecimento e interpreta-ção de variáveis de interesse [6, 5, 7];

2. Computação de Alto Desempenho: obter métodos computacionais mais robus-tos, efetivos e de execução rápida e eficiente, explorando técnicas de computa-ção paralela para utilizar o máximo desempenho disponível na arquitetura empre-gada [8, 9, 10, 11].

A presente proposta visa desenvolver, aplicar e testar novas técnicas de pré-processamento, realce e segmentação de imagem médica acelerados por arquitetura mas-sivamente paralela, levando em consideração os elevados requisitos computacionais e res-trições temporais normalmente existentes neste domínio.

A presente Proposta de Tese está organizada em quatro capítulos, incluindo o presenteCapítulo de introdução:

• Capítulo 2 - Revisão Sistemática, apresenta a descrição dos procedimentos rea-lizados na revisão sistemática de literatura, demonstra a utilização de técnicas demachine learning aplicadas na validação da seleção de artigos, apresenta uma dis-cussão acerca das principais investigações relacionadas com a presente proposta.

• Capítulo 3 - Proposta de Tese, são apresentadas a motivação, a questão e hipó-tese de investigação, os objetivos, a metodologia de investigação, além da descriçãodetalhada do plano de trabalho previsto para a realização do doutoramento. Incluitambém uma lista com os grupos de investigação interessados em técnicas de pro-cessamento e análise de imagem médica combinadas com estratégias de computa-ção de alto desempenho, e as revistas e conferências de interesse para submissão deartigos.

• Capítulo 4 - Considerações finais, aponta as principais implicações da presenteproposta e o direcionamento das próximas etapas da investigação.

Capı́tulo 2Revisão Sistemática de Literatura

O desenvolvimento de soluções computacionais capazes de realizar o Processamentoe Análise de Imagem Médica (PAIM), de maneira geral, tem contribuído no avançoda medicina. O número de pesquisas nesta área tem aumentado consideravelmente nosúltimos anos, inclusive em razão da disponibilidade de recursos computacionais maisrápidos e de baixo custo, como é o caso dos processadores manycores e multicores

. O presente capítulo descreve os procedimentos para realizar a revisão sistemática deliteratura - complementados por métodos de aprendizagem computacional e extração deconhecimento [12, 13] - com o objetivo de identificar sistemas de processamento e análisede imagem médica acelerados por computação de alto desempenho.

2.1 Introdução

O processo de revisão de literatura é uma das etapas mais importantes na pesquisacientífica, tem como objetivo validar o estado da arte em uma área de domínio e consistena descrição de trabalhos publicados considerados relevantes numa determinada área ouassunto de interesse. Existem diferentes formas de realizar a revisão de literatura [14],como por exemplo a revisão de literatura tradicional e a revisão sistemática de literatura.Uma revisão de literatura, é considerada tradicional quando o objetivo desta revisãoé realizar um levantamento sobre pesquisadores, teorias e hipóteses, bem como novasmetodologias utilizadas na resolução de problemas de pesquisa [15]. Normalmente, estasinformações são concentradas na forma de relatório ou capítulo de tese.

A Revisão Sistemática de Literatura (RSL), consiste em um conjunto de procedimen-tos que permite analisar sistematicamente a literatura de interesse, e assim identificar,avaliar e interpretar o resultado das pesquisas mais relevantes na área de interesse. Adescrição destes procedimentos deve permitir que outros pesquisadores possam reprodu-

3

Revisão Sistemática de Literatura 4

zir objetivamente a revisão de literatura e obter, basicamente, o mesmo resultado. Alémdisso, uma revisão de literatura permite identificar problemas de pesquisas e desafios emaberto. A RSL é composta pelas etapas de: a) Planeamento, b) Execução e c) Resultados.Este tipo de revisão não requer que sua execução seja realizada apenas uma vez, destamaneira, as etapas podem ser revisadas, refinadas e ajustadas, mesmo com a revisão emandamento. Cada uma das etapas apresentadas na Figura 2.1 e contidas no presente pro-cesso de RSL, foram baseadas no guia “A guide to conducting a systematic literaturereview of information systems research”, escrito por Okoli and Schabram [14], e serãodescritas nas seções seguintes.

Figura 2.1: Etapas realizadas na Revisão Sistemática de Literatura.

2.2 Planeamento

A presente RSL tem como objetivo identificar na literatura científica especializada osprincipais métodos de processamento e análise de imagem médica acelerados por métodosde computação de alto desempenho. A partir da definição do objetivo é necessáriodefinir as questões de pesquisa, pois implicam na principal atividade do processo derevisão como um todo. São as questões de pesquisa que direcionam os procedimentosde extração e síntese de informação da literatura identificada, bem como possui granderelevância na delimitação do escopo da pesquisa [15]. Inicialmente, a questão de pesquisadefinida foi: Quais são as principais estratégias e plataformas de computação de altodesempenho aplicadas em processamento e análise de imagem médica? A partir deste

2.2 Planeamento 5

questionamento, surgiram outras questões para complementar a qualidade final destarevisão:

a) Qual a modalidade de imagiologia utilizada?b) Qual a tarefa de processamento e análise de imagem médica foi adotada/desenvol-

vida?c) Qual parte do corpo/objeto foi analisada?d) A solução proposta é capaz de realizar o diagnóstico automaticamente?e) Qual arquitetura computacional foi adotada/desenvolvida?f ) Qual estratégia de HPC foi adotada/desenvolvida?g) A abordagem proposta é capaz de realizar o processamento em tempo real?h) Qual o tipo de licença do sistema?A fase seguinte consiste em definir o Protocolo que estabelece os critérios de seleção,

inclusão e exclusão de literatura no processo de RSL. O Protocolo deve ser utilizado norestante do processo de revisão. Talvez o procedimento mais importante para realizaçãode uma revisão sistemática consistente seja a elaboração de um protocolo de pesquisapara definir os seguintes itens: estratégias adotadas para encontrar as publicaçãoes deinteresse, definir critérios de seleção, inclusão e exclusão de publicações, definir o tipode informação mais relevante para extrair da literatura analisada, verificar e analisar aacurácia dos resultados, e determinar a qualidade dos estudos. Contudo, as publicaçõesdevem ser analisadas individualmente para identificar se atendem aos critérios de seleção,inclusão e exclusão de literatura. Os critérios de seleção estabelecidos para a presenterevisão foram:

a) Domínio de Aplicaçãoa) Processamento e Análise de Imagem médica; eb) Computação de Alto Desempenho.

b) Métodosa) Métodos de processamento e análise de imagem médica acelerados por Méto-

dos de computação de alto desempenho.c) Métricas

a) Acurácia dos métodos de processamento e análise de imagem médica; eb) Desempenho em tempo de processamento (speed-up).

A partir da definição dos critérios de seleção, foram estabelecidos os critérios paraexcluir do processo de revisão as publicações que:

a) estiverem em duplicidade, selecionadas por motores de busca distintos;b) possuírem menos de 4 páginas;c) não identificarem a modalidade de imagem médica;d) não informarem o(s) método(s) utilizado(s) para o processamento e análise de


imagem;e) não informarem a métrica utilizada para classificar o desempenho obtido com o

modelo de paralelização adotado;f ) não atenderem às questões de pesquisa.Não foram definidos critérios de inclusão, pois foi considerado que as publicações

que não atenderem aos critérios de exclusão, automaticamente devem ser analisadas esubmetidas para a fase de extração de dados. Em seguida, devem ser definidas as palavras-chave, motores de busca, e até o idioma utilizado para redigir a literatura de interesse.Na etapa seguinte, ficou estabelecido que a identificação das publicações deve levar emconsideração apenas textos escritos em língua inglesa, visto que abrange o maior númerode produções científicas na área da ciência da computação e engenharia. As palavras-chave: medical image, high performance computing, parallel programming, parallel

computing foram utilizadas nos motores de busca dos principais repositórios de produçãocienífica da áreas de computação e engenharia: ACM Portal 1, Engineering Village 2,IEEE Xplore 3, ScienceDirect 4, Web of Science 5 .

As publicações selecionadas pelos motores de busca, de maneira geral, são resultantesde ocorrências das palavras-chave presentes nos campos keywords, título e abstract decada artigo científico. A Tabela 2.1, indica o número total de publicações obtidas combase na busca nos respectivos repositórios eletrônicos, e descreve exatamente a expressãode caracteres otimizada em cada consulta:

Tabela 2.1: Expressões de busca utilizadas nos repositórios eletrônicos selecionados.

Repositórios Eletrônicos Expressão No. de Artigos

ACM Portal (“medical image”) and (“high performance computing” or “parallel computing” or “parallel programming”) and(PublishedAs:journal) and (FtFlag:yes) and (AbstractFlag:yes)

28

Engineering Village (((((medical imag*) WN KY) AND ((high NEAR/0 performance NEAR/0 comput*) WN KY)) AND ((parallel NEAR/0comput*) WN KY)) AND ((parallel NEAR/0 programm*) WN KY)), Journal article only, English only

22

IEEE Xplore (((medical imag*) AND ((“high performance comput*” OR “parallel programm*”) OR “parallel comput*”) )) 68

ScienceDirect “medical image” AND (“high performance computing” OR “parallel computing” OR “parallel program-ming”)[Journals(Computer Science,Engineering)]

409

Web of Science Combinação de queries 72

Total 599

A busca realizada no repositório da Web Of Science foi ajustada, assim como nos de-mais repositórios, para localizar os trabalhos relacionados com cada palavra-chave sepa-radamente: a) “medical imag*”, b) “textithigh performance comput*”, c) “parallel com-

put*”, d) “parallel programm*”. Em seguida, as buscas a), b), e), e d) foram combinadas1http://dl.acm.org/2http://www.engineeringvillage.com/3http://ieeexplore.ieee.org4http://www.sciencedirect.com5http://apps.webofknowledge.com

http://dl.acm.org/

http://www.engineeringvillage.com/

http://ieeexplore.ieee.org

http://www.sciencedirect.com

http://apps.webofknowledge.com

2.3 Execução 7

utilizando os operadores lógicos OR e AND para permitir implementar a mesma consultarealizada nos demais repositórios. As três últimas buscas foram concatenadas com o ope-rador lógico OR resultando na busca f). Por fim, o resultado da busca f) foi interseccionadocom a busca a) com o operador AND resultando na busca final dos trabalhos.

O Protocolo descrito até aqui, foi aplicado no período de março a agosto de 2015.Nesta etapa, primeiramente foram aplicados os critérios de seleção ao título, keywords

e abstract, sistematicamente para cada repositório eletrônico, resultando em 599 artigoscientíficos. Contudo, como pode ser observado na Tabela 2.1, a busca resulta num númerode artigos relativamente alto, tornando a fase de Avaliação das publicações praticamenteinviável para concluir num curto espaço de tempo, além disso não é possível garantir quetodos os artigos encontrados são relevantes para o tema em estudo. Por fim, o resultado dafase de Avaliação dos artigos pode não responder as perguntas de pesquisa definidas naetapa de Planeamento, descrita na seção 2.2. As palavras-chave “image processing”, nãoforam utilizadas no processo de busca de artigos, pois foram consideradas muito genéricaspara o tema de interesse, visto que adotamos “medical imag*” como termo principal parabusca de trabalhos envolvendo PAIM.

Para minimizar estas dificuldades, foi desenvolvido um sistema baseado em aprendi-zagem computacional capaz de classificar, ranquear e recomendar os artigos científicos demaior relevância para o tema de interesse no presente estudo. Este modelo computacionalfoi adotado com o objetivo de validar a escolha dos artigos selecionados na Tabela 2.1. Naseção seguinte, apresenta-se a descrição sobre os procedimentos realizados manualmentena fase de Execução da RSL, além de incluir uma breve descrição do modelo e do cenárioadotado para executar a classificação, recomendação e ranqueamento dos artigos.

2.3 Execução

A infraestrutura utilizada para realizar os experimentos, construir o modelo, analisar aaplicação do algoritmo desenvolvido e ilustar os resultados obtidos, foi composta pelaplataforma Rapidminer Predictive Analytics, disponível para download no website6, exe-cutados no computador portátil equipado com processador Intel(R) Core(TM) i72630QM2.0 GHz, 8GB de RAM (DD3 1333 MHz) e sistema operativo Linux Debian Jessie (64bits).

Os dados utilizados nos experimentos, resultantes das buscas realizadas nos reposi-tórios listados na Tabela 2.1, foram compostos por 575 registros (após a remoção de 24publicações duplicadas, encontradas em diferentes repositórios de busca) e 4 variáveis

6https://rapidminer.com/ - ambiente visual para análise preditiva, possui interface gráfica simplese intuitiva, além de permitir a construção de modelos e predições sem a necessidade de programação

https://rapidminer.com/


(id, Título, Abstract e Prioridade). A variável de maior interesse, o Abstract, é do tipotexto. Texto é um tipo de dado não estruturado, neste caso, cada registro contém um textocientífico de comprimento variável, palavras escritas na forma singular e plural, carac-teres alfanuméricos, além do tipo de conteúdo indefinido, com isso, é necessário aplicartécnicas de mineração de texto como maneira de pré-processar e estruturar os dados.Os registros foram submetidos a um pré-processamento: remoção de espaços em brancoe pontuação, mudança de todos os caracteres para minúsculos, substituição de sinôni-mos, plural e outras variações das palavras por um termo único, redução de palavras paraseu radical semântico, remoção de palavras comuns (por exemplo, preposições, artigosdefinidos, artigos indefinidos, entre outras) e com isso, criar uma matriz com os dadosestruturados, sendo cada palavra uma variável com um valor numérico para cada artigo.

A matriz resultante, é então submetida ao método estatístico para seleção de caracte-rísticas Term Frequency - Inverse Document Frequency (TF-IDF) [12], e com isso, aplica-se a abordagem baseada em dicionários para criar o mecanismo de seriação e obter apontuação de relevância (R) para cada artigo. A pontuação é calculada pela Equação 2.1,onde um artigo é considerado mais relevante de acordo com sua prioridade (prio) (1, 2 or3) e o percentual de termos mais relevantes presentes no abstract.

R = (α∗ 1prio

)∗ (wordsinwordlisttotalwords

), (2.1)

sendo wordinwordlist a frequência de palavras em todos os artigos, e totalwords onúmero de palavras na coleção de artigos. O resultado, ilustrado na Figura 2.2, é umamatriz com o radical das palavras mais relevantes presentes na coleção de artigos.

imag

algo

rithm data

model

parallel

comput

medic

impl

emen

t

time

use

Figura 2.2: Os 10 termos mais frequentemente encontrados na coleção de artigos.

2.3 Execução 9

A coleção de artigos foi classificada previamente por um especialista humano, comdomínio de conhecimento na área de interesse - processamento e análise de imagemmédica acelerados por computação de alto desempenho. Cada um dos 575 artigos foianalisado e classificado em prioridades, respeitando dois principais critérios: relevânciado artigo e adequação ao domínio de conhecimento. A análise consistiu em classificar osartigos em três classes de prioridades:

• Prio1: Artigos que são muito relevantes e adequados ao tema de interesse;

• Prio2: Artigos que não são muito relevantes mas ainda considerados adequados aotema de interesse;

• Prio3: Artigos que podem ser interessantes para um novo tema pesquisa, mas nãosão adequados ao tema de interesse em estudo.

O algoritmo selecionado para realizar a classificação foi o Naïve Bayes, apesar de nãoser considerado o mais preciso, por outro lado, é considerado o mais simples e fácil deutilizar e configurar [13]. O modelo com o algoritmo Naïve Bayes foi treinado utilizandoos dados classificados pelo especialista humano, e os testes foram realizados utilizandoos mesmos dados, contudo, sem a informação de interesse.

O conjunto de palavras mais frequentes foi utilizado como dicionário de termospara construir o modelo de seriação, em seguida serviu como dado de entrada para otreinamento do algoritmo de classificação Naïve Bayes, como pode ser observado naFigura 2.3. O modelo de seriação poderá ser utilizado como um sistema de recomendaçãoautomático durante as próximas etapas de atualização da revisão de literatura.

O modelo foi capaz de obter resultados consistentes, com 98.22% de exatidão, apesarde ser uma abordagem inicial, apresentou boas recomendações de artigos científicosbaseados na coleção de artigos. A validação de desempenho do modelo proposto foirealizada com base em K Fold Cross Validation. Por fim, para obter maiores informaçõessobre modelo descrito, consultar Gulo and Rúbio [12], Gulo et al. [13].


Literature Repositories

Search Keywords

Classifier Model

Training Set of Publications

Manually Classified Dataset

Ranking Model

Test Set of Publications

Automatic Classified Dataset

Ranked Dataset

Wordlist

Figura 2.3: Arquitetura do modelo de classificação, seriação e recomendação de artigos [13].

2.4 Resultados

A etapa de Avaliação das publicações levou em consideração analisar as seções quedescrevem a metodologia, os resultados e as conclusões de cada artigo selecionado. Porfim, após a conclusão da fase de avaliação, cada artigo foi analisado novamente, destavez, na íntegra. Durante a análise completa, foi realizada a fase de extração dos dadosde interesse. A fase de extração dos dados, consiste em oferecer suporte para a análisee síntese das informações coletadas nas publicações, para responder, ou não, as questõesde pesquisa. Para elaborar a presente Revisão Sistemática de Literatura, foram avaliadasdetalhadamente 56 publicações, sendo 23 artigos removidos por critérios de exclusãodefinidos na etapa de Planeamento 2.2, restando 33 artigos para análise e extração dedados.

A Tabela 2.2 apresenta uma síntese sobre os 33 artigos analisados, incluindo asinformações de interesse para o tema em estudo, e em seguida, apresentamos detalhessobre os principais métodos de HPC aplicados em PAIM. Os dados presentes na Tabela2.2 estão classificados em ordem cronológica ascendente da publicação e respondem cadauma das questões apresentadas na seção 2.2.

2.4R

esultados11

Tabela 2.2: Pesquisas realizadas em processamento e análise de imagem médica usando computação de alto desempenho.

PesquisadoresModalidade(s) Imagi-ologica(s)

Tarefas Corpos/Objetos analisados Diagnóstico automático Arquitetura ParalelasEstratégias de Parale-lização

real-time speed-upopensource

Miller and Butler, 1993 CT, SPECT reconstrução cérebro - MPP SIMD - 64x -Kerr and Bartlett, 1995 CT, SPECT reconstrução coração - MPP SIMD - 71-139x -

Higgins and Swift, 1997 CT reconstrução artéria carótidaanálise automática, redução de ruí-dos, extração de dados

MPP SIMD - 5x -

Formiconi et al., 1997 CT, SPECT reconstrução cérebro - MPP MIMD - 135x -Christensen, 1998 CT registro crânio facial - MPP e Cluster SIMD e MIMD - 4x -Daggett and Greenshields, 1998 MRI classificação bexiga e uretra - Cluster SPMD - 6x -

Warfield et al., 1998 CT, MRI registro cérebroanálise e diagnóstico automática(escleróse múltipla e esquizofrenia)

Cluster MIMD - 15x -

Rohlfing and Maurer, 2003 MRI, Microscópio registro cérebro e seios - MPP MIMD - 50x -Wachowiak and Peters, 2004, 2006 MRI registro cérebro e coração - Cluster MIMD - 5x -Doyley et al., 2004 MRE reconstrução seios - Cluster MIMD - 3x -Salomon et al., 2005 MRI registro cérebro Cluster MIMD - 10xDandekar and Shekhar, 2007 CT, PET registro abdominal - FPGA SIMD - 30x -Yeh and Fu, 2007 fMRI classificação cérebro sim Cluster MIMD - 2x -Kumar et al., 2008 Microscópio reconstrução seios - Cluster MIMD - 2x -Rehman et al., 2009 MRI registro cérebro - GPU SIMD - 965x -Rohrer and Gong, 2009 CT, MRI registro abdominal - CBEA SIMD e MIMD sim 13x -Zhuge et al., 2009, 2011 CT, MRI segmentação cabeça, torso - GPU SIMD sim 18x -Shams et al., 2010 CT, MRI, PET registro cérebro - GPU SIMD sim 50x sim7

Gabriel et al., 2010 FNAC segmentação tireóide sim Cluster e multicore MIMD e SIMD - 2x -Lapeer et al., 2010 CT, MRI registro cabeça - GPU SIMD - 2-10x -Zhu and Cochoff, 2010 CT, PET registro pulmão - multicore SPMD - 2-10x -Murphy et al., 2012 MRI reconstrução torso - GPU e multicore SIMD - 40x sim8

Shi et al., 2012 CT, MRIsegmentação e recons-trução

cabeça, seios, artéria carótida - GPU e multicore SIMD sim 40x sim

Domanski et al., 2013 CT reconstrução cérebro -Cloud computing, GPUe multicore

SIMD - 7-9x 9 -

Treibig et al., 2013 CT, raio-X reconstrução coelho - multicore SIMD - 2-6x -Balla-Arabé and Gao, 2014 MRI segmentação seios - GPU SIMD - 2-6x -Birk et al., 2014 3D UCT reconstrução seios - GPU e multicore MIMD sim 25x -Blas et al., 2014 CT reconstrução ratos - GPU e multicore SIMD - 2x -Mafi and Sirouspour, 2014 MRI reconstrução estômago - GPU SIMD sim 28x -Meng, 2014 CT registro tórax - GPU SIMD - 255x -Wei et al., 2014 MRI reconstrução olhos - GPU SIMD - 100x -

7http://users.cecs.anu.edu.au/~ramtin/cuda.htm8http://www.eecs.berkeley.edu/~mlustig/Software.html9200x na etapa de backprojection: comparação entre implementações em GPU e CPU

http://users.cecs.anu.edu.au/~ramtin/cuda.htm

http://www.eecs.berkeley.edu/~mlustig/Software.html


O uso de imagens na medicina permite a extração de informação que pode ser apli-cada no planeamento, tratamento e seguimento de patologias [18, 22, 29, 4]. O diag-nóstico, na maioria das vezes, é realizado a partir de imagens adquiridas por disposi-tivos de imagiologia, como: raio X, Microscópio, Tomografia Computadorizada (CT),Imagem por Ressonância Magnética (MRI), Imagem por Ressônancia Magnética funci-onal (fMRI), Elastografia por Ressonância Magnética (MRE), Tomografia por Emissãode Positrões (PET), Tomografia Computadorizada por Emissão de Fóton Único (SPECT),Fine Needle Aspiration Cytology (FNAC) e Tomografia Computadorizada de Ultrassom3D (USCT). Contudo, a extração de informação de imagens médicas é um procedimentocomplexo e requer sistemas computacionais avançados, capazes de processar e obter di-agnósticos precisos e com tempo de processamento reduzido.

As pesquisas analisadas na presente revisão de literatura concentraram os seus es-forços nas diferentes etapas do processamento e análise de imagem. Na primeira etapa,uma imagem é adquirida por um dispositivo, e posteriormente reconstruída. Em seguida,podem ser aplicadas técnicas de processamento: técnicas de filtros digitais para atenuarruídos e realçar contornos; operadores de gradientes para detecção de orlas de intensi-dade; segmentação de imagem para extrair regiões de interesse; registro de imagens paraexecutar o alinhamento de imagens relacionadas; reconstrução de volume; extração decaracterísticas; análise de formas; dentre outras. Nesta seção, apresentamos os principaismétodos de Processamento e Análise de Imagem Médica (PAIM) considerados nos traba-lhos encontrados na revisão de literatura efectuada.

2.4.1 Reconstrução de Imagem

Basicamente, a maioria das técnicas de imagiologia utilizam projeção de energia a partirdo espaço 3D para um espaço bidimensional - dispositivo de aquisição. Em aplicações deMRI ou CT, por exemplo, um conjunto de imagens adquiridas é utilizado na reconstrução3D de imagens complexas.

O foco da pesquisa desenvolvida por Miller and Butler [16] foi na implementaçãodos métodos Maximum A Posteriori (MAP) e Maximum Likelihood (ML) para recons-trução tridimensional completa de imagens de tomografia computadorizada acelerada porprocessadores massivamente paralelos. O algoritmo iterativo Expectation-Maximization

(EM), utilizado para gerar as estimativas ML e MAP em SPECT10, é considerado deelevado custo computacional [16]. A implementação paralelizada em computador massi-

10SPECT é uma técnica de tomografia a qual resulta uma distribuição espacial de rastreadores radioativosinjetados no corpo do paciente com o objetivo de inspecionar funções fisiológicas e, eventualmente, detectarestados patológicos [19]

2.4 Resultados 13

vamente paralelo (DECmpp-SX 128x128 processadores) alcançou o speed-up de 64x, foielaborado utilizando o modelo de paralelização Single Instruction, Multiple Data Stream

(SIMD) entretanto, não apresentou escalabilidade linear. Os resultados foram compa-rados com implementações otimizadas em arquitetura Reduced Instruction Set Compu-

ting (RISC) (64x64 processadores). Formiconi et al. [19] também apresentaram a im-plementação do algoritmo iterativo EM, contudo, combinado com ML para reconstruçãode dados SPECT. Entretanto, utilizaram o modelo de paralelização Multiple Instruction,

Multiple Data Stream (MIMD) em interface web, que permite realizar o processamentode imagens remotamente num computador massivamente paralelo - Cray T3D.

Computadores massivamente paralelos foram adotados por Kerr and Bartlett [17]para simulação e treino rápido de redes neurais artificiais multicamadas, com o objetivode realizar a reconstrução e compressão de imagens SPECT. Neste trabalho, a compa-ração de desempenho foi realizada entre a versão paralela (SIMD) e sequencial, sendoobtido speed-up de até 139x em favor da implementação paralela. Outra pesquisa envol-vendo esta arquitetura de computadores paralelos foi apresentada no trabalho de Higginsand Swift [18], que estabeleceram uma nova terminologia para a época para descrevera combinação de dispositivos de comunicação e processamento envolvendo arquiteturasheteronêneas - o “metacomputador”. A contribuição foi implementar uma nova arquite-tura paralelizada utilizando o computador paralelo MasPar para coordenar a interação demúltiplas workstations e o processamento massivamente paralelo para o processamentode imagens médicas 3D. A arquitetura paralela foi utilizada em experimentos envolvendotodas etapas de processamento e análise de imagem: pré-processamento, morfologia, ope-ração topológicas, segmentação e manipulação das imagens; e a solução apresentou umdesempenho de processamento até 5x mais rápido do que a solução implementada se-quencialmente.

Kumar et al. [30] apresentaram um middleware baseado em arquitetura de cluster, paraapoiar a execução de um conjunto de técnicas de processamento de imagem divididas emdois principais estágios: tarefas de pré-processamento e tarefas corretivas (transformaçõesgeométricas), resultando em dados pré-processados que podem ser consultados e anali-sados utilizando métodos de análise adicionais. O desempenho obtido nos experimentosfoi de até 2x. A abordagem considerou a paralelização das tarefas utilizando diferentesconfigurações de clusters, combinando paralelismo de dados e de tarefas (MIMD), paraobter uma boa escalabilidade.

A abordagem apresentada por Murphy et al. [36], consiste num método iterativo oti-mizado de aquisição de imagem paralelo auto-consistente (l1-SPIRiT), combinado comsensores compactos para reconstrução em tempo-real, utiliza clusters com GPUs e CPUscomo plataforma de processamento em alto desempenho. Os modelos de paralelismo de


dados, SIMD e Single Instruction, Multiple Thread (SIMT), foram devidamente explora-dos e otimizados com instruções Streaming SIMD Extensions (SSE) e Compute Unified

Device Architecture (CUDA), respectivamente. A abordagem encontra-se disponível paradownload em http://www.eecs.berkeley.edu/~mlustig/Software.html.

Birk et al. [10] utilizaram arquiteturas paralelas com multi-GPUs e multicore, paraacelerar a reconstrução tridimensional de imagens de ultrassom baseada em ray casting.A abordagem foi estendida para identificar um número ideal de GPUs para a reconstruçãode volumes imagem em alta resolução, quando a carga de processamento for superiorà capacidade de processamento de uma GPU. No entanto, a abordagem não foi capazde apresentar a pré-visualização das imagens em alta resolução em tempo real. Osexperimentos levaram em consideração a implementação do método otimizado paraarquitetura multicore e multi-GPUs. Não foram considerados fatores que envolvem acomplexidade das arquiteturas adotadas, nem o custo computacional em relação aoconsumo de energia, e sim, a aceleração do algoritmo TVAL3 em tempo real, combinandoos modelos de paralelização SIMT e SIMD.

Wei et al. [41] também apresentaram um trabalho utilizando a técnica ray tracing, masaplicadas em cenas complexas para representar formas arbitrárias de estruturas oculares.Para isto, utilizaram malhas poligonais e computação paralela em GPU. Os experimentospermitiram realizar simulação de imagens de retina por meio do rastreamento de raios deluz. Diferentemente dos trabalhos apresentados anteriormente, apesar dos autores adota-rem o modelo de paralelização SIMT - característico em arquiteturas massivamente para-lelas de GPUs - a implementação foi realizada com base na linguagem Open Computing

Language (OpenCL).Doyley et al. [26] apresentaram uma abordagem paralelizada para reconstrução parcial

de volumes, utilizando imagens de elastogramas MRE tridimensionais em alta resolução,processadas numa rede computadores. A abordagem desenvolvida utiliza uma combina-ção do método dos elementos finitos e do esquema iterativo de Newton-Raphson. Apesarda abordagem ter sido previamente otimizada, os autores identificaram a necessidade deaplicar técnicas de paralelização para melhorar o desempenho de tarefas de armazena-mento em disco - entrada/saída. O tempo de processamento foi reduzido linearmente,sendo adotada uma arquitetura paralela em cluster e o modelo de programação Message

Passing Interface (MPI).Domanski et al. [37] desenvolveram o framework Cluster Web Services (CWS), capaz

de tirar vantagem das tecnologias massivamente paralelas, cluster de PCs11 e GPUs12.O framework realiza a comunicação entre client (aplicação que executa no computador

1132 Intel Xeon CPU cores126 placas NVIDIA com GPUs Tesla

http://www.eecs.berkeley.edu/~mlustig/Software.html

2.4 Resultados 15

pessoal do usuário) e server (aplicação que executa no cluster remoto), por meio de redeInternet para balanceamento e distribuição da carga de processamento. Apesar do fra-

mework ser capaz de resolver uma ampla variedade de problemas científicos, a principalaplicação foi na reconstrução completa de imagens de tomografia computadorizada. Osmodelos de programação paralela adotados foram OpenCL e MPI, para as arquiteturas deGPU e cluster, respectivamente.

Treibig et al. [5] apresentaram uma abordagem para alcançar o melhor desempenho deuma arquitetura, considerando todos as especificações dos processadores e os efeitos dosdiferentes níveis de otimização. Foram apresentadas várias otimizações de baixo nível ealgoritmos para a estratégia de backprojection a partir de imagens de tomografia compu-tadorizada, executando em processadores multicore. As implementações foram baseadasem instruções SSE e Advanced Vector Extensions (AVX). A abordagem apresentou bonsresultados, sendo o speed-up de até 6x; entretanto, os autores consideram necessário me-lhorar o desempenho da implementação utilizando memória distribuída, além de otimizare analisar a atualização do kernel AVX e incluir o novo coletor de operações AVX2.

Blas et al. [39] demonstraram a implementação e o processo de otimização de per-formance de uma aplicação modular baseada em arquitetura GPU, utilizando o algoritmode reconstrução Feldkamp, Davis and Kress (FDK). Contudo, apesar de realizar a maiorparte da paralelização com base no modelo SIMT, a solução realiza a etapa de decom-posição de projeções com base no modelo SIMD utilizando a linguagem Open Multi-

Processing (OpenMP). Os experimentos foram realizados em diferentes configurações demulti-GPU e diferentes níveis de otimização de código, tendo sido obtido um speedup

2x maior do que a implementação mais rápida apresentada na literatura pesquisada pelosautores.

2.4.2 Segmentação de Imagem

A identificação de objetos ou características a partir de imagens é conhecida comosegmentação em processamento de e análise de imagem. Existem várias abordagenspara segmentação de imagem, como por exemplo, baseadas em limiar, técnicas deagrupamento e modelos deformáveis.

Gabriel et al. [4] implementaram um sistema utilizado para segmentação de imagembaseada em textura - filtro de Gabor, focando células da tireóide. A abordagem exploraaglomerados de computadores com memória distribuída e a arquitetura atual de multicore.O desempenho da abordagem proposta foi obtido a partir da comparação de speed-

up, overhead em comunicação e sistemas de memórias diferentes, e por fim, diferentenúmero de threads, utilizando OpenMP e MPI. Os resultados demonstraram ganho


de desempenho de até 11x, em favor da arquitetura multicore. Entretanto, os autoresconsideram seu sistema completo para realizar diagnóstico médico por computador,apesar da implementação não possuir um módulo de análise de imagem, ou incluir umbanco de imagens e diagósticos conhecidos para comparação.

Zhuge et al. [8] implementaram o método de segmentação semiautomático Fuzzy Con-

nectedness em arquitetura Graphics Processing Unit (GPU). Além disso, implementaramtambém uma versão paralela, robusta e eficiente do algoritmo de caminho ótimo de Dijks-tra, baseada no modelo SIMD. A nova abordagem explora as vantagens da plataformaCUDA, especialmente os recursos da operação atômica de leitura/escrita de dados na me-mória global da GPU.

Shi et al. [9] apresentaram um método de segmentação automática de imagensmédicas baseadas na combinação de uma rede neural Pulse Coupling Neural Network

(PCNN) e entropia bidimensional Tsallis. O modelo apresentou uma adaptabilidadeconsistente e boa precisão na segmentação e reconstrução de imagens de CT e MRI.O método foi paralelizado em arquitetura GPU e é capaz de realizar a renderização dacena virtual em tempo real, especialmente por que os autores otimizaram a combinaçãode sampling e interpolação trilinear para o modelo SIMT.

Balla-Arabé and Gao [38] apresentaram um novo método de level set para segmen-tação de imagens. O método projetou uma entropia seletiva baseada em energia funci-onal contra ruídos, e uma nova força externa de entropia seletiva para o Lattice Boltz-

mann (LBM). Ambos os métodos, Level Set e LBM, foram combinados e implementadosutilizando a arquitetura massivamente paralela de GPU. Entretanto, o problema de altoconsumo de memória, característico no modelo LBM, não permitiu a abordagem pro-posta alcançar o processamento em tempo real para a segmentação de volumes de ima-gens. Com isso, os autores pretendem estender a abordagem para ambientes com cluster

de GPUs.No trabalho de Yeh and Fu [29], foi apresentada uma abordagem nomeada Parallel

Adaptive Simulated Annealing (PASA), que foi baseada no método analítico de similari-dade Jaccard para localizar e avaliar a área de interesse em imagens de MRI do cérebrohumano. A abordagem é capaz de realizar, automaticamente, o diagnóstico clínico com-plementar de patologias como esquizofrenia e escleróse múltipla utilizando o modelo deprogramação paralela de troca de mensagens - MPI e decomposição de dados - Single Pro-

gram Multiple Data Stream (SPMD). Já no trabalho de Daggett and Greenshields [21], foiconsiderada a paralelização do algoritmo de classificação MRF-Gibbs (Markov Randon

Field) utilizando imagens de ressonância magnética da bexiga e uretra, para apresen-tar uma técnica que soluciona problemas de comunicação inter-processos. Basicamente,permite-se aos processos comunicação direta, compartilhar os dados como se estivessem

2.4 Resultados 17

armazenados num espaço de memória compartilhada, utilizando a técnica de memóriavirtual compartilhada. A principal ideia foi segmentar as imagens anatômicas a partir dosdados de teste, e assim os problemas anatômicos quantitativos e modelos geométricoscomputacionais puderam ser construídos a partir dos dados de teste. Os experimentos fo-ram realizados num cluster de computadores13, e o desempenho obtido, considerando ocusto de comunicação sequencial, foi cerca de 6x mais rápido em relação à abordagemimplementada em arquitetura sequencial nomeada Paradise14.

2.4.3 Registro de Imagem

O registro de imagens é uma das tarefas de análise de imagem mais comuns envolvendoimagens médicas. O registro, ou alinhamento de imagens, consiste no processo que es-tabelece um quadro de referência geométrica comum entre dois ou mais conjuntos deimagens, e é um processamento necessário para comparar ou integrar imagens obtidas emmomentos diferentes, de amostras diferentes ou a partir de diferentes sensores de aqui-sição de imagem [23, 31]. O registro de imagem médica concentra-se em abordagensbaseadas em transformações geométricas, estratégias de otimização e medidas de simila-ridade.

O algoritmo de registro deformável baseado em Mutual Information (MI) é consi-derado por Dandekar and Shekhar [28] muito promissor, especialmente para corrigir odesalinhamento entre múltiplas “fatias” (slices) de imagens de tomografia computadori-zada. A medida de semelhança é calculada diretamente a partir de valores de intensidadedos pixels de cada imagem a alinhar, além de apresentar exatidão comparável à de es-pecialistas [28]. [22]. Para obter a performance em tempo de processamento compatívelcom aplicações clínicas, algoritmos baseados em MI vem sendo paralelizado em clus-

ters de computadores [20], arquitetura GPU [6, 40], multicore Cell Broadband Engine

Architecture (CBEA) [32] e Field-Programmable Gate Array (FPGA) [28].Rohrer and Gong [32] e Shams et al. [6] foram capazes de alcançar o desempenho

de processamento em tempo real. Rohrer and Gong [32] combinaram a técnica de multi-resolução e medida de semelhança MI. A contribuição deste trabalho foi a utilização deprocessadores multicore heterogêneos da arquitetura CBEA. Na abordagem implemen-tada em arquitetura GPU, Shams et al. [6] apresentaram uma nova solução para cálculode histograma utilizando um algoritmo para contar e ordenar critérios pré-determinados.Para realizar o registro de imagem 3D em tempo real, estes autores combinaram ainda

138 Personal Computer (PC) Pentium 166 MHz, 32MB de memória RAM14Paradise - Scientific Computing, New Haven, CT, é um pacote baseado em comunicação de memória

virtual compartilhada que oferece uma Application Programming Interface (API), considerada muito fácilde manipular [21]


o algoritmo de registro MI nos experimentos bem sucedidos utilizando imagens de CT,PET e MRI.

Warfield et al. [22] apresentaram um novo algoritmo para calcular a transformação queminimiza o desalinhamento de tecidos correspondentes. O registro foi dividido em duasetapas, sendo a primeira identificar as características nas imagens para alinhamento, e emseguida, calcular a transformação destas características para o alinhamento. Cada umadas etapas é calculada em paralelo num cluster multicore e a estratégia de paralelizaçãoadotada foi baseada em SIMD e linguagem MPI.

Wachowiak and Peters [25] apresentaram dois novos métodos para otimizar umamétrica de similaridade, a qual é componente essencial no registro de imagens médicasbaseado em intensidade. A paralelização do método local de busca multidirecional Multi-

Direcional Search (MDS) e do método global DIviding RECTangles (DIRECT) foirealizada na arquitetura de cluster. O desempenho obtido nos experimentos alcançou umspeed-up até 5x comparando diferentes versões dos algoritmos processados em cluster

com 8 e 12 computadores.Rohlfing and Maurer [23] resolveram problemas de alto custo computacional para

aplicações clínicas de registro de imagens não-rígidas, apresentando uma abordagembaseada em processador massivamente paralelo Massively Parallel Processor (MPP) comsistema de memória partilhada. A paralelização foi aplicada no particionamento dos dadosem partes iguais para cálculo da métrica de simularidade. O desempenho obtido nosexperimentos confirmou uma redução linear no tempo de processamento. O algoritmo foiexecutado em um computador massivamente paralelo - SGI Origin 3800, e o desempenhofoi comparado entre implementações do mesmo algoritmo com graus de paralelismodiferentes (2, 16, 32, 48 e 64 threads).

Rehman et al. [31] utilizaram a arquitetura de GPUs para obter processamentode alto desempenho de técnicas de registro 3D de imagens não-rígidas baseado emmultirresolução. A abordagem foi focada na implementação paralela de uma formulaçãogeral do problema de Optimal Mass Transport (OMT). Os experimentos foram realizadoscom imagens de ressonância magnética 3D do cérebro humano, envolvendo pacientes prée pós operatório. O speed-up da aplicação paralela foi 965x mais rápida do que o mesmoalgoritmo implementado em CPU.

Considerando um deslocamento não linear relativo em aplicações de registro deimagens adquiridas por MRI e CT da cabeça, Lapeer et al. [34] apresentaram umalgoritmo de registro não rígido baseado em pontos. O objetivo é acelerar o processamentodo algoritmo de registro multimodal linear em GPU. A abordagem proposta incorpora afunção de suavização Função de Base Radial (RBF) que visa aproximar a deformaçãona interação dos tecidos biológicos. O ganho de desempenho da implementação em GPU

2.4 Resultados 19

foi de até 10x em comparação à implementação em Central Processing Unit (CPU). Osexperimentos envolveram o registro de imagens de MRI e CT.

Zhu and Cochoff [35] demonstraram o uso de padrões em programação paralela paramelhorar a performance de uma aplicação utilizada para visualização, registro e fusãode imagens. O padrão de programação paralela depende da arquitetura adotada, poispode envolver o paralelismo de dados, paralelismo de tarefas, coordenação baseada emeventos, compartilhamento de dados, chamadas assíncronas e fork/join. Os experimentosforam realizados em arquitetura multicore e Symmetric Multiprocessor (SMP), com oobjetivo de demonstrar melhor portabilidade e flexibilidade do modelo implementado, eo ganho desempenho de até 10x foi avaliado em comparação à implementação sequencialdo mesmo algoritmo.

Mafi and Sirouspour [11] desenvolveram uma plataforma computacional baseadaem GPUs para análise em tempo-real de deformação suave de objetos. A plataformaresolve uma variedade de sistemas de equações lineares e atualiza matrizes não-linearesem tempo-real. Entretanto, os autores pretendem estender o otimizador de vetores paramatrizes esparsas, combinar operações de precisão simples com operações de precisãodupla, considerando todos os cálculos. Além disso, consideram incluir o processamentobaseado em múltiplas GPUs, análise de deformação com múltiplos pontos de contato, emalha de refinamento autoadaptativo para melhorar a exatidão da análise.

Salomon et al. [27] apresentaram a paralelização do método de registro de imagemdeformável usando multirresolução, aplicado a deformações não-lineares e longas dis-tâncias. O método de alinhamento adotado considera uma decomposição de transforma-ção deformável num conjunto de sub-espaços. A solução foi completamente paralelizadabaseando-se no modelo de paralelização MIMD e utilizando a linguagem de progra-mação paralela OpenMP. De maneira geral, o algoritmo paralelo de otimização globalcomportou-se bem no registro de imagens 3D de MRI. O desempenho foi analisado con-siderando o speed-up relativo às partes sequencial e paralela do código, executado emcenários com 16, 24 e 32 processadores. Com isso, o speed-up relativo obtido foi de 10x.

Christensen [20] considerou a implementação do algoritmo de deformação elástica li-near 3D no computador paralelo SGI Challenge. A abordagem foi otimizada para o tempode iteração constante e independente do número de funções de base. A comparação dedesempenho foi realizada entre as implementações otimizadas em arquiteturas paralelasSIMD (sistema de memória compartilhada) - MasPar e MIMD (sistema de memória dis-tribuída) - Challenge. A arquitetura MIMD foi até 4 vezes mais rápida que a arquiteturaSIMD.


2.5 Discussão

A aplicação de técnicas de computação de alto desempenho vem contribuindo efetiva-mente para a área de processamento e análise de imagem médica, oferecendo capaci-dade de processamento que pode alcançar elevadas ordens de magnitude e até temporeal. Como pode ser observado na Figura 2.415, o maior número de estudos envolvendo otema de interesse foi realizado na última década, especialmente nos últimos 5 anos. Pe-ríodo marcado com a consolidação da arquitetura GPU e dos processadores multicore [7].É importante destacar, a aparente redução no número de publicações envolvendo PAIMacelerados por High Performance Computing (HPC) no ano de 2015, deve-se ao fato deterem sido consideradas apenas as publicações disponíveis no primeiro trimestre desteano.

Figura 2.4: Evolução na quantidade de produção científica envolvendo PAIM acelerado por HPC.

Apesar dos trabalhos apresentados na Tabela 2.2 demonstrarem resultados com ele-vado speedup, é importante que sejam analisados com cautela, especialmente quando osresultados alcançaram speed-ups acima de 100 vezes. Os artigos analisados neste presenteestudo apresentaram o speed-up como métrica principal para demonstrar ganho de desem-penho. Quase metade dos trabalhos, 16 no total, comparou a implementação paralela coma implementação sequencial em CPU, como foram os trabalhos de: Rohlfing and Maurer[23], Dandekar and Shekhar [28], Yeh and Fu [29], Rehman et al. [31], Rohrer and Gong[32], Zhuge et al. [33], Shams et al. [6], Gabriel et al. [4], Lapeer et al. [34], Zhu andCochoff [35], Murphy et al. [36], Shi et al. [9], Birk et al. [10], Blas et al. [39], Mafi andSirouspour [11], Meng [40].

15O gráfico foi elaborado a partir das publicações selecionadas nesta revisão de literatura

2.5 Discussão 21

Um problema identificado neste tipo de comparação está na falta de informação sobrecomo foi realizada a otimização do código em CPU: a) se foi utilizado ou não o conjuntode instruções SSE; b) se o código foi compilado em 32 ou 64 bits; c) se foi utilizadooperação em ponto flutuante de 32 ou 64 bits. A otimização do código sequencial deveser considerada como procedimento básico para comparação entre implementações emarquiteturas multicore, cluster e GPU. O uso de FPGAs permite a customização doprojeto de hardware; entretanto, não fornece flexibilidade em implementações baseadasem software, tornando a sua contribuição questionável em comparação com as modernasGPUs. Os principais periódicos de interesse neste tema, estão indicados na Figura 2.5, deacordo com o número total de publicações apuradas nesta revisão sistemática16.

Figura 2.5: Principais periódicos interessados em pesquisas relacionadas à PAIM e HPC.

Com isso, nota-se que esta linha de pesquisa é bastante promissora, visto que os ar-tigos estudados demonstraram redução no tempo de processamento, inclusive proces-samento em tempo real - ideal para aplicações em cenários clínicos. As principais es-tratégias de paralelização empregadas nas pesquisas, de maneira geral, adotaram clus-

ter de computadores [21, 22, 25, 26, 27, 29, 30], FPGA [28] e mais recentemente,GPU [31, 8, 6, 34, 38, 11, 40, 41] e multicore [35, 5].

16Não foram considerados periódicos com menos de 5 publicações


As técnicas de computação paralela são empregadas no intuito de explorar ao máximoa capacidade de processamento disponível nas arquiteturas multicore, manycore e cluster.Considerando avanços recentes da arquitetura manycore (GPU) e multicore, as pesquisasdemonstraram uma tendência de baixo custo sem comprometer o poder de desempenho:combinar estratégias de paralelização e arquiteturas heterogêneas. Esta alternativa torna-se viável e de grande interesse para a comunidade envolvida em pesquisas sobre proces-samento de alto desempenho em aplicações de PAIM, e será o tema de interesse para apresente Proposta de Tese, descrita a seguir.

Capı́tulo 3Proposta de Tese

Neste capítulo apresenta-se a Proposta de Tese, abordando o estudo sobre paralelizaçãode técnicas de processamento e análise de imagem médica em arquiteturas heterogêneasmassivamente paralelas. Também são apresentadas as seções que descrevem a motivação,a questão e hipótese de investigação, os objetivos, a metodologia de investigação, bemcomo o plano de trabalho para realização do projeto proposto.

3.1 Motivação

A necessidade de processamento mais veloz é cada vez mais exigida em diversas áreasde investigação e da indústria em geral. A resolução de problemas em áreas como acomputação científica, a computação gráfica, a compressão de vídeo, manipulação deenormes volumes de dados, previsão meteorológica, o processamento e análise de imagemmédica, dentre muitas outras, requer alto poder de processamento [3].

Por meio de estratégias de paralelização, as aplicações são reescritas com objetivode decompor o algoritmo ou os dados em partes menores. Estas partes menores, tambémchamadas de tarefas, são distribuídas para serem executadas em processadores ou núcleos,simultaneamente [42]. Durante estas etapas realiza-se o processo de comunicação ecoordenação geral das tarefas entre os processadores envolvidos no processamento. Aoutilizar a programação paralela, dois fatores devem ser levados em consideração: otipo de arquitetura paralela e o tipo de comunicação dos processadores [3]. O custocomputacional para acessar os dados e executar cada tarefa dependente dos recursoscomputacionais disponíveis na arquitetura.

De acordo com o estudo apresentado anteriormente, no capítulo 2, as estratégias deparalelização empregadas recentemente em imagem médica, de maneira geral, vêm ado-tando GPUs [31, 8, 6, 34, 38, 11, 40, 41], CPUs multicore [35, 5], FPGAs [28], como

23

Proposta de Tese 24

arquiteturas para processamento de alto desempenho. Contudo, [36, 9, 10] paralelizaramos métodos utilizando GPUs e CPUs multicore; assim apenas Blas et al. [39] apresentouuma abordagem de paralelização focalizada no escalonamento otimizado de processa-mento para um sistema computacional multi-GPU, GPU e CPU multicore. Com isso, épossível observar o surgimento de novas metodologias para obter mais desempenho dasarquiteturas computacionais e ainda minimizar o tempo de processamento considerandoa redução no consumo de energia.

Dentre as áreas mencionadas, a área de processamento e análise de imagem médicatem contribuído bastante com o avanço da medicina, incorporando técnicas e metodo-logias para auxílio médico em diagnósticos clínicos, no seguimento de patologias e nadefinição de melhores planos de reabilitação. O diagnóstico, na maioria das vezes, é reali-zado a partir de imagens adquiridas por aparelhos de imagiologia. Contudo, estas imagenspossuem planos de cortes transversais, oclusão causada por outros órgãos ou posiciona-mento do paciente no momento do exame, além de ruídos, resultando na falta de conti-nuidade das informações extraídas por estes dispositivos. Assim, para obter diagnósticosmais consistentes e precisos, bem como realizar o processamento em tempo real, é neces-sário combinar técnicas computacionais de processamento e análise de imagem médica ede HPC.

Um dos maiores problemas em mulheres acima de 50 anos é o prolapso vaginal, oqual é caracterizado pelo deslocamento dos órgãos da cavidade pélvica feminina (intes-tino, bexiga, útero, ovários, vagina, reto e uretra) para o canal vaginal em razão do enfra-quecimento dos músculos e ligamentos desta parte do corpo. Como consequência desteproblema, são comuns disfunções na bexiga e intestino como, incontinência e/ou retençãourinária, obstipação, e em casos extremos, chegando à exposição dos órgãos pelo canalvaginal [43, 44]. A perda do tônus muscular e o relaxamento dos músculos são consi-derados normais, podem ser associados ao envelhecimento, procedimentos cirúrgicos deretirada de útero, múltiplos partos naturais, cirurgias abdominais ou vaginais, e até mesmoem razão da menopausa. Com o objetivo de contribuir na identificação precoce deste tipode problema, Ma et al. [45], de Araujo et al. [46] desenvolveram métodos para visuali-zar, medir e analisar estruturas pélvicas femininas, utilizando técnicas de processamentoe análise de imagem, entretanto, estes métodos apresentam alto custo computacional.

3.2 Questão de Investigação

“Como combinar estratégias de paralelização em multicore e manycore para acelerar otempo de processamento de métodos de segmentação de imagem level set?”

3.3 Hipótese de Investigação 25

3.3 Hipótese de Investigação

Com isto, surge o tema de interesse para a presente investigação: elaborar estratégiasde paralelização utilizando as arquiteturas GPU (multi-GPUs) e multicore para aplicartécnicas de filtros digitais para atenuar ruídos 1 e realçar contornos (baseado em modelode vida artificial)[46] e a segmentação de imagens da cavidade pélvica feminina [45, 47].

3.4 Objetivos

A presente proposta de Doutoramento, tem como objetivo principal, desenvolver, aplicare testar novas técnicas de PAIM acelerados por arquiteturas massivamente paralelas,levando em consideração os elevados requisitos computacionais e restrições temporais,normalmente existentes nestas aplicações. Outros objetivos deste trabalho, são:

• Elaborar uma revisão e classificar os algoritmos empregados em processamento eanálise de imagem médica, bem como identificar as principais características destesalgoritmos para uso em aplicações que possam permitir diagnóstico clínico efici-ente, em particular em tempo real, acelerados por computação de alto desempenho;

• Levantar e classificar os algoritmos, métodos e técnicas de programação de altodesempenho;

• Propor, implementar e validar novas técnicas robustas e eficientes de PAIM dacavidade pélvica feminina para processamento em arquitetura de processadoresheterogêneos;

• Desenvolver uma plataforma computacional de alto desempenho para PAIM capazde explorar ao máximo a capacidade de processamento em arquiteturas heterogê-neas - CPU multicore e GPU multi-GPUs

3.5 Metodologia Proposta

Pretende-se, neste trabalho, adotar uma metodologia composta pelas principais tarefasenvolvidas nas etapas de desenvolvimento desta investigação, descritas a seguir.

Tarefa 1: Primeiramente, mapear e identificar as técnicas de processamento e análisede imagem médica aceleradas por computação de alto desempenho. Com

1Paper submetido ao Journal of Real-Time Image Processing (Springer- Impact Factor: 2.02)

Proposta de Tese 26

base na revisão de literatura, não foram identificadas investigações sobrea aceleração de métodos suavização, realce e segmentação de imagens dacavidade pélvica feminina utilizando arquiteturas multicore e manycore. Destamaneira, o objetivo desta tarefa de investigação é estudar os algoritmos dePAIM para definir a proposta da arquitetura para processamento de altodesempenho. A paralelização deve considerar a utilização da decomposição dedados e alocação eficiente de memória disponível, em seguida: a) identificara arquitetura e plataforma disponível para realização dos experimentos; b)elaborar e apresentar a proposta de tese; c) revisar a documentação sobrearquitetura CUDA, e as bibliotecas: OpenMP, MPI, Open Source Computer

Vision (OpenCV) e Insight Segmentation and Registration Toolkit (ITK); d)escrever artigo científico com a revisão de literatura.

Tarefa 2: Explorar e validar estratégias de computação de alto desempenho em arqui-tetura heterogênea (multicore e manycore), além de avaliar e elaborar a estra-tégia de paralelização dos métodos indicados, preferencialmente, em temporeal. Nesta tarefa, devem ser consideradas arquiteturas paralelas, modelos etécnicas de programação paralela, direcionando a pesquisa para arquiteturasmassivamente paralelas em General Purpose Computing on Graphics Proces-

sing Unit (GPGPU), multicores, e os modelos de programação paralela SIMT(Single Instruction, Multiple Thread) e SIMD. A métrica utilizada para ava-liar o desempenho da solução paralelizada deverá levar em consideração ospeed-up em diferentes cenários de comparação, variando o número de cores,threads, a decomposição dos dados e das tarefas, bem como a otimização docódigo em CPU. Nesta etapa, o principal resultado deve ser um artigo com omodelo proposto da arquitetura de alto desempenho para o PAIM aplicado àcavidade pélvica feminina.

Tarefa 3: Definir o cenário de testes para realizar a fase de desenvolvimento e implemen-tação da plataforma computacional para processamento de alto desempenho,a qual estará interligada com uma fase de testes e validação de novas técni-cas, metodologias, bem como modelos computacionais, buscando identificara necessidade de eventuais correções no planeamento. Inicialmente, os expe-rimentos serão realizados num nó do cluster 2, disponibilizado na Faculdadede Engenharia da Universidade do Porto.

2Dell PowerEdge R720, equipado com 2 multiprocessadores Intel E5-2650 (total de 16 cores), 128GBde memória RAM DDR3 (1333Mhz), NVIDIA Tesla 20-M2075

3.6 Plano de Trabalho 27

Tarefa 4: A etapa de Implementação e Validação consiste em estruturar e implementaras soluções consideradas mais adequadas ao problema em questão. A seguir oprojeto entra na fase de testes finais para validação das soluções desenvolvidas.Nessa fase, serão realizados testes utilizando a infraestrutura computacional daFEUP, com o intuito de identificar a necessidade de possíveis ajustes de im-plementação. A plataforma computacional proposta deverá possuir arquiteturaaberta, modular e interface gráfica com ajustes de configuração, bem como sercomposta por bibliotecas computacionais de domínio público, quando possí-vel. As bibliotecas de programação a serem utilizadas são: OpenMP, MPI,além de CUDA, OpenCV e ITK.

Tarefa 5: Produção Científica: Publicar os resultados em revistas de interesse e partici-par em conferências da área, identificados nas Tabelas 3.2 e 3.3, respectiva-mente.

Tarefa 6: Escrita da Tese.

3.6 Plano de Trabalho

Em seguida, é apresentado o cronograma previsto para realização de cada tarefa, incluindoo período dedicado para realização das unidades curriculares obrigatórias. A duraçãoprevista para realização deste doutoramento é de 38 meses.

1. Curriculares (30 créditos): Cumprir os créditos nas unidades curriculares doPRODEI: Planejamento de Investigação, Computação Paralela, Paradigmas deProgramação.

2. Unidades Curriculares (24 créditos): Cumprir os créditos nas unidades curricularesdo PRODEI: Metodologias de Investigação Científica, Estudo Livre, Extração deConhecimento e Aprendizagem Computacional.

Tabela 3.1: Cronograma de Atividades.

Atividades2014 2015 2016 2017

01 02 03 04 05 06 07 08

Unidades Curriculares (30 créditos)

Unidades Curriculares (24 créditos)

Continua na página seguinte

Proposta de Tese 28

Tabela 3.1: Cronograma de Atividades.

Atividades2014 2015 2016 2017

01 02 03 04 05 06 07 08

Tarefa 1: Identificar a arquitetura para realizar apesquisa

Tarefa 1: Plano de Tese e Inscrição definitiva

Tarefa 1: Revisão da documentação acerca daarquitetura CUDA em GPGPU

Tarefa 1: Artigo com a revisão de literatura

Tarefa 2: Artigo com o modelo da arquiteturade alto desempenho para o PAIM

Tarefa 3: Cenário para Testes

Tarefa 4: Implementação e Validação

Tarefa 5: Produção Científica

Tarefa 6: Escrita da Tese

3.7 Grupos de Pesquisa

Em seguida, são identificados alguns grupos de pesquisa com interesse na área deprocessamento e análise de imagem médica acelerado por estratégias de computação dealto desempenho.

• Surgical Planning Laboratory3 - a teaching affiliate of Harvard Medical School,USA.

• Medical Image High Performance Computing (HPC) & Informatics Laboratory4 -University of Iowa, Iowa, USA.

• Image and Video Processing and Communications Laboratory5 - University of NewMexico, Albuquerque, USA.

• Heterogeneous and Parallel Computing Lab6 - Norwegian University of Scienceand Technology, Trondheim, Norway.

3https://www.spl.harvard.edu/index.html4http://www.uiowa.edu/mihpclab/5http://www.ivpcl.org/6http://research.idi.ntnu.no/hpc-lab/

https://www.spl.harvard.edu/index.html

http://www.uiowa.edu/mihpclab/

http://www.ivpcl.org/

http://research.idi.ntnu.no/hpc-lab/

3.8 Periódicos de Interesse 29

• Scalable Computing Laboratory7 - Pennsylvania State University, Pennsylvania,USA.

• GAPIS - Grupo de Arquitetura e Processamento de Imagens e Sinais, UniversidadeFederal de São Carlos, São Carlos, Brasil.

3.8 Periódicos de Interesse

Os principais periódicos de interesse, relacionados com os temas de Processamento eAnálise de Imagem Médica, Visão Computacional, Computação de Alto Desempenho,estão listados na Tabela 3.2. Os índices indicados na coluna Fator de Impacto foramextraídos no website de cada journal em 31/10/2015.

Tabela 3.2: Periódicos relacionados aos temas de pesquisa.

ISSN Título Fator de Impacto

0897-1889 Journal of Digital Imaging 1.19

1047-3203 Journal of Visual Communication and Image Repre-sentation

1.21

0895-6111 Computerized Medical Imaging and Graphics 1.21

0010-4825 Computers in Biology and Medicine 1.24

1432-1769 Machine Vision and Applications 1.35

1077-3142 Computer Vision and Image Understanding 1.54

0262-8856 Image and Vision Computing 1.58

0169-2607 Computer Methods and Programs in Biomedicine 1.89

1386-5056 International Journal of Medical Informatics 2.00

1861-8219 Journal of Real-Time Image Processing 2.02

1532-0464 Journal of Biomedical Informatics 2.12

1573-689X Journal of Medical Systems 2.21

1089-7771 IEEE Transactions on Information Technology in Bi-omedicine

2.49

0278-0062 IEEE Transactions on Medical Imaging 3.39

1361-8415 Medical Image Analysis 3.65

7http://www.cse.psu.edu/research/scl

http://www.springer.com/medicine/radiology/journal/10278

http://www.journals.elsevier.com/journal-of-visual-communication-and-image-representation/

http://www.journals.elsevier.com/journal-of-visual-communication-and-image-representation/

http://www.journals.elsevier.com/computerized-medical-imaging-and-graphics/

http://www.journals.elsevier.com/computers-in-biology-and-medicine/

http://www.springer.com/computer/image+processing/journal/138

http://www.journals.elsevier.com/computer-vision-and-image-understanding/

http://www.journals.elsevier.com/image-and-vision-computing/

http://www.journals.elsevier.com/computer-methods-and-programs-in-biomedicine/

http://www.journals.elsevier.com/international-journal-of-medical-informatics/

http://www.springer.com/computer/image+processing/journal/11554

http://www.journals.elsevier.com/journal-of-biomedical-informatics/

http://www.springer.com/statistics/life+sciences,+medicine+%26+health/journal/10916

http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=4233

http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=4233

http://ieeexplore.ieee.org/xpl/aboutJournal.jsp?punumber=42

http://www.journals.elsevier.com/medical-image-analysis/

http://www.cse.psu.edu/research/scl

Proposta de Tese 30

3.9 Conferências de Interesse

As principais conferências de interesse, relacionadas com o tema do presente projeto estãoindicadas na Tabela 3.3.

Tabela 3.3: Conferências de Interesse.

Nome da Conferência

HPCA - High-Performance Computer Architecture

HPDC - IEEE International Symposium on High Performance Distributed Computing

IPDPS - IEEE International Parallel and Distributed Processing Symposium

ICIP - IEEE International Conference on Image Processing

MICCAI - Medical Image Computing and Computer Assisted Intervention

ICPP - International Conference on Parallel Processing

ICIAP - International Conference on Image Analysis and Processing

SIBGRAPI - Brazilian Symposium on Computer Graphics and Image Processing

SBAC-PAD - International Symposium on Computer Architecture and High Perfor-mance

PDCAT - International Conference on Parallel and Distributed Computing, Applicati-ons and Technologies

CAIP - International Conference on Computer Analysis of Images and Patterns

PDPTA - International Conference on Parallel and Distributed Processing Techniquesand Applications

IST - IEEE International Conference on Imaging Systems & Techniques

http://hpca22.site.ac.upc.edu/

http://www.hpdc.org/2016/

http://www.ipdps.org/

http://www.ieeeicip2016.org/CallForPapers.asp

http://icpp2016.cs.wcupa.edu/

http://www.iciap2015.eu/

http://emap.fgv.br/sibgrapi-2014/

http://sbac.lip6.fr/2014/

http://sbac.lip6.fr/2014/

http://www.cs.hku.hk/pdcat2014

http://www.cs.hku.hk/pdcat2014

http://caip.eu.org/caip2015/

http://ist2014.ieee-ims.org/

Capı́tulo 4Considerações Finais

O aumento na disponibilidade de unidades de processamento tem sido muito importantepara contribuir com aplicações que demandam alto poder de processamento. Desta ma-neira, desenvolver estratégias que sejam capazes de combinar o poder de processamentoem arquiteturas multicore e manycore, torna-se uma alternativa de grande interesse para acomunidade médica. Investigações direcionadas para o processamento e análise de ima-gem médica, que sejam capazes de obter seu processamento em tempo reduzido, têm sidoexploradas em publicações, especialmente na última década.

Diante da variedade de conhecimentos abordados nesta investigação, confirmou-se anecessidade de estudos relacionados à técnicas de programação paralela e distribuída. Éimportante destacar os avanços recentes da arquitetura manycore (GPU) e multicore, astécnicas de programação paralela SIMT para GPGPU, a popularização de dispositivosequipados com arquitetura de processamento multicore e GPU, e a relação custo finan-

ceiro x capacidade de processamento x consumo de energia, com possibilidade de conti-nuar impulsionando o desenvolvimento de investigações científicas que exigem alto custocomputacional.

A presente investigação caracteriza-se como ponto de partida no grupo de investiga-ção coordenado pelo orientador desta proposta, o Prof. Dr. João M. R. S. Tavares1, pro-duzindo conhecimentos inerentes à combinação das estratégias de paralelismo aplicadasno processamento e análise de imagem médica.

Com base na revisão de literatura apresentada no Capítulo 2, as pesquisas demonstra-ram uma tendência de baixo custo sem comprometer o poder de desempenho: combinarestratégias de paralelização e arquiteturas heterogêneas. O resultado esperado desta Pro-posta de Tese é uma plataforma computacional de alto desempenho para PAIM capaz deexplorar ao máximo a capacidade de processamento em arquiteturas heterogêneas - CPU

1Maiores informações podem ser obtidas em http://www.fe.up.pt/~tavares/

31

http://www.fe.up.pt/~tavares/

Considerações Finais 32

multicore, GPU e multi-GPUs. O principal esforço para concluir a presente investigaçãoserá a integração de duas grandes áreas: HPC e PAIM.

Referências

[1] D. Kirk and W.-M. Hwu, Programming Massively Parallel Processors: A Hands-onApproach. Elsevier, 2010.

[2] A. Vadja, Programming Many-Core Chips, A. Vadja, Ed. Springer, 2011, iSBN:978-1-4419-9738-8.

[3] D. Page, A Practical Introduction to Computer Architecture, D. Gries and F. B.Schneider, Eds. Springer, 2009.

[4] E. Gabriel, V. Venkatesan, and S. Shah, “Towards high performance cell segmenta-tion in multispectral fine needle aspiration cytology of thyroid lesions,” ComputerMethods and Programs in Biomedicine, vol. 98, no. 3, pp. 231 – 240, 2010.

[5] J. Treibig, G. Hager, H. G. Hofmann, J. Hornegger, and G. Wellein, “Pushing thelimits for medical image reconstruction on recent standard multicore processors,”International Journal of High Performance Computing Applications, vol. 27, no. 2,pp. 162–177, 2013.

[6] R. Shams, P. Sadeghi, R. Kennedy, and R. Hartley, “A survey of medical imageregistration on multicore and the GPU,” Signal Processing Magazine, IEEE, vol. 27,no. 2, pp. 50–60, March 2010.

[7] A. Eklund, P. Dufort, D. Forsberg, and S. M. LaConte, “Medical image processingon the gpu - past, present and future,” Medical Image Analysis, vol. 17, no. 8, pp.1073–1094, 2013.

[8] Y. Zhuge, Y. Cao, J. K. Udupa, and R. W. Miller, “Parallel fuzzy connected imagesegmentation on GPU,” Medical Physics, vol. 38, no. 7, pp. 4365–4371, 2011.

[9] W. Shi, Y. Li, Y. Miao, and Y. Hu, “Research on the key technology of image guidedsurgery,” Przeglad Elektrotechniczny, vol. 88, no. 3B, pp. 29–33, 2012.

[10] M. Birk, R. Dapp, N. Ruiter, and J. Becker, “GPU-based iterative transmissionreconstruction in 3D ultrasound computer tomography,” Journal of Parallel andDistributed Computing, vol. 74, no. 1, pp. 1730 – 1743, 2014.

33

REFERÊNCIAS 34

[11] R. Mafi and S. Sirouspour, “GPU-based acceleration of computations in nonlinearfinite element deformation analysis,” International Journal for Numerical Methodsin Biomedical Engineering, vol. 30, no. 3, pp. 365–381, 2014.

[12] C. A. S. J. Gulo and T. R. P. M. Rúbio, “Text mining and scientific articles and usingthe R language,” in Proceedings of the 10th Doctoral Symposium in InformaticsEngineering - DSIE, A. A. de Sousa and E. Oliveira, Eds. Porto: FEUP Edições,2015, pp. 60–69.

[13] C. A. S. J. Gulo, T. R. P. M. Rúbio, S. Tabassum, and S. G. D. Prado, “Mining sci-entific articles powered by machine learning techniques,” in 2015 Imperial CollegeComputing Student Workshop (ICCSW 2015), ser. OpenAccess Series in Informa-tics (OASIcs), C. Schulz and D. Liew, Eds., vol. 49. Dagstuhl, Germany: SchlossDagstuhl–Leibniz-Zentrum fuer Informatik, 2015, pp. 21–28.

[14] C. Okoli and K. Schabram, “A guide to conducting a systematic literature reviewof information systems research,” Sprouts: Working Papers on Information Systems,vol. 10, no. 26, 2010.

[15] H. M. Cooper, The structure of knowledge synthesis, ser. Knowledge in Society,1988, vol. 1.

[16] M. Miller and C. Butler, “3-D maximum a posteriori estimation for single photonemission computed tomography on massively-parallel computers,” IEEE Transacti-ons on Medical Imaging, vol. 12, no. 3, pp. 560–565, Sep 1993.

[17] J. P. Kerr and E. B. Bartlett, “Medical image-processing utilizing neural networkstrained on a massively-parallel computer,” Computers in Biology and Medicine,vol. 25, no. 4, pp. 393–403, 1995.

[18] W. E. Higgins and R. D. Swift, “Distributed system for processing 3D medicalimages,” Computers in Biology and Medicine, vol. 27, no. 2, pp. 97 – 115, 1997.

[19] A. Formiconi, A. Passeri, M. Guelfi, M. Masoni, A. Pupi, U. Meldolesi, P. Malfetti,L. Calori, and A. Guidazzoli, “World wide web interface for advanced SPECTreconstruction algorithms implemented on a remote massively parallel computer,”International Journal of Medical Informatics, vol. 47, pp. 125 – 138, 1997.

[20] G. E. Christensen, “MIMD vs. SIMD parallel processing: A case study in 3Dmedical image registration,” Parallel Computing, vol. 24, pp. 1369 – 1383, 1998.

[21] T. Daggett and I. Greenshields, “A cluster computer system for the analysis andclassification of massively large biomedical image data,” Computers in Biology andMedicine, vol. 28, no. 1, pp. 47 – 60, 1998.

[22] S. K. Warfield, F. A. Jolesz, and R. Kikinis, “A high performance computingapproach to the registration of medical imaging data,” Parallel Computing, vol. 24,pp. 1345 – 1368, 1998.

REFERÊNCIAS 35

[23] T. Rohlfing and J. Maurer, C.R., “Nonrigid image registration in shared-memorymultiprocessor environments with application to brains, breasts, and bees,” IEEETransactions on Information Technology in Biomedicine, vol. 7, no. 1, pp. 16–25,March 2003.

[24] M. P. Wachowiak and T. M. Peters, Parallel optimization approaches for medicalimage registration, ser. Lecture Notes in Computer Science, 2004, vol. 3216, pp.781–788.

[25] M. Wachowiak and T. Peters, “High-performance medical image registration usingnew optimization techniques,” IEEE Transactions on Information Technology inBiomedicine, vol. 10, no. 2, pp. 344–353, April 2006.

[26] M. Doyley, E. Van Houten, J. Weaver, S. Poplack, L. Duncan, F. Kennedy, andK. Paulsen, “Shear modulus estimation using parallelized partial volumetric recons-truction,” IEEE Transactions on Medical Imaging, vol. 23, no. 11, pp. 1404–1416,Nov 2004.

[27] M. Salomon, F. Heitz, G.-R. Perrin, and J.-P. Armspach, “A massively parallelapproach to deformable matching of 3D medical images via stochastic differentialequations,” Parallel Computing, vol. 31, no. 1, pp. 45 – 71, 2005.

[28] O. Dandekar and R. Shekhar, “FPGA-accelerated deformable image registration forimproved target-delineation during CT-guided interventions,” Biomedical Circuitsand Systems, IEEE Transactions on, vol. 1, no. 2, pp. 116–127, June 2007.

[29] J.-Y. Yeh and J. Fu, “Parallel adaptive simulated annealing for computer-aided me-asurement in functional MRI analysis,” Expert Systems with Applications, vol. 33,no. 3, pp. 706 – 715, 2007.

[30] V. Kumar, B. Rutt, T. Kurc, U. Catalyurek, T. Pan, S. Chow, S. Lamont, M. Martone,and J. Saltz, “Large-scale biomedical image analysis in grid environments,” IEEETransactions on Information Technology in Biomedicine, vol. 12, no. 2, pp. 154–161, March 2008.

[31] T. Rehman, E. Haber, G. Pryor, J. Melonakos, and A. Tannenbaum, “3D nonrigidregistration via optimal mass transport on the GPU,” Medical Image Analysis,vol. 13, no. 6, pp. 931 – 940, 2009.

[32] J. Rohrer and L. Gong, “Accelerating 3D nonrigid registration using the cell broad-band engine processor,” IBM Journal of Research and Development, vol. 53, no. 5,2009.

[33] Y. Zhuge, Y. Cao, and R. W. Miller, “GPU accelerated fuzzy connected image seg-mentation by using CUDA,” Annual International Conference of the IEEE Engine-ering in Medicine and Biology Society, vol. 2009, pp. 6341–4, 2009.

[34] R. Lapeer, S. Shah, and R. Rowland, “An optimised radial basis function algorithmfor fast non-rigid registration of medical images,” Computers in Biology and Medi-cine, vol. 40, no. 1, pp. 1 – 7, 2010.

REFERÊNCIAS 36

[35] Y.-M. Zhu and S. M. Cochoff, “Medical image viewing on multicore platforms usingparallel computing patterns,” IT Professional, vol. 12, no. 2, pp. 33–41, March 2010.

[36] M. Murphy, M. Alley, J. Demmel, K. Keutzer, S. Vasanawala, and M. Lustig, “Fastl1 -SPIRiT compressed sensing parallel imaging MRI: Scalable parallel implemen-tation and clinically feasible runtime,” IEEE Transactions on Medical Imaging,vol. 31, no. 6, pp. 1250–1262, June 2012.

[37] L. Domanski, T. Bednarz, T. Gureyev, L. Murray, B. E. Huang, Y. Nesterets,D. Thompson, E. Jones, C. Cavanagh, D. Wang, P. Vallotton, C. Sun, A. Khassapov,A. Stevenson, S. Mayo, M. Morell, A. W. George, and J. A. Taylor, “Applications ofheterogeneous computing in computational and simulation science,” InternationalJournal of Computational Science and Engineering, vol. 8, no. 3, pp. 240 – 252,2013.

[38] S. Balla-Arabé and X. Gao, “Geometric active curve for selective entropy optimiza-tion,” Neurocomputing, vol. 139, no. 0, pp. 65 – 76, 2014.

[39] J. G. Blas, M. Abella, F. Isaila, J. Carretero, and M. Desco, “Surfing the optimizationspace of a multiple-GPU parallel implementation of a X-ray tomography reconstruc-tion algorithm,” Journal of Systems and Software, vol. 95, no. 0, pp. 166 – 175, 2014.

[40] L. Meng, “Acceleration method of 3D medical images registration based on computeunified device architecture,” Bio-medical materials and engineering, vol. 24, no. 1,pp. 1109–1116, 2014.

[41] Q. Wei, S. Patkar, and D. K. Pai, “Fast ray-tracing of human eye optics on graphicsprocessing units,” Computer Methods and Programs in Biomedicine, vol. 114, no. 3,pp. 302 – 314, 2014.

[42] F. Gebali, Algorithms and Parallel Computing. John Wiley & Sons, 2011.

[43] A. Chowdhury, J. Burns, A. Mukherjee, B. Sen, J. Yao, and R. Summers, “Automa-ted detection of pelvic fractures from volumetric CT images,” in Biomedical Imaging(ISBI), 2012 9th IEEE International Symposium on, May 2012, pp. 1687–1690.

[44] S. Onal, S. Lai-Yuen, P. Bao, A. Weitzenfeld, and S. Hart, “Image based measure-ments for evaluation of pelvic organ prolapse,” Journal of Biomedical Science andEngineering, vol. 6, pp. 45–55, 2013.

[45] Z. Ma, R. M. N. Jorge, T. Mascarenhas, and J. M. R. Tavares, “Segmentation offemale pelvic organs in axial magnetic resonance images using coupled geometricdeformable models,” Computers in Biology and Medicine, vol. 43, no. 4, pp. 248 –258, 2013.

[46] A. F. de Araujo, C. E. Constantinou, and J. M. R. Tavares, “Newartificial life model for image enhancement,” Expert Systems withApplications, vol. 41, no. 13, pp. 5892 – 5906, 2014. [Online]. Available:http://www.sciencedirect.com/science/article/pii/S0957417414001663

http://www.sciencedirect.com/science/article/pii/S0957417414001663

REFERÊNCIAS 37

[47] S. Onal, S. Lai-Yuen, P. Bao, A. Weitzenfeld, and S. Hart, “Image based measure-ments for evaluation of pelvic organ prolapse,” Journal of Biomedical Science andEngineering, vol. 6, pp. 45–55, 2013.

Técnicas de Computação de Alto Desempenho para o...

Documents

Transcript of Técnicas de Computação de Alto Desempenho para o...