UNIVERSIDADE F CAMPINA GRANDElad.dsc.ufcg.edu.br/lad/uploads/Lad/Proposta_Thiago.pdf · Como...

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE

CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁTICA

CURSO DE MESTRADO EM CIÊNCIA DA COMPUTAÇÃO

PROPOSTA DE DISSERTAÇÃO DE MESTRADO

APLICAÇÃO DE TÉCNICAS DE CBIR PARA INDEXAÇÃODE CONTEÚDO VISUAL EM HARDWARE

MESTRANDO

THIAGO FONSECA MENESES

ORIENTADOR

ELMAR UWE KURT MELCHER

CAMPINA GRANDE

FEVEREIRO - 2011

Lista de Figuras

1 Sistema Guaatupi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

i

Conteúdo

1 Introdução 1

2 Objetivo da Proposta 4

2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Objetivo Específico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Relevância da Proposta 5

3.1 Discussão da relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4 Metodologia de Trabalho 7

5 Cronograma 9

A Sistemas de recuperação de imagem baseado em conteúdo 14

A.1 QBIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

A.2 Netra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

A.3 Blobword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

A.4 Visualseek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

A.5 Fast Multiresolution Image Query . . . . . . . . . . . . . . . . . . . . . . 16

ii

1 Introdução 1

1 Introdução

Com a expansão da internet, cada vez é maior a quantidade de conteúdo multimídia tais como

imagens, vídeos e áudio. Como exemplo, cita-se o Youtube, que, segundo dados estatísticos,

recebem em seu domínio cerca de vinte e quatro horas de vídeo a cada minuto [You] . A

popularização de sites como Flickr [Fli] também é responsável por uma base de imagens

disponível na web. Além disso, conteúdo visual está presente em diversas áreas: medicina,

astronomia, robótica, mineralogia, sensoriamento remoto, entre outras [CHB00, WCF02,

SRSD02, PDR+03, EB].

A necessidade de indexação para o acesso a essa categoria de documento torna-se impe-

rativa. No caso específico das imagens, surgem questões do tipo: como indexar e recuperar

imagens dentre bilhões de outras imagens? Quais alternativas tecnológicas podem ser utili-

zadas para acelerar o processo de indexação sem comprometer o custo da solução?

Sistemas convencionais de banco de dados foram desenvolvidos para manipular dados

textuais e numéricos e, para recuperar as informações, são feitas comparações simples dos

valores. Essa forma simples de recuperar informação não se aplica a dados multimídia como

imagem, áudio e vídeo [Wu97].

A recuperação de imagens pode ser feita a partir de metadados previamente anotados ou

a partir de metadados obtidos por extração automática de características, sendo essa última

armazenada em um vetor de índice [Wu97, STM07]. A primeira abordagem tem como van-

tagem maior riqueza semântica nos dados anotados, em contrapartida o custo de anotação

das imagens é alto e proibitivo em escalas em que o conjunto de imagens ultrapassa certos

limites. Como segunda alternativa, foi proposta a técnica CBIR (Content Based Image Re-

trieval). Nessa técnica, ao invés de utilizar anotações manuais para indexar as imagens, foi

proposta a indexação baseada em conteúdo visual, descrito por características de baixo nível

tais como cor [SB91, HKMZ01], forma [MSEMSZ03] e textura [SD97, RHC99].

A maioria dos sistemas utiliza informações do domínio espacial de pixels para extrair o

vetor de característica. Outra possibilidade consiste em utilizar uma transformada no domí-

nio dos pixels para extrair somente características mais importantes. Dentre as transformadas

está a transformada Wavelet que é utilizada na decomposição das imagens transformando-

as para o espaço de frequências conforme os trabalhos de [JFS95, WLW01]. Como afirma

1 Introdução 2

Schettini [SCZ+01], a cor é a característica mais utilizada para indexar conteúdo visual.

Para indexação e recuperação de vídeos, os principais desafios assemelham-se às técnicas de

CBIR [HLS+08].

Sistemas CBIR e de análise de imagens despertam interesses na mídia para aplicações

do mundo real como evidenciam as publicações na Scintific American [S. 06], Discovery

News [Sta06] e CNN [CNN]. Como explica Datta et. al. [DJLW08] espera-se que em um

futuro próximo sistemas de busca por conteúdo visual atuem juntamente com a pesquisa em

texto. Isso já acontece em parte com o sistema de busca do Google Image [Sea] que em

2009 lançou a pesquisa por imagens semelhantes. Apesar disso, a busca por similaridade

em vídeos parece um pouco distante, que dentre outros fatores, uma das possíveis causas é o

custo computacional exigido nos vídeos contido em sites como exemplo no Youtube.

Desde a década de 1990, sistemas CBIR têm sido pesquisados e desenvolvidos [RHC99].

Para prover acurácia e rápida recuperação do conteúdo, dois problemas devem ser solucio-

nados: (i) a disparidade semântica entre conteúdo de baixo nível e conceitos de alto nível

da imagem; (ii) o tempo computacional demandada para análise de imagens, indexação,

pesquisa e nos algoritmos de aprendizagem [DJLW08, YKA09].

A otimização dos algoritmos utilizados na indexação de imagens apresenta uma série

de complicações quando comparada aos algoritmos utilizados na recuperação. Isso se deve

pelo fato que uma vez que o algoritmo utilizado para indexar tenha sido modificado, toda a

base de imagem tem que ser indexada novamente. Assim, o custo computacional é alto para

executar melhorias no algoritmo utilizado na indexação, particularmente sobre uma grande

base de imagens [STM07].

Trabalhos recentes como em Yang [YKA09] utiliza computação em nuvem para prover

baixo custo computacional, decremento no tempo de resposta do sistema e redução de custos

financeiros. Contudo, nos últimos anos muita atenção tem sido dada ao impacto do uso dos

computadores desktop e servidores. Sejam esses impactos ambientais causados pela fabrica-

ção e eliminação dos computadores como também, e não menos importante, o consumo de

energia [CO05]. Como cita Calwell et. al. [CO05], nos dias atuais o maior impacto ao meio

ambiente causado pelos computadores é o consumo de energia tendo como consequência a

emissão de gases na atmosfera acelerando o processo do efeito estufa e da poluição do ar.

Como exemplo, em 2008, o valor gasto no contrato anual de energia da empresa Google

1 Introdução 3

foi maior do que toda infraestrutura da empresa, exceto terrenos e edifícios. Somente os

servidores dessa empresa nos Estados Unidos, consumiu 2% de energia do total gasto no

mundo [Eco]. Previsões para o consumo energético de componentes eletrônicos é cada vez

maior. Estima-se que em 2030 a internet aumentará em 30% o consumo atual de energia

devido à demanda e popularização dos componentes e serviços conectados à internet [Eco].

Diante dessa preocupação mundial surgem iniciativas como a Climate Savers Computing

Initiative [Ini], grupo sem fim lucrativo de consumidores, empresas e organizações, dedi-

cadas a prover tecnologias inteligentes cujo objetivo é reduzir o consumo energético dos

computadores e periféricos e usar a energia de forma eficiente. Dentre essas tecnologias

encontram-se os sistemas computacionais desenvolvidos nos dias atuais.

Tradicionalmente, ao longo dos anos, sistemas computacionais têm sido desenvolvidos

em software executando tarefas em um processador de uso geral, ou em um hardware custo-

mizado, assim como em uma arquitetura mista alocando subtarefas específicas em hardware

deixando outras tarefas em software. No tipo de arquitetura desenvolvida em software pode-

se citar como benefício a flexibilidade e facilidade do desenvolvimento do sistema. Mas,

quando comparada a um sistema desenvolvido em hardware, a execução do sistema é muito

lenta sendo necessário muito tempo, com impacto direto no consumo de energia, além de

poder ser ineficiente uma vez que operadores do processador podem ser inadequados à rea-

lização de tarefas específicas [Ale02].

Projetos desenvolvidos em hardware tem sido simplificados e aperfeiçoados durante as

últimas décadas. Essa simplificação se deu graças à evolução dos circuitos digitais que passa-

ram de transistores para circuitos integrados VLSI (Very Large Scale Integration), da criação

de ferramentas EDA (Eletronic Design Automatation) e do surgimento das linguagens de

descrição de hardware (HDL) consolidadas no meio acadêmico e industrial [Ale02].

Como afirma Datta [DJLW08], propor uma arquitetura em hardware para um sistema

CBIR se faz necessário e essencial para futuras aplicações de sistemas de recuperação de

imagem, auxiliando sistemas desenvolvidos em software a solucionar problemas cujos bene-

fícios vão do processamento paralelo e distribuído, mecanismo de caching eficiente e con-

sultas paralelas que são comuns em grandes sistemas com usabilidade e tráfico intenso, pro-

vendo assim o uso de tecnologia inteligente, que tem sido muito pouco explorado nessa

direção.

2 Objetivo da Proposta 4

2 Objetivo da Proposta

O objetivo desse trabalho é realizar um IP-core 1 de indexação de conteúdo visual cuja

solução em hardware poderá ser utilizada no domínio de indexação e reconhecimento visual

de imagens. Para isso será utilizada a abordagem do sistema encontrado em Jacobs et. al.

[JFS95]. Esse sistema é clássico entre os sistemas CBIR sendo encontradas publicações

recentes como em Meneses et. al. [MFA10] e Liu et. al. [LRR07] que fazem uso dessa

técnica. Uma breve descrição de sistemas clássicos em CBIR pode ser vista no apéndice A.

Nesse sistema a extração de características da imagem é resumida em um conjunto de

dados obtidos a partir da transformada wavelet sendo descrita pelos autores como “assinatura

da imagem”. A composição desse algoritmo foi realizada com o uso de diversas métricas.

Entre essas métricas estão: (i) o espaço de cor utilizado YIQ, (ii) a wavelet de Haar e (iii) a

decomposição da wavelet padrão. Um sistema que implementa essa abordagem é mostrado

na figura 1 utilizado no sistema Guaatupi [MFA10] em que o usuário envia uma imagem a

ser pesquisada e o sistema retorna as imagens mais semelhantes.

Figura 1: Sistema Guaatupi

2.1 Objetivo Geral

Objetivo é criar uma estrutra que provenha eficiência energética com poucos componentes

de hardware. Os dados das imagens serão enviados a um chip FPGA 2 que servirá como

1Intellectual Property core2Field-programmable Gate Array - circuito integrado reconfigurável para aplicação

2.2 Objetivo Específico 5

um pré-processador que filtrará as características mais importantes da imagem responsável

pela geração resumida da imagem ou “assinatura da imagem”. Um pós-processamento será

realizado por um computador finalizando o processo.

2.2 Objetivo Específico

1. Fazer um estudo dos requisitos funcionais do IP-core.

2. Estudar técnica de extração de características utilizada pela abordagem encontrado em

Jacobs et. al. [JFS95] de forma otimizada que utilize dos benefícios da arquitetura em

hardware.

3. Implementar em um chip FPGA o algoritmo que extraí as características visuais utili-

zadas para gerar a assinatura da imagem.

4. Utilizar a metodologia BVM (Brazil-IP Verification Metodology) para verificação do

design desenvolvido.

5. Analisar e validar o desempenho e consumo energético comparando-se a solução em

software.

3 Relevância da Proposta

Diante da evolução científica e tecnológica nos últimos séculos, o ser humano busca um lugar

melhor para que todos possam viver. O uso da tecnologia traz melhorias, pagando-se para

isso uma devastação acelerada dos recursos naturais e poluição do meio ambiente. Assim

cada ato de consumo é um ato político.

Neste trabalho será realizado um estudo do uso de FPGA como alternativa aos custos

energéticos e computacionais utilizados na indexação visual das imagens, proporcionando

aplicações do domínio da Visão Computacional ser processadas provendo o uso de tecnolo-

gia inteligente ao meio ambiente. Conforme estudos elaborados, o uso de uma arquitetura

em hardware para auxiliar esse tipo de sistema desenvolvido em software tem sido muito

pouco explorado nos dias atuais.

3.1 Discussão da relevância 6

Com o uso de FPGA, torna-se mais eficiente o processo de indexação de conteúdo visual

proporcionando grandes empresas utilizar sistemas CBIR com grande volume de dados e

diminuir o consumo energético utilizado no processamento das imagens. Essa solução po-

derá ser utilizada como um add-on acoplado a um computador desktop provendo todos os

benefícios propostos com processamento e redução de energia.

3.1 Discussão da relevância

Para exemplificar, suponha-se a indexação dos vídeos do Youtube. Segundo dados estatístico

do site, o Youtube recebe cerca de 24 horas de vídeos a cada minuto [You]. Suponha-se

que cada vídeo recebido possui uma taxa de no mínimo 15 quadros por segundo, são rece-

bidos no total 21600 quadros por segundo. Considerando-se que o tempo de processamento

para indexar 50 quadros em um computador desktop seja de 1 minuto 3, seriam necessários

aproximadamente 26000 computadores trabalhando simultaneamente para suprir a taxa de

21600 quadros por segundo. Sendo a potência gasta por um computador desktop para fazer

essa tarefa em 103 W 3, a potência total gasta seria de 2,7 MW.

Pode-se considerar que videos tipicamente são armazenados e transmitidos de forma

comprimida. Algoritmos de compressão na sua grande maioria [MPEG2, MPEG4, H.264]

fazem uso de codificação de quadros por interpolação temporal [Bie06]. Esses quadros são

chamados de quadros inter. Só uma fração dos quadros são codificados sem referência a

outros quadros vizinhos. Esses últimos são chamados de quadros intra. Pode-se optar na

indexação de vídeo de indexar somente os quadros intra, já que os quadros inter acrescentam

pouca informação ao conteúdo. Supondo uma razão de 20:1 entre quadros inter e intra, a

potência gasta para a indexação cai para 134 kW.

Para fins comparativo, como encontra-se no relatório da EIA (Energy Information Ad-

ministration) [Ene] ocorre a emissão de aproximadamente 612 g de CO2 a cada KWh con-

sumido. Sendo o consumo energético em 1170 MWh utilizados para indexar as imagens

durante o período de 1 ano, 720 toneladas de CO2 seriam emitidos na atmosfera durante

esse período.

Com isso, o trabalho proposto representa um projeto relevante na área da ciência e tec-

3Experimento realizado no laboratório de Arquiteturas Dedicadas da Universidade Federal de Campina

Grande - UFCG.


nologia cujo sucesso será responsável pela alternativa no uso de tecnologia inteligente com

ênfase ao consumo energético e tempo computacional causado por sistemas de indexação

e reconhecimento de conteúdo visual visto que estes sistemas desenvolvidos em sua mai-

oria em software pouco ou quase não exploram uma arquitetura em hardware para prover

benefícios computacionais tendo impactos diretamente no consumo energético.

4 Metodologia de Trabalho

Inicialmente, foi elaborado uma pesquisa bibliográfica sobre as soluções existentes de sis-

temas CBIR e de soluções para os problemas que esse tipo de sistema enfrenta. Para o

desenvolvimento do IP-core a metodologia BVM será utilzada. É de suma importância asse-

gurar a funcionalidade e ter completo entendimento sobre o projeto desenvolvido. Para isso

um conjunto de passos será estabelecido visando o sucesso desse trabalho.

A pesquisa bibliográfica e as demais atividades estão descritas na Tabela 1.


Tabela 1: Atividades planejadas.

Atividade Descrição

1 Realizar uma pesquisa bibliográfica sobre as soluções existentes para o problema de

indexação e reconhecimento de conteúdo visual.

2 Escrever a dissertação de mestrado.

3 Fazer um estudo sobre o dispositivo a ser desenvolvido cuja extração de característi-

cas da imagem possa ser otimizada com uma arquitetura em hardware.

3.1 Definir qual parte da solução será desenvolvida em hardware.

4 Levantar os requisitos básicos para especificação do IP-Core.

4.1 Definir a arquitetura do dispositivo com os parâmetros de entrada e saída.

5 Realizar uma especificação da verificação funcional elaborando a documentação e

detalhe das funcionalidades do dispositivo.

5.1 Definir o plano de verificação definindo faixa de estímulos aceitos, valores fora do

limite aceitável e ilegais.

5.2 Definir o plano de cobertura definindo o tempo da simulação.

6 Implementar o testbench.

6.1 Verificar a funcionalidade de cada bloco inserida no dispositivo.

7 Implementar os blocos do dispositivo em uma linguagem de descrição de hardware.

7.1 Gerar RTL com a implementação dos blocos internos.

8 Realizar a verificação funcional comparando RTL com modelo de referência.

9 Gerar netlist.

9.1 Realizar simulação do netlist gerado verificando as funcionalidades.

10 Prototipação do dispositivo desenvolvido em FPGA.

11 Realizar os experimentos medindo o consumo de energia e validar os resultados.

12 Elaborar um artigo com os resultados obitidos.

13 Defender a dissertação de mestrado.

5 Cronograma 9

5 Cronograma

Para que o trabalho seja realizado com êxito, as atividades apresentadas na seção anterior

devem seguir o cronograma de acordo com a Tabela 2.

Tabela 2: Cronograma do projeto de pesquisa.

Atividade

Ano Mês 1 2 3 4 5 6 7 8 9 10 11 12 13

2011 Mar X

2011 Abr X X

2011 Mai X X X

2011 Jun X X X

2011 Jul X X

2011 Ago X

2011 Set X

2011 Out X

2011 Nov X X

2011 Dez X X

2012 Jan X X X

2012 Fev X X

2012 Mar X X

REFERÊNCIAS 10

Referências

[Ale02] Alexandre Alves de Lima Ribeiro. Reconfigurabilidade dinâmica e remota

de FPGA. Master’s thesis, Universidade de São Paulo, São Carlos, 2002.

[Bie06] J. Bier. Introduction to Video Compression (CV-902). 2006.

[CHB00] A. Csillaghy, H. Hinterberger, and AO Benz. Content-based image retrieval

in astronomy. Information Retrieval, 3(3):229–241, 2000.

[CNN] CNN. Computer decodes mona lisa’s smile. Disponível em:

<http://www.cnn.com/2005/TECH/12/16/mona.lisa.smile/index.html>.

2005.

[CO05] C. Calwell and P. Ostendorp. 80 plus: a strategy for reducing the inherent

environmental impacts of computers. In Electronics and the Environment,

2005. Proceedings of the 2005 IEEE International Symposium on, pages

151–156. IEEE, 2005.

[DJLW08] R. Datta, D. Joshi, J. Li, and J.Z. Wang. Image retrieval: Ideas, influences,

and trends of the new age. ACM Computing Surveys (CSUR), 40(2):1–60,

2008.

[EB] B. Ergen and M. Baykara. Content based medical image retrieval feature ex-

traction of using statistical spatial methods for content based medical image

retrieval. In Signal Processing and Communications Applications Confe-

rence (SIU), 2010 IEEE 18th, pages 692–695. IEEE.

[Eco] Ecoinformática, barata e eficiente. Disponível em:

<http://www.catalogosustentavel.com.br/index.php?page=Noticia&id=190067>.

Acesso em: 21 fev. 2011.

[Ene] Energy Information Administration. Disponível em:

<http://www.eia.doe.gov/cneaf/electricity/page/co2_report/co2report.html#electric>.

Acesso em: 02 mar. 2011.

[Fli] Flickr. Disponível em: <http://www.flickr.com>. 2010.

REFERÊNCIAS 11

[HKMZ01] J. Huang, S.R. Kumar, M. Mitra, and W.J. Zhu. Image indexing using color

correlograms, June 12 2001. US Patent 6,246,790.

[HLS+08] Z. Huang, Y. Li, J. Shao, H.T. Shen, L. Wang, D. Zhang, X. Zhou, and

X. Zhou. Content-Based Video Search: is there a need, and is it possible? In

Information-Explosion and Next Generation Search, 2008. INGS’08. Inter-

national Workshop on, pages 12–19. IEEE, 2008.

[Ini] Climate Savers Computing Initiative. Disponível em:

<http://www.climatesaverscomputing.org>. Acesso em: 21 nov 2010.

[JFS95] C.E. Jacobs, A. Finkelstein, and D.H. Salesin. Fast multiresolution image

querying. In Proceedings of the 22nd annual conference on Computer

graphics and interactive techniques, pages 277–286. ACM, 1995.

[LRR07] T. Liu, C. Rosenberg, and H.A. Rowley. Clustering billions of images with

large scale nearest neighbor search. 2007.

[MFA10] T. F. Meneses, C. A. Pimentel Filho, and R. W. M. Araujo. Guaatupi: um

ambiente para indexação e recuperação de imagens da web sem redundância

visual. In Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia),

Belo Horizonte, Brasil, Outubro 2010.

[MSEMSZ03] F. Mahmoudi, J. Shanbehzadeh, A.M. Eftekhari-Moghadam, and

H. Soltanian-Zadeh. Image retrieval based on shape similarity by

edge orientation autocorrelogram. Pattern recognition, 36(8):1725–1736,

2003.

[PDR+03] T.H. Painter, J. Dozier, D.A. Roberts, R.E. Davis, and R.O. Green. Retrie-

val of subpixel snow-covered area and grain size from imaging spectrometer

data. Remote Sensing of Environment, 85(1):64–77, 2003.

[RHC99] Y. Rui, T.S. Huang, and S.F. Chang. Image Retrieval: Current Techniques,

Promising Directions, and Open Issues* 1. Journal of visual communication

and image representation, 10(1):39–62, 1999.

REFERÊNCIAS 12

[S. 06] S. Mirsky. Computers get the picture. Sci Amer, Nov 2006.

[SB91] M.J. Swain and D.H. Ballard. Color indexing. International journal of com-

puter vision, 7(1):11–32, 1991.

[SCZ+01] R. Schettini, G. Ciocca, S. Zuffi, et al. A survey of methods for colour

image indexing and retrieval in image databases. Color Imaging Science:

Exploiting Digital Media, pages 183–211, 2001.

[SD97] M. Stricker and A. Dimai. Spectral covariance and fuzzy regions for image

indexing. Machine vision and applications, 10(2):66–73, 1997.

[Sea] Google Image Search. Disponível em:

<http://googleblog.blogspot.com/2009/10/similar-images-graduates-from-

google.html>. Acesso em: 18 nov. 2010.

[SRSD02] M. Schroder, H. Rehrauer, K. Seidel, and M. Datcu. Interactive learning

and probabilistic retrieval in remote sensing image archives. Geoscience and

Remote Sensing, IEEE Transactions on, 38(5):2288–2298, 2002.

[Sta06] Staedter. Digital pics read by computer, 2006. Disponível em:

<http://dsc.discovery.com/news/>.

[STM07] M. Saadatmand-Tarzjan and H.A. Moghaddam. A novel evolutionary appro-

ach for optimizing content-based image indexing algorithms. Systems, Man,

and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 37(1):139–

153, 2007.

[WCF02] Z. Wang, Z. Chi, and D. Feng. Fuzzy integral for leaf image retrieval. In

Fuzzy Systems, 2002. FUZZ-IEEE’02. Proceedings of the 2002 IEEE Inter-

national Conference on, volume 1, pages 372–377. IEEE, 2002.

[WLW01] J.Z. Wang, J. Li, and G. Wiederhold. SIMPLIcity: Semantics-sensitive inte-

grated matching for picture libraries. IEEE Transactions on pattern analysis

and machine intelligence, pages 947–963, 2001.

REFERÊNCIAS 13

[Wu97] J.K. Wu. Content-Based Indexing of Multimedia Databases. IEEE Transac-

tions on Knowledge and Data Engineering, 9(6):989, 1997.

[YKA09] Z. Yang, S. Kamata, and A. Ahrary. NIR: Content based image retrieval on

cloud computing. In Intelligent Computing and Intelligent Systems, 2009.

ICIS 2009. IEEE International Conference on, volume 3, pages 556–559.

IEEE, 2009.

[You] Youtube. Disponível em: <http://www.youtube.com>. Acesso em: 20 nov.

2010.

A Sistemas de recuperação de imagem baseado em conteúdo 14

A Sistemas de recuperação de imagem baseado em con-

teúdo

Esta seção aborda os principais sistemas pesquisados na revisão bibliográfica e o estado da

arte. Mostram-se os sistemas clássicos criados ao longo dos anos cujo objetivo é recupe-

rar informações a partir de técnicas que o descrevam visualmente. Aborda-se uma breve

descrição desses sistemas, os tipos de características que são utilizadas.

A.1 QBIC

Desenvolvida pela IBM, o QBIC (Query By Image Content) é um dos sistemas mais conhe-

cidos na área de recuperação de imagem baseada em conteúdo. As duas propriedades chaves

do QBIC são imagens e vídeos. Esse sistema extrai características computáveis como cor,

formato, textura, movimentação de câmera além de movimento de objetos [FSN+95].

Como cita Oliveira Rogrigues [Sau08], o sistema QBIC, para extrair característica de

cor, utiliza histograma de cor em diferentes representações de espaço de cor. Para forma,

a extração é feita a partir de momentos invariantes que representa a forma em relação à

área, circularidade em relação à orientação. Para textura utiliza-se de versões modificadas

da proposta de Tamura [TMY78] de características coarseness (fineza), contrast (contraste)

e directionality (direcionalidade).

O QBIC utiliza várias formas distintas de consultas: através de uma imagem de consulta

em que o sistema busca por imagens semelhantes ou iguais à enviada pelo usuário, através

de um esboço gerado pelo usuário que descreve suas principais características ou através de

seleção de padrões de cor e textura [Sau08].

Para recuperação de vídeo o QBIC segmenta o vídeo em tomadas, e a partir dessas to-

madas são extraídas interframes candidatos a identificar a tomada. A partir desses frames o

sistema trabalha como imagem estática extraindo suas características e armazenando em um

banco de dados [Car08].

As buscas são baseadas em similaridade vetorial, através da distância Euclidiana, nos

quais são usados vetores que representam as características da imagem (cor, textura, forma)

[Sau08, Car08].

A.2 Netra 15

A.2 Netra

Desenvolvido pelo departamento de Engenharia Elétrica e da Computação da Califórnia, o

Netra é um sistema que utiliza cor, textura, forma e informações espaciais em regiões de

imagens segmentadas [MM99].

Para extrair as características de cor, o Netra utiliza uma representação quantizada do

espaço de cor RGB em 256 cores. O algoritmo generalizado de Lloyd [DFG99] é utilizado

para agrupar regiões de cores homogêneas, cujo objetivo é representar regiões em poucas

cores [MM99].

Na extração de formas, o Netra detecta a representação das bordas de pixels próximos

sendo utilizados três tipos de detecção: curvature function (função de curvatura), centroid

distance (centro de distância) e complex coordinate function (função de coordenadas com-

plexas) [MM99]. Com o estudo experimental detectou que as descrições de forma possuem

melhores desempenho utilizando a transformada de Fourier utilizando somente coeficientes

de amplitude descartando as informações de fase [MM99].

Já na extração de textura o Netra é baseado no projeto de Ma e Manjunath [MM96]

em que utiliza bancos de filtros da Wavelet de Gabor em múltiplas orientações e escalas

[MM99].

A consulta pode ser feita por regiões específicas da imagem assim como pela imagem

inteira. A busca por imagens similares é feita através da distância Euclidiana dos descritores

de forma [Sau08]. O sistema contém 2.500 imagens da galeria de fotos do Corel [cor].

A.3 Blobword

O BlobWorld se propunha a realizar pesquisa através de objetos identificados em figuras que

as compõem. Ao selecionar um objeto em uma imagem, o sistema pesquisa e recupera as

imagens que contém aquele objeto em sua formação [CBGM02].

Utiliza técnicas de segmentação de imagens [CBGM02]. Para Gonzalez et. al.

[GWJ+98] a segmentação de imagem é um dos problemas mais complicados na área de

processamento de imagem. Como cita Carson [CBGM02] a segmentação de imagens inevi-

tavelmente causa erros, causando algumas degradações no desempenho do algoritmo.

Como explica Carson [CBGM02] para segmentar cada imagem automaticamente utiliza-

A.4 Visualseek 16

se de um modelo com distribuição de cor, textura e posição de recursos. Utiliza o algoritmo

de Expectation Maximization (EM) [DLR+77] para estimar os parâmetros utilizados no mo-

delo. O resultado é um conjunto de pixel pertencente a um mesmo grupo que provê a seg-

mentação da imagem. Após segmentar a imagem em regiões, uma descrição de cada região

de cor e textura é produzido [CBGM02]. Esse sistema utilizou cerca de 10.000 imagens para

formar a base de dados para consultas.

A.4 Visualseek

Sistema desenvolvido pelo Laboratório de Imagens e Televisão avançada da Universidade

de Coimbra, este sistema utiliza regiões de cores como principal técnica para indexação e

recuperação de imagem. Trata-se de um sistema híbrido que integra indexação de imagem

com métodos de consulta espacial [SC97].

Nesse sistema cada região da imagem é automaticamente extraída contendo informações

sobre cor e propriedades espaciais como tamanho, localização e o relacionamento com outras

regiões [SC97]. Para representação das cores utiliza-se o espaço de cor HSV em vez do

RGB devido ao menor esforço utilizado para extrair informações como: cor, saturação e

intensidade [SC97].

A consulta é feita a partir de um esboço criado na interface pelo usuário onde pode ser

parametrizado o número de regiões da imagem do esboço e definido as cores de cada região.

A procura por imagens similares ocorre com a junção de padrões por região, utilizando a

distância Euclidiana, considerando as posições relativas e absolutas entre as regiões de cores

[Sau08]. A imagem que possuir o maior número de regiões similares é considerada a mais

próxima da imagem de consulta [Sau08].

A.5 Fast Multiresolution Image Query

Desenvolvido pelo Departamento de Ciência e Engenharia da Universidade de Washington, é

um sistema relevante na área de CBIR. Sendo o primeiro a utilizar técnica de multiresolução

aplicada à recuperação de imagem a partir do conteúdo. A consulta de imagens em uma

base de dados pode ser feita a partir de uma imagem com baixa resolução originada de um

scanner ou câmera de vídeo, como também rascunhos desenhado pelo usuário [JFS95].

A.5 Fast Multiresolution Image Query 17

Como explicam os autores Jacobs, Finkelstein e Salesin [JFS95] o trabalho Fast Mul-

tiresolution Image Query utiliza a ferramenta matemática wavelet de Haar para decompor

imagens, extraindo características fundamentais para sua representação, indexação e recu-

peração. Essa representação foi chamada pelos autores de “assinatura da imagem”. Essa

assinatura contém as informações mais importantes sobre cada imagem. Segundo os autores,

são as componentes de maior energia da transformada wavelet que carregam a representação

dos elementos mais essenciais da imagem.

Nas consultas são utilizadas métricas experimentais usadas para truncar e quantizar ver-

sões da wavelet decomposta, sendo essencial para comparar os coeficientes mais significa-

tivos da imagem de consulta com a imagem alvo [JFS95]. Entre estas métricas estão: o

espaço de cor utilizado, tipo de wavelet, o tipo de decomposição (padrão ou não padrão),

truncamento, quantização e normalização.

A formação da base de imagens deu-se com o uso de 1093 imagens de pinturas fixas de

diversos artistas. Foram adicionadas imagens provenientes da web através de um crawler

sendo indexadas imagens do tipo GIF (Graphics Interchange Format) formando uma base

de 20.588 imagens onde foram realizados os experimentos.

REFERÊNCIAS 18

Referências

[Car08] Carlos Alberto Fraga Pimentel Filho. Um ambiente para indexação e recupera-

ção de conteúdo de vídeo baseado em características visuais. Master’s thesis,

Universidade Salvador - UNIFACS, 2008.

[CBGM02] C. Carson, S. Belongie, H. Greenspan, and J. Malik. Blobworld: Image segmen-

tation using expectation-maximization and its application to image querying.

Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(8):1026–

1038, 2002.

[cor] Corel image database. Disponível em: <http://carter.idiap.ch/databases.html>.

1999.

[DFG99] Q. Du, V. Faber, and M. Gunzburger. Centroidal Voronoi tessellations: applica-

tions and algorithms. SIAM review, 41(4):637–676, 1999.

[DLR+77] A.P. Dempster, N.M. Laird, D.B. Rubin, et al. Maximum likelihood from in-

complete data via the EM algorithm. Journal of the Royal Statistical Society.

Series B (Methodological), 39(1):1–38, 1977.

[FSN+95] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang, B. Dom, M. Gor-

kani, J. Hafner, D. Lee, D. Petkovic, et al. Query by Image and Video Content:

The QBIC System. Computer, pages 23–32, 1995.

[GWJ+98] RC Gonzalez, RE Woods, A. Jain, JC Russ, R.G. Van Schyndel, A.Z. Tirkel,

CF Osborne, C. Xu, J.L. Prince, JR Jensen, et al. Image processing. IEEE

Transactions on Image Processing, 7(3):359–369, 1998.

[JFS95] C.E. Jacobs, A. Finkelstein, and D.H. Salesin. Fast multiresolution image

querying. In Proceedings of the 22nd annual conference on Computer graphics

and interactive techniques, pages 277–286. ACM, 1995.

[MM96] B. Manjunath and W. Ma. Texture Features for Browsing and Retrieval of Image

Data. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE IN-

TELLIGENCE, pages 837–842, 1996.

REFERÊNCIAS 19

[MM99] W.Y. Ma and B.S. Manjunath. Netra: A toolbox for navigating large image

databases. Multimedia Systems, 7(3):184–198, 1999.

[Sau08] Saulo de Tarso Oliveira Rodrigues. Investigação de técnicas para extração de ca-

racterísticas e indexação usando redes GHSOM aplicadas à recuperação de ima-

gens por conteúdo. Master’s thesis, Universidade Federal de Campina Grande,

PB, 2008.

[SC97] J.R. Smith and S.F. Chang. VisualSEEk: a fully automated content-based image

query system. In Proceedings of the fourth ACM international conference on

Multimedia, pages 87–98. ACM, 1997.

[TMY78] H. TAMURA, S. MORI, and T. YAMAWAKI. Textural features corresponding

to visual perception. IEEE Transactions on Systems, Man and Cybernetics,

8:460–473, 1978.

UNIVERSIDADE F CAMPINA GRANDElad.dsc.ufcg.edu.br/lad/uploads/Lad/Proposta_Thiago.pdf · Como...

Documents

Transcript of UNIVERSIDADE F CAMPINA GRANDElad.dsc.ufcg.edu.br/lad/uploads/Lad/Proposta_Thiago.pdf · Como...