UNIVERSIDADE F CAMPINA GRANDElad.dsc.ufcg.edu.br/lad/uploads/Lad/Proposta_Thiago.pdf · Como...
Transcript of UNIVERSIDADE F CAMPINA GRANDElad.dsc.ufcg.edu.br/lad/uploads/Lad/Proposta_Thiago.pdf · Como...
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE
CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁTICA
CURSO DE MESTRADO EM CIÊNCIA DA COMPUTAÇÃO
PROPOSTA DE DISSERTAÇÃO DE MESTRADO
APLICAÇÃO DE TÉCNICAS DE CBIR PARA INDEXAÇÃODE CONTEÚDO VISUAL EM HARDWARE
MESTRANDO
THIAGO FONSECA MENESES
ORIENTADOR
ELMAR UWE KURT MELCHER
CAMPINA GRANDE
FEVEREIRO - 2011
Lista de Figuras
1 Sistema Guaatupi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
i
Conteúdo
1 Introdução 1
2 Objetivo da Proposta 4
2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Objetivo Específico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Relevância da Proposta 5
3.1 Discussão da relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Metodologia de Trabalho 7
5 Cronograma 9
A Sistemas de recuperação de imagem baseado em conteúdo 14
A.1 QBIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
A.2 Netra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
A.3 Blobword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
A.4 Visualseek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
A.5 Fast Multiresolution Image Query . . . . . . . . . . . . . . . . . . . . . . 16
ii
1 Introdução 1
1 Introdução
Com a expansão da internet, cada vez é maior a quantidade de conteúdo multimídia tais como
imagens, vídeos e áudio. Como exemplo, cita-se o Youtube, que, segundo dados estatísticos,
recebem em seu domínio cerca de vinte e quatro horas de vídeo a cada minuto [You] . A
popularização de sites como Flickr [Fli] também é responsável por uma base de imagens
disponível na web. Além disso, conteúdo visual está presente em diversas áreas: medicina,
astronomia, robótica, mineralogia, sensoriamento remoto, entre outras [CHB00, WCF02,
SRSD02, PDR+03, EB].
A necessidade de indexação para o acesso a essa categoria de documento torna-se impe-
rativa. No caso específico das imagens, surgem questões do tipo: como indexar e recuperar
imagens dentre bilhões de outras imagens? Quais alternativas tecnológicas podem ser utili-
zadas para acelerar o processo de indexação sem comprometer o custo da solução?
Sistemas convencionais de banco de dados foram desenvolvidos para manipular dados
textuais e numéricos e, para recuperar as informações, são feitas comparações simples dos
valores. Essa forma simples de recuperar informação não se aplica a dados multimídia como
imagem, áudio e vídeo [Wu97].
A recuperação de imagens pode ser feita a partir de metadados previamente anotados ou
a partir de metadados obtidos por extração automática de características, sendo essa última
armazenada em um vetor de índice [Wu97, STM07]. A primeira abordagem tem como van-
tagem maior riqueza semântica nos dados anotados, em contrapartida o custo de anotação
das imagens é alto e proibitivo em escalas em que o conjunto de imagens ultrapassa certos
limites. Como segunda alternativa, foi proposta a técnica CBIR (Content Based Image Re-
trieval). Nessa técnica, ao invés de utilizar anotações manuais para indexar as imagens, foi
proposta a indexação baseada em conteúdo visual, descrito por características de baixo nível
tais como cor [SB91, HKMZ01], forma [MSEMSZ03] e textura [SD97, RHC99].
A maioria dos sistemas utiliza informações do domínio espacial de pixels para extrair o
vetor de característica. Outra possibilidade consiste em utilizar uma transformada no domí-
nio dos pixels para extrair somente características mais importantes. Dentre as transformadas
está a transformada Wavelet que é utilizada na decomposição das imagens transformando-
as para o espaço de frequências conforme os trabalhos de [JFS95, WLW01]. Como afirma
1 Introdução 2
Schettini [SCZ+01], a cor é a característica mais utilizada para indexar conteúdo visual.
Para indexação e recuperação de vídeos, os principais desafios assemelham-se às técnicas de
CBIR [HLS+08].
Sistemas CBIR e de análise de imagens despertam interesses na mídia para aplicações
do mundo real como evidenciam as publicações na Scintific American [S. 06], Discovery
News [Sta06] e CNN [CNN]. Como explica Datta et. al. [DJLW08] espera-se que em um
futuro próximo sistemas de busca por conteúdo visual atuem juntamente com a pesquisa em
texto. Isso já acontece em parte com o sistema de busca do Google Image [Sea] que em
2009 lançou a pesquisa por imagens semelhantes. Apesar disso, a busca por similaridade
em vídeos parece um pouco distante, que dentre outros fatores, uma das possíveis causas é o
custo computacional exigido nos vídeos contido em sites como exemplo no Youtube.
Desde a década de 1990, sistemas CBIR têm sido pesquisados e desenvolvidos [RHC99].
Para prover acurácia e rápida recuperação do conteúdo, dois problemas devem ser solucio-
nados: (i) a disparidade semântica entre conteúdo de baixo nível e conceitos de alto nível
da imagem; (ii) o tempo computacional demandada para análise de imagens, indexação,
pesquisa e nos algoritmos de aprendizagem [DJLW08, YKA09].
A otimização dos algoritmos utilizados na indexação de imagens apresenta uma série
de complicações quando comparada aos algoritmos utilizados na recuperação. Isso se deve
pelo fato que uma vez que o algoritmo utilizado para indexar tenha sido modificado, toda a
base de imagem tem que ser indexada novamente. Assim, o custo computacional é alto para
executar melhorias no algoritmo utilizado na indexação, particularmente sobre uma grande
base de imagens [STM07].
Trabalhos recentes como em Yang [YKA09] utiliza computação em nuvem para prover
baixo custo computacional, decremento no tempo de resposta do sistema e redução de custos
financeiros. Contudo, nos últimos anos muita atenção tem sido dada ao impacto do uso dos
computadores desktop e servidores. Sejam esses impactos ambientais causados pela fabrica-
ção e eliminação dos computadores como também, e não menos importante, o consumo de
energia [CO05]. Como cita Calwell et. al. [CO05], nos dias atuais o maior impacto ao meio
ambiente causado pelos computadores é o consumo de energia tendo como consequência a
emissão de gases na atmosfera acelerando o processo do efeito estufa e da poluição do ar.
Como exemplo, em 2008, o valor gasto no contrato anual de energia da empresa Google
1 Introdução 3
foi maior do que toda infraestrutura da empresa, exceto terrenos e edifícios. Somente os
servidores dessa empresa nos Estados Unidos, consumiu 2% de energia do total gasto no
mundo [Eco]. Previsões para o consumo energético de componentes eletrônicos é cada vez
maior. Estima-se que em 2030 a internet aumentará em 30% o consumo atual de energia
devido à demanda e popularização dos componentes e serviços conectados à internet [Eco].
Diante dessa preocupação mundial surgem iniciativas como a Climate Savers Computing
Initiative [Ini], grupo sem fim lucrativo de consumidores, empresas e organizações, dedi-
cadas a prover tecnologias inteligentes cujo objetivo é reduzir o consumo energético dos
computadores e periféricos e usar a energia de forma eficiente. Dentre essas tecnologias
encontram-se os sistemas computacionais desenvolvidos nos dias atuais.
Tradicionalmente, ao longo dos anos, sistemas computacionais têm sido desenvolvidos
em software executando tarefas em um processador de uso geral, ou em um hardware custo-
mizado, assim como em uma arquitetura mista alocando subtarefas específicas em hardware
deixando outras tarefas em software. No tipo de arquitetura desenvolvida em software pode-
se citar como benefício a flexibilidade e facilidade do desenvolvimento do sistema. Mas,
quando comparada a um sistema desenvolvido em hardware, a execução do sistema é muito
lenta sendo necessário muito tempo, com impacto direto no consumo de energia, além de
poder ser ineficiente uma vez que operadores do processador podem ser inadequados à rea-
lização de tarefas específicas [Ale02].
Projetos desenvolvidos em hardware tem sido simplificados e aperfeiçoados durante as
últimas décadas. Essa simplificação se deu graças à evolução dos circuitos digitais que passa-
ram de transistores para circuitos integrados VLSI (Very Large Scale Integration), da criação
de ferramentas EDA (Eletronic Design Automatation) e do surgimento das linguagens de
descrição de hardware (HDL) consolidadas no meio acadêmico e industrial [Ale02].
Como afirma Datta [DJLW08], propor uma arquitetura em hardware para um sistema
CBIR se faz necessário e essencial para futuras aplicações de sistemas de recuperação de
imagem, auxiliando sistemas desenvolvidos em software a solucionar problemas cujos bene-
fícios vão do processamento paralelo e distribuído, mecanismo de caching eficiente e con-
sultas paralelas que são comuns em grandes sistemas com usabilidade e tráfico intenso, pro-
vendo assim o uso de tecnologia inteligente, que tem sido muito pouco explorado nessa
direção.
2 Objetivo da Proposta 4
2 Objetivo da Proposta
O objetivo desse trabalho é realizar um IP-core 1 de indexação de conteúdo visual cuja
solução em hardware poderá ser utilizada no domínio de indexação e reconhecimento visual
de imagens. Para isso será utilizada a abordagem do sistema encontrado em Jacobs et. al.
[JFS95]. Esse sistema é clássico entre os sistemas CBIR sendo encontradas publicações
recentes como em Meneses et. al. [MFA10] e Liu et. al. [LRR07] que fazem uso dessa
técnica. Uma breve descrição de sistemas clássicos em CBIR pode ser vista no apéndice A.
Nesse sistema a extração de características da imagem é resumida em um conjunto de
dados obtidos a partir da transformada wavelet sendo descrita pelos autores como “assinatura
da imagem”. A composição desse algoritmo foi realizada com o uso de diversas métricas.
Entre essas métricas estão: (i) o espaço de cor utilizado YIQ, (ii) a wavelet de Haar e (iii) a
decomposição da wavelet padrão. Um sistema que implementa essa abordagem é mostrado
na figura 1 utilizado no sistema Guaatupi [MFA10] em que o usuário envia uma imagem a
ser pesquisada e o sistema retorna as imagens mais semelhantes.
Figura 1: Sistema Guaatupi
2.1 Objetivo Geral
Objetivo é criar uma estrutra que provenha eficiência energética com poucos componentes
de hardware. Os dados das imagens serão enviados a um chip FPGA 2 que servirá como
1Intellectual Property core2Field-programmable Gate Array - circuito integrado reconfigurável para aplicação
2.2 Objetivo Específico 5
um pré-processador que filtrará as características mais importantes da imagem responsável
pela geração resumida da imagem ou “assinatura da imagem”. Um pós-processamento será
realizado por um computador finalizando o processo.
2.2 Objetivo Específico
1. Fazer um estudo dos requisitos funcionais do IP-core.
2. Estudar técnica de extração de características utilizada pela abordagem encontrado em
Jacobs et. al. [JFS95] de forma otimizada que utilize dos benefícios da arquitetura em
hardware.
3. Implementar em um chip FPGA o algoritmo que extraí as características visuais utili-
zadas para gerar a assinatura da imagem.
4. Utilizar a metodologia BVM (Brazil-IP Verification Metodology) para verificação do
design desenvolvido.
5. Analisar e validar o desempenho e consumo energético comparando-se a solução em
software.
3 Relevância da Proposta
Diante da evolução científica e tecnológica nos últimos séculos, o ser humano busca um lugar
melhor para que todos possam viver. O uso da tecnologia traz melhorias, pagando-se para
isso uma devastação acelerada dos recursos naturais e poluição do meio ambiente. Assim
cada ato de consumo é um ato político.
Neste trabalho será realizado um estudo do uso de FPGA como alternativa aos custos
energéticos e computacionais utilizados na indexação visual das imagens, proporcionando
aplicações do domínio da Visão Computacional ser processadas provendo o uso de tecnolo-
gia inteligente ao meio ambiente. Conforme estudos elaborados, o uso de uma arquitetura
em hardware para auxiliar esse tipo de sistema desenvolvido em software tem sido muito
pouco explorado nos dias atuais.
3.1 Discussão da relevância 6
Com o uso de FPGA, torna-se mais eficiente o processo de indexação de conteúdo visual
proporcionando grandes empresas utilizar sistemas CBIR com grande volume de dados e
diminuir o consumo energético utilizado no processamento das imagens. Essa solução po-
derá ser utilizada como um add-on acoplado a um computador desktop provendo todos os
benefícios propostos com processamento e redução de energia.
3.1 Discussão da relevância
Para exemplificar, suponha-se a indexação dos vídeos do Youtube. Segundo dados estatístico
do site, o Youtube recebe cerca de 24 horas de vídeos a cada minuto [You]. Suponha-se
que cada vídeo recebido possui uma taxa de no mínimo 15 quadros por segundo, são rece-
bidos no total 21600 quadros por segundo. Considerando-se que o tempo de processamento
para indexar 50 quadros em um computador desktop seja de 1 minuto 3, seriam necessários
aproximadamente 26000 computadores trabalhando simultaneamente para suprir a taxa de
21600 quadros por segundo. Sendo a potência gasta por um computador desktop para fazer
essa tarefa em 103 W 3, a potência total gasta seria de 2,7 MW.
Pode-se considerar que videos tipicamente são armazenados e transmitidos de forma
comprimida. Algoritmos de compressão na sua grande maioria [MPEG2, MPEG4, H.264]
fazem uso de codificação de quadros por interpolação temporal [Bie06]. Esses quadros são
chamados de quadros inter. Só uma fração dos quadros são codificados sem referência a
outros quadros vizinhos. Esses últimos são chamados de quadros intra. Pode-se optar na
indexação de vídeo de indexar somente os quadros intra, já que os quadros inter acrescentam
pouca informação ao conteúdo. Supondo uma razão de 20:1 entre quadros inter e intra, a
potência gasta para a indexação cai para 134 kW.
Para fins comparativo, como encontra-se no relatório da EIA (Energy Information Ad-
ministration) [Ene] ocorre a emissão de aproximadamente 612 g de CO2 a cada KWh con-
sumido. Sendo o consumo energético em 1170 MWh utilizados para indexar as imagens
durante o período de 1 ano, 720 toneladas de CO2 seriam emitidos na atmosfera durante
esse período.
Com isso, o trabalho proposto representa um projeto relevante na área da ciência e tec-
3Experimento realizado no laboratório de Arquiteturas Dedicadas da Universidade Federal de Campina
Grande - UFCG.
4 Metodologia de Trabalho 7
nologia cujo sucesso será responsável pela alternativa no uso de tecnologia inteligente com
ênfase ao consumo energético e tempo computacional causado por sistemas de indexação
e reconhecimento de conteúdo visual visto que estes sistemas desenvolvidos em sua mai-
oria em software pouco ou quase não exploram uma arquitetura em hardware para prover
benefícios computacionais tendo impactos diretamente no consumo energético.
4 Metodologia de Trabalho
Inicialmente, foi elaborado uma pesquisa bibliográfica sobre as soluções existentes de sis-
temas CBIR e de soluções para os problemas que esse tipo de sistema enfrenta. Para o
desenvolvimento do IP-core a metodologia BVM será utilzada. É de suma importância asse-
gurar a funcionalidade e ter completo entendimento sobre o projeto desenvolvido. Para isso
um conjunto de passos será estabelecido visando o sucesso desse trabalho.
A pesquisa bibliográfica e as demais atividades estão descritas na Tabela 1.
4 Metodologia de Trabalho 8
Tabela 1: Atividades planejadas.
Atividade Descrição
1 Realizar uma pesquisa bibliográfica sobre as soluções existentes para o problema de
indexação e reconhecimento de conteúdo visual.
2 Escrever a dissertação de mestrado.
3 Fazer um estudo sobre o dispositivo a ser desenvolvido cuja extração de característi-
cas da imagem possa ser otimizada com uma arquitetura em hardware.
3.1 Definir qual parte da solução será desenvolvida em hardware.
4 Levantar os requisitos básicos para especificação do IP-Core.
4.1 Definir a arquitetura do dispositivo com os parâmetros de entrada e saída.
5 Realizar uma especificação da verificação funcional elaborando a documentação e
detalhe das funcionalidades do dispositivo.
5.1 Definir o plano de verificação definindo faixa de estímulos aceitos, valores fora do
limite aceitável e ilegais.
5.2 Definir o plano de cobertura definindo o tempo da simulação.
6 Implementar o testbench.
6.1 Verificar a funcionalidade de cada bloco inserida no dispositivo.
7 Implementar os blocos do dispositivo em uma linguagem de descrição de hardware.
7.1 Gerar RTL com a implementação dos blocos internos.
8 Realizar a verificação funcional comparando RTL com modelo de referência.
9 Gerar netlist.
9.1 Realizar simulação do netlist gerado verificando as funcionalidades.
10 Prototipação do dispositivo desenvolvido em FPGA.
11 Realizar os experimentos medindo o consumo de energia e validar os resultados.
12 Elaborar um artigo com os resultados obitidos.
13 Defender a dissertação de mestrado.
5 Cronograma 9
5 Cronograma
Para que o trabalho seja realizado com êxito, as atividades apresentadas na seção anterior
devem seguir o cronograma de acordo com a Tabela 2.
Tabela 2: Cronograma do projeto de pesquisa.
Atividade
Ano Mês 1 2 3 4 5 6 7 8 9 10 11 12 13
2011 Mar X
2011 Abr X X
2011 Mai X X X
2011 Jun X X X
2011 Jul X X
2011 Ago X
2011 Set X
2011 Out X
2011 Nov X X
2011 Dez X X
2012 Jan X X X
2012 Fev X X
2012 Mar X X
REFERÊNCIAS 10
Referências
[Ale02] Alexandre Alves de Lima Ribeiro. Reconfigurabilidade dinâmica e remota
de FPGA. Master’s thesis, Universidade de São Paulo, São Carlos, 2002.
[Bie06] J. Bier. Introduction to Video Compression (CV-902). 2006.
[CHB00] A. Csillaghy, H. Hinterberger, and AO Benz. Content-based image retrieval
in astronomy. Information Retrieval, 3(3):229–241, 2000.
[CNN] CNN. Computer decodes mona lisa’s smile. Disponível em:
<http://www.cnn.com/2005/TECH/12/16/mona.lisa.smile/index.html>.
2005.
[CO05] C. Calwell and P. Ostendorp. 80 plus: a strategy for reducing the inherent
environmental impacts of computers. In Electronics and the Environment,
2005. Proceedings of the 2005 IEEE International Symposium on, pages
151–156. IEEE, 2005.
[DJLW08] R. Datta, D. Joshi, J. Li, and J.Z. Wang. Image retrieval: Ideas, influences,
and trends of the new age. ACM Computing Surveys (CSUR), 40(2):1–60,
2008.
[EB] B. Ergen and M. Baykara. Content based medical image retrieval feature ex-
traction of using statistical spatial methods for content based medical image
retrieval. In Signal Processing and Communications Applications Confe-
rence (SIU), 2010 IEEE 18th, pages 692–695. IEEE.
[Eco] Ecoinformática, barata e eficiente. Disponível em:
<http://www.catalogosustentavel.com.br/index.php?page=Noticia&id=190067>.
Acesso em: 21 fev. 2011.
[Ene] Energy Information Administration. Disponível em:
<http://www.eia.doe.gov/cneaf/electricity/page/co2_report/co2report.html#electric>.
Acesso em: 02 mar. 2011.
[Fli] Flickr. Disponível em: <http://www.flickr.com>. 2010.
REFERÊNCIAS 11
[HKMZ01] J. Huang, S.R. Kumar, M. Mitra, and W.J. Zhu. Image indexing using color
correlograms, June 12 2001. US Patent 6,246,790.
[HLS+08] Z. Huang, Y. Li, J. Shao, H.T. Shen, L. Wang, D. Zhang, X. Zhou, and
X. Zhou. Content-Based Video Search: is there a need, and is it possible? In
Information-Explosion and Next Generation Search, 2008. INGS’08. Inter-
national Workshop on, pages 12–19. IEEE, 2008.
[Ini] Climate Savers Computing Initiative. Disponível em:
<http://www.climatesaverscomputing.org>. Acesso em: 21 nov 2010.
[JFS95] C.E. Jacobs, A. Finkelstein, and D.H. Salesin. Fast multiresolution image
querying. In Proceedings of the 22nd annual conference on Computer
graphics and interactive techniques, pages 277–286. ACM, 1995.
[LRR07] T. Liu, C. Rosenberg, and H.A. Rowley. Clustering billions of images with
large scale nearest neighbor search. 2007.
[MFA10] T. F. Meneses, C. A. Pimentel Filho, and R. W. M. Araujo. Guaatupi: um
ambiente para indexação e recuperação de imagens da web sem redundância
visual. In Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia),
Belo Horizonte, Brasil, Outubro 2010.
[MSEMSZ03] F. Mahmoudi, J. Shanbehzadeh, A.M. Eftekhari-Moghadam, and
H. Soltanian-Zadeh. Image retrieval based on shape similarity by
edge orientation autocorrelogram. Pattern recognition, 36(8):1725–1736,
2003.
[PDR+03] T.H. Painter, J. Dozier, D.A. Roberts, R.E. Davis, and R.O. Green. Retrie-
val of subpixel snow-covered area and grain size from imaging spectrometer
data. Remote Sensing of Environment, 85(1):64–77, 2003.
[RHC99] Y. Rui, T.S. Huang, and S.F. Chang. Image Retrieval: Current Techniques,
Promising Directions, and Open Issues* 1. Journal of visual communication
and image representation, 10(1):39–62, 1999.
REFERÊNCIAS 12
[S. 06] S. Mirsky. Computers get the picture. Sci Amer, Nov 2006.
[SB91] M.J. Swain and D.H. Ballard. Color indexing. International journal of com-
puter vision, 7(1):11–32, 1991.
[SCZ+01] R. Schettini, G. Ciocca, S. Zuffi, et al. A survey of methods for colour
image indexing and retrieval in image databases. Color Imaging Science:
Exploiting Digital Media, pages 183–211, 2001.
[SD97] M. Stricker and A. Dimai. Spectral covariance and fuzzy regions for image
indexing. Machine vision and applications, 10(2):66–73, 1997.
[Sea] Google Image Search. Disponível em:
<http://googleblog.blogspot.com/2009/10/similar-images-graduates-from-
google.html>. Acesso em: 18 nov. 2010.
[SRSD02] M. Schroder, H. Rehrauer, K. Seidel, and M. Datcu. Interactive learning
and probabilistic retrieval in remote sensing image archives. Geoscience and
Remote Sensing, IEEE Transactions on, 38(5):2288–2298, 2002.
[Sta06] Staedter. Digital pics read by computer, 2006. Disponível em:
<http://dsc.discovery.com/news/>.
[STM07] M. Saadatmand-Tarzjan and H.A. Moghaddam. A novel evolutionary appro-
ach for optimizing content-based image indexing algorithms. Systems, Man,
and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 37(1):139–
153, 2007.
[WCF02] Z. Wang, Z. Chi, and D. Feng. Fuzzy integral for leaf image retrieval. In
Fuzzy Systems, 2002. FUZZ-IEEE’02. Proceedings of the 2002 IEEE Inter-
national Conference on, volume 1, pages 372–377. IEEE, 2002.
[WLW01] J.Z. Wang, J. Li, and G. Wiederhold. SIMPLIcity: Semantics-sensitive inte-
grated matching for picture libraries. IEEE Transactions on pattern analysis
and machine intelligence, pages 947–963, 2001.
REFERÊNCIAS 13
[Wu97] J.K. Wu. Content-Based Indexing of Multimedia Databases. IEEE Transac-
tions on Knowledge and Data Engineering, 9(6):989, 1997.
[YKA09] Z. Yang, S. Kamata, and A. Ahrary. NIR: Content based image retrieval on
cloud computing. In Intelligent Computing and Intelligent Systems, 2009.
ICIS 2009. IEEE International Conference on, volume 3, pages 556–559.
IEEE, 2009.
[You] Youtube. Disponível em: <http://www.youtube.com>. Acesso em: 20 nov.
2010.
A Sistemas de recuperação de imagem baseado em conteúdo 14
A Sistemas de recuperação de imagem baseado em con-
teúdo
Esta seção aborda os principais sistemas pesquisados na revisão bibliográfica e o estado da
arte. Mostram-se os sistemas clássicos criados ao longo dos anos cujo objetivo é recupe-
rar informações a partir de técnicas que o descrevam visualmente. Aborda-se uma breve
descrição desses sistemas, os tipos de características que são utilizadas.
A.1 QBIC
Desenvolvida pela IBM, o QBIC (Query By Image Content) é um dos sistemas mais conhe-
cidos na área de recuperação de imagem baseada em conteúdo. As duas propriedades chaves
do QBIC são imagens e vídeos. Esse sistema extrai características computáveis como cor,
formato, textura, movimentação de câmera além de movimento de objetos [FSN+95].
Como cita Oliveira Rogrigues [Sau08], o sistema QBIC, para extrair característica de
cor, utiliza histograma de cor em diferentes representações de espaço de cor. Para forma,
a extração é feita a partir de momentos invariantes que representa a forma em relação à
área, circularidade em relação à orientação. Para textura utiliza-se de versões modificadas
da proposta de Tamura [TMY78] de características coarseness (fineza), contrast (contraste)
e directionality (direcionalidade).
O QBIC utiliza várias formas distintas de consultas: através de uma imagem de consulta
em que o sistema busca por imagens semelhantes ou iguais à enviada pelo usuário, através
de um esboço gerado pelo usuário que descreve suas principais características ou através de
seleção de padrões de cor e textura [Sau08].
Para recuperação de vídeo o QBIC segmenta o vídeo em tomadas, e a partir dessas to-
madas são extraídas interframes candidatos a identificar a tomada. A partir desses frames o
sistema trabalha como imagem estática extraindo suas características e armazenando em um
banco de dados [Car08].
As buscas são baseadas em similaridade vetorial, através da distância Euclidiana, nos
quais são usados vetores que representam as características da imagem (cor, textura, forma)
[Sau08, Car08].
A.2 Netra 15
A.2 Netra
Desenvolvido pelo departamento de Engenharia Elétrica e da Computação da Califórnia, o
Netra é um sistema que utiliza cor, textura, forma e informações espaciais em regiões de
imagens segmentadas [MM99].
Para extrair as características de cor, o Netra utiliza uma representação quantizada do
espaço de cor RGB em 256 cores. O algoritmo generalizado de Lloyd [DFG99] é utilizado
para agrupar regiões de cores homogêneas, cujo objetivo é representar regiões em poucas
cores [MM99].
Na extração de formas, o Netra detecta a representação das bordas de pixels próximos
sendo utilizados três tipos de detecção: curvature function (função de curvatura), centroid
distance (centro de distância) e complex coordinate function (função de coordenadas com-
plexas) [MM99]. Com o estudo experimental detectou que as descrições de forma possuem
melhores desempenho utilizando a transformada de Fourier utilizando somente coeficientes
de amplitude descartando as informações de fase [MM99].
Já na extração de textura o Netra é baseado no projeto de Ma e Manjunath [MM96]
em que utiliza bancos de filtros da Wavelet de Gabor em múltiplas orientações e escalas
[MM99].
A consulta pode ser feita por regiões específicas da imagem assim como pela imagem
inteira. A busca por imagens similares é feita através da distância Euclidiana dos descritores
de forma [Sau08]. O sistema contém 2.500 imagens da galeria de fotos do Corel [cor].
A.3 Blobword
O BlobWorld se propunha a realizar pesquisa através de objetos identificados em figuras que
as compõem. Ao selecionar um objeto em uma imagem, o sistema pesquisa e recupera as
imagens que contém aquele objeto em sua formação [CBGM02].
Utiliza técnicas de segmentação de imagens [CBGM02]. Para Gonzalez et. al.
[GWJ+98] a segmentação de imagem é um dos problemas mais complicados na área de
processamento de imagem. Como cita Carson [CBGM02] a segmentação de imagens inevi-
tavelmente causa erros, causando algumas degradações no desempenho do algoritmo.
Como explica Carson [CBGM02] para segmentar cada imagem automaticamente utiliza-
A.4 Visualseek 16
se de um modelo com distribuição de cor, textura e posição de recursos. Utiliza o algoritmo
de Expectation Maximization (EM) [DLR+77] para estimar os parâmetros utilizados no mo-
delo. O resultado é um conjunto de pixel pertencente a um mesmo grupo que provê a seg-
mentação da imagem. Após segmentar a imagem em regiões, uma descrição de cada região
de cor e textura é produzido [CBGM02]. Esse sistema utilizou cerca de 10.000 imagens para
formar a base de dados para consultas.
A.4 Visualseek
Sistema desenvolvido pelo Laboratório de Imagens e Televisão avançada da Universidade
de Coimbra, este sistema utiliza regiões de cores como principal técnica para indexação e
recuperação de imagem. Trata-se de um sistema híbrido que integra indexação de imagem
com métodos de consulta espacial [SC97].
Nesse sistema cada região da imagem é automaticamente extraída contendo informações
sobre cor e propriedades espaciais como tamanho, localização e o relacionamento com outras
regiões [SC97]. Para representação das cores utiliza-se o espaço de cor HSV em vez do
RGB devido ao menor esforço utilizado para extrair informações como: cor, saturação e
intensidade [SC97].
A consulta é feita a partir de um esboço criado na interface pelo usuário onde pode ser
parametrizado o número de regiões da imagem do esboço e definido as cores de cada região.
A procura por imagens similares ocorre com a junção de padrões por região, utilizando a
distância Euclidiana, considerando as posições relativas e absolutas entre as regiões de cores
[Sau08]. A imagem que possuir o maior número de regiões similares é considerada a mais
próxima da imagem de consulta [Sau08].
A.5 Fast Multiresolution Image Query
Desenvolvido pelo Departamento de Ciência e Engenharia da Universidade de Washington, é
um sistema relevante na área de CBIR. Sendo o primeiro a utilizar técnica de multiresolução
aplicada à recuperação de imagem a partir do conteúdo. A consulta de imagens em uma
base de dados pode ser feita a partir de uma imagem com baixa resolução originada de um
scanner ou câmera de vídeo, como também rascunhos desenhado pelo usuário [JFS95].
A.5 Fast Multiresolution Image Query 17
Como explicam os autores Jacobs, Finkelstein e Salesin [JFS95] o trabalho Fast Mul-
tiresolution Image Query utiliza a ferramenta matemática wavelet de Haar para decompor
imagens, extraindo características fundamentais para sua representação, indexação e recu-
peração. Essa representação foi chamada pelos autores de “assinatura da imagem”. Essa
assinatura contém as informações mais importantes sobre cada imagem. Segundo os autores,
são as componentes de maior energia da transformada wavelet que carregam a representação
dos elementos mais essenciais da imagem.
Nas consultas são utilizadas métricas experimentais usadas para truncar e quantizar ver-
sões da wavelet decomposta, sendo essencial para comparar os coeficientes mais significa-
tivos da imagem de consulta com a imagem alvo [JFS95]. Entre estas métricas estão: o
espaço de cor utilizado, tipo de wavelet, o tipo de decomposição (padrão ou não padrão),
truncamento, quantização e normalização.
A formação da base de imagens deu-se com o uso de 1093 imagens de pinturas fixas de
diversos artistas. Foram adicionadas imagens provenientes da web através de um crawler
sendo indexadas imagens do tipo GIF (Graphics Interchange Format) formando uma base
de 20.588 imagens onde foram realizados os experimentos.
REFERÊNCIAS 18
Referências
[Car08] Carlos Alberto Fraga Pimentel Filho. Um ambiente para indexação e recupera-
ção de conteúdo de vídeo baseado em características visuais. Master’s thesis,
Universidade Salvador - UNIFACS, 2008.
[CBGM02] C. Carson, S. Belongie, H. Greenspan, and J. Malik. Blobworld: Image segmen-
tation using expectation-maximization and its application to image querying.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(8):1026–
1038, 2002.
[cor] Corel image database. Disponível em: <http://carter.idiap.ch/databases.html>.
1999.
[DFG99] Q. Du, V. Faber, and M. Gunzburger. Centroidal Voronoi tessellations: applica-
tions and algorithms. SIAM review, 41(4):637–676, 1999.
[DLR+77] A.P. Dempster, N.M. Laird, D.B. Rubin, et al. Maximum likelihood from in-
complete data via the EM algorithm. Journal of the Royal Statistical Society.
Series B (Methodological), 39(1):1–38, 1977.
[FSN+95] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang, B. Dom, M. Gor-
kani, J. Hafner, D. Lee, D. Petkovic, et al. Query by Image and Video Content:
The QBIC System. Computer, pages 23–32, 1995.
[GWJ+98] RC Gonzalez, RE Woods, A. Jain, JC Russ, R.G. Van Schyndel, A.Z. Tirkel,
CF Osborne, C. Xu, J.L. Prince, JR Jensen, et al. Image processing. IEEE
Transactions on Image Processing, 7(3):359–369, 1998.
[JFS95] C.E. Jacobs, A. Finkelstein, and D.H. Salesin. Fast multiresolution image
querying. In Proceedings of the 22nd annual conference on Computer graphics
and interactive techniques, pages 277–286. ACM, 1995.
[MM96] B. Manjunath and W. Ma. Texture Features for Browsing and Retrieval of Image
Data. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE IN-
TELLIGENCE, pages 837–842, 1996.
REFERÊNCIAS 19
[MM99] W.Y. Ma and B.S. Manjunath. Netra: A toolbox for navigating large image
databases. Multimedia Systems, 7(3):184–198, 1999.
[Sau08] Saulo de Tarso Oliveira Rodrigues. Investigação de técnicas para extração de ca-
racterísticas e indexação usando redes GHSOM aplicadas à recuperação de ima-
gens por conteúdo. Master’s thesis, Universidade Federal de Campina Grande,
PB, 2008.
[SC97] J.R. Smith and S.F. Chang. VisualSEEk: a fully automated content-based image
query system. In Proceedings of the fourth ACM international conference on
Multimedia, pages 87–98. ACM, 1997.
[TMY78] H. TAMURA, S. MORI, and T. YAMAWAKI. Textural features corresponding
to visual perception. IEEE Transactions on Systems, Man and Cybernetics,
8:460–473, 1978.