Seminario Raissa Carol

Post on 08-Nov-2014

49 views 0 download

Tags:

Transcript of Seminario Raissa Carol

BAG-OF-FEATURES

Carolina Toledo Ferraz

Raissa Tavares

Visão Computacional 12-06-2012

AGENDA

� Introdução� Bag-of-Words� Bag-of-features� AplicaçõesReferências� Referências

2

INTRODUÇÃO

� Gerenciamento e recuperação de imagens comeficiência

� Recuperação de imagens por conteúdo (CBIR -Content Based Image Retrieval)Content Based Image Retrieval)

Bag-of-words Bag-of-features

3

BAG-OF-WORDS

� Aplicada em recuperação de informações textuais(RI -Information Retrieval)

� Cria um ”dicionário de palavras” responsávelpela categorização textual quando aplicado apela categorização textual quando aplicado arecuperação textual

� Estima a probabilidade de uma palavra estar emum determinado contexto

4

BAG-OF-WORDS

� Usado para a representação de documentos: frequênciasde palavras de um dicionário.

Hoje é o dia dos namorados. O dia dos namorados é comemorado hoje. Feliz dia dos namorados!

Dicionário={1: "hoje"Dicionário={1: "hoje"2:" é"3: "dia"4: "dos"5: "namorados"6:" o"7:" comemorado"8: "feliz"}

[1 1 1 1 1 1 0 0][1 1 2 2 2 1 1 1]

5

Dicionário com 8

palavras visuais

Frequência das

palavras visuais

BAG-OF-FEATURES

Fase 1• Extração de características

Fase 1• Extração de características

Fase 1• Extração de características

6

Fase 2• Aprendizado do vocabulário visual

Fase 3

•Quantificação dos recursos utilizando o vocabuláriovisual•Representação das imagens por meio das frequências depalavras visuais

Fase 2• Aprendizado do vocabulário visual

Fase 3

•Quantificação dos recursos utilizando o vocabuláriovisual•Representação das imagens por meio das frequências depalavras visuais

Fase 2• Aprendizado do vocabulário visual

Fase 3

•Quantificação dos recursos utilizando ovocabulário visual

•Representação das imagens por meio dasfrequências de palavras visuais

BAG-OF-FEATURES – FASE 1

� Identificar trechos locais de interesse emum conjunto de imagens:

� Grid Regular [1],[2]� Detector de ponto de interesse [3],[2],[4]

Fase 1

� Detector de ponto de interesse [3],[2],[4]� Amostragem aleatória [5]� Segmentação baseada em fragmentos(“patches”) [6]

�Representação dos trechos locais(Descritores Visuais)

7

IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS

Fase 1

� Grid Regular

8

IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS

Fase 1

� Detector de pontos de interesse

9

IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS

Fase 1

� Segmentação baseada em fragmentos(“patches”)

10Detecão de fragmentos (“patches”)

REPRESENTAÇÃO DOS TRECHOS LOCAIS(DESCRITORES VISUAIS)

Fase 1

� SURF – Speeded Up Robust Features [7]

� SIFT – Scale Invariant Feature Tranform [8]

� GLOH – Gradient Location and Orientation

11

� GLOH – Gradient Location and OrientationHistogram [9]

� LESH – Local Energy based Shape

Histogram [10]

BAG-OF-FEATURES – FASE 2� Agrupar as características extraídas doconjunto de imagens

� Clusterização: k-means

� Representação de uma palavra visual: centrode cada agrupamento

Fase 2

Representação de uma palavra visual: centrode cada agrupamento

� CODE BOOK: vocabulário visual compostopelas palavras visuais identificadas

� * Outras formas de gerar codebooks:

� Mapas auto-organizáveis [11]� Abordagem estatística [12]

12

AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS

Fase 2

� Clusterização: k-means

13

Cada “patch” é representadopor um Vetor deCaracterísticas

AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS

Fase 2

� Clusterização: k-means

Cada Vetor representaum ponto no espaçomulti-dimensional

14

multi-dimensional

AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS

Fase 2

� Clusterização: k-means

15Clustering

REPRESENTAÇÃO DE UMA PALAVRA VISUAL: CENTRO DE CADA AGRUPAMENTO

Fase 2 Palavra visual

1616Clustering

CODE BOOK: VOCABULÁRIO VISUAL COMPOSTO

PELAS PALAVRAS VISUAIS IDENTIFICADAS

Fase 2

17

BAG-OF-FEATURES – FASE 3

�Quantificação das ocorrências de cadapalavra visual em uma determinadaimagem

� Histograma: passa a ser a representação da

Fase 3

� Histograma: passa a ser a representação daimagem

�Aplicação de classificadores e/ou modelosde categorias para definir categorias paraimagens (Paisagens, fotos de carros,retrato de uma pessoa,…)

18

QUANTIFICAÇÃO DAS OCORRÊNCIAS DE CADA

PALAVRA VISUAL EM UMA DETERMINADA

IMAGEM

Fase 3

� Histograma: passa a ser a representação daimagem

19

APLICAÇÃO DE CLASSIFICADORES E/OUMODELOS DE CATEGORIAS PARA DEFINIR

CATEGORIAS PARA IMAGENS

Fase 3

� Redes neurais,� Sistemas Fuzzy,� Algoritmos genéticos,� Classificadores de Bayes� SVM (Support Vector Machine)

20

� SVM (Support Vector Machine)

aprendizadoaprendizado

Detecção de características e representação

DicionárioDicionário de de

palavraspalavras visuaisvisuais

Representação da imagem

reconhecimentoreconhecimento

DecisãoDecisão::

categoriacategoria

Representação da imagem

ModelosModelos de de categorizaçãocategorização

(e/(e/ouou) ) classificadoresclassificadores21

BAG-OF-FEATURES

Aplicações

REPRESENTING AND RECOGNIZING THE VISUAL APPEARANCE OF

MATERIALS USING THREE-DIMENSIONAL TEXTONS

THOMAS LEUNG AND JITENDRA MALIK - 2001

� Problema:

23

OBJETIVOS

� Construir um vocabulário de textons 3D

� Reconhecer na base de modelos uma imagem deum destes materiais sob uma nova visualizaçãoou iluminação.ou iluminação.

24

BANCO DE FILTROS

Fig. 1: Total de 48 filtros

25

TEXTONS 3D

26

CONSTRUINDO O MODELO PARA CADAMATERIAL

� Para cada imagem da base de dados faça:� Encontre a distância mínima entre o vetor de textondo dicionário e o vetor resposta dos filtros no ponto

� Constrói o histograma

27

RECONHECIMENTO DE TEXTURAMÚLTIPLAS IMAGENS

� Amostras de diferentes iluminações e visualização

� Os rótulos são calculados

O histograma é calculado� O histograma é calculado

� Achar a menor distância do histograma da amostra com o histograma do modelo

28

Taxa de reconhecimento

29

reconhecimento global: 95,6%

RECONHECIMENTO DE TEXTURAIMAGEM ÚNICA

� Problema:� Achar o rótulo do texton para cada pixel é difícil

� Características físicas diferentes podem ter a mesma aparênciaaparência

� Algoritmo Markov chain Monte Carlo (MCMC)

30

MCMCMCMC

31

Fig.2: Linha pontilhada material errado, linha contínua material correto

32

87% raio de detecção

13% falso alarme

33

A STATISTICAL APPROACH TO TEXTURECLASSICATION FROM SINGLE IMAGESMANIK VARMA AND ANDREW ZISSERMAN - 2004

34

RESULTADOS

35

ANÁLISE COMPARATIVA ENTRE DESCRITORES VISUAIS APLICADOS ÀSEGMENTAÇÃO EM CENAS

TAMIRES TESSAROLLI DE SOUZA 2011

K-MeansDicionário de palavras visuais

36

Para cada arquivo extrai novamente as características das imagens

Compara cada arquivo com o dicionário de palavras visuais

RESULTADOS DA SEGMENTAÇÃOAUTOMÁTICA

37

RESULTADOS

� Resultados similares com o Sift e o Surf

� Para limiares baixos, excesso de segmentação em cenas rápidas

� Para limiares muito altos, pouca segmentação em cenas lentas

38

VOCABULÁRIOS VISUAIS APLICADOS A DETECÇÃO DEEDIFÍCIOS EM FOTOGRAFIAS HISTÓRICASNATÁLIA COSSE BATISTA 2009

39

PROCESSO

Sift

CodebookCodebook

Histograma de palavras visuais 40

RESULTADOS

Taxa de acerto

Matriz de confusão41

NUDE DETECTION IN VIDEO USING BAG-OF-VISUAL-FEATURESANA PAULA B. LOPESY, SANDRA E. F. DE AVILA, ANDERSON N. A. PEIXOTO,RODRIGO S. OLIVEIRA, MARCELO DE M. COELHOZ AND ARNALDO DE A. ARAÚJOSIBGRAPI 2009

42

MÉTODO

43

RESULTADOS

44

ROBUST FACE RECOGNITION USING BLOCK-BASED BAG OF

WORDS

ZISHENG LI JUN-ICHI IMAIMASAHIDE KANEKO - 2010

45

MÉTODO

46

EXEMPLO

47

RESULTADOS

48

RESULTADOS

49

REFERÊNCIAS[1]Vogel, J.; Schiele, B. Natural scene retrieval based on a semantic modelingstep. In: Conference on image and video retrieval, 2004, Dublin, Irlanda.Proceedings...2004.

[2]Fei-Fei, L.; Perona, P. A Bayesian hierarchical model for learning naturalscene categories. In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, San Diego, CA, volume 2, pages 524-531,June 2005.

[3]Csurka, G.; Bray, C.; Dance, C.; Fan, L. Visual categorization with bags ofkeypoints. In Workshop on Statistical Learning in Computer Vision,keypoints. In Workshop on Statistical Learning in Computer Vision,ECCV, pages 1-22, 2004.

[4]Sivic, J.; Russell, B.; Efros, A.; Zisserman, A.; Freeman, W. Discoveringobject categories in image collections. Technical Report A. I. Memo 2005-005, Massachusetts Institute of Technology, 2005.

[5]Ullman, S.; Vidal-Naquet, M.; Sali, E. Visual features of intermediatecomplexity and their use in classification. Nature Neuroscience, v. 5, n. 7,2002, pp. 1-6.

[6]Barnard, K.; Duygulu, P.; Freitas, N.; Forsyth, D.; Blei, D.;Jordan, M. Matching words and pictures. JMLR, 3:1107-1135,February 2003.

50

REFERÊNCIAS[7]Bay, H.; Tuytelaars, T.; Gool, L. V. SURF: Speeded Up Robust Features.CVIU, Vol.110, No. 3, pp. 346-359, 2008.

[8]Lowe, D. G. Distinctive image features from scale-invariant keypoints,Internacional Jornal of Computer Vision, v. 60, n. 2, p 91-110, 2004

[9]Mikolajczyk, K.; Schmid, C. A performance evaluation of local descriptors.IEEE Transactions on Pattern Analysis e Machine Intelligence, 27(10),pp. 1615–1630, 2005.pp. 1615–1630, 2005.

[10]Sarfraz, M. S.; Hellwich, O. Head pose estimation in face recognitionacross pose scenarios. In International conference on Computer VisionTheory and Applications, pp. 235–242, 2008

[11]Kinnunen, T. et al. Bag-of-Features Codebook Generation by Self-Organisation. In: Workshop on advances in self-organizing maps, 7, 2009,Berlim, Alemanha. Proceedings... Springer-Verlag: Berlim. 2009, pp. 124-132.

[12]Zhang, Y.; Jin, R.; Zhou, Z.-H. Understanding bag-of-words model: Astatistical framework. International Journal of Machine Learning andCybernetics, v.1, n.1, 2010, pp. 43-52. 51

REFERÊNCIAS[13] T. Leung and J. Malik. Representing and recognizing the visualappearance of materials using three-dimensional textons. InternationalJournal of Computer Vision, 43(1):29-44, June 2001.

[14] M. Varma and A. Zisserman. A Statistical Approach to TextureClassication from Single Images. Kluwer Academic Publishers. 2004

[15] T. Tessarolli de Souza. Análise comparativa entre descritores visuaisaplicados à segmentação em cenas. Monografia de conclusão de curso.aplicados à segmentação em cenas. Monografia de conclusão de curso.ICMC Usp São Carlos, 2011.

[16] N. C. Batista. Vocabulários visuais aplicados à detecção de edifícios emfotografias históricas. Dissertação de mestrado. UFMG, 2009.

[17] A. P. B. Lopes, S. E. F de Avila, A. N. M. Peixoto, R. S. Oliveira, M. M.Coelho, A. A. Araujo. XXII Brazilian Symposium on Computer Graphicsand Image Processing, 2009;

[18] Z. Lie, J. Imai and M. Kaneko. Robust Face Recognition Using Block-based Bag of Words. 2010 International Conference on PatternRecognition

52

53