Seminario Raissa Carol

53
BAG-OF-FEATURES Carolina Toledo Ferraz Raissa Tavares Visão Computacional 12-06-2012

Transcript of Seminario Raissa Carol

Page 1: Seminario Raissa Carol

BAG-OF-FEATURES

Carolina Toledo Ferraz

Raissa Tavares

Visão Computacional 12-06-2012

Page 2: Seminario Raissa Carol

AGENDA

� Introdução� Bag-of-Words� Bag-of-features� AplicaçõesReferências� Referências

2

Page 3: Seminario Raissa Carol

INTRODUÇÃO

� Gerenciamento e recuperação de imagens comeficiência

� Recuperação de imagens por conteúdo (CBIR -Content Based Image Retrieval)Content Based Image Retrieval)

Bag-of-words Bag-of-features

3

Page 4: Seminario Raissa Carol

BAG-OF-WORDS

� Aplicada em recuperação de informações textuais(RI -Information Retrieval)

� Cria um ”dicionário de palavras” responsávelpela categorização textual quando aplicado apela categorização textual quando aplicado arecuperação textual

� Estima a probabilidade de uma palavra estar emum determinado contexto

4

Page 5: Seminario Raissa Carol

BAG-OF-WORDS

� Usado para a representação de documentos: frequênciasde palavras de um dicionário.

Hoje é o dia dos namorados. O dia dos namorados é comemorado hoje. Feliz dia dos namorados!

Dicionário={1: "hoje"Dicionário={1: "hoje"2:" é"3: "dia"4: "dos"5: "namorados"6:" o"7:" comemorado"8: "feliz"}

[1 1 1 1 1 1 0 0][1 1 2 2 2 1 1 1]

5

Dicionário com 8

palavras visuais

Frequência das

palavras visuais

Page 6: Seminario Raissa Carol

BAG-OF-FEATURES

Fase 1• Extração de características

Fase 1• Extração de características

Fase 1• Extração de características

6

Fase 2• Aprendizado do vocabulário visual

Fase 3

•Quantificação dos recursos utilizando o vocabuláriovisual•Representação das imagens por meio das frequências depalavras visuais

Fase 2• Aprendizado do vocabulário visual

Fase 3

•Quantificação dos recursos utilizando o vocabuláriovisual•Representação das imagens por meio das frequências depalavras visuais

Fase 2• Aprendizado do vocabulário visual

Fase 3

•Quantificação dos recursos utilizando ovocabulário visual

•Representação das imagens por meio dasfrequências de palavras visuais

Page 7: Seminario Raissa Carol

BAG-OF-FEATURES – FASE 1

� Identificar trechos locais de interesse emum conjunto de imagens:

� Grid Regular [1],[2]� Detector de ponto de interesse [3],[2],[4]

Fase 1

� Detector de ponto de interesse [3],[2],[4]� Amostragem aleatória [5]� Segmentação baseada em fragmentos(“patches”) [6]

�Representação dos trechos locais(Descritores Visuais)

7

Page 8: Seminario Raissa Carol

IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS

Fase 1

� Grid Regular

8

Page 9: Seminario Raissa Carol

IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS

Fase 1

� Detector de pontos de interesse

9

Page 10: Seminario Raissa Carol

IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS

Fase 1

� Segmentação baseada em fragmentos(“patches”)

10Detecão de fragmentos (“patches”)

Page 11: Seminario Raissa Carol

REPRESENTAÇÃO DOS TRECHOS LOCAIS(DESCRITORES VISUAIS)

Fase 1

� SURF – Speeded Up Robust Features [7]

� SIFT – Scale Invariant Feature Tranform [8]

� GLOH – Gradient Location and Orientation

11

� GLOH – Gradient Location and OrientationHistogram [9]

� LESH – Local Energy based Shape

Histogram [10]

Page 12: Seminario Raissa Carol

BAG-OF-FEATURES – FASE 2� Agrupar as características extraídas doconjunto de imagens

� Clusterização: k-means

� Representação de uma palavra visual: centrode cada agrupamento

Fase 2

Representação de uma palavra visual: centrode cada agrupamento

� CODE BOOK: vocabulário visual compostopelas palavras visuais identificadas

� * Outras formas de gerar codebooks:

� Mapas auto-organizáveis [11]� Abordagem estatística [12]

12

Page 13: Seminario Raissa Carol

AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS

Fase 2

� Clusterização: k-means

13

Cada “patch” é representadopor um Vetor deCaracterísticas

Page 14: Seminario Raissa Carol

AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS

Fase 2

� Clusterização: k-means

Cada Vetor representaum ponto no espaçomulti-dimensional

14

multi-dimensional

Page 15: Seminario Raissa Carol

AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS

Fase 2

� Clusterização: k-means

15Clustering

Page 16: Seminario Raissa Carol

REPRESENTAÇÃO DE UMA PALAVRA VISUAL: CENTRO DE CADA AGRUPAMENTO

Fase 2 Palavra visual

1616Clustering

Page 17: Seminario Raissa Carol

CODE BOOK: VOCABULÁRIO VISUAL COMPOSTO

PELAS PALAVRAS VISUAIS IDENTIFICADAS

Fase 2

17

Page 18: Seminario Raissa Carol

BAG-OF-FEATURES – FASE 3

�Quantificação das ocorrências de cadapalavra visual em uma determinadaimagem

� Histograma: passa a ser a representação da

Fase 3

� Histograma: passa a ser a representação daimagem

�Aplicação de classificadores e/ou modelosde categorias para definir categorias paraimagens (Paisagens, fotos de carros,retrato de uma pessoa,…)

18

Page 19: Seminario Raissa Carol

QUANTIFICAÇÃO DAS OCORRÊNCIAS DE CADA

PALAVRA VISUAL EM UMA DETERMINADA

IMAGEM

Fase 3

� Histograma: passa a ser a representação daimagem

19

Page 20: Seminario Raissa Carol

APLICAÇÃO DE CLASSIFICADORES E/OUMODELOS DE CATEGORIAS PARA DEFINIR

CATEGORIAS PARA IMAGENS

Fase 3

� Redes neurais,� Sistemas Fuzzy,� Algoritmos genéticos,� Classificadores de Bayes� SVM (Support Vector Machine)

20

� SVM (Support Vector Machine)

Page 21: Seminario Raissa Carol

aprendizadoaprendizado

Detecção de características e representação

DicionárioDicionário de de

palavraspalavras visuaisvisuais

Representação da imagem

reconhecimentoreconhecimento

DecisãoDecisão::

categoriacategoria

Representação da imagem

ModelosModelos de de categorizaçãocategorização

(e/(e/ouou) ) classificadoresclassificadores21

Page 22: Seminario Raissa Carol

BAG-OF-FEATURES

Aplicações

Page 23: Seminario Raissa Carol

REPRESENTING AND RECOGNIZING THE VISUAL APPEARANCE OF

MATERIALS USING THREE-DIMENSIONAL TEXTONS

THOMAS LEUNG AND JITENDRA MALIK - 2001

� Problema:

23

Page 24: Seminario Raissa Carol

OBJETIVOS

� Construir um vocabulário de textons 3D

� Reconhecer na base de modelos uma imagem deum destes materiais sob uma nova visualizaçãoou iluminação.ou iluminação.

24

Page 25: Seminario Raissa Carol

BANCO DE FILTROS

Fig. 1: Total de 48 filtros

25

Page 26: Seminario Raissa Carol

TEXTONS 3D

26

Page 27: Seminario Raissa Carol

CONSTRUINDO O MODELO PARA CADAMATERIAL

� Para cada imagem da base de dados faça:� Encontre a distância mínima entre o vetor de textondo dicionário e o vetor resposta dos filtros no ponto

� Constrói o histograma

27

Page 28: Seminario Raissa Carol

RECONHECIMENTO DE TEXTURAMÚLTIPLAS IMAGENS

� Amostras de diferentes iluminações e visualização

� Os rótulos são calculados

O histograma é calculado� O histograma é calculado

� Achar a menor distância do histograma da amostra com o histograma do modelo

28

Page 29: Seminario Raissa Carol

Taxa de reconhecimento

29

reconhecimento global: 95,6%

Page 30: Seminario Raissa Carol

RECONHECIMENTO DE TEXTURAIMAGEM ÚNICA

� Problema:� Achar o rótulo do texton para cada pixel é difícil

� Características físicas diferentes podem ter a mesma aparênciaaparência

� Algoritmo Markov chain Monte Carlo (MCMC)

30

Page 31: Seminario Raissa Carol

MCMCMCMC

31

Page 32: Seminario Raissa Carol

Fig.2: Linha pontilhada material errado, linha contínua material correto

32

Page 33: Seminario Raissa Carol

87% raio de detecção

13% falso alarme

33

Page 34: Seminario Raissa Carol

A STATISTICAL APPROACH TO TEXTURECLASSICATION FROM SINGLE IMAGESMANIK VARMA AND ANDREW ZISSERMAN - 2004

34

Page 35: Seminario Raissa Carol

RESULTADOS

35

Page 36: Seminario Raissa Carol

ANÁLISE COMPARATIVA ENTRE DESCRITORES VISUAIS APLICADOS ÀSEGMENTAÇÃO EM CENAS

TAMIRES TESSAROLLI DE SOUZA 2011

K-MeansDicionário de palavras visuais

36

Para cada arquivo extrai novamente as características das imagens

Compara cada arquivo com o dicionário de palavras visuais

Page 37: Seminario Raissa Carol

RESULTADOS DA SEGMENTAÇÃOAUTOMÁTICA

37

Page 38: Seminario Raissa Carol

RESULTADOS

� Resultados similares com o Sift e o Surf

� Para limiares baixos, excesso de segmentação em cenas rápidas

� Para limiares muito altos, pouca segmentação em cenas lentas

38

Page 39: Seminario Raissa Carol

VOCABULÁRIOS VISUAIS APLICADOS A DETECÇÃO DEEDIFÍCIOS EM FOTOGRAFIAS HISTÓRICASNATÁLIA COSSE BATISTA 2009

39

Page 40: Seminario Raissa Carol

PROCESSO

Sift

CodebookCodebook

Histograma de palavras visuais 40

Page 41: Seminario Raissa Carol

RESULTADOS

Taxa de acerto

Matriz de confusão41

Page 42: Seminario Raissa Carol

NUDE DETECTION IN VIDEO USING BAG-OF-VISUAL-FEATURESANA PAULA B. LOPESY, SANDRA E. F. DE AVILA, ANDERSON N. A. PEIXOTO,RODRIGO S. OLIVEIRA, MARCELO DE M. COELHOZ AND ARNALDO DE A. ARAÚJOSIBGRAPI 2009

42

Page 43: Seminario Raissa Carol

MÉTODO

43

Page 44: Seminario Raissa Carol

RESULTADOS

44

Page 45: Seminario Raissa Carol

ROBUST FACE RECOGNITION USING BLOCK-BASED BAG OF

WORDS

ZISHENG LI JUN-ICHI IMAIMASAHIDE KANEKO - 2010

45

Page 46: Seminario Raissa Carol

MÉTODO

46

Page 47: Seminario Raissa Carol

EXEMPLO

47

Page 48: Seminario Raissa Carol

RESULTADOS

48

Page 49: Seminario Raissa Carol

RESULTADOS

49

Page 50: Seminario Raissa Carol

REFERÊNCIAS[1]Vogel, J.; Schiele, B. Natural scene retrieval based on a semantic modelingstep. In: Conference on image and video retrieval, 2004, Dublin, Irlanda.Proceedings...2004.

[2]Fei-Fei, L.; Perona, P. A Bayesian hierarchical model for learning naturalscene categories. In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, San Diego, CA, volume 2, pages 524-531,June 2005.

[3]Csurka, G.; Bray, C.; Dance, C.; Fan, L. Visual categorization with bags ofkeypoints. In Workshop on Statistical Learning in Computer Vision,keypoints. In Workshop on Statistical Learning in Computer Vision,ECCV, pages 1-22, 2004.

[4]Sivic, J.; Russell, B.; Efros, A.; Zisserman, A.; Freeman, W. Discoveringobject categories in image collections. Technical Report A. I. Memo 2005-005, Massachusetts Institute of Technology, 2005.

[5]Ullman, S.; Vidal-Naquet, M.; Sali, E. Visual features of intermediatecomplexity and their use in classification. Nature Neuroscience, v. 5, n. 7,2002, pp. 1-6.

[6]Barnard, K.; Duygulu, P.; Freitas, N.; Forsyth, D.; Blei, D.;Jordan, M. Matching words and pictures. JMLR, 3:1107-1135,February 2003.

50

Page 51: Seminario Raissa Carol

REFERÊNCIAS[7]Bay, H.; Tuytelaars, T.; Gool, L. V. SURF: Speeded Up Robust Features.CVIU, Vol.110, No. 3, pp. 346-359, 2008.

[8]Lowe, D. G. Distinctive image features from scale-invariant keypoints,Internacional Jornal of Computer Vision, v. 60, n. 2, p 91-110, 2004

[9]Mikolajczyk, K.; Schmid, C. A performance evaluation of local descriptors.IEEE Transactions on Pattern Analysis e Machine Intelligence, 27(10),pp. 1615–1630, 2005.pp. 1615–1630, 2005.

[10]Sarfraz, M. S.; Hellwich, O. Head pose estimation in face recognitionacross pose scenarios. In International conference on Computer VisionTheory and Applications, pp. 235–242, 2008

[11]Kinnunen, T. et al. Bag-of-Features Codebook Generation by Self-Organisation. In: Workshop on advances in self-organizing maps, 7, 2009,Berlim, Alemanha. Proceedings... Springer-Verlag: Berlim. 2009, pp. 124-132.

[12]Zhang, Y.; Jin, R.; Zhou, Z.-H. Understanding bag-of-words model: Astatistical framework. International Journal of Machine Learning andCybernetics, v.1, n.1, 2010, pp. 43-52. 51

Page 52: Seminario Raissa Carol

REFERÊNCIAS[13] T. Leung and J. Malik. Representing and recognizing the visualappearance of materials using three-dimensional textons. InternationalJournal of Computer Vision, 43(1):29-44, June 2001.

[14] M. Varma and A. Zisserman. A Statistical Approach to TextureClassication from Single Images. Kluwer Academic Publishers. 2004

[15] T. Tessarolli de Souza. Análise comparativa entre descritores visuaisaplicados à segmentação em cenas. Monografia de conclusão de curso.aplicados à segmentação em cenas. Monografia de conclusão de curso.ICMC Usp São Carlos, 2011.

[16] N. C. Batista. Vocabulários visuais aplicados à detecção de edifícios emfotografias históricas. Dissertação de mestrado. UFMG, 2009.

[17] A. P. B. Lopes, S. E. F de Avila, A. N. M. Peixoto, R. S. Oliveira, M. M.Coelho, A. A. Araujo. XXII Brazilian Symposium on Computer Graphicsand Image Processing, 2009;

[18] Z. Lie, J. Imai and M. Kaneko. Robust Face Recognition Using Block-based Bag of Words. 2010 International Conference on PatternRecognition

52

Page 53: Seminario Raissa Carol

53