Recuperação Multimodal de Imagens Com Realimentação de...
Transcript of Recuperação Multimodal de Imagens Com Realimentação de...
1
Recuperação Multimodal de Imagens ComRealimentação de Relevância Baseada em
Programação Genética
Rodrigo Tripodi [email protected]
Orientador: Ricardo da Silva [email protected]
Defesa de MestradoInstituto de Computação - Unicamp
2
Roteiro● Introdução● Conceitos e Trabalhos Correlatos● Arcabouço RFCore● Arcabouço MMRF-GP● Recuperação Multimodal de Imagens● Conclusões e Trabalhos Futuros
3
Introdução● Grandes coleções de imagens● Múltiplas informações● Diversos contextos● Necessidade de meios eficientes de
recuperação● Adaptação a diferentes usuários
4
Introdução
● Recuperação de Imagens● Baseada em texto
– Metadados e palavras-chave– Anotação
● Baseada em conteúdo– Propriedades visuais– Descritores de imagens (δ, ε)
5
Objetivos
● Estudo de técnicas de RR e recuperação multimodal
● Arcabouço para RR
● RR multimodal baseada em programação genética (PG)
● Recuperação de imagens com RR baseada em PG para combinação de evidências textuais e visuais
6
Conceitos e Trabalhos Correlatos
● Recuperação textual de imagens
● Recuperação de imagens por conteúdo
● Recuperação multimodal
● Programação genética
● Realimentação de relevância
7
Recuperação Textual de Imagens● Informações associadas
● Páginas web● Legendas● Palavras-chave● Descrições textuais
● Modelo Vetorial● Coleção com t termos● d
i=(w
i1, w
i2, … , w
it )
● tf*idf
8
Recuperação de Imagens por Conteúdo
9
Recuperação de Imagens por ConteúdoDescritor simples
10
Recuperação de Imagens por ConteúdoDescritor composto
11
Recuperação Unimodal de Imagens● Modalidade de consultas● Dificuldades:
● Abordagem Textual– Custo e subjetividade da anotação– Sinônimos e polissemia
● Abordagem visual– Imagem de exemplo– Gap semântico
12
Recuperação Multimodal● Busca:
● Usufruir das vantagens e● Atenuar as desvantagens das modalidades
● Efeito Chorus● Aplicações
● Dados multimídia: recuperação de vídeos
13
Programação Genética● Herança biológica, evolução e seleção natural● População de indivíduos
● Soluções potenciais● Operadores
● Reprodução● Crossover● Mutação
14
Programação Genética
15
Realimentação de Relevância● Adaptação às necessidades do usuário
● Ajuste de parâmetros● Conhecimento de baixo nível
● Interação com usuário● Julgamento dos itens do resultado● Reformulação automática da consulta
16
Arcabouço RFCore - Motivação● Aplicações da RR
● Recuperação● Classificação● Recomendação ● Agrupamento
● Técnicas● Redes neurais● SVM● Programação genética● Inferência bayesiana
●
17
Arcabouço RFCore - Motivação● Experimentos
● Curto espaço de tempo● Comparativos adequados
– Diferentes técnicas– Algoritmos/Parâmetros– Medidas de avaliação
18
Arcabouço RFCore● Encapsula o algoritmo de RR● Objetivos
● Reutilização de código● Construção dinâmica de experimentos● Infra-estrutura de RR para manipulação de objetos
digitais● Implementação de Referência
● Java● API de reflexão
19
Arcabouço RFCoreRFEngine
20
Arcabouço RFCoreRFEngine
21
Arcabouço MMRF-GP● Multimodal Relevance Feedback Based on
Genetic Programming● Proposta por Ferreira et al● Similaridade entre objetos digitais
● Diferentes modalidades– Diferentes medidas
22
MMRF-GP
PG
23
Conjunto Inicial de Objetos
24
Funções Similaridade● Implementado usando JGAP● Indivíduos: funções de combinação● Ex.:
25
Funções Similaridade
Avaliação dos indivíduos● Capacidade de melhor ordenar o conjunto de
treinamento dado o padrão de consulta● Conjunto de treinamento:
– Imagens relevantes– Últimos objetos exibidos– Aleatoriamente escolhidos
26
Funções Similaridade
● Dada uma função δi
● Padrão de consulta qj
● Listas ordenadas rkjδ
i
● Valor de qualidade para os L primeiros objetos
27
Ordenação da coleção● Conjunto de indivíduos● Seleção:● Votação
28
MMRF-GP ( Validação )● Recuperação Multimodal de Imagens● Coleções
● UW– 1109 imagens– 20 categorias– Anotação: palavras-chave– 110 consultas aleatórias (1 imagem + palavras-chave)
● ImageCLEFphoto 2008 (IC08)– 20k imagens– Anotação: descrição textual– 60 consultas (3 images + palavras)
29
Simulação do usuário● UW
● Categorias● IC08
● Conjunto de relevantes esperadas para cada consulta
30
UW - Exemplos
31
IC08 - Exemplo
32
Descritores de Imagens
● UW: BIC, GCH, JAC, HTD, LAS e QCCH● IC08: ACC, BIC, GCH, JAC, CCOM, LAS, e
QCCH
33
Medidas de Similaridade Textual
● BOW● Tfidf-sum● Cosseno● Okapi● Dice● Jackard
34
Parâmetros
Parâmetros usados por Ferreira et al
35
Parâmetros
Terminais: similaridades dos descritores e similariades textuais
Parâmetros usados por Ferreira et al
36
Medidas de Avaliação
● P20● Precisão x Revocação● MAP● GMAP● Bpref
37
Técnicas de Realimentação de Relevância
Tipo Relimentação de Relevância
Conjunto Inicial
mm-mm Recuperação Multimodal mm mm
mm-txt Recuperação Multimodal com início textual
mm txt
mm-vis Recuperação Multimodal com início visual
mm vis
txt Recuperação Textual txt txt
vis Recuperação Visual vis vis
txt mmmm-txt
38
MMRF-GP
mm
txtmm-txt
39
Resultados - UW
● mm-mm: 9% melhor que vis● mm-mm: 2,5% melhor de txt
40
Resultados - UW● Precisão elevada● Homogeneidade visual e textual● P20 média 99%
41
Resultados - UW
42
Resultados - UW
● Outliers visuais● Anotação palavras-chave → outliers textuais
43
Resultados IC08
● mm-mm: ganho de 110% sobre a vis e 85% sobre a txt● mm-vis: 6% ganho sobre a mm-txt
44
Resultados IC08
vis
39
45
Resultados IC08
● Pequeno conjunto com características visuais altamente semelhantes
46
Resultados IC08
● 20k imagens● Relevantes ≈ 60 → 0,3%● Variedade visual da coleção → textual
● ImageCLEF 2006, 2007, 2008.
47
Resultados IC08
Apenas o campo descrição (título, data, fornecedor, notas, etc.)
48
Resultados IC08
57%70%
54%
49
Resultados IC08
21%
8%
8%
50
Exemplos de Funções
51
Conclusões● Combinação de diferentes modalidades e
evidências
● Realimentação de Relevância
● Programação Genética
52
Conclusões● Principais Contribuições
● Arcabouços– RFCore
● Realimentação de relevância genérica– MMRF-GP
● Recuperação de objetos digitais
● Recuperação Multimodal de Imagens com RR e PG● Submissão: A Genetic Programming Approach for
Coffee Crop Recognition (IGARSS 2010)
53
Conclusões● Experimentos
● UW e IC08● Resultados superiores da multimodalidade● Desempenho superior do MMRF-GP frente
ICphoto08
54
Trabalhos Futuros● Arcabouços● Recuperação de Imagens● Programação Genética
55
Trabalhos FuturosArcabouços
● Outros tipos de objetos digitais
● Exemplos negativos ou variados níveis
● Uso de técnicas de recuperação unimodais na construção do conjunto inicial
56
Trabalhos FuturosRecuperação de Imagens
● Métricas de similaridade textual aplicadas sobre dicionários visuais
● Técnicas híbridas de aprendizado● ex.: SVM para o conjunto inicial
● Agrupamento● Resultados relevantes e diversos
● Imagens médicas ● Medical Image Retrieval Task – CLEF
● Avaliação com usuários reais
57
Trabalhos FuturosRecuperação de Imagens
● Novos descritores:● Globais x locais● Pontos de interesse
● Novos terminais textuais● ACC
● Pré-processamento de consultas textuais● Expansão● Busca multilíngue
● Busca em páginas web
58
Trabalhos FuturosProgramação Genética
● Estudo do espaço paramétrico● Análise estatística da importância dos diferentes
parâmetros● Diferentes operadores aritméticos● Novos operadores
● Condicionais● Laços
● Constantes
59
Agradecimentos● Professor Ricardo da Silva Torres● Professora Claudia Medeiros● CNPq, Capes, FAPESP● LIS● IC-UNICAMP
60
Recuperação Multimodal de Imagens ComRealimentação de Relevância Baseada em
Programação Genética
Rodrigo Tripodi [email protected]
Orientador: Ricardo da Silva [email protected]
Instituto de Computação - Unicamp
Obrigado!
61
Slides Extras
62
Correlatos
63
Recuperação Multimodal● Early fusion
● Única representação de características
● Late fusion● Combinação dos resultados das modalidades
64
Recuperação Multimodal de ImagensTrabalhos Correlatos
65
Programação GenéticaReprodução
Gi Gi+1
66
Programação GenéticaCrossover
67
Programação GenéticaCrossover
68
Programação GenéticaCrossover
69
Programação GenéticaMutação
70
Programação GenéticaMutação
71
Programação GenéticaMutação
72
Realimentação de RelevânciaTrabalhos Correlatos
73
RFCore
74
Arcabouço RFCoreAlgoritimo de Realimentação de Relevância
75
Módulos do RFCore
76
Realimentação de RelevânciaColeções
77
Recuperação Multimodal de ImagensColeções
78
MMRF-GP
79
Arcabouço MMRF-GPDefinições
● Coleção:
● Medidas de similaridade:
● msio
ko
j= MS
i(o
k,o
j)
● Função composta:
80
Arcabouço MMRF-GP
81
Arcabouço MMRF-GP
82
Definição do conjunto de treinamento
83
Experimentos
84
Medidas de Similaridade Textual
85
Medidas de Avaliação● Precisão
● Revocação
86
Medidas de Avaliação● Precisão Média
● Mean Average Precision
87
Medidas de Avaliação● Geometric MAP (GMAP)
88
Função decrescente
89
Exemplos de Consultas
90
Consulta IC08
● Consulta: “lighthouse at the sea”● Resultado esperado: Relevant images will show lighthouses
near the sea (the sea must be visible in the image). Images of lighthouses without water in the foreground or background are not relevant. Images of the sea without a lighthouse are not relevant
91
Consulta IC08busca visual – conjunto inicial
92
Consulta IC08busca visual – resultado (0.0794)
93
Consulta IC08busca textual – conjunto inicial
lighthouse at the sea
a black and white lighthouse at a grey and white fortress on a peninsula in the sea
a sandy beach with some houses and a rocky hill with a lighthouse in the background; the sea is on the right
palm trees at the sea Palm trees and the sea
a sunset at the sea
a sandy beach at the sea
94
Consulta IC08busca textual – resultado (0.5476)
a black and white lighthouse at a grey and white fortress on a peninsula in the sea
a sandy beach with some houses and a rocky hill with a lighthouse in the background; the sea is on the right
a red-white-red lighthouse on a rock in a channel
People are walking on a brown breakwater at the sea; a rock with a white lighthouse behind it; white clouds in the blue sky in the background
a sign with a picture of a brown steep coast and a white lighthouse, in front of a large green bush with a grey sky in the background
a man is walking on a path in front of a red and white lighthouse; a meadow and a grey rock in the foreground; the sea, a grey rocky bank and a blue sky in the background
lighthouse at the sea
95
Consulta IC08busca multimodal – conjunto inicial
lighthouse at the sea
a white lighthouse with a grey road, a brown monument, a green lawn, dark green bushes and a path with a white railing in front of it and a dark blue sea with a grey sky in the background
a black and white lighthouse at a grey and white fortress on a peninsula in the sea
palm trees at the sea
a path in a meadow in the foreground; a house, a tree, a white lighthouse, an Australian flag and dark green bushes behind it; the sea and a grey sky in the background
a tree at a sandy beach at the sea
a sandy beach with some houses and a rocky hill with a lighthouse in the background; the sea is on the right
96
Consulta IC08busca textual – resultado (0.7245)
lighthouse at the sea
a white lighthouse with a grey road, a brown monument, a green lawn, dark green bushes and a path with a white railing in front of it and a dark blue sea with a grey sky in the background
a black and white lighthouse at a grey and white fortress on a peninsula in the sea
a path in a meadow in the foreground; a house, a tree, a white lighthouse, an Australian flag and dark green bushes behind it; the sea and a grey sky in the background
a sandy beach with some houses and a rocky hill with a lighthouse in the background; the sea is on the right
a red-white-red lighthouse on a rock in a channel
a red-white-red lighthouse on a greyish-brown island surrounded by water in the foreground; snow-covered mountains behind it and grey clouds in the background
97
Outliers na UW
bushes, flowers, trees, grasstrees, bushers, fern
clear sky, trees, bushes, grass, people, dogs
trees, bushes, grass, street, cars, pole
98
Outliers na UW
Clear Sky, Snow, Mountains, Rockes Snow, Mountains, RockesClear Sky, Snow, Rockes
clouds harbour ship water mountain sky street trees water mountain sky trees water
forest rocks