Rotulação automática de imagens utilizando classificação ... · Particularmente no caso de...
Transcript of Rotulação automática de imagens utilizando classificação ... · Particularmente no caso de...
SBBD – Simpósio Brasileiro de Banco de Dados
Rotulação automática de imagens utilizando classificação
multirrótulo
Daniel de Moraes Navarro, Ronaldo Cristiano Prati
Universidade Federal do ABC [email protected], [email protected]
Resumo. O objetivo deste trabalho é a construção de um sistema de anotação automática (rotulação) de imagens capaz de
extrair informações (características) dessas imagens e de utilizar Aprendizado de Máquina (AM) multirrótulo com as
informações extraídas para a tarefa de rotulação. AM multirrótulo é adequado dentro desse contexto pois na classificação
multirrótulo mais de um rótulo pode ser atribuído a cada novo objeto a ser classificado, situação comum em rotulação de
imagens. Foram realizados experimentos com algoritmos multirrótulo baseados em vizinhança e com diferentes extratores
de características (e combinações desses extratores) em uma base de dados de imagens da cidade de Barcelona, que
mostraram resultados iniciais promissores.
Categories and Subject Descriptors: H. Information Systems [H.2.8 Database Applications]: Data Mining
Palavras-Chave: Mineração de Dados, Anotação de Imagens, Aprendizado de Máquina Multirrótulo
1. INTRODUÇÃO
Com avanço de tecnologias que aceleram o desenvolvimento e a criação de novos métodos e técnicas
de busca, identificação e obtenção de dados, uma vasta quantidade de informação está sendo coletada
e acumulada numa velocidade espantosa. No entanto, independente de quais setores da sociedade
produzam essas informações, elas devem ser previamente processadas e modeladas na forma de
sistemas que se adaptem ao fim desejado, dificilmente permitindo sua imediata utilização como
resultado final a que se destinou sua busca, produção e armazenamento. Apesar de as ferramentas
existentes suportarem a modelagem desses dados, a considerável elevação do custo e tempo deste
processamento evidencia a necessidade de uma reestruturação do processo tradicional de modelagem
de sistemas que, indubitavelmente, deve considerar a automatização do processo de análise de dados.
Tratando-se de um grande volume de dados, algoritmos de Aprendizado de Máquina (AM) podem
ser utilizados para extrair conhecimento utilizando Mineração de Dados (DM), visando fazer com que
um computador possa ter seu desempenho aperfeiçoado em alguma tarefa através da indução de
maneira (semi)automática um modelo a partir de dados [Mitchell 1997].
Particularmente no caso de imagens digitais, pode-se observar a crescente importância e o interesse
em ferramentas de processamento e extração de informações desses arquivos através, por exemplo, da
quantidade de modelos para recuperação de imagens baseada em seu conteúdo que estão sendo
investigados. Outra solução comumente adotada nestes casos e utilizada até mesmo por diversas
organizações para classificação, indexação e posteriormente recuperação de imagens é a chamada
anotação de imagens, que consiste na anotação manual de rótulos (ou palavras-chave) às imagens
digitais através de metadados, de acordo com a sua representatividade e o seu conteúdo, retornando
imagens de acordo com buscas nestas anotações. No entanto, mesmo que esse modelo permita a
recuperação de arquivos baseada em conceitos semânticos, o processo de anotação manual das
imagens é excessivamente trabalhoso e de alto custo e, na maioria dos casos, não garante o correto
retorno das informações que se procura [Jeon et al. 2003].
89
SBBD – Simpósio Brasileiro de Banco de Dados
Como solução para o processo de anotação automática de imagens, onde um sistema computacional
realiza essa associação de rótulos ou palavras-chave para uma imagem digital [Li and Wang, 2003],
uma das abordagens investigadas é a aplicação de técnicas de mineração de dados, em particular
algoritmos de AM, na identificação de ocorrências de um determinado assunto nas imagens,
viabilizando a correta recuperação dessas imagens. Algoritmos tradicionais de AM geralmente
possuem como entrada um conjunto de exemplos, no qual cada exemplo é composto por um vetor de
atributos (características). Em AM supervisionado existe um atributo especial, denominado atributo
classe, que pode assumir uma das possíveis classes. Muitos problemas reais, no entanto, não podem
ser modelados dessa maneira. O problema de rotulação de imagens, por exemplo, é inerentemente
multirrótulo, pois vários rótulos podem estar associados a uma única imagem. Diferentemente das
abordagens tradicionais de AM supervisionada, em aprendizado multirrótulo [Tsoumakas et al., 2010]
mais de um rótulo pode ser atribuído ao novo objeto a ser rotulado, de maneira que é possível atribuir
um subconjunto dos rótulos disponíveis.
Algoritmos de AM, no entanto, não lidam diretamente com arquivos multimídia, tais como imagens.
Para poder aplicar algoritmos de AM é necessário o processamento de imagens para extrair
automaticamente as características mais relevantes dessas imagens, que são geralmente representadas
por valores numéricos. Existem diversas abordagens para a extração de características que são
baseadas, geralmente, em cor, textura, e forma. Por ser uma área de pesquisa relativamente nova,
existem poucos estudos com o objetivo de avaliar quais extratores de características são adequados
para a aplicação conjunta com algoritmos de AM multirrótulo. Neste trabalho, desenvolvemos um
protótipo de ferramenta para a rotulação automática de imagens por meio de AM multirrótulo e um
estudo experimental com o objetivo de avaliar a combinação de diferentes extratores de características
de imagens dentro do contexto de AM multirrótulo e suas influências na capacidade de aprendizado e
de rotulação automática de imagens.
Este artigo está organizado da seguinte maneira: na Seção 2 são descritos os algoritmos de AM
multirrótulo baseados em vizinhança utilizados neste trabalho. Na Seção 3 são descritos os seis
extratores de caraterísticas utilizados para extrair características das imagens. Não Seção 4 é
apresentada a avaliação experimental e na Seção 5 são apresentadas as conclusões e trabalhos futuros.
2. ALGORITMOS DE APRENDIZADO DE MÁQUINA MULTIRRÓTULO BASEADOS EM
ALGORITMOS DE VIZINHANÇA
Dentre as diversas técnicas de AM existentes utilizadas para a classificação de padrões, encontram-se
os algoritmos baseados na regra do vizinho mais próximo (NN, na sigla em inglês para Nearest
Neighbor). Algoritmos que seguem a regra do vizinho mais próximo aplicam uma técnica de
estimação de densidade local que permite a classificação eficiente de padrões através de conceitos
simples e de fácil implementação, apesar de exigirem razoável quantidade de memória computacional
e de tempo de processamento. Neste caso, a classificação de padrões é feita em dois estágios: no
primeiro, chamado de estágio de treinamento, todos os padrões de uma base de dados são
armazenados na memória, enquanto que, no segundo estágio, denominado estágio de teste, novos
exemplos cuja classe é desconhecida podem ser classificados com base no seu vizinho, determinando
para cada exemplo pertencente ao conjunto de padrões da base de teste um exemplo do conjunto da
base de treinamento que possua a menor distância (geralmente euclidiana) entre eles, ou seja, seu
“vizinho mais próximo”, classificando este exemplo como pertencente à respectiva classe do exemplo
da base de treinamento. Na fase de teste, se as classes corretas do conjunto de teste são conhecidas é
possível calcular a taxa de erro ou outras medidas de desempenho do classificador para o conjunto de
teste utilizado [Bezerra 2006].
Algoritmos que seguem a regra dos k vizinhos mais próximos (kNN, na sigla em inglês para k-Nearest Neighbor) surgiram como proposta de solução para o problema de alta sensibilidade a ruídos
90
durante a classificação dos algoritmos NN tradicionais, ocorrendo uma modificação no estágio de teste
destes algoritmos: são utilizados uma quantidade determinada de k vizinhos mais próximos ao
exemplo em questão, e não apenas a um único vizinho mais próximo, conforme a proposta original. A
classificação do exemplo, nesse caso, ocorre a partir da estimativa da classe que aparece com maior
frequência entre os seus k vizinhos, uma vez que os exemplos de treinamento estão armazenados em
memória como pontos de um espaço com dimensão igual ao número de atributos que as descrevem.
Recentemente, essas ideias foram extrapoladas para o caso de aprendizado multirrótulo como o ML-
kNN [Zhang and Zhou 2007], o BR-kNN [Spyromitros et al. 2008] e o IBLR-ML [Cheng and
Hüllermeier 2009]. Como dito anteriormente, em aprendizado multirrótulo, mais de uma classe pode
ser atribuída a um único exemplo na fase de testes. Aprendizado multirrótulo é geralmente abordado
de duas maneiras [Tsoumakas et al., 2010]: (a) métodos de transformação de dados e (b) métodos que
adaptam algoritmos tradicionais. No primeiro caso, o espaço de entrada é transformado de tal maneira
a deixá-lo adequado ao uso de algoritmos de aprendizado tradicionais e no segundo, algoritmos
tradicionais são adaptados para o caso multirrótulo.
Uma adaptação do algoritmo kNN para uma abordagem multirrótulo é o chamado algoritmo ML-
kNN (Multi-Label k-Nearest Neighbor). Nesse caso, analogamente ao funcionamento do algoritmo
kNN, os k vizinhos mais próximos de cada exemplo são identificados e os rótulos de cada exemplo do
conjunto de teste são determinados a partir de informações estatísticas obtidas do conjunto de
atributos dos k vizinhos identificados utilizando o Princípio do Maximum a Posteriori (MAP) [Zhang
and Zhou 2007].
O Algoritmo BR-kNN (Binary Relevance k-Nearest Neighbor), que é outra proposta derivada do
Algoritmo kNN para classificação multirrótulo, por sua vez, combina os conceitos do método de
transformação do problema para classificação binária (Binary Relevance) com os conceitos do
algoritmo kNN, possuindo resultado equivalente à execução de um algoritmo de classificação binária
seguida pela execução de um algoritmo kNN. No entanto, no caso desta sequência de execução,
seriam calculados os k vizinhos mais próximos para cada um dos rótulos possíveis, aumentando muito
o custo computacional com cálculos redundantes (ainda pior com o crescimento do número de
elementos a serem rotulados). Essa deficiência não ocorre ao utilizar o algoritmo BR-kNN, pois ele
elimina redundâncias. Além disso, a classificação através do algoritmo BR-kNN pode ser feita através
de duas implementações: a primeira (BR-kNN-a) utiliza um parâmetro pontuação de confiança para
cada rótulo (através da porcentagem dos k vizinhos próximos que os possuem) e a segunda (BR-kNN-
b) calcula o tamanho s dos conjuntos de rótulos de cada um dos k vizinhos mais próximos e, em
seguida, retorna a quantidade s de rótulos com maior valor do parâmetro de confiança [Spyromitros et
al. 2008].
Por fim, o algoritmo IBLR-ML (Instance-Based Learning by Logistic Regression) é uma proposta
que supera algumas limitações do algoritmo ML-kNN, como a interdependência entre classes dos
rótulos tratados. Para isso, utiliza Aprendizado Baseado em Exemplo (Instance-Based Learning) com
Regressão Logística (Logistic Regression), considerando informações de exemplos similares do
conjunto de treinamento como atributos do exemplo a ser classificado, diminuindo a distinção entre
aprendizado baseado em exemplo e aprendizado baseado em modelos. Ou seja, essa abordagem
considera os rótulos dos exemplos vizinhos como atributos do elemento que deve ser rotulado e, a
partir do cálculo da probabilidade de que dois elementos a uma determinada distância (suficiente para
que seja possível que possuam informação sobre outro) tenham o mesmo rótulo, são aplicados os
mesmos procedimentos do algoritmo NN, com a diferença que, neste caso, o parâmetro utilizado para
a classificação é um valor contínuo representando a probabilidade calculada na regressão logística
[Cheng and Hüllermeier 2009].
91
SBBD – Simpósio Brasileiro de Banco de Dados
3. EXTRATORES DE CARACTERÍSTICAS DE IMAGENS
Uma vez que algoritmos de AM não trabalham diretamente com documentos multimídia, tais como
imagens, vídeo, som e texto, é necessária uma etapa de pré-processamento para extração de
características desses documentos para que seja possível a aplicação desses algoritmos. Dentre os
diversos algoritmos e técnicas de extração de características de imagens digitais existentes, neste
trabalho foram avaliados o Chain Code, os Histogramas de Cores, os Descritores de Fourier, os Filtros
Gabor, os Momentos de Imagem e a K-curvature, sendo que outros vêm sendo implementados. Nesta
seção descrevemos brevemente o funcionamento desses extratores.
O Chain Code (CC) é um tipo clássico de algoritmo computacional aplicado na representação da
forma de objetos, sendo amplamente utilizado, por exemplo, na visão computacional de robôs,
utilizando-se conjuntamente redes neurais [Anderson and Shapiro 2006]. No Chain Code, uma forma
(shape) pode ser representada unicamente por seus limites, onde a direção do vetor entre os pixels
sucessivos do contorno são codificados. O Chain Code mais comumente utilizado possui 4 ou 8
direções, baseando-se na indicação da conectividade. Tipicamente, o Chain Code contém o endereço
do pixel de início seguido da sequência codificada dos pixels de contorno [Dai et al. 1992].
Os Histogramas de Cor (Color Histograms - CH) são estruturas acumulativas caracterizadas por
armazenar a frequência de ocorrência de cada uma das cores existentes em uma imagem, sendo muito
utilizado no processamento de imagens digitais. Geralmente utilizando as três cores fundamentais
vermelho, verde e azul (RGB, na sigla em inglês), a frequência dessas cores é quantificada através da
quantidade de vezes que determinada cor aparece na imagem, geralmente verificando a cor de cada
um dos pixels da imagem [Lira and Pacífico 2010].
Descritores de imagens são conjuntos de números gerados para descrever uma forma ou fronteira de
uma imagem e constituem uma das maneiras de representação de imagens mais populares para
aplicações de visão computacional e reconhecimento de padrões, como formas ou fronteiras [Costa
and Cesar 2001], apesar de não constituírem um método simples, mas uma classe de métodos, pois
existem diferentes maneiras de defini-los, como através da aplicação de transformadas de Fourier, de
onde se obtém os chamados Descritores de Fourier (Fourier Descriptors - FD). Os descritores, em
geral, não são capazes de reconstituir a forma descrita de maneira completa, mas devem sempre ser
suficientes para permitir a diferenciação entre uma forma e outra [Stivanello and Gomes 2006].
Filtros Gabor (Gabor Filter - GF) caracterizam um sinal, como o representante da textura de uma
imagem, simultaneamente nos domínios do tempo (ou do espaço) e da frequência através de
determinadas funções que atingem conjuntamente um limite inferior. Dessa maneira, imagens
distintas, porém de textura semelhante devem possuir frequências parecidas e, portanto, os mesmos
filtros que permitem a visualização de detalhes em uma imagem farão o mesmo em outras imagens
semelhantes. Essa filtragem possibilita a comparação entre imagens através da comparação de
características extraídas das imagens filtradas, como medidas estatísticas, que terão valores
aproximados caso possuam semelhança em suas texturas enquanto que, caso não possuam,
apresentarão valores divergentes [Martins and Guimarães 2002; Crespi and Tecchiolli 1999].
Momentos de Imagem (Image Moments - IM), por sua vez, constituem um método de extração de
características de imagem baseado nos chamados momentos estatísticos da imagem, que são
caracterizados por valores numéricos calculados por funções aplicadas a imagens previamente
segmentadas. Tais valores numéricos descrevem a distribuição espacial dos pontos que constituem a
imagem e podem ser compreendidos com maior facilidade de interpretarmos a imagem como um
conjunto de pontos (pixels) em um plano cartesiano de maneira que suas coordenadas representam sua
posição na imagem e uma determinada função retorna um dado valor (1, por exemplo) para cada um
dos pixels que pertencerem à região de interesse e um outro valor (0, por exemplo), caso contrário
[Souza and Pistori 1999].
92
Por fim, o extrator de características de imagens K-curvature (KC) utiliza uma função que
determina o valor de uma curvatura k em função do comprimento de arco c de uma figura. Existem
diversas especificações de k-Curvatures com propriedades específicas, como a k-Curvature
homogênea, que apresenta a propriedade de isomorfismo, isto é, o tensor (métrica de curvatura) e
derivados covariantes até a ordem k do tensor de curvatura possuem a mesma aparência em cada ponto
da imagem [Gilkey and Nikcevic 1995].
4. DESENVOLVIMENTO
Neste projeto foi desenvolvida uma ferramenta, implementada em JAVA, capaz de analisar e extrair
características de um conjunto de imagens de maneira que os dados obtidos a partir da execução desta
ferramenta são disponibilizados em um arquivo devidamente formatado como um arquivo Attribute-
Relation File Format (ARFF), utilizado como entrada no pacote de classificação multirrótulo
MULAN1 [Tsoumakas et al., 2011], que possui algoritmos de AM multirrótulo para diferentes
extratores de características de imagens e combinações entre eles, possibilitando a avaliação do
aprendizado e da classificação das imagens para cada caso. Na subseção 4.1 são descritas a
configuração experimental e as especificações dos arquivos e dados gerados pela execução dos
experimentos e na subseção 4.2 são apresentados e discutidos os resultados obtidos e as avaliações
realizadas. Em todos os experimentos foi utilizada distância euclidiana e o número de vizinhos foi
fixado em 10 para os três algoritmos de aprendizado aplicados.
4.1 Configuração Experimental
O funcionamento da ferramenta desenvolvida pode ser descrito, sucintamente, pelo prévio
processamento de coleções de imagens para extração de características e sua integração com o
software MULAN, que possui um conjunto de algoritmos de diversas técnicas de DM, explorando
principalmente métodos de AM.
O processamento das imagens digitais é realizado através da aplicação de extratores de
características, executados individualmente, a uma coleção de imagens armazenadas em um diretório
raiz predefinido. Na execução de cada um desses extratores as imagens são processadas de maneira
independente e, após todas as imagens serem processadas, os respectivos valores das características
extraídas são utilizados como atributos, junto com os rótulos previamente conhecidos e identificados
para cada imagem, gerando um arquivo ARFF usado como entrada para o MULAN. Esse processo é
representado esquematicamente na Figura 1: em (a) é mostrada a imagem que será processada; em (b)
cada uma das imagens é processada de maneira independente, resultando em um conjunto de valores
das características extraídas para esta mesma imagem; em (c) os valores resultantes do processamento
e dos rótulos das imagens são disponibilizados para escrita e geração de um arquivo ARFF.
Fig. 1. Representação esquemática do processamento da coleção de imagens
1 Extensão multirrótulo do pacote WEKA [Witten et al., 2011], disponível em http://mulan.sourceforge.net/
93
SBBD – Simpósio Brasileiro de Banco de Dados
A ferramenta vem sendo desenvolvida utilizando o paradigma de orientação a objeto, de maneira
que novos algoritmos para extração de características possam ser facilmente incorporados. Também é
possível combinar dois ou mais extratores de características, de maneira que diferentes combinações
de extratores de características podem ser facilmente testadas.
4.2 Resultados
Para validar nossa abordagem foram realizados experimentos utilizando uma base de dados composta
por 138 imagens de cenas urbanas da cidade de Barcelona [Singh et al., 2008] previamente anotadas
com quatro rótulos: Buildings, Flora, People e Sky. Cada imagem dessa base possui no mínimo dois e
no máximo quatro rótulos, e cada rótulo está presente em pelo menos 60 imagens.
Na Tabela I são apresentados os resultados das medidas de avaliação, bem como o desvio-padrão
correspondente, para Hamming Loss, Example-Based Precision e Average Precision para os extratores
aplicados individualmente, sendo que os nomes dos extratores estão abreviados pelas respectivas
iniciais. Hamming Loss é a média, sobre todos os exemplos, da “distância de Hamming”, ou seja, a
diferença simétrica (equivalente a uma operação Ou Exclusivo de conjuntos) entre o conjunto de
rótulos preditos com relação aos rótulos reais. Quanto menor o valor de Hamming Loss, menor a
diferença entre os rótulos preditos dos reais e melhor é o desempenho do classificador. Example-
Based Precision corresponde à média sobre o conjunto de exemplos da taxa que os rótulos preditos
são realmente rótulos reais. Quanto mais alto o valor, maior é a proporção que um rótulo predito
realmente deveria der sido predito. Average Precision compara a proporção de rótulos “não intrusos”
em uma lista ordenada dos rótulos preditos. Para cada rótulo y, é calculada a fração dos rótulos não
intrusos, tomando como ponto de corte a posição do rótulo y na lista ordenada. Os resultados foram
obtidos por meio de validação cruzada com 10 partições, utilizando os algoritmos de AM multirrótulo
descritos na Seção 2 e aplicando os algoritmos de extração de características descritos na Seção 3.
Concentramo-nos em algoritmos de AM baseados em vizinhança, pois essa família é normalmente
utilizada em tarefas de recuperação de imagens baseada em conteúdo, mas qualquer algoritmo do
MULAN poderia ter sido utilizado. O melhor valor de cada medida está destacado em negrito.
Tabela I. Avaliação com Extratores aplicados individualmente
Em geral, os métodos tiveram um desempenho semelhante com o BR-kNN, apresentando um
melhor desempenho em termos de Hamming Loss e Example-Based Precision com o extrator de
características kC. Essa combinação acerta um maior número de rótulos, mas também deve prever um
maior número de rótulos intrusos para cada imagem, pois seu Average Precision é menor002C
comparativamente com as outras combinações. O IBLR-ML, em contrapartida, obteve Average
IM GF CH CC FD kC
0,3408±0,0745 0,3548±0,0624 0,3126±0,0741 0,3549±0,0727 0,3541±0,0612 0,3382±0,0663
0,7348±0,0737 0,7292±0,0700 0,7568±0,0794 0,7393±0,0935 0,7173±0,0699 0,7167±0,0794
0,8880±0,0453 0,8808±0,0402 0,8822±0,0570 0,8752±0,0442 0,8709±0,0500 0,8774±0,0404
0,3442±0,0603 0,3514±0,0383 0,3446±0,0693 0,3495±0,0405 0,3742±0,0686 0,3019±0,0620
0,7388±0,0610 0,7294±0,0804 0,7272±0,0730 0,7495±0,0625 0,7462±0,0817 0,7680±0,0470
0,8725±0,0358 0,8768±0,0411 0,8609±0,0534 0,8803±0,0485 0,8538±0,0486 0,8586±0,0588
0,3109±0,0629 0,3691±0,0492 0,3126±0,0807 0,3371±0,0603 0,3370±0,0667 0,3370±0,0654
0,7473±0,0695 0,7284±0,0763 0,7473±0,0710 0,7355±0,0675 0,7407±0,0776 0,7344±0,0738
0,8848±0,0486 0,8694±0,0471 0,8843±0,0511 0,8814±0,0423 0,8805±0,0406 0,8846±0,0445
Hamming Loss
Average Precision
Example-Based Precision
Hamming Loss
MEDIDAS DE
AVALIAÇÃO
Extratores de Características
ML-kNN
BR-kNN
IBLR-ML
Average Precision
Example-Based Precision
Hamming Loss
Average Precision
Example-Based Precision
94
Precision similares e acima de 0,88 para a maioria dos extratores de características, e somente como
Garbor Filter teve um valor relativamente menor.
Além da avaliação individual de cada extrator de características, também avaliamos todas as
combinações (com 2, 3, 4, 5 e 6) desses extratores. Por restrições de espaço, na Tabela II são
apresentadas apenas as combinações que obtiveram os melhores resultados das medidas de avaliação,
novamente calculados com validação cruzada com 10 partições, utilizando todas as combinações dos
seis extratores de características apresentados na Seção 2.
Tabela II. Melhores resultados da Avaliação com aplicação combinada de Extratores.
Tratando-se de ML-kNN, os melhores desempenhos em termos de Hamming Loss e de Example-
Based Precision foram obtidos com uma mesma combinação: a utilização conjunta dos extratores de
características IM, GF, CH e CC, sendo obtido o menor valor global de Hamming Loss dentre todas as
combinações de extratores. Quando aplicado o IBLR-ML, por sua vez, os melhores desempenhos são
obtidos com a mesma combinação de extratores: GF, CC e kC, obtendo, neste caso, o melhor
desempenho global em termos de Example-Based Precision.
A partir da comparação da Tabela I com a Tabela II, foi possível observar que a combinação de
extratores de características de imagens pode aumentar o desempenho dos algoritmos de aprendizado
de máquina utilizados para a rotulação automática de imagens. O aumento não é, no entanto,
estatisticamente significativo. Com exceção do caso específico de Hamming Loss utilizando o BR-
kNN, cujo melhor desempenho é obtido com apenas um extrator de características, percebe-se que o
melhor desempenho global é obtido com a combinação de extratores de características de imagens.
Particularmente, foi possível observar que uma determinada combinação de extratores, ou seja,
determinado conhecimento sobre a base de dados, permite que o algoritmo de aprendizado obtenha um
melhor desempenho na anotação automática de imagens (ou muito próximo do melhor desempenho
obtido para diferentes medidas de avaliação), como pode ser observado na coluna do IBLR-ML e na
coluna do ML-kNN da Tabela II. A combinação de GF, CC e kC com o algoritmo IBLR-ML é
particularmente interessante, pois apresentou os melhores resultados para as três medidas de
desempenho avaliadas, e, portanto, um melhor desempenho comparativamente aos outros algoritmos.
5. CONCLUSÕES
Neste artigo descrevemos um estudo experimental do uso de algoritmos de aprendizado de máquina
multirrótulo para a rotulação automática de imagens. A motivação para esse estudo é que muitos
trabalhos contribuíram para o desenvolvimento de AM monorrótulo, porém, ainda são poucos os
estudos envolvendo AM multirrótulo. Nesse estudo, foram utilizados algoritmos de AM multirrótulo
baseados em vizinhança, pois algoritmos de AM monorrótulo baseados em vizinhança são
frequentemente utilizados em sistemas de recuperação de imagens por conteúdo. Foram utilizados seis
diferentes extratores de características, bem como todas as possíveis combinações desses extratores.
Resultados experimentais em uma base de dados com fotografias da cidade de Barcelona (no qual
cada imagem poderia ser anotada com até quatro rótulos) mostraram um desempenho satisfatório da
proposta.
Melhor Valor Combinação Melhor Valor Combinação Melhor Valor Combinação
0,3008±0,0570 IM+GF+CH+CC 0,3019±0,0620 kC 0,3056±0,0575 GF+CC+kC
0,7781±0,0691 IM+GF+CH+CC 0,7734±0,0671 CH+GF 0,7740±0,0798 GF+CC+kC
0,8924±0,0428 IM+kC 0,8889±0,0410 todos 0,8942±0,0445 GF+CC+kC
Example-Based Precision
Average Precision
MEDIDAS DE
AVALIAÇÃO
ML-kNN BR-kNN IBLR-ML
Hamming Loss
95
SBBD – Simpósio Brasileiro de Banco de Dados
O desenvolvimento do sistema é feito de maneira modular utilizando o paradigma de orientação a
objeto, de maneira que novos extratores de características podem ser facilmente adicionados. Além
disso, é possível utilizar qualquer algoritmo de AM multirrótulo presente no MULAN. Como
trabalhos futuros, pretende-se abordar novos algoritmos de AM multirrótulo com os extratores de
características de imagens e suas combinações apresentadas, além de abordar novos extratores para
realização de experimentos com novas bases de dados.
AGRADECIMENTOS
Esse trabalho foi desenvolvido no âmbito do Programa Institucional de Bolsas de Iniciação Científica
financiado pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (PIBIC/CNPq) e
administrado pela Universidade Federal do ABC (UFABC).
REFERÊNCIAS
ANDERSON, D. L., AND SHAPIRO L. L. Introduction to Chain Codes. In: Consortium on Cognitive Science Instruction, 2006.
BEZERRA M. E. R. Métodos Baseados na Regra do Vizinho mais Próximo para Reconhecimento de Imagens , Monografia de
Conclusão de Curso, Departamento de Sistemas Computacionais da Escola Politécnica de Pernambuco, Pernambuco, BRA, pp. 90, 2006.
CHENG W., AND HÜLLERMEIER, E. Combining instance-based learning and logistic regression for multilabel classification. Machine Learning 76(2-3):211-225, 2009.
COSTA, L. F., AND CESAR, R M. Shape Analysis and Classification: theory and practice. FL: CRC Press, pp. 317–330, 2001.
CRESPI, B., AND TECCHIOLLI, G. Adaptive Gabor Filters for Phase-Based Disparity Estimation. In: Vision Interface: real world
applications of computer vision, World Scientific, pp. 5–28, 1999.
DAI, M., BAYLOU, P., NAJIM, M. An Efficient Algorithm for Computation of Shape Moments from Run-Length Codes or Chain
Codes. Pattern Recognition(25):10, pp. 1119–1128, 1992.
GILKEY, P., NIKCEVIC, S. k-Curvature Homogeneous Pseudo-Riemannian Manifolds Which Are Not Locally Homogeneous. In:
Annals of Global Analysis and Geometry 27(1), pp. 87–100, 1995.
JEON, J., LAVRENKO, V., AND MANMATHA, R. Automatic Image Annotation and Retrieval using Cross-Media Relevance Models.
In ACM SIGIR’2003, pp. 119–126, 2003.
LI, J., AND WANG, J. Z. Automatic linguistic indexing of pictures by a statistical modeling approach. In IEEE Trans. Pattern Anal.
Mach. Intell., 25(9), pp. 1075–1088, 2003.
LIRA I. D. A., AND PACÍFICO, L. D. S. Análise Comparativa de Sistemas de Recuperação de Imagens Baseados no Conteúdo,
Apresentação do Centro de Informática da Universidade Federal de Pernambuco, http://www.cin.ufpe.br/~ldsp/Apresentação%20ESAP.ppt., 2010.
MARTINS, M. P., AND GUIMARÃES, L. N. F. Classificador de Texturas por Redes Neurais. In: II Congresso Brasileiro de Computação, pp. 1–12, 2002.
MITCHELL, T. M. Machine Learning, McGraw-Hill, 1997.
SINGH, M., CUNNINGHAM, P., AND CURRAN, E. Active Learning for Multi-label Image Annotation. In Proceedings of the 19th
Irish Conference on Artificial Intelligence and Cognitive Science (AICS, 2008). Cork City, Irlanda, pp. 173–182, 2008.
SOUZA, K. P., AND PISTORI, H. Implementação de um Extrator de Características baseado em Momentos da Imagem. In: XVIII Brazilian Symposium on Computer Graphics and Image Processing (SIBGRAPI), III Workshop de Trabalhos de
Iniciação_científica em Computação Gráfica e Processamento de Imagens (WICCGPI), 2005.
SPYROMITROS, E., TSOUMAKAS, G., AND VLAHAVAS, I. An Empirical Study of Lazy Multilabel Classification Algorithms. In
Proc. 5th Hellenic Conference on Artificial Intelligence (SETN 2008) , Springer, Syros, Greece, pp. 401–406, 2008.
STIVANELLO, M. E., AND GOMES, P. C. R. Inspeção visual industrial automatizada por análise de forma com descritores de
Fourier e redes neurais artificiais. In: Anais do XV Seminário de Computação, pp. 29–40, 2006.
TSOUMAKAS, G., KATAKIS, I., AND VLAHAVAS, I. Mining Multi-label Data. In O. Maimon and L. Rokach (Eds.), Data Mining and
Knowledge Discovery Handbook. Springer, pp. 667–685, 2010.
TSOUMAKAS, G., SPYROMITROS-XIOUFIS, E., VILCEK, J., AND VLAHAVAS, I. Mulan: A Java Library for Multi-Label Learning. In
Journal of Machine Learning Research, 12(Jul), pp. 2411-2414, 2011.
WITTEN, I. H., FRANK, E., AND HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques . Morgan
Kaufmann, 3ª edição, 2011.
ZHANG, M-L. AND ZHOU, Z-H. Ml-knn: A lazy learning approach to multi-label learning. Pattern Recognition(7):2038–2048,
2007.
96