Rotulação automática de imagens utilizando classificação ... · Particularmente no caso de...

SBBD – Simpósio Brasileiro de Banco de Dados

Rotulação automática de imagens utilizando classificação

multirrótulo

Daniel de Moraes Navarro, Ronaldo Cristiano Prati

Universidade Federal do ABC [email protected], [email protected]

Resumo. O objetivo deste trabalho é a construção de um sistema de anotação automática (rotulação) de imagens capaz de

extrair informações (características) dessas imagens e de utilizar Aprendizado de Máquina (AM) multirrótulo com as

informações extraídas para a tarefa de rotulação. AM multirrótulo é adequado dentro desse contexto pois na classificação

multirrótulo mais de um rótulo pode ser atribuído a cada novo objeto a ser classificado, situação comum em rotulação de

imagens. Foram realizados experimentos com algoritmos multirrótulo baseados em vizinhança e com diferentes extratores

de características (e combinações desses extratores) em uma base de dados de imagens da cidade de Barcelona, que

mostraram resultados iniciais promissores.

Categories and Subject Descriptors: H. Information Systems [H.2.8 Database Applications]: Data Mining

Palavras-Chave: Mineração de Dados, Anotação de Imagens, Aprendizado de Máquina Multirrótulo

1. INTRODUÇÃO

Com avanço de tecnologias que aceleram o desenvolvimento e a criação de novos métodos e técnicas

de busca, identificação e obtenção de dados, uma vasta quantidade de informação está sendo coletada

e acumulada numa velocidade espantosa. No entanto, independente de quais setores da sociedade

produzam essas informações, elas devem ser previamente processadas e modeladas na forma de

sistemas que se adaptem ao fim desejado, dificilmente permitindo sua imediata utilização como

resultado final a que se destinou sua busca, produção e armazenamento. Apesar de as ferramentas

existentes suportarem a modelagem desses dados, a considerável elevação do custo e tempo deste

processamento evidencia a necessidade de uma reestruturação do processo tradicional de modelagem

de sistemas que, indubitavelmente, deve considerar a automatização do processo de análise de dados.

Tratando-se de um grande volume de dados, algoritmos de Aprendizado de Máquina (AM) podem

ser utilizados para extrair conhecimento utilizando Mineração de Dados (DM), visando fazer com que

um computador possa ter seu desempenho aperfeiçoado em alguma tarefa através da indução de

maneira (semi)automática um modelo a partir de dados [Mitchell 1997].

Particularmente no caso de imagens digitais, pode-se observar a crescente importância e o interesse

em ferramentas de processamento e extração de informações desses arquivos através, por exemplo, da

quantidade de modelos para recuperação de imagens baseada em seu conteúdo que estão sendo

investigados. Outra solução comumente adotada nestes casos e utilizada até mesmo por diversas

organizações para classificação, indexação e posteriormente recuperação de imagens é a chamada

anotação de imagens, que consiste na anotação manual de rótulos (ou palavras-chave) às imagens

digitais através de metadados, de acordo com a sua representatividade e o seu conteúdo, retornando

imagens de acordo com buscas nestas anotações. No entanto, mesmo que esse modelo permita a

recuperação de arquivos baseada em conceitos semânticos, o processo de anotação manual das

imagens é excessivamente trabalhoso e de alto custo e, na maioria dos casos, não garante o correto

retorno das informações que se procura [Jeon et al. 2003].

89


Como solução para o processo de anotação automática de imagens, onde um sistema computacional

realiza essa associação de rótulos ou palavras-chave para uma imagem digital [Li and Wang, 2003],

uma das abordagens investigadas é a aplicação de técnicas de mineração de dados, em particular

algoritmos de AM, na identificação de ocorrências de um determinado assunto nas imagens,

viabilizando a correta recuperação dessas imagens. Algoritmos tradicionais de AM geralmente

possuem como entrada um conjunto de exemplos, no qual cada exemplo é composto por um vetor de

atributos (características). Em AM supervisionado existe um atributo especial, denominado atributo

classe, que pode assumir uma das possíveis classes. Muitos problemas reais, no entanto, não podem

ser modelados dessa maneira. O problema de rotulação de imagens, por exemplo, é inerentemente

multirrótulo, pois vários rótulos podem estar associados a uma única imagem. Diferentemente das

abordagens tradicionais de AM supervisionada, em aprendizado multirrótulo [Tsoumakas et al., 2010]

mais de um rótulo pode ser atribuído ao novo objeto a ser rotulado, de maneira que é possível atribuir

um subconjunto dos rótulos disponíveis.

Algoritmos de AM, no entanto, não lidam diretamente com arquivos multimídia, tais como imagens.

Para poder aplicar algoritmos de AM é necessário o processamento de imagens para extrair

automaticamente as características mais relevantes dessas imagens, que são geralmente representadas

por valores numéricos. Existem diversas abordagens para a extração de características que são

baseadas, geralmente, em cor, textura, e forma. Por ser uma área de pesquisa relativamente nova,

existem poucos estudos com o objetivo de avaliar quais extratores de características são adequados

para a aplicação conjunta com algoritmos de AM multirrótulo. Neste trabalho, desenvolvemos um

protótipo de ferramenta para a rotulação automática de imagens por meio de AM multirrótulo e um

estudo experimental com o objetivo de avaliar a combinação de diferentes extratores de características

de imagens dentro do contexto de AM multirrótulo e suas influências na capacidade de aprendizado e

de rotulação automática de imagens.

Este artigo está organizado da seguinte maneira: na Seção 2 são descritos os algoritmos de AM

multirrótulo baseados em vizinhança utilizados neste trabalho. Na Seção 3 são descritos os seis

extratores de caraterísticas utilizados para extrair características das imagens. Não Seção 4 é

apresentada a avaliação experimental e na Seção 5 são apresentadas as conclusões e trabalhos futuros.

2. ALGORITMOS DE APRENDIZADO DE MÁQUINA MULTIRRÓTULO BASEADOS EM

ALGORITMOS DE VIZINHANÇA

Dentre as diversas técnicas de AM existentes utilizadas para a classificação de padrões, encontram-se

os algoritmos baseados na regra do vizinho mais próximo (NN, na sigla em inglês para Nearest

Neighbor). Algoritmos que seguem a regra do vizinho mais próximo aplicam uma técnica de

estimação de densidade local que permite a classificação eficiente de padrões através de conceitos

simples e de fácil implementação, apesar de exigirem razoável quantidade de memória computacional

e de tempo de processamento. Neste caso, a classificação de padrões é feita em dois estágios: no

primeiro, chamado de estágio de treinamento, todos os padrões de uma base de dados são

armazenados na memória, enquanto que, no segundo estágio, denominado estágio de teste, novos

exemplos cuja classe é desconhecida podem ser classificados com base no seu vizinho, determinando

para cada exemplo pertencente ao conjunto de padrões da base de teste um exemplo do conjunto da

base de treinamento que possua a menor distância (geralmente euclidiana) entre eles, ou seja, seu

“vizinho mais próximo”, classificando este exemplo como pertencente à respectiva classe do exemplo

da base de treinamento. Na fase de teste, se as classes corretas do conjunto de teste são conhecidas é

possível calcular a taxa de erro ou outras medidas de desempenho do classificador para o conjunto de

teste utilizado [Bezerra 2006].

Algoritmos que seguem a regra dos k vizinhos mais próximos (kNN, na sigla em inglês para k-Nearest Neighbor) surgiram como proposta de solução para o problema de alta sensibilidade a ruídos

90

durante a classificação dos algoritmos NN tradicionais, ocorrendo uma modificação no estágio de teste

destes algoritmos: são utilizados uma quantidade determinada de k vizinhos mais próximos ao

exemplo em questão, e não apenas a um único vizinho mais próximo, conforme a proposta original. A

classificação do exemplo, nesse caso, ocorre a partir da estimativa da classe que aparece com maior

frequência entre os seus k vizinhos, uma vez que os exemplos de treinamento estão armazenados em

memória como pontos de um espaço com dimensão igual ao número de atributos que as descrevem.

Recentemente, essas ideias foram extrapoladas para o caso de aprendizado multirrótulo como o ML-

kNN [Zhang and Zhou 2007], o BR-kNN [Spyromitros et al. 2008] e o IBLR-ML [Cheng and

Hüllermeier 2009]. Como dito anteriormente, em aprendizado multirrótulo, mais de uma classe pode

ser atribuída a um único exemplo na fase de testes. Aprendizado multirrótulo é geralmente abordado

de duas maneiras [Tsoumakas et al., 2010]: (a) métodos de transformação de dados e (b) métodos que

adaptam algoritmos tradicionais. No primeiro caso, o espaço de entrada é transformado de tal maneira

a deixá-lo adequado ao uso de algoritmos de aprendizado tradicionais e no segundo, algoritmos

tradicionais são adaptados para o caso multirrótulo.

Uma adaptação do algoritmo kNN para uma abordagem multirrótulo é o chamado algoritmo ML-

kNN (Multi-Label k-Nearest Neighbor). Nesse caso, analogamente ao funcionamento do algoritmo

kNN, os k vizinhos mais próximos de cada exemplo são identificados e os rótulos de cada exemplo do

conjunto de teste são determinados a partir de informações estatísticas obtidas do conjunto de

atributos dos k vizinhos identificados utilizando o Princípio do Maximum a Posteriori (MAP) [Zhang

and Zhou 2007].

O Algoritmo BR-kNN (Binary Relevance k-Nearest Neighbor), que é outra proposta derivada do

Algoritmo kNN para classificação multirrótulo, por sua vez, combina os conceitos do método de

transformação do problema para classificação binária (Binary Relevance) com os conceitos do

algoritmo kNN, possuindo resultado equivalente à execução de um algoritmo de classificação binária

seguida pela execução de um algoritmo kNN. No entanto, no caso desta sequência de execução,

seriam calculados os k vizinhos mais próximos para cada um dos rótulos possíveis, aumentando muito

o custo computacional com cálculos redundantes (ainda pior com o crescimento do número de

elementos a serem rotulados). Essa deficiência não ocorre ao utilizar o algoritmo BR-kNN, pois ele

elimina redundâncias. Além disso, a classificação através do algoritmo BR-kNN pode ser feita através

de duas implementações: a primeira (BR-kNN-a) utiliza um parâmetro pontuação de confiança para

cada rótulo (através da porcentagem dos k vizinhos próximos que os possuem) e a segunda (BR-kNN-

b) calcula o tamanho s dos conjuntos de rótulos de cada um dos k vizinhos mais próximos e, em

seguida, retorna a quantidade s de rótulos com maior valor do parâmetro de confiança [Spyromitros et

al. 2008].

Por fim, o algoritmo IBLR-ML (Instance-Based Learning by Logistic Regression) é uma proposta

que supera algumas limitações do algoritmo ML-kNN, como a interdependência entre classes dos

rótulos tratados. Para isso, utiliza Aprendizado Baseado em Exemplo (Instance-Based Learning) com

Regressão Logística (Logistic Regression), considerando informações de exemplos similares do

conjunto de treinamento como atributos do exemplo a ser classificado, diminuindo a distinção entre

aprendizado baseado em exemplo e aprendizado baseado em modelos. Ou seja, essa abordagem

considera os rótulos dos exemplos vizinhos como atributos do elemento que deve ser rotulado e, a

partir do cálculo da probabilidade de que dois elementos a uma determinada distância (suficiente para

que seja possível que possuam informação sobre outro) tenham o mesmo rótulo, são aplicados os

mesmos procedimentos do algoritmo NN, com a diferença que, neste caso, o parâmetro utilizado para

a classificação é um valor contínuo representando a probabilidade calculada na regressão logística

[Cheng and Hüllermeier 2009].

91


3. EXTRATORES DE CARACTERÍSTICAS DE IMAGENS

Uma vez que algoritmos de AM não trabalham diretamente com documentos multimídia, tais como

imagens, vídeo, som e texto, é necessária uma etapa de pré-processamento para extração de

características desses documentos para que seja possível a aplicação desses algoritmos. Dentre os

diversos algoritmos e técnicas de extração de características de imagens digitais existentes, neste

trabalho foram avaliados o Chain Code, os Histogramas de Cores, os Descritores de Fourier, os Filtros

Gabor, os Momentos de Imagem e a K-curvature, sendo que outros vêm sendo implementados. Nesta

seção descrevemos brevemente o funcionamento desses extratores.

O Chain Code (CC) é um tipo clássico de algoritmo computacional aplicado na representação da

forma de objetos, sendo amplamente utilizado, por exemplo, na visão computacional de robôs,

utilizando-se conjuntamente redes neurais [Anderson and Shapiro 2006]. No Chain Code, uma forma

(shape) pode ser representada unicamente por seus limites, onde a direção do vetor entre os pixels

sucessivos do contorno são codificados. O Chain Code mais comumente utilizado possui 4 ou 8

direções, baseando-se na indicação da conectividade. Tipicamente, o Chain Code contém o endereço

do pixel de início seguido da sequência codificada dos pixels de contorno [Dai et al. 1992].

Os Histogramas de Cor (Color Histograms - CH) são estruturas acumulativas caracterizadas por

armazenar a frequência de ocorrência de cada uma das cores existentes em uma imagem, sendo muito

utilizado no processamento de imagens digitais. Geralmente utilizando as três cores fundamentais

vermelho, verde e azul (RGB, na sigla em inglês), a frequência dessas cores é quantificada através da

quantidade de vezes que determinada cor aparece na imagem, geralmente verificando a cor de cada

um dos pixels da imagem [Lira and Pacífico 2010].

Descritores de imagens são conjuntos de números gerados para descrever uma forma ou fronteira de

uma imagem e constituem uma das maneiras de representação de imagens mais populares para

aplicações de visão computacional e reconhecimento de padrões, como formas ou fronteiras [Costa

and Cesar 2001], apesar de não constituírem um método simples, mas uma classe de métodos, pois

existem diferentes maneiras de defini-los, como através da aplicação de transformadas de Fourier, de

onde se obtém os chamados Descritores de Fourier (Fourier Descriptors - FD). Os descritores, em

geral, não são capazes de reconstituir a forma descrita de maneira completa, mas devem sempre ser

suficientes para permitir a diferenciação entre uma forma e outra [Stivanello and Gomes 2006].

Filtros Gabor (Gabor Filter - GF) caracterizam um sinal, como o representante da textura de uma

imagem, simultaneamente nos domínios do tempo (ou do espaço) e da frequência através de

determinadas funções que atingem conjuntamente um limite inferior. Dessa maneira, imagens

distintas, porém de textura semelhante devem possuir frequências parecidas e, portanto, os mesmos

filtros que permitem a visualização de detalhes em uma imagem farão o mesmo em outras imagens

semelhantes. Essa filtragem possibilita a comparação entre imagens através da comparação de

características extraídas das imagens filtradas, como medidas estatísticas, que terão valores

aproximados caso possuam semelhança em suas texturas enquanto que, caso não possuam,

apresentarão valores divergentes [Martins and Guimarães 2002; Crespi and Tecchiolli 1999].

Momentos de Imagem (Image Moments - IM), por sua vez, constituem um método de extração de

características de imagem baseado nos chamados momentos estatísticos da imagem, que são

caracterizados por valores numéricos calculados por funções aplicadas a imagens previamente

segmentadas. Tais valores numéricos descrevem a distribuição espacial dos pontos que constituem a

imagem e podem ser compreendidos com maior facilidade de interpretarmos a imagem como um

conjunto de pontos (pixels) em um plano cartesiano de maneira que suas coordenadas representam sua

posição na imagem e uma determinada função retorna um dado valor (1, por exemplo) para cada um

dos pixels que pertencerem à região de interesse e um outro valor (0, por exemplo), caso contrário

[Souza and Pistori 1999].

92

Por fim, o extrator de características de imagens K-curvature (KC) utiliza uma função que

determina o valor de uma curvatura k em função do comprimento de arco c de uma figura. Existem

diversas especificações de k-Curvatures com propriedades específicas, como a k-Curvature

homogênea, que apresenta a propriedade de isomorfismo, isto é, o tensor (métrica de curvatura) e

derivados covariantes até a ordem k do tensor de curvatura possuem a mesma aparência em cada ponto

da imagem [Gilkey and Nikcevic 1995].

4. DESENVOLVIMENTO

Neste projeto foi desenvolvida uma ferramenta, implementada em JAVA, capaz de analisar e extrair

características de um conjunto de imagens de maneira que os dados obtidos a partir da execução desta

ferramenta são disponibilizados em um arquivo devidamente formatado como um arquivo Attribute-

Relation File Format (ARFF), utilizado como entrada no pacote de classificação multirrótulo

MULAN1 [Tsoumakas et al., 2011], que possui algoritmos de AM multirrótulo para diferentes

extratores de características de imagens e combinações entre eles, possibilitando a avaliação do

aprendizado e da classificação das imagens para cada caso. Na subseção 4.1 são descritas a

configuração experimental e as especificações dos arquivos e dados gerados pela execução dos

experimentos e na subseção 4.2 são apresentados e discutidos os resultados obtidos e as avaliações

realizadas. Em todos os experimentos foi utilizada distância euclidiana e o número de vizinhos foi

fixado em 10 para os três algoritmos de aprendizado aplicados.

4.1 Configuração Experimental

O funcionamento da ferramenta desenvolvida pode ser descrito, sucintamente, pelo prévio

processamento de coleções de imagens para extração de características e sua integração com o

software MULAN, que possui um conjunto de algoritmos de diversas técnicas de DM, explorando

principalmente métodos de AM.

O processamento das imagens digitais é realizado através da aplicação de extratores de

características, executados individualmente, a uma coleção de imagens armazenadas em um diretório

raiz predefinido. Na execução de cada um desses extratores as imagens são processadas de maneira

independente e, após todas as imagens serem processadas, os respectivos valores das características

extraídas são utilizados como atributos, junto com os rótulos previamente conhecidos e identificados

para cada imagem, gerando um arquivo ARFF usado como entrada para o MULAN. Esse processo é

representado esquematicamente na Figura 1: em (a) é mostrada a imagem que será processada; em (b)

cada uma das imagens é processada de maneira independente, resultando em um conjunto de valores

das características extraídas para esta mesma imagem; em (c) os valores resultantes do processamento

e dos rótulos das imagens são disponibilizados para escrita e geração de um arquivo ARFF.

Fig. 1. Representação esquemática do processamento da coleção de imagens

1 Extensão multirrótulo do pacote WEKA [Witten et al., 2011], disponível em http://mulan.sourceforge.net/

93


A ferramenta vem sendo desenvolvida utilizando o paradigma de orientação a objeto, de maneira

que novos algoritmos para extração de características possam ser facilmente incorporados. Também é

possível combinar dois ou mais extratores de características, de maneira que diferentes combinações

de extratores de características podem ser facilmente testadas.

4.2 Resultados

Para validar nossa abordagem foram realizados experimentos utilizando uma base de dados composta

por 138 imagens de cenas urbanas da cidade de Barcelona [Singh et al., 2008] previamente anotadas

com quatro rótulos: Buildings, Flora, People e Sky. Cada imagem dessa base possui no mínimo dois e

no máximo quatro rótulos, e cada rótulo está presente em pelo menos 60 imagens.

Na Tabela I são apresentados os resultados das medidas de avaliação, bem como o desvio-padrão

correspondente, para Hamming Loss, Example-Based Precision e Average Precision para os extratores

aplicados individualmente, sendo que os nomes dos extratores estão abreviados pelas respectivas

iniciais. Hamming Loss é a média, sobre todos os exemplos, da “distância de Hamming”, ou seja, a

diferença simétrica (equivalente a uma operação Ou Exclusivo de conjuntos) entre o conjunto de

rótulos preditos com relação aos rótulos reais. Quanto menor o valor de Hamming Loss, menor a

diferença entre os rótulos preditos dos reais e melhor é o desempenho do classificador. Example-

Based Precision corresponde à média sobre o conjunto de exemplos da taxa que os rótulos preditos

são realmente rótulos reais. Quanto mais alto o valor, maior é a proporção que um rótulo predito

realmente deveria der sido predito. Average Precision compara a proporção de rótulos “não intrusos”

em uma lista ordenada dos rótulos preditos. Para cada rótulo y, é calculada a fração dos rótulos não

intrusos, tomando como ponto de corte a posição do rótulo y na lista ordenada. Os resultados foram

obtidos por meio de validação cruzada com 10 partições, utilizando os algoritmos de AM multirrótulo

descritos na Seção 2 e aplicando os algoritmos de extração de características descritos na Seção 3.

Concentramo-nos em algoritmos de AM baseados em vizinhança, pois essa família é normalmente

utilizada em tarefas de recuperação de imagens baseada em conteúdo, mas qualquer algoritmo do

MULAN poderia ter sido utilizado. O melhor valor de cada medida está destacado em negrito.

Tabela I. Avaliação com Extratores aplicados individualmente

Em geral, os métodos tiveram um desempenho semelhante com o BR-kNN, apresentando um

melhor desempenho em termos de Hamming Loss e Example-Based Precision com o extrator de

características kC. Essa combinação acerta um maior número de rótulos, mas também deve prever um

maior número de rótulos intrusos para cada imagem, pois seu Average Precision é menor002C

comparativamente com as outras combinações. O IBLR-ML, em contrapartida, obteve Average

IM GF CH CC FD kC

0,3408±0,0745 0,3548±0,0624 0,3126±0,0741 0,3549±0,0727 0,3541±0,0612 0,3382±0,0663

0,7348±0,0737 0,7292±0,0700 0,7568±0,0794 0,7393±0,0935 0,7173±0,0699 0,7167±0,0794

0,8880±0,0453 0,8808±0,0402 0,8822±0,0570 0,8752±0,0442 0,8709±0,0500 0,8774±0,0404

0,3442±0,0603 0,3514±0,0383 0,3446±0,0693 0,3495±0,0405 0,3742±0,0686 0,3019±0,0620

0,7388±0,0610 0,7294±0,0804 0,7272±0,0730 0,7495±0,0625 0,7462±0,0817 0,7680±0,0470

0,8725±0,0358 0,8768±0,0411 0,8609±0,0534 0,8803±0,0485 0,8538±0,0486 0,8586±0,0588

0,3109±0,0629 0,3691±0,0492 0,3126±0,0807 0,3371±0,0603 0,3370±0,0667 0,3370±0,0654

0,7473±0,0695 0,7284±0,0763 0,7473±0,0710 0,7355±0,0675 0,7407±0,0776 0,7344±0,0738

0,8848±0,0486 0,8694±0,0471 0,8843±0,0511 0,8814±0,0423 0,8805±0,0406 0,8846±0,0445

Hamming Loss

Average Precision

Example-Based Precision

Hamming Loss

MEDIDAS DE

AVALIAÇÃO

Extratores de Características

ML-kNN

BR-kNN

IBLR-ML

Average Precision


Hamming Loss

Average Precision


94

Precision similares e acima de 0,88 para a maioria dos extratores de características, e somente como

Garbor Filter teve um valor relativamente menor.

Além da avaliação individual de cada extrator de características, também avaliamos todas as

combinações (com 2, 3, 4, 5 e 6) desses extratores. Por restrições de espaço, na Tabela II são

apresentadas apenas as combinações que obtiveram os melhores resultados das medidas de avaliação,

novamente calculados com validação cruzada com 10 partições, utilizando todas as combinações dos

seis extratores de características apresentados na Seção 2.

Tabela II. Melhores resultados da Avaliação com aplicação combinada de Extratores.

Tratando-se de ML-kNN, os melhores desempenhos em termos de Hamming Loss e de Example-

Based Precision foram obtidos com uma mesma combinação: a utilização conjunta dos extratores de

características IM, GF, CH e CC, sendo obtido o menor valor global de Hamming Loss dentre todas as

combinações de extratores. Quando aplicado o IBLR-ML, por sua vez, os melhores desempenhos são

obtidos com a mesma combinação de extratores: GF, CC e kC, obtendo, neste caso, o melhor

desempenho global em termos de Example-Based Precision.

A partir da comparação da Tabela I com a Tabela II, foi possível observar que a combinação de

extratores de características de imagens pode aumentar o desempenho dos algoritmos de aprendizado

de máquina utilizados para a rotulação automática de imagens. O aumento não é, no entanto,

estatisticamente significativo. Com exceção do caso específico de Hamming Loss utilizando o BR-

kNN, cujo melhor desempenho é obtido com apenas um extrator de características, percebe-se que o

melhor desempenho global é obtido com a combinação de extratores de características de imagens.

Particularmente, foi possível observar que uma determinada combinação de extratores, ou seja,

determinado conhecimento sobre a base de dados, permite que o algoritmo de aprendizado obtenha um

melhor desempenho na anotação automática de imagens (ou muito próximo do melhor desempenho

obtido para diferentes medidas de avaliação), como pode ser observado na coluna do IBLR-ML e na

coluna do ML-kNN da Tabela II. A combinação de GF, CC e kC com o algoritmo IBLR-ML é

particularmente interessante, pois apresentou os melhores resultados para as três medidas de

desempenho avaliadas, e, portanto, um melhor desempenho comparativamente aos outros algoritmos.

5. CONCLUSÕES

Neste artigo descrevemos um estudo experimental do uso de algoritmos de aprendizado de máquina

multirrótulo para a rotulação automática de imagens. A motivação para esse estudo é que muitos

trabalhos contribuíram para o desenvolvimento de AM monorrótulo, porém, ainda são poucos os

estudos envolvendo AM multirrótulo. Nesse estudo, foram utilizados algoritmos de AM multirrótulo

baseados em vizinhança, pois algoritmos de AM monorrótulo baseados em vizinhança são

frequentemente utilizados em sistemas de recuperação de imagens por conteúdo. Foram utilizados seis

diferentes extratores de características, bem como todas as possíveis combinações desses extratores.

Resultados experimentais em uma base de dados com fotografias da cidade de Barcelona (no qual

cada imagem poderia ser anotada com até quatro rótulos) mostraram um desempenho satisfatório da

proposta.

Melhor Valor Combinação Melhor Valor Combinação Melhor Valor Combinação

0,3008±0,0570 IM+GF+CH+CC 0,3019±0,0620 kC 0,3056±0,0575 GF+CC+kC

0,7781±0,0691 IM+GF+CH+CC 0,7734±0,0671 CH+GF 0,7740±0,0798 GF+CC+kC

0,8924±0,0428 IM+kC 0,8889±0,0410 todos 0,8942±0,0445 GF+CC+kC


Average Precision

MEDIDAS DE

AVALIAÇÃO

ML-kNN BR-kNN IBLR-ML

Hamming Loss

95


O desenvolvimento do sistema é feito de maneira modular utilizando o paradigma de orientação a

objeto, de maneira que novos extratores de características podem ser facilmente adicionados. Além

disso, é possível utilizar qualquer algoritmo de AM multirrótulo presente no MULAN. Como

trabalhos futuros, pretende-se abordar novos algoritmos de AM multirrótulo com os extratores de

características de imagens e suas combinações apresentadas, além de abordar novos extratores para

realização de experimentos com novas bases de dados.

AGRADECIMENTOS

Esse trabalho foi desenvolvido no âmbito do Programa Institucional de Bolsas de Iniciação Científica

financiado pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (PIBIC/CNPq) e

administrado pela Universidade Federal do ABC (UFABC).

REFERÊNCIAS

ANDERSON, D. L., AND SHAPIRO L. L. Introduction to Chain Codes. In: Consortium on Cognitive Science Instruction, 2006.

BEZERRA M. E. R. Métodos Baseados na Regra do Vizinho mais Próximo para Reconhecimento de Imagens , Monografia de

Conclusão de Curso, Departamento de Sistemas Computacionais da Escola Politécnica de Pernambuco, Pernambuco, BRA, pp. 90, 2006.

CHENG W., AND HÜLLERMEIER, E. Combining instance-based learning and logistic regression for multilabel classification. Machine Learning 76(2-3):211-225, 2009.

COSTA, L. F., AND CESAR, R M. Shape Analysis and Classification: theory and practice. FL: CRC Press, pp. 317–330, 2001.

CRESPI, B., AND TECCHIOLLI, G. Adaptive Gabor Filters for Phase-Based Disparity Estimation. In: Vision Interface: real world

applications of computer vision, World Scientific, pp. 5–28, 1999.

DAI, M., BAYLOU, P., NAJIM, M. An Efficient Algorithm for Computation of Shape Moments from Run-Length Codes or Chain

Codes. Pattern Recognition(25):10, pp. 1119–1128, 1992.

GILKEY, P., NIKCEVIC, S. k-Curvature Homogeneous Pseudo-Riemannian Manifolds Which Are Not Locally Homogeneous. In:

Annals of Global Analysis and Geometry 27(1), pp. 87–100, 1995.

JEON, J., LAVRENKO, V., AND MANMATHA, R. Automatic Image Annotation and Retrieval using Cross-Media Relevance Models.

In ACM SIGIR’2003, pp. 119–126, 2003.

LI, J., AND WANG, J. Z. Automatic linguistic indexing of pictures by a statistical modeling approach. In IEEE Trans. Pattern Anal.

Mach. Intell., 25(9), pp. 1075–1088, 2003.

LIRA I. D. A., AND PACÍFICO, L. D. S. Análise Comparativa de Sistemas de Recuperação de Imagens Baseados no Conteúdo,

Apresentação do Centro de Informática da Universidade Federal de Pernambuco, http://www.cin.ufpe.br/~ldsp/Apresentação%20ESAP.ppt., 2010.

MARTINS, M. P., AND GUIMARÃES, L. N. F. Classificador de Texturas por Redes Neurais. In: II Congresso Brasileiro de Computação, pp. 1–12, 2002.

MITCHELL, T. M. Machine Learning, McGraw-Hill, 1997.

SINGH, M., CUNNINGHAM, P., AND CURRAN, E. Active Learning for Multi-label Image Annotation. In Proceedings of the 19th

Irish Conference on Artificial Intelligence and Cognitive Science (AICS, 2008). Cork City, Irlanda, pp. 173–182, 2008.

SOUZA, K. P., AND PISTORI, H. Implementação de um Extrator de Características baseado em Momentos da Imagem. In: XVIII Brazilian Symposium on Computer Graphics and Image Processing (SIBGRAPI), III Workshop de Trabalhos de

Iniciação_científica em Computação Gráfica e Processamento de Imagens (WICCGPI), 2005.

SPYROMITROS, E., TSOUMAKAS, G., AND VLAHAVAS, I. An Empirical Study of Lazy Multilabel Classification Algorithms. In

Proc. 5th Hellenic Conference on Artificial Intelligence (SETN 2008) , Springer, Syros, Greece, pp. 401–406, 2008.

STIVANELLO, M. E., AND GOMES, P. C. R. Inspeção visual industrial automatizada por análise de forma com descritores de

Fourier e redes neurais artificiais. In: Anais do XV Seminário de Computação, pp. 29–40, 2006.

TSOUMAKAS, G., KATAKIS, I., AND VLAHAVAS, I. Mining Multi-label Data. In O. Maimon and L. Rokach (Eds.), Data Mining and

Knowledge Discovery Handbook. Springer, pp. 667–685, 2010.

TSOUMAKAS, G., SPYROMITROS-XIOUFIS, E., VILCEK, J., AND VLAHAVAS, I. Mulan: A Java Library for Multi-Label Learning. In

Journal of Machine Learning Research, 12(Jul), pp. 2411-2414, 2011.

WITTEN, I. H., FRANK, E., AND HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques . Morgan

Kaufmann, 3ª edição, 2011.

ZHANG, M-L. AND ZHOU, Z-H. Ml-knn: A lazy learning approach to multi-label learning. Pattern Recognition(7):2038–2048,

2007.

96

http://mlg.ucd.ie/publications/showbib-4.html

Rotulação automática de imagens utilizando classificação ... · Particularmente no caso de...

Documents

Transcript of Rotulação automática de imagens utilizando classificação ... · Particularmente no caso de...