Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados...

43
Jakelson Carreiro Mendes Agrupamento de Dados e suas Aplicações São Luís 2017

Transcript of Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados...

Page 1: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Jakelson Carreiro Mendes

Agrupamento de Dados e suas Aplicaccedilotildees

Satildeo Luiacutes

2017

Jakelson Carreiro Mendes

Agrupamento de Dados e suas Aplicaccedilotildees

Monografia apresentada ao curso de Ciecircncia

da Computaccedilatildeo da Universidade Federal do

Maranhatildeo para aprovaccedilatildeo no componente

curricular Monografia II

Universidade Federal do Maranhatildeo ndash UFMA

Curso de Ciecircncia da Computaccedilatildeo

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Satildeo Luiacutes

2017

Ficha gerada por meio do SIGAABiblioteca com dados fornecidos pelo(a) autor(a)Nuacutecleo Integrado de BibliotecasUFMA

Mendes Jakelson Carreiro

Agrupamento de Dados e suas Aplicaccedilotildees Jakelson

Carreiro Mendes - 2017

52 p

Orientador(a) Ivo Joseacute da Cunha Serra

Monografia (Graduaccedilatildeo) - Curso de Ciecircncia da

Computaccedilatildeo Universidade Federal do Maranhatildeo Universidade

Federal do Maranhatildeo Satildeo Luiacutes 2017

1 Agrupamento de Dados 2 Aplicaccedilotildees de

Agrupamento 3 Mineraccedilatildeo de Dados 4 Teacutecnicas de

Agrupamento I Serra Ivo Joseacute da Cunha II Tiacutetulo

Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos

Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos

Agradecimentos

Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu

orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho

Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre

estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia

irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo

grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e

amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis

tambeacutem seratildeo para sempre lembrados

A todos os professores em especial aos professores Portela e Bonini que gentilmente

aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo

Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales

Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio

Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para

todos o meu grande agradecimento por todos os grandes momentos

ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada

muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que

pudessem morrerrdquo

(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate

of All Life (O Destino Secreto de toda a Vida))

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 2: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Jakelson Carreiro Mendes

Agrupamento de Dados e suas Aplicaccedilotildees

Monografia apresentada ao curso de Ciecircncia

da Computaccedilatildeo da Universidade Federal do

Maranhatildeo para aprovaccedilatildeo no componente

curricular Monografia II

Universidade Federal do Maranhatildeo ndash UFMA

Curso de Ciecircncia da Computaccedilatildeo

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Satildeo Luiacutes

2017

Ficha gerada por meio do SIGAABiblioteca com dados fornecidos pelo(a) autor(a)Nuacutecleo Integrado de BibliotecasUFMA

Mendes Jakelson Carreiro

Agrupamento de Dados e suas Aplicaccedilotildees Jakelson

Carreiro Mendes - 2017

52 p

Orientador(a) Ivo Joseacute da Cunha Serra

Monografia (Graduaccedilatildeo) - Curso de Ciecircncia da

Computaccedilatildeo Universidade Federal do Maranhatildeo Universidade

Federal do Maranhatildeo Satildeo Luiacutes 2017

1 Agrupamento de Dados 2 Aplicaccedilotildees de

Agrupamento 3 Mineraccedilatildeo de Dados 4 Teacutecnicas de

Agrupamento I Serra Ivo Joseacute da Cunha II Tiacutetulo

Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos

Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos

Agradecimentos

Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu

orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho

Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre

estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia

irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo

grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e

amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis

tambeacutem seratildeo para sempre lembrados

A todos os professores em especial aos professores Portela e Bonini que gentilmente

aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo

Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales

Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio

Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para

todos o meu grande agradecimento por todos os grandes momentos

ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada

muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que

pudessem morrerrdquo

(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate

of All Life (O Destino Secreto de toda a Vida))

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 3: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Ficha gerada por meio do SIGAABiblioteca com dados fornecidos pelo(a) autor(a)Nuacutecleo Integrado de BibliotecasUFMA

Mendes Jakelson Carreiro

Agrupamento de Dados e suas Aplicaccedilotildees Jakelson

Carreiro Mendes - 2017

52 p

Orientador(a) Ivo Joseacute da Cunha Serra

Monografia (Graduaccedilatildeo) - Curso de Ciecircncia da

Computaccedilatildeo Universidade Federal do Maranhatildeo Universidade

Federal do Maranhatildeo Satildeo Luiacutes 2017

1 Agrupamento de Dados 2 Aplicaccedilotildees de

Agrupamento 3 Mineraccedilatildeo de Dados 4 Teacutecnicas de

Agrupamento I Serra Ivo Joseacute da Cunha II Tiacutetulo

Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos

Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos

Agradecimentos

Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu

orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho

Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre

estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia

irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo

grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e

amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis

tambeacutem seratildeo para sempre lembrados

A todos os professores em especial aos professores Portela e Bonini que gentilmente

aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo

Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales

Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio

Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para

todos o meu grande agradecimento por todos os grandes momentos

ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada

muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que

pudessem morrerrdquo

(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate

of All Life (O Destino Secreto de toda a Vida))

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 4: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos

Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos

Agradecimentos

Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu

orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho

Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre

estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia

irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo

grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e

amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis

tambeacutem seratildeo para sempre lembrados

A todos os professores em especial aos professores Portela e Bonini que gentilmente

aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo

Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales

Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio

Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para

todos o meu grande agradecimento por todos os grandes momentos

ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada

muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que

pudessem morrerrdquo

(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate

of All Life (O Destino Secreto de toda a Vida))

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 5: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Agradecimentos

Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu

orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho

Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre

estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia

irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo

grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e

amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis

tambeacutem seratildeo para sempre lembrados

A todos os professores em especial aos professores Portela e Bonini que gentilmente

aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo

Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales

Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio

Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para

todos o meu grande agradecimento por todos os grandes momentos

ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada

muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que

pudessem morrerrdquo

(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate

of All Life (O Destino Secreto de toda a Vida))

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 6: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada

muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que

pudessem morrerrdquo

(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate

of All Life (O Destino Secreto de toda a Vida))

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 7: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Resumo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados

A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes

baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o

aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores

de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes

bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento

de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs

teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos

envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos

valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final

seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como

biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de

textos

Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento

Aplicaccedilotildees de Agrupamento

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 8: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Abstract

In recent years there has been a large increase in the amount of data stored Data mining

was developed with the purpose of identifying and extracting relevant information based

on this database Advances in data storage technologies the increase in speed and capacity

of systems and the improvement of these database management systems have allowed

to transform this enormous amount of data into large databases This work presents

fundamental concepts of Clustering that is the Data Mining technique to make automatic

groupings of data according to their degree of learning three simple techniques methods

are also presented but very important to introduce many of the concepts involved In the

data grouping Grouping techniques are valuable tools in the exploratory analysis of data

and find applications in several areas At the end will be presented some of these diverse

fields of clustering applications such as In biology information retrieval medicine image

segmentation and text mining

Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 9: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Lista de ilustraccedilotildees

Figura 1 ndash Processo de agrupamento 29

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-

pamentos em uma estrutura 32

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33

Figura 4 ndash Algoritmo de Agrupamento K-Means 35

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35

Figura 6 ndash Densidade baseada em centro 37

Figura 7 ndash Pontos de centro de limite de ruiacutedo 37

Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 10: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Lista de tabelas

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 11: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Lista de abreviaturas e siglas

DBSCAN Density Based Spatial Clustering of Application with Noise

Eps Raio de vizinhanccedila de um ponto

MinPts Nuacutemero miacutenimo de pontos

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 12: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

Sumaacuterio

1 INTRODUCcedilAtildeO 23

11 Motivaccedilatildeo 24

12 Objetivo do Trabalho 25

13 Organizaccedilatildeo do Trabalho 25

2 AGRUPAMENTO 27

21 Consideraccedilotildees Iniciais 27

22 Definiccedilotildees 27

23 Teacutecnicas de Agrupamento 31

231 Meacutetodo Hieraacuterquico 31

232 Meacutetodo Particional 34

2321 Algoritmo K-means 34

2322 Algoritmo DBSCAN 36

3 APLICACcedilOtildeES DE AGRUPAMENTO 39

31 Segmentaccedilatildeo de Imagens 40

311 Processamento de Imagens 42

312 O Problema da Segmentaccedilatildeo de Imagens 43

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44

314 Agrupamento na Segmentaccedilatildeo de Imagens 45

32 Mineraccedilatildeo de Textos 45

321 Agrupamento na Mineraccedilatildeo de Textos 47

4 CONCLUSAtildeO 49

REFEREcircNCIAS 51

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 13: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

23

1 Introduccedilatildeo

Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-

zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e

capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos

sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade

de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se

que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus

computadores (Diniz e Neto (2000))

As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos

dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia

marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que

tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa

aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para

anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))

Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes

nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento

pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o

aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou

categorias (Mitchell et al (1997))

A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-

ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de

grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento

de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar

interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de

accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))

Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados

por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios

informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados

(AUREacuteLIO 1999)

Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados

eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para

descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos

(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no

objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas

(Everitt e Dunn (2001))

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 14: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

24 Capiacutetulo 1 Introduccedilatildeo

A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros

problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de

dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)

A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza

natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em

outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees

natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que

acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por

grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na

maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto

de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da

perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos

nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares

levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e

quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em

encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por

exemplo endereccedilo contados

11 Motivaccedilatildeo

A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os

quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo

do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem

objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para

o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo

precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na

literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))

Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica

para achar o melhor agrupamento para um determinado conjunto de dados Assim cada

algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma

conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser

apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas

arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em

anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma

das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que

as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente

Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com

diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 15: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

12 Objetivo do Trabalho 25

de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))

Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de

clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto

de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente

Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o

algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como

estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do

conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas

as estruturas subjacentes nos dados

Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering

tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto

de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo

preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida

natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de

grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))

Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de

agrupamento de dados

12 Objetivo do Trabalho

O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as

teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento

hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada

em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde

se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de

imagens e mineraccedilatildeo de textos

13 Organizaccedilatildeo do Trabalho

Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo

organizados da seguinte forma

O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o

significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente

em agrupamento de dados

Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar

agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia

medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 16: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

26 Capiacutetulo 1 Introduccedilatildeo

O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3

aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 17: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

27

2 Agrupamento

21 Consideraccedilotildees Iniciais

Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs

teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach

e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento

22 Definiccedilotildees

Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que

compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas

analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos

em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo

crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como

veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre

classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas

diferentes e dando a cada classe uma forma diferente de tratamento formando classes de

comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-

tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo

(CARVALHO 2002)

A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo

de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e

organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes

Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos

automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-

pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining

onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos

de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes

predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo

computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse

tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos

Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam

naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo

motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados

que seratildeo analisados

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 18: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

28 Capiacutetulo 2 Agrupamento

Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-

mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento

preacutevio (Jain e Dubes (1988))

O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos

(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma

caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes

(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo

formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de

definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis

na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de

diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento

Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos

diferentes natildeo semelhantes (Jain Murty e Flynn (1999))

Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional

contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo

contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)

Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra

ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos

aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de

proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e

a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))

Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a

diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um

canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio

de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante

em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros

temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os

outros trecircs no segundo grupo (Xu e Wunsch (2009))

Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))

Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto

em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse

grupo do que a qualquer ponto natildeo pertencente a ele

Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer

ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que

ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a

meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do

grupo)

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 19: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

22 Definiccedilotildees 29

Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um

conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais

similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele

Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada

de outras regiotildees de alta densidade por regiotildees de baixa densidade

Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo

similares enquanto pontos em grupos diferentes natildeo satildeo similares

O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo

dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo

de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura

apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e

(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir

Figura 1 ndash Processo de agrupamento

Fonte Produzido pelo autor

Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como

uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo

comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo

dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento

e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 20: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

30 Capiacutetulo 2 Agrupamento

O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos

e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain

Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo

de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e

Flynn (1999)) (Barbara (2000))

Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-

ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade

ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada

com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem

os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo

o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois

objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de

proximidade em geral consideram que todos os atributos satildeo igualmente importantes

(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais

apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade

mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo

d(x y) =

radic

radic

radic

radic

nsum

k=1

(xk minus yk)2

Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois

pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo

respectivamente os atributos(componentes) de iacutendice k de x e y

Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou

seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um

objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232

Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de

forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa

para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por

acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute

grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))

Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus

objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais

que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da

hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas

que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar

diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo

Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 21: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

23 Teacutecnicas de Agrupamento 31

Carvalho e Souto (2005))

Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas

poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade

de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra

(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa

forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a

dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar

de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa

escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo

por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo

(Handl Knowles e Kell (2005))

Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos

dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de

agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))

bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos

bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada

bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o

difiacutecil ajuste de paracircmetros

bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem

agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes

23 Teacutecnicas de Agrupamento

231 Meacutetodo Hieraacuterquico

Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-

vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada

para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo

de uma aacutervore (Diniz e Neto (2000))

As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os

grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida

como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma

estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes

do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo

vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal

O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou

pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 22: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

32 Capiacutetulo 2 Agrupamento

niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da

particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo

do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com

trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7

17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis

de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos

entre os elementos

Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura

Fonte lthttpsgooglnz3KZ6gt

Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos

Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados

Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de

distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como

matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo

onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz

de similaridades entre os agrupamentos

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 23: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

23 Teacutecnicas de Agrupamento 33

Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos

G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0

Fonte Produzido pelo autor

Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais

similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia

entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos

As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-

rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico

os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan

Steinbach e Kumar (2009))

Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde

os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de

grupos

Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute

que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo

dividir em cada etapa e como fazer a divisatildeo

As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as

teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este

meacutetodo

Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma

abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os

dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais

formalmente no Algoritmo 1 da Figura 3

Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico

Fonte Produzido pelo autor

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 24: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

34 Capiacutetulo 2 Agrupamento

232 Meacutetodo Particional

Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em

subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente

em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e

DBSCAN (Tan Steinbach e Kumar (2009))

2321 Algoritmo K-means

O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem

chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por

possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em

linguagens computacionais

A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo

com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os

valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma

classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem

nenhuma preacute-classificaccedilatildeo existente

O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos

(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente

corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides

iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos

desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees

atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado

nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos

centroides se repete ateacute que os centroides permaneccedilam inalterados

Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito

da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser

feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia

euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou

natildeo ocorra mais mudanccedila de objetos dos grupos

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 25: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

23 Teacutecnicas de Agrupamento 35

Figura 4 ndash Algoritmo de Agrupamento K-Means

Fonte Produzido pelo autor

A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means

Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada

objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo

os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto

mude mais de grupo

Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias

Fonte lthttpsgooglG1NNyFgt

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 26: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

36 Capiacutetulo 2 Agrupamento

2322 Algoritmo DBSCAN

DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with

Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo

de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um

raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo

intitulado A Density Based Spatial Clustering of Applications With Noise

Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam

separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento

baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo

importantes para qualquer abordagem de agrupamento baseado em densidade

Os dois paracircmetros de entrada que o DBSCAN necessita satildeo

Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto

da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de

pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder

certo nuacutemero um cluster eacute formado

Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de

pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto

central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade

inicia a formaccedilatildeo de um cluster

Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo

do conjunto de observaccedilotildees em trecircs classes

Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade

Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do

ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada

pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro

especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado

Eps se MinPts le 7

Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da

vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de

limite pode cair dentro das vizinhanccedilas de diversos pontos centrais

Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto

central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 27: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

23 Teacutecnicas de Agrupamento 37

Figura 6 ndash Densidade baseada em centro

Fonte Produzido pelo autor

Figura 7 ndash Pontos de centro de limite de ruiacutedo

Fonte Produzido pelo autor

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 28: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

38 Capiacutetulo 2 Agrupamento

Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN

pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que

estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no

mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo

de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo

descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8

Figura 8 ndash Algoritmo de Agrupamento DBSCAN

Fonte Produzido pelo autor

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 29: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

39

3 Aplicaccedilotildees de Agrupamento

Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde

agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja

seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo

de texto

Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados

como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento

de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A

seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))

bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma

classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo

classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do

trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica

que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente

bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas

que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos

de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se

beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak

1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos

aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et

al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005

Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de

dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de

genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis

moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar

os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo

envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et

al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)

bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas

Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de

paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um

nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta

Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias

como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em

subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 30: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

de um usuaacuterio nos resultados das consultas

bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no

oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo

atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o

clima da terra

bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma

quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas

diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente

tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na

distribuiccedilatildeo espacial ou temporal de uma doenccedila

bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais

e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de

grupos para anaacutelise adicional e atividades de marketing

A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de

domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens

(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))

31 Segmentaccedilatildeo de Imagens

Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem

digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo

de uma imagem para facilitar a sua anaacutelise

O processamento digital de imagens eacute uma ferramenta muito importante pois traz

muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia

enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens

por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a

trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees

Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as

imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste

em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto

de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena

obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos

Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo

A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui

Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas

relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas

baacutesicas

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 31: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

31 Segmentaccedilatildeo de Imagens 41

bull Percepccedilatildeo do mundo

bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo

bull Execuccedilatildeo de uma accedilatildeo

Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos

especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de

visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o

processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas

pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma

combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz

ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma

cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande

diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme

atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas

provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes

impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as

imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem

satildeo projetadas para fora do corpo (ainda que de olhos fechados)

Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento

da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje

obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e

especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor

teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo

dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos

nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens

O processamento digital de imagens conhecido tambeacutem como processamento de imagens

surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da

informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena

trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz

O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas

principais de aplicaccedilatildeo

bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana

bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas

O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento

humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando

a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens

satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 32: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

311 Processamento de Imagens

No Processamento de Imagens podemos dividir o processamento em algumas etapas

A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para

imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que

pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura

por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto

o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo

Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem

A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances

de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode

envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja

textura indique a probabilidade de informaccedilatildeo alfanumeacuterica

A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes

ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis

no processamento de imagens digitais

O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de

pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro

da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento

computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados

como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para

descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas

O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura

extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em

alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres

descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na

diferenciaccedilatildeo entre uma parte do alfabeto e outra

O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo

que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A

interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos

A Figura 9 mostra esquematicamente os passos fundamentais no processamento de

imagens

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 33: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

31 Segmentaccedilatildeo de Imagens 43

Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens

Fonte lthttpsgooglGsJLvqgt

312 O Problema da Segmentaccedilatildeo de Imagens

Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar

uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar

regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser

interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos

(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo

A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou

contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares

em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura

ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir

diferenccedilas significativas entre umas e outras

Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A

identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir

alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo

uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida

a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre

as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir

bull Homogeneidade da regiatildeo representada pelos pixels

bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros

segmentos

bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes

com pixels em comum

bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 34: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

homogecircneos

bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos

bull Regiotildees adjacentes devem possuir diferenccedilas significativas

bull Os segmentos devem ter bordas precisas

As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies

homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso

podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo

de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da

regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem

As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas

e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees

homogecircneas e crescimento de regiotildees

313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens

Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um

processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles

podemos destacar os seguintes

bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens

envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde

a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a

interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros

fatores apresentam vaacuterias dificuldades

bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras

tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada

bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas

bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes

elementos da imagem

bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja

Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo

havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um

problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo

ao domiacutenio do problema

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 35: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson

32 Mineraccedilatildeo de Textos 45

314 Agrupamento na Segmentaccedilatildeo de Imagens

Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo

da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve

ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma

imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de

veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e

tamanho de um carro

Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-

ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado

em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam

um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos

que estatildeo dentro de um determinado segmento

Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias

outras aplicaccedilotildees com por exemplo

bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume

de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento

Estudo da estrutura anatocircmica

bull Sistemas de reconhecimento de faces

bull Sistemas de controle automaacutetico de trafego

bull Sistemas de visatildeo computacional

bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)

32 Mineraccedilatildeo de Textos

O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que

o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de

80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos

(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse

para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo

Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados

textuais natildeo estruturados em conhecimento uacutetil

Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso

de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande

atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees

textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo

natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado

46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento

de Textos e Avaliaccedilatildeo do Conhecimento

No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-

tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento

Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na

seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo

supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar

um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente

similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos

de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou

anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-

dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os

resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade

e utilidade do conhecimento extraiacutedo

Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos

Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo

organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um

mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto

seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis

mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis

de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados

obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual

partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico

pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e

de seus subgrupos

32 Mineraccedilatildeo de Textos 47

Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento

Fonte lthttpsgooglXxPKM9gt

Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados

textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de

agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo

aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja

palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados

o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de

toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo

de informaccedilatildeo

321 Agrupamento na Mineraccedilatildeo de Textos

Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em

um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo

dos documentos

O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e

muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento

hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura

referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas

A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em

48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento

relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados

grandes

Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma

textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo

destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e

eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-

se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada

obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos

similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma

vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento

impliacutecito nos textos

49

4 Conclusatildeo

Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas

simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento

de dados Satildeo eles

bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que

tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que

satildeo representados pelos seus centroides

bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere

a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um

agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo

repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo

Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado

em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada

em protoacutetipo

bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz

um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente

pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas

assim o DBSCAN natildeo produz um agrupamento totalmente completo

A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo

K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico

e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em

relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de

aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados

teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo

de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital

em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou

mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute

tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens

O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto

de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma

regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais

como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas

com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de

dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e

semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes

50 Capiacutetulo 4 Conclusatildeo

de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees

e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto

de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo

e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a

algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de

texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre

outros

A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar

a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo

extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de

anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados

para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural

Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um

resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os

meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias

ou agrupamentos natildeo satildeo previamente determinados

Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas

no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de

descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees

Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento

de dados seria relevante abordar

bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas

fuzzy redes neurais ou algoritmos geneacuteticos

51

Referecircncias

BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30

DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31

DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34

ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36

EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23

FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23

FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31

FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23

FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46

GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23

HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31

HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31

JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31

JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30

KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23

52 Referecircncias

KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40

KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45

MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34

MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23

REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40

STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39

XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28

Page 36: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson
Page 37: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson
Page 38: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson
Page 39: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson
Page 40: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson
Page 41: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson
Page 42: Jakelson Carreiro Mendes · 2019. 6. 17. · Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a). Núcleo Integrado de Bibliotecas/UFMA Mendes, Jakelson