METODOS DE CLUSTER PARA INTERVALOS USANDO …€¦ · L1 para intervalos. Al em deste m eto do,...

Universidade Federal de Pernambuco

Centro de Informatica

Pos-graduacao em Ciencia da Computacao

METODOS DE CLUSTER PARA

INTERVALOS USANDO ALGORITMOS DO

TIPO NUVENS DINAMICAS

Renata Maria Cardoso Rodrigues de Souza

TESE DE DOUTORADO

Recife

19 de dezembro de 2003

Universidade Federal de Pernambuco

Centro de Informatica

Renata Maria Cardoso Rodrigues de Souza

METODOS DE CLUSTER PARA INTERVALOS USANDO

ALGORITMOS DO TIPO NUVENS DINAMICAS

Trabalho apresentado ao Programa de Pos-graduacao em

Ciencia da Computacao do Centro de Informatica da Uni-

versidade Federal de Pernambuco como requisito parcial

para obencao do grau de Doutor em Ciencia da Com-

putacao.

Orientador: Prof. Dr. Francisco de Assis T. de Carvalho

Recife

19 de dezembro de 2003

Dou gracas ao meu Senhor Jesus pela sua fidelidade du-

rante a elaboracao deste trabalho. A Ele toda a honra e

toda a gloria.

RESUMO

A analise de dados simbolicos (Symbolic Data Analysis) e uma nova abordagem na area

de descoberta automatica de conhecimentos que visa desenvolver metodos para dados

descritos por varaveis onde existem conjuntos de categorias, intervalos ou distribuicoes

de probabilidade nas celulas das tabelas de dados. O objetivo deste trabalho e introduzir

metodos de cluster para intervalos usando algoritmos de nuvens dinamicas. Estes algo-

ritmos consistem em obter, simultaneamente, uma particao em classes e identificar um

conjunto de representantes das classes minimizando um criterio que mede a adequacao

entre as classes e os prototipos. Os algoritmos de nuvens dinamicas com distancias adap-

tativas tambem encontram uma particao e um conjunto de representantes minimizando

uma funcao criterio, mas em cada iteracao existe uma distancia diferente para comparar

cada classe com o seu prototipo. A vantagem das distancias adaptativas e que o algo-

ritmo de agrupamento e capaz de reconhecer classes de formas e tamanhos diferentes.

Neste trabalho, foi desenvolvido um metodo de nuvens dinamicas usando a distancia

L1 para intervalos. Alem deste metodo, foram tambem introduzidos tres metodos com,

respectivamente, as distancias L1, L2 e L∞ adaptativas para intervalos. Para validar

os metodos, foram realizados experimentos com um conjunto de especies de peixes e

dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de

classificacao. Os resultados fornecidos pelos metodos tem sido avaliados por um ındice

externo na estrutura de uma experiencia Monte Carlo e testes estatısticos evidenciam

que o desempenho dos metodos adaptativos e superior ao dos metodos nao adaptativos.

Palavras-chave: Analise de Dados Simbolicos, Algoritmos de Nuvens Dinamicas,

Dados de Tipo Intervalo, Distancias Adaptativas.

iv

ABSTRACT

Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that

aims to provide suitable methods for data described through multi-valued variables,

where there are sets of categories, intervals, or weight (probability) distributions in the

cells of the data tables. The main contribution of this paper is to introduce cluster

methods for interval based on dynamical clustering algorithms. The dynamic cluster

algorithms aims to obtain both a single partition into a fixed number of clusters and the

identification of a suitable representation or prototype for each cluster by locally opti-

mizing an criterion that measure the fitting between the clusters and their corresponding

representation. The adaptive dynamic cluster algorithms also obtains a partition and a

prototypes set by optimizing a criterion function, but at each iteration there is a differ-

ent distance to the comparison of each cluster with its representation. The advantage

of these adaptive distances is that the clustering algorithm is able to recognize clusters

of different shapes and sizes. In this work, dynamical clustering method using a L1 dis-

tance for intervals was presented. Moreover, three methods with adaptive L1, L2 e L∞

distances were also introduced. The experiments carried out with a fish interval data set

and two artificial interval data sets with different degrees of clustering difficulty showed

the usefulness of these clustering methods The accuracy of the results furnished by these

clustering methods are assessed by an external index in the framework of a Monte Carlo

experience. Statistic tests support the evidence that the adaptive methods outperform

the non-adaptive methods.

Keywords: Symbolic Data Analysis, Dynamic cluster algorithm, Interval data, adap-

tive distances.

v

CONTEUDO

Capıtulo 1—Introducao 1

1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Organizacao da TESE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Capıtulo 2—Analise de Dados Simbolicos (SDA) 7

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Um breve historico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Tabelas de Dados Simbolicos e os Objetos Simbolicos . . . . . . . . . . . 10

2.3.1 Tabelas de Dados Simbolicos . . . . . . . . . . . . . . . . . . . . . 10

2.3.2 Objetos Simbolicos . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.2.1 Objeto Simbolico Booleano . . . . . . . . . . . . . . . . 11

2.3.2.2 Objeto Simbolico Modal . . . . . . . . . . . . . . . . . . 14

2.4 Evolucao da Analise Simbolica de Dados . . . . . . . . . . . . . . . . . . 15

2.4.1 Analise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4.2 Medidas de similaridade e dissimilaridade . . . . . . . . . . . . . . 15

2.4.3 Selecao de variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.4 Estatısticas descritivas . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.5 Classificacao supervisionada . . . . . . . . . . . . . . . . . . . . . 16

Capıtulo 3—Analise de Cluster 18

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

vi

conteudo vii

3.2 Analise de Cluster para Dados Usuais . . . . . . . . . . . . . . . . . . . . 20

3.2.1 Tipos de Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.1.1 Variaveis Qualitativas . . . . . . . . . . . . . . . . . . . 22

3.2.1.2 Variaveis Quantitativas . . . . . . . . . . . . . . . . . . 23

3.2.2 Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . . 23

3.2.2.1 Variaveis Quantitativas . . . . . . . . . . . . . . . . . . 25

3.2.2.2 Variaveis Binarias . . . . . . . . . . . . . . . . . . . . . 25

3.2.2.3 Variaveis Qualitativas . . . . . . . . . . . . . . . . . . . 25

3.2.2.4 Variaveis mistas . . . . . . . . . . . . . . . . . . . . . . 27

3.2.3 Metodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.3.1 Metodos de Particao . . . . . . . . . . . . . . . . . . . . 29

3.2.3.2 Metodos Hierarquicos . . . . . . . . . . . . . . . . . . . 30

3.2.4 Outros Metodos de Cluster . . . . . . . . . . . . . . . . . . . . . . 31

3.2.4.1 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.4.2 Metodos nebulosos . . . . . . . . . . . . . . . . . . . . . 32

3.2.4.3 Classificacao com Sobreposicao . . . . . . . . . . . . . . 33

3.2.4.4 Classificacao com Restricoes . . . . . . . . . . . . . . . . 35

3.2.4.5 Agrupamento Conceitual . . . . . . . . . . . . . . . . . . 35

3.3 Analise de Cluster para Dados Simbolicos . . . . . . . . . . . . . . . . . 36

3.3.1 Tipos de Variavies . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.3.1.1 Variaveis Nao Modais . . . . . . . . . . . . . . . . . . . 37

3.3.1.2 Variaveis Modais . . . . . . . . . . . . . . . . . . . . . . 38

3.3.2 Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . . 39

3.3.2.1 Abordagens para Variaveis Nao Modais . . . . . . . . . 39

3.3.2.2 Uma Abordagem para Variaveis Modais . . . . . . . . . 43

3.3.3 Metodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3.3.1 Metodos de particao . . . . . . . . . . . . . . . . . . . . 43

3.3.3.2 Metodos hieraquicos . . . . . . . . . . . . . . . . . . . . 44

Capıtulo 4—Algoritmos do tipo Nuvens Dinamicas 46

conteudo viii

4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2 Metodos de Nuvens Dinamicas com distancias fixas . . . . . . . . . . . . 47

4.2.1 As funcoes de representacao e alocacao . . . . . . . . . . . . . . . 48

4.2.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2.3 O metodo de nuvens dinamicas com a distancia L1 . . . . . . . . 49

4.2.3.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 49

4.2.3.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.4 O metodo de nuvens dinamicas com a distancia L2 . . . . . . . . 50


4.2.4.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2.5 O metodo de nuvens dinamicas com a distancia de Mahalanobis . 51


4.2.5.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.3 Metodos de Nuvens Dinamicas com distancias adaptativas . . . . . . . . 52

4.3.1 As funcoes de representacao, alocacao e distancia . . . . . . . . . 53

4.3.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.3.3 O metodo de nuvens dinamicas com distancias L1 adaptativas . . 55


4.3.3.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3.4 O metodo de nuvens dinamicas com distancias L2 adaptativas . . 56


4.3.4.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3.5 O metodo de nuvens dinamicas com distancias de Mahalanobis

adaptativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58


4.3.6 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Capıtulo 5—Algoritmos do tipo Nuvens Dinamicas para Intervalos 60

5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.2 Metodos de nuvens dinamicas com distancias L1 para intervalos . . . . . 62

conteudo ix

5.2.1 O metodo com a distancia L1 fixa . . . . . . . . . . . . . . . . . . 62

5.2.1.1 Uma funcao de distancia L1 entre dois vetores de intervalos 62


5.2.2 O metodo com distancias L1 adaptativas . . . . . . . . . . . . . . 63

5.2.2.1 Distancias L1 adaptativas entre dois intervalos . . . . . . 63

5.2.2.2 O problema de otimizacao com a distancia de um com-

ponente . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.2.2.3 O problema de otimizacao com a distancia de dois com-

ponentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.3 Metodos de nuvens dinamicas com distancias L2 para intervalos . . . . . 66

5.3.1 O metodo com a distancia L2 fixa . . . . . . . . . . . . . . . . . . 67

5.3.1.1 Uma funcao de distancia L2 entre dois vetores de intervalos 67


5.3.2 O metodo com distancias L2 adaptativas . . . . . . . . . . . . . . 68

5.3.2.1 Distancias L2 adaptativas entre dois vetores de intervalos 68

5.3.2.2 O problema de otimizacao com a distancia de um com-

ponente . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.3.2.3 O problema de otimizacao com a distancia de dois com-

ponentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.4 Metodos de nuvens dinamicas com distancias L∞ para intervalos . . . . . 71

5.4.1 Metodo com a distancia L∞ fixa . . . . . . . . . . . . . . . . . . . 71

5.4.1.1 Uma funcao de distancia L∞ entre dois vetores de intervalos 72


5.4.2 Metodo com distancias L∞ adaptativas . . . . . . . . . . . . . . . 72

5.4.2.1 Distancias L∞ adaptativas entre dois intervalos . . . . . 73


5.5 Os algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.5.1 O algoritmo de nuvens dinamicas para intervalos . . . . . . . . . . 74

5.5.2 O algoritmo de nuvens dinamicas com distancias adaptativas para

intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

conteudo x

Capıtulo 6—Resultados dos Experimentos 78

6.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.2 Conjuntos de Dados Artificiais do tipo Intervalo . . . . . . . . . . . . . . 78

6.2.1 Simulacao de Dados Usuais . . . . . . . . . . . . . . . . . . . . . 79

6.2.2 Simulacao de Dados do Tipo Intevalo . . . . . . . . . . . . . . . . 80

6.2.3 Calculo do ındice de validacao . . . . . . . . . . . . . . . . . . . . 81

6.2.4 Resultados para os Metodos L1 . . . . . . . . . . . . . . . . . . . 82

6.2.5 Resultados para os Metodos L2 . . . . . . . . . . . . . . . . . . . 84

6.2.6 Resultados para os Metodos L∞ . . . . . . . . . . . . . . . . . . . 85

6.3 Um Conjunto de Especies de Peixes . . . . . . . . . . . . . . . . . . . . . 86

6.3.1 Resultados para os metodos L1 . . . . . . . . . . . . . . . . . . . 88

6.3.2 Resultados para os metodos L2 . . . . . . . . . . . . . . . . . . . 88

6.3.3 Resultados para os metodos L∞ . . . . . . . . . . . . . . . . . . . 89

Capıtulo 7—Conclusoes e Trabalhos Futuros 91

7.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

7.2 Consideracoes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

Apendice A—Estudo das Propriedades do Algoritmo de Nuvens Dinamicas 94

Apendice B—Estudo das Propriedades do Algoritmo de Nuvens Dinamicas com

Distancias Adaptativas 96

Apendice C—Proposicao 5.2.1 99

Apendice D—Proposicao 5.2.2 101

conteudo xi

Apendice E—Proposicao 5.2.3 103

Apendice F—Proposicao 5.2.4 105

LISTA DE FIGURAS

2.1 Operacoes de juncao e uniao entre dados simbolicos . . . . . . . . . . . . 13

2.2 Operacoes de disjuncao e conjuncao entre dados simbolicos . . . . . . . . 13

3.1 Coesao e Isolamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 Etapas da analise de cluster . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.3 Uma rede para as instituicoes educacionais de uma cidade . . . . . . . . 23

3.4 Estruturas de Classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5 Estrutura de Cobertura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.6 Dendogramas de ligacao simples e de ligacao completa . . . . . . . . . . 31

3.7 Clusters disjuntos e nebulosos . . . . . . . . . . . . . . . . . . . . . . . . 33

3.8 Uma piramide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.9 Um histograma descrevendo a altura de um grupo de pessoas . . . . . . . 38

6.1 Conjunto de dados usuais 1 mostrando classes bem separadas . . . . . . 79

6.2 Conjunto de dados usuais 2 mostrando sobreposicao de classes . . . . . . 80

6.3 Conjuntos de retangulos 1 mostrando classes bem separadas . . . . . . . 81

6.4 Conjuntos de retangulos 2 mostrando sobreposicao de classes . . . . . . . 81

xii

LISTA DE TABELAS

2.1 Temperaturas mınima e maxima registradas na China . . . . . . . . . . . 9

2.2 Uma tabela de dados simbolicos . . . . . . . . . . . . . . . . . . . . . . . 11

6.1 Indice CR medio para os metodos L1. . . . . . . . . . . . . . . . . . . . . 83

6.2 Estatısticas de testes t-Student emparelhados para os metodos L1 . . . . 83

6.3 Indice CR medio para os metodos L2. . . . . . . . . . . . . . . . . . . . . 84

6.4 Estatısticas de testes t-Student emparelhados para os metodos L2. . . . . 85

6.5 Indice CR medio para os metodos L∞. . . . . . . . . . . . . . . . . . . . 85

6.6 Estatısticas de testes t-Student emparelhados. . . . . . . . . . . . . . . . 86

6.7 Conjunto de Dados de Peixe descritos por 13 variaveis do tipo intervalo . 87

6.8 Resultados do agrupamento para o conjunto de peixes usando os metodos

L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88


L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89


L∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

xiii

CAPITULO 1

INTRODUCAO

1.1 MOTIVACAO

A disseminacao do uso dos computadores nas organizacoes tem alterado radicalmente

a maneira como as aplicacoes sao conduzidas. A cada dia, mais operacoes corriqueiras sao

automatizadas e a cada nova transacao, como compras com cartao de credito, operacoes

bancarias, novos registros correspondentes sao armazenados. Sistemas de gerenciadores

de banco de dados estao presentes na maioria das organizacoes publicas e empresas de

medio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores,

clientes, empregados, etc. Alem disso, avancos em aquisicao de dados, desde um simples

leitor de codigo de barras ate sistemas de sensoriamento remoto geram grandes volumes

de dados.

Entretanto num ambiente mutavel torna-se necessario novas tecnicas e ferramentas de

extracao e analise de conhecimentos que agilizem o processo decisorio de uma empresa.

A realizacao de Data Warehousing ([Gar98]) e considerado um dos primeiros passos para

tornar factıvel a analise de grande quantidade de dados no apoio ao processo decisorio.

O objetivo e criar um repositorio, conhecido como Data Warehouse (DW), que contem

dados limpos, agregados e consolidados. No entanto, a analise de dados atraves de um

DW geralmente nao extrapolam a realizacao de simples consultas e diante disto, diversos

estudos tem sido direcionado ao desenvolvimento de tecnologias de extracao automatica

de conhecimentos.

A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database

KDD) e uma area de pesquisa em bastante evidencia no momento que visa desenvolver

meios automaticos de propesccao de conhecimento em grandes bases de dados. O pro-

cesso de KDD inicia com uma etapa de pre-processamento objetivando assegurar a qual-

1

1.1 motivacao 2

idade dos dados a ser analisados. A proxima etapa e a descoberta de conhecimento

propriamente dita. Esta etapa compreende a escolha de um algoritmo de mineracao de

dados (Data Mining) para extrair informacoes valorosas, aparentemente camufladas ou

escondidas, de uma colecao de dados. Para finalizar o processo de KDD, uma terceira

etapa e empregada com a finalidade de avaliar e utilizar o conhecimento extraıdo visando

apoiar algum processo de tomada de decisao.

As ferramentas para execucao do processo de mineracao sao genericas e derivadas de

diferentes areas de conhecimento tais como da estatıstica, inteligencia artificial e banco

de dados. As tecnicas estatısticas multivariadas englobam algoritmos que podem ser

aplicados para descobrir estruturas em um conjunto de dados. Dentre estas tecnicas

destacamos analise de cluster (analise de agrupamento ou classificacao nao supervision-

ada) que tem como objetivo organizar um conjunto de objetos em classes de tal forma

que os objetos de uma mesma classe sao mais similares entre si do que o objetos perten-

centes a classes diferentes. O atrativo dos metodos de cluster para a mineracao de dados

esta na sua habilidade de extrair novas estruturas diretamente de dados, sem nenhum

conhecimento previo.

Embora as tecnicas multivariadas tradicionais sejam bem aplicadas para sumarizar e

analisar conjuntos de dados, com o explosivo crescimento das tecnologias da informacao

estas tecnicas tem sido inapropriadas para tratar conjuntos de dados representados por

informacoes mais complexas como por exemplo, intervalos. Alem disso, os metodos

estatısticos nao possuem estruturas adequadas que possibilitem sintetizar grandes con-

juntos de dados perdendo o menos possıvel de informacao dos dados originais. Como

uma alternativa para generalizar as atuais tecnicas estatısticas para estas informacoes

mais complexas, surge a analise de dados simbolicos (Symbolic Data Analysis (SDA)).

A analise de dados simbolicos [BD00] e uma nova abordagem na area da descoberta

automatica de conhecimentos (KDD) e gerenciamento de dados, relacionada com analise

de dados multivariados, reconhecimento de padroes, inteligencia artificial e banco de da-

dos. O principal objetivo de SDA e desenvolver metodos para tratamento de dados mais

complexos como intervalos, conjuntos e distribuicao de probabilidades ou de pesos. SDA

inicia com a agregacao/reducao de bases de dados classicos em uma estrutura mais com-

1.2 objetivos 3

plexa chamada de dados simbolicos, pois eles contem variacao interna e sao estruturados.

A etapa seguinte consiste na extensao dos metodos e algoritmos de extracao de conhec-

imentos (tecnicas estatısticas) a partir de dados usuais, para os dados simbolicos. Um

exemplo da aplicacao desta metodologia no processo de descoberta de conhecimentos em

grandes conjuntos de dados e apresentado por Lima Neto e De Carvalho [NdC01].

Os algoritmos da analise de cluster podem ser divididos entre dois grandes grupos:

aqueles que estruturam um conjunto de dados em hierarquias de classes atraves de uma

arvore, chamada de dendograma, e os que estruturam um conjunto de dados em uma

particao em um numero predefinido de classes. Os metodos hierarquicos podem ser di-

vididos em aglomerativos e divisivos. Em geral os metodos que fornecem uma particao

tambem fornecem um conjunto de representantes das classes atraves da otimizacao (lo-

cal) de um criterio de adequacao entre as classes e as suas representacoes.

Varios algoritmos de cluster de dados simbolicos, tanto do tipo hierarquico como do

tipo particional, foram propostos recentemente na literatura. Entretanto os metodos

de particao existentes nao usam distancias adaptativas. Os metodos de particao adap-

tativos sao capazes de produzir uma estrutura de classes melhorando a qualidade do

agrupamento, pois as distancias adaptativas permitem reconhecer classes de formas e

tamanhos diferentes. Este fato torna os metodos adaptativos como uma ferramenta

valiosa para a descoberta de conhecimento em bases de dados.

1.2 OBJETIVOS

O objetivo principal deste trabalho e desenvolver metodos de particao para intervalos

usando algoritmos do tipo nuvens dinamicas com e sem distancias adaptativas. Embora a

literatura da analise de dados simbolicos indique alguns avancos com metodos de particao

para intervalos, estes metodos nao usam distancias adaptativas. Neste contexto, duas

etapas sao abordadas:

1) Desenvolver um metodo de nuvens dinamicas usando uma distancias do tipo L1

(City-Block) para intervalos.

2) Propor metodos de nuvens dinamicas com distancias adaptativas do tipo

1.3 organizacao da tese 4

a) L1 (City-Block);

b) L2 (Euclidiana) e

c) L∞ (Maximo) para intervalos.

No contexto das aplicacoes, dois pontos sao abordados:

1) Avaliar o desempenho dos metodos propostos usando um ındice de validacao ex-

terno. Neste estudo, serao usados conjuntos de dados reais e artificiais de tipo

intervalo com diferentes graus de dificuldade de classificacao. Para dados artifi-

ciais, o ındice de validacao sera estimado no quadro de uma experiencia Monte

Carlo.

2) Comparar os metodos propostos utilizando testes estatısticos t-Student empar-

elhados. Aqui, os testes serao aplicados para comparar as medias dos ındices de

validacao estimados pelo metodo Monte Carlo de acordo com os diferentes metodos

e conjuntos.

1.3 ORGANIZACAO DA TESE

Alem deste capıtulo, esta tese sera apresentada em mais seis capıtulos que sao:

Capıtulo 2 Analise de Dados Simbolicos

A finalidade deste capıtulo e fornecer um breve historico da abordagem simbolica em

analise de dados.

Capıtulo 3 Analise de Cluster

Este capıtulo e dividido em duas grandes secoes. Na primeira secao (3.2) sao descritos

os tipos de dados classicos, algumas medidas de distancias entre eles e por ultimo um

resumo dos principais metodos classicos de cluster. A segunda secao (3.3) apresenta

os dados simbolicos, algumas medidas de proximidades entre estes tipos de dados e


finalmente uma breve descricao dos metodos de cluster (particao e hierarquico) da analise

de dados simbolicos.

Capıtulo 4 Algoritmos do tipo Nuvens Dinamicas

Este capıtulo descreve os algoritmos classicos de nuvens dinamicas com e sem distancias

adaptativas. Inicialmente, sao abordados tres metodos de nuvens dinamicas com, re-

spectivamente, as distancias L1, L2 e Mahalanobis (secao 4.2). Posteriormente, sao

apresentados os metodos de nuvens dinamicas com as distancias L1, L2 e Mahalanobis

adaptativas (secao 4.3).

Capıtulo 5 Algoritmos do tipo Nuvens Dinamicas para Intervalos

Neste capıtulo, e descrito o formalismo dos metodos de nuvens dinamicas com e

sem distancias adaptativas para intervalos. Na secao 5.2, sao apresentados os metodos

com e sem distancias L1 adaptativas para intervalos. Na secao 5.3, sao apresentados os

metodos com e sem distancias L2 adaptativas para intervalos. Finalmente, na secao 5.4

sao relatados os metodos com e sem distancias L∞ adaptativas para intervalos.

Capıtulo 6 Resultados dos Experimentos

Na primeira parte deste capıtulo (secao 6.2), e apresentado os resultados de clas-

sificacao fornecidos pelos metodos propostos usando conjuntos de dados artificiais de

intervalos. Alem disso, sao apresentados os resultados de testes t-Student comparando

os metodos nao adaptativos com os adaptativos. Na segunda parte (secao 6.3), e descrita

a aplicacao dos metodos propostos com um conjunto de dados reais.

Capıtulo 7 Conclusoes e Futuros Trabalhos

Neste capıtulo, serao mostradas as conclusoes e consideracoes finais desta tese, bem

como os futuros trabalhos que poderao ser realizados a partir das ideias aqui apresen-


tadas.

Apendices

Nos apendices A e B sao apresentados, respectivamente, os estudos das propriedades

dos algoritmos de nuvens dinamicas nao adaptativo e adaptativo. Nos apendices C, D,

E e F sao expostos as demonstracoes das proposicoes 5.2.1, 5.2.2, 5.2.3 e 5.2.4.

CAPITULO 2

ANALISE DE DADOS SIMBOLICOS (SDA)

2.1 INTRODUCAO

Os progressos recentes nas tecnologias das ciencias da informacao tem permitido

o armazenamento de vastos conjuntos de dados em todos os domınios da atividade

humana. Atualmente, assiste-se ao surgimento de diferentes abordagens para descobrir

regularidades, simplificar ou extrair conhecimentos e as informacoes armazenadas nesses

grandes conjuntos de dados. Este processo de extrair conhecimentos em grandes bases de

dados e comumente conhecido como Mineracao de Dados. Um dos objetivos principais

das tecnicas mineracao de dados e extrair valiosas informacoes que estao presentes nos

dados originais mas que ficam ocultas devido ao grande volume de informacao.

A analise de dados simbolicos (SDA) inicialmente consiste em construir automatica-

mente grupos homogeneos de obervacoes a partir de grandes conjuntos de dados definindo

assim novas unidades, chamadas de dados simbolicos, que descrevem esses grupos [BD00].

A obtencao desses dados simbolicos deve conservar o maximo de informacoes, ao mesmo

tempo em que reduz consideravelmente a tabela de dados inicial. O resultado disso sao

novas tabelas de dados, chamadas de ”tabelas de dados simbolicos”, de estrutura mais

complexa, pois cada uma das celulas dessas tabelas nao necessariamente contem, como

usualmente, um valor simples quantitativo ou qualitativo, mas pode conter informacoes

complexas tais como subconjuntos, intervalos, funcoes de diferentes semanticas (proba-

bilista, possibilista, credibilista, etc.) ligadas eventualmente por dependencias e taxono-

mias.

SDA surge como uma alternativa para minerar dados presentes em uma tabela de

dados simbolicos. As colunas destas tabelas sao variaveis simbolicas, usadas para descr-

ever os objetos, e as linhas sao chamadas de ”descricoes simbolicas”desses objetos, pois

7

2.2 um breve historico 8

elas nao sao vetores de valores quantitativos ou categoricos simples, como e usual. Os

objetos dessa tabela podem descrever indivıduos (observacoes individuais), levando ou

nao em conta a imprecisao ou a incerteza, ou podem descrever ıtens mais complexos,

tais como grupos de indivıduos.

Billard e Diday ([BD03]) atestam o crescimento de dados de natureza simbolica

e alertam a necessidade do desenvolvimento de novas metodologias estatısticas para

o tratamento de informacoes dessa natureza. Alem disso, com relacao aos poucos

metodos estatısticos disponıveis, faz-se necessario o estabelecimento de um maior su-

porte matematico e estatıstico a esses metodos, tais como: verificacao de propriedades

estatısticas, estimacao de erros padrao e distribuicoes teoricas, entre outros.

Na secao 2.2, e apresentado um breve historico da analise de dados simbolicos.

Na secao 2.3, sao expostos as tabelas de dados simbolicos e o formalismo dos obje-

tos simbolicos. Na secao 2.4, sao citados alguns trabalhos desenvolvidos no quadro da

analise de dados simbolicos.

2.2 UM BREVE HISTORICO

A analise de dados simbolicos ([BD00]) surgiu, simultaneamente, da influencia de tres

areas: Analise Exploratoria de Dados ([Tuk58], [Boc74], [DLPT84], [Sap90], [LMW95]),

Inteligencia Artificial ( [Mic73], [Win79], [Sow84]) e Taxonomia Numerica [SS73]

As primeiras tentativas de obter objetos simbolicos de dados classicos foram real-

izadas por Belson [Bel59], seguidos de Morgan e Sonquist [MS63], com o metodo AID

(Automatic Interaction Detector). Os primeiros algoritmos, chamados de ”Conceptual

Clustering”, foram apresentados por Diday, Govaert e Lechevalier [DGL80] e Michasky,

Stepp e Diday [MSD81].

SDA constitui uma extensao de alguns metodos utilizados para analise de dados

classicos. Os primeiros trabalhos com os princıpios basicos da abordagem simbolica

apareceram no final dos anos 80 ( [Did87] , [Did89])) e desde entao varios outros trabalhos

foram realizados em diversas direcoes. Bock e Diday [BD00] apresentam de maneira

solida os principais conceitos da analise de dados simbolicos e os principais metodos

2.2 um breve historico 9

estatısticos desenvolvidos para manipular dados desta natureza.

Os dados simbolicos podem ser obtidos em uma das seguintes maneiras:

• pela aplicacao de um algoritmo de classificacao nao supervisionada para simplificar

grandes conjuntos de dados e descrever, de uma maneira auto-explicativa as classes

associadas aos grupos obtidos;

• como resultado da descricao de conceitos por especialistas;

• a partir de bases de dados relacionais para estudar conjuntos de unidades cuja

descricao necessita a fusao eventual de varias relacoes.

Com os avancos das tecnologias da informacao tem sido comum, por exemplo, encon-

trar registros de intervalos em base de dados de aplicacoes oriundas de diversos lugares.

Abaixo e apresentada parte de uma tabela de dados simbolicos reais onde os dados

foram coletados na China. Nesta tabela as linhas sao estacoes na China e as colunas sao

variaveis do tipo intervalo onde cada uma contem as temperaturas mınima e maxima reg-

istradas mensalmente em 60 estacoes na China (ver http://dss.ucar.edu/datasets/ds578.

5/data/).

Tabela 2.1. Temperaturas mınima e maxima registradas na China

Estacoes Temperatura ([min : max]) - Ano 1998

Janeiro Fevereiro ... Novembro Dezembro

AnQing [1.8 : 7.1] [2.1 : 7.2] ... [7.8 : 17.9] [4.3 : 11.8]

... ... ... ... ... ...

ZhiJiang [2.7 : 8.4] [2.7 : 8.7] ... [8.2 : 20] [5.1 : 13.3]

Uma vez obtida uma tabela deste tipo, a fase seguinte consiste em analisar, classificar,

resumir e visualizar as informacoes contidas nesta tabela. Para minerar esses dados,

SDA tem desenvolvido uma metodologia que e uma extensao das ferramentas usuais de

extracao de conhecimentos para dados simbolicos.

2.3 tabelas de dados simbolicos e os objetos simbolicos 10

2.3 TABELAS DE DADOS SIMBOLICOS E OS OBJETOS SIMBOLICOS

Os objetos simbolicos foram introduzidos ([Did89]) com o objetivo de estender os

objetos da analise de dados usuais, fornecendo, assim, uma representacao multivariada

de dados complexos dispostos em um novo tipo de tabela chamada de tabela de dados

simbolicos. Esta secao inicia apresentando as tabelas de dados simbolicos e em seguida

e descrito o formalismo dos objetos simbolicos.

2.3.1 Tabelas de Dados Simbolicos

Os dados simbolicos sao informacoes complexas, definidas conforme o tipo de variavel

que descreve os objetos. Uma variavel simbolica e uma funcao que associa, a cada el-

emento do conjunto de objetos, uma descricao pertencente ao conjunto de descricoes.

As variaveis simbolicas sao diferentes das variaveis usuais, pois estas variaveis podem

assumir diferentes valores, como por exemplo, conjuntos de categorias ou valores, inter-

valos, histogramas, ou distribuicoes de probabilidades. Maiores detalhes sobre os tipos

de variaveis usuais e simbolicas sao encontrados, respectivamente, nas secoes 3.3.1 e 3.3.2

do Capıtulo 3.

Conforme foi citado, os dados simbolicos podem descrever indivıduos, levando em

conta ou nao a imprecisao ou a incerteza, ou podem descrever ıtens mais complexos,

tais como grupos de indivıduos. Abaixo estao alguns exemplos de dados simbolicos

para indivıduos (objetos de primeira ordem) e classes de indivıduos (objetos de segunda

ordem):

• Considere Y uma variavel simbolica que descreve o tempo de estudo diario de um

indivıduo. A descricao de um indivıduo k pode ser: Y (k) = [0, 6] (em horas) ou

Y (k) = (Y (k) ≤ 1(0, 6);Y (k) > 1(0, 4)).

• Considere Y uma variavel simbolica que descreve as instituicoes bancarias exis-

tentes em uma cidade (classes de indivıduos). A descricao de uma cidade k pode

ser: Y (k) = Banco do Brasil, Caixa, Itau, Bradesco.

Em uma tabela de dados simbolicos, as linhas correspondem os indivıduos ou classes


de indivıduos e as colunas sao variaveis simbolicas que descrevem os indivıduos ou

classes de indivıduos. Na Tabela 6.1 e apresentado um exemplo de uma tabela de

dados simbolicos onde as linhas sao classes de indivıduos e as colunas sao tres variaveis

simbolicas: peso (expresso por um intervalo), marca de automovel (expresso por um

conjunto de categorias) e por ultimo fumante (expresso por uma distribuicao de pesos).

Tabela 2.2. Uma tabela de dados simbolicos

ID Peso Marca de Fumante

Automovel

1 [58, 8 : 70, 1] Ford, Fiat 3/4 sim, 1/4 nao

2 [65, 6 : 84, 2] Ford, Fiat, GM 1/6 sim, 5/6 nao

3 [49, 4 : 55, 3] Ford, GM 4/5 sim, 1/5 nao

2.3.2 Objetos Simbolicos

Sao definidos dois tipos de objetos simbolicos: booleano e modal.

2.3.2.1 Objeto Simbolico Booleano Sejam E um conjunto de objetos, u ∈ E, D

o conjunto de descricoes expressas por um conjunto de valores discretos ou um intervalo,

Y = (Y1, . . . , Yp)T um vetor de variaveis definido por uma funcao de E → D que associa

cada u a uma descricao d ∈ D, e R uma relacao de comparacao definida em D. Denote

[d′Rd] ∈ L = 0, 1 o resultado da comparacao entre duas descricoes d e d′, onde L = 1

significa que d e d′ estao conectados atraves de R.

Um objeto simbolico booleano e formalmente definido como uma tripla s = (a,R, d)

onde R e uma relacao, entre descricoes, d e uma descricao e a e uma funcao (booleana)

as : E → L com as(u) = ∧pj=1[yj(u)Rdj] = 1 se e somente se [yj(u)Rdj] = 1 para

(j = 1, . . . , p) . A extensao de s e definida como Ext(s) = u ∈ E/as(u) = 1 ([BD00]).

Exemplo 1: Seja s = (a,R, d) um objeto simbolico, onde Y = (Y1 = altura, Y2 =

peso), d = [[140, 1.60], [50, 60]], R uma relacao de pertinencia (isto e ∈) entao a(u) =

[altura(u) ∈ [140, 1.60]] ∧ peso(u) ∈ [50, 60]]. Um indivıduo u e tal que a(w) = 1 se e


somente a sua altura estiver entre 140 e 160 e, o seu peso estiver entre 50 e 60.

Para representar o conhecimento usando objetos simbolicos, podem ser levado em

consideracao dependencias entre as variaveis, que sao expressas atraves de regras. Sao

adotados dois tipos de dependencias ( [dC98]):

1) Hierarquica: Uma variavel Y pode tornar-se inaplicavel se outra variavel Z assume

valores em um determinado subconjunto Sz. Por exemplo, seja um objeto simbolico

booleano a = [sexo ∈ M,F] ∧ [parto ∈ sim,nao] a dependencia hierarquica e

expressa pelas regras r1 : se [sexo = M ] entao [parto = NA]] e r2 : se [parto =

NA] entao [sexo = M ] onde NA significa nao aplicavel.

2) Logica: Um subconjunto Sy dos possıveis valores de uma variavel Y , pode estar

em correspondencia com o subconjunto dos possıveis valores da variavel Z. Por

exemplo, seja um objeto simbolico booleano a = [idade ∈ [30, 50]] ∧ [altura ∈

[150, 165]] a dependencia logica e expressa pela regra r : se [idade ∈ [40, 45]]

entao [altura ∈ [155, 160]].

Foram introduzidos quatro operacoes entre objetos simbolicos booleanos que sao:

juncao, uniao, conjuncao e disjuncao. O exemplo abaixo apresenta algumas operacoes

simbolicas que podem ser realizadas entre dois objetos booleanos.

Exemplo 2. Sejam s1 = (a1, R, d1) e s2 = (a2, R, d2) dois objetos simbolicos onde

onde y(u) = [altura(u), peso(u)], d1 = [[120, 1.40], [20, 40]], d2 = [[150, 170], [50, 70]], e R

uma relacao de pertinencia.

• A juncao entre s1 e s2, denotada por s1 ⊕ s2, resulta no objeto s3 = (a3, R, d3)

onde d3 = [[120, 1.70], [20, 70]].

• A uniao entre s1 e s2, denotada por s1 ∪ s2, resulta no objeto s3 = (a3, R, d3) onde

d3 = [[120, 140] ∪ [150, 1.70], [20, 40] ∪ [50, 70]].

• A disjuncao entre s1 e s2, denotada por s1 ∨ s2, resulta no objeto s3 = (a3, R, d3)

onde d3 = [[120, 1.40], [20, 40]] ∨ [[150, 170], [50, 70]].


• A conjuncao entre s1 e s2, denotada por s1 ∧ s2, resulta no objeto s3 = (a3, R, d3)

onde d3 = [[120, 1.40] ∧ [150, 170], [20, 40] ∧ [50, 70]].

A Figuras 2.1 (a) e (b) ilustram, respectivamente, as operacoes juncao e uniao entre

dois objetos booleanos quaisquer, s = (a,R, d) e s′ = (a,R, d′).

Figura 2.1. Operacoes de juncao e uniao entre dados simbolicos

A Figuras 2.2 (a) e (b) exemplificam, respectivamente, as operacoes disjuncao e

conjuncao entre os objetos booleanos s e s′.

Figura 2.2. Operacoes de disjuncao e conjuncao entre dados simbolicos

Em [dC95], foi introduzida uma medida positiva para objetos simbolicos. Esta me-

dida representa o volume do produto cartesiano formado pelas descricoes das entidades

que satisfazem, potencialmente, as descricoes definidas por um objeto.

Seja s = (a,R, d) um objeto simbolico onde R e uma relacao de pertinencia, d e uma

descricao e as(u) = ∧pj=1[yj(u)Rdj]. O potencial de descricao de s e definido por:

π(d) =p

∏

j=1

µ(dj) (.)


onde µ(dj) e o cardinal de dj, se dj for um conjunto e µ(dj) e a amplitude de dj, se dj

for um intervalo.

Exemplo 3. Seja s o objeto simbolico do Exemplo 1, entao o potencial de s e dado

por π(d) = (160− 140)× (60− 50) = 200

2.3.2.2 Objeto Simbolico Modal Sejam E um conjunto de entidades, u ∈ E, D

o conjunto de descricoes expressas por medidas de ponderacao ou distribuicao, Y =

(Y1, . . . , Yp)T um vetor de variaveis definido por uma funcao de E → D que associa

cada u a uma descricao d ∈ D, e Φ uma relacao de comparacao definida em D. Denote

[d′Φd] ∈ L = [0, 1] o resultado da comparacao entre duas descricoes d e d′.

Um objeto simbolico modal e formalmente definido como uma tripla s = (a,Φ, d)

onde Φ e uma relacao nebulosa entre descricoes, d e uma descricao e a e uma funcao

definida de E em L. A extensao de s e definida como Extα(s) = u ∈ E|as(u) > α onde

α e um limiar ∈ [0, 1].

Exemplo 4: Considere s = (a,Φ, d) um objeto modal onde [d′Φd] = f([yj(u)Φ dj]

j=1,...,p) =∏

j=1,p[d′jΦdj]. Sejam dj = r e d′j = q duas distribuicoes de probabilidade

discretas, associadas em <p e Φ definida da seguinte forma: rΦq =∑p

j=1 rj qj e−minrj ,qj.

Se p = 2 e d = [(0.2)12, (0.8)[20, 28], (0.4)F, (0.60)M] entao um objeto simbolico

modal pode ser definido como: a(u) = [idade(u)Φ(0, 2)12, (0, 8)[20, 28]] ∧ [sexo(u)Φ

(0, 4)F, (0, 6)M]. Um grupo de indivıduos (u) com d′ = [(0, 3)12, (0, 7)[20, 28], (0, 35

)F, (0, 65)M] entao a funcao a(u) = (0, 06×1, 10517+0, 56)×(0, 14,+, 0, 39×1.0512) =

0, 344. Adotando um limiar α = 0, 5 tem-se que a(u) < 0, 5 logo u nao faz parte de

Ext(s).

As operacoes entre objetos simbolicos modais podem ser generalizacoes do tipo:

maximo, mınimo e media. Sejam s1 = (a1,Φ, d1) e s2 = (a2,Φ, d2) dois objetos modais

onde y(ω) = [nıvel educacional(ω)], d1 = [(0, 3)Basico, (0, 5)Fundamental, (0, 2)Superior]

e d2 = [(0, 1)Basico, (0, 8)Fundamental, (0, 1)Superior].

• A generalizacao pelo maximo entre os objetos s1 e s2 resulta no objeto s3 = s1∪s2 =

(a3,Φ, d3) onde d3 = [(0, 3)Basico, (0, 8)Fundamental, (0, 2)Superior].

2.4 evolucao da analise simbolica de dados 15

• A generalizacao pelo mınimo entre os objetos s1 e s2 resulta no objeto s3 = s1∪s2 =


• A generalizacao pela media entre os objetos s1 e s2 resulta no objeto s3 = s1∪s2 =


2.4 EVOLUCAO DA ANALISE SIMBOLICA DE DADOS

Esta secao apresenta uma descricao de alguns trabalhos de SDA nas areas de: analise

fatorial, medidas de similaridade e dissimilaridade, selecao de variaveis, estatısticas de-

scritivas e classificacao supervisionada.

2.4.1 Analise Fatorial

Cazes, et al ( [PCCDS97]) introduziram um metodo geometrico de classificacao nao

supervisionada (analise de componentes principais) em que os indivıduos sao descritos

por vetores de intervalos numericos. Na mesma direcao, Verde e De Carvalho ( [VdC98])

desenvolveram uma abordagem para levar em conta regras de dependencias entre as

variaveis descritoras quando da utilizacao de um metodo de classificacao geometrica nao

supervisionada. Nagabhushan e Gowda ([NG95]) apresentaram uma outra abordagem

para a reducao de dimensionalidade para dados simbolicos;

2.4.2 Medidas de similaridade e dissimilaridade

Na literatura de SDA, tem sido propostas diversas medidas de dissimilaridade: Gowda

e Diday ([GD91a]) apresentaram uma nova medida considerando posicao, extensao e

conteudo dos objetos. Ichino e Yaguchi ([IY94]) propuseram uma generalizacao da

metrica de Minkowski para dados complexos. De Carvalho ([dC94]) introduziu me-

didas de proximidade inspiradas na combinacao dos ındices de variaveis binarias como

uma funcao de comparacao com a metrica de Minkowsky como funcao de agregacao,

levando em conta regras de dependencias entre variaveis.

De Carvalho ([dC98]) propos uma famılia de medidas que utiliza apenas funcoes de


comparacao baseadas no potencial de descricao global. De Carvalho e Souza ( [dCdS98a])

apresentaram uma extensao da medida de Ichino e Yaguchi ( [IY94]) onde sao introduzi-

das dependencias logicas entre as variaveis e De Carvalho e Souza ([dCdS98b]) combinam

histogramas e dependencias logicas para definir medidas de proximidade dependentes do

contexto.

2.4.3 Selecao de variaveis

Ichino ([Ich81]) apresentou um metodo de selecao de variaveis nao parametrico aplicavel

para problemas de reconhecimento padroes baseado em informacoes estatısticas sobre

a estrutura interclasse. Ichino ([IS84]) tambem propos um metodo onde a selecao de

variaveis e representada por um problema de programacao inteira zero-um. Nos anos

seguintes ele generalizou os seus metodos para tratar variaveis simbolicas ([IY94]). Vi-

gnes ([Vig91]) desenvolveu uma outra abordagem para a selecao de variaveis simbolicas

booleanas que foi estendido por Ziani ([Zia96]) para levar em conta regras de dependencia

entre esse tipo de variavel;

2.4.4 Estatısticas descritivas

De Carvalho ([dC95]) introduziu a nocao de histogramas para dados simbolicos

booleanos. Bertrand e Goupil ([B00]) introduziram metodos para calcular a distribuicao

de frequencia para uma variavel simbolica e estenderam, para cada esse tipo de variavel,

os conceitos de media, desvio padrao e mediana. Recentemente, Billard e Diday ([BD02])

estenderam os conceitos de funcao de correlacao e covariancia, proporcionando a obtencao

de uma equacao de regressao linear multipla para dados simbolicos de natureza inter-

valar.

2.4.5 Classificacao supervisionada

Rasson e Lissoir ([RL98]) utilizaram uma funcao de Kernel para medir a concen-

tracao de dados simbolicos e solucionar problemas de discriminacao. Ichino ([Ich79])


definiu um algoritmo que gera hiperetangulos, baseado no operador juncao, para descr-

ever classes de exemplos e classificar novas observacoes. Posteriormente Ichino ([Ich81])

apresentou uma adaptacao desse metodo para tratar mistura de variaveis. Para tratar

dados simbolicos Ichino ([Ich86]) generalizou os seus metodos atraves de um formalismo

que denominou de ”cartesian join system”e definiu o chamado Grafo de Vizinhos Mutuos

(MNG- Mutual Neighborhood Graph) que permite alcancar uma boa discriminacao das

classes de exemplos.

Recentemente Ichino ([IY98]) apresentou um classificador simbolico baseado em uma

abordagem cujo objetivo e encontrar representantes das classes de exemplos e introduzir

um medida de similaridade entre cos representantes e as novas observacoes a classificar.

Souza ([dS99], [dSdCAC99]) apresentou uma modificacao do algoritmo de Ichino ([IY98])

e aplicou esse metodo para imagens SAR (Synthetic Aperture Radar).

CAPITULO 3

ANALISE DE CLUSTER

3.1 INTRODUCAO

O objetivo principal de uma analise exploratoria e extrair informacoes dos dados,

estabelecendo relacoes entre os objetos e as variaveis do conjunto a ser analisado. A

analise exploratoria permite que, a partir das relacoes observadas nos dados, sejam lev-

antadas hipoteses e propostos modelos visando a descoberta de padroes. A classificacao

nao supervisionada, tambem conhecida como analise de agrupamento, e uma tecnica

exploratoria multivariada que se propoe a encontrar classes homogeneas a partir de um

conjunto de objetos (indivıduos).

A analise de agrupamento tem sido aplicada em varias areas incluindo reconhec-

imento padrao, segmentacao de imagem, mineracao de dados e recuperacao de in-

formacao. Alguns exemplos tıpicos de aplicacoes de agrupamento sao: em Marketing,

para ajudar os profissionais a descobrir grupos de clientes e usar este conhecimento para

orientar as campanhas publicitarias; em atividades de seguro, identificando grupos de

segurado com o custo medio elevado de reembolso, e em planejamento urbano, identifi-

cando grupos de habitacao segundo o tipo, o valor e a localizacao geografica ([HK01]).

Os principais objetivos da classificacao sao: simplificacao e predicao dos dados. Os

metodos de cluster sao capazes de organizar grandes conjuntos de dados em estruturas de

classes que permitem simplificar as informacoes contidas nos dados e facilitar a associacao

de novos objetos. Estas informacoes simplificadas podem tambem ser usadas para fazer

predicoes e tambem gerar hipoteses com bases nos grupos formados.

O resultado de um metodo de cluster e, usualmente, uma particao de um conjunto

de objetos em grupos ou classes de maneira que os elementos dentro de um grupo tem

um alto grau de similaridade e os elementos pertencentes a grupos diferentes tem um

18

3.1 introducao 19

alto grau de dissimilaridade. Neste contexto, uma boa aplicacao de cluster requer que

o metodo usado forneca um agrupamento com alta similaridade intra-grupos (classes

coesas) e alta dissimilaridade inter-grupos (classes isoladas).

A Figura 3.1 ilustra os conceitos de coesao interna e isolamento externo. Nesta

figura, (a) significa grupos coesos e isolados, (b) grupos isolados mas nao coesos, (c)

grupos coesos com varios pontos intermediarios e (d) nao existencia de grupos naturais.

Figura 3.1. Coesao e Isolamento

Tradicionalmente, um procedimento de cluster envolve as seguintes etapas: repre-

sentacao dos objetos, definicao de uma medida de proximidade para comparar os ob-

jetos, selecao de um metodo de agrupamento e validacao dos resultados. A Figura 3.2

mostra as etapas de formacao de agrupamentos.

Figura 3.2. Etapas da analise de cluster

A etapa de representacao dos objetos identifica os indivıduos que serao agrupados

e as variaveis que descrevem esses indivıduos. A saıda desta etapa e uma matriz de

dados onde as linhas sao os indivıduos e as colunas sao as variaveis. Alem disso, mais

tres elementos podem ser acrescentados nesta etapa, se for necessario: normalizacao

dos dados, e selecao e extracao de variaveis. A normalizacao visa atenuar o efeitos de

3.2 analise de cluster para dados usuais 20

diferentes medidas de escalas. A selecao de variaveis objetiva reduzir o conjunto de

variaveis. A extracao de variaveis identifica a formacao de novas variaveis a partir das

variaveis originais.

A etapa de investigacao de proximidades consiste em considerar uma medida de

distancia para medir a proximidade entre os objetos e, segundo o tipo de variavel difer-

entes medidas de dissimilaridade ou similaridade sao encontradas na literatura ([JD88]).

A saıda desta etapa e uma matriz de proximidades onde as coordenadas representam

as proximidade entre pares de objetos da matriz de dados definida na etapa de repre-

sentacao.

A etapa de agrupamento inicia com a selecao do metodo de agrupamento. Para

isto existem varias abordagens de classificacao, por exemplo: tecnicas hierarquicas, de

particao, agrupamento conceitual e mapas de kohonen. A saıda desta etapa e o agrupa-

mento de objetos similares (clusters) fornecido pelo metodo selecionado.

A etapa final refere a uma avaliacao quantitativa dos resultados do agrupamento.

Esta avaliacao pode ser baseada em ındices de validacao externo e interno. Um ındice

externo e usado para comparar a estrutura de classes obtida por um agrupamento com

uma estrutura definida a priori e um ındice externo determina se a estrutura do agru-

pamento esta apropriada aos dados. Alem disso, testes de hipoteses no quadro de uma

experiencia Monte Carlo podem ser utilizados para comparar duas estruturas de classes

([JMF99]).

O objetivo deste capıtulo e expor os principais componentes de uma analise de cluster

(representacao dos dados, medidas de proximidades e metodos de classificacao) para

dados usuais e simbolicos. Para isto, a secoes 3.2 e 3.3 apresentam, respectivamente, o

tratamento para os dados classicos e os dados simbolicos.

3.2 ANALISE DE CLUSTER PARA DADOS USUAIS

Seja um conjunto Ω = ω1, . . . , ωn de n objetos para serem agrupados. Seja

Y1, . . . , Yp um conjunto de p variaveis que descrevem os objetos. Uma variavel Y

e uma funcao que associa para cada objeto ω ∈ Ω um resultado da realizacao de uma


caracterıstica observada Y (ω) = x. Cada objeto ωi (i = 1, . . . , n) e representado por

um vetor de caracterısticas x = (x1i , . . . , x

pi ) onde xj

i e o resultado da realizacao da

caracterıstica j observada no objeto ωi .

Uma matriz de dados e uma matriz com n linhas e p colunas onde as linhas sao os

objetos e as colunas sao as variaveis que descrevem estes objetos.

Xn×p =

x11 . . . xj

1 . . . xp1

......

......

...

xpi . . . xp

i . . . xpi

......

......

...

x1n . . . xj

n . . . xpn

Os dados de entrada de uma analise exploratoria sao classificados de acordo com os

seguintes tipos de variaveis.

3.2.1 Tipos de Variaveis

Os objetos a serem agrupados podem representar indivıduos, especies de animais,

documentos, paıses, etc. em diferentes aplicacoes e as variaveis que descrevem cada

indivıduo podem ser qualitativas ou quantitativas. Por exemplo, se peso e cor sao as

variaveis usadas para descrever um objeto, o vetor x = (50, preta) e a representacao

deste objeto que tem 50 kilos e cor preta.

Seja O o conjunto de possıveis resultados (domınio) de uma variavel. Uma variavel

e qualitativa o seu domınio e um conjunto finito e os elementos deste conjunto sao

categorias. Uma variavel e quantitativa se o seu domınio e o conjunto de numeros reais

< ou O ⊆ <. As variaveis qualitativas e quantitativas sao subdividias nos seguintes

tipos [BD00]:

(1) Qualitativas:

a) nominal (exemplo, cor de um carro);

b) ordinal (exemplo, temperatura da agua com O = fria,moderada, quente).


(2) Quantitativas:

a) discretas (exemplo, numero de computadores);

b) contınuas (exemplo, peso de um adulto).

3.2.1.1 Variaveis Qualitativas Uma variavel e qualitativa nominal se o seu domınio

O e finito e sem significado numerico onde nao existe nenhuma ordenacao entre os seus

elementos. Exemplo: a marca de um carro com O = Ford, Pegeut, F iat. Quando o

domınio destas variaveis tem somente duas categorias que, usualmente sao codificadas

como 0 ou 1: O = 0, 1, estas variaveis sao chamadas de binarias. Exemplo: sexo de

um indivıduo onde 0 significa feminino e 1 significa masculino.

Uma variavel e qualitativa ordinal se o seu domınio e finito e para cada par de objetos

a, b ∈ O existe um ordem linear entre eles a ≺ b ou b ≺ a. Exemplo: a qualidade de

um produto com O = pobre, regular, boa onde pobre ≺ regular ≺ boa. Na pratica,

existem situacoes onde os elementos de O tem uma ordenacao generalizada no sentido

que:

(a) nem todo par de alternativas de a, b ∈ O pode ser comparado por ≺ (ordem

parcial);

(b) o sistema de pares ordenados a ≺ b pode ser desenhado segundo um diagrama de

tipo hierarquia, reticulado ou rede tal que dois nıveis a, b verifica-se b ≺ a se e

somente se existe uma sequencia de ramos conectados que liga a e b.

Exemplo: Sejam Y o nıvel educacional de uma cidade e O = es=escola elemen-

tar, ef=escola fundamental, pe=pedagogico, tc=tecnico, co=contabilidade, ci=cientıfico,

un=universidade, it=instituto tecnologico. A Figura mostra uma rede descrevendo uma

ordenacao generalizada entre os elementos de O. Nesta figura, dois tipos de escola a, b

conectados no sentido a → b significa que um aluno so e aceito no tipo de escola b

(universidade) se ele conclui o estudo em uma escola do tipo a (escola fundamental).


Figura 3.3. Uma rede para as instituicoes educacionais de uma cidade

3.2.1.2 Variaveis Quantitativas Uma variavel e quantitativa discreta se o seu

domınio e um conjunto finito ou infinito enumeravel de valores. Exemplo: numero

de acidentes no Recife O = 1, 2, . . ..Uma variavel e quantitativa contınua se o range

de seus possıveis valores formam um intervalo. Exemplo: altura (em cm) de um adulto

com O = [1, 50; 2, 20] ⊆ <.

Para atenuar os efeitos de diferentes medidas de escalas quantitativas, e conveniente

padronizar as variaveis transformando as variaveis originais em novas unidades. Por

exemplo dado uma variavel Yj a padronizacao pode ser definida como segue:

1. Calculo do desvio absoluto medio, sj:

sj =1

n(|xj

1 −mj|+ . . .+ |xjn −mj|)

onde xj1, . . . , x

jn sao n valores da variavel j e mj e a media desta variavel.

2. Calculo da normal padrao, zj:

zj =xij −mj

sj

3.2.2 Medidas de Proximidades

As medidas de proximidade desempenham um papel importante na formacao de

agrupamentos pois estas medidas permitem comparar pares de objetos baseando-se nas

semelhancas ou nas diferencas existentes entre os mesmos. A proximidade para cada par


de objetos (ωi, ωk) (i, k = 1, . . . , n) pode ser representada atraves de funcoes de similar-

idade s(i, k), medindo as semelhancas entre i e k ou dissimilaridade d(i, k), medindo as

diferencas.

Uma matriz de proximidades e uma matriz simetrica com n linhas e n colunas

Dn×n =

0

d(2, 1) 0

d(3, 1) d(3, 2) 0...

......

d(n, 1) d(n, 2) . . . . . . 0

onde d(i, k) mede a proximidade entre dois objetos ik e k de um conjunto de dados Ω.

Uma similaridade s e uma funcao s : Ω × Ω → R+ que satisfaz as seguintes pro-

priedades para ∀ k, t,∈ Ω (k, t, t = 1, . . . , n):

1. ∀k, t,∈ Ω, s(k, t) ≥ 0.

2. ∀k ∈ Ω, s(k, k) ≥ maxts(k, t).

3. ∀(k, t) ∈ Ω× Ω : s(k, t) = s(t, k).

Uma dissimilaridade d e uma funcao d : Ω × Ω → R+ que satisfaz as seguintes

propriedades para ∀ i, k, t ∈ Ω (i, k, t = 1, . . . , n):

1. ∀k, t,∈ Ω, d(k, t) ≥ 0.

2. ∀k ∈ Ω, d(k, k) = 0.

3. ∀(k, t) ∈ Ω× Ω : d(k, t) = d(t, k).

Seja ωi ∈ Ω. Uma distancia d e uma funcao de dissimilaridade que satisfaz tambem

as propriedades 1. a 3. e tambem a propriedade desigualdade triangular:

4. ∀(k, t) ∈ Ω× Ω : d(k, t) ≤ d(k, i) + d(t, i)

As proximidades entre pares de objetos sao calculadas dependendo do tipo da variavel

que descreve os objetos. Sejam xi = (x1i , . . . , x

pi ) e xk = (x1

k, . . . , xpk) dois vetores p-

dimensionais descrevendo, respectivamente, os objetos i e k.


3.2.2.1 Variaveis Quantitativas Para este tipo de variavel as medidas de distancias

mais usuais sao as metricas de Minkowski: distancia Euclidiana

d(i, k) =√

((x1i − x

1k)

2 + . . .+ (xpi − x

pk)

2 (.)

e distancia de Manhatan (ou City-Block)

d(i, k) = |xi1 − xk1|+ . . .+ |xpi − x

pk| (.)

3.2.2.2 Variaveis Binarias Para o par de objetos (i, k), cada um descrito por um

vetor de p variaveis binarias, onde xji,k = 0 indica ausencia da variavel j e xj

i,k = 1 indica

presenca.

Considere a e o numero de variaveis que assume o valor 1 para ambos os objetos i e

k, b e numero de variaveis que assume o valor 1 para o objeto i e o valor 0 para o objeto

k, c e o numero de variaveis que assume o valor 0 para o objeto i e o valor 1 para o

objeto k e d e o numero de variaveis que assume o valor 0 para ambos os objetos i e k.

Existem diferentes medidas de similaridade e dissimilaridade entre dados binarios

baseadas nos termos a, b, c e d. As medidas mais usuais sao [Gor99]:

1. Coeficiente de matching de Sokal-Michener

s(i, k) =a+ d

p(.)

2. Coeficiente de Jaccard

d(i, k) =b+ c

p(.)

com s(i, k) = 1 e d(i, k) = 1 se a = b = c = 0.

3.2.2.3 Variaveis Qualitativas Para o par de objetos (i, k), cada um descrito por

um vetor de p variaveis nominais (nao ordenadas), onde cj e o numero de possıveis

categorias da variavel j.


Seja δjlm um ındice de desacordo entre as categorias l e m da variavel j onde δjlm = 1

se l 6= m e δjll = 0 se l = m (l,m = 1, . . . , p). A dissimilaridade entre os objetos i e k

em nıvel da variavel j (j = 1, . . . , p) e definida por dikj = δklm e a similaridade pode ser

obtida por si,k,j = 1− dikj.

As medidas de dissimilaridade e similaridade global entre os objetos i e k podem ser

dadas, respectivamente, pelos seguintes coeficientes de matching

d(i, k) =

∑pj=1 dikj

p(.)

s(i, k) =

∑pj=1 sikj

p(.)

Quando as variaveis qualitativas sao do tipo ordinal, a dissimilaridade entre os objetos

i e k poder ser calculada de maneira muito similar ao calculo para dados quantitativos.

O procedimento consiste das seguintes etapas:

1. Para cada variavel j (j = 1, . . . , p) enumere as suas possıveis categorias segundo

a ordem existente entre as mesmas. Seja 1, . . . ,mj uma lista enumerada das

categorias onde mj o numero total de categorias da variavel j. Para os objetos i

e k, substitua cada categoria xji,k (i, k = 1, . . . , n) pelo seu respectivo numero rj

i,k

onde rji,k ∈ 1, . . . ,mj.

2. Dado que cada variavel tem um numero diferente de categorias, uma normalizacao

dos dados e necessaria e isto pode ser realizado da seguinte forma:

zji,k =

rji,k − 1

mj − 1(.)

com i, k = 1, . . . , n

3. A dissimilaridade entre os objetos i e k pode ser computada usando uma medida

de distancia para dados quantitativos aplicada aos vetores de dados normalizados

zji e zj

k.


3.2.2.4 Variaveis mistas E comum os objetos de uma analise de dados serem de-

scritos por varios tipos de variaveis por exemplo, um indivıduo tem como descricao

idade=34 (variavel quantitativa), estado civil=casado (variavel nominal) e fumante=nao

(variavel binaria). Nestas situacoes, a proximidade entre os objetos i e k pode ser medida

por:

d(i, k) =

∑pj=1 ω

jikd

jik

∑pj=1 ω

jik

(.)

s(i, k) =

∑pj=1 ω

jiks

jik

∑pj=1 ω

jik

(.)

onde djik e sj

ik sao, respectivamente, a dissimilaridade e similaridade calculada de acordo

com o tipo da variavel j e ωjik e um peso atribuıdo a variavel j que e usualmente 1.

3.2.3 Metodos de cluster

Diferentes abordagens tem sido propostas para agrupar dados. Em analise de dados

distingui-se dois grandes grupos de metodos: hierarquicos e de particao ([Gor99], [Eve93]

[JD88] e [JMF99]). Uma classificacao hierarquica e uma sequencia de particoes que

pode iniciar com n classes unitarias e terminar com uma unica classe contendo todos os

objetos. Uma classificacao de particao e uma simples particao de classes disjuntas As

Figuras 3.4 (a) e (b) ilustram, respectivamente, as estruturas de classificacao hierarquica

e de particao.

Figura 3.4. Estruturas de Classificacao


Alem dessas estruturas de classificacao, existe tambem a estrutura de cobertura onde

e permitido que as classes partilhem os seus objetos. A Figura 3.5 exemplifica uma

estrutura de classificacao do tipo cobertura.

Figura 3.5. Estrutura de Cobertura

Os metodos de cluster tambem sao classificados segundo os seguintes aspectos:

1. Algomerativos versus Divisivos : Um metodo aglomerativo inicia colocando cada

objeto em uma classe e gradualmente fusiona os objetos formando classes maiores

ate que todos objetos estejam agrupados em uma unica classe. Um metodo divisivo

executa o procedimento aglomearativo na ordem inversa. Os metodos de particao

tambem podem ser caracterizados neste caminho.

2. Incrementais versus Nao Incrementais : Um metodo incremental apresenta os ob-

jetos a serem agrupados um de cada vez enquanto que o nao incremental apresenta

todos os objetos de uma so vez.

3. Monoteticos versus Politeticos : Os metodos monoteticos usam as variaveis uma

de cada vez enquanto os politeticos usam todas as variaveis de uma so vez.

4. Parametricos versus Nao Parametricos : Os metodos parametricos necessitam con-

hecer a distribuicao dos dados enquanto os nao parametricos nao faz uso disto.

5. Geometricos versus Nao Geometricos : Os metodos geometricos usam os conceitos

da teoria dos grafos para definir a classificacao enquanto os nao geometricos usam

termos algebricos tal como error medio quadratico.


3.2.3.1 Metodos de Particao Consistem em obter uma particao de um dado con-

junto de n objetos em um numero predefinido de grupos ou classes k onde k ≤ n. Este

procedimento requer: a) cada grupo contenha pelo menos um objeto; b) cada objeto

deve pertencer a exatamente um grupo. Usualmente as particoes sao construıdas por

otimizando uma funcao criterio. Neste caso os metodos sao tecnicas de realocacao it-

erativas que, para melhorar a qualidade do agrupamento, os algoritmos sao executados

diversas vezes com diferentes particoes iniciais e a melhor configuracao obtida a partir

desses resultados e selecionada como o agrupamento final.

Os algoritmos de nuvens dinamicas tem dois passos de realocacao iterativos envol-

vendo a construcao das classes e a identificacao de representantes ou prototipos das

classes tais como media, mediana, distribuicao de probabilidade, etc. otimizando um

criterio que mede a adequacao entre as classes e seus representantes. O algoritmo de k-

medias e um caso particular dos algoritmos do tipo nuvem dinamica onde os prototipos

sao os centroides e a funcao criterio e baseada na distancia Euclidiana medindo as

diferencas entre os centroides e as classes. Alem disso o k-medias so e capaz de recon-

hecer regioes esfericas.

A versao adaptativa dos algoritmos de nuvens dinamicas tambem obtem uma particao

e um conjunto de representantes das classes otimizando um criterio que mede a ade-

quacao entre as classes e seus representantes. Entretanto, este algoritmo associa uma

distancia diferente para cada classe que muda a cada iteracao. A vantagem dessas

distancias e que o algoritmo e capaz de reconhecer classes de formas e tamanhos difer-

entes.

Uma outra classe de metodos de particao sao os algoritmos parametricos baseados em

misturas finitas de distribuicao. O metodo supoe que os objetos a serem agrupados foram

extraıdos a partir K distribuicoes de probabilidades e a ideia e identificar os parametros

da distribuicao de cada grupo e usar esses parametros para classificar os objetos. Cada

distribuicao fornece uma probabilidade de que um objeto apresente um certo conjunto

de valores caso se saiba que ela pertenca a um dado grupo. Os parametros sao estimados

por maxima verossimilhanca atraves do algoritmo EM (Expectation Maximization).


3.2.3.2 Metodos Hierarquicos Classifica um conjunto de objetos em grupos pro-

duzindo uma hierarquia entre eles representada por uma arvore chamada de dendro-

grama. Um dendograma e um conjuntoD de subconjuntos de Ω satisfazendo as seguintes

condicoes:

(i) Ω ∈ D;

(ii) ∅ nao pertence D;

(iii) i ∈ D ∀i ∈ Ω;

(iv) se A,B ∈ D entao A ∩B ∈ ∅, A,B.

As tecnicas hierarquicas podem ser divididos em dois tipos: aglomerativos e divisivos.

Um metodo aglomerativo inicia com n grupos unitarios e obtem, sucessivamente, fusoes

de grupos similares ate que todos os n objetos formem um unico grupo. Um metodo

divisivo inicia com um unico grupo formado por todos os n objetos e em cada iteracao

sucessiva um grupo e subdividido em grupos menores ate que cada grupo tenha um

unico objeto.

Existem diferentes abordagens para fusionar grupos. As mais usuais sao os metodos

aglomerativos de ligacao simples (Sing-link method) e ligacao completa (Complete-link

method. No metodo de ligacao simples, a dissimilaridade entre dois grupos e representada

pela dissimilaridade mınima calculada entre todos os pares de objetos pertencentes a

estes grupos (um objeto do primeiro grupo e um objeto do segundo). No metodo de

ligacao completa, a dissimilaridade entre dois grupos e representada pela dissimilaridade

maxima calculada entre todos os pares de objetos pertencentes a estes grupos.

Alem dos metodos de ligacao simples e completa existem outros caminhos para definir

a dissimilaridade entre dois grupos. Sao estes:

a) No agrupamento de medias de grupos, a dissimilaridade entre dois grupos e definida

como a media das distancias entre todos os pares de objetos, cada um de um grupo

diferente.


b) No agrupamento de centroides, os dois grupos ja formados sao representados por

centroides (vetores de medias) e a distancia inter-grupos e agora definida em termos

de distancia entre estes vetores de medias.

c) O agrupamento de medianas compara os grupos da mesma forma que o agrupa-

mento de centroides sendo que agora a representacao de cada grupo e um vetor de

medianas. Se os tamanhos dos dois grupos sao muito diferentes, e mais adequado

usar o agrupamento de medianas do que o agrupamento de medias.

As Figuras 3.6(a) e 3.6(b) ilustram, respectivamente, os dendogramas para os metodos

de ligacao simples e completa.

Figura 3.6. Dendogramas de ligacao simples e de ligacao completa

Os agrupamentos de ligacao simples e de ligacao completa tambem podem ser obtidos

usando os conceitos da teoria dos grafos. Neste caso, o metodo de ligacao simples e

definido em termos de sub-grafos conectados e o metodo de ligacao completa em termos

de sub-grafos completos.

3.2.4 Outros Metodos de Cluster

Os metodos de particao e hierarquicos constituem a maioria das tecnicas da analise

de cluster. Contudo, existem outros metodos de clustering que tem sido desenvolvidos


mas nao sao claramente definidos como de particao ou hierarquico ([Gor00], [Eve93],

[JMF99], [JD88], [HK01]).

3.2.4.1 Redes Neurais As Redes Neurais Artificiais (RNAs) sao modelos computa-

cionais inspirados no cerebro humanos. As (RNAs) tem sido largamente utilizadas em

problemas de classificacao. Algumas das suas caracterısticas importantes para a classi-

ficacao sao: processamento paralelo e distribuıdo, aprendizagem atraves de exemplos e

adaptatibilidade. Os modelos de redes para agrupamento utilizam aprendizagem com-

petiva para agrupar as unidades de entrada (padroes). Na aprendizagem, objetos simi-

lares sao agrupados pela competicao entre varias unidades (neuronios representados por

vetores de peso) e o objeto corrente. A unidade cujo vetor de pesos esta proxima do

objeto corrente vence e a unidade vencedora e seus vizinhos aprendem pelo ajustamento

de pesos.

Um exemplo bem conhecido de RNAs, sao os mapas auto-organizaveis (SOMs)

[Koh89]. A arquitetura desta rede e constituıda de uma camada bidimensional de

neuronios. O algoritmo organiza os nos da rede em vizinhancas locais que agem como

clusters sobre os dados de entrada. O mapa e automaticamente organizado por um

processo cıclico ate que o nenhum padrao mude de classe. A convergencia da rede e

controlada por diversos parametros tais como: taxa de aprendizagem e vizinhanca que

define a quantidade de nos que envolve o no vencedor.

3.2.4.2 Metodos nebulosos Tradicionalmente, as abordagens de clusters geram

particoes de um conjunto de objetos. Em uma particao,cada objeto pertence a uma e

somente uma classe. Neste tipo de agrupamento, conhecido como hard, as classes sao

disjuntas. O agrupamento nebuloso estende este conceito para associar cada padrao a

cada um dos clusters usando uma funcao de pertinencia que assume valores no intervalo

[0, 1].

Neste metodo, cada cluster e um conjunto nebuloso de todos os objetos. A Figura

3.7 ilustra um agrupamento nebuloso de um conjuntos de 9 objetos. Os retangulos H1 e


H2 sao dois clusters disjuntos e F1 e F2 sao dois clusters nebulosos [JMF99]. O cluster

F1 poderia ser descrito como: (1; 0, 9), (2; 0, 8), (3; 0, 7), (4; 0, 6), (5; 0, 5), (6; 0, 2), (7; 0.2),

(8; 0, 0), (9 : 0, 0). O cluster F2 poderia tambem ser descrito como: (1; 0, 0), (2; 0, 0), (3;

0, 0), (4; 0, 1), (5; 0, 15), (6; 0, 4), (7; 0.35), (8; 1, 0), (9 : 0, 9). Cada par (i, θ) em F1 e F2

significa, respectivamente, o ındice do objeto no conjunto e o grau de pertinencia deste

objeto em F1 ou em F2.

Figura 3.7. Clusters disjuntos e nebulosos

Um problema usual em agrupamento nebuloso e a definicao da funcao de pertinencia

e diferentes funcoes sao usadas entre elas as funcoes baseadas em centroides de clusters.

O algoritmo nebuloso mais usado e o algoritmo c-medias e uma generalizacao deste

algoritmo usando uma famılia de funcoes de pertinencia e apresentada em [Bez81].

3.2.4.3 Classificacao com Sobreposicao Em geral,as classes sao disjuntas, se e

usado um metodo de particao ou as classes sao disjuntas ou encaixadas, se e usado

um metodo hierarquico. Contudo, existem um numero de metodos na literatura de

classificacao que formam classes nao disjuntas ou seja com sobreposicao. Alguns deles

sao: metodo Bk e piramides.

O metodo Bk (k = 1, 2, 3, . . .) [JS68] e uma sequencia de metodos de clustering onde

duas classes podem ter no maximo (k− 1) objetos em comum. Quando k = 1 o metodo

B1 e o metodo de ligacao simples apresentado na secao 3.2.3.2. Para construir as classes

o BK usa os conceitos da teoria dos grafos onde cada objeto e representado com um

vertice no grafo e uma aresta liga dois objetos baseando-se na dissimilaridade entre eles.


Neste metodo, cada classe corresponde a um sub-grafo completo maximo.

O modelo piramidal, introduzido por Diday [Did86], e uma classificacao hierarquica

que especifica uma ordenacao no conjunto de objetos a serem agrupados. Portanto, uma

piramide e um tipo de dendrograma onde existe uma ordenacao entre as classes. A

Figura 3.8 ilustra uma classificacao usando uma piramide.

Figura 3.8. Uma piramide

Formalmente, uma piramide e definida como um conjunto P de subconjuntos do

conjunto de objetos Ω que satisfazem as seguintes condicoes:

(i) Ω ∈ P ;

(ii) ∅ nao pertence P ;

(iii) i ∈ P ∀i ∈ Ω;

(iv) se A,B ∈ P entao A ∩B ∈ P ∪ ∅;

(v) existe uma order tal que P e um conjunto de intervalos desta ordem.

As piramides generalizam os modelos hierarquicos apresentadas na subsecao 3.2.3.2

permitindo classes nao disjuntas onde cada classe e um intervalo do conjunto de objetos

Ω. Na Figura 3.8 pode se observar que cada classe (no interno) da piramide pode ter

duas classes predecessoras ao contrario dos dendogramas da Figura 3.6 onde cada classe

so tem um classe predecessora. Dado um conjunto de n objetos, o numero maximo de

nos em uma piramide e n(n − 1)/2 enquanto que em um dendograma este numero e


(n − 1). Uma piramide pode ser construıda a partir de uma matriz de dissimilaridade

usando um algoritmo aglomerativo [Did86].

3.2.4.4 Classificacao com Restricoes Em alguns problemas de classificacao e rel-

evante impor restricoes no conjunto de objtos. O tipo de restricao mais comum e a

contiguidade. Esta restricao ocorre quando os objetos em uma classe sao requeridos

nao somente serem similares mas tambem terem uma contiguidade espacial entre eles.

Por exemplo, em sensoriamento remoto um pixel poderia corresponder um objeto e o

interesse seria identificar regioes homogeneas. Neste caso, a dissimilaridade entre cada

par de objetos espacialmente contıguos pode ser definida combinando um componente

para medir as diferencas fısicas e uma distancia para medir a separacao entre os obje-

tos. Estas dissimilaridades podem ser analisadas usando os metodos convencionais de

classificacao [Gor00].

Segundo Gordon [Gor00], uma abordagem adequada para obter a classificacao requer

a definicao de uma matriz que represente a contiguidade entre todos os pares de objetos.

Uma coordenada desta matriz assume 0, se dois objetos nao sao contıguos ou 1, se os

objetos sao contıguos. No grafo correspondente a esta matriz, cada objeto e representado

por um vertice e uma aresta liga os objetos se os mesmos sao contıguos. Construıdo o

grafo, classificacoes hierarquicas e de particao com restricoes podem ser obtidas usando

versoes modificadas dos metodos descritos na secao 3.2.3.

3.2.4.5 Agrupamento Conceitual Em aplicacoes de agrupamento e usual a saıda

ser uma particao de um dado conjuntos de objetos. Entretanto, em muitas outras

aplicacoes envolvendo tomada de decisoes, nao somente clusters sao descobertos mas

tambem uma descricao de cada cluster e identificada e esta descricao representa um

conceito. No primeiro caso o agrupamento e nao conceptual pois apenas fornece a

descricao em extensao de cada grupo e obtencao dos grupos leva em conta apenas as

descricoes dos indivıduos. No segundo caso, alem da descricao em extensao, tambem e

considerada a descricao em compreensao (intencional) de cada grupo e a formacao dos

3.3 analise de cluster para dados simbolicos 36

grupos leva em conta tambem a qualidade da descricao em compreensao de cada grupo.

Os metodos de agrupamento conceitual funcionam em duas etapas: agregacao e car-

acterizacao. A agregacao consiste em encontrar os grupos de um conjunto de indivıduos

segundo uma estrutura considerada e um ou mais criterios fixados. A caracterizacao

fornece uma descricao (conceito) de cada um dos grupos obtidos na fase de agregacao.

Como ilustracao, podemos citar os metodos CLUSTER/2 [MS83] e COBWEB [Fis87].

O metodo CLUSTER/2 inicia com k sementes, onde k e o numero de clusters a

serem construıdos e associa cada semente com uma descricao discriminante maxima. Em

seguida atribui os objetos (exemplos cobertos) a cada descricao para obter as classes.

Os objetos cobertos por mais de uma classe sao removidos e uma classe e associada para

cada um destes objetos. Assim, novas descricoes discriminantes sao obtidas e o conjunto

final de descricoes discriminantes fornecera a descricao conceitual das classes.

O COBWEB abrange um algoritmo incremental para obter uma classificacao hierar

quica atraves de uma arvore de classificacao. Cada no da arvore refere-se a um conceito

que, representado por uma descricao probabilıstica, resume as descricoes dos objetos

classificados neste no. A classificacao e obtida da seguinte forma: cada objeto percorre

os nos da arvore (no sentido de cima para baixo), iniciando pelo no que compreende todos

os objetos, e por onde o objeto passar as descricoes dos nos sao atualizadas. Dependo

da medida de qualidade usada, o objeto pode ser associado a uma classe existente, uma

nova classe pode ser criada, ou classes existentes podem ser combinadas ou subdivididas.

3.3 ANALISE DE CLUSTER PARA DADOS SIMBOLICOS

Esta secao visa apresentar uma extensao da analise de cluster de dados usuais, ap-

resentada na secao 3.2, para os dados simbolicos. Neste contexto SDA tem proposto

medidas de dissimilaridade e similaridade e metodos (hierarquicos e de particao) para

objetos descritos por vetores de dados simbolicos onde nas coordenadas destes vetores

podem conter um conjunto de valores ou categorias, um intervalo ou uma distribuicao

de pesos ou de probabilidade.

Seja um conjunto E = s1, . . . , sn de n objetos para serem agrupados. Um objeto


pode ser um indivıduos ou um grupo de indivıduos ou um entidade. Seja Y1, . . . , Yp um

conjunto de p variaveis simbolicas que descrevem estes objetos. Uma variavel simbolica

Yj e uma funcao que associa para cada objeto um resultado ou um conjunto de resultados

da realizacao de uma caracterıstica observada Y (s) = ξ. Cada objeto si (i = 1, . . . , n) e

descrito por um vetor de variaveis simbolicas ξi = (ξ1i , . . . , ξ

pi ) onde ξj

i e o resultado da

realizacao da caracterıstica j observada no objeto si .

Uma matriz de dados simbolicos, e uma matriz com n linhas e p colunas onde as

linhas sao os objetos (indivıduos ou classes de indivıduos) e as colunas sao variaveis

simbolicas.

Xn×p =

ξ11 . . . ξj

1 . . . ξp1

......

......

...

ξ1i . . . ξj

i . . . ξpi

......

......

...

ξ1n . . . ξj

n . . . ξpn

onde ξij e o valor da variavel simbolica Yj observada no objeto i.

3.3.1 Tipos de Variavies

Como nos dados classicos, os dados simbolicos tambem sao classificados segundo o

tipo de variavel simbolica que descrevem os objetos e estas por sua vez sao definidas

de acordo com o seu domınio. Por exemplo, a variavel cor descrevendo uma especie de

planta pelo conjunto de categorias verde, lilas e amarelo e uma variavel simbolica do

tipo multi-valorada categorica.

De acordo com Bock e Diday [BD00], as variaveis simbolicas sao classificadas em dois

grandes grupos: nao modais e modais.

3.3.1.1 Variaveis Nao Modais As variaveis simbolicas nao modais sao: multival-

oradas e de tipo intervalo. As variaveis multivaloradas sao definidas como:

(i) categorica (ordinal ou nominal) e


(ii) quantitativa

Uma variavel multivalorada nominal assume ao descrever um objeto um conjunto de

categorias nao ordenados. Por exemplo, seja Y=cartoes de credito e sk um grupo k de

indivıduos entao y(k) = Master, V isa.

Uma variavel multivalorada ordinal assume um conjunto de categorias onde existe

uma ordenacao entre elas . Por exemplo, seja Y=ensino e sk uma escola entao y(k) =

fundamental e superior. No caso classico, esta variavel ao descrever um grupo de

indivıduo so podera assumir uma unica categoria.

Uma variavel multivalorada quantitativa assume um conjunto de valores nao ordena-

dos. Por exemplo, seja Y = o numero de acidentes semanais em tres principais bairros

de uma cidade e sk uma cidade entao, y(k) = 20, 10, 15. Novamente, no caso classico,

esta variavel ao descrever um indivıduo so podera assumir um unico valor.

Uma variavel nao modal do tipo intervalo assume um intervalo [a, b] ∈ I = [a, b] :

a, b ∈ <, a ≤ b. Exemplo, seja Y = salario em reais e sk uma cidade, entao y(k) =

[70, 7000].

3.3.1.2 Variaveis Modais Uma variavel simbolica modal descreve um objeto us-

ando o par (c,π) onde c e um conjunto de categorias que a variavel assume e π e um

vetor de frequencias, pesos ou probabilidades correspondentes as categorias do conjunto

c.

Exemplo, seja Y = a altura dos socios de um clube sk entao, y(k) e uma descricao

dada por: ([1, 50, 1, 60]0, 20); [1, 60; 170]0, 50; [1, 70; 1, 80]0, 20; [1, 80; 1, 90]0, 15). Cada

elemento desta descricao representa um intervalo e a sua frequencia relativa. A Figura

3.9 ilustra o histograma que representa a altura dos socios do clube sk.


Figura 3.9. Um histograma descrevendo a altura de um grupo de pessoas

3.3.2 Medidas de Proximidades

Em SDA, uma matriz de proximidades e uma matriz simetrica com n linhas e n

colunas que representam as proximidades para todos os pares de n objetos.

Dn×n =

0

d(2, 1) 0

d(3, 1) d(3, 2) 0...

......

d(n, 1) d(n, 2) . . . . . . 0

onde d(i, j) pode ser uma funcao de similaridade ou dissimilaridade, ou uma distancia

entre o objetos si e sj.

Diferentes abordagens tem sido propostas para medir as proximidades entre pares de

objetos simbolicos descritos por variaveis nao modais ou modais. A seguir sao apresen-

tadas algumas desses medidas.

3.3.2.1 Abordagens para Variaveis Nao Modais De acordo com Gowda e Diday

([GD91a]) a proximidade entre dois objetos si e sk e definida por:

d(i, k) =p

∑

j=1

D(ξji , ξ

jk) (.)


Esta funcao d(i, k) mede as diferencas entre os vetores ξi = (ξ1i , . . . , ξ

pi ), que repre-

senta si e ξk = (ξ1k, . . . , ξ

pk), que representa sk.

Para medir as diferencas entre o par (ξji , ξ

jk) em nıvel da variavel j (j = 1, . . . , p), a

funcao D(ξji , ξ

jk) tem duas versoes:

(i) Variaveis quantitativa e do tipo intervalo.

Sejam ξji = [aj

i , bji ] e ξj

k = [ajk, b

jk] e Oj o domınio (intervalo maximo) da variavel j

representado por ξjo = [aj

o, bjo]. A funcao D(ξj

i , ξjk) e dada por:

D(ξji , ξ

jk) = Dp(ξ

ji , ξ

jk) +Ds(ξ

ji , ξ

jk) +Dc(ξ

ji , ξ

jk) (.)

com 0 ≤ Dp ≤ 1, 0 ≤ Ds ≤ 1 e 0 ≤ Dc ≤ 1.

A componente Dp(ξji , ξ

jk) mede as diferencas em posicao entre ξj

i e ξjk.

Dp(ξji , ξ

jk) =

|aji − a

jk|

|ajo − b

jo|

(.)

A componente Ds(ξji , ξ

jk) mede as diferencas em extensao entre ξj

i e ξjk.

Dp(ξji , ξ

jk) =

|I(ξji )− I(ξ

jk)|

Is(.)

onde I(ξji ) = |aj

i − bji |, I(ξ

jk) = |aj

k − bjk| e Is = |min(aj

i , ajk)−max(b

ji , b

jk)|.

A componente Dc(ξji , ξ

jk) mede as diferencas em conteudo entre ξj

i e ξjk.

Dc(ξji , ξ

jk) =

I(ξji ) + I(ξj

k)− 2I(ξji ∩ ξ

jk)

Is(.)

onde I(ξji ∩ ξ

jk) = |ξj

i ∩ ξjk|.

(ii) Variaveis Categoricas (ordinais ou nominais): Sejam ξji e ξj

k dois conjuntos quais-

quer. A funcao D(ξji , ξ

jk) e dada por:

D(ξji , ξ

jk) = Ds(ξ

ji , ξ

jk) +Dc(ξ

ji , ξ

jk) (.)

com 0 ≤ Ds ≤ 1 e 0 ≤ Dc ≤ 1.


A componente Ds(ξji , ξ

jk) mede as diferencas em extensao entre ξj

k e ξjk.

Dp(ξji , ξ

jk) =

|I(ξji )− I(ξ

jk)|

Is(.)

onde I(ξji ) e o cardinal de ξj

i , I(ξjk) e o cardinal de ξj

k e Is e o cardinal do conjunto

ξji ∪ ξ

jk.

A componente Dc(ξji , ξ

jk) medindo as diferencas em conteudo entre ξj

i e ξjk e dada

por:

Dc(ξji , ξ

jk) =

I(ξji ) + I(ξj

k)− 2I(ξji ∩ ξ

jk)

Is(.)

onde I(ξji ∩ ξ

jk) e o cardinal do conjunto ξj

i ∩ ξjk.

Ichino e Yaguchi [IY94] usam duas funcoes para medir as diferencas entre dois objetos

si e sk: uma funcao de comparacao em nıvel de cada variavel, e uma funcao de agregacao,

para agregar as comparacoes e obter uma funcao de dissimilaridade global. Estas funcoes

usam o conceito de juncao.

• Para variaveis do tipo intervalo e quantitativas e ordinais com intervalos ξji =

[aji , b

ji ] e ξj

k = [ajk, b

jk], a juncao e definida pelo intervalo ξj

i⊕ξjk = [min(aj

i , ajk),max(b

ji ,

bjk)].

• Para variaveis nominais, a juncao torna-se a a uniao entre ξji e ξj

k: ξji ⊕ ξ

jk = ξj

i ∪ ξjk

Seja Oj o domınio da variavel j representado por ξjo. As funcoes de comparacao e

agregacao para dados quantitativos (e do tipo intervalo) e categoricos sao:

(i) funcao de comparacao

φ(ξji , ξ

jk) = µ(ξj

i ⊕ ξjk)− µ(ξj

i ∩ ξjk) + γ (2µ(ξj

i ∩ ξjk)− µ(ξj

i )− µ(ξjk)) (.)

onde 0 ≤ γ ≤ 0.5 e µ(ξji ) e µ(ξj

k) sao, respectivamente:

– |bji − aji | e |b

jk − a

jk|, se a variavel j e do tipo intervalo;

– |ξji | e |ξ

jk| (cardinais dos conjuntos), se j e uma variavel multivalorada.


Ichino e Yaguchi propuseram uma versao normalizada para φ(ξji , ξ

jk):

Ψ(ξji , ξ

jk) =

φ(ξji , ξ

jk)

µ(ξjo)

onde µ(ξjo) = |aj

o−bjo|, se a variavel e do tipo intervalo ou µ(ξj

o) = |ξjo|, se a variavel

e multivalorada.

De Carvalho [dC96] tambem propos uma versao normalizada para φ(ξji , ξ

jk):

ψ(ξji , ξ

jk) =

φ(ξji , ξ

jk)

µ(ξji ⊕ ξ

jk)

(ii) funcao de agregacao

dq(i, k) =

p∑

j=1

wj(FC(ξji , ξ

jk))

q

1/p

(.)

com q ≥ 1 wj > 0 e∑p

j=1wj = 1 FC = φ, FC = Ψ ou FC = ψ.

De Carvalho ([dC94], [dC96], [dC98], [dCdS98a]) apresentou duas extensoes das me-

didas de Ichino e Yaguchi [IY94]. A primeira combina diferentes funcoes de comparacao

e de agregacao, tal como a distancia de Minkowski e suas variantes. A segunda introduz

dois tipos de dependencias logicas entre as variaveis simbolicas. Uma destas extensoes

para dados simbolicos quantitativos e categoricos e descrita abaixo.

A distancia entre os objetos i e k e definida por:

d(i, k) = π(i⊕ k)− π(i ∩ k) + γ(2π(i ∩ k)− π(i)− π(k)) (.)

onde π(s) e o potencial de descricao do objeto s.

Seja s um objeto representado pelo vetor ξs = (ξ1s , . . . , ξ

ps ). O potencial de descricao

do objeto s e d dado por:

π(s) =p

∏

j=1

µ(ξjs) (.)

A distancia d(i, k) tem duas versoes normalizadas:


(a)

d(i, k) =π(i⊕ k)− π(i ∩ k) + γ(2π(i ∩ k)− π(i)− π(k))

π(O)(.)

onde O e o domınio da variaveis representado por ξo = (ξ1o , . . . , ξ

po) sendo ξj

o o

intervalo maximo que a variavel j assume, se esta e do tipo intervalo ou o conjunto

dos possıveis valores de j, se esta e multivalorada.

(b)

d(i, k) =π(i⊕ k)− π(i ∩ k) + γ(2π(i ∩ k)− π(i)− π(k))

π(i⊕ k)(.)

3.3.2.2 Uma Abordagem para Variaveis Modais Considere agora os objetos si

e sk sendo descritos por p variaveis modais. Entao os objetos si e sk sao representados,

respectivamente, por: [(c1i ; π1i ), . . . , (c

pi ; π

pi )] e [(c1k; π

1k), . . . , (c

pk; π

pk)].

Seja n o numero maximo de categorias do conjunto domınio da variavel j. Os vetores

de pesos dos objetos si e sk para a variavel j sao, respectivamente, dados por:

• πji = (πj

i1, . . . , πjinj) com πj

ih = 0, se categoria h nao pertence ao conjunto cji, e

∑nih=1 π

jih = 1;

• πjk = (πj

k1, . . . , πjknj) com πj

kh = 0, se categoria h nao pertence ao conjunto cjk, e

∑njh=1 π

jkh = 1.

Chavent et al [CdCLV03] introduziram uma distancia entre dados modais que tambem

e definida usando os componentes de comparacao e agregacao. A funcao de comparacao e

a distancia L2 de Minkowski aplicada aos vetores de pesos πji e π

jk em nıvel da variavel j

(j = 1, . . . , p) e a funcao de agregacao e uma medida para agregar todas as comparacoes

e obter uma dissimilaridade global.

(i) funcao de comparacao

dj(πji ,π

jk) =

nj∑

h=1

(πjih − π

jkh)

2 (.)


(ii) funcao de agregacao

d(i, k) =p

∑

j=1

dj(πji ,π

jk) (.)

3.3.3 Metodos de cluster

Esta secao expoe os metodos de cluster da analise de dados simbolicos. Os metodos

de cluster sao hierarquicos e de particao para dados expressos por intervalos, conjuntos

de categorias e distribuicoes de pesos.

3.3.3.1 Metodos de particao Diday e Brito ([DB89]) usaram um algoritmo de

transferencia para particionar um conjunto de objetos em classes descritas por vetores

onde cada coluna contem uma distribuicao de pesos. El-Sonbaty e Ismael ([ESI88]) ap-

resentaram um algoritmo k-media nebuloso para agrupar dados simbolicos descritos por

diferentes tipos de variaveis simbolicas. Verde et al ([VdC01]) introduziram um algo-

ritmo de nuvem dinamica para dados simbolicos considerando funcoes de proximidade

dependente do contexto onde os representantes das classes (prototipos) sao vetores de

distribuicao de pesos.

Gordon ([Gor00]) apresentou um algoritmo de realocacao interativo para particionar

um conjunto de objetos simbolicos em classes minimizando a soma dos potenciais de

descricao das classes. Chavent e Lechevalier ([CdCLV03]) propuseram um algoritmo

de nuvens dinamicas para intervalos onde o prototipo e definido pela otimizacao de

um criterio baseado em uma distancia de Hausdorff. Bock [Boc02] apresentou diversos

metodos de realocacao usando as distancias Euclidiana, Hausdorf e tipo vertice para uma

tabela de dados simbolicos do tipo intervalo. Alem disso, Bock tambem apresenta neste

trabalho uma adaptacao do modelo neural mapas de Kohonen para visualizar dados

simbolicos.

Souza e De Carvalho introduziram varios metodos de nuvens dinamicas: dois al-

goritmos com distancias L1 (fixa e adaptativa) para intervalos ([dSdC03], [dCdS03b],

[dSdCS03]) e dois algoritmos com, respectivamente, as distancias L2 ([dCdS03a]) e L∞

([dSdCL03]) adaptativas entre vetores de intervalos. Os metodos L1 e L2 adaptativos


tem, cada um, duas versoes de distancias adaptativas (versao de um componente e versao

de dois componentes. O metodo com distancias L∞ adaptativas e uma versao adaptativa

do algoritmo de nuvens dinamicas baseado na distancia de Hausdorff ([CdCLV03]).

3.3.3.2 Metodos hieraquicos Um metodo aglomerativo tem sido introduzido para

formar objetos simbolicos usando um operador juncao. A juncao pode ser obtida

baseando-se em dissimilaridade mınima ([GD91a]) ou similaridade maxima ([GD91b]).

Ichino e Yaguchi ([IY94]) propuseram metricas de Minkowski para misturas de variaveis

e apresentaram metodos de ligacao simples para conjuntos de dados representados por

valores numericos e simbolicos. Em [GR95b] e [GR95a] foram introduzidos, respecti-

vamente, algoritmos aglomerativos e divisivos para dados simbolicos baseados em uma

combinacao entre medidas de similaridade e dissimilaridade. Estas medidas sao definidas

levando em conta o conteudo, posicao e espalhamento de objetos simbolicos.

Chavent ([Cha98]) tem apresentado um metodo divisivo para dados simbolicos que

fornece ao mesmo tempo uma hierarquia de um conjunto de dados simbolicos e uma car-

acterizacao monotetica de cada cluster na hierarquia. El-Sonbaty e Ismael ([ESI98]) tem

introduzido uma tecnica hiererarquica aglomerativa baseada no conceito de metodos de

ligacao simples para agrupar dados numericos e simbolicos simultaneamente. Gowda e

Ravi ([GR99a]) desenvolveram um algoritmo para dados simbolicos baseando-se na abor-

dagem gravitacional que e inspirada no movimento de partıculas no espaco de acordo

com a atracao gravitacional mutua das mesmas. Em ([GR99b]) foi apresentado uma

abordagem de cluster ISODATA para dados simbolicos usando algoritmos geneticos.

Brito ([Bri94b], [Bri94a]) apresentou um metodo de agrupamento usando uma estru-

tura de classificacao piramidal para dados simbolicos onde as classes sao construıdas

baseando-se em um conceito de objeto simbolico completo.

CAPITULO 4


4.1 INTRODUCAO

Os algoritmos do tipo nuvens dinamicas sao uma famılia de metodos de cluster nao

hierarquicos cujo objetivo e obter, simultaneamente, uma particao de um conjunto de

elementos em um numero predefinido de classes e identificar um conjunto de prototipos

ou representantes das classes (medias, eixos, distribuicoes de probabilidade, etc.) min-

imizando um criterio que mede a adequacao entre as classes e os prototipos ([DS76],

[Did71], [CGLR89]). As vantagens desses metodos consistem na formulacao de um

problema de classificacao em termos de otimizacao de um criterio de ajustamento entre

classes e seus representantes e na definicao de uma estrutura onde os algoritmos podem

ser usados para encontrar uma solucao otima local. O unico problema e a convergencia

desses algoritmos que depende tanto da configuracao inicial de pontos como da escolha

da funcao de representacao de acordo com a distancia que mede o ajuste entre um grupo

e a sua representacao.

O algoritmo inicia com um conjunto de representantes ou uma particao aleatoria e

aplica iterativamente uma etapa de alocacao para afetar cada elemento a classe onde a

proximidade entre o elemento e o prototipo e mınima, e uma etapa de representacao onde

os prototipos sao atualizados de acordo com o resultado da etapa de alocacao. Estas duas

etapas sao realizadas ate a convergencia do algoritmo, quando o criterio de ajustamento

alcanca um valor estacionario. Para melhorar a qualidade do agrupamento, o algoritmo

e executado diferentes vezes com diferentes particoes iniciais, e a melhor configuracao

de pontos e usada como resultado do agrupamento.

Os algoritmos de nuvens dinamicas com distancias adaptativas ([DG77], [Gov75])

tambem encontram, simultaneamente, uma particao em um numero predefinido de

46

4.2 metodos de nuvens dinamicas com distancias fixas 47

classes e um conjunto de representantes das classes minimizando uma funcao criterio

que mede a dissimilaridade entre as classes e os prototipos, mas em cada iteracao ex-

iste uma distance diferente para comparar cada classe com o seu prototipo. A ideia e

associar cada classe com uma distancia que e normalizada de acordo com o conjunto

de observacoes da classe. A vantagem das distancias adaptativas e que o algoritmo de

agrupamento e capaz de reconhecer classes de formas e tamanhos diferentes.

Na secao 4.2, serao apresentados tres metodos do tipo nuvens dinamicas com distancia

fixa. Os metodos com distancias adaptativas serao descritos na secao 4.3.

4.2 METODOS DE NUVENS DINAMICAS COM DISTANCIAS FIXAS

Seja Ω = ω1, . . . , ωn um conjunto de n objetos descritos por p variaveis. Cada

objeto ωi (i = 1, . . . , n) e representado por um vetor de dados descritos por p variaveis

quantitativas xi = (x1i , . . . , x

ji , . . . , x

pi ). Seja P = (C1, . . . , CK) Lk uma particao de de Ω

em K classes onde cada classe Ck (k = 1, . . . , K) tem um representante (prototipo) Lk

que tambem e descrito por um vetor de dados quantitativos yk = (y1k, . . . , y

jk, . . . , y

pk).

Considere PK um conjunto de particoes P = (C1, . . . , CK) de Ω em K classes e

LK = L× . . .×L um conjunto de K −uplas L = (L1, . . . , LK) com Lk ∈ L. No metodo

de nuvens dinamicas, o problema de classificacao e definido da seguinte forma: encontrar

uma particao P ∗ ∈ PK em K classes e um conjunto de prototipos das classes L∗ ∈ LK

tal que

W (P ∗, L∗) = MinW (P,L)/P ∈ Pk, L ∈ Lk (.)

onde o criterio W (P,L) mede a adequacao entre uma particao P e a representacao desta

particao L.

O algoritmo inicia com uma particao de Ω obtida aleatoriamente P 0 = (C01 , . . . , C

0K) e

aplica iterativamente duas etapas: para obter, respectivamente, o par Lt = (Lt1, . . . , L

tK)

(fixado P ) usando uma funcao de representacao e P t = (Ct1, . . . , C

tK) (fixado L) usando

uma funcao de alocacao ate que o criterio W alcance um valor estacionario. Este algo-

ritmo converge e o criterio W decresce a cada iteracao se a funcao de representacao e


definida de acordo com a medida de distancia usada na etapa de alocacao.

Alem disso, dependendo da solucao inicial (P 0, L0), o algoritmo converge na direcao

de uma solucao otima local paraW . Entao, diferentes valores deW poderao ser obtidos a

partir de diferentes solucoes iniciais. Assim, e usual realizar um numero pre-estabelecido

de repeticoes do algoritmo com diferentes solucoes iniciais obtidas aleatoriamente e se-

lecionar como solucao final o par (P ∗, L∗) cujo valor de W seja mınimo.

4.2.1 As funcoes de representacao e alocacao

Uma funcao de representacao g permitindo associar para cada particao P ∈ PK de

Ω, em K classes, um elemento L = (L1, . . . , LK) ∈ LK e tal que g(P ) = (L1, . . . , LK).

Uma funcao de alocacao f permitindo associar para cada representacao L ∈ LK uma

particao P = (C1, . . . , CK) de PK e tal que f(L) = (C1, . . . , CK).

4.2.2 O algoritmo

O algoritmo de nuvens dinamicas e construıdo com base nas funcoes f e g onde o

par P t e Lt e definido a partir das seguintes relacoes: P t = f(Lt−1) e Lt = g(P t) (ver

estudo das propriedades do algoritmo no apendice A).

(a) Inicializacao

Selecione uma particao P 0 = (C01 , . . . , C

0K) do conjunto de objetos Ω ou selecioneK

objetos diferentes (y1, . . . ,yK) entre E e associe cada objeto i para uma classe Ck∗

tal que (k∗ = argmink=l,...,K d(xi,yk) (proximidade entre xi e yk) para construir

a particao inicial (C01 , . . . , C

0K).

(b) Etapa de representacao: Lt = g(P t)

Para k de 1 ate K obtenha o prototipo yk = (y1k, . . . , y

pk) para representar a classe

Ck ∈ Pt.

(c) Etapa de alocacao: P t+1 = f(Lt)

teste← 0

Para i de 1 ate n faca


defina a classe Ck∗ tal que

k∗ = arg mink=l,...,K

d(xi, yk)

se i ∈ Ck e k∗ 6= k

teste← 1

Ck∗ ← Ck∗ ∪ i

Ck ← Ck\i

(d) Se teste = 0 (P t+1 = P t) FIM, senao va para a etapa (b)

Diferentes funcoes para W sao encontradas na literatura dos metodos de nuvens

dinamicas. Nas proximas secoes serao apresentados tres metodos classicos de nuvens

dinamicas onde as funcoes W sao, respectivamente, baseadas nas distancias City-Block

(L1), Euclidiana (L2) e Mahalanobis para medir a adequacao entre uma classe e seu

representante.

4.2.3 O metodo de nuvens dinamicas com a distancia L1

Neste metodo o criterio W a ser otimizado e definido como:

W (P,L) =K

∑

k=1

∑

i∈Ck

d(xi,yk) (.)

onde

d(xi,yk) =p

∑

j=1

|xji − y

jk| (.)

e a distancia City-Block entre xi e yk.

4.2.3.1 O problema de otimizacao O problema consiste em encontrar um repre-

sentante Lk que minimize um criterio medindo a dissimilaridade entre Lk e Ck. Neste

metodo, o algoritmo procura por yk que minimize


∆(yk) =∑

i∈Ck

p∑

j=1

|xji − y

jk| (.)

Solucao: Seguindo Govaert [Gov75], as coordenadas do vetor de pontos yk mini-

mizando o criterio ∆(yk) sao:

yjk = medianaxj

i/i ∈ Ck (.)

A demonstracao deste resultado pode ser encontrada no apendice C como um caso

particular.

4.2.3.2 O algoritmo Seguindo as etapas do algoritmo de nuvens dinamicas descrito

na subsecao 4.2.2, este algoritmo inicia com P 0 = (C01 , . . . , C

0K) e aplica iterativamente as

etapas de representacao (Lt = g(P t)) e alocacao (P t+1 = f(Lt)) onde, respectivamente,

yjk e a mediana do conjunto xj

i i ∈ Ck, e d(xi, yk) =∑p

j=1 |xji − y

jk|.

4.2.4 O metodo de nuvens dinamicas com a distancia L2

Conhecido como metodo de k−medias [JD88], este metodo representa cada classe

por um vetor de centros (centroide) e afeta cada indivıduo a classe cuja distancia entre o

indivıduo e o seu centroide e minima. Alem disso, o algoritmo so e capaz de reconhecer

classes de forma esferica e o criterio W e dado por:

W (P,L) =K

∑

k=1

∑

i∈Ck

d2(xi,yk) (.)

onde

d(xi,yk) =

√

√

√

√

p∑

j=1

(xji − y

jk)

2 (.)

e a distancia Euclidiana entre xi e yk.

4.2.4.1 O problema de otimizacao O algoritmo procura por um vetor yk que

minimize


∆(yk) =∑

i∈Ck

p∑

j=1

(xji − y

jk)

2 (.)

Solucao: As coordenadas do vetor de pontos yk minimizando o criterio ∆(yk) sao:

yjk =

1

nk

p∑

j=1

xji (.)

onde nk e o cardinal da classe Ck.

A demonstracao deste resultado pode ser encontrada no apendice E como um caso

particular.

4.2.4.2 O algoritmo Este algoritmo tambem e construıdo aplicando iterativamente

as etapas representacao (Lt = g(P t)) e alocacao (P t+1 = f(Lt)) onde, respectivamente,

yjk = 1

nk

∑pj=1 x

ji e d(xi, yk) =

∑pj=1(x

ji − y

jk)

2.

4.2.5 O metodo de nuvens dinamicas com a distancia de Mahalanobis

O objetivo deste metodo e reconhecer classes de forma elıptica que tenham a mesma

dispersao. Neste metodo a dispersao e representada por uma matriz M positiva definida

cujo determinante e igual a 1 [CGLR89]. Quando M = I este metodo passa a ser o

metodo de nuvens dinamicas usando a distancia L2 (subsecao 4.2.4). O criterio W e

definido por:

W (P,L) =K

∑

k=1

∑

i∈Ck

dM(xi,yk) (.)

onde

dM(xi,yk) = (xi − yk)TM(xi − yk) (.)

e a distancia de Mahalanobis entre xi e yk e a matriz M = (det(Qcomb))1/p Q−1

comb

[CGLR89].

Esta matriz Qcomb e a matriz de covariancias combinada com det(Qcomb) 6= 0

4.3 metodos de nuvens dinamicas com distancias adaptativas 52

Qcomb =(n1 − 1)S1 + . . .+ (nK − 1)SK

n1 + . . .+ nK −K(.)

Na equacao (.), SkL e a matriz de covariancias do conjunto de vetores xi/i ∈ Ck

e nk e o cardinal de Ck (k = 1, . . . , K).

4.2.5.1 O problema de otimizacao O algoritmo procura por um vetor yk que

minimize o seguinte criterio:

∆(yk) =∑

i∈Ck

(xi − yk)TM(xi − yk) (.)

Solucao: Fixado a matriz M, as coordenadas do vetor de pontos yk minimizando o

criterio ∆(yk) sao [Gov75]:

yjk =

1

nk

p∑

j=1

xji (.)


A demonstracao deste resultado encontra-se em [Gov75].

4.2.5.2 O algoritmo O algoritmo com distancias de Mahalanobis inicia com P 0 =

(C01 , . . . , C

0K) obtida aleatoriamente e aplica iterativamente as etapas de representacao

(Lt = g(P t)) e alocacao (P t+1 = f(Lt)) onde, respectivamente, yjk e a media do conjunto

xji i ∈ Ck, e d(xi, yk) = (xi − yk)

TM(xi − yk).

4.3 METODOS DE NUVENS DINAMICAS COM DISTANCIAS ADAPTATIVAS

A maioria dos metodos de cluster usam uma distancia fixa para construir as classes.

Nesta secao sera apresentado uma versao do metodo de nuvens dinamicas com distancias

adaptativas. A ideia deste metodo e associar uma distancia diferente para cada classe

que muda a cada iteracao do algoritmo. Estas distancias adaptativas sao capazes de

reconhecer classes de tamanhos e formas diferentes.


Sejam PK um conjunto de particoes P = (C1, . . . , CK) de Ω em k classes, LK =

L× . . .× L um conjunto de K-uplas L = (L1, . . . , LK) com Lk ∈ L e dK = d× . . .× d

um conjunto de K distancias d = (d1, . . . , dK) com dk ∈ d.

No metodo de nuvens dinamicas com distancias adaptativas, o problema de classi-

ficacao e definido da seguinte forma: encontrar uma particao P ∗ ∈ Pk em K classes, um

conjunto de prototipos das classes L∗ ∈ LK e um conjunto de distancias d∗ ∈ dK tal que

W (P ∗, L∗, d∗) = MinW (P,L, d)/P ∈ Pk, L ∈ Lk, d ∈ dk (.)

onde o criterio W (P,L, d) mede a adequacao entre uma particao P e a representacao

desta particao L usando um conjunto de distancias d.

Conforme o algoritmo de nuvens dinamicas com distancia fixa, este algoritmo inicia

com uma particao de Ω obtida aleatoriamente P 0 = (C01 , . . . , C

0K) e tambem aplica

iterativamente as etapas representacao e alocacao. A unica diferenca ocorre na etapa de

representacao quando as distancias adaptativas sao atualizadas. O algoritmo converge

e o criterio W decresce de acordo com as funcoes de representacao e distancia definidas

na etapa de representacao.

4.3.1 As funcoes de representacao, alocacao e distancia

Uma funcao de representacao g permitindo associar para cada particao P ∈ PK de Ω

em K classes e um conjunto de K distancias d ∈ dK , um elemento L = (L1, . . . , LK) ∈

LK e tal que g(P, d) = (L1, . . . , LK).

Uma funcao de alocacao f permitindo associar para cada representacao L ∈ LK e

um conjunto de K distancias d ∈ dK , uma particao P = (C1, . . . , CK) de PK e tal que

f(L, d) = (C1, . . . , CK).

Uma funcao de distancia e permitindo associar para cada particao P ∈ PK de Ω em

K classes e uma representacao L ∈ LK , um conjunto de K distancias d ∈ dK tal que

e(P,L) = (d1, . . . , dK).


4.3.2 O algoritmo

O algoritmo de nuvens dinamicas e construıdo com base nas funcoes f , g e e onde

a tripla P t, Lt e dt e definida a partir das seguintes relacoes: P t = f(Lt−1, dt−1), Lt =

g(P t, dt−1) e dt = e(P t, Lt) (ver estudo das propriedades do algoritmo no apendice B).

(a) Inicializacao






0K).

(b) Etapa de representacao: Lt = g(P t, dt−1) e dt = e(P t, Lt)

Para k de 1 ate K obtenha

– o prototipo yk = (y1k, . . . , y

pk) para representar a classe Ck ∈ P ;

– a distancia dk

(c) Etapa de alocacao: P t+1 = f(Lt, dt)

teste← 0


defina a classe Ck∗ tal que


dk(xi, yk)


teste← 1

Ck∗ ← Ck∗ ∪ i

Ck ← Ck\i

(d) Se teste = 0 (P t+1 = P t) FIM, senao va para a etapa (b)

Na secao anterior foram apresentados tres metodos de nuvens dinamicas usando,

respectivamente, as seguintes distancias L1, L2 e Mahalanobis. A seguir sera apresentada

uma versao adaptativa para cada um destes tres metodos.


4.3.3 O metodo de nuvens dinamicas com distancias L1 adaptativas

De acordo com [DG77] e [Gov75], o criterio W e definido por:

W (P,L, d) =K

∑

k=1

∑

i∈Ck

dk(xi,yk) (.)

onde dk e a distancia L1 adaptativa da classe Ck.

Esta distancia dk e definida por um vetor de parametros λk = (λ1k, . . . , λ

pk)

dk(xi,yk) =p

∑

j=1

λjk|x

ji − y

jk| (.)

com λpk > 0 e

∏pj=1 λ

jk = 1

4.3.3.1 O problema de otimizacao No metodo de nuvens dinamicas com distancia

L1 fixa, o vetor de prototipos y = (y1k, . . . , y

pk) da classe Ck e definido otimizando

um funcao criterio. Neste metodo adaptativo, o algoritmo procura por um vetor de

prototipos yk = (y1k, . . . , y

pk) e um vetor de parametros λk = (λ1

k, . . . , λpk) que minimize

∆k(yk, λk) =∑

i∈Ck

p∑

j=1

λjk|x

ji − y

jk| =

p∑

j=1

λjk

∑

i∈Ck

|xji − y

jk| (.)

O problema de otimizacao e dividido em duas etapas:

1) Com a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ

pk) fixos, o algoritmo

procura por um vetor de prototipos yk = (y1k, . . . , y

pk) que minimize o seguinte

criteriop

∑

j=1

∑

i∈Ck

|xji − y

jk| (.)

A solucao para yk (k = 1, . . . , K) e a mesma do metodo com distancia L1 fixa

(subsecao 4.2.3.1). As coordenadas do vetor de pontos yk minimizando o criterio

(.) sao:

yjk = medianaxj

i/i ∈ Ck (.)


2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y

pk) fixos, o algoritmo procura

por um vetor de parametros λk = (λ1k, . . . , λ

pk) que, satisfazendo as condicoes: i)

λpk > 0 e ii)

∏pj=1 λ

jk = 1, minimize o seguinte criterio

p∑

j=1

λjkφ

jk (.)

onde φjk =

∑

i∈Ck|xj

i − yjk|. Solucao: Segundo [DG77], as coordenadas do vetor

de parametros λk = (λ1k, . . . , λ

pk) que satisfazem as condicoes i) e ii) e minimizam

o criterio (.) sao:

λjk =

∏ph=1(

∑

i∈Ck|xh

i − yhk |]

1

p

∑

i∈Ck|xj

i − yjk|

(.)

Este vetor de parametros λk = (λ1k, . . . , λ

pk) e obtido pelo Metodo dos Multipli-

cadores de Lagranje e a demonstracao poder ser encontrada no apendice D.

4.3.3.2 O algoritmo Seguindo as etapas do algoritmo de nuvens dinamicas com

distancias adaptativas, este algoritmo inicia com P 0 = (C01 , . . . , C

0K) e aplica itera-

tivamente as etapas de representacao (Lt = g(P t, dt−1) e dt = (P t, Lt)) e alocacao

(P t+1 = f(Lt, dt)) onde, respectivamente, yjk e a mediana do conjunto xj

i i ∈ Ck, e

dk(xi,yk) =∑p

j=1 λjk|x

ji − y

jk| com .

λjk =

∏ph=1(

∑

i∈Ck|xh

i − yhk |]

1

p

∑

i∈Ck|xj

i − yjk|

4.3.4 O metodo de nuvens dinamicas com distancias L2 adaptativas

Esta secao apresenta uma versao adaptativa do metodo de k-medias permitindo

reconhecer classes esfericas que tenham dispersoes diferentes [dCLdS04]. O criterio de

particao W e dado por:

W (P,L, d) =K

∑

k=1

∑

i∈Ck

d2k(xi,yk) (.)

onde


d2k(xi,yk) =

p∑

j=1

λjk(x

ji − y

jk)

2 (.)

e a distancia Euclidiana adaptativa da classe Ck entre xi e yk com λpk > 0 e

∏pj=1 λ

jk = 1.

4.3.4.1 O problema de otimizacao O algoritmo procura por um vetor de prototipos

yk = (y1k, . . . , y

pk) e um vetor de parametros λk = (λ1

k, . . . , λpk) que minimize

∆k(yk, λk) =∑

i∈Ck

p∑

j=1

λjk(x

ji − y

jk)

2 =p

∑

j=1

λjk

∑

i∈Ck

(xji − y

jk)

2 (.)

O criterio (.) e otimizado considerando as seguintes etapas:

1) Fixado a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ

pk), o algoritmo procura

por um vetor de prototipos yk = (y1k, . . . , y

pk) que minimize o seguinte criterio

p∑

j=1

λjk

∑

i∈Ck

(xji − y

jk)

2 (.)

A solucao para o vetor de prototipos yk (k = 1, . . . , K) e a mesma do metodo

com distancia L2 fixa (subsecao 4.2.2.1). As coordenadas do vetor de pontos yk

minimizando o criterio (.) sao:

yjk =

1

nk

p∑

j=1

xji (.)


2) Fixado a classe Ck e o vetor de prototipos yk = (y1k, . . . , y




λpk > 0 e ii)

∏pj=1 λ

jk = 1, minimize o seguinte criterio

p∑

j=1

λjkφ

jk (.)

onde φjk =

∑

i∈Ck(xj

i − yjk)

2.


Solucao: Seguindo a demonstracao no apendice D, as coordenadas do vetor de

parametros λk = (λ1k, . . . , λ

pk) que satisfazem as condicoes i) e ii) e minimizam o

criterio (.) sao:

λjk =

∏ph=1(

∑

i∈Ck(xh

i − yhk )2]

1

p

∑

i∈Ck(xj

i − yjk)

2(.)

4.3.4.2 O algoritmo Neste algoritmo, as etapas de representacao (Lt = g(P t, dt−1) e

dt = (P t, Lt)) e alocacao (P t+1 = f(Lt, dt)) sao definidas considerando, respectivamente,

yjk como a media do conjunto xj

i i ∈ Ck, e dk(xi,yk) =∑p

j=1 λjk(x

ji − y

jk|)

2 com

λjk =

∏ph=1(

∑

i∈Ck(xh

i − yhk )2]

1

p

∑

i∈Ck(xj

i − yjk)

2

4.3.5 O metodo de nuvens dinamicas com distancias de Mahalanobis adaptativas

Este metodo e capaz de reconhecer classes elıpticas cujas dispersoes sao representadas

por um conjunto de matrizes Mk (k = 1, . . . , K) ([DG77], [Gov75]). Cada matriz Mk

e positiva definida cujo determinante e igual a 1. O criterio de particao W e definido

por:

W (P,L, d) =K

∑

k=1

∑

i∈Ck

dk(xi,yk) (.)

onde

dk(xi,yk) = (xi − yk)TMk(xi − yk) (.)

e a distancia de Mahalanobis adaptativa da classe Ck entre xi e yk e Mk e uma matriz

com det(Mk) = 1.

4.3.5.1 O problema de otimizacao O algoritmo procura por um vetor de prototipos

yk = (y1k, . . . , y

pk) e uma matriz Mk que minimize o seguinte criterio:


∆k(yk,Mk) =∑

i∈Ck

(xi − yk)TMk(xi − yk) (.)

Neste contexto o problema de otimizacao e definido nas duas seguintes etapas:

1) Fixado a classe Ck e a matriz Mk, o algoritmo procura por um vetor de prototipos

yk = (y1k, . . . , y

pk) que minimize o criterio ∆k(yk,Mk) dado pela equacao (.). A

solucao para esta etapa e um prototipo yk (k = 1, . . . , K) que tem como coorde-

nadas:

yjk =

1

nk

p∑

j=1

xji (.)

onde nk e o cardinal da classe Ck. Este resultado e tambem o mesmo do metodo

com Mahalanobis fixa.

2) Fixado a classe Ck e o vetor de prototipos yk = (y1k, . . . , y


por uma matriz Mk da classe Ck minimizando o criterio ∆k(yk,Mk) (.) com

det(Mk) = 1 . A solucao de acordo com [Gov75] e: Mk = det(Qk)1/p Q−1

k onde

Qk e a matriz de covariancias da classe Ck com det(Qk) 6= 0.

4.3.6 O algoritmo

O algoritmo com distancias de Mahalanobis adaptativas inicia com P 0 = (C01 , . . . , C

0K)

obtida aleatoriamente e aplica iterativamente as etapas de representacao (Lt = g(P t, dt−1)

e dt = (P t, Lt)) e alocacao (P t+1 = f(Lt, dt)) onde, respectivamente, yjk e a media do

conjunto xji i ∈ Ck, e dk(xi,yk) = (xi− yk)

TMk(xi− yk) com Mk = det(Qk)1/p Q−1

k .

CAPITULO 5


PARA INTERVALOS

5.1 INTRODUCAO

Neste capıtulo serao apresentados os metodos de classificacao do tipo nuvens dinamicas

com e sem distancias adaptativas para intervalos. Estes metodos sao extensoes dos

metodos classicos descritos no capıtulo 4 para intervalos. Seguindo a metodologia dos

algoritmos classicos, os metodos de nuvens dinamicas para intervalos visam, simultane-

amente, obter uma particao de um conjunto de elementos em um numero predefinido de

classes e identificar um conjunto de prototipos ou representantes das classes minimizando

um criterio que mede a adequacao entre as classes e os prototipos.

Seja E = s1, . . . , sn um conjunto de n objetos simbolicos descritos por p variaveis

simbolicas do tipo intervalo. Cada objeto si (i = 1, . . . , n) e representado como um

vetor de intervalos xi = (x1i , . . . , x

pi ), onde xj

i = [aji , b

ji ] ∈ I = [a, b] : a, b ∈ <, a ≤ b

(j = 1, . . . , p). Cada intervalo deste vetor xji = [aj

i , bji ] (j = 1, . . . , p) e representado por

um ponto (aji , b

ji ) ∈ <

2 , onde os limites inferiores dos intervalos sao representados no

eixo dos x e os limites superiores no eixo dos y [dCdS98a].

O algoritmo do tipo nuvens dinamicas procura por uma particao P ∗ = (C1, . . . , CK)

de E em K classes P ∗ ∈ Pk e um conjunto de prototipos das classes L∗ = (L1, . . . , LK) ∈

LK tal que

W (P ∗, L∗) = MinW (P,L)/P ∈ Pk, L ∈ Lk (.)

onde PK e o conjunto de particoes P = (C1, . . . , CK) de E emK classes e LK = L×. . .×L

e o conjunto de K − uplas L = (L1, . . . , LK) com Lk ∈ L.

60

5.1 introducao 61

Neste metodo o prototipo da classe Ck (k = 1, . . . , K) Lk tambem e descrito por um

vetor de intervalos yk = (y1k, . . . , y

pk), onde yj

k = [αjk, β

jk] ∈ I = [α, β] : α, β ∈ <, α ≤ β.

O criterio W (P,L) mede a adequacao entre uma particao P e a representacao desta

particao L.

Como no algoritmo classico, o algoritmo para intervalos tambem inicia com uma

particao de E obtida aleatoriamente P 0 = (C01 , . . . , C

0K) e aplica interativamente duas

etapas: representacao e alocacao, para obter, respectivamente, o par Lt = (Lt1, . . . , L

tK)

e P t = (Ct1, . . . , C

tK) ate que o criterio W alcance um valor estacionario. Este algoritmo

converge e o criterio W decresce a cada iteracao se a funcao de representacao e definida

de acordo com a medida de distancia usada no passo de alocacao (ver o algoritmo na

secao 5.5.1).

A versao adaptativa deste metodo tambem encontra, simultaneamente, uma particao

em um numero predefinido de classes e um conjunto de representantes das classes mini-

mizando uma funcao criterio que mede a dissimilaridade entre as classes e os prototipos.

Como no metodo classico, em cada iteracao deste metodo existe uma distance diferente

para comparar cada classe com o seu prototipo e o problema de classificacao e definido

como: encontrar uma particao P ∗ ∈ Pk em K classes, um conjunto de prototipos das

classes L∗ ∈ LK e um conjunto de distancias d∗ ∈ dK tal que

W (P ∗, L∗, d∗) = MinW (P,L, d)/P ∈ Pk, L ∈ Lk, d ∈ dk (.)

dK = d× . . .× d e o conjunto de K distancias d = (d1, . . . , dK) com dk ∈ d. O criterio

W (P,L, d) mede a adequacao entre uma particao P e a representacao desta particao L

usando o conjunto de distancias d.

Novamente, seguindo os algoritmos classicos com distancias adaptativas, este algo-

ritmo inicia com uma particao de E obtida aleatoriamente P 0 = (C01 , . . . , C

0K) e tambem

aplica interativamente duas etapas: representacao, onde os prototipos e as distancias sao

atualizados e alocacao, para afetar cada elemento a classe onde a proximidade entre o

elemento e o prototipo e minima. O algoritmo tambem converge e o criterio W decresce

se funcoes de representacao e de distancia sao bem definidas na etapa de representacao

(ver o algoritmo na secao 5.5.2).

5.2 metodos de nuvens dinamicas com distancias l1 para intervalos 62

Nas secoes 5.2, 5.3 e 5.4 serao introduzidos, respectivamente, os metodos de nuvens

dinamicas com e sem distancias adaptativas L1, L2 e L∞ para intervalos. Em seguida,

a secao 5.5 apresentara os algoritmos com e sem distancias adaptativas correspondentes

aos metodos introduzidos neste capıtulo.

5.2 METODOS DE NUVENS DINAMICAS COM DISTANCIAS L1 PARA IN-

TERVALOS

Esta secao mostra dois metodos de nuvens dinamicas para intervalos. O primeiro

metodo usa uma extensao da distancia L1 de Minkowski que compara pares de vetores

de intervalos (subsecao 5.2.1). O segundo metodo utiliza duas versoes adaptativas desta

distancia estendida L1 para intervalos (subsecao 5.2.2): na primeira versao, a distancia

adaptativa tem um unico componente, enquanto que na segunda versao a distancia

adaptativa tem dois componentes ([dCdS03b], [dSdC03], [dSdCS03]).

5.2.1 O metodo com a distancia L1 fixa

Neste metodo, o criterio de particao W medindo a proximidade entre as classes e

seus representantes e definido por:

W (P,L) =K

∑

k=1

∑

i∈Ck

d(xi,yk) (.)

onde d(xi,yk) mede a dissimilaridade entre um objeto si ∈ Ck e o prototipo Lk de Ck.

5.2.1.1 Uma funcao de distancia L1 entre dois vetores de intervalos A dis-

similaridade entre os dois vetores de intervalos xi e yk e medida por:

d(xi,yk) =p

∑

j=1

|aji − α

jk|+ |b

ji − β

jk| (.)

Esta distancia e a soma das diferencas entre os limites inferiores e os limites superiores

dos intervalos xji = [aj

i , bji ] e gj

k = [αjk, β

jk]. Isto significa representar um intervalo [a, b]

como um ponto (a, b) ∈ <2, onde os limites inferiores dos intervalos sao representados


no eixo dos x, e os limites superiores no eixo dos y [dCdS98a], e entao calcula a distancia

L1 entre os pontos (aji , b

ji ) e (αj

k, βjk).

5.2.1.2 O problema de otimizacao O problema consiste em encontrar um repre-

sentante Lk que minimize um determinado criterio medindo a dissimilaridade entre Lk

e Ck. Desta forma, o algoritmo procura por um vetor yk que minimize

∆(yk) =∑

i∈Ck

p∑

j=1

|aji − α

jk|+ |b

ji − β

jk| (.)

Proposicao 5.2.1 Os limites inferiores e superiores dos intervalos [αjk, β

jk] (j = 1, . . . , p)

minimizando o criterio ∆(yk) sao:

αjk = medianaaj

i/i ∈ Ck e βjk = medianabji/i ∈ Ck (.)

A prova da proposicao 5.2.1 encontra-se no apendice C.

5.2.2 O metodo com distancias L1 adaptativas

De acordo com o algoritmo classico de nuvens dinamicas com distancias adaptativas

(secao 4.3), em cada interacao existe uma distancia diferente associada com cada classe.

Este metodo procura por uma particao P em K classes,um conjunto de K prototipos L e

um conjunto de distancias d tal que um criterio W (P,L, d) seja localmente minimizado.

O criterio W e definido por:

W (P,L, d) =K

∑

k=1

∑

i∈Ck

dk(xi,yk) (.)

onde dk e uma medida de dissimilaridade entre um objeto si ∈ Ck e o prototipo Lk de

Ck.

5.2.2.1 Distancias L1 adaptativas entre dois intervalos Neste metodo, duas

versoes sao propostas para dk:


a) Distancia L1 adaptativa de um componente: A distancia dk e definida de acordo

com a estrutura (descricoes dos indivıduos) de Ck e e descrita por um vetor de

parametros λk = (λ1k, . . . , λ

pk)

dk(xi,yk) =p

∑

j=1

λjk

(

|aji − α

jk|+ |b

ji − β

jk|

)

(.)

com λjk > 0 e Πp

j=1λjk = 1.

b) Distancia L1 adaptativa de dois componentes : Esta distancia dk tambem e definida

de acordo com a estrutura (descricoes dos indivıduos) de Ck e e descrita pelos

vetores de parametros λakL = (λ1kL, . . . , λ

pkL) e λkU = (λ1

kU , . . . , λpkU)

dk(xi,yk) =p

∑

j=1

(

λjkL|a

ji − α

jk|+ λj

kU |bji − β

jk|

)

(.)

com λjkL > 0 e Πp

j=1λjkL = 1 e λj

kU > 0 e Πpj=1λ

jkU = 1 .

A principal diferenca entre estas duas versoes e que a distancia de dois componentes

trata os limites inferiores e superiores dos intervalos como dois descritores independentes

enquanto que a outra versao nao considera isto.

5.2.2.2 O problema de otimizacao com a distancia de um componente O

problema e estabelecido da seguinte forma: encontrar um prototipo yk = (y1k, . . . , y

pk) e

um vetor de parametros λk = (λ1k, . . . , λ

pk) da classe Ck que minimize o seguinte criterio

∆1(yk,λk) =∑

i∈Ck

dk(xi, gk) =p

∑

j=1

λjk

∑

i∈Ck

|aji − α

jk|+ |b

ji − β

jk| (.)




pk) que minimize

∑

i∈Ck

|aji − α

jk|+ |b

ji − β

jk| (.)

A solucao para yk (k = 1, . . . , K) e a mesma do metodo com distancia L1 fixa. Os

limites inferiores e superiores dos intervalos [αjk, β

jk] (j = 1, . . . , p) minimizando o

criterio em (.) sao:


αjk = medianaaj

i/i ∈ Ck e βjk = medianabji/i ∈ Ck (.)





λpk > 0 e ii)

∏pj=1 λ

jk = 1, minimize criterio ∆1(yk,λk).

Proposicao 5.2.2 Seja Φj =∑

i∈Ckφ(xj

i , yjk) (j = 1, . . . , p) onde φ(xj

i , yjk) e uma

medida de distancia entre xji e yj

k. As coordenadas do vetor de parametros λk =

(λ1k, . . . , λ

pk) que satisfazem as condicoes i)λj

k > 0 e ii) Πpj=1λ

jk = 1 e minimizam

um criterio definido comop

∑

j=1

λjkΦj (.)

sao:

λjk =

∏ph=1 Φ

1

p

h

Φj

(.)

A prova desta proposicao encontra-se no apendice D.

Usando esta proposicao com φ(xji , y

jk) = |aj

i − αjk| + |b

ji − βj

k| (j = 1, . . . , p), as

coordenadas do vetor de parametros λk = (λ1k, . . . , λ

pk) que minimizam ∆1(yk, λk)

sao dadas por:

λjk =

∏ph=1(

∑

i∈Ck|aj

i − αjk|+ |b

ji − β

jk|]

1

p

∑

i∈Ck|aj

i − αjk|+ |b

ji − β

jk|

(.)

5.2.2.3 O problema de otimizacao com a distancia de dois componentes O

problema consiste em encontrar, simultaneamente, um prototipo yk = (y1k, . . . , y

pk) e

dois vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU = (λ1

kU , . . . , λpkU) da classe Ck

que minimize o seguinte criterio

∆2(yk,λkL,λkU) =∑

i∈Ck

dk(xi,yk) = (.)


=p

∑

j=1

λjkL

∑

i∈Ck

|aji − α

jk|+

p∑

j=1

λjkU

∑

i∈Ck

|bji − βjk|

1) Com a classe Ck e os vetores de parametros λkL e λkU fixos, o algoritmo procura

por um vetor de prototipos yk = (y1k, . . . , y

pk) que minimize, respectivamente,

∑

i∈Ck

|aji − α

jk| e

∑

i∈Ck

|bji − βjk| (.)

Neste caso, o problema torna-se encontrar (para j = 1, . . . , p), o limite inferior αjk

do intervalo yjk = [αj

k, βjk] que minimize

∑

i∈Ck

|aji − α

jk| (.)

e o limite superior βjk do intervalo yj

k = [αjk, β

jk] que minimize

∑

i∈Ck

|bji − βjk| (.)

A solucao como e conhecida da subsecao anterior e αjk = medianaaj

i/i ∈ Ck e

βjk = medianabji/i ∈ Ck (j = 1, . . . , p)



pelos vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU = (λ1

kU , . . . , λpkU) que

satisfacam as condicoes: i) λpkL > 0 e λp

kU > 0 e ii)∏p

j=1 λjkL = 1 e

∏pj=1 λ

jkU = 1

e minimizem o criterio ∆2(yk,λkL,λkU). Considerando a proposicao 5.2.2 para os

vetores de parametros λkL com Φj =∑

i∈Ck|aj

i−αjk| e λkU com Φj =

∑

i∈Ck|bji−β

jk|

(j = 1, . . . , p), as coordenadas desses vetores (λ1kL, . . . , λ

pkU) e (λ1

kU , . . . , λpkU) que

minimizam ∆2(yk,λkL,λkU) sao, respectivamente:

λjkL =

[

∏ph=1(

∑

i∈Ck|ah

i − αhk |)

]1

p

∑

i∈Ck|aj

i − αjk|

, λjkU =

[

∏ph=1(

∑

i∈Ck|bhi − β

hk |)

]1

p

∑

i∈Ck|bji − β

jk|

(.)

5.3 METODOS DE NUVENS DINAMICAS COM DISTANCIAS L2 PARA IN-

TERVALOS

Esta secao apresenta dois metodos de nuvens dinamicas para intervalos. O primeiro

metodo e baseado em uma extensao da distancia L2 de Minkowski que compara um par


de vetores de intervalos (subsecao 5.3.1) [CBB03]. O segundo metodo considera duas

versoes desta distancia L2 estendida para dados do tipo intervalo (subsecao 5.3.2): a

primeira e uma distancia L2 adaptativa de um componente e a segunda e uma distancias

L2 adaptativa de dois componentes [dCdS03a].

5.3.1 O metodo com a distancia L2 fixa

O criterio de particao W medindo o ajustamento entre uma particao P e um conjunto

de prototipos das classes L e definido por:

W (P,L) =K

∑

k=1

∑

i∈Ck

d(xi,yk) (.)

onde a distancia d(xi,yk) mede a dissimilaridade entre um objeto si ∈ Ck e o prototipo

Lk de Ck.

5.3.1.1 Uma funcao de distancia L2 entre dois vetores de intervalos Como

ja foi dito na introducao deste capıtulo, em [dCdS98a] um intervalo [a, b] e considerado

como um ponto (a, b) ∈ <2, onde os limites inferiores dos intervalos sao representados

no eixo dos x, e os limites superiores no eixo dos y. Usando esta representacao, uma

distancia quadratica entre dois vetores de intervalos xi = ([a1i , b

1i ], . . . , [a

pi , b

pi ]) e yi =

([α1k, β

1k ], . . . , [α

pk, β

pk ]) e definida da seguinte maneira:

d(xi,yk) =p

∑

j=1

(aji − α

jk)

2 + (bji − βjk)

2 (.)

Esta funcao d(xi,yk) foi introduzida em [CBB03] como uma distancia L2 estendida

para intervalos.

5.3.1.2 O problema de otimizacao Uma vez selecionado a distancia d(xi,yk), o

problema de otimizacao e: encontrar um vetor de intervalos yk que represente Lk da

classe Ck tal que minimize o criterio ∆(yk) que e dado por:


∆(yk) =∑

i∈Ck

p∑

j=1

(aji − α

jk)

2 + (bji − βjk)

2 (.)

Proposicao 5.3.1 Os limites inferiores e superiores dos intervalos [αjk, β

jk] (j = 1, . . . , p)

minimizando o criterio ∆(yk) sao:

αjk =

1

nk

p∑

j=1

aji , βj

k =1

nk

p∑

j=1

bji (.)


A prova da proposicao 5.3.1 encontra-se no apendice E.

5.3.2 O metodo com distancias L2 adaptativas

No metodo apresentado na subsecao 5.3.1, o criterio W e baseado em uma unica

medida de distancia entre intervalos para comparar classes com seus representantes. No

metodo apresentado nesta secao o criterio de particao W e baseado em uma medida de

distancia L2 adaptativa para intervalos. Este criterio e:

W (P,L, d) =K

∑

k=1

∑

i∈Ck

dk(xi,yk) (.)

onde dk e uma medida de dissimilaridade adaptativa entre um objeto si ∈ Ck e o

prototipo Lk de Ck.

5.3.2.1 Distancias L2 adaptativas entre dois vetores de intervalos Duas versoes

sao propostas para dk:

a) Distancia L2 adaptativa de um componente: Esta distancia dk e descrita por um

vetor de parametros λk = (λ1k, . . . , λ

pk)

dk(xi,yk) =p

∑

j=1

λjk

(

(aji − α

jk)

2 + (bji − βjk)

2)

(.)

com λjk > 0 e Πp

j=1λjk = 1.


b) Distancia L2 adaptativa de dois componentes : Nesta versao, a distancia dk e de-

scrita pelos vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU = (λ1

kU , . . . , λpkU)

dk(xi,yk) =p

∑

j=1

(

λjkL(aj

i − αjk)

2 + λjkU(bji − β

jk)

2)

(.)

com λjkL > 0 e Πp

j=1λjkL = 1 e λj

kU > 0 e Πpj=1λ

jkU = 1.

Novamente, a principal diferenca entre estas duas versoes e que a distancia de dois

componentes trata os limites inferiores e superiores dos intervalos independentemente

enquanto que a outra versao nao considera isto.

5.3.2.2 O problema de otimizacao com a distancia de um componente O

problema e: procurar um prototipo yk = (y1k, . . . , y

pk) e um vetor de parametros λk =

(λ1k, . . . , λ

pk) da classe Ck que minimize o seguinte criterio

∆1(yk,λk) =∑

i∈Ck

dk(xi, gk) =p

∑

j=1

λjk

∑

i∈Ck

(aji − α

jk)

2 + (bji − βjk)

2 (.)

Este problema e dividido em dois etapas:


pk)

T fixos, o algoritmo


pk)

T que minimize

∑

i∈Ck

(aji − α

jk)

2 + (bji − βjk)

2 (.)

A solucao para yk (k = 1, . . . , K) e a mesma do metodo com distancia L2 fixa. Os

limites inferiores e superiores dos intervalos [αjk, β


criterio em (.) sao:

αjk =

1

nk

p∑

j=1

aji , βj

k =1

nk

p∑

j=1

bji (.)







λpk > 0 e ii)

∏pj=1 λ

jk = 1, minimize criterio ∆1(yk,λk). Usando a proposicao (5.2.2)

com φj(xji , y

jk) = (aj

i−αjk)

2+(bji−βjk)

2, as coordenadas do vetor de parametros λk =

(λ1k, . . . , λ

pk) que satisfazem as condicoes i) e ii) e minimizam o criterio ∆1(yk,λk)

sao:

λjk =

∏ph=1(

∑

i∈Ck(aj

i − αjk)

2 + (bji − βjk)

2)1

p

∑

i∈Ck(aj

i − αjk)

2 + (bji − βjk)

2(.)

5.3.2.3 O problema de otimizacao com a distancia de dois componentes O

problema consiste em encontrar, simultaneamente, um prototipo yk = (y1k, . . . , y

pk) e

dois vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU = (λ1

kU , . . . , λpkU) da classe Ck

que minimize o seguinte criterio

∆2(yk,λkL,λkU) =∑

i∈Ck

dk(xi, gk) = (.)

=p

∑

j=1

λjkL

∑

i∈Ck

(aji − α

jk)

2 +p

∑

j=1

λjkU

∑

i∈Ck

(bji − βjk)

2

1) Com a classe Ck e os vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU =

(λ1kU , . . . , λ

pkU) fixos, o algoritmo procura por um vetor de prototipos (y1

k, . . . , ypk)

que minimize∑

i∈Ck

(aji − α

jk)

2 e∑

i∈Ck

(bji − βjk)

2 (.)

O problema torna-se encontrar (para j = 1, . . . , p), o limite inferior αjk do intervalo

yjk = [αj


∑

i∈Ck

(aji − α

jk)

2 (.)

e o limite superior βjk do intervalo yj

k = [αjk, β

jk] que minimize

∑

i∈Ck

(bji − βjk)

2 (.)

Novamente, a solucao e a mesma do metodo L2 com distancia fixa:

5.4 metodos de nuvens dinamicas com distancias l∞ para intervalos 71

αjk =

1

nk

p∑

j=1

aji , βj

k =1

nk

p∑

j=1

bji (.)


pk)

T fixos, o algoritmo

procura pelos vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU = (λ1

kU , . . . , λpkU)

que satisfazendo as condicoes: i) λpkL > 0 e λp

kU > 0 e ii)∏p

j=1 λjkL = 1 e

∏pj=1 λ

jkU =

1 minimizem o criterio ∆2(yk,λkL,λkU). Novamente, considerando a proposicao

5.2.2 para os vetores de parametros λkL com Φj =∑

i∈Ck(aj

i − ˆalphaj

k)2 e λkU

com Φj =∑

i∈Ck(bji − βj

k)2 (j = 1, . . . , p), as coordenadas desses vetores λkL =

(λ1kL, . . . , λ

pkU) e λkU = (λ1

kU , . . . , λpkU) sao, respectivamente:

ˆλkL

j=

[

∏ph=1(

∑

i∈Ck(ah

i − αhk)

2)]

1

p

∑

i∈Ck(aj

i − αjk)

2, λj

kU =

[

∏ph=1(

∑

i∈Ck(bhi − β

hk )2)

]1

p

∑

i∈Ck(bji − β

jk)

2(.)

5.4 METODOS DE NUVENS DINAMICAS COM DISTANCIAS L∞ PARA IN-

TERVALOS

Dois metodos de nuvens dinamicas sao considerados nesta secao. Os metodos otimizam

um criterio de particao W onde a proximidade entre as classes e seus representantes e

medida por distancias L∞ para intervalos. O primeiro metodo usa uma distancia L∞ que

compara dois intervalos [CL02](subsecao 5.4.1). O segundo metodo utiliza uma versao

adaptativa desta distancia L∞ entre intervalos [dSdCL03] (subsecao 5.4.2).

5.4.1 Metodo com a distancia L∞ fixa

Como em todos os metodos com distancia fixa descritos nas secoes anteriores, o

criterio de particao W com distancias L∞ fixa e tambem definido por:

W (P,L, d) =K

∑

k=1

∑

i∈Ck

d(xi,yk) (.)

onde mede a dissimilaridade entre um objeto si ∈ Ck e o prototipo Lk de Ck.


5.4.1.1 Uma funcao de distancia L∞ entre dois vetores de intervalos A

dissimilaridade entre os dois vetores de intervalos xi e yk e dada por:

d(xi,yk) =p

∑

j=1

max|aji − α

jk|, |b

ji − β

jk| (.)

Novamente, a distancia dk representa um intervalo [a, b] como um ponto (a, b) ∈ <2,

onde os limites inferiores dos intervalos sao representados no eixo dos x, e os limites

superiores no eixo dos y [dCdS98a], e entao calcular a distancia L∞ entre os pontos

(aji , b

ji ) e (αj

i , βji ).

5.4.1.2 O problema de otimizacao Usando a distancia em (.), o problema e

definido da seguinte forma: encontrar um representante Lk que minimize um criterio

medindo a dissimilaridade entre Lk e Ck. Neste metodo o algoritmo procura por yk que

minimize o seguinte criterio

∆(yk) =∑

i∈Ck

p∑

j=1

max|aji − α

jk‖, |b

ji − β

jk| (.)

Proposicao 5.4.1 A solucao para os intervalos [αjk, β

jk] minimizando o criterio ∆(yk) e

αjk = µj

k − δjk e βj

k = µjk + δj

k onde µjk e δj

k sao, respectivamente, a mediana do conjunto

mji , i ∈ Ck, sendo mj

i o ponto medio do intervalo xji = [aj

i , bji ], e a mediana do conjunto

lji , i ∈ Ck, sendo lji a metade do comprimento do intervalo xji = [aj

i , bji ].

A prova da proposicao 5.4.1 encontra-se no apendice F.

5.4.2 Metodo com distancias L∞ adaptativas

No metodo apresentado na subsecao 5.4.1, a dissimilaridade entre dois vetores de

intervalos e uma distancia L∞ fixa para intervalos. Nesta subsecao, sera considerado o

caso onde a distancia L∞ e diferente de uma classe para outra. O criterio que mede o

ajustamento entre uma particao P , um conjunto L de K prototipos e um conjunto d de

K distancias e definido como:


W (P,L, d) =K

∑

k=1

∑

i∈Ck

dk(xi,yk) (.)

onde dk(xi,yk) mede a proximidade entre xi e yk de acordo com a distancia dk de Ck.

5.4.2.1 Distancias L∞ adaptativas entre dois intervalos A funcao adaptativa

dk(xi,yk) e parametrizada pelo vetor de pesos λk = (λ1k, . . . , λ

pk) da seguinte forma:

dk(xi,yk) =k

∑

j=1

λjkmax|a

ji − α

jk|, |b

ji − β

jk| (.)

com λjk > 0 e Πp

j=1λjk = 1.

5.4.2.2 O problema de otimizacao Considerando a distancia dk em (.), o ajus-

tamento entre uma classe Ck, seu representante Lk e medido pelo seguinte criterio:

∆(yk,λk) =∑

i∈Ck

dk(xi,yk) =p

∑

j=1

λjk

∑

i∈Ck

max|aji − α

jk|, |b

ji − β

jk| (.)

O problema de otimizacao e dividido em dois estagios:




pk) que minimize o criterio

∆(yk,λk). Como e conhecido da subsecao 5.4.1.2, a solucao αjk e βj

k sao, respec-

tivamente, µjk − δj

k e µjk + δj

k, onde µjk e δj

k sao, respectivamente, a mediana do

conjunto mji , i ∈ Ck, sendo mj

i o ponto medio do intervalo xji = [aj

i , bji ], e a

mediana do conjunto lji , i ∈ Ck, sendo lji a metade do comprimento do intervalo

xji = [aj

i , bji ].





λpk > 0 e ii)

∏pj=1 λ

jk = 1, minimize o criterio ∆(yk,λk). Novamente, usando a

proposicao 5.2.2 com φ(xji , y

jk) =

∑

i∈Ckmax|aj

i − ˆalphaj

k|, |bji − β

jk|, as coorde-

nadas do vetor (λ1k, . . . , λ

pk) sao:

5.5 os algoritmos 74

λjk =

[

∏ph=1(

∑

i∈Ckmax|ah

i − αhk |, |b

hi − β

hk |)

]1

p

∑

i∈Ckmax|aj

i − αjk|, |b

ji − β

jk|

(.)

5.5 OS ALGORITMOS

Esta secao apresenta os algoritmos de nuvens dinamicas com e sem distancias adap-

tativas para vetores de intervalos.

5.5.1 O algoritmo de nuvens dinamicas para intervalos

Seguindo o algoritmo classico de nuvens dinamicas, algoritmo para intervalos tambem

e construıdo com base nas funcoes f (alocacao) e g (representacao) onde o par P t e Lt e

definido a partir das relacoes: P t = f(Lt−1) e Lt = g(P t). Alem disso este algoritmo tem

as mesmas propriedades do algoritmo classico (ver estudo das propriedades do algoritmo

no apendice A).

(a) Inicializacao






0K).

(b) Passo de representacao: Lt = g(P t)

Para k de 1 ate K obtenha o prototipo yk = ([α1k, β

1k ], . . . , [α

pk, β

pk ]) para representar

a classe Ck ∈ P onde

i) αjk e a mediana do conjunto aj

i i ∈ Ck e βjk e a mediana do conjunto

bji i ∈ Ck, se e usado o metodo L1;

ii) αjk e a media do conjunto aj

i i ∈ Ck e βjk e a media do conjunto bji i ∈ Ck,

se e usado o metodo L2;

iii) αjk = µj

k − δjk e βj

k = µjk + δj

k, sendo µjk a mediana do conjunto mj

i , i ∈ Ck

(mji = (aj

i + bji )/2) e δjk (lji = (bji − a

ji )/2) a mediana do conjunto lji , i ∈ Ck,


se e usado o metodo L∞.

(c) Passo de alocacao: P t+1 = f(Lt)

teste← 0


defina a classe Ck∗ tal que:


p∑

j=1

d(xi,yk)

onde

i) d(xi,yk) = |aji − α

jk|+ |b

ji − β

jk|, se e usado o metodo L1;

ii) d(xi,yk) = (aji − α

jk)

2 + (bji − βjk)

2, se e usado o metodo L2;

iii) d(xi,yk) = max|aji − α

jk|, |b

ji − β

jk|, se e usado o metodo L∞.


teste← 1

Ck∗ ← Ck∗ ∪ i

Ck ← Ck\i

Calcule W t+1 onde W =∑K

k=1

∑

i∈Ckd(xi,yk)

(d) Se teste = 0(W t+1 = W t) FIM, senao va para o passo (b)

5.5.2 O algoritmo de nuvens dinamicas com distancias adaptativas para intervalos

Novamente, seguindo o algoritmo classico de nuvens dinamicas com distancias adap-

tativas, o algoritmo para intervalos tambem e construıdo com base nas funcoes f (alocacao)

g (representacao) e e (distancia) onde a tripla P t, Lt dt e definida a partir das relacoes:

P t = f(Lt−1, dt−1), Lt = g(P t, dt−1) e dt = e(P t, Lt). Alem disso, as propriedades deste

algoritmo sao tambem as mesmas do algoritmo classico (ver estudo das propriedades do

algoritmo no apendice B).


(a) Inicializacao






0K).

(b) Passo de representacao: Lt = g(P t, dt−1) e dt = e(P t, Lt)

Para k de 1 ate K obtenha

a) o prototipo yk = ([α1k, β

1k ], . . . , [α

pk, β

pk ])

T para representar a classe Ck ∈ P

onde

i) αjk e a mediana do conjunto aj

i i ∈ Ck e βjk e a mediana do conjunto

bji i ∈ Ck, se e usado o metodo L1;

ii) αjk e a media do conjunto aj

i i ∈ Ck e βjk e a media do conjunto bji i ∈

Ck, se e usado o metodo L2;

iii) αjk = µj

k − δjk e βj

k = µjk + δj

k, com µjk sendo a mediana do conjunto

mji , i ∈ Ck (mj

i = (aji + bji )/2) e δj

k a mediana do conjunto lji , i ∈ Ck

(lji = (bji − aji )/2), se e usado o metodo L∞.

b) o vetor de parametros λk = (λ1k, . . . , λ

pk)

T , se e usado a distancia adaptativa

de um componente ou os vetores de parametros λkL = (λ1kL, . . . , λ

pkL) e λkU =

(λ1kU , . . . , λ

pkU).

(c) Passo de alocacao: P t+1 = f(Lt, dt)

teste← 0


defina a classe Ck∗ tal que:


p∑

j=1

d(xi,yk)

onde


i) d(xi,yk) = λjk

(

|aji − α

jk|+ |b

ji − β

jk|

)

, se e usado a distancia L1 adapta-

tiva de um componente e d(xi,yk) = λjkL|a

ji − αj

k| + λjkU |b

ji − βj

k|, se e

usado a distancia de L1 adaptativa dois componentes;

ii) d(xi,yk) = λjk

(

(aji − α

jk)

2 + (bji − βjk)

2)

, se e usado a distancia L2 adap-

tativa de um componente e d(xi,yk) = λjkL(aj

i − αjk)

2 + λjkU(bji − β

jk)

2, se

e usado a distancia L2 adaptativa de dois componentes;

iii) d(xi,yk) = λjk

(

max|aji − α

jk|, |b

ji − β

jk|

)

, se e usado a distancia L∞

adaptativa.


teste← 1

Ck∗ ← Ck∗ ∪ i

Ck ← Ck\i

Calcule W t+1 onde W =∑K

k=1

∑

i∈Ckdk(xi,yk)

(d) Se teste = 0(W t+1 = W t) FIM, senao va para o passo (b)

CAPITULO 6

RESULTADOS DOS EXPERIMENTOS

6.1 INTRODUCAO

Com o objetivo de validar os metodos propostos para intervalos, foram realizados

experimentos com dois conjuntos de dados artificiais do tipo intervalo e um conjunto de

dados reais do tipo intervalo. Os conjuntos artificiais foram gerados com diferentes graus

de dificuldade de classificacao: clusters de formas e tamanhos diferentes e linearmente

separaveis ou nao [GGKS78]. O conjunto de dados reais contem descricoes de especies

de peixes que foram coletadas em um estudo realizado na Guyana francesa.

A avaliacao dos resultados de classificacao fornecidos pelos metodos foi baseada em

um ındice de validacao externo [HA85]. Para cada conjunto de dados artificiais o ındice

de validacao e estimado no quadro de uma experiencia Monte Carlos com 100 replicacoes.

A finalidade da aplicacao do metodo Monte Carlo e propiciar uma melhor avaliacao

quantitativa do desempenho dos metodos considerando situacoes com diferentes graus de

dificuldades de classificacao. Testes t-Student emparelhados sao usados para comparar

os metodos de clusters.

Este capıtulo e dividido em duas secoes: a primeira descreve os experimentos e os

resultados da classificacao com os dados artificiais (secao 6.2) e a segunda descreve os

resultados da classificacao com o conjunto de especies de peixes (secao 6.3).

6.2 CONJUNTOS DE DADOS ARTIFICIAIS DO TIPO INTERVALO

Para realizar os experimentos com dados artificiais, foi implementado um sistema

de cluster na linguagem C++ que tem sistema tres etapas: simulacao de dados usuais

e dados do tipo intervalo e calculo do ındice de validacao. As etapas deste sistema sao

78

6.2 conjuntos de dados artificiais do tipo intervalo 79

organizadas no quadro de uma experiencia Monte Carlo.

6.2.1 Simulacao de Dados Usuais

Nesta etapa, foram simulados dois conjuntos de dados usuais em <2 com diferentes

propriedades estatısticas. O conjunto de pontos de cada classe, em cada conjunto, foi

gerado de acordo com uma distribuicao normal bi-variada usando um algoritmo [BF92]

que assume independencia entre as variaveis e vetor de medias e matriz de covariancias

apresentados como:

µ =

µ1

µ2

e Σ =

σ21 0

0 σ22

Cada conjunto tem 450 pontos distribuıdos entre quatro classes de tamanhos e formas

diferentes: duas classes de forma elıptica e de tamanho 150 e duas classes de forma

esferica e tamanhos 50 e 100. Alem disso, um conjunto tem classes bem separadas e o

outro apresenta sobreposicao de classes.

A Figura 6.1 mostra o conjunto de dados 1 com classes bem separadas.

Figura 6.1. Conjunto de dados usuais 1 mostrando classes bem separadas

Os pontos de cada classe neste conjunto de dados foram gerados de acordo com os

seguintes parametros:


a) Classe 1: µ1 = 28, µ2 = 22, σ21 = 100 e σ2

2 = 9;

b) Classe 2: µ1 = 60, µ2 = 30, σ21 = 9 e σ2

2 = 144;

c) Classe 3: µ1 = 45, µ2 = 38, σ21 = 9 eσ2

2 = 9;

d) Classe 4: µ1 = 38, µ2 = −1, σ21 = 25 e σ2

2 = 25;

A Figura 6.2 apresenta o conjunto de dados 2 com sobreposicao de classes.

Figura 6.2. Conjunto de dados usuais 2 mostrando sobreposicao de classes

Os pontos de cada classe neste conjunto foram gerados de acordo com os seguintes

parametros:

a) Classe 1: µ1 = 45, µ2 = 22, σ21 = 100 e σ2

2 = 9;

b) Classe 2: µ1 = 60, µ2 = 30, σ21 = 9 e σ2

2 = 144;

c) Classe 3: µ1 = 52, µ2 = 38, σ21 = 9 e σ2

2 = 9;

d) Classe 4: µ1 = 42, µ2 = 12, σ21 = 25 e σ2

2 = 25;

6.2.2 Simulacao de Dados do Tipo Intevalo

Os conjuntos de dados artificiais do tipo intervalo foram gerados considerando cada

ponto (z1, z2) nas Figuras 6.1 e 6.2 como uma semente de um vetor de intervalos


(retangulo): ([z1 − γ1/2, z1 + γ1/2], [z2 − γ2/2, z2 + γ2/2]). Estes parametros γ1, γ2 sao

selecionados aleatoriamente a partir de um mesmo intervalo predefinido. Os intervalos

considerados nestes experimentos sao: [1, 8], [1, 16], [1, 24], [1, 32], e [1, 40].

As Figuras 6.3 e 6.4 mostram, respectivamente, uma replica do conjunto de retangulos

1 com classes bem separadas e uma replica do conjunto de retangulos 2 com sobreposicao

de classes. Nestes conjuntos os parametros γ1, γ2 foram selecionados aleatoriamente a

partir do intervalo [1, 8].

Figura 6.3. Conjuntos de retangulos 1 mostrando classes bem separadas

Figura 6.4. Conjuntos de retangulos 2 mostrando sobreposicao de classes

6.2.3 Calculo do ındice de validacao

O objetivo desta esta etapa e avaliar o desempenho de um metodo de cluster atraves

da estimativa do ındice corrigido de Rand (CR) obtida no quadro de um experimento


Monte Carlo. 100 replicacoes sao consideradas para cada conjunto de dados de intervalo,

assim como para cada intervalo predefinido para os parametros γ1 e γ2.

A media do ındice de Rand corrigido (CR) [HA85] e calculada entre estas 100

replicacoes. Em cada replicacao um metodo de cluster e executado (ate a convergencia

para um valor estacionario do criterio W ) 50 vezes e o melhor resultado, de acordo com

o criterio W , e selecionado.

O ındice CR mede o grau de similaridade entre uma particao a priori (neste caso, a

particao e definida pelas sementes) e uma particao fornecida pelo algoritmo de cluster.

CR pode tomar valores no intervalo [0,1]. Este ındice CR foi escolhido pois ele nao e

sensıvel ao numero de classes nas particoes e as distribuicoes dos elementos nas classes

[Mil96].

Se U = u1, . . . , ur, . . . , uR e uma particao dada como resultado de um metodo de

cluster, e V = v1, . . . , vc, . . . , vC e particao a priori, o ındice CR e definido como:

CR =

∑Ri=1

∑Cj=1

(

nij

2

)

−(

n2

)−1∑R

i=1

(

ni.

2

)

∑Cj=1

(

n.j

2

)

12[∑R

i=1

(

ni.

2

)

+∑C

j=1

(

n.j

2

)

]−(

n2

)−1∑R

i=1

(

ni.

2

)

∑Cj=1

(

n.j

2

)(.)

onde nij representa o numero de objetos que estao nas classes ui e vi; ni. indica o numero

de objetos que estao na classe ui; n.j indica o numero de objetos que estao na classe vj;

e n e o numero total de objetos.

6.2.4 Resultados para os Metodos L1

A Tabela 6.1 mostra os valores do ındice CR medio de acordo com os metodos L1

(secao 5.2 do capıtulo 5) e os conjuntos de dados de intervalos 1 e 2. Nesta tabela os

metodos adaptativos 1 e 2 significam, respectivamente, metodo com a distancia adapta-

tiva de um componente e metodo com a distancia adaptativa de dois componentes.


Tabela 6.1. Indice CR medio para os metodos L1.

Intervalos Conjunto de Intervalos 1 Conjunto de Intervalos 2

predefinidos Metodo Metodo Metodo Metodo Metodo Metodo

Adaptativo 1 Adaptativo 2 Nao Adaptativo Adaptativo 1 Adaptativo 2 Nao adaptativo

[1, 8] 0.950 0.950 0.790 0.503 0.504 0.433

[1, 16] 0.949 0.946 0.750 0.479 0.487 0.434

[1, 24] 0.927 0.919 0.731 0.457 0.457 0.417

[1, 32] 0.836 0.834 0.722 0.420 0.428 0.393

[1, 40] 0.767 0.784 0.721 0.344 0.339 0.348

Esta tabela mostra que, em todas as situacoes, o ındices CR medios para os metodos

adaptativos sao maiores do que aqueles para os metodos nao adaptativos. A comparacao

entre os metodos L1 e alcancada pelos testes t-Student emparelhados em nıvel de sig-

nificancia de 5%. A Tabela 6.2 apresenta as hipoteses (nula e alternativa) e os valores

observados das estatısticas dos testes seguindo distribuicao t-Student com 99 graus de

liberdade.

Tabela 6.2. Estatısticas de testes t-Student emparelhados para os metodos L1

Intervalos H0 : µ1 = µ2 H0 : µ1 ≤ µ

predefinidos H1 : µ1 6= µ2 H1 : µ1 > µ

Conjunto Conjunto Conjunto Conjunto

de Intervalos 1 de Intervalos 2 de Intervalos 1 de Intervalos 2

[1, 8] -0.32 0.16 17.15 11.02

[1, 16] -1.43 1.62 25.32 8.68

[1, 24] -1.19 0.04 29.22 7.31

[1, 32] -0.19 1.50 13.49 5.26

[1, 40] 2.44 -0.65 7.53 -0.62

Nesta tabela, µ1, µ2 e µ sao, respectivamente, o ındice CR medio para os metodos


adaptativos 1 e 2, e para o metodo nao adaptativo. A partir destes resultados, e aceito a

hipotese que o desempenho medio (medido pelo ındice CR) dos metodos L1 adaptativos e

superior ao desempenho medio do metodo L1 nao adaptativo e que o desempenho medio

do metodo adaptativo 1 e tao bom quanto o desempenho medio do metodo adaptativo

2 com uma confianca de 95 %.

6.2.5 Resultados para os Metodos L2

A Tabela 6.3 mostra os valores do ındice CR medio de acordo com os metodos L2

(secao 5.3 do capıtulo 5) e os conjuntos de retangulos 1 e 2. Nesta tabela os metodos

adaptativos 1 e 2 significam, respectivamente, metodo com a distancia adaptativa de

um componente e metodo com a distancia adaptativa de dois componentes. Esta tabela

mostra que, em todas as situacoes, o ındices CR medios para os metodos adaptativos

sao maiores do que aqueles para o metodo nao adaptativo.

Tabela 6.3. Indice CR medio para os metodos L2.


predefinidos Metodo Metodo Metodo Metodo Metodo Metodo

Adaptativo 1 Adaptativo 2 Nao Adaptativo Adaptativo 1 Adaptativo 2 Nao adaptativo

[1, 8] 0.944 0.948 0.710 0.523 0.525 0.404

[1, 16] 0.934 0.927 0.711 0.496 0.495 0.408

[1, 24] 0.887 0.882 0.705 0.473 0.477 0.404

[1, 32] 0.823 0.830 0.711 0.385 0.449 0.442

[1, 40] 0.781 0.776 0.716 0.397 0.374 0.394

A Tabela 6.4 apresenta as hipoteses (nula e alternativa) e os valores observados das

estatısticas dos testes seguindo distribuicao t-Student com 99 graus de liberdade. A

partir destes resultados e aceito a hipotese que o desempenho medio (medido pelo ındice

CR) dos metodos L2 adaptativos e superior ao desempenho medio do metodo L2 nao

adaptativo e que o desempenho medio do metodo adaptativo 1 e tao bom quanto o

desempenho medio do metodo adaptativo 2 com uma confianca de 95 %.


Tabela 6.4. Estatısticas de testes t-Student emparelhados para os metodos L2.

Intervalos H0 : µ1 = µ2 H0 : µ1 ≤ µ

predefinidos H1 : µ1 6= µ2 H1 : µ1 > µ

Conjunto Conjunto Conjunto Conjunto

de Intervalos 1 de Intervalos 2 de Intervalos 1 de Intervalos 2

[1, 8] 1.25 0.21 70.17 23.20

[1, 16] -1.46 -0.07 55.15 19.61

[1, 24] -0.57 0.58 25.04 13.43

[1, 32] 0.66 -1.21 15.08 9.27

[1, 40] -0.78 -2.94 11.42 0.37

6.2.6 Resultados para os Metodos L∞

A Tabela 6.5 mostra os valores do ındice CR medio de acordo com os metodos

L∞ (secao 5.4 do capıtulo 5) e os conjuntos de dados de retangulos 1 e 2. Em todas

as situacoes, o ındices CR medios para o metodo adaptativo sao maiores do que os

correspondentes para o metodo nao adaptativo.

Tabela 6.5. Indice CR medio para os metodos L∞.


predefinidos Metodo Metodo Metodo Metodo

Adaptativo Nao-adaptativo Adaptativo Nao-adaptativo

γ ∈ [1, 8] 0.942 0.800 0.492 0.436

γ ∈ [1, 16] 0.936 0.789 0.483 0.432

γ ∈ [1, 24] 0.933 0.787 0.463 0.430

γ ∈ [1, 32] 0.920 0.798 0.436 0.390

γ ∈ [1, 40] 0.904 0.769 0.340 0.329

6.3 um conjunto de especies de peixes 86

A Tabela 6.6 apresenta as hipoteses (nula e alternativa) e os valores observados

das estatısticas dos testes seguindo distribuicao t-Student com 99 graus de liberdade.

Analogo aos resultados para os metodos L1 e L2, os valores das estatısticas dos testes

da Tabela 6.6 evidenciam que o desempenho do metodo L∞ adaptativo e superior ao

desempenho do metodo L∞ nao adaptativo com uma confianca de 95 %.

Tabela 6.6. Estatısticas de testes t-Student emparelhados.

Intervalos H0 : µ1 = µ

predefinidos H1 : µ1 > µ

Conjunto Conjunto

de Intervalos 13 de Intervalos 2

γ ∈ [1, 8] 14.00 12.41

γ ∈ [1, 16] 15.37 9.08

γ ∈ [1, 24] 15.80 5.74

γ ∈ [1, 32] 12.60 6.36

γ ∈ [1, 40] 14.65 1.36

Nesta secao foram apresentados os resultados das experiencias Monte Carlo realizadas

de acordo com os metodos L1, L2 e L∞ e diferentes conjuntos de dados artificiais do

tipo intervalo. A partir destes resultados, pode-se concluir que em todas as situacoes os

metodos com distancias L1, L2 e L∞ adaptativas para intervalos sao, respectivamente,

superiores aos metodos com distancias L1, L2 e L∞ nao adaptativas para intervalos e os

testes estatısticos comprovam estes resultados com uma confianca de 95 %.

6.3 UM CONJUNTO DE ESPECIES DE PEIXES

Para tratar dados reais, tambem foi implementado um sistema na linguagem C++ que

classifica um conjunto de dados do tipo intervalo e avalia os resultados da classificacao

usando o ındice de Rand corrigido (CR). A Tabela 6.7 apresenta um conjunto de peixes.


Tabela 6.7. Conjunto de Dados de Peixe descritos por 13 variaveis do tipo intervalo

Objetos/Classes Variaveis

Comprimento Peso ... Intestino/ Estomago/

Musculo Musculo

Ageneiosusbrevifili 1 [1.8 : 7.1] [2.1 : 7.2] ... [7.8 : 17.9] [4.3 : 11.8]

Cynodongibbus 1 [19 : 32] [77 : 359] . . . [0 : 0.5] [0.2 : 1.24]

Hopliasaımara 1 [25.5 : 63] [340 : 5500] . . . [0.11 : 0.49] [0.09 : 0.4]

Potamotrygonhy. 1 [20.5 : 45] [400 : 6250] . . . [0 : 1.25] [0 : 0.5]

Leporinusfasciatus 3 [18.8 : 25] [125 : 273] . . . [0 : 0] [0.12 : 0.17]

Leporinusfrederici 3 [23 : 24.5] [290 : 350] . . . [0.18 : 0.24] [0.13 : 0.58]

Dorasmicropoeus 2 [19.2 : 31] [128 : 505] . . . [0 : 1.48] [0 : 0.79]

Platydorascostatus 2 13.7 : 25] [60 : 413] . . . [0.3 : 1.45] [0 : 0.61]

Pseudoancistrus. 2 [13 : 20.5] [55 : 210] . . . [0 : 2.31] [0.49 : 1.36]

Semaprochilodusvari 2 [22 : 28] [330 : 700] . . . [0.4 : 1.68] [0 : 1.25]

Acnodonoligacanthus 4 [10 : 16.2] [34.9 : 154.7] . . . [0 : 2.16] [0.23 : 5.97]

Myleusrubripinis 4 [2.7 : 8.4] [2.7 : 8.7] ... [8.2 : 20] [5.1 : 13.3]

Diversos estudos realizados na Guyana francesa tem indicado nıveis anormais de

contaminacao de mercurio em algumas regioes. Esta contaminacao de mercurio e de-

vida ao alto ındice de consumo de peixe de agua doce contaminado [BR98]. Com o

objetivo de obter um melhor conhecimento deste fenomeno, um conjunto de dados foi

coletado por pesquisadores de um laboratorio (LEESA -Laboratoire d’Ecophysiologie

et d’Ecotoxicologie des Systemes Aquatiques). Este conjunto de dados consiste em 12

especies de peixes, cada especie sendo descrita por 13 variaveis do tipo intervalo e 1

variavel categorica. Estas especies estao agrupadas em quatro classes a priori de taman-

hos diferentes de acordo com a variavel categorica: duas classes (Carnivorous and De-

tritivorous) de tamanho 4 e duas classes de tamanho 2 (Omnivorous and Herbivorous).

Nas proximas subsecoes serao apresentados os resultados de classificacao fornecidos

pelos metodos L1, L2 e L∞ para este conjunto. Cada metodo de cluster e executado (ate


a convergencia para um valor estacionario do criterio W ) 50 vezes e o melhor resultado,

de acordo com o criterio W , e selecionado. A partir da configuracao selecionada o ındice

de Rand (CR) e calculado.

6.3.1 Resultados para os metodos L1

A Tabela 6.8 mostra as classes dada por uma particao a priori, conforme a variavel

categorica, e obtida pelos metodos L1: metodos adaptativos 1 and 2 e o metodo nao

adaptativo. Os ındices CR obtidos a partir dos resultados mostrados nesta tabela sao,

respectivamente, 0.302, 0.209 e -0.016 para os metodos adaptativos 1, 2 e para o metodo

nao adaptativo. Portanto, para este conjunto de peixes, o desempenho dos metodos

adaptativos e superior ao desempenho do metodo nao adaptativo. Alem disso, e inter-

essante observar que, para este conjunto de dados, o desempenho do metodo adaptativo

1 e melhor do que o do metodo adaptativo 2. Este ultimo resultado nao coincide com o

caso para os conjuntos de dados artificiais descritos na secao 6.2.4.

Tabela 6.8. Resultados do agrupamento para o conjunto de peixes usando os metodos L1

Classe 1 Classe 2 Classe 3 Classe 4

Uma particao a priori 1 2 3 4 7 8 9 10 5 6 11 12

Metodo Adaptativo 1 4 10 1 2 3 5 6 7 8 9 11 12


Metodo Nao-adaptativo 5 6 9 11 12 1 10 2 3 7 4 8

6.3.2 Resultados para os metodos L2


categorica, e obtida pelos metodos L2: metodos adaptativos 1 and 2 e o metodo nao


respectivamente, 0.334, 0.208 e -0.016 para os metodos adaptativos 1, 2 e para o metodo

nao adaptativo. Analogo aos resultados fornecidos pelos metodos L1, o desempenho dos


metodos L2 adaptativos e superior ao desempenho do metodo L2 nao adaptativo e o

desempenho do metodo adaptativo 1 e melhor do que o do metodo adaptativo 2.

Tabela 6.9. Resultados do agrupamento para o conjunto de peixes usando os metodos L2






6.3.3 Resultados para os metodos L∞


categorica, e obtida pelos metodos L∞: metodos adaptativos 1 and 2 e o metodo nao


respectivamente, 0.49 e -0.016 para os metodos adaptativo e nao adaptativo. Nova-

mente, para este conjunto de peixe, o desempenho do metodo adaptativo e superior ao

desempenho do metodo nao adaptativo.

Tabela 6.10. Resultados do agrupamento para o conjunto de peixes usando os metodos L∞



Metodo adaptativo 9 11 12 5 6 7 8 10 1 2 3 4


Nesta secao foram apresentados os resultados de agrupamento fornecidos pelos metodos

L1, L2 e L∞ usando um conjunto de dados reais do tipo intervalo. Analoga a conclusao

apresentada para os dados artificiais, pode-se afirmar que, para o conjunto de peixes, os

metodos com distancias L1, L2 e L∞ adaptativas para intervalos sao, respectivamente,

superiores aos metodos com distancias L1, L2 e L∞ nao adaptativas para intervalos.


Alem disso, nesta aplicacao, o metodo com distancias L∞ adaptativas apresentou o

melhor resultado para o ındice CR.

CAPITULO 7

CONCLUSOES E TRABALHOS FUTUROS

7.1 INTRODUCAO

Neste capıtulo, sao apresentados as consideracoes finais relacionadas com esta tese,

assim como as extensoes que possam existir originadas do trabalho aqui realizado.

7.2 CONSIDERACOES FINAIS

O contexto deste trabalho esta inserido na abordagem simbolica em analise de dados

(SDA-Symbolic Data Analysis) relacionada com metodos para a extracao de conhecimen-

tos em grandes bases de dados. SDA possibilita a reducao de bases de dados em uma

estrutura mais complexa chamada de objetos simbolicos. A relevancia destes objetos

esta na sua capacidade de descrever indivıduos levando ou nao em conta a imprecisao ou

a incerteza, ou podem descrever ıtens mais complexos, tais como grupos de indivıduos.

A partir de uma base de dados significativamente menor, composta de informacoes agre-

gadas, e possıvel a aplicacao de novas tecnicas objetivando a extracao de informacoes

relevantes e a descoberta de conhecimento.

Neste trabalho foram desenvolvidos metodos de cluster para dados simbolicos do

tipo intervalo. Estes metodos sao extensoes dos algoritmos do tipo nuvens dinamicas

com e sem distancias adaptativas para intervalos. Os metodos obtem, simultaneamente,

uma particao em um numero predefinido de classes e um conjunto de representantes

das classes por otimimizacao de um criterio que mede o ajustamento entre as classes

e seus representantes. Inicialmente foi introduzido um algoritmo de nuvens dinamicas

com uma distancia L1 nao adaptativa entre vetores de intervalos. Em seguida foram

introduzidos tres algoritmos de nuvens dinamicas com, respectivamente, as distancias

91

7.2 consideracoes finais 92

L1, L2 e L∞ adaptativas para intervalos. Os algoritmos propostos convergem para

um valor estacionario do criterio que representa o melhor ajustamento entre o tipo de

representacao das classes e as as distancias usadas para comparar uma classe com seu

representante.

Os metodos foram avaliados com diferentes conjuntos de dados artificiais de intervalos

no quadro de experiencias Monte Carlo fazendo-se replicas dos conjuntos com identicas

propriedades estatısticas, com o intuito de obter um resultado representativo da medida

de desempenho de cada metodo. Para isto, adotou-se o ındice de Rand corrigido (CR)

como medida de validacao dos metodos propostos. Uma aplicacao com um conjunto de

dados reais tambem foi considerado neste estudo.

Como conclusao principal, pode-se citar que em todos os conjuntos o desempenho

(medido atraves do ındice CR) dos metodos adaptativos e superior ao desempenho dos

metodos nao adaptativos. Para comparar os metodos, testes t-Student para observacoes

emparelhadas ao nıvel de significancia de 5% foram aplicados. Os resultados das es-

tatısticas dos testes evidenciaram que os metodos adaptativos sao superiores aos nao

adaptativos. A vantagem de usar distancias adaptativas e que os algoritmos sao capazes

de reconhecer classes de diferentes formas e tamanhos.

As principais contribuicoes deste trabalho foram as seguintes:

1) Desenvolvimento de metodos para a descoberta de conhecimentos em grandes bases

de dados.

2) Novas distancias para dados de intervalos que otimizam uma medida de qualidade

de um agrupamento.

3) Avaliacao quantitativa do desempenho dos metodos propostos atraves do metodo

Monte Carlo.

4) Avancos no plano teorico relativos aos metodos e algoritmos na abordagem simbolica

em classificacao e metodos afins.

7.3 trabalhos futuros 93

7.3 TRABALHOS FUTUROS

Com relacao a continuidade deste trabalho, pode-se mencionar as seguintes extensoes:

1) Estudar novas representacoes para os intervalos e usar estas representacoes para

definir novos metodos de particao com distancias adaptativas para intervalos.

2) Propor uma famılia de metodos de particao adaptativos usando uma extensao da

distancia de Minkowski Lr (r = 1, 2...) para intervalos.

3) Introduzir metodos de particao adaptativos para intervalos usando a distancia de

Mahalanobis.

4) Desenvolver metodos de particao com distancias adaptativas para dados descritos

por histogramas (ou distribuicoes de pesos) ou misturas de distribuicoes de prob-

abilidade.

APENDICE A

ESTUDO DAS PROPRIEDADES DO ALGORITMO DE

NUVENS DINAMICAS

A partir de uma solucao inicial v0, o algoritmo do tipo nuvens dinamicas busca por uma

solucao estacionaria para os termos seguintes:

• vt+1 = (P t+1, Lt+1) ∈ PK × LK e

• ut = W (vt)

onde P t+1 = f(Lt) e Lt+1 = g(P t+1) com P t+1 = (Ct+11 , . . . , Ct+1

K ) e Lt+1 = (Lt+11 , . . . , Lt+1

K ).

Proposicao A.0.1 A funcao ut decresce para um valor estacionario.

Demonstracao: A convergencia e demonstrada se e possıvel verificar a seguinte de-

sigualdade:

ut ≥ W (P t+1, Lt) ≥ ut+1

A primeira desigualdade e verificada pois, fixado Lt, a funcao de alocacao f : f(Lt) =

P t+1 permite determinar P t+1 a partir de L(t) para ∀ k = 1, . . . , K da seguinte forma:

Associa-se um indivıduo ωi (i = 1, . . . , n) a classe C t+1k tal que

k = arg minh=l,...,K

d(xi,yth)

Isto implica que

K∑

k=1

∑

i∈Ctk

d(xi,ytk) ≥

K∑

k=1

∑

i∈Ct+1

k

d(xi,ytk)

A segunda desigualdade e

94

estudo das propriedades do algoritmo de nuvens dinamicas 95

W (P t+1k , Lt

k) ≥ W (Pt+1)k , Lt+1

k )

Analoga a primeira desigualdade, a segunda e verificada pois, fixado P t+1 a funcao de

representacao g : g(P t+1) = Lt+1k permite determinar Lt+1 a partir de P t+1 minimizando

a funcao ut+1.

Proposicao A.0.2 A funcao vt e estacionaria.

Demonstracao: Sera provado ∀ t ≥ T vt = vT . Considere que a funcao ut seja

estacionaria na iteracao T , isto e, uT+1 = uT e W (vT+1) = W (vT ). Assumindo isto, a

igualdade uT+1 = uT pode ser definida como:

W (P T , LT ) = W (P T+1, LT ) = W (P T+1, LT+1)

A partir da primeira igualdade, conclui-se que P T = P T+1 pois por definicao P T+1 =

f(LT ). Sabe-se tambem que por definicao LT+1 = g(P T+1) e unica minimizando a funcao

∑

i∈CT+1

k

d(xi,yT+1k )

Portanto, a partir da segunda igualdade verifica-se que LT = LT+1 e estes dois ultimos

resultados implicam que vt = vT .

APENDICE B

ESTUDO DAS PROPRIEDADES DO ALGORITMO DE

NUVENS DINAMICAS COM DISTANCIAS

ADAPTATIVAS

A partir de uma solucao inicial v0, o algoritmo do tipo nuvens dinamicas com distancias

adaptativas visa encontrar uma solucao estacionaria para os termos:

• vt+1 = (P t+1, Lt+1, dt+1) ∈ PK × LK × dK e

• ut = W (vt)

onde P t+1 = f(Lt, dt), Lt+1 = g(P t+1), dt) e dt+1 = e(P t+1, Lt+1) com P t+1 = (Ct+11 , . . . , Ct+1

K ),

Lt+1 = (Lt+11 , . . . , Lt+1

K ) e dt+1 = (dt+11 , . . . , dt+1

K ).

Proposicao B.0.3 A funcao ut decresce para um valor estacionario.

Demonstracao: A convergencia e demonstrada se e possıvel verificar

ut ≥ W (P t+1, Lt, dt) ≥ W (P t+1, Lt+1, dt) ≥ ut+1

A primeira desigualdade e verificada pois, fixado o par Lt e dt, a funcao de alocacao

f : f(Lt, dt) = P t+1 permite determinar P t+1 a partir de Lt usando dt para ∀ k =

1, . . . , K da seguinte forma:

Associa-se um indivıduo ωi (i = 1, . . . , n) a classe C t+1k tal que

k = arg minh=l,...,K

dtk(xi,y

th)

Isto implica que

96

estudo das propriedades do algoritmo de nuvens dinamicas com distancias adaptativas97

K∑

k=1

∑

i∈Ctk

dtk(xi,y

tk) ≥

K∑

k=1

∑

i∈Ct+1

k

dtk(xi,y

tk)

A segunda desigualdade e

W (P t+1, Lt, dt) ≥ W (P t+1, Lt+1, dt)

Analoga a primeira desigualdade, a segunda tambem e verificada pois por definicao,

fixado o par P t+1 e dt, a funcao de representacao g : g(P t+1, dt) = Lt+1 permite deter-

minar Lt+1 minimizando a funcao W (P t+1, Lt+1, dt).

A ultima desigualdade e

W (P t+1, Lt+1, dt) ≥ W (P t+1, Lt+1, dt+1)

Novamente, esta desigualdade e satisfeita pois por definicao, fixado o par P t+1 e Lt+1,

a funcao de distancia e : e(P t+1, Lt+1) = dt+1 permite determinar dt+1 minimizando a

funcao W (P t+1, Lt+1, dt+1).

Proposicao B.0.4 A funcao vt e estacionaria.

Demonstracao: Sera provado ∀ t ≥ T vt = vT . Considere que a funcao ut seja

estacionaria na iteracao T , isto e, uT+1 = uT e W (vT+1) = W (vT ). Assumindo isto, a

igualdade uT+1 = uT pode ser definida como:

W (P T , LT , dT ) = W (P T+1, LT , dT ) = W (P T+1, LT+1, dT ) = W (P T+1, LT+1, dT+1)

A partir da primeira igualdade, verifica-se que P T = P T+1 pois por definicao P T+1 =

f(LT , dT ).

A partir da segunda desigualdade, tem-se por definicao que LT+1 = g(P T+1, dT ) e

unica minimizando o criterio

∑

i∈CT+1

k

dTk (xi, L

T+1k )

E a partir da terceira igualdade, sabe-se tambem que por definicao dT+1 = e(P T+1, LT+1)

e unica minimizando o criterio

estudo das propriedades do algoritmo de nuvens dinamicas com distancias adaptativas98

∑

i∈CT+1

k

dT+1k (xi,y

T+1k )

Portanto, utilizando as duas ultimas igualdades conclui-se, respectivamente, que

LT = LT+1 e dT = dT+1. Para finalizar, estes tres resultados implicam que vt = vT .

APENDICE C

PROPOSICAO 5.2.1

Os limites inferiores e superiores dos intervalos [αjk, β


criterio ∆(yk) sao:

αjk = medianaaj

i/i ∈ Ck e βjk = medianaaj

i/i ∈ Ck (.)

Demonstracao: Como o criterio ∆(yk) e aditivo, o problema de otimizacao e definido

da seguinte forma: encontrar αjk ∈ < e βj

k ∈ < tal que, respectivamente, minimize

∑

i∈Ck

|aji − α

|k + |bji − β

jk| (.)

Este resultado produz dois problemas de minimizacao na norma L1: encontrar αjk ∈ <

e βjk ∈ < tal que minimize, respectivamente,

∑

i∈Ck

|aji − α

jk| e

∑

i∈Ck

|bji − βjk| (.)

Inicialmente, seguindo [Gov75], sera demonstrado que αjk e a mediana do conjunto

aji/i ∈ Ck. Sejam nk o cardinal da classe Ck e aj

1, . . . , ajnk o conjunto de limites

inferiores de Ck em ordem crescente.

a) Se nk e par, o criterio∑

i∈Ck|aj

i − αjk| pode ser dado por:

∑

i∈Ck

|aji − α

jk| =

nk2

∑

i=1

(|aji − α

jk|+ |a

jnk−i+1 − α

jk|) =

nk2

∑

i=1

fi(αjk) (.)

Se αjk ∈ [aj

i , ajnk−i+1] para i = 1, . . . , nk/2, a funcao fi(α

jk) = aj

nk−i+1 − aji nao

depende αk. Se αjk < aj

i ou αjk > aj

nk−i+1 para i = 1, . . . , nk/2:

99

proposicao 5.2.1 100

– αjk < aj

i entao fi(αjk) = aj

nk−i+1 − aji + 2(aj

i − αjk) onde (aj

i − αjk) > 0

– αjk > aj

nk−i+1 entao fi(αjk) = aj

nk−i+1 − aji + 2(αj

k − ajnk−i+1) onde (αj

k −

ajnk−i+1) > 0

Portanto, o criterio∑

i∈Ck|aj

i − αjk| e mınimo para αj

k ∈ [aji , a

jnk−i+1].

b) Se nk e ımpar, o criterio∑

i∈Ck|aj

i − αjk| pode ser dado por:

∑

i∈Ck

|aji − α

jk| =

nk2

∑

i=1

fi(αjk) + |aj

nk2

+1− αj

k| (.)

Se αjk = aj

nk2

+1entao αj

k ∈ [aji , a

jnk−i+1] para i = 1, . . . , nk/2 e a funcao fi(α

jk)

alcanca o valor mınimo.

De acordo com os resultados em (a) e b), pode-se concluir que

αjk = medianaaj

i/i ∈ Ck (.)

minimiza o criterio∑

i∈Ck|aj

i − αjk|.

A prova para os limites superiores e analoga a demonstracao acima. Portanto,

βjk = medianabji/i ∈ Ck (.)

minimiza o criterio∑

i∈Ck|bji − β

jk|.

Conforme foi apresentado nesta demonstracao, a solucao para αjk e βj

k nem sempre

sao unicas pois existira dois intervalos de solucoes quando o cardinal da classe e par.

Nas situacoes em que existe um intervalo de solucoes para cada uma, tem sido usual

definir αjk e βj

k como sendo o ponto medio deste intervalo de solucoes.

APENDICE D

PROPOSICAO 5.2.2

Seja Φj =∑

i∈Ckφ(xj

i , yjk) (j = 1, . . . , p) onde φ(xj

i , yjk) e uma medida de distancia entre

xji e yj

k. As coordenadas do vetor de parametros λk = (λ1k, . . . , λ

pk) que satisfazem as

condicoes i)λjk > 0 e ii) Πp

j=1λjk = 1 e minimizam um criterio definido como

p∑

j=1

λjkΦj (.)

sao:

λjk =

∏ph=1 Φ

1

p

h

Φj

(.)

Demonstracao: De acordo com [Gov75] este vetor de parametros (λ1k, . . . , λ

pk) e obtido

pelo Metodo dos Multiplicadores de Lagranje da seguinte forma:

∂

∂λjk

(p

∑

j=1

λhkΦh − µ

p∏

h=1

λhk) = 0 (.)

para j = 1, . . . , p onde µ e o multiplicador introduzido.

A partir da equacao (.), obtem-se o seguinte resultado:

Φj − µ

∏ph=1 λ

hk

λjk

= 0 (.)

onde

λjk =

µ

Φj

(p

∏

h=1

λhk) (.)

Considerando que Πph=1λ

hk = 1, o parametro λj

k em (.) e dado por

λjk =

µ

φj

(.)

101


Por outro lado, a restricao Πph=1λ

hk = 1 pode ser escrita como:

1 =p

∏

h=1

µ

Φh

=µp

∏ph=1 Φh

(.)

onde

µ = (p

∏

h=1

Φh)1

p (.)

Finalmente, a solucao para o parametro λjk e (j = 1, . . . , p):

λjk =

µ

Φj

=(∏p

h=1 Φh)1

p

Φj

(.)

APENDICE E

PROPOSICAO 5.2.3

Os limites inferiores e superiores dos intervalos [αjk, β


criterio ∆(yk) sao:

αjk =

1

nk

p∑

j=1

aji , βj

k =1

nk

p∑

j=1

bji (.)


Demonstracao: Como o criterio ∆(yk) e aditivo, este problema torna-se encontrar

um intervalo [αjk ∈ < e βj

k ∈ < tal que, respectivamente, minimize

∑

i∈Ck

(aji − α

jk)

2 + (bji − βjk)

2 (.)

Este resultado produz dois problemas de minimizacao na norma L2: encontrar αjk ∈ <

e βjk ∈ < tal que minimize, respectivamente,

∑

i∈Ck

(aji − α

jk)

2 e∑

i∈Ck

(bji − βjk)

2 (.)

A solucao para esses dois problemas e obtida da seguinte forma:

Sejam as funcoes

fa =∑

i∈Ck

(aji − α

jk)

2 (.)

fb =∑

i∈Ck

(bji − βjk)

2 (.)

Os valores que minimizam as funcoes em (.) e (.) sao, respectivamente, aqueles

para os quais as derivadas parciais de fa e fb em relacao a αjk e βj

k sao nulas, isto e,

103


∂fa

∂αjk

= −2∑

i∈Ck

aji − α

jk = 0 (.)

∂fb

∂βjk

= −2∑

i∈Ck

bji − βjk = 0 (.)

A partir das equacoes (.) e (.), tem-se, respectivamente, os seguintes resultados:

∑

i∈Ck

(aji − α

jk) =

∑

i∈Ck

aji − nkα

jk (.)

∑

i∈Ck

(bji − βjk) =

∑

i∈Ck

bji − nkβjk (.)

Portanto, os limites αjk e βj

k sao, respectivamente,

αjk =

1

nk

p∑

j=1

aji e βj

k =1

nk

p∑

j=1

bji (.)

APENDICE F

PROPOSICAO 5.2.4

A solucao para os intervalos [αjk, β

jk] minimizando o criterio ∆(yk) e αj

k = µjk − δj

k e

βjk = µj

k + δjk onde µj

k e δjk sao, respectivamente, a mediana de mj

i , i ∈ Ck, os pontos

medios dos intervalos xji = [aj

i , bji ], i ∈ Ck, e a mediana do conjunto lji , i ∈ Ck, metade

dos comprimentos medios dos intervalos xji = [aj

i , bji ], i ∈ Ck.

Demonstracao: Como o criterio ∆(yk) e aditivo, este problema torna-se encontrar

(para j = 1, . . . , p) o intervalo yjk = [αj


∑

i∈Ck

max|aji − α

jk|, |b

ji − β

jk| (.)

Em Chavent [CL02], este problema pode ser transformado em dois problemas de

minimizacao na norma L1. Sejam: mjs = (aj

i + bji )/2), o ponto medio do intervalo

xji = [aj

i , bji ] (para j = 1, . . . , p, e lji = (bji − aj

i )/2), a metade do comprimento deste

intervalo.

Considere tambem µji = (αj

i + βji )/2, o ponto medio do intervalo yj

k = [αjk, β

jk] (para

j = 1, . . . , p), e δjk = (βj

k − αjk)/2, a metade do comprimento deste ultimo intervalo.

Usando a seguinte propriedade definida para x and y in <,

max(|x− y|, |x+ y|) = |x|+ |y| (.)

a equacao (.) pode ser escrita como:

∑

s∈Ck

d(xji , y

jk) =

∑

i∈Ck

max|(µjk − δ

jk)− (mj

i − lji )|, |(µ

jk + δj

k)− (mji + lji )|

=∑

s∈Cki

max|(µjk −m

ji )− (δj

k − lji )|, |(µ

jk −m

ji ) + (δj

k − lji )|

105

BIBLIOGRAFIA

[B00] P. Bertrand and F. Goupil 2000. Descriptive statistics for symbolic data.

In H. H. Bock et al, editor, Analysis of symbolic data, pages 103–124.

Springer, 2000.

[BD00] L. Billard and E. DidaySpringer. Regression analysis for interval-valued

data. In H. A. L. Kiers et al, editor, Data Analysis, Classification and

Related Methods, pages 369–374, Berlin, 200.

[BD00] H. H. Bock and E. Diday. Analysis of Symbolic Data, Exploratory methods

for extracting statistical information from complex data. Springer, Heidel-

berg, 2000.

[BD02] L. Billard and E. Diday. Symbolic regression analysis. In K. Jajuga et al,

editor, Classification, Clustering and Data Analysis, pages 281–288, Berlin,

2002. Springer.

[BD03] L. Billard and E. Diday. From the statistics of data to the statistics of

knowledge: symbolic data analysis. Journal of the American Statistical

Association, 98:470–487, 2003.

[Bel59] W. A. Belson. Matching and prediction on the principle of biological clasi-

fication. Applied Statistics, 3, 1959.

[Bez81] J. C. Bezdek. Pattern Recognition With Fuzzy Objective Function Algo-

rithms. Plenum Press, New York, 1981.

[BF92] O. Bustos and A. C. Frery. Simulacao Estocastica: Teoria e Algoritmos

(versao completa). Instituto de Matematica Pura e Aplicada, 1992.

107

BIBLIOGRAFIA 108

[BM02] W. O. Bussab and P. A. Morettin. Estatıstica Basica. Saraiva, 2002.

[Boc74] H. H. Bock. utomatische Klassifikation. Gottingen, 1974.

[Boc02] H.H. Bock. Clustering alorithms and kohonen maps for symbolic data. J.

Jpn. Soc. Statist., (15):1–13, 2002.

[BR98] A. Bobou and F. Ribeyre. Mercury in the food web: accumulation and

transfer mechanisms. In A. Sigrel and H. Sigrel, editors, Metal Ions in

Biological Systems, pages 289–319, New York, 1998.

[Bri94a] P. Brito. Order strucure of symbolic assertions objects. IEEE Trnas. on

Knowledge and Data Engineering, 6(5), 1994.

[Bri94b] P. Brito. Use of pyramids in symbolic data analysis. pages 378–386.

IFCS’94, 1994.

[CBB03] F. A. T. DE Carvalho, M. P. Brito, and H. H. Bock. Dynamical clustering

for symbolic quantitative data. Cracow, 2003. Workshop in Symbolic Data

Analysis.

[CdCLV03] M. Chavent, F. A. T. de Carvalho, Y. Lechevalier, and R. Verde. Trois

nouvelles methodes de classification automatique de donnees symboliques

de type intervalle. Rev, Statistique Appliquee, LI(4):5–29, 2003.

[CGLR89] G. Celeux, E. Diday G. Govaert, Y. Lechevalier, and H. Ralambondrainy.

Classification automatique des donnees. 1989.

[Cha98] M. Chavent. A monothetic clustering method. Pattern Recognition Letters,

19:989–996, 1998.

[CL02] M. Chavent and Y. Lechevallier. Dynamical clustering algorithm of interval

data: Optimization of an adequacy criterion based on hausdorff distance.

In Sokolowsky et al, editor, Classification, Clustering and Data Analysis,

pages 53–59, Heidelberg, 2002. Springer.

BIBLIOGRAFIA 109

[DB89] E. Diday and M. P. Brit. Symbolic cluster analysis. In O. Opitz, edi-

tor, Conceptual and Numerical Analysis of Data, pages 45–84, Heidelberg,

1989. Springer-Verlag.

[dC94] F. A. T. de Carvalho. Proximity coefficients between boolean symbolic

objects. In New Approaches in Classification and Data Analysis, pages

387–394, Heildeberg, 1994. Springer-Verlag.

[dC95] F. A. T. de Carvalho. Histograms in symbolic data analysis. Annals of

Operations Research, 55:299–322, 1995.

[dC96] F. A. T. de Carvalho. Histogrmmes et indices de proximite en analyse de

donnees symboliques. In LISE-CERAMDE, editor, Actes de l’ecole d’ete

sur l’analyse des donnees symboliques, 1996.

[dC98] F. A. T. de Carvalho. Extension based proximities between constrained

boolean symbolic objects. In Data Science, Classification and Related

Methods, pages 370–378, 1998.

[dCdS98a] F. A. T. de Carvalho and R. M. C. R. de Souza. New metrics for constrained

boolean symbolic objects. In Studies and Reserach: Proceedings of the

Conference on Knowledge Extraction and Symbolic Data Analysis, pages

175–187, Luxemburg, 1998. KESDA’98, Office for Official Publications of

the European Communities.

[dCdS98b] F. A. T. de Carvalho and R. M. C. R. de Souza. Statistical proximity

functions of boolean symbolic objects based on histograms. In A. Rizzi

et al, editor, New Andvances in Data Science and Classification, pages

391–396, Heidelberg, Germany, 1998. Springer - Verlag.

[dCdS03a] F. A. T. de Carvalho and R. M. C. R. de Souza. Clustering of interval

data with quadratic adaptive distances (accept to be published). Bolonha,

Italia, 2003. Meeting of the Classification and Data analysis Group of the

Italian Statistical Society - Cladag.

BIBLIOGRAFIA 110

[dCdS03b] F. A. T. de Carvalho and R. M. C. R. de Souza. Unsupervised pattern

recognition methods for interval data using non-quadratic distances. IEE

Electronics Letters, 39(5):433–434, 2003.

[dCLdS04] F. A. T. de Carvalho, Y. Lechevaliter, and R. M. C. R. de Souza. An

adaptive dynamical cluster algorithm based on a lr distance for quantitative

feature value. IFCS’04, 2004. sumitted.

[DG77] E. Diday and G. Govaert. Classification automatique avec distances adap-

tatives. R.A.I.R.O. Informatique Computer Science, 11(4):329–349, 1977.

[DGL80] E. Diday, G. Govaert, and Y. Lechevalier. Clustering in pattern recogni-

tion. In Proc. 5th Conf. Pattern Recognition, Miami Beach FL, 1980.

[Did71] E. Diday. La methode des nuees dynamiques. Rev. Stat. Appliquees,

XXX(2):19–34, 1971.

[Did86] E. Diday. Orders and overlapping clusters by pyramids. In J. Leeuw et al,

editor, Multidimensional Data Analysis, pages 201–234, New York, 1986.

DSWO Press.

[Did87] E. Diday. The symbolic approach in clustering and related methods of

data analysis. In H. H. Bock, editor, Classification and Related Methods

of Data Analysis, North-Holland, 1987.

[Did89] E. Diday. Introduction a l’approche symbolique en analyse de donnees. Re-

vue d’Automatique, d’Informatique et de Recherche Operationnelle, 23(2),

1989.

[DLPT84] E. Diday, J. Lemaire, J. Pouget, and F. Tetsu. Elements d’analyse des

donnees. Dunod, Paris, 1984.

[DS76] E. Diday and J. J. Simon. Clustering analysis. In K. S. Fu, editor, Digital

Pattern Recognition, pages 47–94, 1976.

BIBLIOGRAFIA 111

[dS99] R. M. C. R. de Souza. Classificacao de imagens sar baseada em uma

abordagem simbolica. Dissertacao de mestrado, Departamento de 1999

Estatıstica -Universidade Federal de Pernambuco, Recife-PE, 1999.

[dSdC03] R. M. C. R. de Souza and F. A. T. de Carvalho. Clustering of interval data

based on city-block distances. Pattern Recognition Letters, in press, 2003.

[dSdCAC99] R. M. C. R. de Souza, F. A .T. de Carvalho, and Frery In: I A. C. Symbolic

approach to sar image classification. In Proceedings of the IEEE 1999.

International Geoscience and Remote Sensing Symposium - IGARSS’99,

1999.

[dSdCL03] R. M. C. R. de Souza, F. A. T. de Carvalho, and Y. Lechevalier. Classifi-

cation automatique des donnees de type intervalle basee sur une distance

de hausdorff adaptative. pages 95–98, Suica, 2003.

[dSdCS03] R. M. C. R. de Souza, F. A. T. de Carvalho, and F. C. D. Silva. Classi-

ficacao nao supervisionada de dados de tipo intervalo baseada em distancias

nao quadraticas. In Anais do XXIII Congresso da Sociedade Brasileira de

Computacao, volume 7, pages 507–516, Sao Paulo, 2003. IV ENIA- Encon-

tro Nacional de Inteligencia Artificial.

[ESI88] Y. El-Sonbaty and M. A. Ismail. Fuzzy clustering for symbolic data. IEEE

Transactions on Fuzzy Systems, 6:195–204, 1888.

[ESI98] Y. El-Sonbaty and M. A. Ismail. On-line hierarchical clustering. Pattern

Recognition Letters, 19:1285–1291, 1998.

[Eve93] B. S. Everitt. Cluster Analysis. Arnold, 3nd edition, 1993.

[Fis87] D. H. Fisher. Knowledge acquisition via incremental conceptual clustering.

Machine Learning, (2):139–172, 1987.

BIBLIOGRAFIA 112

[FPSS96] U. Fayyad, G. Platetsky-Shapiro, and P. Smyth. From data minig to

knowledge discovery: an overview. In Advances in Knowledge Discovery

and Data Mining, pages 1–34, 1996.

[Gar98] S. R. Garden. Bulding the data warehouse. Communications of the ACM,

41(9):52–60, 1998.

[GD91a] K. C. Gowda and E. Diday. Symbolic clustering using a new dissimilarity

measure. Pattern Recognition, 24(6):567–578, 1991.

[GD91b] K. C. Gowda and E. Diday. Symbolic clustering using a new similarity

measure. IEEE Transactions on Systems, Man and Cybernetics, 22:368–

378, 1991.

[GGKS78] K. C. Gowda and 12 G. Krishna SMC-8. Disaggreative clustering using the

concept of mutual nearest neighborhood. IEEE Transactions on Systems,

Man and Cybernetics SMC-8, 12, 1978.

[Gor99] A. D. Gordon. Classification. Chapman Hall/CRC, 2nd edition, 1999.

[Gor00] A. D. Gordon. An iteractive relocation algorithm for classifying symbolic

data. In W. Gaul et al, editor, Data Analysis: Scientific Modeling and

Practical Application, pages 17–23, Berlin, 2000.

[Gov75] G. Govaert. Classification automatique et distances adaptatives. PhD the-

sis, hese de 3eme cycle, Mathematique appliquee, Universite Paris VI, 1975.

[GR95a] K. C. Gowda and T. Ravi. Agglomerative clustering of symbolic objects

using the concepts of both similarity and dissimilarity. Pattern Recognition,

16:647–652, 1995.

[GR95b] K. C. Gowda and T. Ravi. Divisive clustering of symbolic objects us-

ing the concepts of both similarity and dissimilarity. Pattern Recognition,

28(8):1277–1282, 1995.

BIBLIOGRAFIA 113

[GR99a] K. C. Gowda and T. Ravi. Clustering of symbolic objects using gravita-

tional approach. IEEE Transactions on Systems, Man and Cybernetics,

29(6):888–894, 1999.

[GR99b] K. C. Gowda and T. Ravi. An isodata clustering procedure for symbolic

objects using a distributed genetic algorithm. Pattern Recognition Letters,

20:659–666, 1999.

[HA85] L. Hubert and P. Arabie2. Comparing partitions. Journal of Classification,

2:193–218, 1985.

[HK01] J. Han and M. Kamber. Data Mining: Concept and Techiniques. Academic

Press, 2001.

[Ich79] M. Ichino. A nonparametric multiclass pattern classifier. IEEE Transac-

tions on System, Man and Cybernectics, 9(4):345–353, 1979.

[Ich81] M. Ichino. Nonparametric feature selection method based on local inter-

class structure. IEEE Transactions on System, Man and Cybernectics,

11(4):289–296, 1981.

[Ich86] M. Ichino. Pattern classification based on the cartesian join syste: A

general tool for feature selection. IEEE Transactions on System, Man and

Cybernectics, pages 1420–1424, 1986.

[IS84] M. Ichino and J. Sklanky. Optimum feature selection by zero - one in-

teger programing. IEEE Transactions on System, Man and Cybernectics,

14(5):737–746, 1984.

[IY94] M. Ichino and H. Yaguchi. Generalized minkowski metrics for mixed feature

type data analysis. IEEE Transactions on System, Man and Cybernectics,

24(4):698–708, 1994.

[IY98] M. Ichino and H. Yaguchi. Symbolic pattern classifiers based on the carte-

sian system model. In A. Rizzi et al, editor, New Andvances in Data

BIBLIOGRAFIA 114

Science and Classification, pages 359–369, Heildelberg, 1998. Springer -

Verlag.

[JD88] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. New Jersey,

1988.

[JMF99] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: A review.

ACM Computing Surveys, 31(3):264–323, 199.

[JS68] N. Jardine and R. Sibson. The construction of hierarchic and non-hierarchic

classifications. Computer Journal, (11):177–184, 1968.

[Koh89] T. Kohonen. Self-Organization and Associative Memory. Springer-Verlag,

3nd edition, 1989.

[LMW95] L. Lebart, A. Morineau, and K. M. Warwick. Multivariate descriptive

statistical analysis. Wiley, New York, 1995.

[Mic73] R. Michalski. Computer implementation of a variable-valued logic system

vl1 and examples in pattern recognition. In Proc. Int. Joint Conf. On

Pattern Recognition, pages 3–17, 1973.

[Mil96] G. W. Milligan. Clustering validation: results and implications for applied

analysis. In Clustering and Classification, pages 341–375, Singapore, 1996.

Word Scientific.

[MS63] J. N. Morgan and J. A. Sonquist. Problems in the anlysis for survey data

a proposal. Journal of the American Statistical Association, 58:415–434,

1963.

[MS83] R. S. Michalski and R. E. Stepp. Automated construction of classifications:

conceptual clustering versus numerical taxonomy. IEEE Transactions on

Pattern Analysis and Machine Intelligence, (PAMI-5):396–410, 1983.

BIBLIOGRAFIA 115

[MSD81] R. S. Miachalski, R. E. Stepp, and E. Diday. A recent advances in data

anlaysis: clustering objects into classes characterized by conjunctive con-

cepts. In Kanal and A. Rosenfeld, editors, Progress in Pattern Recognition,

volume 1, 1981.

[NdC01] E. A. Lima Neto and F. A. T. de Carvalho. Analysing administrative man-

agements through a symbolic approach. The Eletronic Journal of Symbolic

Data Analysis, 1(1), 2001.

[NG95] P. Nagabhushan and K. C. Gowda. Dimensionality reduction of symbolic

data. Pattern Recognition Letters, 16:219–223, 1995.

[PCCDS97] P P. Cazes, A. Chouakria, E. Diday, and Y. Schecktman. Extension de

l’analyse de composantes principales a des donnees intervalles. Revue de

Statistique Applique, 53(3):35–51, 1997.

[RL98] J. P. Rasson and S. Lissoir. Symbolic kernel discriminant analysis. 1998.

[Sap90] G. Saporta. Probabilites, analyse des donnees et statistique. Editions

TECHNIP, Paris, 1990.

[Sow84] J. Sowa. Conceptual structures: information processing in mind and ma-

chine. Addison Wesley, Reading, Mass, 1984.

[SS73] P. H. A. Sneath and R. R. Sokal. Numerical Taxonomy. Freeman, San

Francisco, 1973.

[Tuk58] J. W. E. Tukey. Exploratory Data Analysis. Addison Wesley, Reading,

Mass, 1958.

[VdC98] R. Verde and F. A. T. de Carvalho. Dependence rules influence on facto-

rial representation of boolean symbolic objects. In Studies and Reserach:

Proceedings of the Conference on Knowledge Extraction and Symbolic Data

Analysis, Luxemburg, 1998. Office for Official Publications of the European

Communities,.

BIBLIOGRAFIA 116

[VdC01] R. Verde and F. A. T. de Carvalho. A dynamical clustering algorithm for

symbolic data. In Tutorial on Symbolic Data Analisys, Munich, 2001. GfKl

Conference.

[Vig91] R. Vignes. Caracterisation Automatique de Groupes Biologiques. These de

doctorat, Universite Paris VI Pierre et Marie Curie, Paris, 1991.

[Win79] P. Winston. Artificial intelligence. Addison Wesley, 1979.

[Zia96] D. Ziani. Slection de variables sur un ensemble d’objets symboliques. These

de doctorat, Universite Paris IX Dauphine, Paris, 1996.

Tese de Doutorado apresentada por Renata Maria Cardoso Rodrigues de Souza a Pós-

Graduação em Ciência da Computação do Centro de Informática da Universidade Federal

de Pernambuco, sob o título "Métodos de Cluster para Intervalos usando Algoritmos

do tipo Nuvens Dinâmicas" orientada pelo Prof. Francisco de Assis Tenório de

Carvalho e aprovada pela Banca Examinadora formada pelos professores:

O~M~Prof. Teresa Bernarda Ludermir

Departamento de Ciência da Computação - CIn / UFPE

~l~~l'L-J~L~~Prof. Edson costa de Barros Carvalho FilhoDepartamento de Informação e Sistemas - CIn I UFPE

~tVb~~~~Prof. Silvana Maria Bastos Afonso da SilvaDepartamento de Engenharia Civil -CTG I UFPE

JProf. Ivaldõ-Dárlo/da Silva PontesDepartamento de Engenharia Civil- CTG I UFPE

!? IZ.~~ ~y--.tJ(Profa. PauloRoberto MacielLyraDepartamento de Engenharia Mecânica - CTG / UFPE

Visto e permitida a impressão.Recife, 19 de dezembro de 2003.

Pós-Graduação em Ciência da Computação doática da Universidade Federal de Pemambuco.

METODOS DE CLUSTER PARA INTERVALOS USANDO …€¦ · L1 para intervalos. Al em deste m eto do,...

Documents

Transcript of METODOS DE CLUSTER PARA INTERVALOS USANDO …€¦ · L1 para intervalos. Al em deste m eto do,...