Otimização em comitês de classiﬁcadores: Uma ... · Otimização em comitês de...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPARTAMENTO DE INFORMÁTICA E MATEMÁTICA APLICADA

PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO

Otimização em comitês de classificadores: Umaabordagem baseada em filtro para seleção de

subconjuntos de atributos

Laura Emmanuella Alves dos Santos Santana

Natal - RN

Fevereiro de 2012

Laura Emmanuella Alves dos Santos Santana

Otimização em comitês de classificadores: Umaabordagem baseada em filtro para seleção de

subconjuntos de atributos

Tese de doutorado submetida ao Programade Pós-Graduação em Sistemas e Computa-ção do Departamento de Informática e Mate-mática Aplicada da Universidade Federal doRio Grande do Norte como parte dos requi-sitos para a obtenção do grau de Doutor emCiência da Computação.

Orientador:Profa. Dra. Anne Magály de Paula Canuto

Natal - RN

Fevereiro de 2012

Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial

Especializada do Centro de Ciências Exatas e da Terra – CCET.

Santana, Laura Emmanuella Alves dos Santos. Otimização em comitês de classificadores: uma abordagem baseada em filtro para seleção de subconjuntos de atributos / Laura Emmanuella Alves dos Santos Santana. – Natal, RN, 2012. 168 f. : il.

Orientador(a): Profa. Dra. Anne Magály de Paula Canuto.

Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Departamento de Informática e Matemática Aplicada. Programa de Pós-Graduação em Sistemas e Computação.

1. Inteligência artificial – Tese. 2. Seleção de atributos – Tese. 3. Comitês de

classificadores – Tese. 4. Metaheurística – Tese. 5. Algoritmos genéticos – Tese. I. Canuto, Anne Magály de Paula. III. Título. RN/UF/BSE-CCET CDU 004.8

LAURA EMMANUELLA ALVES DOS SANTOS SANTANA

Otimização em comitês de classificadores: Uma abordagembaseada em filtro para seleção de subconjuntos de atributos

Esta Tese foi julgada adequada para a obtenção do título de doutor em Ciência daComputação e aprovada em sua forma final pelo Programa de Pós-Graduação em Sistemase Computação do Departamento de Informática e Matemática aplicada da UniversidadeFederal do Rio Grande do Norte.

Profa. Dra. Anne Magály de Paula Canuto – UFRNOrientadora

Prof. Dr. Martin Alejandro Musicante – UFRNCoordenador do Programa

Banca Examinadora

Profa. Dra. Anne Magály de Paula Canuto – UFRNPresidente

Profa. Dra. Elizabeth Ferreira Gouvea – UFRN

Prof. Dr. Adrião Duarte Doria Neto – UFRN

Prof. Dr. André Carlos Ponce Ferreira de Carvalho – USP

Prof. Dr. Cleber Zanchetin – UFPE

Fevereiro, 2012

i

Aos meus pais, José Sávio Santana (in me-moriam) e Teodora Alves Santana, pela dedi-cação e esforço empreendidos na educação deseus frutos.

ii

Agradecimentos

Agradeço a Deus por ter me permitido realizar o doutorado. Sou imensamente gratapor todas as oportunidades que me foram dadas de crescimento intelectual e moral.

À minha família agradeço por todo auxílio prestado, pela compreensão e apoio emtodos os momentos. Em especial à minha mãe, Teodora Alves Santana, aos meus sogros,José Gilson de Oliveira e Rejane Moema Sousa de Oliveira, e ao meu esposo, George GilsonSousa de Oliveira, por me ajudarem incondicionalmente a cuidar de nossa pequenina Lívia,me permitindo concluir o doutorado dentro do prazo estabelecido.

Agradeço à minha orientadora, Anne Magály de Paula Canuto, pelos conhecimentostransmitidos e pela atenção dispensada. À professora Elizabeth Ferreira Gouvêa Goldbargque me recebeu como aluna ouvinte em sua disciplina de Tópicos Avançados em AlgoritmosExperimentais sendo muito atenciosa e prestativa.

A todos os amigos que de alguma forma, direta ou indireta, me ajudaram, em especialà Ligia Maria Moura e Silva, que trabalhou comigo nos primeiros passos desta pesquisa,Thatiana Cunha Navarro de Souza que me forneceu material e foi também muito atenciosae Diego Silveira Costa Nascimento por me ajudar com o LATEX.

Por fim, agradeço ao CNPq, Conselho Nacional de Desenvolvimento Científico e Tec-nológico, pelo apoio financeiro.

iii

“O que sabemos é uma gota, o que ignoramos é um oceano”

– Isaac Newton

iv

Resumo

A aplicação tradicional da seleção de atributos em diversas áreas como mineração dedados, aprendizado de máquina e reconhecimento de padrões visa melhorar a acuráciados modelos construídos com a base de dados, ao retirar dados ruidosos, redundantes ouirrelevantes, e diminuir o custo computacional do modelo, ao encontrar um subconjuntorepresentativo dos dados que diminua sua dimensionalidade sem perda de desempenho.Com o desenvolvimento das pesquisas com comitês de classificadores e a verificação deque esse tipo de modelo possui melhor desempenho que os modelos individuais, dado queos classificadores base sejam diversos, surge uma nova aplicação às pesquisas com seleçãode atributos, que é a de encontrar subconjuntos diversos de atributos para a construçãodos classificadores base de comitês de classificadores. O presente trabalho propõe umaabordagem que maximiza a diversidade de comitês de classificadores através da seleção desubconjuntos de atributos utilizando um modelo independente do algoritmo de aprendiza-gem e de baixo custo computacional. Isso é feito utilizando metaheurísticas bioinspiradascom critérios de avaliação baseados em filtro.

Palavras-chave: Classificação de Padrões; Comitês de Classificadores; Diversidade;Seleção de Atributos; Metaheurísticas Bioinspiradas; Algoritmos Genéticos; Colônia deFormigas; Nuvem de Partículas.

v

Abstract

Traditional applications of feature selection in areas such as data mining, machine lear-ning and pattern recognition aim to improve the accuracy and to reduce the computationalcost of the model. It is done through the removal of redundant, irrelevant or noisy data,finding a representative subset of data that reduces its dimensionality without loss of per-formance. With the development of research in ensemble of classifiers and the verificationthat this type of model has better performance than the individual models, if the baseclassifiers are diverse, comes a new field of application to the research of feature selection.In this new field, it is desired to find diverse subsets of features for the construction of baseclassifiers for the ensemble systems. This work proposes an approach that maximizes thediversity of the ensembles by selecting subsets of features using a model independent ofthe learning algorithm and with low computational cost. This is done using bio-inspiredmetaheuristics with evaluation filter-based criteria.

Keywords: Pattern Classification; Ensembles; Diversity; Feature Selection; Bio-inspiredMetaheuristics; Genetic Algorithms; Ant Colony; Particle Swarm.

vi

Sumário

Lista de Figuras xi

Lista de Tabelas xiv

1 Introdução 1

1.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Classificação de Padrões 9


2.2 Classificação de Padrões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Algoritmos de Aprendizado de Máquina: Indutores . . . . . . . . . . . . . 13

2.3.1 Árvore de Decisão: Paradigma de Aprendizado Simbólico . . . . . . 13

2.3.2 Naive Bayes : Paradigma de Aprendizado Estatístico . . . . . . . . 17

2.3.3 K – Vizinhos mais Próximos: Paradigma de Aprendizado Baseadoem Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.4 Redes Neurais Artificiais: Paradigma de Aprendizado Conexionista 19

2.4 Amostragem dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Sumário vii

2.5 Combinação de Classificadores . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.6 Diversidade em Comitês de Classificadores . . . . . . . . . . . . . . . . . . 27

3 Seleção de Atributos 30


3.2 Seleção de Atributos como um Problema de Busca . . . . . . . . . . . . . . 32

3.2.1 Definição do ponto inicial da busca . . . . . . . . . . . . . . . . . . 33

3.2.2 Procedimento da busca . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2.3 Avaliação da solução encontrada . . . . . . . . . . . . . . . . . . . . 36

3.2.4 Critério de parada . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.5 Validação da solução encontrada . . . . . . . . . . . . . . . . . . . . 38

4 Metaheurísticas 40


4.2 Algoritmos Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3 Colônia de Formigas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.4 Nuvem de Partículas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.5 Otimização Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.6 Algoritmos Genéticos Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . 62

4.7 Colônia de Formigas Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . 65

4.8 Nuvem de Partículas Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . 68

5 Trabalhos Relacionados 72


5.2 Seleção de Atributos com Algoritmos Genéticos . . . . . . . . . . . . . . . 74

Sumário viii

5.3 Seleção de Atributos com Colônia de Formigas . . . . . . . . . . . . . . . . 76

5.4 Seleção de Atributos com Nuvem de Partículas . . . . . . . . . . . . . . . . 76

5.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6 Metodologia dos Experimentos 79


6.2 Bases de Dados Utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.2.1 Image Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2.2 SCOP: Structural Classification of Proteins . . . . . . . . . . . . . 80

6.2.3 Breast Cancer Wisconsin (Diagnostic) . . . . . . . . . . . . . . . . 81

6.2.4 Gaussian3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6.2.5 Simulated6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.6 Ionosphere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.7 LIBRAS Movement . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.8 SONAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.9 SPECTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.3 A Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.3.1 Critérios de avaliação das soluções candidatas . . . . . . . . . . . . 84

6.3.1.1 Correlação Interclassificadores . . . . . . . . . . . . . . . . 85

6.3.1.2 Correlação Intraclassificadores . . . . . . . . . . . . . . . . 87

6.3.1.3 Correlação Interclassificadores + Intraclassificadores . . . 89

6.3.2 Metaheurísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.3.2.1 Algoritmo Genéticos . . . . . . . . . . . . . . . . . . . . . 89

6.3.2.2 Colônia de Formigas . . . . . . . . . . . . . . . . . . . . . 91

Sumário ix

6.3.2.3 Nuvem de Partículas . . . . . . . . . . . . . . . . . . . . . 94

6.3.2.4 Critério para escolha da melhor solução não dominada en-contrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.3.3 Seleção Aleatória dos Atributos . . . . . . . . . . . . . . . . . . . . 99

6.4 Validação da Busca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6.5 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

7 Resultados dos Experimentos 104


7.2 Resultados utilizando Nuvem de Partículas . . . . . . . . . . . . . . . . . . 106

7.3 Resultados utilizando Algoritmos Genéticos . . . . . . . . . . . . . . . . . 112

7.4 Resultados utilizando Colônia de Formigas . . . . . . . . . . . . . . . . . . 116

7.5 Conclusões da Primeira Fase da Análise . . . . . . . . . . . . . . . . . . . 120

7.6 Mono-objetivo: Minimização da Correlação Interclassificadores . . . . . . . 123

7.7 Mono-objetivo: Minimização da correlação intraclassificadores . . . . . . . 126

7.8 Biobjetivo: Minimização simultânea da correlação inter e intraclassificadores 126

7.9 Conclusões da Segunda Fase da Análise . . . . . . . . . . . . . . . . . . . . 128

7.10 Análise sobre a Interseção dos Atributos . . . . . . . . . . . . . . . . . . . 131

7.11 Conclusões da Terceira Fase da Análise . . . . . . . . . . . . . . . . . . . . 138

7.12 Análise sobre os Comitês de Classificadores . . . . . . . . . . . . . . . . . . 138

7.12.1 Métodos de Combinação . . . . . . . . . . . . . . . . . . . . . . . . 138

7.12.2 Estrutura dos Comitês . . . . . . . . . . . . . . . . . . . . . . . . . 141

7.13 Conclusões da Quarta Fase da Análise . . . . . . . . . . . . . . . . . . . . 141

8 Conclusão 144

Sumário x


8.2 Conclusões Obtidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

8.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Referências 151

Apêndice A -- Resultados dos Métodos de Combinação 164

A.1 Image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

A.2 SCOP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

A.3 Breastcancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

A.4 Gaussian3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

A.5 Ionosphere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

A.6 LIBRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

A.7 Simulated6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

A.8 Sonar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

A.9 SPECTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

xi

Lista de Figuras

2.1 Fases de aprendizagem e reconhecimento de padrões . . . . . . . . . . . . . 12

2.2 Árvore de decisão para diagnóstico de um paciente . . . . . . . . . . . . . 14

2.3 Rede neural artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Divisão dos dados de uma base em quatro folds . . . . . . . . . . . . . . . 22

2.5 Diversidade entre classificadores em um domínio H . . . . . . . . . . . . . 23

2.6 Sistemas multiclassificador modular . . . . . . . . . . . . . . . . . . . . . . 24

2.7 Sistemas multiclassificador paralelo . . . . . . . . . . . . . . . . . . . . . . 25

2.8 Exemplo do método soma em um sistema com dois classificadores traba-lhando com uma base que possui duas classes possíveis . . . . . . . . . . . 25

2.9 Exemplo do método voto em um sistema com três classificadores em umabase que possui duas classes possíveis . . . . . . . . . . . . . . . . . . . . . 26

3.1 Processo de busca por um subconjunto de atributos . . . . . . . . . . . . . 32

3.2 Exemplo de espaço de busca por subconjuntos de atributos . . . . . . . . . 33

3.3 Ordem de exploração do espaço de busca utilizando uma busca em profun-didade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4 Ordem de exploração do espaço de busca utilizando uma busca em largura 35

3.5 Modelo embbeded . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.6 Modelo baseado em filtro e wrapper . . . . . . . . . . . . . . . . . . . . . . 39

4.1 Região factível . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.2 Ótimo global x Ótimo local . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Lista de Figuras xii

4.3 Função unimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.4 Ilustração de uma roleta formada a partir dos valores de aptidão de umapopulação com cinco soluções candidatas . . . . . . . . . . . . . . . . . . . 48

4.5 Ilustração do método de torneio binário . . . . . . . . . . . . . . . . . . . . 49

4.6 Recombinação de um par de cromossomos com 2 pontos de troca . . . . . 49

4.7 Mutação de um cromossomo . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.8 Formação da trilha de feromônios . . . . . . . . . . . . . . . . . . . . . . . 52

4.9 Rotas para comida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.10 Movimento de uma partícula . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.11 Soluções não dominadas no espaço objetivo . . . . . . . . . . . . . . . . . . 61

4.12 Fluxograma do NSGAII . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.1 Ilustração do cálculo do coeficiente de correlação interclassificadores . . . . 86

6.2 Ilustração do cálculo do coeficiente de correlação intraclassificadores . . . . 88

6.3 Representação cromossômica para um comitê com três classificadores e umabase de dados com quatro atributos . . . . . . . . . . . . . . . . . . . . . . 90

6.4 Representação da formiga para um comitê com três classificadores e umabase de dados com quatro atributos . . . . . . . . . . . . . . . . . . . . . . 91

6.5 Atualização do vetor velocidade para um comitê com três classificadores euma base de dados com quatro atributos . . . . . . . . . . . . . . . . . . . 96

6.6 Atualização da posição da partícula . . . . . . . . . . . . . . . . . . . . . . 97

7.1 Ilustração de uma seleção de atributos com interseção para um comitê com3 classificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

7.2 Diferença média na acurácia do SVM e do KNN, melhor caso e pior casorespectivamente, com a seleção de atributos mono-objetivo e bibjetivo . . . 140

Lista de Figuras xiii

7.3 Diferença média na acurácia dos métodos de combinação quando passaramda versão mono-objetivo para a versão biobjetivo . . . . . . . . . . . . . . 140

xiv

Lista de Tabelas

6.1 Bases de dados utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2 Combinações dos classificadores base nos comitês . . . . . . . . . . . . . . 101

7.1 Acurácia média e desvio padrão dos sistemas com seleção de atributos feitapelo PSO mono-objetivo em suas versões para minimização da correlaçãointer e intraclassificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.2 Acurácia média e desvio padrão dos sistemas com seleção de atributos feitapelo PSO biobjetivo, para minimização simultânea das correlações inter eintraclassificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.3 Comparação dos sistemas com melhor desempenho nas versões mono-objetivoe biobjetivo do PSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

7.4 Comparação dos sistemas com melhor desempenho com seleção de atributosfeita pelo PSO e dos sistemas sem seleção de atributos . . . . . . . . . . . 111

7.5 Acurácia média e desvio padrão dos sistemas com seleção de atributos feitapelo AG mono-objetivo em suas versões para minimização da correlaçãointer e intraclassificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.6 Acurácia média e desvio padrão dos sistemas com seleção de atributos feitapelo AG biobjetivo, para minimização simultânea das correlações inter eintraclassificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

7.7 Comparação dos sistemas com melhor desempenho nas versões mono-objetivoe biobjetivo do AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

7.8 Comparação dos sistemas com melhor desempenho com seleção de atributosfeita pelo AG e os sistemas sem seleção de atributos . . . . . . . . . . . . . 117

Lista de Tabelas xv

7.9 Acurácia média e desvio padrão dos sistemas com seleção de atributos feitapelo ACO mono-objetivo em suas versões para minimização da correlaçãointer e intraclassificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

7.10 Acurácia média e desvio padrão dos sistemas com seleção de atributos feitapelo ACO biobjetivo, para minimização simultânea das correlações inter eintraclassificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

7.11 Comparação dos sistemas com melhor desempenho nas versões mono-objetivoe biobjetivo do ACO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

7.12 Comparação dos sistemas com melhor desempenho com seleção de atributosfeita pelo ACO e os sistemas sem seleção de atributos . . . . . . . . . . . . 122

7.13 Comparação dos sistemas de classificação com seleção de atributos mono-objetivo: correlação interclassificadores . . . . . . . . . . . . . . . . . . . . 124

7.14 Porcentagem dos casos em que os sistemas utilizando o PSO e o AG paraminimização da correlação interclassificadores foram estatisticamente supe-riores em relação aos sistemas utilizando os demais métodos . . . . . . . . 125

7.15 Comparação dos sistemas de classificação com seleção de atributos mono-objetivo: correlação intraclassificadores . . . . . . . . . . . . . . . . . . . . 127

7.16 Porcentagem dos casos em que os sistemas utilizando o PSO e o AG paraminimização da correlação intraclassificadores foram estatisticamente supe-riores em relação aos sistemas utilizando os demais métodos . . . . . . . . 128

7.17 Comparação dos sistemas de classificação com seleção de atributos biobjetivo129

7.18 Porcentagem dos casos em que os sistemas utilizando o PSO e o AG paraminimização simultânea das correlações inter e intraclassificadores foramestatisticamente superiores em relação aos sistemas utilizando os demaismétodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

7.19 Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos com minimização da correlação interclassificadores . 132

Lista de Tabelas xvi

7.20 Coeficiente de correlação de Pearson entre a quantidade média de atribu-tos repetidos e o erro do comitê para o caso da seleção de atributos comminimização da correlação interclassificadores . . . . . . . . . . . . . . . . 133

7.21 Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos com minimização da correlação intraclassificadores 134

7.22 Coeficiente de correlação de Pearson entre a quantidade média de atribu-tos repetidos e o erro do comitê para o caso da seleção de atributos comminimização da correlação intraclassificadores . . . . . . . . . . . . . . . . 135

7.23 Coeficiente de correlação de Pearson entre a quantidade média de atributosrepetidos e o erro do comitê para o caso da seleção de atributos biobjetivo 135

7.24 Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos biobjetivo, primeira versão . . . . . . . . . . . . . . 136

7.25 Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos biobjetivo, segunda versão . . . . . . . . . . . . . . 137

7.26 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo . . . . . . . . . . . . . . . . . . . . . 139

7.27 Acurácia média e desvio padrão dos comitês homogêneos e heterogêneos comseleção de atributos mono-objetivo e biobjetivo . . . . . . . . . . . . . . . 142

A.1 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base image . . . . . . . . . . . 164

A.2 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base SCOP . . . . . . . . . . . 165

A.3 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Breastcancer . . . . . . . 165

A.4 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Gaussian3 . . . . . . . . 166

Lista de Tabelas xvii

A.5 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Ionosphere . . . . . . . . 166

A.6 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base LIBRAS . . . . . . . . . 167

A.7 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Simulated6 . . . . . . . . 167

A.8 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Sonar . . . . . . . . . . . 168

A.9 Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base SPECTF . . . . . . . . . 168

1

Capítulo 1

Introdução

1.1 Considerações Iniciais

A seleção de atributos em um conjunto de dados tem sido assunto de pesquisa desdeos anos 70 (MUCCIARDI; GOSE, 1971) em diversas disciplinas como mineração de dados,aprendizado de máquinas e reconhecimento de padrões. Esta seleção tem como objeti-vos tradicionais retirar dados ruidosos, redundantes ou irrelevantes do conjunto de dadosque possam prejudicar o desempenho do modelo construído e encontrar um subconjuntorepresentativo dos dados que diminua sua dimensionalidade sem perda de desempenho,reduzindo assim o custo computacional (YU, 2003). Sendo assim, a aplicação tradicionalda seleção de atributos visa melhorar o desempenho e diminuir o custo computacionaldos modelos construídos com a base de dados. Com o desenvolvimento das pesquisascom comitês de classificadores na área de aprendizado de máquina e a verificação de queesse tipo de modelo possui melhor desempenho que os modelos individuais (ZHOU, 2000;BEN-YACOUB; ABDELJAOUED; MAYORAZ, 2001; LEMIEUX; PARIZEAU, 2003), dado que osclassificadores base sejam diversos, surge uma nova aplicação às pesquisas com seleção deatributos, que é a de encontrar diferentes subconjuntos de atributos para a construçãodos classificadores base de comitês de classificadores, visando promover diversidade e um

1.1 Considerações Iniciais 2

consequente aumento de sua acurácia, que é o assunto central deste trabalho.

Os comitês de classificadores são sistemas para classificação de padrões baseados nacombinação das saídas de um conjunto de diferentes classificadores, chamados nesse con-texto de classificadores base. Essa combinação tem como objetivo conseguir uma classifi-cação mais exata, com menos erros. O aumento de desempenho tende a ocorrer se foremrespeitados critérios de diversidade entre os classificadores componentes do sistema, nessecaso, a diversidade é percebida se os erros dos classificadores base não coincidem, isto é,se os classificadores base não cometem sempre os mesmos erros, nesse caso, diz-se que osclassificadores generalizam de forma diferente.

Deve-se observar que não é necessária a construção de um comitê de classificadoresse o classificador individual não comete erros. Entretanto, se o classificador comete errosserá preciso complementá-lo com outros classificadores que não cometam os mesmos erros(KUNCHEVA, 2004). Desta forma, o resultado final após a combinação de suas respostaspode ser correto. Sendo assim, a diversidade na saída dos classificadores base é um requisitovital para o sucesso de um comitê. Intuitivamente, espera-se que os classificadores base docomitê sejam tão corretos quanto possível e no caso de cometerem erros que ocorram empadrões diferentes (KUNCHEVA, 2004).

Essa diversidade pode ser promovida a partir de alguns parâmetros dos comitês declassificadores, tais como:

• Arquitetura interna dos classificadores base: A diversidade pode ser alcançada atravésdo uso de diferentes parâmetros de ajuste inicial dos algoritmos de aprendizagem.Isso permite a construção de classificadores base a partir do mesmo algoritmo deaprendizagem, mas que generalizam de forma diferente;

• Estrutura do modelo: A diversidade em um comitê de classificadores pode ser promo-vida aumentando-se a quantidade de classificadores base e a variedade dos algoritmosde aprendizagem, utilizados para construir esses classificadores;

• Dados de treinamento: A diversidade também pode ser alcançada a partir dos dadosutilizados para construir os classificadores base. Isso é feito construindo os classifica-dores base com dados diferentes, quer sejam padrões diferentes quer sejam padrões


iguais, porém com informações diferentes, ou seja, com atributos diferentes. Esseprocedimento permite que os classificadores aprendam o mesmo conceito sob visõesdiferentes, generalizando de forma diversa.

Neste último caso, existem métodos como o bagging (BREIMAN, 1996) e o boosting(SCHAPIRE et al., 1998) que são bastante utilizados para construção de comitês, onde osclassificadores base são formados a partir de padrões diferentes (QUINLAN, 1996; BAUER;

KOHAVI, 1999; DIETTERICH, 2000). É ainda nesse contexto de construção de comitês declassificadores diversos a partir dos dados de treinamento que pode-se usar a seleção deatributos. Nesse caso, a seleção de diferentes subconjuntos de atributos a partir da basede dados original para a construção dos classificadores base pode favorecer a diversidade econsequente acurácia do comitê criado. Trabalhos como os de (KUNCHEVA, 1993; OPITZ,1999; TSYMBAL; PECHENIZKIY; CUNNINGHAM, 2005a) iniciaram essa forma de lidar com aseleção de atributos em comitês de classificadores, isto é, ao invés de selecionar um únicosubconjunto de atributos para todos os componentes do comitê, visando unicamente aretirada de dados prejudiciais ao processo de aprendizagem e a redução do custo compu-tacional para a construção do modelo, vários subconjuntos de atributos são selecionados ecada classificador base é construído com um subconjunto diferente, promovendo tambémdiversidade ao comitê construído com os dados selecionados.

A seleção de atributos é intrinsecamente um problema de busca e otimização, onde oespaço de busca é o conjunto com todos os atributos disponíveis e deseja-se encontrar um oumais subconjuntos representativos dos dados que diminua sua dimensionalidade sem perdade desempenho. O problema da seleção de subconjuntos de atributos pode ser definidocomo segue. Seja X o conjunto original de atributos da base de dados, espaço de busca, comtamanho q. O objetivo do problema de seleção de subconjuntos de atributos é encontrarum conjunto X

0=

n

X01, X

02 , ..., X

0n

o

, onde n é a quantidade de classificadores base,de forma que cada subconjunto de X 0 possua tamanho q0

i

< q e X 0i

✓ X. Para isto, umafunção f(X 0) é aplicada como critério de avaliação do conjunto que deve ser maximizadaou minimizada, de acordo com o problema.

Esse critério de avaliação pode ser dependente ou independente do classificador. Exis-tem duas abordagens dependentes do classificador, uma é chamada de wrapper e utiliza a


acurácia do classificador para avaliar a solução encontrada. Na outra abordagem, chamadaembbeded, o processo de busca pelo subconjunto de atributos é realizado internamente pelopróprio algoritmo de aprendizagem. A abordagem independente do classificador é cha-mada filtro e utiliza alguma medida de importância que considera características gerais doconjunto de dados para avaliar a solução encontrada.

Em determinados problemas a estratégia de busca e otimização pode empregar ummétodo exato, que garante encontrar a solução ótima para o problema, porém tem umamodelagem matemática complexa e pode gastar um tempo proibitivo para gerar umasolução ótima, ou ainda executar um processo exaustivo ou heurístico. A busca exaustivaavalia todas as possíveis soluções do problema, no caso de seleção de atributos a buscaexaustiva deve avaliar todos os possíveis subconjuntos de atributos. Para se executar umabusca exaustiva por um subconjunto de atributos ótimo deve-se considerar todas as 2q

combinações possíveis para q atributos. O número de combinações cresce exponencialmentefazendo com que a busca exaustiva se torne impraticável para valores altos de q e atémesmo para valores moderados de q (YU, 2003). Dessa forma, a busca heurística é maisrealista que a busca exaustiva, e apesar de não garantir encontrar a solução ótima, écapaz de encontrar uma solução útil, próximo da ótima, em um tempo aceitável. Dentreos algoritmos de busca heurística, existem os algoritmos determinísticos, cujas execuçõesgeram sempre as mesmas soluções, e os algoritmos não-determinísticos ou estocásticos, quese utilizam de uma aleatoriedade que evita os mínimos locais, gerando soluções diferentesa cada execução.

Dentre os algoritmos de busca heurística estocástica generalistas, também chamadosde metaheurísticas, o mais trabalhado na área de seleção de atributos é o Algoritmo Gené-tico, com trabalhos que datam do final dos anos 80 (SIEDLECKI; SKLANSKY, 1989; YANG;

HONAVAR, 1998; KUDO; SKLANSKY, 2000; OH; LEE; MOON, 2002; FROHLICH; CHAPELLE;

SCHOLKOPF, 2003; OH; LEE; MOON, 2004; HUANG; WANG, 2006). Mais recentemente osalgoritmos de Colônia de Formigas (AL-ANI, 2005; BELLO et al., 2005; GAO; YANG; WANG,2005; SIVAGAMINATHAN; RAMAKRISHNAN, 2007; ROBBINS et al., 2007; CHIANG; CHIANG;

LIN, 2008; KANAN; FAEZ, 2008; AGHDAM; GHASEM-AGHAEE; BASIRI, 2009) e de Nuvensde Partículas (CORREA; FREITAS; JOHNSON, 2006; CHáVEZ et al., 2007; CORREA; FREITAS;

JOHNSON, 2007; SHEN et al., 2007; CORREA; FREITAS; JOHNSON, 2008; HUANG; DUN, 2008;

1.2 Motivação 5

YU et al., 2008; SHEN; MEI; YE, 2009) começaram a ser aplicados à seleção de atributos, semter sido ainda empregados no contexto de comitês de classificadores.

Esses trabalhos, em geral, utilizam uma abordagem wrapper, onde a acurácia do classi-ficador é utilizada como critério de avaliação das soluções encontradas. Essa abordagem écomumente escolhida pelo fato de obter, frequentemente, melhores resultados que a abor-dagem filtro, já que a seleção de atributos é otimizada para o algoritmo de aprendizagemutilizado. No entanto, desde que o algoritmo de aprendizagem é empregado para avaliartodo e qualquer subconjunto de atributos considerado, esse modelo tem um custo computa-cional alto, podendo-se tornar proibitivo para casos em que a base de dados contém muitosatributos. Além disso, desde que o processo de seleção de atributos é fortemente acopladoao algoritmo de aprendizagem, o modelo wrapper é menos geral que o filtro, tendo que serexecutado novamente quando se muda de um algoritmo para outro (HALL, 1999).

Dessa forma, considerando que as vantagens do modelo filtro para a seleção de atributospodem superar suas desvantagens, o presente trabalho apresenta uma abordagem baseadaem filtro para seleção de subconjuntos de atributos a fim de maximizar a diversidade decomitês de classificadores.

1.2 Motivação

Com o avanço das pesquisas sobre classificação de padrões, verificou-se que a combina-ção de um conjunto de classificadores produz melhores resultados que o uso de classificado-res individuais, desde que sejam respeitados critérios de diversidade entre os classificadorescomponentes do sistema. O uso de algoritmos de aprendizagem diferentes ou ainda deparâmetros diferentes para inicialização de algoritmos de aprendizagem iguais, além detécnicas como bagging e boosting que constroem classificadores com conjuntos de padrõesdiferentes, são formas de se prover diversidade e que são usados com frequência na cons-trução de comitês de classificadores. Outra forma de se obter diversidade em comitês declassificadores, que tem sido pesquisada de modo mais discreto, é através da seleção deatributos para construir classificadores com subconjuntos de atributos diferentes, fazendocom que os classificadores generalizem de modo diverso.

1.3 Objetivos 6

A maioria das pesquisas que envolvem seleção de subconjuntos de atributos para cons-trução de comitês de classificadores utiliza uma abordagem wrapper, onde a acurácia doclassificador é utilizada como função de ajuste do algoritmo de busca. Essa abordagemobtém bons resultados, porém é dependente do algoritmo de aprendizagem, ou seja, deveser executado novamente sempre que se desejar modificar o algoritmo, além disso, temum custo computacional alto, podendo ser proibitiva para casos em que a base de dadoscontém muitos atributos.

Sendo assim, a motivação principal deste trabalho é definir uma abordagem indepen-dente do algoritmo de aprendizagem e de baixo custo computacional que otimize a diversi-dade de comitês de classificadores. Isso será feito utilizando metaheurísticas com inspiraçãobiológica, que são algoritmos de fácil implementação, baixo custo computacional e eficientesna determinação de soluções subótimas.

1.3 Objetivos

O objetivo principal deste trabalho é otimizar comitês de classificadores, maximizandosua diversidade, através da seleção de subconjuntos de atributos diversos. Esta seleção seráfeita utilizando uma abordagem baseada em filtro, ou seja, independente do classificador,que a torna mais generalista, já que não é necessário executar novamente caso se queiramudar o algoritmo de aprendizagem, além de ter um custo computacional mais baixoque os modelos wrapper. Serão utilizados para a seleção, metaheurísticas com inspiraçãobiológica, que são algoritmos de fácil implementação, com baixo custo computacional eeficientes na determinação de soluções subótimas.

As metaheurísticas utilizadas são: Algoritmos Genéticos, Colônia de Formigas e Nu-vem de Partículas, em versões mono-objetivo e biobjetivo. Uma análise comparativa dosresultados obtidos apresenta a diferença no desempenho entre:

• Comitês sem seleção de atributos x Comitês com seleção de atributos;

• Comitês com seleção aleatória dos atributos x Comitês com seleção de atributos feitapelas metaheurísticas;

1.4 Organização do Trabalho 7

• Algoritmos Genéticos x Colônia de Formigas x Nuvem de Partículas;

• Metaheurísticas mono-objetivo x Metaheurísticas biobjetivo.

Pretende-se, ainda, determinar se existe uma relação entre a interseção de atributos nossubconjuntos selecionados e a acurácia do comitê, ou seja, determinar se a quantidade deatributos que se repetem em cada subconjunto influencia o desempenho do comitê, desdeque isso poderia torna-lo menos diverso.

Com este trabalho pretende-se contribuir com as pesquisas sobre comitês de classifi-cadores, apresentando uma ferramenta para melhorar seu desempenho, a partir da seleçãode subconjuntos diversos de atributos para construção dos classificadores base, utilizandouma abordagem baseada em filtro que permite que esta ferramenta seja generalista emrelação aos algoritmos de classificação, ou seja, a seleção feita pode ser empregada comqualquer algoritmo de aprendizagem sem a necessidade de uma nova execução, além de terum custo computacional baixo.

Os trabalhos publicados em Santana, Silva e Canuto (2009), Santana et al. (2010),Santana, Silva e Canuto (2011) apresentam parte dos resultados desta pesquisa.

1.4 Organização do Trabalho

Este trabalho está organizado do seguinte modo:

Capítulo 1: Introdução

O capítulo introdutório contextualiza este trabalho, apresentando os objetivos e motivaçãopara sua realização.

Capítulo 2: Classificação de Padrões

Este capítulo traz informações sobre a área de aprendizado de máquina, apresentandoalguns algoritmos utilizados para classificação de padrões. Aborda ainda a questão dacombinação de classificadores, apresentando alguns métodos de combinação e tratandosobre a questão da diversidade em comitês de classificadores.

Capítulo 3: Seleção de Atributos

1.4 Organização do Trabalho 8

Este capítulo aborda a seleção de atributos como um problema de busca, enfatizando ospassos básicos para a realização do processo de busca.

Capítulo 4: Metaheurísticas

Este capítulo traz informações sobre otimização e apresenta as metaheurística que sãoutilizadas neste trabalho, algoritmos genéticos, colônia de formigas e nuvem e partículas. Ocapítulo aborda ainda a questão da otimização multiobjetivo e sua implementação atravésdas metaheurísticas anteriormente tratadas.

Capítulo 5: Trabalhos Relacionados

Este capítulo apresenta uma revisão da literatura, citando trabalhos que realizaram se-leção de atributos em sistemas de classificação de padrões, enfatizando os trabalhos queutilizaram algoritmos genéticos, colônia de formigas e nuvem de partículas.

Capítulo 6: Metodologia dos Experimentos

Este capítulo trata dos detalhes da implementação e execução dos experimentos, apresentaas bases de dados, as funções de avaliação e os parâmetros utilizados pelas metaheurísticas.Apresenta ainda os métodos utilizados para validação da seleção de atributos e o testeestatístico utilizado para analisar a diferença entre os sistemas.

Capítulo 7: Resultados

Este capítulo apresenta os resultados encontrados e faz uma análise comparativa entre osmodelos implementados.

Capítulo 8: Conclusão

Este capítulo faz o fechamento do trabalho, apresentado as conclusões obtidas com osexperimentos feitos, as principais contribuições e trabalho futuros.

9

Capítulo 2

Classificação de Padrões


Entre os anos de 1943 e 1956, alguns pesquisadores deram início ao campo de pesquisahoje conhecido como Inteligência Artificial (IA), dentre os trabalhos iniciais estão as redesneurais artificiais de McCulloch e Pitts (MCCULLOCH; PITTS, 1943), a aprendizagem deHebb (HEBB, 1949) e o teste de Turing (TURING, 1950).

O objetivo das pesquisas em IA é construir sistemas computacionais que executem fun-ções de forma inteligente, utilizando conhecimento e raciocínio. Não somente manipulardados e informações a fim de resolver de forma direta uma tarefa que lhe foi programada,mas sim adquirir e manipular conhecimento, onde conhecimento é a conexão das informa-ções, um processo no qual uma informação é comparada a outra e combinada em muitasligações úteis e com significado (REZENDE, 2002). Um sistema inteligente deve, ainda, sercapaz de tomar decisões de forma independente, ou seja, sem a intervenção humana direta.

Deste modo, a IA automatiza tarefas intelectuais e isso a torna um campo universal,pois pode gerar sistemas para qualquer área do conhecimento (BITTENCOURT, 2001), comopor exemplo: engenharia elétrica (GARCIA et al., 1999); controle e automação (ALMEIDA;


FILHO; JOTA, 1998); engenharia do petróleo (DOKAISANY; VICE; HALLECK, 2000); enge-nharia de produção (MAIA et al., 2002); metalurgia (VIANA; PATARO, 1998); segurança dotrabalho (EVSUKOFF; GENTIL, 2005); ciências médicas e biológicas (COSTA, 2004); setorfinanceiro (CARVALHO et al., 2002). Como qualquer tecnologia, no entanto, as técnicas deIA devem ser aplicadas apenas em situações onde as técnicas tradicionais e diretas sãoinsuficientes.

Dentro do campo de estudo da Inteligência Artificial existe uma área responsável porfazer com que o sistema computacional adquira conhecimento, ou seja, aprenda de formaautomática, chamada Aprendizado de Máquina. Os estudos nessa área visam desenvolvertécnicas que permitam ao sistema computacional adquirir conhecimento sobre um domíniodesejado através de amostras desse domínio. Ou seja, a partir da conexão de informaçõessobre objetos conhecidos de um domínio, o sistema deve inferir conhecimento, podendo,então, tomar decisões a respeito de outros objetos ainda não conhecidos.

Diferentes algoritmos utilizando técnicas e paradigmas diversos foram desenvolvidospara captação de conhecimento em Aprendizado de Máquina. Estes diferentes algoritmospodem ser classificados como supervisionados ou não supervisionados, de acordo com oconhecimento prévio que se tem sobre as amostras do domínio estudado, chamadas deexemplos, instâncias ou padrões de treinamento, utilizadas para a construção do conheci-mento.

Sendo assim, diz-se que um algoritmo de Aprendizado de Máquina é supervisionadoquando ele recebe amostras do domínio e informações sobre o que essas amostras repre-sentam naquele domínio, enquanto que os algoritmos não supervisionados recebem apenasas amostras do domínio, sem ter nenhuma informação a priori do que essas amostras es-tão representando no domínio tratado. Uma breve explanação do funcionamento destesalgoritmos é dada a seguir:

• Um algoritmo de aprendizado supervisionado recebe usualmente como entrada umaamostra de dados x, rotulada com valores y de uma função f desconhecida, ondey = f(x). Ou seja, dado um conjunto de exemplos de treinamento x e os valores y,chamados de classes dos exemplos de treinamento, o algoritmo induz uma hipóteseh que deve aproximar a verdadeira função f . Esta hipótese h deverá ser capaz de,

2.2 Classificação de Padrões 11

dados os valores x de um novo exemplo, predizer o valor y correspondente (LEE;

MONARD; WU, 2005). No caso dos valores y pertencerem a um conjunto discreto declasses, a tarefa de aprendizado é chamada de classificação, tratada neste trabalho.Se os valores de y pertencerem a um conjunto contínuo, o aprendizado é tratadocomo regressão.

• Os algoritmos de aprendizado não supervisionados, por sua vez, recebem como en-trada apenas os valores de x, não sendo conhecidas as classes dos exemplos de treina-mento, ou seja, os valores de y. Neste caso, o indutor analisa os exemplos fornecidosagrupando-os de acordo com algum critério de semelhança, formando grupos, tam-bém chamados de clusters. A partir destes agrupamentos, o algoritmo induz umahipótese h, que deverá predizer os valores de y de novos padrões apresentados aosistema, onde y serão os clusters gerados.

Desta forma, os algoritmos de Aprendizado de Máquina adquirem conhecimento a par-tir do raciocínio indutivo, ou seja, obtém conclusões genéricas sobre um conjunto particularde exemplos através da classificação, regressão ou agrupamento dos dados.

2.2 Classificação de Padrões

Classificação de padrões é o processo de atribuição de rótulos discretos, também cha-mados de classes, a objetos, padrões ou amostras de um domínio, onde esses objetos sãodescritos por um conjunto de medidas chamadas de atributos ou características (KUN-

CHEVA, 2004).

A classificação de padrões dá-se em duas fases distintas: fase de aprendizagem e fasede reconhecimento. Na primeira, também chamada de fase de treinamento, é construídoum modelo classificador a partir de um algoritmo de aprendizagem, também chamado dealgoritmo de indução ou indutor, e de um conjunto de objetos pertencentes ao domínioque se deseja aprender. Na segunda fase do processo de classificação de padrões, fase dereconhecimento, o classificador gerado na fase de aprendizagem é aplicado sobre novosobjetos na determinação de suas classes.

2.2 Classificação de Padrões 12

Figura 2.1: Fases de aprendizagem e reconhecimento de padrões

2.3 Algoritmos de Aprendizado de Máquina: Indutores 13

Em outras palavras, o processo de classificação inicia-se com a construção dos classi-ficadores, a partir de algoritmos de aprendizado e de um conjunto de exemplos, objetospertencentes ao domínio de conhecimento que se quer aprender. Estes classificadores serãoutilizados na determinação das classes de novos exemplos, inferindo, assim, conhecimentosobre o domínio tratado, como pode ser visto na Figura 2.1.

Como dito anteriormente, diferentes algoritmos utilizando técnicas e paradigmas di-versos foram desenvolvidos para captação de conhecimento em Aprendizado de Máquina,a próxima seção apresenta alguns algoritmos pertencentes aos principais paradigmas deaprendizado para que se tenha uma visão geral da área. Os algoritmos que serão descritosforam utilizados na fase experimental deste trabalho.

2.3 Algoritmos de Aprendizado de Máquina: Indutores

Os algoritmos de aprendizagem podem pertencer a diversos paradigmas, tais como:Simbólico, Estatístico, Baseado em Exemplos e Conexionista. As próximas subseções apre-sentam algoritmos pertencentes a estes quatro paradigmas e que foram utilizados na faseexperimental deste trabalho.

2.3.1 Árvore de Decisão: Paradigma de Aprendizado Simbólico

Os sistemas de aprendizado simbólico buscam aprender construindo representaçõessimbólicas de um conceito através da análise de exemplos e contraexemplos desse conceito.A principal característica deste paradigma é que as representações obtidas são de fácil com-preensão e facilmente interpretáveis em linguagem natural. As representações simbólicasestão tipicamente na forma de alguma expressão lógica, árvore de decisão, regras ou redesemântica (MONARD; BARANAUSKA, 2002).

O algoritmo de aprendizado simbólico de árvore de decisão, por exemplo, utiliza umaestratégia de “dividir para conquistar”, isto é, ele decompõe um problema complexo emsubproblemas mais simples de forma recursiva. Essa divisão é feita utilizando os atributosda base de dados, procurando recursivamente atributos que consigam discriminar as classesdo problema.


Sendo assim, uma árvore de decisão é uma estrutura de dados definida recursivamentecomo um nó folha que corresponde a uma classe ou um nó decisão que contém umteste sobre algum atributo. Para cada resultado possível para o teste existe uma arestaque conduz a uma subárvore. A Figura 2.2 traz uma ilustração sobre isto, neste exemploexistem três nós decisão e dois nós folha, que são as classes do problema.

Figura 2.2: Árvore de decisão para diagnóstico de um paciente

A construção da árvore, fase de aprendizagem do algoritmo, pode ser entendida comosegue:

1. Escolhe-se um atributo para particionar o conjunto de exemplos da base de dados(definição do atributo para o teste de um nó decisão);

2. Estende-se a árvore adicionando um nó para cada valor possível do atributo escolhido;


3. Para cada nó:

(a) Se todos os exemplos da base que podem ser agrupados nesse nó são da mesmaclasse, associar esta classe ao nó (definição de um nó folha);

(b) Se não houver exemplos que se encaixem no valor desse nó, associar o nó a umaclasse determinada a partir de alguma outra informação, como a classe maisfrequente do nó pai (nó superior), por exemplo;

(c) Caso contrário, repetir os passos de 1 a 3 para os exemplos que ainda não foramassociados a nenhum nó folha.

Sendo assim, o ponto mais importante na construção da árvore de decisão é o critérioutilizado para escolher o atributo que deve particionar o conjunto de exemplos a cadaiteração. Existem muitos critérios na literatura e todos concordam em dois pontos:

• Uma divisão que mantém a proporção das classes em todas as partições não temutilidade, por exemplo, se um nó decisão que possui 10 exemplos de cada classe éparticionado em dois nós, cada um com 5 exemplos de cada classe, essa divisão nãotrouxe nenhum benefício na discriminação das classes do problema;

• Uma divisão cujas partições possuem todos os exemplos de uma mesma classe temutilidade máxima.

Alguns desses critérios para escolha dos atributos utilizam medidas como as citadasabaixo:

• Medidas baseadas na proporção de exemplos por classes, analisando a diferença dessaproporção entre o nó corrente e os nós descendentes. Esse tipo de medida valoriza apureza das partições;

• Medidas baseadas na proporção de exemplos por classes, analisando a diferença dessaproporção apenas entre os nós descendentes. Esse tipo de medida valoriza a dispari-dade entre as partições;

• Medidas de independência. Mede o grau de associação entre o atributo e a classe.


Já na fase de reconhecimento de uma árvore de decisão, a classificação de um padrãose inicia pela raiz da árvore, e esta árvore é percorrida até que se chegue a um nó fo-lha. Em cada nó de decisão será feito um teste que irá direcionar o padrão para umasubárvore (ABREU, 2006). Em geral, o procedimento de uma árvore de decisão na fase dereconhecimento é similar ao apresentado no Algoritmo 1.

Algoritmo 1 Fluxo básico de uma árvore de decisão na fase de reconhecimento1: Seja S uma base de dados;2: Apresente um padrão p ao nó inicial da árvore, nó raiz;3: while um nó folha não for alcançado do4: Apresente o padrão p ao próximo nó decisão da árvore;5: /* De acordo com o resultado do teste lógico usado pelo nó, a árvore ramifica-se

para um dos nós seguintes */6: end while

Alguns algoritmos de árvore de decisão utilizam uma técnica chamada Poda para me-lhorar o desempenho do classificador construído. A Poda reduz o número de nós decisão,a fim de evitar que a árvore fique superajustada (do inglês, overfitting) aos dados de trei-namento utilizados na sua construção. Os algoritmos baseados em árvore de decisão maisutilizados na literatura são:

• CART (Classification and Regression Tree) (BREIMAN, 1984): Este algoritmo podeser utilizado para classificação ou regressão dos dados, ou seja, os rótulos da classepodem ser discretos ou contínuos. Executa uma partição binária dos dados a cadaiteração, aplicando comumente o índice gini (Raileanu 2000) como critério de parti-ção;

• ID3 (Iterative Dichotomiser 3 ) (QUINLAN, 1986): Trabalha apenas com dados quepossuem valores discretos. Utiliza o cálculo da entropia, medida de desordem, paraescolher os atributos que particionarão o conjunto de dados;

• C4.5 (QUINLAN, 1993): Este algoritmo é uma evolução do ID3 que traz algumasmelhorias, como a possibilidade de trabalhar com dados discretos e contínuos; podeser aplicado a conjunto de dados com valores ausentes e pode utilizar a poda daárvore.


2.3.2 Naive Bayes: Paradigma de Aprendizado Estatístico

Esse paradigma de aprendizado utiliza modelos estatísticos para encontrar uma boaaproximação do domínio que se deseja aprender. Como regra geral, técnicas estatísticastendem a focar tarefas em que todos os atributos são contínuos ou ordinais, onde ordinaissão atributos discretos, mas ordenáveis. Muitas dessas técnicas também são paramétricas,ou seja, assumem alguma forma de modelo e buscam encontrar valores apropriados paraos parâmetros do modelo a partir dos dados. Por exemplo, um classificador linear assumeque as classes podem ser expressas como combinação linear dos valores dos atributos, eentão procura uma combinação linear particular que forneça a melhor aproximação sobreo conjunto de dados (MONARD; BARANAUSKA, 2002).

Entre os algoritmos estatísticos destaca-se o de aprendizado bayesiano, naive bayes(MITCHELL, 1997), que faz uso de fórmulas estatísticas e cálculo de probabilidades pararealizar a classificação. O classificador naive bayes possui aprendizado supervisionado ebaseia-se na aplicação do teorema de bayes, Equação (2.1), para o cálculo das probabi-lidades necessárias à classificação. Para calcular a classe mais provável de um padrão,calcula-se a probabilidade de todas as possíveis classes e, no fim, escolhe-se a classe commaior probabilidade como rótulo para o padrão que está sendo classificado.

P (h/D) =P (D/h) ⇤ P (h)

P (D)(2.1)

Onde:

P (h) é a probabilidade a priori da classe h;

P (D) é a probabilidade a priori dos dados de treinamento D;

P (h/D) é a probabilidade de h dado D (Probabilidade Condicional);

P (D/h) é a probabilidade de D dado h (Probabilidade Condicional).

O cálculo de P (D) pode ser ignorado, uma vez que é o mesmo para todas as classes.O fluxo básico do naive bayes pode ser visto na Algoritmo 2.


As principais vantagens do aprendizado estatístico, especialmente o aprendizado baye-siano, são: O fato de poder embutir nas probabilidades calculadas o conhecimento dedomínio que se tem e o fato da classificação se basear em evidências fornecidas. Por outrolado, a desvantagem reside justamente no seu caráter estatístico, ou seja, muitas probabi-lidades devem ser calculadas e isto pode ocasionar um alto custo computacional.

Algoritmo 2 Fluxo básico do Naive Bayes na fase de reconhecimentoDado uma base de dados S com P padrões, cada padrão com x atributos, podendopertencer a i classes;

2: Calcula-se a probabilidade de cada uma das classes ocorrerem, independentementedos valores dos atributos:

P (classe) = (numero de casos da classe)/(nmero total de casos);

4: for cada padrão da base de dados doCalcule a probabilidade de cada um dos atributos do padrão em relação a cadapossível classe:

6: P (atributox

/classei

) = numero de casos da classe

i

comatributo

x

numero total de casos da classe

i

Calcule a probabilidade de cada classe ocorrer dado os valores de todos os atributosque compõem o padrão:

8: P (classe/padrao) = P (atributo/classe) ⇤ P (classe)end for

2.3.3 K – Vizinhos mais Próximos: Paradigma de AprendizadoBaseado em Exemplos

Esse paradigma busca classificar exemplos nunca vistos por meio de exemplos similaresconhecidos. Esse tipo de aprendizado é também denominado lazy. Sistemas lazy necessitammanter os exemplos na memória para classificar novos exemplos.

O algoritmo k-NN, k – Nearest Neighbours (MITCHELL, 1997) ou k – vizinhos maispróximos é, juntamente com o método de Raciocínio Baseado em Casos (RBC), uma dastécnicas mais conhecidas desse paradigma.


O k-NN gera um classificador onde o aprendizado é baseado na analogia, ou seja, clas-sifica exemplos nunca vistos por meio de exemplos similares conhecidos. Para determinar aclasse de um elemento que não pertença ao conjunto de treinamento, o classificador k-NNprocura k elementos do conjunto de treinamento que estejam mais próximos deste elementodesconhecido, ou seja, que tenham a menor distância. Estes k elementos são chamados dek vizinhos mais próximos. Verifica-se quais são as classes desses k vizinhos e a classe maisfrequente será atribuída à classe do elemento desconhecido. Os vizinhos mais próximos aum padrão, em geral, são definidos em termos de distância euclidiana, Equação (2.2).

d(xi

, xj

) =q

X

(pi

� pj

)2 (2.2)

Onde,

d(xi

, xj

) é a distância entre os padrões i e j;

pi

e pj

são os atributos componentes dos padrões xi

e xj

.

2.3.4 Redes Neurais Artificiais: Paradigma de Aprendizado Co-nexionista

As redes neurais artificiais são construções matemáticas simplificadas inspiradas nomodelo biológico do sistema nervoso. A representação de uma rede neural envolve unidadesaltamente interconectadas, neurônios, e por esse motivo o nome conexionismo é utilizadopara descrever a área de estudo (MONARD; BARANAUSKA, 2002).

A Figura 2.3 ilustra uma rede neural artificial composta por três camadas de neurônios,sendo a primeira camada responsável pela entrada dos dados do padrão a ser classificado,as camadas intermediárias funcionam como extratoras de características e a última camadaresponsável pela saída da classificação. A primeira camada da rede possui tantos neurôniosquantos forem os atributos do padrão de entrada, já a quantidade de neurônios da camadade saída é igual a quantidade de classes da base de dados. A quantidade de neurônios dascamadas intermediárias é definido de forma empírica e esse parâmetro deve ser ajustadode acordo com o problema.


Figura 2.3: Rede neural artificial

Na fase de treinamento, aprendizagem, os neurônios da camada de saída competempara serem os vencedores, ou seja, sempre que é apresentado um padrão à rede neural,cada neurônio desta camada apresenta à saída da rede um valor entre 0 e 1 que indica aconfiabilidade do padrão pertencer àquela classe.

Cada neurônio possui associado a si um vetor de pesos que o interliga aos demais neurô-nios, e o aprendizado nada mais é do que modificações sucessivas nesses pesos de forma quea rede classifique as entradas corretamente. Dizemos que a rede neural aprendeu quandoela passa a reconhecer todas as entradas apresentadas durante a fase de treinamento.

Um dos algoritmos de aprendizado conexionista mais utilizados na literatura são asredes neurais MLP, Multilayer Perceptron, que são redes do tipo Percetron (ROSENBLATT,1958) que podem ter várias camadas intermediárias. O algoritmo de treinamento comu-mente utilizado nas redes neurais do tipo MLP é o backpropagation (RUMELHART; HINTON;

WILLIAMS, 1986).

Durante o treinamento com este algoritmo a rede opera em uma sequência de doispassos. Primeiro, um padrão é apresentado à camada de entrada da rede. A atividaderesultante flui através da rede, camada por camada, até que a resposta seja produzida pelacamada de saída. No segundo passo, a saída obtida é comparada à saída desejada para esse

2.4 Amostragem dos Dados 21

padrão particular. Se esta não estiver correta, o erro é calculado. O erro é propagado apartir da camada de saída até a camada de entrada, e os pesos das conexões das unidadesdas camadas internas vão sendo modificados conforme o erro é retropropagado (HAYKIN,2001).

2.4 Amostragem dos Dados

Para que se possa estimar a precisão ou o erro de um algoritmo de aprendizado de má-quina em uma determinada tarefa, faz-se necessário testar os classificadores construídos.Esse teste normalmente é feito utilizando-se amostras de dados fora do conjunto utilizadopara a construção dos classificadores. Sendo assim, é necessário que o conjunto de exemplosseja dividido pelo menos em duas partes: conjunto de treinamento, utilizado para cons-truir o classificador, e conjunto de teste, utilizado para testar o classificador construído edeterminar sua acurácia. Existe vários métodos propostos na literatura para se realizaressa divisão do conjunto de dados, um dos métodos mais simples é o holdout que divide osconjunto em uma porcentagem fixa de p exemplos para treinamento e (1 � p) para teste(MONARD; BARANAUSKA, 2002).

Porém, nem sempre a quantidade de exemplos é suficiente para tornar esse tipo dedivisão dos dados satisfatória e outros métodos buscam minimizar esse problema, comoé o caso do k-fold cross validation. Esse método é um dos mais utilizados na literaturapara realizar a amostragem dos dados em algoritmos de aprendizado de máquina. Seufuncionamento é dado como segue: Os exemplos são aleatoriamente divididos em k par-tições mutuamente exclusivas, chamadas folds, de tamanho aproximadamente igual a n/k

exemplos, onde n é a quantidade total de exemplos. O algoritmo de indução é treinadocom (k � 1) folds e testado com o fold remanescente. Esse processo é repetido k vezes,cada vez considerando um fold diferente para teste. A acurácia final é dada pela médiadas acurácias calculadas em cada um dos k folds (MONARD; BARANAUSKA, 2002). Essemétodo é comumente utilizado com k igual a 10.

A Figura 2.4 ilustra a divisão de uma base de dados em quatro folds, construindo,portanto, quatro classificadores. Como dito anteriormente, a acurácia final deste algoritmopara esta base de dados será a média das acurácias dos quatro classificadores construídos.

2.5 Combinação de Classificadores 22

Figura 2.4: Divisão dos dados de uma base em quatro folds

2.5 Combinação de Classificadores

O desempenho dos classificadores gerados no processo de aprendizagem depende dealguns fatores, como o domínio no qual está sendo aplicado o indutor, a quantidade deexemplos de treinamento e a relevância das características, atributos, desses exemplos.Esses fatores afetam de maneira diversa as hipóteses geradas por algoritmos de classifi-cação diferentes. Ou seja, as diferenças existentes entre os classificadores, diferenças nosalgoritmos utilizados em sua construção, fazem com que estes classificadores apresentemdesempenhos diferentes de acordo com alguns fatores, como quantidade de exemplos erelevância das características que compõem esses exemplos. Desta forma, alguns classifica-dores possuem bons desempenhos com poucos exemplos, enquanto outros precisam de umnúmero maior de exemplos para conseguir fazer com que o sistema adquira conhecimentode forma adequada. Assim como, alguns classificadores trabalham bem com redundânciade informação, enquanto outros não. Ou seja, em geral, todos os algoritmos de classificaçãopossuem seus pontos fortes e fracos.

Essas particularidades dos algoritmos de classificação fazem com que nenhum algoritmotenha um desempenho superior aos outros em todas as situações, seu desempenho estácondicionado aos fatores que contextualizam o problema. Devido a isso, alguns estudos(LEMIEUX; PARIZEAU, 2003; ZHOU, 2000; BEN-YACOUB; ABDELJAOUED; MAYORAZ, 2001)mostraram que é possível fazer uso de vários classificadores ao mesmo tempo, superandolimitações e combinando vantagens dos algoritmos utilizados.


Dessa forma, sistemas multiclassificadores (SMC), são sistemas para classificação depadrões baseados na combinação das saídas de um conjunto de diferentes classificadores,chamados nesse contexto de classificadores base. Essa combinação tem como objetivoconseguir uma classificação mais exata, com menos erros. O aumento de desempenho tendea ocorrer se forem respeitados critérios de diversidade entre os classificadores componentesdo sistema, nesse caso, a diversidade é percebida se os erros dos classificadores base nãocoincidem, isto é, se não cometem sempre os mesmos erros. Para ilustrar isso, Dietterich(1997) apresenta o seguinte exemplo: Dado um SMC com três classificadores h1, h2 e h3

e um novo exemplo a ser classificado, x. Se os três classificadores são idênticos, entãoquando h1(x) está errado, h2(x) e h3(x) também estarão errados. Entretanto se os errosdos classificadores não são coincidentes, então quando h1(x) está errado, h2(x) e h3(x)

podem estar certos e a combinação de suas respostas pode classificar x corretamente.

Figura 2.5: Diversidade entre classificadores em um domínio H

A Figura 2.5 ilustra a questão da diversidade entre classificadores. Nesta figura estãorepresentados três classificadores em um domínio H, sendo f a função que se deseja aproxi-mar. A diversidade está representada pela posição dos classificadores no espaço de busca.Por exemplo, a Figura 2.5(a) ilustra classificadores distantes uns dos outros, significandoque eles possuem uma diversidade significativa, facilitando a aproximação da função f ,enquanto a Figura 2.5(b) ilustra a situação inversa, na qual os classificadores se encontrambem próximos uns dos outros, indicando que eles são pouco diversos entre si. Neste caso, acombinação dos classificadores será realizada em uma pequena região do espaço de busca,aumentando a dificuldade de se obter uma boa aproximação de f , já que as decisões dosclassificadores h1, h2 e h3 serão similares. Dessa forma, quanto mais os classificadores forem


diversos entre si, maior o espaço de busca coberto, aumentando a probabilidade de obteruma boa aproximação a partir da combinação das saídas dos classificadores base.

Um sistema multiclassificador é, portanto, formado por um conjunto de classificadoresbase e uma função para combinação das saídas desses classificadores. A escolha dessafunção, ou mecanismo, nem sempre é trivial e influencia diretamente o desempenho finaldo sistema (ABREU, 2006).

De acordo com sua arquitetura interna, um sistema multiclassificador pode ser mo-dular ou paralelo. Os primeiros dividem a tarefa final do sistema em subtarefas, criandoespecialistas. Cada especialista executa uma subtarefa e o módulo combinador utiliza assoluções dessas subtarefas para determinar a saída final do sistema. A Figura 2.6 ilustraum sistema multiclassificador modular, onde S1, S2, ..., Sn

são as soluções encontradas porcada classificador.

Figura 2.6: Sistemas multiclassificador modular

Os sistemas multiclassificadores paralelos, também conhecidos como ensembles ou co-mitês, utilizam uma combinação redundante, pois todos os classificadores base executama mesma tarefa. Essa forma de combinação explora a ideia de que a diferença existenteentre os classificadores base pode extrair informações complementares sobre os exemplosa serem classificados. Este foi o tipo de sistema multiclassificador utilizado neste traba-lho. A Figura 2.7 apresenta a ideia de um sistema multiclassificador paralelo, comitê declassificadores.

Existem duas estratégias principais de combinação de classificadores: Fusão e Seleção.Na primeira, a função de combinação, combinador, utiliza a resposta de todos os classifica-


Figura 2.7: Sistemas multiclassificador paralelo

dores componentes do sistema na construção da resposta final, ou seja, a classificação finalresulta da opinião coletiva dos classificadores participantes. Pode-se citar como exemplosos seguintes métodos:

• Soma (KITTLER; ALKOOT, 2003): O método Soma é um método de combinaçãolinear das saídas dos classificadores componentes do sistema. Funciona de maneiraque quando apresentado um padrão de entrada para os classificadores, os valoresdas saídas correspondentes a cada classe de cada classificador são somados e a classevencedora é aquela que possuir o maior valor absoluto. A Figura 2.8 apresenta umexemplo para este método.

Figura 2.8: Exemplo do método soma em um sistema com dois classificadores trabalhandocom uma base que possui duas classes possíveis


• Soma Ponderada: O método da soma ponderada funciona da mesma forma que ométodo da soma, acrescentando, porém, um peso para a saída de cada classificador.Dessa forma, classificadores com maiores desempenhos segundo algum critério sãomais considerados do que outros. Esse critério pode ser a taxa de classificação corretasobre o conjunto de treinamento ou sobre um conjunto de avaliação.

• Voto (KUNCHEVA, 2004): O método do Voto é um método de combinação não-lineardas saídas dos classificadores componentes do sistema. Neste método, quando umpadrão de entrada é apresentado para os classificadores, cada um deles vota na classeque ele achar que é a correta. A classe vencedora é aquela que possuir o maior númerode votos, como pode ser visto na Figura 2.9.

Figura 2.9: Exemplo do método voto em um sistema com três classificadores em uma baseque possui duas classes possíveis

Os algoritmos de indução utilizados para a construção de classificadores base tambémpodem ser utilizados como função de combinação das saídas dos classificadores, nesse con-texto eles são chamados combinadores treináveis. Esses combinadores são assim denomi-nados pois necessitam de treinamento para aprender sobre os classificadores componentesdo sistema e assim realizar a combinação de suas saídas de forma satisfatória. Uma formade realizar o treinamento e teste dos combinadores pode ser dada como segue: A base dedados é dividida em (k + 1) folds, sendo (k � 1) folds utilizados para a construção dos

2.6 Diversidade em Comitês de Classificadores 27

classificadores base, fase de treinamento. Os dois folds remanescentes são utilizados paravalidação e teste dos classificadores base. As saídas dos classificadores base para os exem-plos de validação e teste são utilizadas para realizar o treinamento e teste do combinador,respectivamente.

Já na estratégia de combinação baseada em seleção, a resposta final do sistema é dadapelo classificador base mais capacitado para o padrão de entrada dado. Um método deseleção que tem sido bastante utilizado é o Classificador de Seleção Dinâmica (DynamicClassifier Selection – DCS) (GIACINTO; ROLI, 1999), que utiliza análise de competênciapara cada classificador, dado um padrão de entrada por ele classificado.

Essa análise de competência é dada pela proporção de acertos de cada classificador paraos k padrões mais parecidos com o padrão atual e que foram rotulados com a mesma classepelo classificador em questão. Por exemplo, dado um padrão de entrada x para classificaçãoem um sistema com dois classificadores base e um módulo combinador DCS. O classificador1 atribui x à classe A e o classificador 2 atribui x à classe B. A competência do classificador1 será a média de acertos dele para os 10 (por exemplo) padrões mais parecidos com x eque foram rotulados por ele como sendo da classe A. Para o classificador 2 será a média deacertos dele para os 10 padrões mais parecidos com x e que foram rotulados por ele comosendo da classe B.

Dessa forma, o classificador que tiver a maior proporção de padrões classificados cor-retamente é o mais competente segundo o DCS para classificar o padrão de entrada dado.

2.6 Diversidade em Comitês de Classificadores

Como já mencionado, não há nenhum ganho em comitês que são compostos por umconjunto de classificadores idênticos. A situação ideal, em termos de combinação de classi-ficadores, seria um conjunto de classificadores que apresentassem erros não correlacionados.Em outras palavras, o conjunto deve apresentar diversidade entre os membros, a fim demelhorar o desempenho dos classificadores individuais. Diversidade em sistemas de com-binação de classificadores pode ser alcançada quando os classificadores individuais sãoconstruídos de diferentes formas, como nas situações seguintes:


• Algoritmos de aprendizagem iguais com parâmetros diferentes: Nesta abordagem,a diversidade pode ser alcançada através do uso de diferentes parâmetros de ajusteinicial dos algoritmos de aprendizagem. Sendo assim, mesmo construindo um comitêhomogêneo, ou seja, um comitê formado por um mesmo tipo de classificador, pode-seobter um comitê diverso, pois os parâmetros do algoritmo de aprendizagem foraminicializados com valores diferentes, construindo, assim, modelos diferentes. Em umarede neural, por exemplo, isso significaria variar os pesos e topologia do modelo derede neural;

• Algoritmos de aprendizagem diferentes: Nesta abordagem, a diversidade pode ser al-cançada através do uso de diferentes algoritmos de aprendizagem, ou seja, diferentestipos de classificadores, são os chamados comitês heterogêneos. Por exemplo, normal-mente um comitê que é composto de rede neural e árvore decisão é mais diversificadoque um comitê composto apenas de redes neurais ou apenas de árvores decisão;

• Conjuntos de dados diferentes na construção do classificador: Nesta abordagem, adiversidade pode ser alcançada através da utilização de estratégias de aprendizagem,tais como Bagging e Boosting que selecionam conjuntos de exemplos distintos paracada classificador ou a utilização de métodos de distribuição de atributos. Dessaforma, os classificadores componentes do comitê generalizarão de forma diversa, vistoque os estímulos de entrada são distintos.

Neste trabalho todas as estratégias supracitadas foram aplicadas, tendo como focoprincipal a seleção de subconjuntos de atributos diversos para cada classificador.

Existem propostas para avaliar quantitativamente a diversidade entre classificadores eisso pode ajudar na escolha dos componentes mais diversos para a construção de um co-mitê. Porém, nenhuma dessas medidas é aceita uniformemente, pois ainda não foi provadanenhuma relação formal entre as métricas e o erro total do comitê. Segundo (KUNCHEVA,2004) as métricas podem ser divididas em dois grupos:

• Medidas com paridade: São calculadas para cada par de classificadores, sendo a di-versidade total do comitê obtida pela média dos pares. Pode-se citar como exemplos


a medida de desacordo que mede a probabilidade de dois classificadores discorda-rem de suas decisões e a medida de dupla falta que mede a probabilidade de doisclassificadores estarem errados em suas decisões;

• Medidas sem paridade: Mede a diversidade considerando todos os classificadoresjuntos, calculando diretamente um valor para o comitê. Essas métricas se baseiamem entropia ou na correlação de cada classificador com a saída média de todos osclassificadores.

Neste trabalho não foi aplicada nenhuma destas métricas de diversidade, pois comodito anteriormente, apesar de intuitiva, não foi comprovada formalmente sua eficácia.

30

Capítulo 3

Seleção de Atributos


Intuitivamente, quanto maior o número de atributos em uma base de dados, maior opoder discriminatório do classificador e a facilidade de extrair modelos de conhecimento dabase, porém, na prática isso nem sempre é verdade, por dois motivos principais. Primeiroporque muitos algoritmos de aprendizagem sofrem da maldição da dimensionalidade, ouseja, o tempo computacional do algoritmo aumenta de forma considerável e indesejávelcom o aumento no número de atributos, dificultando a construção do modelo. Segundoporque a presença de atributos ruidosos, irrelevantes ou redundantes na base de dadospode confundir o algoritmo de aprendizagem, ajudando a esconder as distribuições depequenos conjuntos de atributos realmente relevantes, prejudicando, assim, a construçãode um classificador acurado (PAPPA, 2002). Isso acontece porque nem sempre uma basede dados é construída visando uma tarefa específica, como a classificação de padrões, porexemplo, e pode, portanto, possuir atributos que não são importantes e não contribuempara tal tarefa.

Dessa forma, a seleção de atributos tem sido uma das principais tarefas de pré-processamento


dos dados para sua posterior aplicação em tarefas como mineração dos dados, aprendizadode máquina, reconhecimento de padrões, estatística, etc., tendo como principal objetivoselecionar um subconjunto de atributos relevantes dentre todos os atributos disponíveispara a tarefa proposta.

Neste ponto, a questão é definir o que é um atributo relevante. Em geral um atributoé dito relevante se ele é capaz de distinguir exemplos pertencentes a classes diferentes. Naliteratura existem várias definições formais para atributos relevantes, classificando-os comoatributos fracamente relevantes ou fortemente relevantes. Em Kohavi e John (1997) sãodefinidas duas notações para relevância:

• Relevância forte: Um atributo xi

é fortemente relevante se a sua remoção gera umadegradação no desempenho do classificador.

• Relevância fraca: Um atributo xi

é de fraca relevância se ele não for fortemente rele-vante e existir um subconjunto de atributos V em que o desempenho do classificadorusando V [ x

i

é superior ao desempenho do mesmo classificador utilizado somentesobre subconjunto V .

Existem ainda atributos que não possuem relevância fraca e nem forte, por isso,denominam-se irrelevantes e não devem ser selecionados. Essa forma de se determinara relevância dos atributos é feita sob uma avaliação individual dos atributos de uma basede dados e somente remove os atributos irrelevantes, já que espera-se que atributos re-dundantes tenham a mesma importância na discriminação das classes. Pode-se, porém,avaliar a relevância de um subconjunto de atributos como um todo, e nesse caso, retirarnão somente os atributos irrelevantes como os redundantes (HUEI, 2005). Para isso, algumamedida de avaliação deve ser adotada para determinar se um subconjunto é melhor queoutro. Várias medidas foram propostas na literatura para definir a importância dos atri-butos, quer por avaliação individual, quer por avaliação do subconjunto. Algumas dessasmedidas serão comentadas na próxima seção.

O problema de seleção de atributos é intrinsecamente um problema de busca, ondeo espaço de busca é o conjunto com todos os atributos disponíveis e deseja-se encontrarum subconjunto representativo dos dados que diminua sua dimensionalidade sem perda de

3.2 Seleção de Atributos como um Problema de Busca 32

desempenho. O problema pode ser formalmente definido como segue. Seja X o conjuntooriginal de atributos da base de dados, espaço de busca, com tamanho q. O objetivodo problema de seleção de atributos é encontrar um conjunto X 0 com tamanho q0, ondeX 0 ✓ X. Para isto, uma função f(X 0) é aplicada como critério de avaliação do subconjuntoe deve ser maximizada, como mostra a Equação (3.1). Esse critério de avaliação é a medidade importância do subconjunto de atributos e pode ser a acurácia do classificador, porexemplo.

f(X 0) = maxf(Z), ondeZ ✓ Xe |Z| = q0 (3.1)

3.2 Seleção de Atributos como um Problema de Busca

Como dito anteriormente, a tarefa de seleção de atributos pode ser descrita como umproblema de busca onde cada etapa identifica um subconjunto de atributos possíveis dentrodo espaço de busca e essa solução encontrada deve ser avaliada segundo algum critério. EmBlum e Langley (1997) foi sugerido que o processo de busca por subconjuntos de atributosdeve seguir quatro passos básicos: Definição do ponto inicial no espaço de busca; Definiçãodo procedimento da busca; Definição da estratégia de avaliação das soluções encontradase Critério de parada da busca. Podemos acrescentar aqui um quinto passo: Validação dasolução encontrada. A Figura 3.1 apresenta um gráfico com os passos básicos do processode seleção de atributos.

Figura 3.1: Processo de busca por um subconjunto de atributos


As próximas subseções apresentam cada um dos passos para a seleção de atributos.

3.2.1 Definição do ponto inicial da busca

O ponto inicial no espaço determina a direção da busca. Como mostra a Figura 3.2 abusca pode começar com uma solução vazia e ir sucessivamente adicionando os atributos(Método Forward) ou pode começar com uma solução que possua todos os atributos eir sucessivamente retirando os atributos (Método Backward). A busca pode ser tambémbidirecional, ou seja, pode-se processar simultaneamente duas buscas, uma em cada direçãoe parar quando uma das buscas encontrar a melhor solução ou quando ambas chegaremao centro do espaço de busca. A busca pode ainda iniciar com uma solução qualquer noespaço de busca.

Figura 3.2: Exemplo de espaço de busca por subconjuntos de atributos

3.2.2 Procedimento da busca

O procedimento de busca é basicamente um procedimento de geração de soluções can-didatas e determina o algoritmo a ser utilizado para a realização da seleção dos atributos.A estratégia de busca pode empregar um algoritmo exato, que garante encontrar a soluçãoótima para o problema, porém tem uma modelagem matemática complexa e pode gastarum tempo proibitivo para gerar uma solução ótima, ou pode empregar um algoritmo exaus-tivo ou heurístico. A busca exaustiva avalia todas as possíveis soluções do problema, no


caso de seleção de atributos a busca exaustiva deve avaliar todos os possíveis subconjuntosde atributos. Os algoritmos de busca exaustiva podem, por exemplo, empregar algumatécnica de busca não informada como a busca em profundidade ou a busca em largurapara definir a ordem de exploração do espaço de busca.

Figura 3.3: Ordem de exploração do espaço de busca utilizando uma busca em profundidade

Essas técnicas podem ser definidas como segue: Seja o espaço da busca pelo melhorsubconjunto de atributos de uma base de dados representado por um grafo onde cada nórepresenta uma solução para o problema, semelhante ao espaço apresentado na Figura 3.2.A busca em profundidade avalia cada solução começando da raiz, ponto inicial da busca, eexplora cada um de seus ramos até os nós não terem mais sucessores. A medida que essesnós são expandidos a busca retorna ao nó seguinte mais raso que ainda tem sucessoresinexplorados, como mostra a Figura 3.3. Já a busca em largura expande todos os nós emuma dada profundidade no espaço de busca, antes que todos os nós do nível seguinte sejamexpandidos, como mostra a Figura 3.4. Uma busca exaustiva retornará a solução dentretodas as soluções possíveis com melhor desempenho no processo de avaliação.

Obviamente, se o número de atributos é grande, a busca exaustiva é impraticável jáque existem 2n combinações possíveis para n atributos. Sendo assim, a busca heurística émais realista e apesar de não garantir encontrar a solução ótima, é capaz de encontrar umasolução útil, próximo da ótima, em um tempo aceitável. Os algoritmos de busca heurísticapodem ser determinísticos ou estocásticos, os algoritmos determinísticos retornam sempre


Figura 3.4: Ordem de exploração do espaço de busca utilizando uma busca em largura

a mesma solução em todas as execuções que sigam o mesmo critério de avaliação e parada,já os estocásticos retornam soluções diversas devido à aleatoriedade embutida no algoritmo,tendo, por isso, a vantagem de evitar mínimos locais.

Os algoritmos de busca podem trabalhar de forma sequencial, ou seja, construindouma única solução ao longo de sua execução, ou de forma paralela, analisando múltiplassoluções no processo de escolha. No primeiro caso, o espaço de busca pode ser representadopor um grafo onde cada nó é um atributo e ao longo do processo de busca o algoritmoadiciona ou remove um atributo ao conjunto selecionado, formando assim a solução final.Já no caso paralelo, o espaço de busca pode ser definido como um grafo onde cada nó éum subconjunto de atributos e o algoritmo decide se um nó é melhor ou pior que outro,seguindo um caminho por ele determinado.

Alguns dos métodos determinísticos sequenciais mais utilizados são: Busca sequencialpara frente; Busca sequencial para trás; Busca sequencial flutuante para frente e Buscasequencial flutuante para trás. O primeiro avalia inicialmente apenas subconjuntos comum atributo, selecionando o melhor deles. Esse atributo é então combinado com todos osdemais atributos disponíveis, em pares, e o melhor subconjunto de atributos é selecionado.A busca continua dessa mesma forma, sempre adicionando um atributo por vez ao melhorsubconjunto de atributos anteriormente selecionado, até que não se consiga mais melhorara qualidade do subconjunto de atributos. Já o segundo, inicia a busca com uma solução


representando todos os atributos e a cada iteração um atributo é removido da solução atualaté que não se consiga melhorar a qualidade da solução encontrada (PAPPA, 2002). Já asbuscas sequenciais flutuantes para frente e para trás executam uma quantidade l de vezeso algoritmo de busca sequencial para frente e em seguida uma quantidade m de vezes oalgoritmo de busca sequencial para trás, onde l e m são atualizados dinamicamente, sendoa primeira bottom up e a segunda top down.

Dentre os métodos determinísticos paralelos pode-se citar os algoritmos best-first ebeam first, esses algoritmos seguem sempre pelo caminho que parece o mais promissorem um dado momento, seu procedimento é dado da seguinte maneira: todas as possíveissoluções em um nível do grafo, isto é, a uma distância k do nó raiz, são avaliadas e amelhor delas é escolhida para ser expandida, ou seja, todas as soluções a partir dela queestejam um nível mais baixo na árvore de busca serão avaliadas. A busca volta a um nívelmais alto caso pareça mais promissor. O algoritmo beam search é uma versão restrita doprimeiro que limita a quantidade de soluções candidatas que serão avaliadas.

Os algoritmos de busca heurística estocásticos são aqueles que apresentam algumaaleatoriedade embutida em seu procedimento de busca que permite os saltos no espaço debusca. Dentre eles estão os Algoritmos Genéticos e Simulated Anneling. Este tópico serátratado no Capítulo 4.

3.2.3 Avaliação da solução encontrada

Sendo o subconjunto de atributos selecionado utilizado para a construção dos classi-ficadores, pode-se avaliar a solução encontrada pelo algoritmo de busca de duas maneirasdistintas:

1. Critério de avaliação independente do classificadorDe acordo com esse critério a solução encontrada pelo método de busca será avaliadade forma independente do algoritmo de classificação que será adotado a posteriori.Esse critério é identificado na literatura como modelo baseado em filtro e utilizaalguma medida de importância que considera características gerais do conjunto dedados. Algumas dessas medidas de importância são definidas a seguir, com base em


Huei (2005):

• Medidas de Informação: Determinam o ganho de informação a respeito dasclasses a partir de um atributo x, onde ganho de informação pode ser definidocomo sendo a diferença entre a incerteza a priori e a incerteza a posterioriconsiderando-se um atributo x. Sendo assim, um atributo x

i

é preferido emrelação a um atributo x

j

se o ganho de informação com o atributo xi

é maiorque o ganho de informação com o atributo x

j

. Um exemplo de medida deinformação é a entropia;

• Medidas de Distância: Para um problema de duas classes, um atributo xi

épreferido em relação a um atributo x

j

, se xi

provê uma diferença maior que xj

entre as probabilidades condicionais das duas classes. Um exemplo de medidade distância é a distância Euclidiana;

• Medidas de Correlação: Também conhecidas como medidas de dependência.Verificam o quão fortemente dois atributos estão correlacionados entre si. Umamedida de correlação clássica é o coeficiente de correlação de Pearson, utilizadonesse trabalho, que pode verificar a correlação entre um atributo e a classe ouentre dois atributos, podendo verificar, nesse caso, o grau de redundância entreos atributos.

2. Critério de avaliação dependente do classificadorExiste basicamente dois modelos que utilizam critérios de avaliação dependentes doclassificador. Esses modelos são:

• Modelo wrapper : Nesse modelo uma medida de precisão, erro ou acurácia doclassificador, é utilizada para avaliar a solução encontrada pelo método de se-leção. Apesar desse modelo apresentar normalmente um desempenho superiorem relação ao modelo baseado em filtro ele tem um custo computacional maior.

• Modelo embbeded : O processo de busca pelo subconjunto de atributos é rea-lizado internamente pelo próprio algoritmo de aprendizado, indutor, por issoo nome embbeded, embutido. O algoritmo de aprendizado simbólico de árvorede decisão é um exemplo de um método embbeded para seleção de atributos.


Esses métodos substituem gulosamente o conjunto de treinamento pelo conceitoinduzido (HUEI, 2005), como mostra a Figura 3.5, ou seja o classificador cons-truído receberá o conjunto de teste completo para validação, mas só utilizará osatributos selecionados durante o processo de sua construção.

Figura 3.5: Modelo embbeded

3.2.4 Critério de parada

O critério de parada determina quando a seleção de atributos deve ser encerrada.Alguns critérios normalmente utilizados são: número de iterações; solução para de melhorarao longo das iterações ou solução suficientemente boa, ou seja, cujo erro de classificação(para modelos wrapper) fica abaixo do erro máximo permitido para a tarefa dada.

3.2.5 Validação da solução encontrada

O resultado da seleção de atributos deve ser então validado, sendo utilizado para cons-trução dos classificadores e comparado seu resultado com o desempenho do classificadorcom todos os atributos. A Figura 3.6 apresenta o processo de seleção de atributos, dandoênfase aos processos de avaliação e de validação com modelos baseado em filtro ou wrapper.


Figura 3.6: Modelo baseado em filtro e wrapper

40

Capítulo 4

Metaheurísticas


O processo de busca pela melhor solução para um dado problema é chamado de otimiza-ção. A otimização visa minimizar ou maximizar uma função através da escolha sistemáticados valores das variáveis que compõem essa função dentro de um conjunto viável, res-peitando um conjunto de restrições do problema. Pode-se determinar que as técnicas deotimização geralmente apresentam:

• Uma função objetivo que tenta-se maximizar ou minimizar e é utilizada para avaliaras soluções encontradas;

• Um espaço de busca, onde estão todas as possíveis soluções do problema;

• Um conjunto de restrições próprias do problema tratado.

Sendo assim, dada uma função f : Rn ! R e um espaço de busca S ✓ Rn, onde Rn éo espaço real n-dimensional, o objetivo é maximizar ou minimizar f(x)/(x 2 S).


De acordo com as restrições do problema, o espaço de busca se divide em região factívele não factível, como a mostra a Figura 4.1. As soluções da região factível são aquelas quesatisfazem a todas as restrições do problema.

Figura 4.1: Região factível

Têm-se, portanto, em um problema de otimização, uma função objetivo e um conjuntode restrições, ambos relacionados às variáveis de decisão. O problema pode ser de mini-mização ou de maximização da função objetivo. A resposta para o problema, tambémchamado de ótimo global, será o menor, no caso de minimização, valor possível para afunção objetivo para o qual o valor atribuído às variáveis não viole nenhuma restrição. Emalguns casos, chega-se a valores cuja alteração discreta não conduz a resultados melhores,mas que não são também o ótimo global – esse tipo de solução é chamado de ótimo local,como mostra a Figura 4.2.

Um problema de maximização ou minimização pode ser unimodal ou multimodal, noprimeiro caso existe apenas um ponto de mínimo, no caso de minimização, no espaço debusca, ou seja, só existe uma solução para o problema, como pode ser visto na Figura4.3. O problema é multimodal quando, ao contrário do unimodal, existirem vários pontosde mínimos locais, que confundem muitos métodos de otimização, mas apenas um ótimoglobal.


Figura 4.2: Ótimo global x Ótimo local

Alguns problemas de otimização podem ser resolvidos por métodos exatos e eficientes.Outros necessitam de métodos não-exatos, métodos heurísticos, uma vez que sua formula-ção e/ou resolução exatas levariam a uma complexidade intratável, como foi discutido naSeção 3.2.

Figura 4.3: Função unimodal

Os métodos heurísticos generalistas aplicados a problemas de otimização, também cha-mados de metaheurísticas, utilizam algoritmos exploratórios para solução dos problemas.

4.2 Algoritmos Genéticos 43

As soluções são buscadas por aproximações sucessivas, avaliando-se os progressos alcança-dos, até que o problema seja resolvido. As metaheurísticas são usadas, por exemplo, nosproblemas em que a complexidade da solução do algoritmo disponível é uma função expo-nencial de algum parâmetro; quando o valor deste cresce, o problema torna-se rapidamentemais complexo.

As metaheurísticas, portanto, designam métodos computacionais que otimizam umproblema iterativamente tentando melhorar uma solução candidata em relação a uma de-terminada medida de qualidade, critério de avaliação.

Diferentes funções heurísticas podem ser usadas para reduzir o espaço de busca semcomprometer as chances de se encontrar uma solução ótima ou próxima da ótima, soluçãoútil. Algumas dessas funções heurísticas utilizam regras de busca que visam simular algunsaspectos do comportamento de seres vivos como é o caso dos algoritmos genéticos, dacolônia de formigas e da nuvem de partículas. Os conceitos gerais desses algoritmos estãodefinidos nos tópicos a seguir.

4.2 Algoritmos Genéticos

A teoria da evolução de Charles Darwin proposta em seu livro “A origem das espécies”em 1859 é intrinsicamente um mecanismo de busca e otimização, seguindo o princípio de“sobrevivência do mais apto”.

Esta teoria propõe que as plantas e animais que existem hoje são o resultado de mi-lhões de anos de adaptação às exigências do ambiente. Em dado momento, um número deorganismos diferentes podem coexistir e competir pelos mesmos recursos em um ecossis-tema, recursos como água, comida e abrigo, por exemplo. Também na mesma espécie, osindivíduos competem para atrair parceiros para reprodução. Os organismos que são maiscapazes de adquirir recursos e procriar com sucesso são aqueles cujos descendentes tendema ser numerosos no futuro. Organismos que são menos aptos, por qualquer razão, tendema ter poucos ou nenhum descendente no futuro e esta descendência reduzida faz com quea probabilidade de ter seus genes propagados ao longo de sucessivas gerações seja menor.Também pode-se notar que durante a reprodução, uma recombinação das boas característi-


cas de cada ancestral pode produzir descendentes “melhor ajustados” cuja aptidão é maiorque a dos pais por combinar características positivas de cada um dos reprodutores. Como tempo, toda a população do ecossistema tende a evoluir para conter organismos que,em média, estão mais aptos do que os de gerações anteriores da população, porque elesapresentam mais características que tendem a promover a sobrevivência (SIVANANDAM;

DEEPA, 2008).

Sendo assim, a seleção natural é apresentada como um processo de garantir a conti-nuidade de uma espécie, favorecendo os indivíduos que melhor se adaptam ao meio. Valesalientar que no caso da reprodução bissexuada as características físicas do descendentenão foram transmitidas só pelos progenitores diretos, um indivíduo bem adaptado a umafunção não terá com um alto grau de probabilidade um descendente adaptado a essa mesmafunção. Não é a adaptação que cria a evolução mas sim que a mantém, os descendentes nãogeram necessariamente outros descendentes mais aptos, mas sim uma população de des-cendentes dos quais os que apresentam melhores características de adaptação sobrevivem,é portanto a sobrevivência dos mais aptos o motor da evolução (SEIXO, 2003).

Estes princípios são abstraídos em técnicas de Computação Evolucionária através dealgoritmos evolucionários que podem ser usados para procurar as melhores soluções paraum problema. Em um algoritmo de busca, um número de soluções possíveis para um pro-blema estão disponíveis e a tarefa é encontrar a melhor solução possível em um determinadoperíodo de tempo. Para um espaço de busca com apenas um pequeno número de soluçõespossíveis, todas as soluções podem ser examinadas em uma quantidade razoável de tempoe uma solução ótima ser encontrada. Esta pesquisa exaustiva, porém, rapidamente se tornaimpraticável quando o espaço de busca cresce de tamanho (SIVANANDAM; DEEPA, 2008).

Dessa forma, os algoritmos evolucionários usam modelos computacionais dos processosnaturais de evolução como uma ferramenta para resolver problemas. Apesar de haveruma grande variedade de modelos computacionais propostos, todos eles têm em comum oconceito de simulação da evolução das espécies através de seleção, reprodução e mutação,processos estes que dependem do desempenho dos indivíduos da espécie dentro do ambiente(LINDEN, 2006).

Basicamente os algoritmos evolucionários funcionam mantendo uma população de es-


truturas que evoluem de forma semelhante à evolução das espécies. Cada indivíduo é ava-liado enquanto solução do problema em questão, e baseado nesta avaliação serão aplicadosos operadores genéticos, como reprodução e mutação, de forma a simular a sobrevivênciado mais apto. O comportamento básico dos algoritmos evolucionários, portanto, consisteem buscar dentro da atual população aquelas soluções que possuem as melhores carac-terísticas e tentar combiná-las de forma a gerar soluções ainda melhores, repetindo esteprocesso até que tenha se passado tempo suficiente ou que se tenha obtido uma soluçãosatisfatória para o problema (LINDEN, 2006).

A principal diferença entre os algoritmos tradicionais e os algoritmos evolucionáriosé que estes são baseados em população. Através da adaptação de gerações sucessivas deum grande número de indivíduos, um algoritmo evolucionário realiza uma eficiente buscadirecionada.

Em 1975, John Henry Holland em seu livro “Adaptação em sistemas naturais e artifici-ais” descreveu como aplicar os princípios da evolução natural para problemas de otimizaçãoe construiu o primeiro Algoritmo Genético, propondo um modelo heurístico computacionalque quando implementado poderia oferecer boas soluções para problemas extremamentedifíceis que eram insolúveis computacionalmente até aquela época. A teoria de Hollandfoi desenvolvida e agora os Algoritmos Genéticos apresentam-se como uma poderosa fer-ramenta para resolver problemas de busca e otimização.

Algoritmos genéticos são, portanto, métodos computacionais de otimização que tra-balham com um conjunto de soluções possíveis para um dado problema, onde cada umadessas possíveis soluções é chamada de cromossomo. Um cromossomo é uma estrutura dedados que codifica uma solução para o problema, ou seja, representa um ponto no espaçode busca. O processo de otimização usando AG visa o melhoramento dessas soluções como passar do tempo de acordo com um objetivo determinado, função objetivo, função deaptidão ou ainda critério de avaliação.

Os algoritmos genéticos empregam uma estratégia de busca paralela e estruturada,embora aleatória, direcionada à busca de pontos de alta aptidão, ou seja, pontos nosquais a função a ser minimizada ou maximizada tem valores relativamente baixos ou altos(CARVALHO; BRAGA; LUDERMIR, 2002).


Os componentes básico de um algoritmo genético são descritos a seguir:

1. Fluxo Básico

O fluxo básico são os passos que devem ser seguidos para a execução do algoritmo.O fluxo básico de um algoritmo genético simples pode ser visto no Algoritmo 3.

Algoritmo 3 Fluxo básico de um algoritmo genético simplesSeja S(t) uma população de cromossomos na geração t;t 0;

3: Inicializar S(t);Avaliar S(t);while o critério de parada não for satisfeito do

6: t t+ 1;Selecionar S(t) a partir de S(t� 1);Aplicar operadores genéticos sobre S(t);

9: Avaliar S(t);end whileRetornar melhor solução encontrada.

Os algoritmos genéticos são iterativos, a cada iteração, também chamada de geração,a população de soluções candidatas vai sendo modificada.

2. Representação Cromossômica

O primeiro passo para aplicação de um algoritmo genético a um determinado pro-blema é representar cada possível solução x no espaço de busca como uma sequênciade símbolos s gerados a partir de um dado alfabeto finito A. Nos casos mais simples,usa-se o alfabeto binário A = {0, 1}, mas de forma geral, o alfabeto depende de cadaproblema (TANOMARU, 1995).

Fazendo uma analogia com sua inspiração biológica, cada sequência de símbolos s

corresponde a um cromossomo e cada elemento de s é equivalente a um gene. Cadagene pode assumir qualquer valor do alfabeto A.

A maioria dos AG propostos na literatura usam uma população de número fixo deindivíduos, cromossomos, em que cada cromossomo também tem tamanho constante,porém isso não é uma regra, podendo variar de acordo com o problema.


3. Inicialização

Após definida a representação cromossômica, o algoritmo genético deve gerar umconjunto inicial de soluções candidatas para o problema, conhecido como populaçãoinicial. Esta população inicial pode ser definida aleatoriamente ou através de umprocesso heurístico.

Um ponto importante na definição da população inicial é que ela deve cobrir a maiorárea possível do espaço de busca, ou seja, tem que haver uma diversidade de elemen-tos.

4. Avaliação

A avaliação é responsável por verificar o desempenho da população de soluções, vi-sando um determinado objetivo. Ou seja, a avaliação verifica quão perto da soluçãoótima estão os elementos da população.

Este processo de avaliação é realizado por uma função chamada função de aptidãoou função objetivo e é definida de acordo com o problema a ser resolvido, levandoem consideração todos os fatores que são determinantes na solução do problema.

5. Seleção

Neste passo, o algoritmo genético seleciona, a partir da avaliação feita anteriormente,os indivíduos mais aptos para continuar o processo genético. Esse indivíduos sãocolocados em uma população temporária, onde são chamados de pais. Essa populaçãoserá responsável pela formação dos indivíduos da próxima geração, filhos.

Esse processo de seleção emprega funções que utilizam probabilidade para escolher osindivíduos da população temporária. Dessa forma, quanto mais apto for o indivíduo,de acordo com a avaliação feita anteriormente, maior será a probabilidade dele serescolhido para formar a próxima geração.

Alguns métodos utilizados para seleção são apresentados a seguir:

• Método da Roleta: Esse é um dos métodos mais simples e mais utilizados paraa seleção dos indivíduos da população temporária. Os indivíduos de uma ge-ração são selecionados através de um procedimento semelhante ao das roletasutilizadas em jogos de azar. Cada indivíduo é representado na roleta por uma


fatia proporcional ao valor retornado pela função de avaliação, dessa forma,os indivíduos mais aptos ocupam fatias maiores na roleta, enquanto indivíduosde aptidão mais baixa ocupam fatias menores (CARVALHO; BRAGA; LUDERMIR,2002). A Figura 4.4 ilustra uma roleta formada a partir dos valores de apti-dão de uma população com cinco soluções candidatas. Na prática, os valoresretornados pela função de avaliação de cada solução serão somados sendo umaparcela dessa soma atribuída a cada solução, de acordo com sua aptidão. Apartir daí serão sorteados números aleatórios no intervalo da roleta, selecionadoo indivíduo que contém o número sorteado em seu intervalo dentro da roleta.Esse procedimento é repetido a quantidade de vezes necessária para formar apopulação temporária.

Figura 4.4: Ilustração de uma roleta formada a partir dos valores de aptidão de umapopulação com cinco soluções candidatas

• Método do Torneio: Neste método, n indivíduos da população são escolhidosaleatoriamente, com a mesma probabilidade. O cromossomo com maior aptidãodentre estes n cromossomos é selecionado para a população temporária. Oprocesso se repete até que a população temporária seja preenchida (CARVALHO;

BRAGA; LUDERMIR, 2002). Uma das variantes deste método muito utilizada éo torneio binário, onde n = 2, como mostra a Figura 4.5.

• Elitismo: A utilização deste método permite que os n indivíduos mais aptos deuma geração sejam mantidos para a próxima geração.


Figura 4.5: Ilustração do método de torneio binário

6. Operadores Genéticos

Os operadores genéticos são responsáveis por formar os indivíduos que constituirão ageração seguinte. A partir desses operadores, os elementos da população temporária,pais, irão se modificar e criar novos elementos, possivelmente com maior adequabili-dade. Os principais operadores genético utilizados na literatura são a recombinaçãoe a mutação.

A recombinação determina a troca de fragmentos entre pares de cromossomos. Seufuncionamento é dado da seguinte maneira: dado dois elementos selecionados, escolhe-se um ou mais pontos de troca nesses elementos e os fragmentos dos cromossomosa partir do ponto selecionado serão trocados, como está ilustrado na Figura 4.6. Ométodo de recombinação utilizando um único ponto de troca é conhecido por Cru-zamento de um-ponto (single point crossover) e é uma das formas mais utilizadas.

Figura 4.6: Recombinação de um par de cromossomos com 2 pontos de troca

A recombinação, também chamada de crossover, é aplicada com uma dada proba-bilidade. Essa probabilidade, chamada de taxa de recombinação, varia entre 60%e 90%. Não ocorrendo a recombinação, os filhos serão iguais aos pais, permitindo


que algumas soluções sejam preservadas. Isso pode ser implementado gerando umnúmero aleatório no intervalo [0, 1]. Assim, a recombinação ocorrerá se o númerogerado for menor que a taxa de recombinação (LACERDA; CARVALHO, 1999).

A mutação, por sua vez, modifica o gene do cromossomo para um outro valor dentrodo alfabeto definido na representação cromossômica. Esse processo também é pro-babilístico, ou seja, trabalha com a probabilidade de um certo gene sofrer ou nãomutação.

Figura 4.7: Mutação de um cromossomo

A mutação ocorre da seguinte maneira: escolhe-se um cromossomo qualquer, consultatodos os genes do cromossomo, verificando se o mesmo deve ou não sofrer mutação,essa verificação é feita por um processo probabilístico semelhante ao processo derecombinação, ou seja gera-se um valor aleatoriamente entre 0 e 1, se o valor geradofor menor que a taxa de mutação troca-se o valor do gene, como mostra a Figura 4.7.

A mutação melhora a diversidade dos cromossomos na população, no entanto, destróiinformações contidas no mesmo. Por isso, deve ser utilizada uma taxa de mutaçãopequena, normalmente entre 0,1% e 5% (LACERDA; CARVALHO, 1999).

Alguns do operadores de mutação mais comuns são:

• Mutação por alternância de bit (bit flip mutation): Este método é muito uti-lizado em aplicações onde a codificação do cromossomo é binária, nesse caso obit é simplesmente invertido, se possuía valor 0, passa a ser 1 e vice-versa.

• Mutação uniforme: Esse método, por sua vez, é utilizado quando a codificaçãodo cromossomo não é binária, quando é real, por exemplo. Neste caso, um novovalor do alfabeto definido é designado ao gene de forma aleatória.

4.3 Colônia de Formigas 51

7. Condição de Parada

A condição de término ou condição de parada informa quando o algoritmo genéticodeve parar a sua execução. Por ser um problema de otimização, o ideal é que oalgoritmo termine quando o ponto ótimo for encontrado. Porém, na maioria doscasos, não se pode afirmar com certeza que um dado ponto corresponde a um ótimoglobal. Pode-se utilizar os seguintes critérios como condição de término:

• Número máximo de iterações;

• Tempo limite de processamento;

• Estagnação, ou seja, não ocorre mais melhorias na população de soluções doproblema.

4.3 Colônia de Formigas

A Otimização por colônia de formigas (DORIGO, 1992) emprega uma heurística cons-trutiva para procurar soluções aproximadas para problemas de otimização. Uma heurísticaconstrutiva é aquela onde as soluções são construídas elemento a elemento, seguindo algumcritério até que se tenha uma solução viável.

O modelo de otimização por colônia de formigas é inspirado no comportamento dasformigas ao saírem de sua colônia para buscar comida. Esse procedimento se dá da seguinteforma: As formigas saem em busca de alimento inicialmente de maneira aleatória, quandouma formiga encontra comida ela deixa um rastro de uma substância química chamadaferomônio no caminho de volta para a colônia. As demais formigas tendem a seguir esserastro de encontro ao alimento, reforçando-o quando voltam à colônia, este processo estáilustrado na Figura 4.8. Quando o alimento acaba, as trilhas não são remarcadas pelasformigas que voltam e o cheiro se dissipa. Novas rotas são, então, procuradas, reiniciandoo ciclo de busca.

As formigas tendem a seguir as rotas mais fortemente marcadas por feromônio, sendoassim, se duas formigas encontraram duas rotas distintas para um mesmo ponto onde existecomida, a rota mais curta terá maior probabilidade de ser seguidas pelas demais, já que


Figura 4.8: Formação da trilha de feromônios


uma formiga percorre ida e volta a rota curta no mesmo tempo que outra formiga realizaapenas o percurso de ida na rota longa. Logo, será depositado mais feromônio na rota maiscurta, o que atrairá mais formigas, como pode ser visto na Figura 4.9.

Figura 4.9: Rotas para comida

A otimização por colônia de formigas ocorre da seguinte forma: Uma população comm formigas é inicializada e cada k formiga, onde k = 1, ...,m, deve construir uma soluçãoa cada iteração. A solução representa, no contexto de colônia de formigas, o caminho entrea colônia e a comida, e cada elemento da solução representa um passo nesse caminho.

No contexto metaheurístico, pode-se entender o espaço de busca como um grafo, ondecada nó é um elemento que pode compor a solução da formiga, sendo assim, a soluçãocomeça por um elemento aleatório no espaço de busca e o próximo elemento a ser agregadoà solução da formiga depende da probabilidade de que cada elemento do espaço de buscatem de ser selecionado naquele momento. Essa probabilidade depende de uma informaçãoheurística referente ao problema tratado e da quantidade de feromônio armazenada emcada aresta que liga o último nó selecionado e os demais elementos que ainda não foramvisitados, dado que não haja repetição dos elementos em uma mesma solução.

A Equação (4.1) ilustra a probabilidade de uma formiga k escolher um elemento j desua vizinhança factível na iteração t, dado que o elemento anteriormente selecionado sejai.


P k

ij

(t) =⌧↵ij

(t) ⇤ ⌘�ij

P

x2Nk

⌧↵ix

(t) ⇤ ⌘�ix

(4.1)

Onde,

⌧ij

é o feromônio associado à aresta que liga o elemento anteriormente selecionado i aoelemento j;

⌘ij

é a informação heurística do problema aplicada à aresta que liga o elemento anterior-mente selecionado i ao elemento j;

↵ e � são parâmetros para determinar a influência do feromônio e da informação heurística;

Nk é a vizinhaça factível da formiga k.

O valor heurístico ⌘ij

depende do problema tratado, no problema do caixeiro viajante,por exemplo, seria dado por: 1/d

ij

, onde dij

seria a distância entre as cidades i e j. Noferomônio associado às arestas da solução ocorrem dois eventos:

• Evaporação: Evita que o feromônio acumulado cresça indefinidamente e permiteesquecer decisões erradas tomadas anteriormente;

• Depósito: Depósito de feromônio de todas as formigas nas arestas que compõem suassoluções.

O feromônio associado a uma aresta ij é atualizado da seguinte forma, Equação (4.2):

⌧ij

(t) = (1� p) ⇤ ⌧ij

(t� 1) +m

X

k=1

�⌧ kij

(4.2)

Onde,

(1� p) ⇤ ⌧ij

(t� 1) é a evaporação, sendo p a taxa de evaporação do feromônio, que deveestar no intervalo ]0, 1];

P

m

k=1 �⌧ kij

é o depósito de feromônio de todas as m formigas na aresta ij.

4.4 Nuvem de Partículas 55

A quantidade de feromônio depositada é definida de acordo com o problema a serresolvido, levando em consideração todos os fatores que são determinantes na solução doproblema. No problema do caixeiro viajante, por exemplo, essa medida é dada por:

�⌧ kij

=

(

Q/Lk

, se a k � esima formiga usa ij em sua solucao

0, caso contrario(4.3)

Onde, Q é uma constante e Lk

é o comprimento da viagem, dessa forma quanto maioro comprimento da viagem, menos feromônio será depositado.

O fluxo básico do algoritmo de otimização por colônia de formigas é mostrado noAlgoritmo 4:

Algoritmo 4 Fluxo básico do ACOSeja t a quantidade de iterações;Seja m a quantidade de formigas;t 0;

4: Inicializar parâmetros;Inicializar trilha de feromônio;while o critério de parada não for satisfeito do

for k = 0! m do8: Construa soluções a partir da probabilidade P ;

end forAvaliar soluções;Atualizar trilha de feromônio;

12: t t+ 1;end whileRetornar melhor solução encontrada.

4.4 Nuvem de Partículas

Otimização por nuvem de partículas (KENNEDY; EBERHART, 1995) é uma metaheurís-tica estocástica inspirada no comportamento social dos pássaros. As partículas considera-das pelo algoritmo se comportam como os pássaros à procura de alimento ou do local deseus ninhos, utilizando o aprendizado próprio e o aprendizado do bando (SICILIANO, 2007).

Esta técnica é baseada no seguinte comportamento: pássaros estão dispostos alea-


toriamente e estes estão à procura de alimento e de um local para construir seu ninho.Inicialmente os pássaros voam sem orientação prévia, eles se aglomeram em bandos atéque um consegue encontrar alimento ou o ninho e atrai os que estiverem mais próximos. Ainteligência dos pássaros é social, ou seja, o indivíduo aprende com o acerto do outro, porisso, o fato de um pássaro encontrar o ninho ou o alimento faz com que a chance dos outrospássaros também encontrarem aumente consideravelmente (SARAMAGO; PRADO, 2005).

Fazendo uma analogia, a área sobrevoada pelos pássaros é equivalente ao espaço debusca do problema e encontrar o local com comida ou o ninho corresponde a encontraro ótimo global. O algoritmo é baseado em um modelo simplificado da teoria de enxames(Swarm Theory), através da qual os pássaros ou partículas fazem uso de suas experiênciase da experiência do próprio bando para encontrarem o ninho ou o alimento (SARAMAGO;

PRADO, 2005).

O PSO, portanto, é um algoritmo que define um conjunto de possíveis soluções para oproblema determinado, chamadas de partículas. Cada partícula possui associado a si umvalor de velocidade e um valor de deslocamento. Esses valores determinam como a partículapercorre o espaço de busca a procura do ótimo global. O deslocamento é resultante daação de três vetores:

• Inércia: Impele a partícula em uma direção idêntica à que ela vinha seguindo;

• Memória: Atrai a partícula na direção do melhor ponto do espaço de busca obtidopor ela até o momento;

• Cooperação: Atrai a partícula na direção do melhor ponto do espaço de busca en-contrado até o momento pelo grupo.

A Figura 4.10 apresenta um exemplo de deslocamento de uma partícula que se encon-trava na posição x

i�1 para a posição xi

, fazendo uso dos vetores mencionados.

Para a implementação do PSO, o primeiro passo é gerar as N partículas que formarãoo grupo, “enxame”, com suas respectivas posições iniciais, podendo-se também neste mo-mento, definir velocidades iniciais para cada partícula. O algoritmo atualizará os valores


Figura 4.10: Movimento de uma partícula

de velocidade e posição até que seja atingido qualquer critério de parada, que pode ser nú-mero máximo de iterações, partícula com aptidão desejada, etc. O Algoritmo 5 apresentao fluxo básico do PSO. A velocidade de cada partícula deve ser atualizada pela Equação(4.4).

vik+1 = w ⇤ vi

k

+ c1 ⇤ (pi � xi

k

) + c2 ⇤ (ps � xi

k

) (4.4)

onde,

w é um parâmetro que representa a inércia da partícula e controla a sua capacidade deexploração do espaço de soluções. Um valor alto determina uma busca global en-quanto um valor baixo determina uma busca local. Usualmente esses valores oscilamentre 0.4 e 1.4 (SICILIANO, 2007);

vik

é a velocidade da partícula i na iteração k, velocidade atual;

c1 e c2 são os parâmetros de confiança e definem o quanto uma partícula confia em si (c1)ou no grupo (c2), são os parâmetros de memória e cooperação, respectivamente;

pi é a melhor posição encontrada pela partícula i, melhor local;

ps é a melhor posição encontrada pela nuvem de partículas, melhor global;

xi

k

é a posição da partícula i na iteração k, posição atual.


Os parâmetros de confiança, memória e cooperação, bem como o de inércia devem serajustados de acordo com o problema. Para o cálculo da posição futura de cada partículaé utilizada a Equação (4.5).

xi

k+1 = xi

k

+ vik+1 (4.5)

Onde,

xi

k+1 é a posição da partícula i na iteração k + 1

vik+1 é a velocidade da partícula defina pela Equação (4.4).

Normalmente, a inicialização da população é dada de forma aleatória, ou seja, aspartículas são dispostas aleatoriamente no espaço do projeto, cada uma possuindo umvetor de velocidade inicial também aleatório. A Equação (4.6) mostra como podem serobtidas a posição e velocidade iniciais:

(

xi

0 = xmin

+ r1 ⇤ (xmax

� xmin

)

vi0 = xmin

+ r2 ⇤ (xmax

� xmin

)(4.6)

Onde, r1 e r2 são números aleatórios entre 0 e 1, xmin

é o limite inferior do espaço debusca e x

max

o limite superior.

Algoritmo 5 Fluxo básico do PSOSeja t a quantidade de iterações;t 0;Inicializar parâmetros;Inicializar posição e velocidade;

5: while o critério de parada não for satisfeito doAvaliar solução;Escolha do melhor local e do melhor global;Atualizar velocidade e posição;t t+ 1;

10: end whileRetornar melhor solução encontrada.

4.5 Otimização Multiobjetivo 59

4.5 Otimização Multiobjetivo

Muitos problemas de tomada de decisão envolvem vários critérios, muitas vezes confli-tantes, que devem ser balanceados para se encontrar uma solução ótima. Um problema deotimização multiobjetivo trabalha com mais de uma função objetivo, ou seja, mais de umcritério, devendo minimizar ou maximizar simultaneamente essas funções, satisfazendo umconjunto de restrições.

Como esses critérios em geral são conflitantes, já que a otimização de uma funçãoobjetivo pode afetar negativamente as outras funções, não existe uma única solução queotimize cada um dos objetivos, mas sim, um conjunto de soluções eficientes no qual ne-nhuma solução é melhor que outra para todos os objetivos (ARROYO, 2002). Essas soluções,conhecidas como soluções ótimas de Pareto, podem ser consideradas ótimas, pois nãoexistem outras soluções no espaço de busca melhores que elas quando considerados todosos objetivos simultaneamente.

Em Souza (2010) é apresentado o seguinte exemplo de problema multiobjetivo: Com-prar um computador. A aquisição ótima é aquela que fornece o custo mínimo enquantomaximiza o desempenho do equipamento. Esses objetivos são conflitantes entre si, uma vezque existirão desde computadores com elevado custo e desempenho até aqueles com baixocusto e desempenho. Um computador com o mais alto desempenho pelo menor custo,embora ideal, não existe no mundo real. Assim, nenhuma solução que tenha menor custo edesempenho pode ser considerada como superior a outra com maior custo e desempenho.Contudo, dentre todas as configurações de equipamentos existem algumas que são superi-ores a outras, isto é, apresentam desempenho maior ou equivalente por um custo menorou igual. Essas configurações (soluções) que não são superadas por nenhuma outra são assoluções não dominadas, enquanto que as configurações que são superadas por pelomenos uma outra são as soluções dominadas (SOUZA, 2010).

Existem, porém, duas formas de se abordar o problema multiobjetivo, uma utilizandoo conceito de otimalidade de Pareto, anteriormente mencionado, e a outra não. Essas duasabordagens podem ser definidas como segue:

• Utilização de pesos diferentes, ou seja, definição de relevância ou grau de importância


para cada um dos objetivos. Nesse caso, as funções objetivo serão balanceadas,ponderadas, em uma única função e a otimização retornará uma única solução ótima;

• Utilização do mesmo grau de importância para as funções objetivo. Nesse caso, aotimização retornará um conjunto de soluções ótimas de Pareto, dentre as quais seráescolhida uma a posteriori.

O problema da otimização multiobjetivo ideal pode ser formalmente definido comosegue:

Dado um espaço de busca S no espaço real n-dimensional Rn

, S ✓ Rn

, o problema éencontrar uma solução x 2 S, tal que:

(

fi

(x) � fi

(y) (max) 8y 2 S

fi

(x) fi

(y) (min) 8i 2 [1, n](4.7)

Onde,

fi

2 F = {f1, f2, ..., fn}, sendo n a quantidade de objetivos.

Porém, como dito anteriormente, para a maioria dos problemas multiobjetivo não existeuma solução que seja melhor que todas as outras em todos os objetivos, por isso, o que seencontra em um problema multiobjetivo é um conjunto de soluções que não são superadaspor nenhuma outra, soluções não dominadas, que formam o conjunto de soluções ótimasde Pareto. A Figura 4.11 mostra essas soluções para um problema biobjetivo como umafronteira no espaço de objetivos, chamada fronteira de Pareto. Dessa forma:

• Uma solução x 2 S para um problema multiobjetivo é não dominada se não houvernenhuma solução y 2 S que domine x;

• Uma solução x 2 S domina outra solução y 2 S se (minimização)

8

>

>

<

>

>

:

8i, fi

(x) fi

(y) e

9i, fi

(x) < fi

(y)

(4.8)


Figura 4.11: Soluções não dominadas no espaço objetivo

4.6 Algoritmos Genéticos Multiobjetivo 62

4.6 Algoritmos Genéticos Multiobjetivo

Os algoritmos genéticos multiobjetivo tem sido estudados desde 1985, quando Schaffere Grefenstette (1985) desenvolveram o chamado Vector Evaluated Genetic Algorithms –VEGA, tido como o pioneiro dentre os algoritmos evolucionários para solução de problemasmultiobjetivo.

Schaffer modificou um algoritmo genético simples para que executasse ciclos indepen-dentes de acordo com cada objetivo. Dessa forma, considerando uma população P com N

indivíduos e k objetivos a serem otimizados, k subpopulações com N/k indivíduos são gera-das de forma aleatória a partir de P . Os indivíduos de cada subpopulação são avaliados deacordo com o objetivo correspondente, ocorrendo, então, as fases de seleção, recombinaçãoe mutação. Depois que todas as subpopulações são avaliadas e os operadores genéticosaplicados, a população é novamente integrada e o processo recomeça até atingir o critériode parada.

Atualmente existem inúmeras implementações de algoritmos genéticos multiobjetivos,como, por exemplo, o SPEA II (ZITZLER; LAUMANNS; THIELE, 2001) e o NSGA II (DEB

et al., 2000) utilizados neste trabalho. O algoritmo SPEA II, Strength Pareto EvolutionaryAlgorithm II, pode ser descrito como segue:

1. Gera uma população inicial P com tamanho fixo de forma aleatória e cria um conjuntoP 0 vazio que receberá as soluções não dominadas, esse conjunto P 0 também possuitamanho fixo;

2. Calcula a função de avaliação para as soluções de P e de P 0;

3. Copia as soluções não dominadas de P para P 0;

4. Remove as soluções de P 0 que são dominadas pelas novas soluções adicionadas;

5. Se o tamanho de P 0 exceder o tamanho especificado, um algoritmo de truncamentoserá utilizado para reduzir o tamanho do conjunto, por outro lado, se P 0 tiver tamanhoinferior ao especificado, soluções dominadas serão acrescentadas ao conjunto;

6. Para se o número máximo de gerações for alcançado;


7. Seleciona indivíduos de P + P 0, utilizando torneio binário com reamostragem;

8. Aplica os operadores de recombinação e mutação e volta para o passo 2.

A função de avaliação é calculada da seguinte forma, para cada solução i pertencenteaos conjuntos P e P 0 são calculados três valores: Strength, S

i

; Raw, Ri

e Distance, Di

. OndeSi

é a quantidade de soluções dominadas por i; Ri

é o somatório dos strenghts das soluçõesque dominam i e D

i

é uma função da distância de i para os k vizinhos mais próximos, ondek =

p

(|P |+ |P 0|). Por fim, a função de avaliação é calculada como mostra a Equação(4.9):

Fi

= Ri

+Di

(4.9)

Por sua vez, o algoritmo de truncamento ou corte remove a solução cuja distância paraseu vizinho mais próximo seja a menor possível, retirando assim, soluções muito próximas.

Já o Algoritmo NSGAII, Non-dominated Sorting Genetic Algorithm II, utiliza dois me-canismos para seleção dos indivíduos que deverão compor a nova população. O primeirodeles é o Fast Non-Dominated Sorting que divide a população temporária em diferentesníveis, chamados fronts, utilizando o critério de dominância, esse processo ocorre da se-guinte forma: inicialmente é atribuído a cada indivíduo, solução, da população temporáriaum valor que indica por quantas soluções ela é dominada. Dessa forma, se o indivíduoreceber 0 significa que essa solução não é dominada por nenhuma outra, já se um indivíduoreceber 3 significa que a solução é dominada por outras três. O próximo passo no processode classificação por não-dominância é atribuir cada um dos indivíduos da população tem-porária a um front. O primeiro front, front 1, reúne os indivíduos que não são dominadospor nenhum outro, o front 2 reúne os indivíduos que são dominados apenas por indivíduosdo front 1, e assim por diante.

O segundo mecanismo utilizado pelo NSGAII é um operador de diversidade chamadocrowding distance, distância de aglomeração, que busca garantir um maior espalhamentodas soluções ao longo da fronteira de Pareto, evitando, assim, a concentração de soluçõesem uma mesma região. Esse operador é utilizado para ordenar os indivíduos de um fronta fim de selecionar apenas os mais diversos, como apresentado na Figura 4.12. O crowding


distance utiliza como métrica a distância de cada indivíduo aos indivíduos mais próximos,seu algoritmo pode ser descrito como segue:

1. Para cada solução i, inicialize Di

= 0, onde Di

é o crowding distance de i;

2. Para cada objetivo m:

(a) Ordene as soluções de acordo com a função de avaliação para o objetivo m, f i

m

;

(b) As soluções com maior e menor valor da função de avaliação do objetivo m

recebem um valor suficientemente grande para Di

de acordo com o problema,D

i

=1;

(c) Atualize Di

das demais soluções como sendo: Di

= Di

+ (f (i+1)m

� f (i�1)m

)

Figura 4.12: Fluxograma do NSGAII

4.7 Colônia de Formigas Multiobjetivo 65

4.7 Colônia de Formigas Multiobjetivo

A otimização por colônia de formigas aplicada à problemas com múltiplos objetivos temsido trabalhada desde o final dos anos 90. Desde então muitas versões tem sido propostaspara o ACO multiobjetivo (GAMBARDELLA; TAILLARD; AGAZZI, 1999; MARIANO; MORA-

LES, 1999; DOERNER et al., 2001; IREDI; MERKLE; MIDDENDORF, 2001; GRAVEL; PRICE;

GAGNE, 2002; DOERNER et al., 2004; ALAYA; SOLNON; GHEDIRA, 2007). Essas versõesdiferem principalmente em dois pontos:

• Quantidade de trilhas de feromônio: Utilizar uma única trilha de feromônio paratodos os objetivos ou utilizar m trilhas de feromônio, uma para cada objetivo, ondem é a quantidade de objetivos;

• Quantidade de informações heurísticas: Utilizar uma única informação heurística ouutilizar m informações heurísticas, uma para cada objetivo, onde m é a quantidadede objetivos.

Além disso, deve-se definir para o caso de múltiplas trilhas de feromônio e/ou múltiplasinformações heurísticas uma forma de se combinar esses valores. Alguns trabalhos utilizamo conceito de múltiplas colônias (MARIANO; MORALES, 1999; GAMBARDELLA; TAILLARD;

AGAZZI, 1999; ALAYA; SOLNON; GHEDIRA, 2007), nesses casos, as formigas pertencentesa cada colônia, utilizam a trilha de feromônio e a informação heurística associada a suacolônia, não havendo necessidade de combinação dos valores. Outros trabalhos, porém,utilizam a ideia de uma única colônia, mas como múltiplas trilhas de feromônio e/oumúltiplas informações heurísticas, e então deve haver uma forma de se combinar os valores.Normalmente, isso é feito através de soma ponderada, produto ponderado ou de formaaleatória. Outro ponto importante é a definição de quais formigas serão utilizadas paraatualizar a trilha de feromônios, algumas possibilidades são a utilização de algumas outodas as formigas que construíram soluções não dominadas ou apenas as formigas queconstruíram as melhores soluções para cada objetivo.

O trabalho de Mariano e Morales (1999) apresenta uma abordagem do ACO multi-objetivo que utiliza m informações heurísticas, onde m é a quantidade de objetivos, mas


apenas uma trilha de feromônio. Nessa abordagem é construída uma colônia de formigaspara cada objetivo, existe, porém, uma troca de experiências entre as colônias, pois so-mente uma trilha de feromônio é utilizada. Para a atualização da trilha de feromônio sãoutilizadas todas as soluções não dominadas encontradas pelas colônias.

Em Gambardella, Taillard e Agazzi (1999) também é utilizado o conceito de múltiplascolônias, uma colônia para cada objetivo. Cada colônia possui uma informação heurística euma trilha de feromônio associada. Esta é uma abordagem biobjetivo e apenas uma soluçãoótima é encontrada, não gerando um conjunto de soluções não dominadas, isso porqueé utilizado o conceito de precedência de um objetivo sobre o outro. A melhor soluçãoencontrada a cada iteração, que minimize o objetivo mais importante, é utilizada paraatualizar as trilhas de feromônio das duas colônias, possibilitando a troca de informaçõesentre as colônias.

Em Gravel, Price e Gagne (2002), é utilizada somente uma trilha de feromônio e umainformação heurística. Esta abordagem também utiliza o conceito de ordem de importânciados objetivos, definida a priori, não gerando um conjunto de soluções não dominadas, massomente uma solução é retornada ao final da execução.

Um dos algoritmos propostos em Iredi, Merkle e Middendorf (2001), chamado de Bi-criterionAnt, utiliza duas trilhas de feromônio e duas informações heurísticas, para umproblema com dois objetivos. A combinação das trilhas de feromônio e das informaçõesheurísticas é feita por produto ponderado, onde os pesos são calculados para cada formigada colônia de forma que a primeira formiga considere somente o primeiro objetivo e a úl-tima formiga considere somente o segundo objetivo. Esse procedimento faz com que cadaformiga busque por soluções em diferentes regiões da fronteira de Pareto. As soluções nãodominadas de cada iteração são armazenadas e apenas estas podem atualizar as trilhas deferomônio.

Já em Doerner et al. (2004), é utilizada uma trilha de feromônio para cada objetivo,mas apenas uma informação heurística para todos os objetivos. A probabilidade é calcu-lada fazendo uma soma ponderada dos valores de feromônio de cada trilha. Além disso, aatualização da trilha de feromônio é feita em dois passos, primeiro é efetuada uma atualiza-ção, chamada local, em cada trilha, nas arestas utilizadas pelas formigas em suas soluções.


Ao final da iteração, é feita uma atualização, chamada global, em cada trilha, nas arestasutilizadas pelas formigas na construção das duas melhores soluções em cada objetivo.

O trabalho de Alaya, Solnon e Ghedira (2007) apresenta quatro variações do ACOmultiobjetivo comparando-as entre si e com algumas versões de Algoritmos Genéticos mul-tiobjetivo. Todas as variações utilizam m informações heurísticas, uma para cada objetivo,onde m é quantidade de objetivos. Essas informações heurísticas são sempre somadas parao cálculo da probabilidade da formiga. As quatro variações apresentadas diferem nos se-guintes pontos: quantidade de colônias e quantidade de trilhas de feromônio. As duasprimeiras variações utilizam múltiplas colônias, enquanto as duas últimas utilizam umaúnica colônia. As variações 1 e 2 apresentam uma abordagem com m + 1 colônias, ondem colônias são dedicadas a um objetivo do problema e uma colônia extra lida com todosos objetivos simultaneamente. Cada uma das m colônias dedicadas possui uma trilha deferomônio e uma informação heurística, sendo a trilha de feromônio atualizada pela me-lhor solução encontrada para o objetivo daquela colônia. As formigas da colônia extra queencontrarem as melhores soluções para cada objetivo são também utilizadas para atualizaras trilhas de feromônio das colônias dedicadas. A diferença entra a variação 1 e a variação2 se encontra no cálculo da probabilidade da colônia extra. Na variação 1 a trilha de fe-romônio utilizada pela colônia extra é escolhida aleatoriamente, enquanto que na variação2 é efetuada uma soma dos valores das trilhas de todas as colônias. Já as variações 3 e 4utilizam uma única colônia de formigas, sendo que a variação 3 utiliza uma única trilha deferomônio e permite que todas as soluções não dominadas encontradas sejam utilizadas naatualização da trilha de ferominio, enquanto a variação 4 utiliza m trilhas de feromônios,uma para cada objetivo, escolhendo aleatoriamente a trilha a ser utilizada no cálculo daprobabilidade. Essa variação utiliza a melhor solução encontrada para cada objetivo paraatualizar a trilha de feromônio correspondente ao objetivo.

O trabalho de Garcia-Martinez, Cordon e Herrera (2007), bem como Lopez-Ibanez eStutzle (2010), apresenta o estado da arte, mostrando várias abordagens propostas. OAlgoritmo 6 apresenta o fluxo básico do ACO multiobjetivo.

4.8 Nuvem de Partículas Multiobjetivo 68

Algoritmo 6 Fluxo básico do ACO MultiobjetivoSeja t a quantidade de iterações;Seja m a quantidade de formigas;t 0;Inicializar parâmetros;Inicializar trilhas de feromônio;

6: Inicializar conjunto Pareto vazio;while o critério de parada não for satisfeito do

for k = 0! m doConstrua soluções a partir da probabilidade P ;

end forAtualizar conjunto Pareto;

12: Atualizar trilha de feromônio;t t+ 1;

end whileRetornar soluções não dominadas.

4.8 Nuvem de Partículas Multiobjetivo

A otimização por nuvem de partículas aplicada à problemas multiobjetivos tambémtem sido estudada desde o final dos anos 90. Muitas abordagens foram desenvolvidas desdeentão, como (MOORE; CHAPMAN, 1999; RAY; LIEW, 2002; HU; EBERHART, 2002; COELLO;

LECHUGA, 2002; FIELDSEND; SINGH, 2002; MOSTAGHIM; TEICH, 2003). As principais ques-tões envolvidas na adaptação do PSO à problemas multiobjetivos são que na atualizaçãoda posição da partícula o melhor local deve ser uma solução não dominada encontrada pelapartícula e o melhor global deve ser uma solução não dominada encontrada pelo grupo.

Cada um dos trabalhos acima citados, entre tantos outros, utiliza uma abordagem espe-cífica para lidar com a definição de melhor local e melhor global no contexto multiobjetivo,como por exemplo:

• (MOORE; CHAPMAN, 1999): Cada partícula da nuvem mantém um repositório quearmazena todas as soluções não dominadas encontradas por ela. Sempre que a partí-cula encontra uma solução não dominada, esta é inserida no repositório e as soluçõesdo repositório que são dominadas por ela são eliminadas. Dessa forma, o melhor localde cada partícula é escolhido aleatoriamente de seu repositório local. Por sua vez,o melhor global de cada partícula é qualquer elemento de seu repositório local que


é não dominado pelas soluções das demais partículas da nuvem ou de uma vizinhaestabelecida (no caso da abordagem utilizar o conceito de vizinhança).

• (HU; EBERHART, 2002): Apresenta para um problema biobjetivo o conceito de vizi-nhança dinâmica, onde a cada iteração cada partícula encontra m partículas vizinhas.A distância entre as partículas é definida a partir dos valores da função de ajuste deum dos objetivos definido a priori, sendo assim, as m partículas vizinhas são aquelasque estiverem mais próximas a ela em relação a um objetivo. O melhor global decada partícula será a solução da partícula pertencente à sua vizinhança que tiver omelhor valor da função de ajuste para o outro objetivo do problema. Por sua vez,o melhor local é a melhor solução encontrada pela partícula até o momento. Dessaforma, o melhor local só é atualizado quando a solução corrente domina a soluçãoarmazenada como melhor local atual.

• (COELLO; LECHUGA, 2002): Nesta abordagem, mantém-se um repositório com todasas soluções não dominadas encontradas durante o processo de busca. A cada iteraçãosão inseridas as soluções não dominadas e eliminadas a soluções dominadas por elas.Esse repositório é dividido em regiões chamadas hipercubos, onde cada solução nãodominada é armazenada em um hipercubo de acordo com sua posição no espaçoobjetivo explorado. Cada hipercubo recebe um valor de classificação baseado emsua densidade, dessa forma, quanto mais denso for um hipercubo, ou seja, quantomais soluções forem armazenas em um hipercubo, menor será sua classificação. Sendoassim, o melhor global de cada partícula será definido utilizando-se o método da roletapara escolher um hipercubo e selecionando aleatoriamente uma solução pertencenteao mesmo. Os hipercubos mais densos, que por isso tem menor classificação, terãomenor probabilidade de serem escolhidos. Isso possibilita que a fronteira de Paretocubra uma maior região do espaço objetivo. O melhor local é a última soluçãonão dominada encontrada pela partícula, sendo atualizado sempre que encontra umasolução que a domina ou quando são incomparáveis.

• (ALVAREZ-BENITEZ; EVERSON; FIELDSEND, 2005): Propõe uma abordagem para se-leção do melhor global baseada exclusivamente no conceito de dominância de Pareto.Nesta abordagem é mantido um repositório com todas as soluções não dominadas


encontradas durante o processo de busca. O melhor local é sempre a última soluçãonão dominada encontrada pela partícula. Já o melhor global pode ser definido de trêsformas diferentes. Na primeira, chamada round, o melhor global de cada partículaé escolhido entre as partículas do repositório que a dominam e que dominam umaquantidade pequena de partículas da nuvem, soluções atuais. Esse método busca con-duzir a nuvem para uma região menos populosa, promovendo diversidade à fronteirade Pareto. A segunda forma de seleção do melhor global é chamada de random, eescolhe qualquer partícula do repositório que domine a solução atual da partícula. Aterceira forma de seleção, chamada prob, é uma união dos métodos anteriormentedescritos, onde a escolha do melhor global é feita selecionando qualquer elementodo repositório que domine a solução atual da partícula segundo uma probabilidade,favorecendo as soluções que dominem menos partículas da nuvem.

• (REYES-SIERRA; COELLO, 2005): Nesta abordagem, o melhor global de cada partí-cula é selecionado a partir de um repositório de soluções não dominadas por meio deum torneio binário baseado na distância de aglomeração, crowding distance, dessassoluções. A distância de aglomeração mede a quantidade de soluções próximas a cadasolução do repositório. Sendo assim, as soluções com maior distância de aglomeraçãoserão preferidas, ver Seção 4.6. O melhor local, por sua vez, é a última solução nãodominada encontrada. Esse trabalho propõe ainda a aplicação de um operador demutação na nuvem de partículas, onde a nuvem é dividida em três partes, sendo apli-cada a uma das partes um operador de mutação uniforme, cuja margem de variaçãopermitida para cada variável de decisão é mantida constante ao longo das gerações.A outra parte da nuvem é aplicado um operador de mutação não uniforme, cujamargem de variação permitida diminui ao longo das gerações. A terceira e últimaparcela da nuvem não sofre mutação.

Alguns trabalhos, como Reyes-Sierra e Coello (2006), Fieldsend (2005), fazem umlevantamento do estado da arte do PSO multiobjetivo, apresentando diversos trabalhoscom abordagens diferentes. O Algoritmo 7 mostra um pseudocódigo do PSO multiobjetivogenérico.


Algoritmo 7 Fluxo básico do PSO MultiobjetivoSeja t a quantidade de iterações;t 0;Inicializar parâmetros;Inicializar posição e velocidade;Inicializar repositórios local e global vazios;while o critério de parada não for satisfeito do

7: Avaliar solução;Atualizar repositórios local e global;Escolha do melhor local e do melhor global;Atualizar velocidade e posição;t t+ 1;

end whileRetornar soluções não dominadas (Repositório global).

72

Capítulo 5

Trabalhos Relacionados


Como dito anteriormente, as pesquisas envolvendo seleção de atributos datam dos anos70 (MUCCIARDI; GOSE, 1971) e ao longo dos anos muitos trabalhos foram publicados utili-zando seleção de atributos na área de classificação de padrões (STEARNS, 1976; KITTLER,1978; JAIN; CHANDRASEKARAN, 1982; KOHAVI; JOHN, 1997; HALL, 2000; INZA et al., 2000;XING; JORDAN; KARP, 2001; DAS, 2001; GUYON et al., 2002; YU; LIU, 2003; DASGUPTA et

al., 2007).

Em Inza et al. (2000), por exemplo, é proposto um método wrapper para seleção deatributos denominado FSS - EBNA (Feature Subset Selection by Estimation of BayesianNetwork Algorithm). Este método utiliza um algoritmo evolucionário para realizar a se-leção de atributos e avalia as soluções geradas utilizando os algoritmos de Naive Bayes eÁrvore de decisão, ID3. Já em Guyon et al. (2002) foi desenvolvido um método embeddedpara seleção de atributos baseado na Eliminação Recursiva de Atributos, RFE (Recur-sive Feature Elimination), utilizando a magnitude do vetor de pesos do Support VectorMachine, SVM, como critério de ordenação dos atributos. Por sua vez, no trabalho apre-


sentado em Yu e Liu (2003) foi proposto um método baseado em filtro que busca identificaratributos relevantes bem como redundância entre os atributos, selecionando os atributosmais correlacionados às classes e menos correlacionados entre si. Para isto, é utilizada umamedida de correlação denominada Incerteza Simétrica (Symmetrical Uncertainty) a fim deanalisar a correlação entre os atributos incluindo o atributo de classe, a classificação é feitautilizando os algoritmos Naive Bayes e Árvore de decisão, C4.5.

A seleção de subconjuntos de atributos tem sido também pesquisada na construção co-mitês de classificadores (ZENOBI; CUNNINGHAM, 2001; BRYLL; GUTIERREZ-OSUNA; QUEK,2003; TSYMBAL; PUURONEN; PATTERSON, 2003; LIU et al., 2004; TSYMBAL; PECHENIZKIY;

CUNNINGHAM, 2005b). Estes trabalhos, em geral, empregam uma abordagem wrapperque considera a acurácia dos classificadores base para guiar a busca pelos subconjuntos deatributos. Alguns deles, no entanto, utilizam também alguma medida de diversidade emconjunto com os valores de acurácia. Em Zenobi e Cunningham (2001), por exemplo, osautores comparam duas abordagens do Hill-Climbing para seleção de subconjuntos de atri-butos, uma utiliza apenas a acurácia dos classificadores base para guiar a busca e a outrautiliza a acurácia e a diversidade, onde a diversidade é medida a partir das respostas dosclassificadores base. Os trabalhos apresentados em Tsymbal, Puuronen e Patterson (2003),Tsymbal, Pechenizkiy e Cunningham (2005b) também utilizam uma função de avaliaçãoque combina acurácia e diversidade, no primeiro é utilizada uma medida de desacordo entreos pares de classificadores base para o cálculo da diversidade média do comitê e no segundooutras quatro medidas de diversidade pareadas são utilizadas.

As pesquisas sobre seleção de atributos vem melhorando algoritmos já conhecidos e de-senvolvendo novos, alguns artigos foram publicados com revisões dos trabalhos anteriores,fazendo um levantamento de metodologias e métodos utilizados na área (BLUM; LANGLEY,1997; JAIN; ZONGKER, 1997; GUYON; ELISSEEFF, 2003; LIU; YU, 2005; SAEYS; YVAN; INZA,2007).

As próximas seções apresentam alguns trabalhos que envolvem seleção de atributosutilizando Algoritmos Genéticos, Colônia de Formigas e Nuvem de Partículas aplicados àclassificação de padrões.

5.2 Seleção de Atributos com Algoritmos Genéticos 74

5.2 Seleção de Atributos com Algoritmos Genéticos

No final dos anos 80 iniciaram as pesquisas sobre o uso de algoritmos genéticos naseleção de atributos aplicada à classificação de padrões (SIEDLECKI; SKLANSKY, 1989) edesde então muitos trabalhos têm investigado o assunto (YANG; HONAVAR, 1998; KUDO;

SKLANSKY, 2000; OH; LEE; MOON, 2002; FROHLICH; CHAPELLE; SCHOLKOPF, 2003; OH;

LEE; MOON, 2004; HUANG; WANG, 2006) inclusive abordando a seleção de atributos emcomitês de classificadores (OPITZ, 1999; GUERRA-SALCEDO; WHITLEY, 1999; TSYMBAL;

PECHENIZKIY; CUNNINGHAM, 2005a), introduzido por Kuncheva (1993).

O Trabalho publicado em Oh, Lee e Moon (2004), por exemplo, desenvolveu um algo-ritmo genético híbrido, embutindo operações de busca local no algoritmo genético conven-cional. Essas operações acumulam soluções ótimas locais por todas as gerações e limitam otamanho dos subconjuntos de atributos. O algoritmo genético é aplicado em uma aborda-gem wrapper utilizando classificadores do tipo K-NN. Em Huang e Wang (2006) o algoritmogenético, também apresentado em uma abordagem wrapper, visa otimizar simultaneamentea seleção de atributos e os parâmetros do SVM. Para isto, o cromossomo é representado emduas partes distintas, a primeira com valores discretos (binários) representando os atributosselecionados e a segunda com valores contínuos (reais), contendo os valores dos parâmetrosdo SVM. As soluções são avaliadas pelo classificador SVM, buscando maximizar a acuráciacom uma quantidade mínima de atributos.

Em Opitz (1999) algoritmos genéticos são utilizados na seleção de atributos em comi-tês de classificadores. Este trabalho introduz uma noção de seleção de atributos diferentedos trabalhos anteriores (BREIMAN, 1996; MACLIN; OPITZ, 1997; SCHAPIRE et al., 1998), jáque estes selecionam um subconjunto de atributos para todos os componentes do comitê,enquanto o trabalho citado gera vários subconjuntos de atributos, onde cada classificadoré construído com um subconjunto diferente. O trabalho utiliza uma abordagem wrapper eos experimentos são feitos utilizando redes neurais com backpropagation. O autor faz umaanálise comparativa do seu algoritmo com duas técnicas populares de construção de comi-tês: Bagging e Adaboosting. O trabalho de Tsymbal, Pechenizkiy e Cunningham (2005a)apresenta uma busca sequencial baseada em algoritmos genéticos para seleção de atribu-tos em comitês de classificadores. Ao invés de manter um subconjunto de atributos para

5.2 Seleção de Atributos com Algoritmos Genéticos 75

cada classificador base em cada geração de um processo genético, o algoritmo proposto usauma série de processos genéticos, um para cada classificador base sequencialmente. Dessaforma, de uma população gerada em um processo genético, um indivíduo é selecionadopara ser o subconjunto de atributos que construirá um classificador base. O comitê utilizaBayes como classificadores base e a função de fitness é uma combinação da acurácia doclassificador e de uma medida de diversidade fail/non fail disagreement (SKALAK, 1996).

Alguns trabalhos tem sido feitos utilizando algoritmos genéticos multiobjetivo paraseleção de atributos, buscando, em sua maioria, minimizar a dimensionalidade dos dadose maximizar a acurácia (EMMANOUILIDIS; HUNTER; MACINTYRE, 2000; ISHIBUCHI, 2000;EMMANOUILIDIS et al., 2001; OLIVEIRA et al., 2002; PAPPA, 2002; MORITA et al., 2003;OLIVEIRA et al., 2003; OLIVEIRA; MORITA; SABOURIN, 2006; ZAHARIE et al., 2007; ZIO; BA-

RALDI; GOLA, 2008; DESSI; PES, 2009; ZHU; ONG; KUO, 2009; HUANG; BUCKLEY; KECHADI,2010; VENKATADRI; SRINIVASA, 2010).

Em Pappa (2002), por exemplo, o AG multiobjetivo é utilizado em uma abordagemwrapper buscando otimizar a acurácia do classificador e a quantidade de atributos, nestetrabalho é utilizado a árvore de decisão como classificador. Nesta mesma linha, o trabalhopublicado em Dessi e Pes (2009) também utiliza o AG em uma abordagem wrapper, bus-cando a otimização simultânea da acurácia do classificador e do tamanho do subconjuntode atributos, utilizando o SVM como classificador. Já em Venkatadri e Srinivasa (2010) éutilizado o algoritmo NSGA II para otimizar seis medidas baseadas em filtro, sendo umamedida de consistência, uma de dependência, três medidas diferentes de distância e umade informação. Sendo que cada experimento realizado otimiza apenas um par de medidas,resultando em 15 diferentes configurações multiobjetivo. Para a classificação dos padrõesfoi utilizado o algoritmo de árvore de decisão.

O trabalho de Oliveira, Morita e Sabourin (2006) aplica o AG multiobjetivo, utilizandoo algoritmo NSGAII, para selecionar atributos e construir comitês de classificadores. Emum primeiro momento, são selecionados atributos buscando otimizar dimensionalidade eacurácia. Em um segundo momento, são selecionados os melhores classificadores para aconstrução do comitê, otimizando acurácia e diversidade. Em Zio, Baraldi e Gola (2008)utiliza-se um AG multiobjetivo para selecionar atributos, construindo classificadores basepara o comitê de classificadores com subconjuntos de atributos diferentes. Neste trabalho,

5.3 Seleção de Atributos com Colônia de Formigas 76

o AG multiobjetivo busca otimizar três objetivos simultaneamente, que são: acurácia,diversidade das soluções e número de atributos.

5.3 Seleção de Atributos com Colônia de Formigas

Nos últimos seis anos alguns trabalhos tem sido publicados utilizando a metaheurísticaColônia de Formigas na seleção de atributos aplicada à classificação de padrões (AL-ANI,2005; BELLO et al., 2005; GAO; YANG; WANG, 2005; SIVAGAMINATHAN; RAMAKRISHNAN,2007; CHIANG; CHIANG; LIN, 2008; KANAN; FAEZ, 2008; ROBBINS et al., 2007; AGHDAM;

GHASEM-AGHAEE; BASIRI, 2009). De uma maneira geral, esses trabalhos utilizam umaabordagem wrapper e são aplicados à tarefas de classificação com utilização de classifica-dores individuais, como KNN e SVM.

O trabalho de Robbins et al. (2007), por exemplo, apresenta o ACO para seleção deatributos aplicado à dados de expressão gênica com alta dimensionalidade para classificaçãode doenças. O ACO é utilizado em uma abordagem wrapper, utilizando um modelo declassificação chamado LVM (Latent Variable Model). O trabalho apresentado em Kanane Faez (2008) aplica o ACO para seleção de atributos em um sistema de reconhecimentode faces. É realizada uma abordagem wrapper utilizando o classificador KNN. No métodoproposto a informação heurística para o ACO é o desempenho do classificador e o tamanhodos vetores de atributos. Já em Chiang, Chiang e Lin (2008) o ACO seleciona genespara classificação de câncer. É utilizada uma abordagem filtro e os genes selecionados sãopassados para classificadores MLP e SVM.

5.4 Seleção de Atributos com Nuvem de Partículas

Mais recentemente foram publicados trabalhos utilizando a metaheurística Nuvem dePartículas para selecionar atributos de bases de dados com aplicação em classificação depadrões (CORREA; FREITAS; JOHNSON, 2006; CHáVEZ et al., 2007; CORREA; FREITAS; JOHN-

SON, 2007; SHEN et al., 2007; CORREA; FREITAS; JOHNSON, 2008; HUANG; DUN, 2008; YU

et al., 2008; SHEN; MEI; YE, 2009). Esses trabalhos em geral utilizam um modelo wrapper,usando como função de fitness a acurácia do classificador. Além disso, o processo de clas-

5.4 Seleção de Atributos com Nuvem de Partículas 77

sificação de padrões desses trabalhos utilizam classificadores individuais, em sua maioriaSVM e Naive Bayes.

O trabalho apresentado em Correa, Freitas e Johnson (2008), por exemplo, mostrao PSO discreto (DPSO) aplicado à seleção de atributos para classificação de proteínas,onde as soluções encontradas por cada partícula podem ter tamanhos diferentes, sendoarmazenadas como valores inteiros e não em notação binária. O trabalho utiliza umaabordagem wrapper, avaliando o desempenho das soluções encontradas por cada partículaa partir de classificadores Naive Bayes e Redes Bayesianas. São utilizadas seis basesde dados definindo dois tipos de proteínas. O DPSO é comparado ao PSO binário e àclassificadores sem seleção de atributos.

Já o trabalho publicado em Huang e Dun (2008) apresenta o PSO aplicado conjun-tamente em suas versões discreta e contínua para simultaneamente otimizar a seleção deatributos da base de dados e os parâmetros do classificador SVM. Para isto, semelhanteao trabalho publicado em Huang e Wang (2006) com algoritmos genéticos, a partícula érepresentada em duas partes distintas, a primeira com valores discretos (binários) repre-sentando os atributos selecionados e a segunda com valores contínuos (reais), contendo osvalores dos parâmetros do SVM. As soluções são avaliadas pelo classificador SVM, bus-cando maximizar a acurácia com uma quantidade mínima de atributos.

Em Shen, Mei e Ye (2009), o PSO foi aplicado para selecionar atributos e padrões detreinamento simultaneamente na classificação de dados de expressão gênica. O trabalhoutiliza o que o autor define como PSO modificado que é a aplicação da nuvem de partículasnum espaço com variáveis discretas, utilizando uma notação binária para as soluções en-contradas pelas partículas. O desempenho de cada partícula é medida de acordo com umafunção de avaliação que utiliza a acurácia de máquinas de vetores de suporte, modelo wrap-per. Três bases de dados foram usadas para testar o algoritmo proposto, sendo comparadocom classificadores sem seleção de atributos e padrões e com o algoritmo apresentado emShen et al. (2007) que utiliza o PSO para fazer apenas seleção de atributos. Os resultadosapontam a utilidade do modelo apresentado para o problema de classificação de dados deexpressão gênica.

Em Iswandy e Koenig (2006) o PSO em sua versão multiobjetivo é utilizado em uma

5.5 Considerações Finais 78

abordagem filtro para otimizar três medidas, chamadas pelo autor de medida de sobrepo-sição e medidas de distância intra-classe e inter-classe. O trabalho utiliza o KNN comoclassificador de padrões.

5.5 Considerações Finais

De acordo com o levantamento feito, verificou-se que a maioria dos trabalhos envol-vendo seleção de atributos aplicados à classificação de padrões utiliza uma abordagemwrapper e modelos individuais para realização da classificação.

Existem alguns trabalhos envolvendo seleção de atributos para comitês de classificado-res usando algoritmos genéticos em abordagens wrapper, já utilizando colônia de formigase nuvem de partículas não foi encontrado.

De modo geral, não foi encontrado neste levantamento, nenhuma abordagem baseadaem filtro para seleção de atributos em comitês de classificadores utilizando as metaheurís-ticas Algoritmos genéticos, Colônia de formigas e Nuvem de partículas.

79

Capítulo 6

Metodologia dos Experimentos


Este capitulo apresenta os procedimentos adotados para a realização dos experimentose está organizado da seguinte forma: Bases de dados utilizadas; A seleção de atributos; Avalidação da busca e Testes estatísticos. Na Seção 6.2 as bases utilizadas neste trabalhosão apresentadas, a Seção 6.3 apresenta os detalhes de implementação das metaheurísticasutilizadas, incluindo as funções de avaliação, a Seção 6.4, por sua vez, trata da fase devalidação do processo de seleção dos atributos, apresentando os algoritmos de aprendizadode máquina utilizados para a classificação dos padrões, e finalizando o capítulo, a Seção6.5 trata dos testes estatísticos que foram feitos para embasar os resultados encontrados.

6.2 Bases de Dados Utilizadas

A fase experimental deste trabalho foi realizada com nove bases de dados para clas-sificação de padrões. As bases de dados utilizadas foram pré-processadas para que seusatributos fossem todos valores reais normalizados para o intervalo [0, 1]. O desbalancea-

6.2 Bases de Dados Utilizadas 80

mento não foi tratado para que diferentes ambientes de classificação fossem testados. Asbases são descritas nas próximas subseções e um resumo de suas características é mostradona Tabela 6.1.

6.2.1 Image Segmentation

A segmentação de imagem se refere ao processo de dividir uma imagem digital em múl-tiplas regiões, conjunto de pixels, com o objetivo de simplificar e/ou mudar a representaçãode uma imagem para facilitar a sua análise. Segmentação de imagens é tipicamente usadapara localizar objetos e formas (linhas, curvas, etc.) em imagens (WIKIPéDIA, 2011).

Dessa forma, o resultado da segmentação de imagens é um conjunto de regiões, ondecada um dos pixels em uma mesma região é similar com referência a alguma caracterís-tica ou propriedade computacional, tais como cor, intensidade, textura ou continuidade.Regiões adjacentes devem possuir diferenças significativas com respeito a mesma caracte-rística.

A base Image Segmentation (FRANK; ASUNCION, 2010) foi criada pelo Vision Groupda Universidade de Massachusetts. Para a construção desta base foram escolhidas alea-toriamente 7 imagens em uma base de dados, essas imagens foram segmentadas em 330regiões de 3x3 pixels cada. Cada uma dessas regiões define um padrão, onde a classe é aimagem original e os atributos são valores que caracterizam a região, como a coluna e alinha do pixel central; a medida do excesso de vermelho (R), verde (G) e azul (B); entreoutros. Sendo assim, a base é constituída por 2310 padrões, 18 atributos e 7 classes.

6.2.2 SCOP: Structural Classification of Proteins

Quase todas as proteínas têm semelhanças estruturais com outras proteínas e, emalguns desses casos, partilham uma origem evolutiva comum. A base de dados SCOP(MURZIN et al., 1995), criada por inspeção manual e auxiliado por uma bateria de méto-dos automatizados, visa proporcionar uma descrição detalhada e abrangente das relaçõesestruturais e evolutivas entre todas as proteínas cuja estrutura é conhecida. Como tal,oferece um amplo levantamento de todas as dobras de proteínas conhecidas, informações


detalhadas sobre os parentes próximos de qualquer proteína particular, e um quadro paraa investigação futura e classificação.

A base de SCOP utiliza quatro níveis de classificação estrutural hierárquica, que indicao nível de relação entre as proteínas, são elas: classe, dobra, superfamília e família. A versãoutilizada neste trabalho abrange apenas o nível classe, possuindo 584 padrões distribuídosde forma desbalanceada entre as cinco principais classes de proteínas abarcadas: all � ↵,all��, ↵+�, ↵/� e small. Nesta base existem 126 atributos que representam as sequênciasde aminoácidos que formam as proteínas. Esses atributos, que eram nominais, foramtransformados em valores numéricos.

6.2.3 Breast Cancer Wisconsin (Diagnostic)

A base Breast Cancer (FRANK; ASUNCION, 2010) foi obtida de hospitais da Universi-dade de Wisconsin, esta base contém dados sobre diagnósticos de câncer de mama. Háum total de 569 padrões, distribuídos em duas classes: benigno e maligno. Esses padrõesforam extraídos de imagens digitalizadas da massa do seio, descrevendo as característicasdo núcleo celular presente na imagem. Cada padrão é composto por 30 atributos, cujosvalores são números reais.

6.2.4 Gaussian3

A tecnologia de microarray na biologia molecular permite analisar um grande volumede dados simultaneamente, sendo uma técnica poderosa na análise prévia da composiçãogenômica de determinado organismo ou para traçar um perfil da expressão gênica destegenoma em determinado momento (MAYER, 2009).

Para testar algoritmos de aprendizado de máquina aplicados à agrupamento e clas-sificação de dados de microarray foram criadas em (MONTI et al., 2003) algumas basesgenéticas artificiais que simulam esses dados, como a Gaussian3 e a Simulated6, usadasnesses trabalho.

A base gaussian3 possui 600 atributos, 60 padrões (genes) e 3 classes (0, 1 e 2),sendo todos os atributos numéricos. Vale salientar que a quantidade de padrões é dividida


igualmente para cada classe, ou seja, existem 20 padrões para cada classe.

6.2.5 Simulated6

A base simulated6 (MONTI et al., 2003) ao contrário da base gaussian3 é desbalanceada,possuindo 8, 12, 10, 15, 5 e 10 padrões em cada uma de suas 6 classes, tendo um total de60 padrões e 600 atributos.

6.2.6 Ionosphere

A base ionosphere (FRANK; ASUNCION, 2010) foi construída a partir de um sistema de16 antenas de alta frequência que é usada para investigar as propriedades da ionosfera. Abase é formada por 351 padrões que representam sinais eletromagnéticos caracterizados porum conjunto de 17 pulsações cada uma com dois atributos, tendo um total de 34 atributos.Esses sinais são classificados em positivos e negativos, sendo os primeiros aqueles refletidospor elétrons livres na ionosfera e que levam informações úteis sobre a estrutura da mesma.Já os sinais negativos são aqueles que passam pela ionosfera sem reflexão.

6.2.7 LIBRAS Movement

A base LIBRAS (FRANK; ASUNCION, 2010) possui 360 padrões que representam movi-mentos da mão na Língua Brasileira de Sinais – LIBRAS. São ao todo 15 movimentos damão e 90 atributos numéricos para determinar cada movimento.

6.2.8 SONAR

Esta base de dados foi construída com dados coletados por um sistema de SONAR(Sound Navigation and Ranging) para classificar dois tipos de objetos: cilindros de metal epedras cilíndricas de tamanho comparável (FRANK; ASUNCION, 2010). A base contém 208padrões, sendo 111 representando pedras e 97 representando cilindros e são definidos por60 atributos, onde cada atributo representa a energia dentro de uma faixa de frequênciaparticular integrada ao longo de um determinado período de tempo.

6.3 A Seleção de Atributos 83

6.2.9 SPECTF

A base SPECTF (FRANK; ASUNCION, 2010) descreve o diagnóstico de insuficiênciacardíaca através de imagens de tomografia computadorizada por emissão de fóton único– SPECT (Single Proton Emission Computed Tomography). A base contém 267 padrõesque resumem as características das imagens originais de SPECT em 44 atributos. Cadapadrão pode ser classificado como normal ou anormal.

Tabela 6.1: Bases de dados utilizadas

Bases de Dados Qtd de Padrões Qtd de Atributos Qtd de ClassesImage 2310 18 7SCOP 584 126 5

Breast Cancer 569 30 2Gaussian3 60 600 3Simulated6 60 600 6Ionosphere 351 34 2LIBRAS 360 90 15Sonar 208 60 2

SPECTF 267 44 2

6.3 A Seleção de Atributos

Diferente de outros trabalhos, ver Capítulo 5, que selecionam um único subconjuntode atributos dentre todos os atributos da base de dados original para construir os classi-ficadores do sistema, este trabalho seleciona M subconjuntos de atributos, um para cadaclassificador base componente do comitê. Dessa forma, uma solução candidata é um con-junto com tamanho M x N , onde M é a quantidade de classificadores do comitê e N é aquantidade de atributos selecionados para cada classificador, sendo N menor que a quan-tidade total de atributos da base original, podendo, ainda, ter tamanhos diferentes paracada classificador. Os detalhes sobre a quantidade de atributos selecionados para cadaclassificador serão abordados nas próximas subseções.

Antes de detalhar os procedimentos adotados para realizar a seleção dos atributos,


serão apresentados os critérios de avaliação utilizados para avaliar as soluções candidatasencontradas pelas metaheurísticas.

6.3.1 Critérios de avaliação das soluções candidatas

Nesse trabalho, foram adotados três critérios de avaliação baseados em filtro, ou seja,independentes do algoritmo de classificação que será aplicado a posteriori para a validaçãoda solução. Esses critérios utilizam uma medida de correlação que visa identificar o quãofortemente os atributos estão correlacionados entre si, objetivando encontrar subconjuntosde atributos diversos, ou seja, pouco correlacionados.

A medida de correlação utilizada nesse trabalho foi o coeficiente de correlação de Pe-arson, que mede o grau de correlação e a direção dessa correlação, se positiva ou negativa,entre duas variáveis, no caso, entre dois atributos. O coeficiente de correlação de Pearsonpode ser calculado pela seguinte equação, Equação (6.1):

⇢ =

P

n

i=1(xi

� x) ⇤ (yi

� y)q

P

n

i=1 (xi

� x)2 ⇤P

n

i=1 (yi � y)2(6.1)

Onde,

i é um padrão em um conjunto de n padrões;

xi

é o valor do atributo x no padrão i;

x é a média do atributo x, dada por:

x =

P

n

i=1 xi

n(6.2)

yi

é o valor do atributo y no padrão i;

y é a média do atributo y, dada por:

y =

P

n

i=1 yin

(6.3)


Esse coeficiente assume apenas valores entre -1 e 1, onde:

• ⇢ = 1 significa uma correlação perfeita positiva entre as duas variáveis;

• ⇢ = �1 significa uma correlação perfeita negativa entre as duas variáveis, ou seja, seuma aumenta a outra diminui;

• ⇢ = 0 significa que as duas variáveis não dependem linearmente uma da outra;

Pode-se dizer ainda que, considerando os valores positivos ou negativos:

• 0 < |⇢| < 0, 3 significa fraca correlação;

• 0, 3 < |⇢| < 0, 7 significa correlação moderada;

• 0, 7 < |⇢| < 1 significa correlação forte.

Dessa forma, para encontrar um subconjunto com atributos pouco correlacionados,deve-se buscar subconjuntos de atributos com coeficientes de correlação mais próximos a0, não interessando subconjuntos de atributos que possuam coeficientes de correlação muitopróximos a 1 ou a -1. Sendo assim, neste trabalho o valor do coeficiente é modularizadojá que valores próximo a 1 ou -1 são igualmente indesejáveis, buscando-se minimizar ocoeficiente de correlação de Pearson, ou seja, procurando subconjuntos de atributos comcoeficientes próximos a 0.

Dos três critérios de avaliação utilizados nesse trabalho dois são mono-objetivo e um ébiobjetivo, são eles:

6.3.1.1 Correlação Interclassificadores

A correlação interclassificadores prioriza a diversidade do comitê de classificadores,ou seja, a diversidade entre os classificadores base utilizados para formar o comitê. Issoé feito construindo os classificadores base a partir de subconjuntos de atributos diferentesou pouco correlacionados. Para isso, as soluções encontradas pelas metaheurísticas serãoavaliadas de acordo com a média da correlação interclassificadores. Isso é feito da seguinteforma:


O coeficiente de correlação de Pearson é calculado para cada atributo de cada classi-ficador em relação a todos os atributos dos outros classificadores e então feita a média.Esse procedimento pode ser visualizado na Figura 6.1, para o caso de um comitê com trêsclassificadores, C1, C2 eC3. Nesse caso, cada atributo de C1 deverá ter seu coeficiente decorrelação calculado para cada atributo dos classificadores C2 e C3, e assim por diante, ouseja, cada atributo de C2 terá seu coeficiente de correlação calculado para cada atributo deC3. Não estão presentes nessa figura todas as ligações entre os atributos para não dificultaro entendimento da ilustração. A média da correlação interclassificadores será então cal-culada e utilizada para avaliar as soluções candidatas. Ao final da execução do algoritmode busca, a solução que tiver apresentado a menor média de correlação interclassificadoresserá escolhida.

Figura 6.1: Ilustração do cálculo do coeficiente de correlação interclassificadores

Dessa forma, os atributos selecionados para a construção de um classificador devemter uma baixa correlação com os atributos selecionados para a construção dos demaisclassificadores, possibilitando, assim, o aumento da diversidade e consequente aumentoda acurácia final do sistema. O Algoritmo 8 apresenta o cálculo da correlação médiainterclassificadores.


Algoritmo 8 Algoritmo simplificado para o cálculo da correlação média interclassificadoresSeja m a quantidade de classificadores do comitê;Seja n[x] a quantidade de atributos selecionados para o classificador x;contador 0;for i = 0! m� 1 do

for j = i+ 1! m dofor k = 0! n[i] do

for l = 0! n[j] do8: Fazer somatório dos coeficientes de correlação de todos os atributos do clas-

sificador i com todos os atributos do classificador j;contador contador + 1

end forend for

end forend forCalcular correlação média, dividindo o somatório pelo contador;

6.3.1.2 Correlação Intraclassificadores

A correlação intraclassificadores, por sua vez, prioriza a diversidade interna ao clas-sificador, ou seja, busca atributos diversos para compor um subconjunto. Evitando, dessaforma, a correlação dos dados na construção do classificador.

Nesse caso, o coeficiente de correlação de Pearson é calculado para cada atributo decada classificador em relação a todos os atributos do mesmo classificador e então feita amédia. Esse procedimento pode ser visualizado na Figura 6.2 para um comitê com trêsclassificadores. A média da correlação intraclassificadores será então utilizada para avaliaras soluções candidatas. Ao final da execução do algoritmo de busca, a solução que tiverapresentado a menor média de correlação intraclassificadores será escolhida.

Dessa forma, os atributos selecionados para a construção de um classificador devemter baixa correlação com os demais atributos selecionados para o mesmo classificador. OAlgoritmo 9 apresenta o cálculo da correlação média intraclassificadores.


Figura 6.2: Ilustração do cálculo do coeficiente de correlação intraclassificadores

Algoritmo 9 Algoritmo simplificado para o cálculo da correlação média intraclassificadoresSeja m a quantidade de classificadores do comitê;Seja n[x] a quantidade de atributos selecionados para o classificador x;contador 0;for i = 0! m do

for k = 0! n[i]� 1 dofor l = k + 1! n[i] do

Fazer somatório dos coeficientes de correlação entre todos os atributos do clas-sificador i;contador contador + 1

9: end forend for

end forCalcular correlação média, dividindo o somatório pelo contador;


6.3.1.3 Correlação Interclassificadores + Intraclassificadores

Já a correlação Inter + Intra procura unir as duas abordagens anteriores, buscando adiversidade interna ao classificador ao mesmo tempo que busca a diversidade entre todosos classificadores base do comitê.

Para isso os dois objetivos anteriores são considerados, efetuando uma busca biobjetivoque deverá retorna um conjunto de soluções não dominadas, ver Seção 4.5. Sendo assim,as soluções candidatas que não forem dominadas por nenhuma outra são retornadas aofinal da execução do algoritmo de busca para posterior validação.

6.3.2 Metaheurísticas

As metaheurísticas utilizadas neste trabalho foram implementadas em uma versãomono-objetivo, tendo sido executadas para dois objetivos distintos, como visto na seçãoanterior, e em duas versões biobjetivo, ou seja, foram implementadas duas variações decada metaheurística biobjetivo, ambas para maximização simultânea das correlações intere intraclassificadores. No caso do AG, foram utilizadas as duas variações mais difundidasna literatura, NSGAII e SPEAII, já no caso do ACO e PSO foi implementada uma varia-ção mais genérica destes algoritmos, chamada aqui de bACO1 e bPSO1, e outra variaçãocom a modificação de algumas características importantes, como o uso de uma trilha deferomônio para cada objetivo no ACO, chamada de bACO2, e o uso do operador crowdingdistance para a definição do melhor global no PSO, bPSO2.

Como as metaheurísticas utilizadas possuem procedimentos estocásticos, não deter-minísticos, embutidos em seus algoritmos e, portanto, retornam soluções diversas a cadaexecução, foram realizadas para cada critério de avaliação 10 execuções de cada metaheu-rística. A seguir são apresentadas as configurações das três metaheurísticas utilizadas nestetrabalho. Para maiores detalhes sobre as metaheurísticas ver Capítulo 4.

6.3.2.1 Algoritmo Genéticos

A representação cromossômica do algoritmo genético implementado é dada como se-gue: Seja M a quantidade de classificadores do comitê e N a quantidade de atributos da


base de dados, o tamanho do cromossomo é dado por M x N . O alfabeto usado para codi-ficar o cromossomo é binário, dessa forma, uma posição do cromossomo recebe 1 quando oatributo está ativo na solução, ou seja, quando aquele atributo faz parte da solução cons-truída pelo algoritmo e 0 quando não. A quantidade de atributos a ser selecionada nãoé pré-determinada, podendo cada cromossomo possuir tamanhos diferentes, inclusive porclassificador, isto é, o tamanho de cada solução parcial do cromossomo pode ser diferente.A Figura 6.3 ilustra para um comitê com três classificadores e uma base de dados comquatro atributos, um cromossomo binário com doze posições, onde a solução parcial paracada classificador pode ter tamanhos diferentes. No caso ilustrado o classificador C1 temdois atributos ativos, o classificador C2 tem três atributos ativos e o classificador C3 temapenas um atributo ativo em sua solução.

Figura 6.3: Representação cromossômica para um comitê com três classificadores e umabase de dados com quatro atributos

A população inicial foi de 30 cromossomos inicializados de forma aleatória. O critériode parada utilizado foi a quantidade de iterações, foram feitos experimentos com valoresdiferentes para a quantidade de iterações, variando de 150 até 10500 iterações, escolhendo amelhor configuração para cada base de dados. A seleção dos cromossomos pais foi feita portorneio binário e os operadores genéticos utilizados foram recombinação, usando o métodosingle point crossover com taxa de 0.9 e mutação, usando bit flip mutation com taxa de0.05. Para maiores detalhes dos métodos citados ver Seção 4.2.

As versões biobjetivo do Algoritmo Genético foram implementadas a partir do fra-mework Metaheuristic Algorithms in Java – JMetal (DURILLO et al., 2006) utilizando osalgoritmos NSGAII e SPEAII, descritos na Seção 4.6, com as mesmas configurações dasversões mono-objetivo.


6.3.2.2 Colônia de Formigas

A formiga é representada por uma matriz com valores inteiros de tamanho M x n,onde M é a quantidade de classificadores do comitê e n é a quantidade de atributos pré-determinada para a solução da formiga. Para os experimentos deste trabalho n é 50% dosatributos da base de dados. Dessa forma, para o mesmo exemplo ilustrado anteriormente,a representação da formiga seria dada como mostra a Figura 6.4.

Figura 6.4: Representação da formiga para um comitê com três classificadores e uma basede dados com quatro atributos

O primeiro atributo da solução parcial da formiga para cada classificador é escolhidoaleatoriamente, tendo o cuidado de que a solução parcial para cada classificador inicie porum ponto diferente no espaço de busca, ou seja, o atributo escolhido aleatoriamente parainiciar a solução de C1 não deve ser escolhido para iniciar a solução de C2 nem de C3, eassim por diante. Esse procedimento procura evitar que as soluções parciais da formigapara cada classificador tendam a ser as mesmas. Definido o ponto inicial da busca, primeiroatributo, os próximos atributos serão escolhidos de acordo com a probabilidade descrita naSeção 4.3. Dessa forma, a probabilidade da formiga escolher um atributo j, dado que elaescolheu anteriormente um atributo i, é calculada levando em consideração a quantidadede feromônio armazenada na aresta que liga os atributos i e j e a informação heurísticarelativa a essa mesma aresta, como mostra a Equação (4.1).

A informação heurística usada para este problema de seleção de atributos é inversa-mente proporcional ao coeficiente de correlação de Pearson entre os dois atributos i e j,como pode ser visto na Equação (6.4). Assim, quanto mais correlacionados os atributosforem, menores as chances do atributo j ser escolhido para compor a solução da formiga.


⌘ij

=1

⇢ij

(6.4)

Onde, ⇢ij

é o coeficiente de correlação de Pearson entre i e j

A trilha de feromônio é inicializada com o mesmo valor ligando todas as arestas, ouseja, para qualquer aresta (x, y) o valor de ⌧

ij

é igual a um. Com o passar das iteraçõessão feitos os procedimentos de evaporação, com taxa de 0.7, e de depósito de feromônionas arestas utilizadas pelas formigas para construir a solução. A quantidade de feromôniodepositada é dada pela Equação (6.5).

⌧ij

=1

d(6.5)

Onde, d é a tamanho do percurso da formiga, média das correlações entre os atributosselecionados, para maiores detalhes ver Subseção 6.3.1. Dessa forma, quanto menor otamanho do percurso, maior a quantidade de feromônio depositada nas arestas da solução.Da mesma forma, quanto maior o percurso, menor a quantidade de feromônio depositadanas arestas da solução da formiga. Esse procedimento busca simular a quantidade deferomônio depositada nas trilhas das formigas reais, onde quanto menor a trilha, maior aquantidade de feromônio, ver Seção 4.3.

Já os coeficientes ↵ e � receberam os valores 0.7 e 0.3 respectivamente, priorizando,desta forma, a experiência da colônia de formigas, trilha de feromônio, em detrimento daheurística.

A colônia foi inicializada com 30 formigas e o critério de parada utilizado foi a quanti-dade de iterações. Os experimentos foram feitos com 100 iterações, visto que cada iteraçãodeste algoritmo demanda muito tempo.

A primeira variação do ACO biobjetivo, bACO1, utiliza apenas uma colônia, coma mesma informação heurística utilizada na versão mono-objetivo e uma única trilha deferomônios para os dois objetivos. As soluções de cada formiga são avaliadas segundo osdois critérios e as que não forem dominadas em relação às soluções das demais formigasnaquela iteração e em relação às demais soluções já armazenadas no repositório de soluções


não dominadas, serão por sua vez armazenadas, retirando do repositório as soluções quepor ventura sejam dominadas por elas.

Na segunda variação do ACO biobjetivo, bACO2, também é utilizada apenas umacolônia de formigas, porém, com duas trilhas de feromônio, uma para cada objetivo, e ape-nas uma informação heurística. O uso de apenas uma informação heurística foi novamenteadotado nesta variação visto que os dois objetivos envolvidos no problema tratam de cor-relação entre os atributos, apenas sob perspectivas distintas. Dessa forma, a aplicação deuma única informação heurística mostrou-se mais adequado, sendo utilizado o coeficientede correlação de Pearson para o cálculo dessa variável, como mostra a Equação (6.4).

Para o cálculo da probabilidade, as trilhas de feromônio são combinadas através de umproduto ponderado, como mostra Equação (6.6).

⌧comb

= ⌧� ⇤ ⌧ 0(1��) (6.6)

Onde, ⌧ e ⌧ 0 são as duas trilhas de feromônio e � é o peso calculado para cada formigak 2 {1, ..., n}, como mostra a Equação (6.7).

� =(k � 1)

(n� 1)(6.7)

Essa forma de calcular o peso faz com que cada formiga busque por soluções em dife-rentes regiões da fronteira de Pareto. Dessa forma, nos casos extremos, a formiga k = 1

com � = 0, considera apenas o primeiro objetivo e a formiga k = n com � = 1, consideraapenas o segundo objetivo (ANGELO, 2008). Essa metodologia foi também utilizada em(IREDI; MERKLE; MIDDENDORF, 2001).

A atualização das trilhas de feromônio é feita pela melhor solução para cada obje-tivo, sendo assim, a melhor solução encontrada para o primeiro objetivo, atualiza a trilhacorrespondente a esse objetivo, da mesma forma ocorre com o segundo objetivo.


6.3.2.3 Nuvem de Partículas

A representação da partícula é dada da mesma forma que a representação cromossômicado Algoritmo Genético, dessa forma, seja M a quantidade de classificadores do comitê e N

a quantidade de atributos da base de dados, o tamanho da partícula é dado por M x N .A representação da partícula também é binária, sendo assim, cada posição do vetor podereceber 0 ou 1, onde 0 indica que o atributo não pertence à solução da partícula e 1 indicaque o atributo pertence à solução. Assim como no Algoritmo Genético, a quantidade deatributos selecionada não é pré-determinada, podendo ser diferente para cada partícula,como também pode ser diferente para cada classificador, solução parcial da partícula.Sendo assim, a representação da partícula pode ser ilustrada como mostra a Figura 6.3.Porém, uma vez inicializada a partícula com uma quantidade x de atributos ativos em cadasolução parcial, essa quantidade será a mesma ao longo de todo o processo de busca.

A população inicial possui 30 partículas inicializadas de forma aleatória e o critério deparada é a quantidade de iterações. Foram feitos experimentos variando de 100 a 1000iterações, escolhendo a melhor configuração para cada base de dados.

Para a resolução do problema proposto neste trabalho, seleção de atributos, o PSOteve que ser adaptado para trabalhar com variáveis discretas, atributos, visto que em suaversão clássica o PSO trabalha com variáveis contínuas. Neste sentido, o parâmetro quedeve ser ajustado é a velocidade, já que no espaço discreto a velocidade não é mais somenteum número, ela deve ser capaz de quando aplicada a posição atual da partícula obter umanova posição válida, no espaço discreto dos atributos. Para isto, este trabalho implementouo algoritmo DPSO, Discrete Particle Swarm Optimization, proposto em Correa, Freitas eJohnson (2008) que trata a velocidade como probabilidade.

A velocidade de uma partícula i é representada como um vetor real de tamanho M xN , onde cada posição do vetor indica a probabilidade do atributo n ser selecionado paracompor a solução parcial da partícula i para o classificador m. O vetor de velocidadeé inicializado com todas as posições iguais a 1, garantindo a mesma probabilidade paratodos os atributos. Somente após a avaliação da posição inicial da partícula, o vetor develocidade será atualizado e a nova posição calculada.


Seja Pi

a posição atual da partícula i; Bi

o melhor local da partícula i, ou seja, a melhorposição encontrada pela partícula i; G o melhor global, ou seja, a melhor posição encontradapela nuvem e ↵, � e � os parâmetros de inércia, memória e cooperação, respectivamente(ver Seção 4.4 para maiores detalhes), a velocidade da partícula i, V

i

, é atualizada daseguinte forma:

V i

mn

(t+ 1) = V i

mn

(t) + ↵ ⇤ P i

mn

(t) + � ⇤Bi

mn

(t) + � ⇤Gi

mn

(t) (6.8)

Onde, m indica o classificador na solução parcial da partícula; n indica o atributo nasolução parcial da partícula e t a iteração atual. Como as matrizes de posição atual; melhorlocal e melhor global são binárias, então sempre que um atributo estiver ativo nos vetoresde posição (atual, melhor local e/ou melhor global) a velocidade desse mesmo atributoserá somada ao valor de ↵, � e/ou �, respectivamente. Caso, o atributo não esteja ativoem nenhum dos vetores de posição, sua velocidade ficará inalterada. A Figura 6.5 ilustraa atualização da velocidade para um comitê com três classificadores e uma base de dadoscom quatro atributos, onde t = 1 e portanto o vetor de velocidade é toda igual a 1 e omelhor local é igual a posição atual, visto que é a primeira iteração.

Para este exemplo, aplicando os valores de ↵ = 0.1, � = 0.12 e � = 0.14 aos valores deP , B e G respectivamente e somando a isso a velocidade atual, como mostra a Equação(6.8), tem-se os novos valores para o vetor de velocidades.

Após a atualização das velocidades das partículas, efetua-se a atualização de suasposições. A ideia de utilizar a velocidade da partícula como probabilidade de seleção dosatributos é que os atributos ativos nas soluções escolhidas como melhor local e melhorglobal, bem como a posição atual para garantir uma porcentagem de inércia, tenhammaiores chances de serem escolhidos nas próximas iterações. Dessa forma, os atributoscom maior velocidade seriam escolhidos, no entanto, para evitar a convergência prematurado algoritmo, é inserido um fator de aleatoriedade na atualização da posição da partícula.Isso é feito da seguinte forma:

Uma matriz temporária, Vtemp

, recebe os valores da matriz de velocidade multiplicadospor um valor aleatório, ✓, compreendido entre 0 e 1. Os n atributos com maior valor de


Figura 6.5: Atualização do vetor velocidade para um comitê com três classificadores e umabase de dados com quatro atributos


velocidade considerando Vtemp

serão escolhidos para compor a nova posição da partícula,onde n é a quantidade de atributos em cada solução parcial da partícula, como mostra aFigura 6.6.

Figura 6.6: Atualização da posição da partícula

Como a partícula i possui dois atributos na solução parcial para C1; três atributos nasolução parcial para C2 e um atributo em C3, a nova posição de i possuirá a mesma quan-tidade de atributos em cada solução parcial, selecionando aqueles com maior probabilidadea partir de V

temp

.

As versões biobjetivo do DPSO têm sua particularidade quanto a escolha do melhorlocal e do melhor global, já que não existe uma única melhor solução para os dois objetivos,sendo assim, o melhor local e o melhor global são escolhidos levando em consideração oconceito de dominância.

Na primeira variação do PSO biobjetivo, bPSO1, o melhor local de cada partícula é aúltima solução não dominada encontrada pela partícula, sendo assim, se a posição atualdominar ou for não dominada em relação ao melhor local atual ela passará a ser o melhor


local da partícula. Já o melhor global é escolhido aleatoriamente do conjunto de soluçõesnão dominadas encontrado pela nuvem de partículas até o momento. Ao final da busca oconjunto de soluções não dominadas encontrado será retornado pelo algoritmo. Ver Seção4.8.

Já a segunda variação do PSO biobjetivo, bPSO2, utiliza a distância de aglomeração,operador crowding distance, para definir o melhor global de cada partícula. Como apresen-tado na Seção 4.6 este operador estima o número de soluções localizadas ao redor de umasolução i, considerando todos os objetivos do problema. Dessa forma, para cada soluçãonão dominada calcula-se o crowding distance. Em seguida, os valores de crowding dis-tance das soluções não dominadas são ordenados. O melhor global de cada partícula seráescolhido aleatoriamente dentre 10% das soluções com maior valor do crowding distance.Esse procedimento visa evitar que os líderes, melhores global, sejam soluções pertencentesà regiões muito concentradas, buscando garantir um maior espalhamento das soluções aolongo da fronteira de Pareto.

Além disso, o operador de diversidade crowding distance foi empregado também paralimitar o tamanho do arquivo de soluções não dominadas. Assim, quando o arquivo atingeo limite e uma nova solução não dominada é encontrada, a solução com menor crowdingdistance é retirada para que a nova solução integre o conjunto de soluções não dominadas.

6.3.2.4 Critério para escolha da melhor solução não dominada encontrada

Nas versões biobjetivo das metaheurísticas, um conjunto de soluções não dominadas éretornado ao final do processo, como discutido na Seção 4.5. Para efetuar a validação dabusca, ou seja, para construir os comitês de classificadores com os conjuntos de atributosselecionados pelas metaheurísticas e posterior análise comparativa entre as mesmas, so-mente a melhor solução dentre as soluções não dominadas retornadas, segundo um critérioutilizado, será considerada.

Este critério será a acurácia de um comitê de classificadores, visto ser esta a aplicaçãofinal do processo de busca realizado neste trabalho, dessa forma, o conjunto de soluçõesnão dominadas retornadas por cada metaheurística será utilizado na construção de comitêsde classificadores. As acurácias de cada comitê construído serão ordenadas e o conjunto de

6.4 Validação da Busca 99

atributos que tiver produzido o comitê com maior acurácia será utilizado para a validaçãoda busca e comparação com os demais métodos.

Para este processo foram utilizados classificadores base do tipo KNN e método decombinação do tipo soma. Estes algoritmos foram escolhidos por serem mais simples edemandarem menos tempo computacional, a fim de não tornar muito custoso o processode escolha da melhor solução não dominada.

6.3.3 Seleção Aleatória dos Atributos

A fim de investigar a real utilidade da aplicação das metaheurísticas para seleção dosatributos, foi realizada uma seleção aleatória dos atributos.

Para tornar viável a comparação desse método com as metaheurísticas utilizadas, foidefinido para esse método a seleção de 50% dos atributos da base de dados, já que esta é aquantidade média de atributos selecionados pelos demais métodos, e a não duplicação deatributos selecionados para cada classificador, ou seja, para um mesmo classificador nãopode haver atributos repetidos.

6.4 Validação da Busca

Para a validação da busca foi utilizada a ferramenta WEKA (Waikato Environmentfor Knowledge Analysis) (HALL et al., 2009) que implementa uma coleção de algoritmos deaprendizado de máquina e é bastante difundida e aceita entre os pesquisadores da área.Os algoritmos do pacote utilizados foram os seguintes:

• J48, implementa uma árvore de decisão C4.5;

• IBk, implementa o algoritmo KNN;

• MultilayerPerceptron, implementa uma rede neural MLP.

Esses três algoritmos citados foram utilizados como classificadores base, já os trêsalgoritmos citados abaixo foram utilizados como métodos de combinação dos comitês:

6.4 Validação da Busca 100

• NaiveBayes ;

• SMO, implementa uma Máquina de Vetor de Suporte;

• IBk.

Em geral, os algoritmos foram utilizados com os parâmetros padrão (default) da fer-ramenta, a saber: Árvore de Decisão com poda, KNN com k = 1 e MLP com taxa deaprendizado igual a 0.3, momento = 0.8 e 500 iterações e SMO com kernel polinomial.

Perceba que o algoritmo IBk foi utilizado tanto como classificador base quanto comocombinador do comitê. Isso porque, como visto na Seção 2.5, os algoritmos utilizados paraclassificação também podem ser utilizados para combinação de classificadores. Além dessestrês algoritmos utilizados a partir da ferramenta WEKA, foram implementados tambémos seguintes métodos de combinação:

• Soma;

• Soma Ponderada;

• Voto.

Neste trabalho, o método da soma ponderada foi utilizado tendo como critério deponderação a taxa de classificação correta sobre o fold corrente.

Foram utilizados comitês com 3, 6 e 12 classificadores base com as combinações dos trêsalgoritmos utilizados para implementar os classificadores base apresentadas na Tabela 6.2,sendo 3 combinações homogêneas, ou seja, uma utilizando somente árvores de decisão, outrautilizando somente KNN e por fim uma utilizando somente MLP, as demais combinaçõesforam heterogêneas, utilizando 2 ou 3 algoritmos, conforme apresentado na tabela.

O método 10 - fold cross validation foi utilizado para realizar a amostragem dos dadospara os algoritmos treináveis.

Os comitês de classificadores foram executados com as bases de dados reduzidas, ouseja, com seleção de atributos feita pelas metaheurísticas; com as bases de dados originais,sem seleção de atributos e com uma seleção de atributos aleatória, para verificar a real

6.5 Testes Estatísticos 101

Tabela 6.2: Combinações dos classificadores base nos comitês

Combinações J48 IBk MultilayerPerceptron1 100% - -2 - 100% -3 - - 100%4 33% 33% 33%5 66% 33% -6 66% - 33%7 - 66% 33%8 33% 66% -9 33% - 66%10 - 33% 66%

importância das metaheurísticas abordadas. Na execução dos comitês homogêneos (comitêsformados por algoritmos de aprendizagem iguais) com as bases de dados originais, foramutilizados parâmetros distintos dos algoritmos de classificação para cada classificador, afim de evitar a construção de classificadores idênticos. Os parâmetros foram definidos deacordo com a base de dados, executando-se várias configurações e escolhendo a melhor.

Dessa forma, foram construídos comitês com três, seis e doze classificadores base, uti-lizando 6 métodos de combinação: Soma, Soma Ponderada, Voto, Naive, KNN e SVM.Cada um desses sistemas de classificação foi executado com 10 combinações diferentes declassificadores base, Tabela 6.2.

6.5 Testes Estatísticos

Para comparar o desempenho dos sistemas implementados nesse trabalho será aplicadoum teste estatístico para definir se a diferença no desempenho dos sistemas é estatistica-mente significante. Em estatística diz-se que um resultado é significante se for improvávelque tenha ocorrido por acaso, dessa forma, busca-se com a utilização de um teste estatís-tico, determinar se a diferença encontrada entre os sistemas indica uma real superioridadede um sistema em relação ao outro. Para isso formulam-se duas hipóteses, a primeira,hipótese nula, é tida como verdadeira até que as provas estatísticas indiquem o contrário.


A segunda, hipótese alternativa, deve ser antagônica, oposta à primeira. Dessa forma,as hipóteses sendo contraditórias não poderão ser simultaneamente verdadeiras. Para oproblema proposto neste trabalho, as hipóteses levantadas são:

• Hipótese nula (H0): Não existe diferença estatística entre o desempenho dos sistemas,ou seja, não pode-se dizer que um sistema seja estatisticamente superior ao outro;

• Hipótese alternativa (H1): Os sistemas possuem desempenhos estatisticamente dife-rentes, podendo-se dizer que um sistema é estatisticamente superior ao outro.

Deve-se levar em consideração que para a execução do teste estatístico deve-se definirpreviamente o nível de significância ou nível de confiança, que representa a probabilidadede que o resultado estatístico encontrado não seja verdadeiro. Em geral, são aceitos comosignificativos os níveis p = 0.05 e p = 0.01, ou seja, no caso de rejeitar-se a hipótese nula,o faz com 95% ou 99% de confiança sobre sua corretude.

Os testes estatísticos de hipótese se dividem em paramétricos e não paramétricos. Osprimeiros utilizam os parâmetros de uma ou mais populações para o cálculo da estatística(a média, por exemplo) e pressupõem uma forma particular de distribuição populacional(como a normalidade, por exemplo). Já os testes não paramétricos são livres desses pressu-postos, porém são menos potentes que os teste paramétricos, isso quer dizer que os testesnão paramétricos não encontram tantas diferenças entre os dados, quando essas diferençasrealmente existem (CAçãO, 2010).

Tomando por base o Teorema Central do Limite (METHER, 2003) que diz que a formada distribuição amostral tende a ser normal na medida em que aumenta o tamanho daamostra, independentemente da forma da distribuição da população, ou seja, a média dadistribuição amostral tende a ser igual a média populacional na medida em que o tamanhoda amostra aumenta, o que garante a normalidade da distribuição, sendo n > 30 o tamanhoda amostra suficiente para satisfazer esse teorema (JúNIOR, 2009; JAMES, 2004), foi adotadoum teste paramétrico chamado Análise de Variância, ANOVA (FISHER, 1990), visto queo tamanho das amostras utilizadas nesse trabalho é de 600 para os sistemas com seleçãode atributos (6 comitês, 10 combinações diferentes de classificadores base e 10 execuçõesde cada metaheurística) e 60 para os sistemas sem seleção de atributos (6 comitês e 10


combinações diferentes de classificadores base). Esse teste destina-se a comparar duasou mais amostras independentes cujos dados devem ser mensurados em escala intervalarou de razões. O resultado da análise de variância é traduzido no valor do F-test, quedeve ser complementado com um exame a priori (Bonferroni) ou a posteriori (Tukey out-test). Para esse trabalho foi usado o t-test como complemento a posteriori com nívelde significância igual a 5%. Essa análise estatística foi executada utilizando a ferramentaestatística BioEstat (AYRES et al., 2007), que retorna se o valor de p é inferior a 0.05,devendo-se aceitar a hipótese alternativa, ou se p é não significativo, retornando o valorns, devendo-se manter a hipótese nula.

104

Capítulo 7

Resultados dos Experimentos


Os resultados dos experimentos serão apresentados da seguinte forma: Em um primeiromomento serão apresentados os resultados dos sistemas de classificação para cada metaheu-rística separadamente (PSO, AG e ACO). Em cada uma dessas seções serão apresentadasquatro tabelas, na primeira encontram-se os resultados dos sistemas com seleção de atri-butos feita pelas metaheurísticas em suas duas versões mono-objetivo, sendo chamada deInter a versão para minimização da correlação interclassificadores e de Intra a versão paraminimização da correlação intraclassificadores. A segunda tabela apresenta os resultadosdos sistemas com seleção de atributos feita pelas metaheurísticas em suas duas versõesbiobjetivo, para minimização simultânea das correlações inter e intraclassificadores.

O objetivo da análise nesse primeiro momento é comparar os melhores resultados mono-objetivo com os melhores resultados biobjetivo, definindo para cada método de seleçãode atributos qual modelo, mono-objetivo ou biobjetivo, produz melhores resultados parao problema em questão, para isso, a terceira tabela compara o melhor resultado mono-objetivo com o melhor resultado biobjetivo. Tem-se também como objetivo nesse primeiro


momento, comparar os melhores resultados com seleção de atributos e os resultados semseleção de atributos, para determinar se a seleção foi benéfica aos sistemas de classificação.Para isso, a quarta tabela compara o melhor resultado com seleção, dentre as quatro versõesexecutadas (Inter, Intra, biobjetivo1 e biobjetivo2) e os resultados sem seleção de atributos,ou seja, com a base de dados completa.

O segundo momento dessa análise busca comparar as metaheurísticas utilizadas paraseleção dos atributos, para isso serão apresentados os resultados das metaheurísticas agru-pados por objetivo: Inter (minimização da correlação interclassificadores); Intra (minimiza-ção da correlação intraclassificadores) e biobjetivo (minimização simultânea das correlaçõesinter e intraclassificadores). Para os resultados biobjetivo serão utilizados para comparaçãoos resultados da versão que tiver obtido melhor desempenho. Para esta análise serão apre-sentados também os resultados dos sistemas de classificação utilizando seleção de atributosfeita por um método randômico, seleção de atributos aleatória.

Após a comparação das metaheurísticas, uma análise sobre a interseção dos atribu-tos é feita para determinar se existe uma correlação entre a interseção de atributos nossubconjuntos selecionados e a acurácia do comitê, ou seja, determinar se a quantidade deatributos que se repetem em cada subconjunto influencia o desempenho do comitê, desdeque isso poderia torná-lo menos diverso.

Cada tabela apresenta os resultados dos sistemas com três, seis e doze classificadoresnas nove bases de dados. Cada um desses resultados representa a média de mais de 600valores, a saber: 6 comitês de classificadores (Soma, Soma Ponderada, Voto, Naive Bayes,KNN e SVM), onde cada um foi executado com 10 combinações diferentes de classificadoresbase (ver Tabela 6.2). Além disso, como dito na Subseção 6.3.2 foram feitas 10 execuções decada metaheurística para cada caso tratado, devido a aleatoriedade embutida nos métodosque retornam soluções diferentes a cada execução. No caso dos sistemas sem seleção deatributos, desconsidera-se as execuções das metaheurísticas, ou seja, foi realizada somenteuma execução. Além disso, deve-se considerar para fins estatísticos que para cada algoritmotreinável foi executado o método 10 fold cross validation (ver Seção 2.4) para construçãodos 3, 6 ou 12 classificadores base, além do método de combinação treinável, quando for ocaso.

7.2 Resultados utilizando Nuvem de Partículas 106

Sendo assim, os resultados apresentam a média e o desvio padrão das amostras decada população estudada, tendo sido sombreados os resultados superiores e marcados emnegrito os resultados estatisticamente superiores segundo o teste realizado, ver Seção 6.5.

Para finalizar, uma análise sobre os comitês será feita levando em consideração osmétodos de combinação empregados e a estrutura dos comitês (homogênea e heterogênea), afim de identificar os métodos com melhor e pior desempenho e analisar seu comportamentoutilizando os dados selecionados pelas metaheurísticas mono-objetivo e biobjetivo.

7.2 Resultados utilizando Nuvem de Partículas

A Tabela 7.1 apresenta a acurácia e o desvio padrão dos sistemas de classificação de pa-drões com seleção de atributos feita pelo PSO em suas versões mono-objetivo. Analisandocomparativamente as duas versões mono-objetivo, pode-se verificar que, na maioria doscasos, os sistemas de classificação com seleção de atributos feita pelo PSO mono-objetivotiveram melhor desempenho quando foi minimizada a correlação interclassificadores.

O desempenho dos sistemas de classificação com seleção de atributos feita pelo PSOmono-objetivo para minimização da correlação interclassificadores foi superior à versão paraminimização da correlação intraclassificadores em 63% dos casos, sendo estatisticamentesuperior em 59% dos casos em que teve melhor desempenho.

A diferença média do desempenho da versão para minimização da correlação interclas-sificadores em relação à versão intraclassificadores foi de 1,37 pontos percentuais.

Sendo assim, baseado nos dados da Tabela 7.1, verifica-se que com o PSO conseguiu-se com mais êxito selecionar subconjuntos diversos de atributos que selecionar atributosdiversos dentro de um mesmo conjunto.

Em relação às versões biobjetivo do PSO, a Tabela 7.2 mostra que os sistemas comseleção de atributos biobjetivo feita pela segunda versão do PSO (PSO com distância deaglomeração) tiveram melhor desempenho em 56% dos casos, sendo superior estatistica-mente em 13% dos casos em que foi melhor. O PSO com distância de aglomeração, bPSO2,foi em média 0,27 pontos percentuais melhor que sua versão sem distância de aglomeração,


Tabe

la7.

1:A

curá

cia

méd

iae

desv

iopa

drão

dos

siste

mas

com

sele

ção

deat

ribut

osfe

itape

loP

SOm

ono-

obje

tivo

emsu

asve

rsõe

spa

ram

inim

izaç

ãoda

corr

elaç

ãoin

ter

ein

trac

lass

ifica

dore

s

36

12In

ter

Intr

aIn

ter

Intr

aIn

ter

Intr

aIm

age

88,3

8(10

,5)

76,2

8(11

,8)

92,7

2(5,

34)

91,5

2(6,

19)

94,9

4(4,

06)

94,3

7(5,

06)

SCO

P76

,90(

3,79

)74

,21(

4,10

)78

,07(

3,39

)77

,13(

3,61

)79

,33(

3,22

)78

,56(

3,41

)B

reas

tcan

cer

94,2

5(2,

20)

94,4

8(1,

67)

95,7

0(1,

13)

95,7

1(1,

17)

96,0

2(0,

97)

95,8

6(1,

44)

Gau

ssia

n389

,15(

14,2

)87

,19(

14,7

)92

,43(

12,9

)91

,55(

13,0

)93

,23(

13,7

)92

,98(

12,8

)Io

nosp

here

91,3

2(1,

63)

91,4

2(1,

77)

91,8

5(2,

03)

91,5

9(2,

00)

92,3

1(1,

89)

92,2

5(1,

79)

LIB

RA

S80

,36(

5,98

)80

,27(

6,27

)82

,31(

5,19

)82

,45(

5,46

)83

,40(

5,14

)83

,38(

5,28

)Si

mul

ated

695

,18(

7,05

)95

,29(

6,86

)95

,96(

6,26

)95

,75(

6,38

)96

,21(

6,14

)96

,46(

5,77

)So

nar

82,0

6(4,

43)

82,4

2(4,

29)

84,7

9(4,

08)

84,0

8(4,

23)

84,2

5(4,

12)

84,8

8(3,

91)

SPE

CT

F76

,63(

3,03

)76

,28(

2,89

)76

,29(

3,05

)76

,69(

3,08

)76

,59(

2,71

)76

,67(

2,84

)


bPSO1.

Este último dado mostra que a diferença entre as duas versões do PSO biobjetivo não foimuito expressiva, inclusive uma análise isolada dos sistemas com 12 classificadores mostraque a primeira versão do PSO biobjetivo produziu sistemas com melhor desempenho paraa maioria das bases de dados.

A Tabela 7.3 mostra os melhores resultados para cada caso estudado da versão mono-objetivo e da versão biobjetivo, tendo como objetivo definir qual dos modelos, mono oubiobjetivo, construíram sistemas mais acurados.

Pode-se ver que os sistemas com seleção de atributos feita pela versão de otimizaçãobiobjetivo obtiveram, na maioria dos casos, melhor desempenho que pelo PSO mono-objetivo. Isso foi verificado em 85% dos casos, sendo estatisticamente superior em 65% doscasos em que foi melhor. A versão biobjetivo foi em média 1,13 pontos percentuais melhorque a versão mono-objetivo.

Os dados acima mostram que a otimização de mais de um objetivo simultaneamente ésignificativamente mais proveitosa que a otimização de um único objetivo individualmentepara o PSO.

Já a Tabela 7.4 apresenta os resultados dos sistemas de classificação sem seleção deatributos, NFS do inglês No Feature Selection, e os melhores resultados para cada caso dossistemas com seleção de atributos, FS do inglês Feature Selection, visando definir qual dosmodelos mostrou-se mais adequado.

Analisando a referida tabela pode-se ver que em 89% dos casos os sistemas com seleçãode atributos foram mais acurados, sendo sua superioridade comprovada estatisticamenteem 79% dos casos em foi melhor. Os sistemas com seleção dos atributos feita pelo PSOtem um desempenho médio de 2,12 pontos percentuais superior aos sistemas sem seleção,que pode ser considerado expressivo, demostrando a eficácia da seleção de atributos.

Sendo assim, pela análise dos resultados produzidos pelos sistemas utilizando PSOpara selecionar os atributos pode-se verificar que a seleção de atributos ajudou a melhorara acurácia dos sistemas de classificação de padrões e que a seleção de atributos biobjetivomostrou-se mais proveitosa.


Tabe

la7.

2:A

curá

cia

méd

iae

desv

iopa

drão

dos

siste

mas

com

sele

ção

deat

ribut

osfe

itape

loP

SObi

obje

tivo,

para

min

imiz

ação

simul

tâne

ada

sco

rrel

açõe

sin

ter

ein

trac

lass

ifica

dore

s

36

12bP

SO1

bPSO

2bP

SO1

bPSO

2bP

SO1

bPSO

2Im

age

96,0

5(1,

32)

96,1

2(1,

34)

96,3

5(1,

63)

96,2

9(1,

67)

96,6

9(1,

82)

96,7

4(1,

62)

SCO

P78

,42(

2,86

)78

,79(

2,96

)78

,83(

3,10

)79

,18(

3,13

)79

,97(

3,04

)79

,96(

3,02

)B

reas

tcan

cer

95,7

1(0,

93)

95,7

1(1,

01)

95,8

2(1,

12)

96,0

7(1,

01)

96,1

7(0,

96)

96,1

0(0,

97)

Gau

ssia

n389

,84(

15,6

)90

,83(

14,9

)92

,03(

14,4

)92

,42(

13,7

)92

,99(

14,0

)93

,53(

13,2

)Io

nosp

here

91,8

1(1,

74)

91,3

7(1,

92)

91,8

2(2,

19)

92,2

2(1,

87)

92,2

5(1,

91)

92,3

6(1,

68)

LIB

RA

S80

,53(

6,74

)80

,66(

6,51

)82

,75(

5,46

)82

,57(

5,53

)83

,38(

5,39

)83

,17(

5,44

)Si

mul

ated

695

,62(

6,44

)95

,29(

6,58

)95

,81(

6,53

)95

,87(

6,38

)96

,26(

6,02

)96

,23(

6,00

)So

nar

83,3

0(4,

59)

83,5

2(4,

95)

84,9

5(4,

48)

84,2

7(4,

53)

85,5

0(4,

20)

85,3

8(3,

96)

SPE

CT

F77

,70(

2,13

)77

,34(

2,27

)76

,74(

2,64

)76

,76(

2,60

)77

,02(

2,42

)77

,10(

2,57

)


Tabe

la7.

3:C

ompa

raçã

odo

ssis

tem

asco

mm

elho

rde

sem

penh

ona

sve

rsõe

sm

ono-

obje

tivo

ebi

obje

tivo

doP

SO

36

12M

ono

Bi

Mon

oB

iM

ono

Bi

Imag

e88

,38(

10,5

)96

,12(

1,34

)92

,72(

5,34

)96

,35(

1,63

)94

,94(

4,06

)96

,74(

1,62

)SC

OP

76,9

0(3,

79)

78,7

9(2,

96)

78,0

7(3,

39)

79,1

8(3,

13)

79,3

3(3,

22)

79,9

7(3,

04)

Bre

astc

ance

r94

,25(

2,20

)95

,71(

0,93

)95

,71(

1,17

)96

,07(

1,01

)96

,02(

0,97

)96

,17(

0,96

)G

auss

ian3

89,1

5(14

,2)

90,8

3(14

,9)

92,4

3(12

,9)

92,4

2(13

,7)

93,2

3(13

,7)

93,5

3(13

,2)

Iono

sphe

re91

,42(

1,77

)91

,81(

1,74

)91

,85(

2,03

)92

,22(

1,87

)92

,31(

1,89

)92

,36(

1,68

)LI

BR

AS

80,3

6(5,

98)

80,6

6(6,

51)

82,4

5(5,

46)

82,7

5(5,

46)

83,4

0(5,

14)

83,3

8(5,

39)

Sim

ulat

ed6

95,2

9(6,

86)

95,6

2(6,

44)

95,9

6(6,

26)

95,8

7(6,

38)

96,4

6(5,

77)

96,2

6(6,

02)

Sona

r82

,42(

4,29

)83

,52(

4,95

)84

,79(

4,08

)84

,95(

4,48

)84

,88(

3,91

)85

,50(

4,20

)SP

EC

TF

76,6

3(3,

03)

77,7

0(2,

13)

76,6

9(3,

08)

76,7

6(2,

60)

76,6

7(2,

84)

77,1

0(2,

57)


Tabe

la7.

4:C

ompa

raçã

odo

ssis

tem

asco

mm

elho

rde

sem

penh

oco

mse

leçã

ode

atrib

utos

feita

pelo

PSO

edo

ssis

tem

asse

mse

leçã

ode

atrib

utos

36

12N

FSFS

NFS

FSN

FSFS

Imag

e96

,32(

0,74

)96

,12(

1,34

)96

,52(

0,60

)96

,35(

1,63

)96

,56(

0,56

)96

,74(

1,62

)SC

OP

77,6

2(2,

61)

78,7

9(2,

96)

76,3

9(2,

51)

79,1

8(3,

13)

76,5

3(2,

55)

79,9

7(3,

04)

Bre

astc

ance

r94

,90(

0,74

)95

,71(

0,93

)95

,17(

0,84

)96

,07(

1,01

)95

,18(

0,85

)96

,17(

0,96

)G

auss

ian3

88,7

8(18

,9)

90,8

3(14

,9)

89,6

9(18

,0)

92,4

3(12

,9)

89,6

5(18

,1)

93,5

3(13

,2)

Iono

sphe

re88

,86(

2,68

)91

,81(

1,74

)88

,46(

2,73

)92

,22(

1,87

)88

,48(

2,67

)92

,36(

1,68

)LI

BR

AS

79,5

5(6,

66)

80,6

6(6,

51)

80,8

2(6,

19)

82,7

5(5,

46)

80,8

0(6,

28)

83,4

0(5,

14)

Sim

ulat

ed6

93,6

1(10

,2)

95,6

2(6,

44)

93,8

2(9,

65)

95,9

6(6,

26)

93,7

1(9,

72)

96,4

6(5,

77)

Sona

r82

,08(

5,23

)83

,52(

4,95

)82

,13(

4,91

)84

,95(

4,48

)82

,13(

4,90

)85

,50(

4,20

)SP

EC

TF

76,8

8(3,

08)

77,7

0(2,

13)

76,8

5(3,

05)

76,7

6(2,

60)

76,8

7(3,

00)

77,1

0(2,

57)

7.3 Resultados utilizando Algoritmos Genéticos 112

7.3 Resultados utilizando Algoritmos Genéticos

A Tabela 7.5 mostra que, ao contrário do PSO, os sistemas com seleção de atributosfeita pelo AG mono-objetivo tiveram na maioria dos casos melhor desempenho quando foiminimizada a correlação intraclassificadores.

Em 56% dos casos, a versão para minimização da correlação intraclassificadores foisuperior a versão interclassificadores, sendo estatisticamente superior em 47% dos casosem que foi melhor. Com a versão intraclassificadores, os sistemas de classificação foram emmédia 0,92 pontos percentuais melhores que os sistemas com a versão interclassificadores.Essa diferença não é muito grande e uma análise isolada dos sistemas com 12 classificadoresmostra melhores resultados na versão interclassificadores.

Pode-se concluir, no entanto, que com o AG conseguiu-se com mais êxito selecionaratributos diversos dentro de um mesmo conjunto, diminuindo a redundância dos dados eaumentando a diversidade interna dos classificadores base, que conjuntos diversos entre si.

Em relação aos sistemas com seleção de atributos feita pelos AG biobjetivo, NSGAIIe SPEAII, pode-se ver pela Tabela 7.6 que os resultados com SPEAII foram melhores em59% dos casos, sendo em 31% desses casos estatisticamente superior. O desempenho como SPEAII foi em média 0,33 pontos percentuais melhor que o desempenho do NSGAII.A diferença não é muito grande e uma análise isolada dos sistemas com 6 classificadoresmostra que o NSGAII obteve melhores resultados para estes casos.

Na Tabela 7.7, que compara os melhores resultados mono e biobjetivo, os resultadoscomprovam que os sistemas que utilizam seleção biobjetivo produzem melhores resulta-dos que os sistemas com seleção mono-objetivo, isso ocorreu em 63% dos casos, sendoestatisticamente superior em 35% dos casos em que foi melhor. Porém, a diferença dedesempenho entre os sistemas que utilizaram otimização biobjetivo e os sistemas que utili-zaram otimização mono-objetivo é pequena, aqueles são em média 0,53 pontos percentuaismelhores que estes. Isso mostra, para o problema abordado neste trabalho, que a diferençade desempenho entre o AG mono e biobjetivo é pequena.

A análise dos resultados sem seleção de atributos e dos resultados com seleção deatributos feita pelo AG, Tabela 7.8, mostra, assim como no PSO, que os sistemas de


Tabe

la7.

5:A

curá

cia

méd

iae

desv

iopa

drão

dos

siste

mas

com

sele

ção

deat

ribut

osfe

itape

loA

Gm

ono-

obje

tivo

emsu

asve

rsõe

spa

ram

inim

izaç

ãoda

corr

elaç

ãoin

ter

ein

trac

lass

ifica

dore

s

36

12In

ter

Intr

aIn

ter

Intr

aIn

ter

Intr

aIm

age

90,8

4(6,

45)

93,7

5(3,

07)

94,6

7(3,

87)

94,6

8(2,

77)

96,3

2(2,

27)

95,6

6(2,

68)

SCO

P76

,37(

3,67

)76

,09(

4,22

)77

,62(

3,61

)78

,10(

3,65

)78

,93(

3,35

)79

,44(

3,21

)B

reas

tcan

cer

91,8

2(3,

79)

93,8

4(1,

93)

95,3

4(1,

67)

95,1

9(1,

39)

96,0

2(1,

18)

96,0

0(1,

05)

Gau

ssia

n386

,22(

16,2

)89

,58(

13,6

)91

,41(

13,3

)92

,58(

13,5

)92

,92(

12,9

)93

,63(

12,9

)Io

nosp

here

91,5

1(1,

85)

91,5

0(1,

91)

91,7

1(2,

11)

91,7

5(1,

97)

92,3

8(1,

94)

92,1

7(1,

97)

LIB

RA

S80

,53(

6,72

)80

,32(

6,83

)82

,35(

5,27

)82

,35(

5,50

)83

,29(

5,18

)83

,23(

5,21

)Si

mul

ated

695

,36(

6,78

)95

,47(

6,44

)95

,77(

6,66

)95

,77(

6,28

)96

,02(

6,25

)96

,00(

6,18

)So

nar

82,5

8(4,

98)

81,8

2(4,

12)

83,5

5(4,

21)

84,4

5(4,

26)

84,8

4(4,

00)

84,6

8(3,

93)

SPE

CT

F76

,55(

2,92

)77

,37(

2,66

)76

,51(

2,77

)76

,96(

2,44

)76

,50(

2,61

)76

,76(

2,70

)


Tabe

la7.

6:A

curá

cia

méd

iae

desv

iopa

drão

dos

siste

mas

com

sele

ção

deat

ribut

osfe

itape

loA

Gbi

obje

tivo,

para

min

imi-

zaçã

osim

ultâ

nea

das

corr

elaç

ões

inte

re

intr

acla

ssifi

cado

res

36

12N

SGA

IISP

EA

IIN

SGA

IISP

EA

IIN

SGA

IISP

EA

IIIm

age

92,5

7(4,

16)

93,2

5(3,

79)

94,9

8(3,

59)

96,1

8(1,

81)

95,8

5(2,

56)

96,2

4(1,

95)

SCO

P77

,58(

3,27

)78

,24(

3,06

)78

,51(

3,17

)78

,72(

3,20

)79

,58(

3,22

)79

,81(

3,11

)B

reas

tcan

cer

95,5

1(1,

05)

95,3

8(1,

05)

95,7

8(1,

12)

95,8

1(0,

96)

96,1

1(1,

05)

96,1

6(0,

86)

Gau

ssia

n390

,00(

14,2

)89

,93(

14,7

)92

,82(

13,3

)91

,90(

13,9

)93

,23(

13,6

)93

,95(

12,1

)Io

nosp

here

91,2

6(1,

93)

91,6

0(1,

89)

91,8

8(1,

64)

91,6

2(1,

90)

92,2

4(1,

99)

92,0

7(1,

95)

LIB

RA

S80

,29(

6,37

)80

,39(

6,55

)82

,52(

5,58

)82

,62(

5,48

)83

,38(

5,15

)83

,09(

5,38

)Si

mul

ated

695

,16(

7,07

)95

,10(

7,44

)95

,60(

6,58

)95

,27(

7,18

)96

,12(

6,25

)96

,15(

6,45

)So

nar

83,0

9(3,

98)

82,9

2(3,

99)

84,0

0(4,

32)

83,8

6(4,

12)

84,8

1(3,

94)

85,0

7(4,

06)

SPE

CT

F76

,85(

2,54

)76

,91(

2,54

)76

,81(

2,84

)76

,71(

2,77

)76

,52(

2,63

)76

,71(

2,49

)


Tabe

la7.

7:C

ompa

raçã

odo

ssis

tem

asco

mm

elho

rde

sem

penh

ona

sve

rsõe

sm

ono-

obje

tivo

ebi

obje

tivo

doA

G

36

12M

ono

Bi

Mon

oB

iM

ono

Bi

Imag

e93

,75(

3,07

)93

,25(

3,79

)94

,68(

2,77

)96

,18(

1,81

)96

,32(

2,27

)96

,24(

1,95

)SC

OP

76,3

7(3,

67)

78,2

4(3,

06)

78,1

0(3,

65)

78,7

2(3,

20)

79,4

4(3,

21)

79,8

1(3,

11)

Bre

astc

ance

r93

,84(

1,93

)95

,51(

1,05

)95

,34(

1,67

)95

,81(

0,96

)96

,02(

1,18

)96

,16(

0,86

)G

auss

ian3

89,5

8(13

,6)

90,0

0(14

,2)

92,5

8(13

,5)

92,8

2(13

,3)

93,6

3(12

,9)

93,9

5(12

,1)

Iono

sphe

re91

,51(

1,85

)91

,60(

1,89

)91

,75(

1,97

)91

,88(

1,64

)92

,38(

1,94

)92

,24(

1,99

)LI

BR

AS

80,5

3(6,

72)

80,3

9(6,

55)

82,3

5(5,

27)

82,6

2(5,

48)

83,2

9(5,

18)

83,3

8(5,

15)

Sim

ulat

ed6

95,4

7(6,

44)

95,1

6(7,

07)

95,7

7(6,

28)

95,6

0(6,

58)

96,0

2(6,

25)

96,1

5(6,

45)

Sona

r82

,58(

4,98

)83

,09(

3,98

)84

,45(

4,26

)84

,00(

4,32

)84

,84(

4,00

)85

,07(

4,06

)SP

EC

TF

77,3

7(2,

66)

76,9

1(2,

54)

76,9

6(2,

44)

76,8

1(2,

84)

76,7

6(2,

70)

76,7

1(2,

49)

7.4 Resultados utilizando Colônia de Formigas 116

classificação com seleção de atributos produzem melhores resultados que os sem seleção.Isto se deu em 85% dos casos, sendo estatisticamente superior em 78% deles. A diferençade desempenho entre os sistemas com seleção e sem seleção de atributos foi em média de1,98 pontos percentuais.

Comparando os resultados obtidos com o PSO, pode-se verificar que os sistemas comseleção de atributos feita pelo PSO obtiveram uma diferença de desempenho maior emrelação aos sistemas sem seleção de atributos que os sistemas com seleção feita pelo AG,com uma diferença média de 2,12 contra 1,98 pontos percentuais do AG e 89% dos casoscontra 85% no AG.

7.4 Resultados utilizando Colônia de Formigas

Os resultados dos sistemas de classificação com seleção de atributos feita pelo ACOmono-objetivo apresentados na Tabela 7.9 mostram que a versão do ACO com minimizaçãoda correlação interclassificadores apresentou melhores resultados em 63% dos casos, apesarde ter tido resultados inferiores para os sistemas com 6 componentes. Sendo estatistica-mente superior em 59% dos casos em que foi melhor. Os sistemas na versão interclassifi-cadores tiveram desempenho em média 1,19 pontos percentuais superior aos sistemas naversão intraclassificadores.

O ACO assim como o PSO, e ao contrário do AG, conseguiu com mais êxito selecionarconjuntos diversos de atributos que selecionar atributos diversos dentro de um mesmoconjunto.

Dentre as duas versões do ACO biobjetivo, cujos resultados são apresentados na Tabela7.10, a primeira versão, com uma única trilha de feromônio, obteve resultados superioresem 56% dos casos, apesar de ter sido inferior nos casos de comitês com 12 classificadores,sendo estatisticamente superior em 73% dos casos em que foi melhor. O desempenho daprimeira versão, bACO1, foi em média 1,15 pontos percentuais melhor que os da segundaversão, bACO2, que é uma diferença que pode ser considerada significativa.

Na comparação dos modelos mono e biobjetivo, Tabela 7.11, verifica-se que o modelobiobjetivo apresentou melhores resultados em relação ao modelo mono-objetivo, isso se deu


Tabe

la7.

8:C

ompa

raçã

odo

ssis

tem

asco

mm

elho

rde

sem

penh

oco

mse

leçã

ode

atrib

utos

feita

pelo

AG

eos

siste

mas

sem

sele

ção

deat

ribut

os

36

12N

FSFS

NFS

FSN

FSFS

Imag

e96

,32(

0,74

)93

,25(

3,79

)96

,52(

0,60

)96

,18(

1,81

)96

,56(

0,56

)96

,24(

1,95

)SC

OP

77,6

2(2,

61)

78,2

4(3,

06)

76,3

9(2,

51)

78,7

2(3,

20)

76,5

3(2,

55)

79,8

1(3,

11)

Bre

astc

ance

r94

,90(

0,74

)95

,51(

1,05

)95

,17(

0,84

)95

,81(

0,96

)95

,18(

0,85

)96

,16(

0,86

)G

auss

ian3

88,7

8(18

,9)

90,0

0(14

,2)

89,6

9(18

,0)

92,8

2(13

,3)

89,6

5(18

,1)

93,9

5(12

,1)

Iono

sphe

re88

,86(

2,68

)91

,60(

1,89

)88

,46(

2,73

)91

,88(

1,64

)88

,48(

2,67

)92

,38(

1,94

)LI

BR

AS

79,5

5(6,

66)

80,5

3(6,

72)

80,8

2(6,

19)

82,6

2(5,

48)

80,8

0(6,

28)

83,3

8(5,

15)

Sim

ulat

ed6

93,6

1(10

,2)

95,4

7(6,

44)

93,8

2(9,

65)

95,7

7(6,

28)

93,7

1(9,

72)

96,1

5(6,

45)

Sona

r82

,08(

5,23

)83

,09(

3,98

)82

,13(

4,91

)84

,45(

4,26

)82

,13(

4,90

)85

,07(

4,06

)SP

EC

TF

76,8

8(3,

08)

77,3

7(2,

66)

76,8

5(3,

05)

76,9

6(2,

44)

76,8

7(3,

00)

76,7

6(2,

70)


Tabe

la7.

9:A

curá

cia

méd

iae

desv

iopa

drão

dos

siste

mas

com

sele

ção

deat

ribut

osfe

itape

loA

CO

mon

o-ob

jetiv

oem

suas

vers

ões

para

min

imiz

ação

daco

rrel

ação

inte

re

intr

acla

ssifi

cado

res

36

12In

ter

Intr

aIn

ter

Intr

aIn

ter

Intr

aIm

age

85,1

1(9,

05)

77,9

4(12

,0)

85,5

9(8,

84)

85,1

6(8,

17)

88,4

0(7,

39)

88,6

7(7,

31)

SCO

P78

,69(

6,15

)77

,71(

3,48

)80

,02(

5,85

)78

,08(

3,80

)80

,79(

5,52

)79

,34(

3,47

)B

reas

tcan

cer

95,1

8(1,

43)

94,9

6(1,

56)

95,4

9(0,

91)

95,2

8(1,

21)

95,5

2(1,

15)

95,4

9(1,

12)

Gau

ssia

n387

,66(

14,2

)87

,13(

13,3

)89

,57(

12,5

)90

,48(

12,1

)91

,99(

11,9

)91

,97(

12,1

)Io

nosp

here

91,2

8(1,

77)

88,6

8(4,

21)

91,1

8(2,

32)

90,6

9(2,

96)

91,8

7(2,

23)

91,4

7(2,

42)

LIB

RA

S79

,36(

6,55

)76

,73(

8,39

)79

,91(

7,10

)79

,97(

6,59

)81

,23(

5,78

)80

,76(

6,12

)Si

mul

ated

693

,87(

6,95

)94

,54(

6,70

)94

,50(

6,90

)94

,87(

6,48

)95

,92(

5,69

)95

,78(

5,98

)So

nar

83,6

5(5,

05)

83,0

8(4,

48)

83,7

4(4,

46)

83,9

7(4,

39)

84,1

7(4,

52)

84,2

3(4,

39)

SPE

CT

F75

,80(

2,63

)76

,13(

2,65

)75

,77(

3,15

)76

,02(

2,96

)76

,31(

2,71

)76

,36(

2,72

)


Tabe

la7.

10:

Acu

ráci

am

édia

ede

svio

padr

ãodo

ssis

tem

asco

mse

leçã

ode

atrib

utos

feita

pelo

AC

Obi

obje

tivo,

para

min

imiz

ação

simul

tâne

ada

sco

rrel

açõe

sin

ter

ein

trac

lass

ifica

dore

s

36

12bA

CO

1bA

CO

2bA

CO

1bA

CO

2bA

CO

1bA

CO

2Im

age

90,6

7(4,

72)

90,1

8(4,

74)

89,8

1(6,

89)

90,9

4(4,

31)

91,3

1(5,

14)

91,6

7(5,

43)

SCO

P77

,15(

4,99

)78

,12(

3,18

)78

,95(

2,94

)78

,05(

3,57

)79

,84(

3,09

)79

,88(

2,92

)B

reas

tcan

cer

95,3

4(1,

11)

94,2

0(2,

63)

95,5

6(1,

12)

95,0

3(1,

64)

95,5

2(1,

18)

95,6

9(1,

20)

Gau

ssia

n389

,47(

13,6

)87

,13(

15,9

)87

,45(

12,8

)91

,17(

12,5

)91

,82(

11,7

)91

,15(

13,2

)Io

nosp

here

91,5

7(1,

75)

89,9

2(3,

11)

91,3

9(2,

05)

91,3

6(2,

30)

91,5

0(2,

62)

91,9

4(2,

33)

LIB

RA

S79

,04(

7,42

)75

,94(

8,73

)80

,03(

6,46

)80

,20(

6,31

)80

,43(

6,73

)80

,95(

6,59

)Si

mul

ated

692

,82(

6,82

)93

,21(

6,42

)95

,77(

5,44

)93

,41(

8,06

)96

,19(

5,55

)95

,25(

6,67

)So

nar

84,9

8(5,

10)

83,6

6(5,

04)

84,5

1(5,

53)

83,7

6(5,

04)

85,4

1(4,

28)

84,4

9(4,

52)

SPE

CT

F76

,17(

2,95

)76

,80(

2,80

)76

,14(

2,75

)75

,99(

2,97

)76

,01(

2,77

)76

,31(

2,96

)

7.5 Conclusões da Primeira Fase da Análise 120

em 70% dos casos, sendo estatisticamente superior em 42% destes casos. Os sistemas declassificação com seleção feita pela versão biobjetivo tiveram um desempenho em média1,17 pontos percentuais superior aos sistemas com seleção feita pela versão mono-objetivo,confirmando os resultados já apresentados.

Assim como, em relação à comparação do modelo com seleção de atributos e sem seleçãode atributos, Tabela 7.12, os resultados confirmam a utilidade da seleção dos atributos paraos sistemas de classificação de padrões. Os sistemas com seleção foram melhores em 70%dos casos, sendo estatisticamente superior em 74% destes casos. Os sistemas com seleçãode atributos foram em média 2,01 pontos percentuais melhores que os sistemas sem seleção.

7.5 Conclusões da Primeira Fase da Análise

• Na versão mono-objetivo, o PSO e o ACO apresentaram melhor desempenho naseleção de subconjuntos diversos de atributos, minimização da correlação interclassi-ficadores, enquanto o AG obteve melhor desempenho na seleção de atributos diversospara um mesmo conjunto, minimização da correlação intraclassificadores.

• Os sistemas de classificação com seleção de atributos utilizando as duas versões bi-objetivo implementadas tanto do PSO quanto do AG tiveram um desempenho muitopróximo, com uma diferença média de 0,27 e 0,33 pontos percentuais, respectiva-mente. Já os sistemas com os atributos selecionados pelas duas versões biobjetivodo ACO, bACO1 e bACO2, tiveram uma diferença mais significativa, de 1,15 pontospercentuais.

• Para todas as metaheurísticas estudadas, PSO, ACO e AG, a seleção de atributosfeita pelas versões biobjetivo proporcionou melhores resultados no desempenho dossistemas de classificação que a seleção feita pelas versões mono-objetivo.

• A diferença entre as versões biobjetivo e mono-objetivo foi mais expressiva no PSO,cuja versão biobjetivo produziu melhores resultados em 85% dos casos e a diferençamédia no desempenho dos sistemas foi de 1,13 pontos percentuais. O AG foi o métodocuja diferença entre as versões mono e biobjetivo foi menor, sendo a versão biobjetivo


Tabe

la7.

11:

Com

para

ção

dos

siste

mas

com

mel

hor

dese

mpe

nho

nas

vers

ões

mon

o-ob

jetiv

oe

biob

jetiv

odo

AC

O

36

12M

ono

Bi

Mon

oB

iM

ono

Bi

Imag

e85

,11(

9,05

)90

,67(

4,72

)85

,16(

8,17

)89

,81(

6,89

)88

,40(

7,39

)91

,67(

5,43

)SC

OP

78,6

9(6,

15)

78,1

2(3,

18)

80,0

2(5,

85)

78,9

5(2,

94)

80,7

9(5,

52)

79,8

8(2,

92)

Bre

astc

ance

r95

,18(

1,43

)95

,34(

1,11

)95

,49(

0,91

)95

,56(

1,12

)95

,52(

1,15

)95

,69(

1,20

)G

auss

ian3

87,6

6(14

,2)

89,4

7(13

,6)

90,4

8(12

,1)

91,1

7(12

,5)

91,9

9(11

,9)

91,8

2(11

,7)

Iono

sphe

re91

,28(

1,77

)91

,57(

1,75

)91

,18(

2,32

)91

,39(

2,05

)91

,87(

2,23

)91

,94(

2,33

)LI

BR

AS

79,3

6(6,

55)

79,0

4(7,

42)

79,9

7(6,

59)

80,2

0(6,

31)

81,2

3(5,

78)

80,9

5(6,

59)

Sim

ulat

ed6

94,5

4(6,

70)

93,2

1(6,

42)

94,8

7(6,

48)

95,7

7(5,

44)

95,9

2(5,

69)

96,1

9(5,

55)

Sona

r83

,65(

5,05

)84

,98(

5,10

)83

,97(

4,39

)84

,51(

5,53

)84

,23(

4,39

)85

,41(

4,28

)SP

EC

TF

76,1

3(2,

65)

76,8

0(2,

80)

76,0

2(2,

96)

76,1

4(2,

75)

76,3

6(2,

72)

76,3

1(2,

96)


Tabe

la7.

12:

Com

para

ção

dos

siste

mas

com

mel

hor

dese

mpe

nho

com

sele

ção

deat

ribut

osfe

itape

loA

CO

eos

siste

mas

sem

sele

ção

deat

ribut

os

36

12N

FSFS

NFS

FSN

FSFS

Imag

e96

,32(

0,74

)90

,67(

4,72

)96

,52(

0,60

)89

,81(

6,89

)96

,56(

0,56

)88

,40(

7,39

)SC

OP

77,6

2(2,

61)

78,6

9(6,

15)

76,3

9(2,

51)

80,0

2(5,

85)

76,5

3(2,

55)

80,7

9(5,

52)

Bre

astc

ance

r94

,90(

0,74

)95

,34(

1,11

)95

,17(

0,84

)95

,56(

1,12

)95

,18(

0,85

)95

,69(

1,20

)G

auss

ian3

88,7

8(18

,9)

89,4

7(13

,6)

89,6

9(18

,0)

91,1

7(12

,5)

89,6

5(18

,1)

91,9

9(11

,9)

Iono

sphe

re88

,86(

2,68

)91

,57(

1,75

)88

,46(

2,73

)91

,39(

2,05

)88

,48(

2,67

)91

,94(

2,33

)LI

BR

AS

79,5

5(6,

66)

79,3

6(6,

55)

80,8

2(6,

19)

80,2

0(6,

31)

80,8

0(6,

28)

81,2

3(5,

78)

Sim

ulat

ed6

93,6

1(10

,2)

94,5

4(6,

70)

93,8

2(9,

65)

95,7

7(5,

44)

93,7

1(9,

72)

96,1

9(5,

55)

Sona

r82

,08(

5,23

)84

,98(

5,10

)82

,13(

4,91

)84

,51(

5,53

)82

,13(

4,90

)85

,41(

4,28

)SP

EC

TF

76,8

8(3,

08)

76,8

0(2,

80)

76,8

5(3,

05)

76,1

4(2,

75)

76,8

7(3,

00)

76,3

6(2,

72)

7.6 Mono-objetivo: Minimização da Correlação Interclassificadores 123

melhor em 63% dos casos e tendo uma diferença média de 0,53 pontos percentuaisno desempenho dos sistemas de classificação.

• Para todas as metaheurísticas estudadas, PSO, ACO e AG, os sistemas de classifi-cação com seleção de atributos tiveram desempenho médio superior aos sistemas declassificação sem seleção de atributos, com a base de dados completa.

• A diferença entre as versões com seleção de atributos e sem seleção foi mais expressivano PSO, onde os sistemas com seleção foram superiores aos sistemas sem seleçãoem 89% dos casos e com uma diferença média de 2,12 pontos percentuais entre osdesempenhos dos referidos sistemas. O ACO foi o método com menor quantidade decasos em que a versão com seleção de atributos foi superior a versão sem seleção, 70%dos casos, mas ainda assim é um resultado significativo. A menor diferença média nodesempenho dos sistemas com e sem seleção foi dos sistemas com seleção feita peloAG, com 1,98 pontos percentuais, mas ainda assim, um resultado significativo.

7.6 Mono-objetivo: Minimização da Correlação Inter-classificadores

Esta seção reúne os resultados dos sistemas de classificação com seleção de atributosfeita pelas metaheurísticas na versão mono-objetivo para minimização da correlação inter-classificadores. Esses resultados, assim como os resultados das próximas duas seções, serãocomparados também com os resultados dos sistemas com seleção de atributos aleatória,referenciada como RFS do inglês Random Feature Selection. Os resultados sombreados sãoos melhores resultados encontrados, enquanto que os resultados marcados em negrito sãoos resultados com superioridade estatística em relação ao resultado imediatamente inferior.Sendo assim, tomando por exemplo os resultados dos sistemas com 3 classificadores paraa base de imagem, apresentados na Tabela 7.13, o sistema com seleção feita pelo AG éestatisticamente superior ao sistema com seleção feita pelo PSO que é por sua vez estatis-ticamente superior ao sistema com seleção feita pelo ACO que o é em relação ao sistemacom seleção aleatória.

De acordo com a Tabela 7.13, para os 27 casos estudados (comitês de classificadores


Tabela 7.13: Comparação dos sistemas de classificação com seleção de atributos mono-objetivo: correlação interclassificadores

3ACO AG PSO RFS

Image 85,11(9,05) 90,84(6,45) 88,38(10,5) 74,63(9,01)SCOP 78,69(6,15) 76,37(3,67) 76,90(3,79) 69,92(6,14)Breastcancer 95,18(1,43) 91,82(3,79) 94,25(2,20) 87,50(1,67)Gaussian3 87,66(14,2) 86,22(16,2) 89,15(14,2) 82,54(4,60)Ionosphere 91,28(1,77) 91,51(1,85) 91,32(1,63) 85,06(3,16)LIBRAS 79,36(6,55) 80,53(6,72) 80,36(5,98) 76,04(3,69)Simulated6 93,87(6,95) 95,36(6,78) 95,18(7,05) 89,90(3,35)Sonar 83,65(5,05) 82,58(4,98) 82,06(4,43) 79,67(5,85)SPECTF 75,80(2,63) 76,55(2,92) 76,63(3,03) 70,09(6,10)

6ACO AG PSO RFS


12ACO AG PSO RFS



com 3 tamanhos diferentes e 9 bases de dados) os sistemas com seleção feita pelo PSOapresentaram melhores resultados em 44% dos casos, seguido pelo AG que foi melhor em37% dos casos.

Os sistemas com seleção feita pelo PSO, ACO e AG foram em 100% dos casos esta-tisticamente superiores em relação aos sistemas com seleção aleatória dos atributos. ATabela 7.14 mostra a porcentagem dos casos em que o PSO e o AG foram estatisticamentesuperiores em relação aos demais métodos. Como pode-se verificar, os sistemas com seleçãode atributos feita pelos métodos PSO e AG com minimização da correlação interclassifi-cadores foram na maioria dos casos estatisticamente superiores em relação aos sistemascom seleção feita pelo ACO, 56% e 52% respectivamente, tendo uma diferença média nodesempenho dos sistemas de 1,63 e 2,01 pontos percentuais, respectivamente, em relaçãoaos sistemas com seleção feita pelo ACO.

Tabela 7.14: Porcentagem dos casos em que os sistemas utilizando o PSO e o AG paraminimização da correlação interclassificadores foram estatisticamente superiores em relaçãoaos sistemas utilizando os demais métodos

AG ACO RSFPSO 15% 56% 100%

PSO ACO RSFAG 11% 52% 100%

Já entre si, os sistemas com seleção feita pelo PSO e pelo AG não apresentaram umadiferença muito grande, sendo de 0,70 pontos percentuais a diferença média no desempenhodesses sistemas. Em relação aos sistemas com seleção aleatória dos atributos, a diferençano desempenho dos sistemas foi em média de 5,42; 5,32 e 4,38 pontos percentuais, para ossistemas com seleção feita pelo PSO, AG e ACO, respectivamente.

Os resultados mostram que o emprego das metaheurísticas foi importante para a seleçãode atributos, ou seja que uma seleção indiscriminada dos atributos não alcança os mesmosresultados. Além disso, verificou-se que para minimização interclassificadores o ACO foi ométodo mais fraco dentre os estudados e que o PSO, apesar de melhor na maioria do casos,obteve resultados muito próximos ao AG, podendo considerar os dois métodos equivalentesneste contexto.

7.7 Mono-objetivo: Minimização da correlação intraclassificadores 126

7.7 Mono-objetivo: Minimização da correlação intra-classificadores

Já para os sistemas com seleção de atributos feita pelas metaheurísticas mono-objetivopara minimização da correlação intraclassificadores, os resultados mostram que os sistemascom seleção feita pelo AG foram superiores em 67% dos casos, seguido pelo PSO com 22%dos casos, como mostra a Tabela 7.15. Neste caso, a diferença entre os resultados utilizandoo AG e o PSO se mostram mais significativos.

Os sistemas com seleção de atributos feita pelos métodos PSO, AG e ACO foram empraticamente 100% dos casos estatisticamente superiores aos sistemas com seleção aleatória,a exceção ficou por conta do sistema com 3 componentes para a base de LIBRAS, ondeo sistema utilizando ACO não foi estatisticamente superior ao sistema utilizando seleçãoaleatória.

Como pode ser visto na Tabela 7.16 os sistemas utilizando PSO e o AG foram namaioria dos casos estatisticamente superiores aos sistemas utilizando o ACO, tendo umadiferença média de 1,54 e 2,58 pontos percentuais no desempenho, respectivamente. Odesempenho dos sistemas com seleção feita pelo AG foi em média 1,69 pontos percentuaissuperior ao desempenho dos sistemas com seleção feita pelo PSO. Isto mostra que para ocaso de minimização intraclassificadores existe uma diferença maior do AG em relação aosdemais métodos estudados, ao contrário do caso de minimização interclassificadores, ondeo AG e o PSO foram equivalentes.

Em relação aos sistemas com seleção aleatória dos atributos, o sistemas com seleçãofeita pelo PSO, AG e ACO foram em média 4,65; 5,74 e 3,75 pontos percentuais superiores,respectivamente.

7.8 Biobjetivo: Minimização simultânea da correlaçãointer e intraclassificadores

A Tabela 7.17 reúne os resultados das melhores versões biobjetivo de cada metaheu-rística (bACO1, SPEAII e bPSO2) mais os resultados dos sistemas com seleção aleatória

7.8 Biobjetivo: Minimização simultânea da correlação inter e intraclassificadores 127

Tabela 7.15: Comparação dos sistemas de classificação com seleção de atributos mono-objetivo: correlação intraclassificadores

3ACO AG PSO RFS


6ACO AG PSO RFS


12ACO AG PSO RFS


7.9 Conclusões da Segunda Fase da Análise 128

Tabela 7.16: Porcentagem dos casos em que os sistemas utilizando o PSO e o AG paraminimização da correlação intraclassificadores foram estatisticamente superiores em relaçãoaos sistemas utilizando os demais métodos



dos atributos. Os sistemas de classificação com seleção feita pelo PSO foram melhores em78% dos casos, seguido do AG que foi melhor em 15% dos casos, a maior diferença emquantidade de casos, se compararmos com as versões mono-objetivo.

Em 22% dos casos em que o PSO foi superior ao AG, a superioridade foi comprovadaestatisticamente. Já em relação ao ACO, os sistemas utilizando a seleção feita pelo PSOe pelo AG foram estatisticamente superiores em 67% dos casos. Além disso, em 100% doscasos os sistemas utilizando as metaheurísticas estudadas foram estatisticamente superioresem relação aos sistemas com seleção de atributos aleatória, como pode ser visto na Tabela7.18.

O desempenho dos sistemas com seleção feita pelo PSO e AG foi em média 1,80 e1,59 pontos percentuais superior ao desempenho dos sistemas com seleção feita pelo ACO.Já em relação aos sistemas com seleção aleatória, o desempenho foi em média 6,35, 5,99e 4,81 pontos percentuais superior nos sistemas com seleção feita pelo PSO, AG e ACO,respectivamente.

7.9 Conclusões da Segunda Fase da Análise

• Os sistemas de classificação com seleção de atributos feita pelas três metaheurísticasestudadas tiveram desempenho superior estatisticamente aos sistemas com seleçãoaleatória. Sendo a diferença média entre o desempenho desses sistemas bastanteexpressiva, em torno de 5,16 pontos percentuais. Isso mostra a real utilidade noemprego das metaheurísticas para selecionar os atributos, visto que uma seleçãoindiscriminada não obtém os mesmos resultados.


Tabela 7.17: Comparação dos sistemas de classificação com seleção de atributos biobjetivo

3ACO AG PSO RFS


6ACO AG PSO RFS


12ACO AG PSO RFS



Tabela 7.18: Porcentagem dos casos em que os sistemas utilizando o PSO e o AG paraminimização simultânea das correlações inter e intraclassificadores foram estatisticamentesuperiores em relação aos sistemas utilizando os demais métodos



• Dentre as três metaheurísticas, a que proporcionou resultados mais baixos foi o ACO,ficando em média a 1,66 pontos percentuais abaixo do PSO e 2,06 pontos percentuaisabaixo do AG.

• O AG proporcionou os melhores resultados para a seleção de atributos com mini-mização da correlação intraclassificadores, ou seja, o AG foi a metaheurística queconseguiu com mais êxito selecionar atributos diversos dentro de um mesmo con-junto, diminuindo a redundância dos dados e aumentando a diversidade interna dosclassificadores base.

• Já em relação à minimização da correlação interclassificadores, o PSO foi a metaheu-rística que obteve melhores resultados, conseguindo com mais êxito formar conjuntosdiversos de atributos, produzindo comitês de classificadores diversos.

• Na versão biobjetivo, o desempenho dos sistemas com seleção feita pelo PSO foiconsideravelmente melhor que os demais, obtendo os melhores resultados em 78%dos casos.

• Interessante observar ainda que os sistemas com seleção feita pelo AG nas versõesmono e biobjetivo tiveram pouca diferença em seu desempenho, em média 0,53 pontospercentuais, enquanto que os sistemas com seleção feita pelo ACO e pelo PSO tiveramuma diferença de desempenho entre as versões mono e biobjetivo maior, 1,17 e 1,13pontos percentuais, respectivamente.

7.10 Análise sobre a Interseção dos Atributos 131

7.10 Análise sobre a Interseção dos Atributos

A seleção de subconjuntos de atributos para comitês de classificadores é chamada deseleção de atributos com interseção, quando é possível que um ou mais atributos da basede dados sejam selecionados para mais de um componente do comitê. A Figura 7.1 mostrauma seleção de atributos com interseção para um comitê com 3 classificadores, onde 50%dos atributos selecionados para cada classificador são repetidos, ou seja, aparecem naseleção dos outros classificadores. No caso deste trabalho, a seleção dos atributos foi feitacom interseção, permitindo que o próprio algoritmo de seleção decidisse pela escolha deatributos repetidos para compor os subconjuntos.

Figura 7.1: Ilustração de uma seleção de atributos com interseção para um comitê com 3classificadores

Nesta seção busca-se verificar se existe uma correlação linear entre a interseção dosatributos e o desempenho do comitê, ou seja, se comitês construídos com subconjuntos deatributos com pouca interseção são mais acurados que comitês construídos com subconjun-tos de atributos com muita interseção, visto que a quantidade de atributos iguais poderiadiminuir a diversidade do comitê.

Para isso, foi calculada a interseção média dos atributos para cada um dos casos es-tudados, ou seja, foi calculada a porcentagem média de atributos repetidos utilizados naconstrução dos comitês. Além disso, foi feito o cálculo do coeficiente de correlação de Pear-son entre a quantidade média de atributos repetidos e o erro do comitê, a fim de identificarse há uma correlação linear entre a interseção dos atributos e o desempenho do comitê.

A Tabela 7.19 mostra que para o objetivo observado, minimização da correlação inter-


Tabela 7.19: Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos com minimização da correlação interclassificadores

3ACO AG PSO

Image 50,00(1,37) 48,00(0,60) 41,33(0,79)SCOP 50,00(1,11) 49,08(0,39) 49,21(0,43)Breastcancer 50,00(1,10) 41,48(0,56) 38,52(0,58)Gaussian3 48,48(1,01) 47,68(0,58) 39,60(0,65)Ionosphere 50,00(1,13) 46,74(0,42) 44,59(0,52)LIBRAS 50,00(1,16) 48,57(0,42) 47,25(0,59)Simulated6 50,00(1,12) 49,58(0,41) 49,52(0,45)Sonar 50,00(1,12) 46,89(0,38) 44,89(0,67)SPECTF 50,00(1,18) 44,85(0,55) 42,12(0,80)

6ACO AG PSO

Image 50,00(2,71) 45,67(0,84) 41,67(1,36)SCOP 50,00(2,20) 49,24(0,58) 49,94(0,61)Breastcancer 50,00(2,60) 43,52(0,99) 42,96(1,73Gaussian3 48,48(1,93) 49,49(0,80) 45,86(1,27)Ionosphere 50,00(2,30) 48,63(0,56) 48,15(0,97)LIBRAS 50,00(2,14) 49,44(0,64) 48,86(0,89)Simulated6 50,00(2,26) 49,98(0,58) 49,38(0,64)Sonar 50,00(2,27) 48,33(0,65) 45,94(1,00)SPECTF 50,00(2,25) 48,56(0,73) 46,14(1,18)

12ACO AG PSO



classificadores, o PSO foi o método que realizou a seleção de atributos com menor interseçãode atributos entre os subconjuntos, com uma média de atributos repetidos igual a 46,27%,enquanto o AG e o ACO tiveram uma média de 48,11% e 49,83% de atributos repetidos,respectivamente.

No entanto, o cálculo da correlação através do coeficiente de correlação de Pearsonentre a interseção média dos atributos e o erro dos comitês, Tabela 7.20, mostra quenão há correlação linear forte entre essas duas variáveis. Em 50% dos casos, houve umacorrelação linear moderada (casos sombreados), enquanto nos demais casos houve umacorrelação fraca.

Tabela 7.20: Coeficiente de correlação de Pearson entre a quantidade média de atributosrepetidos e o erro do comitê para o caso da seleção de atributos com minimização dacorrelação interclassificadores

ACO AG PSO3 0,110378593 0,100101336 0,261774986 0,182511847 0,403849008 0,38406224412 0,247098468 -0,457202435 0,450264406

A Tabela 7.21 mostra a porcentagem média de interseção dos atributos para o caso deminimização intraclassificadores. Assim como no caso anterior, o PSO é a metaheurísticaque utiliza menos interseção dos atributos na construção de suas soluções, 41,75% emmédia.

A Tabela 7.22 mostra os coeficientes de Pearson para este caso, podendo-se verificarque a correlação linear entre a interseção dos atributos e o erro do comitê é fraca. Alémdisso, pode-se verificar que, ao contrário do caso anterior, minimização da correlação inter-classificadores, onde o PSO foi o método que obteve melhores resultados e utilizou o menorconjunto interseção, para este caso, minimização da correlação intraclassificadores, o PSOfoi o método com menor conjunto interseção, mas o AG que teve uma interseção médiade 48% dos atributos foi o método que obteve melhores resultados, logo, essa informaçãocorrobora para identificar que não há uma correlação linear forte entre a interseção dosatributos e o erro do comitê.

A Tabela 7.23 apresenta os coeficientes de correlação de Pearson para os casos biobje-


Tabela 7.21: Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos com minimização da correlação intraclassificadores

3ACO AG PSO


6ACO AG PSO


12ACO AG PSO



Tabela 7.22: Coeficiente de correlação de Pearson entre a quantidade média de atributosrepetidos e o erro do comitê para o caso da seleção de atributos com minimização dacorrelação intraclassificadores

ACO AG PSO3 0,150707288 0,167205154 -0,2403416136 0,231548379 -0,000639059 -0,0059769212 0,252574448 0,213331237 0,061331613

tivo. Pode-se verificar que na maioria dos casos a correlação linear é fraca, em três casoshouve uma correlação linear moderada e em um caso (em negrito) a correlação é forte.

Tabela 7.23: Coeficiente de correlação de Pearson entre a quantidade média de atributosrepetidos e o erro do comitê para o caso da seleção de atributos biobjetivo

bACO1 NSGAII bPSO13 0,160764945 0,595782505 0,1813979036 0,043103215 0,335491172 0,09050757412 0,216939183 0,01255518 -0,024111881

bACO2 SPEAII bPSO23 0,087991932 0,440892276 0,0243028416 0,235134542 0,184249547 -0,01921954212 0,191531029 0,251303114 0,75625807

Pode-se observar ainda para os casos biobjetivo, Tabela 7.24 e Tabela 7.25, que o PSOteve um significativo aumento na interseção dos atributos em relação às suas versões mono-objetivo, em média 5,37 pontos percentuais. Já o NSGAII foi a versão do AG que utilizouuma menor interseção dos atributos, em média 47,89%.

Dessa forma, baseado no cálculo do coeficiente de correlação de Pearson, pode-se con-cluir que para os experimentos realizados neste trabalho, onde a interseção média foi de50% dos atributos, que a correlação linear entre a interseção dos atributos e o erro docomitê é fraca.


Tabela 7.24: Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos biobjetivo, primeira versão

3bACO1 NSAGII bPSO1


6bACO1 NSAGII bPSO1


12bACO1 NSAGII bPSO1



Tabela 7.25: Porcentagem média (e desvio padrão) da interseção de atributos para o casoda seleção de atributos biobjetivo, segunda versão

3bACO2 SPEAII bPSO2


6bACO2 SPEAII bPSO2


12bACO2 SPEAII bPSO2


7.11 Conclusões da Terceira Fase da Análise 138

7.11 Conclusões da Terceira Fase da Análise

• O PSO foi a metaheurística que selecionou subconjuntos de atributos com menorinterseção, enquanto o ACO selecionou subconjuntos com maior interseção dos atri-butos;

• O cálculo do coeficiente de correlação de Pearson mostrou não haver uma correlaçãolinear forte entre a interseção dos atributos na seleção de subconjuntos de atributospara comitês de classificadores e o erro do comitê para os experimentos feitos.

7.12 Análise sobre os Comitês de Classificadores

Nesta seção uma análise sobre os comitês será feita levando em consideração os métodosde combinação empregados e a estrutura dos comitês (homogênea e heterogênea) a fimde identificar os métodos com melhor e pior desempenho e analisar seu comportamentoutilizando os dados selecionados pelas metaheurísticas mono-objetivo e biobjetivo.

7.12.1 Métodos de Combinação

Nesta subseção serão analisados os seis métodos empregados para combinar as saídasdos classificadores base. A Tabela 7.26 apresenta a acurácia média e desvio padrão dosmétodos Soma, Voto, Soma ponderada, KNN, Naive Bayes e SVM, para comitês com 3,6 e 12 componentes. Os valores apresentados nesta tabela representam uma média dossistemas de classificação com seleção de atributos mono-objetivo e biobjetivo para as novebases de dados. Os resultados de cada base separadamente estão dispostos no ApêndiceA.

O objetivo nesta análise é identificar o método que teve melhor desempenho médio e ométodo que teve pior desempenho médio, identificando como esses métodos se comporta-ram diante da seleção de atributos mono-objetivo e biobjetivo. Para facilitar a análise, osmétodos com melhor desempenho para cada caso estão sombreados, enquanto os métodoscom pior desempenho estão com fonte vermelha.

7.12 Análise sobre os Comitês de Classificadores 139

Tabela 7.26: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo

3 6 12Mono Bi Mono Bi Mono Bi

Soma 85,77(5,27) 87,44(5,01) 88,00(4,82) 88,53(4,72) 89,03(4,41) 89,26(4,36)Voto 84,99(5,38) 87,09(5,03) 87,07(5,08) 87,79(4,88) 88,54(4,54) 88,92(4,54)S. Ponderada 86,40(4,88) 87,90(4,63) 88,12(4,36) 88,68(4,26) 89,00(4,04) 89,29(4,01)KNN 84,13(5,95) 85,30(5,71) 86,05(5,30) 86,37(5,35) 87,24(4,90) 87,36(4,89)Naive Bayes 85,71(5,24) 86,64(5,01) 87,16(5,08) 87,42(5,02) 87,68(4,78) 87,83(4,71)SVM 87,16(4,48) 87,89(4,36) 88,47(4,27) 88,71(4,18) 88,98(4,18) 89,10(4,16)

De acordo com os dados apresentados na Tabela 7.26, pode-se verificar que todos osmétodos de combinação tiveram melhor desempenho médio quando utilizaram a base dedados reduzida pela seleção de atributos biobjetivo. O método de combinação que apre-sentou melhor desempenho na maioria dos casos foi o SVM, seguido da Soma Ponderada,já o método que obteve desempenho médio mais baixo foi o KNN. A diferença média de de-sempenho entre estes dois métodos (SVM e KNN), que representam o melhor caso e o piorcaso, foi de 2,31 pontos percentuais. A Figura 7.2 mostra a diferença média no desempenhodo SVM e do KNN com seleção de atributos mono e biobjetivo. Pode-se verificar que estadiferença é maior para o caso da seleção mono-objetivo, em média 2,40 pontos percentuais,que para o caso da seleção biobjetivo, em média 2,22 pontos percentuais. Isso mostra quea seleção de atributos biobjetivo conseguiu diminuir a diferença de desempenho entre osmétodos de combinação, isso é positivo, pois torna a escolha do método de combinaçãomenos crítica.

A Figura 7.3 mostra a diferença de desempenho dos métodos de combinação quandoutilizaram os dados com seleção de atributos mono-objetivo e quando utilizaram os dadoscom seleção de atributos biobjetivo. Pode-se verificar que os métodos que tiveram maiorganho de desempenho quando passaram da versão mono-objetivo para a versão biobjetivoforam os métodos de combinação mais simples: Voto e Soma, seguidos pelo Soma Pon-derada. Isso ocorre porque os classificadores base tiveram um aumento de desempenho eos métodos de combinação mais simples são mais afetados pela acurácia dos componentesdo comitê que os métodos de combinação mais elaborados, como KNN, Naive Bayes e

7.12 Análise sobre os Comitês de Classificadores 140

Figura 7.2: Diferença média na acurácia do SVM e do KNN, melhor caso e pior casorespectivamente, com a seleção de atributos mono-objetivo e biobjetivo

SVM. Além disso, essa ganho no desempenho diminui quando aumenta-se a quantidade declassificadores base, isso porque o fato de aumentar-se a quantidade de classificadores basepor si só já aumenta a acurácia do comitê.

Figura 7.3: Diferença média na acurácia dos métodos de combinação quando passaram daversão mono-objetivo para a versão biobjetivo

7.13 Conclusões da Quarta Fase da Análise 141

7.12.2 Estrutura dos Comitês

Nesta subseção os dados serão organizados de modo que se possa verificar o desempenhodos comitês em relação a sua estrutura, ou seja, analisando os comitês homogêneos eheterogêneos separadamente. O objetivo é identificar a estrutura que apresentou melhordesempenho e identificar seu comportamento em relação à seleção de atributos mono-objetivo e biobjetivo.

A Tabela 7.27 mostra a acurácia média e desvio padrão dos comitês homogêneos eheterogêneos com 3, 6 e 12 componentes e seleção de atributos mono e biobjetivo para asnove bases de dados. De acordo com estes dados, pode-se verificar que tanto os comitêshomogêneos quanto os heterogêneos tiveram melhor desempenho quando utilizaram osdados com seleção de atributos biobjetivo. Além disso, os comitês heterogêneos obtiverammelhor desempenho, com diferença média de 2,70 pontos percentuais em relação aos comitêshomogêneos.

7.13 Conclusões da Quarta Fase da Análise

• Todos os métodos de combinação tiveram melhor desempenho médio quando utiliza-ram a base de dados reduzida pela seleção de atributos biobjetivo;

• O método de combinação que apresentou melhor desempenho médio na maioria doscasos foi o SVM;

• O método de combinação que obteve desempenho médio mais baixo foi o KNN;

• A seleção de atributos biobjetivo conseguiu diminuir a diferença de desempenho entreos métodos de combinação, tornando a escolha do método menos crítica;

• Os métodos que tiveram maior ganho de desempenho quando passaram da versãomono-objetivo para a versão biobjetivo foram os métodos mais simples: Voto, Somae Soma ponderada;

• Tanto os comitês com estrutura homogênea quanto os comitês com estrutura hetero-gênea tiveram melhor desempenho médio quando utilizaram a base de dados reduzida


Tabela 7.27: Acurácia média e desvio padrão dos comitês homogêneos e heterogêneos comseleção de atributos mono-objetivo e biobjetivo

3 6 12Mono Bi Mono Bi Mono Bi

ImageHomogêneo 86,79(2,60) 93,67(1,81) 91,98(1,98) 94,64(1,59) 94,13(1,70) 95,29(1,50)Heterogêneo 88,05(2,39) 94,21(1,73) 92,93(1,82) 95,29(1,48) 95,05(1,55 ) 95,98(1,42)

SCOPHomogêneo 76,43(4,23) 77,46(4,26) 77,73(4,19) 78,27(4,35) 78,91(4,18) 79,31(4,31)Heterogêneo 77,64(4,40) 78,50(4,36) 79,37(4,39) 79,79(4,48) 80,76(4,31) 80,99(4,23)

BreastcancerHomogêneo 94,44(2,79) 95,47(2,48) 95,49(2,29) 95,66(2,26) 95,82(2,16) 95,94(2,25)Heterogêneo 94,65(2,80) 95,79(2,41) 95,89(2,21) 96,10(2,18) 96,27(2,11) 96,29(2,23)

Gaussian3Homogêneo 83,18(9,60) 84,01(8,71) 85,92(9,40) 85,06(8,63) 87,00(8,31) 86,29(8,53)Heterogêneo 91,89(8,03) 94,15(6,38) 96,17(5,11) 95,72(5,34) 98,09(3,02) 98,20(3,10)

IonosphereHomogêneo 91,02(4,73) 91,72(4,62) 91,69(4,64) 91,93(4,58) 92,35(4,52) 92,27(4,40)Heterogêneo 91,42(4,56) 91,97(4,65) 92,07(4,60) 92,28(4,50) 92,81(4,29) 92,79(4,20)

LIBRASHomogêneo 77,66(5,16) 77,84(5,07) 79,54(5,13) 79,94(5,01) 80,59(4,94) 80,58(4,92)Heterogêneo 81,10(4,97) 81,46(5,01) 83,56(4,58) 83,71(4,66) 84,60(4,39) 84,55(4,33)

Simulated6Homogêneo 92,72(6,91) 92,29(7,28) 93,18(6,47) 93,72(6,37) 93,90(6,18) 94,08(5,67)Heterogêneo 96,70(4,99) 96,37(5,31) 97,63(4,17) 97,72(3,95) 98,30(3,48) 98,39(3,32)

SonarHomogêneo 81,43(6,97) 82,54(6,94) 82,81(7,04) 83,09(6,81) 83,38(6,67) 84,18(6,67)Heterogêneo 83,72(6,80) 84,97(7,00) 85,49(6,64) 85,99(6,76) 85,97(6,55) 86,77(6,54)

SPECTFHomogêneo 76,74(5,85) 77,21(5,50) 76,46(5,99) 76,77(6,06) 76,57(6,00) 76,49(6,26)Heterogêneo 76,83(5,80) 77,15(5,73) 76,69(6,09) 76,80(6,20) 76,92(6,17) 76,89(6,17)


pela seleção de atributos biobjetivo;

• Os comitês heterogêneos obtiveram melhor desempenho que os comitês homogêneos.

144

Capítulo 8

Conclusão


Com o avanço das pesquisas sobre classificação de padrões, verificou-se que a combina-ção de um conjunto de classificadores produz melhores resultados que o uso de classificado-res individuais, desde que sejam respeitados critérios de diversidade entre os classificadorescomponentes do sistema. O uso de algoritmos de aprendizagem diferentes ou ainda deparâmetros diferentes para inicialização de algoritmos de aprendizagem iguais, além detécnicas como bagging e boosting que constroem classificadores com conjuntos de padrõesdiferentes, são formas de se prover diversidade e que são usados com frequência na cons-trução de comitês de classificadores. Outra forma de se obter diversidade em comitês declassificadores, que tem sido pesquisada de modo mais discreto, é através da seleção deatributos para construir classificadores com subconjuntos de atributos diferentes, fazendocom que os classificadores generalizem de modo diverso.

A maioria das pesquisas que envolvem seleção de subconjuntos de atributos para cons-trução de comitês de classificadores utiliza uma abordagem wrapper, onde a acurácia doclassificador é utilizada como função de ajuste do algoritmo de busca. Essa abordagem

8.2 Conclusões Obtidas 145

obtém bons resultados, porém é dependente do algoritmo de aprendizagem, ou seja, deveser executado novamente sempre que se desejar modificar o algoritmo, além disso, temum custo computacional alto, podendo ser proibitiva para casos em que a base de dadoscontém muitos atributos.

Sendo assim, o objetivo principal deste trabalho foi definir uma abordagem indepen-dente do algoritmo de aprendizagem e de baixo custo computacional que otimizasse adiversidade de comitês de classificadores, através da seleção de subconjuntos de atributosdiversos. Isso foi feito utilizando metaheurísticas com inspiração biológica, que são algo-ritmos de fácil implementação, baixo custo computacional e eficientes na determinação desoluções subótimas.

As metaheurísticas utilizadas foram: Algoritmos Genéticos, Colônia de Formigas eNuvem de Partículas, em versões mono-objetivo e biobjetivo. Foi realizada uma análisecomparativa dos resultados obtidos e buscou-se identificar a diferença no desempenho entre:

• Comitês sem seleção de atributos x Comitês com seleção de atributos;

• Comitês com seleção aleatória dos atributos x Comitês com seleção de atributos feitapelas metaheurísticas;

• Algoritmos Genéticos x Colônia de Formigas x Nuvem de Partículas;

• Metaheurísticas mono-objetivo x Metaheurísticas biobjetivo.

Foi realizado, ainda, uma análise para determinar se existe correlação entre a interseçãode atributos nos subconjuntos selecionados e a acurácia do comitê.

8.2 Conclusões Obtidas

A análise dos experimentos foi dividida em quatro fases, na primeira objetivou-se com-parar os melhores resultados mono-objetivo com os melhores resultados biobjetivo, defi-nindo para cada método de seleção de atributos qual modelo, mono-objetivo ou biobjetivo,produz melhores resultados para o problema em questão. Além disso, foi feita uma com-paração dos melhores resultados com seleção de atributos e dos resultados sem seleção


de atributos, para determinar se a seleção foi benéfica aos sistemas de classificação. Asseguintes conclusões foram obtidas:

• Na versão mono-objetivo, o PSO e o ACO apresentaram melhor desempenho naseleção de subconjuntos diversos de atributos, minimização da correlação interclassi-ficadores, enquanto o AG obteve melhor desempenho na seleção de atributos diversospara um mesmo conjunto, minimização da correlação intraclassificadores;

• Os sistemas de classificação com seleção de atributos utilizando as duas versões bi-objetivo implementadas tanto do PSO quanto do AG tiveram um desempenho muitopróximo, com uma diferença média de 0,27 e 0,33 pontos percentuais, respectiva-mente. Já os sistemas com os atributos selecionados pelas duas versões biobjetivodo ACO, bACO1 e bACO2, tiveram uma diferença mais significativa, de 1,15 pontospercentuais;

• Para todas as metaheurísticas estudadas, PSO, ACO e AG, a seleção de atributosfeita pelas versões biobjetivo proporcionaram melhores resultados no desempenhodos sistemas de classificação que a seleção feita pelas versões mono-objetivo;

• A diferença entre as versões biobjetivo e mono-objetivo foi mais expressiva no PSO,cuja versão biobjetivo produziu melhores resultados em 85% dos casos e a diferençamédia no desempenho dos sistemas foi de 1,13 pontos percentuais. O AG foi o métodocuja diferença entre as versões mono e biobjetivo foi menor, sendo a versão biobjetivomelhor em 63% dos casos e tendo uma diferença média de 0,53 pontos percentuaisno desempenho dos sistemas de classificação;

• Para todas as metaheurísticas estudadas, PSO, ACO e AG, os sistemas de classifi-cação com seleção de atributos tiveram desempenho médio superior aos sistemas declassificação sem seleção de atributos, com a base de dados completa;

• A diferença entre as versões com seleção de atributos e sem seleção foi mais expressivano PSO, onde os sistemas com seleção foram superiores aos sistemas sem seleçãoem 89% dos casos e com uma diferença média de 2,12 pontos percentuais entre osdesempenhos dos referidos sistemas. O ACO foi o método com menor quantidade de


casos em que a versão com seleção de atributos foi superior a versão sem seleção, 70%dos casos, mas ainda assim é um resultado significativo. A menor diferença média nodesempenho dos sistemas com e sem seleção foi dos sistemas com seleção feita peloAG, com 1,98 pontos percentuais, mas ainda assim, um resultado significativo.

A segunda fase da análise buscou comparar as metaheurísticas utilizadas para seleçãodos atributos, ACO, AG e PSO, agrupando seus resultados por objetivo. Foram compara-dos também os resultados dos sistemas de classificação utilizando seleção de atributos feitapor um método randômico, seleção de atributos aleatória. As seguintes conclusões foramobtidas:

• Os sistemas de classificação com seleção de atributos feita pelas três metaheurísticasestudadas tiveram desempenho superior estatisticamente aos sistemas com seleçãoaleatória. Sendo a diferença média entre o desempenho desses sistemas bastanteexpressiva, em torno de 5,16 pontos percentuais. Isso mostra a real utilidade noemprego das metaheurísticas para selecionar os atributos, visto que uma seleçãoindiscriminada não obtém os mesmos resultados;

• Dentre as três metaheurísticas, a que proporcionou resultados mais baixos foi o ACO,ficando em média a 1,66 pontos percentuais abaixo do PSO e 2,06 pontos percentuaisabaixo do AG;

• O AG proporcionou os melhores resultados para a seleção de atributos com mini-mização da correlação intraclassificadores, ou seja, o AG foi a metaheurística queconseguiu com mais êxito selecionar atributos diversos dentro de um mesmo con-junto, diminuindo a redundância dos dados e aumentando a diversidade interna dosclassificadores base;

• Já em relação à minimização da correlação interclassificadores, o PSO foi a metaheu-rística que obteve melhores resultados, conseguindo com mais êxito formar conjuntosdiversos de atributos, produzindo comitês de classificadores diversos;

• Na versão biobjetivo, o desempenho dos sistemas com seleção feita pelo PSO foiconsideravelmente melhor que os demais, obtendo os melhores resultados em 78%dos casos;


• Interessante observar ainda que os sistemas com seleção feita pelo AG nas versõesmono e biobjetivo tiveram pouca diferença em seu desempenho, em média 0,53 pontospercentuais, enquanto que os sistemas com seleção feita pelo ACO e pelo PSO tiveramuma diferença de desempenho entre as versões mono e biobjetivo maior, 1,17 e 1,13pontos percentuais, respectivamente.

A terceira fase apresentou uma análise sobre a interseção dos atributos para determinarse existe uma correlação linear entre a interseção de atributos nos subconjuntos selecionadose a acurácia do comitê. Para isso, foi calculada a interseção média dos atributos paracada um dos casos estudados, ou seja, foi calculada a porcentagem média de atributosrepetidos utilizados na construção dos comitês. Além disso, foi feito o cálculo do coeficientede correlação de Pearson entre a quantidade média de atributos repetidos e o erro docomitê, a fim de identificar se há uma correlação linear entre a interseção dos atributos eo desempenho do comitê. As conclusões obtidas foram as seguintes:

• O PSO foi a metaheurística que selecionou subconjuntos de atributos com menorinterseção, enquanto o ACO selecionou subconjuntos com maior interseção dos atri-butos;

• O cálculo do coeficiente de correlação de Pearson mostrou não haver uma correlaçãolinear forte entre a interseção dos atributos na seleção de subconjuntos de atributospara comitês de classificadores e o erro do comitê para os experimentos feitos.

Por fim, uma análise sobre os comitês foi feita levando em consideração os métodos decombinação empregados e a estrutura dos comitês (homogênea e heterogênea) para identi-ficar os métodos com melhor e pior desempenho e analisar seu comportamento utilizandoos dados selecionados pelas metaheurísticas mono-objetivo e biobjetivo. As seguintes con-clusões foram obtidas:

• Todos os métodos de combinação tiveram melhor desempenho médio quando utiliza-ram a base de dados reduzida pela seleção de atributos biobjetivo;

• O método de combinação que apresentou melhor desempenho médio na maioria doscasos foi o SVM;

8.3 Trabalhos Futuros 149

• O método de combinação que obteve desempenho médio mais baixo foi o KNN;

• A seleção de atributos biobjetivo conseguiu diminuir a diferença de desempenho entreos métodos de combinação, tornando a escolha do método menos crítica;

• Os métodos que tiveram maior ganho de desempenho quando passaram da versãomono-objetivo para a versão biobjetivo foram os métodos mais simples: Voto, Somae Soma ponderada;

• Tanto os comitês com estrutura homogênea quanto os comitês com estrutura hetero-gênea tiveram melhor desempenho médio quando utilizaram a base de dados reduzidapela seleção de atributos biobjetivo;

• Os comitês heterogêneos obtiveram melhor desempenho que os comitês homogêneos.

Este trabalho traz uma contribuição às pesquisas sobre comitês de classificadores, apre-sentando uma ferramenta para melhorar seu desempenho, a partir da seleção de subcon-juntos diversos de atributos para construção dos classificadores base, utilizando uma abor-dagem baseada em filtro que permite que esta ferramenta seja generalista em relação aosalgoritmos de classificação, ou seja, a seleção feita pode ser empregada com qualquer al-goritmo de aprendizagem sem a necessidade de uma nova execução, além de ter um custocomputacional baixo. A análise dos sistemas implementados pode guiar novas pesquisas,servindo como ponto inicial para outros trabalhos na área de comitês de classificadores.

8.3 Trabalhos Futuros

A seguir são apresentados alguns pontos que podem ser desenvolvidos em futuras pes-quisas com o método de otimização proposto:

• Utilizar o sistema com bases de dados maiores, com mais atributos, já que nestetrabalho, o sistema proposto foi aplicado a bases de dados com até 600 atributos;

• Comparar o método para seleção de subconjuntos de atributos proposto com outrosmétodos de seleção propostos na literatura, em especial modelos wrapper, e nessecaso, considerar o tempo de execução dos métodos;

8.3 Trabalhos Futuros 150

• Permitir que o método selecione nenhum atributo, e nesse caso o classificador quereceberia este subconjunto não comporia o comitê, isso permitiria a construção decomitês com tamanhos diferentes, definido dinamicamente pelo método de seleção deatributos;

• Acrescentar mais objetivos, como a complexidade do sistema, por exemplo, e nessecaso comitês com menos componentes e/ou menos atributos seriam preferidos à co-mitês maiores com desempenhos equivalentes.

151

Referências

ABREU, M. Analisando o desempenho do Classage: Um sistema multiagente paraclassificação de padrões. Dissertação (Mestrado) — Departamento de Informática eMatemática aplicada, Universidade Federal do Rio Grande do Norte, Natal, 2006. 133p.

AGHDAM, M.; GHASEM-AGHAEE, N.; BASIRI, M. Text feature selection using antcolony optimization. Expert Systems with Applications, v. 36, n. 3, p. 6843–6853, 2009.

AL-ANI, A. Ant colony optimization for feature subset selection. Society, v. 4, p. 35–38,2005.

ALAYA, I.; SOLNON, C.; GHEDIRA, K. Ant colony optimization for multi-objectiveoptimization problems. In: Proceedings of IEEE International Conference on Tools withArtificial Intelligence. Washington: IEEE Computer Society, 2007. p. 450–457.

ALMEIDA, P.; FILHO, C. S.; JOTA, F. A novel real time integrated environment forthe design of pratical fuzzy controllers. In: Proceedings of International Conference onKnowledge-Based Intelligent Electronic Systems. Washington: IEEE Computer Society,1998. p. 155–164.

ALVAREZ-BENITEZ, J.; EVERSON, R.; FIELDSEND, J. A mopso algorithm based ex-clusively on pareto dominance concepts. In: Proceedings of Conference on EvolutionaryMultiCriterion Optimization. Berlin: Springer, 2005. (Lecture Notes in Computer Science,v. 3410), p. 459–473.

ANGELO, J. Algoritmos baseados em colônia de formigas para otimização multiobjetivo.Dissertação (Mestrado) — Laboratório Nacional de Computação Científica, Petrópolis,2008. 110p.

ARROYO, J. Heurísticas e metaheurísticas para otimização combinatória multiobjetivo.Tese (Doutorado) — Faculdade de Engenharia Elétrica e de Computação, UniversidadeEstadual de Campinas, 2002. 227p.

AYRES, M.; JR, M. A.; AYRES, D.; SANTOS, A. Bioestat: Aplicações estatísticas nasáreas das ciências biomédicas. 5. ed. Belém, PA, 2007.

BAUER, E.; KOHAVI, R. An empirical comparison of voting classification algorithms:Bagging, boosting, and variants. Machine Learning, Springer Netherlands, v. 36, p.105–139, 1999.

Referências 152

BELLO, R.; NOWE, A.; CABALLERO, Y.; GOMEZ, Y.; VRANCX, P. A model based onant colony system and rough set theory to feature selection. In: Proceedings of Conferenceon Genetic and Evolutionary Computation. New York: ACM, 2005. p. 275–276.

BEN-YACOUB, S.; ABDELJAOUED, Y.; MAYORAZ, E. Fusion of face and speechdata for person identity verification. IEEE Transactions on Neural Network, v. 10, p.1065–1074, 2001.

BITTENCOURT, G. Inteligência Artificial: Ferramentas e Teorias. 3. ed. Florianópolis:Universidade Federal de Santa Catarina, 2001. 371 p.

BLUM, A.; LANGLEY, P. Selection of relevant features and examples in machinelearning. Journal of Artificial Intelligence Research, v. 97, n. 1, p. 245–271, 1997.

BRAGA, A.; CARVALHO, A.; LUDERMIR, T. Sistemas inteligentes: Fundamentose aplicações. In: . São Paulo: Manole, 2002. cap. Redes Neurais Artificiais, p.141–168.

BREIMAN, L. Classification and Regression Trees. Londres: Chapman and Hall/CRC,1984. 368 p.

BREIMAN, L. Bagging predictors. Machine Learning, v. 24, n. 2, p. 123–140, 1996.

BRYLL, R.; GUTIERREZ-OSUNA, R.; QUEK, F. Attribute bagging: improvingaccuracy of classifier ensembles by using random feature subsets. Pattern Recognition,v. 36, n. 6, p. 1291–1302, 2003.

CARVALHO, A.; BRAGA, A.; LUDERMIR, T. Sistemas inteligentes: Fundamentos eaplicações. In: . São Paulo: Manole, 2002. cap. Computação Evolutiva, p. 225–248.

CARVALHO, A.; BRAGA, A.; REZENDE, S.; LUDERMIR, T.; MARTINELI, E.Heuristic and optimization for knowledge discovery. In: . Londres: Idea GroupPublishing, 2002. cap. Understanding credit card users behaviour: A data miningapproach, p. 240–261.

CAçãO, R. Testes Estatísticos: Testes paramétricos e não paramétricos. Março 2010.Disponível em: <http://www.slideshare.net/rosariocacao/testes-parametricos-e-nao-parametricos-3396639>.

CHIANG, Y.; CHIANG, H.; LIN, S. The application of ant colony optimization forgene selection in microarray-based cancer classification. In: Proceedings of InternationalConference on Machine Learning and Cybernetics. Washington: IEEE Computer Society,2008. p. 4001–4006.

CHáVEZ, M.; CASAS, G.; FALCóN, R.; MOREIRA, J.; GRAU, R. Building fine bayesiannetworks aided by pso-based feature selection. Advances in Artificial Intelligence, v. 4827,p. 441–451, 2007.

Referências 153

COELLO, C.; LECHUGA, M. Mopso: A proposal for multiple objective particle swarmoptimization. In: Proceedings of Congress on Evolutionary Computation. Washington:IEEE Computer Society, 2002. v. 2, p. 1051– 1056.

CORREA, E.; FREITAS, A.; JOHNSON, C. A new discrete particle swarm algorithmapplied to attribute selection in a bioinformatics data set. In: Proceedings of AnnualConference on Genetic and Evolutionary Computation,. New York: ACM, 2006. p. 35–42.

CORREA, E.; FREITAS, A.; JOHNSON, C. Particle swarm and bayesian networksapplied to attribute selection for protein functional classification. In: Proceedings ofConference Companion on Genetic and Evolutionary Computation. New York: ACM,2007. p. 2651–2658.

CORREA, E.; FREITAS, A.; JOHNSON, C. Particle swarm for attribute selection inbayesian classification: an application to protein function prediction. Journal of ArtificialEvolution and Applications, v. 2008, p. 1–12, 2008.

COSTA, L. Bioinformatics: Perspectives for the future. Genetics and Molecular Research,v. 3, n. 4, p. 564–574, 2004.

DAS, S. Filters, wrappers and a boosting-based hybrid for feature selection. In:Proceedings of International Conference on Machine Learning. San Francisco: MorganKaufmann Publishers, 2001. p. 74–81.

DASGUPTA, A.; DRINEAS, P.; HARB, B.; JOSIFOVSKI, V.; MAHONEY, M. Featureselection methods for text classification. In: Proceedings of International Conference onKnowledge Discovery and Data Mining. New York: ACM, 2007. p. 230–239.

DEB, K.; PRATAP, A.; AGARWAL, S.; MEYARIVAN, T. A fast elitist multi-objectivegenetic algorithm: Nsga-ii. IEEE Transactions on Evolutionary Computation, v. 6, p.182–197, 2000.

DESSI, N.; PES, B. An evolutionary method for combining different feature selectioncriteria in microarray data classification. Journal of Artificial Evolution and Applications,v. 2009, n. 3, p. 1–10, 2009.

DIETTERICH, T. Machine learning research: four current directions. AI Magazine, v. 18,n. 4, p. 97–136, 1997.

DIETTERICH, T. G. An experimental comparison of three methods for constructingensembles of decision trees: Bagging, boosting, and randomization. Machine Learning,Springer Netherlands, v. 40, p. 139–157, 2000.

DOERNER, K.; GUTJAHR, W.; HARTL, R.; STRAUSS, C.; STUMMER, C. Ant colonyoptimization in multiobjective portfolio selection. In: Proceedings of MetaheuristicsInternational Conference. [S.l.: s.n.], 2001. p. 243–248.

Referências 154

DOERNER, K.; GUTJAHR, W.; R, H.; C, S.; C, S. Pareto ant colony optimization: Ametaheuristic approach to multiobjective portfolio selection. In: Annals of OperationsResearch. Berlim: Springer, 2004. v. 131, p. 79–99.

DOKAISANY, H.; VICE, D.; HALLECK, P. Detection of hydrocarbon reservoirboundaries using neural network analysis of surface geochemical data. AAPG Bulletin,v. 87, n. 12, p. 1893–1904, 2000.

DORIGO, M. Optimization, learning and natural algorithms. Tese (Doutorado) —Dipartimento di Elettronica, Politecnico di Milano, Milão, 1992.

DURILLO, J.; NEBRO, A.; LUNA, F.; DORRONSORO, B.; ALBA, E. JMetal: A JavaFramework for Developing Multi-Objective Optimization Metaheuristics. Málaga, 2006.

EMMANOUILIDIS, C.; HUNTER, A.; MACINTYRE, J. A multiobjective evolutionarysetting for feature selection and a commonality-based crossover operator. In: Proceedingsof Congress Evolutionary Computation. Whashington: IEEE Computer Society, 2000. p.309 –316.

EMMANOUILIDIS, C.; HUNTER, A.; MACINTYRE, J.; COX, C. A multi-objectivegenetic algorithm approach to feature selection in neural and fuzzy modeling. EvolutionaryOptimization, v. 3, n. 1, p. 1–26, 2001.

EVSUKOFF, A.; GENTIL, S. Recurrent neuro-fuzzy system for fault detection andisolation in nuclear reactors. Advanced Engineering Informatics, v. 19, p. 55–66, 2005.

FIELDSEND, J. Multi-Objective particle Swarm optimization methods. Exeter, Devon,England, 2005.

FIELDSEND, J.; SINGH, S. A multi-objective algorithm based upon particle swarmoptimization, an efficient data structure and turbulence. In: Proceedings of the U.K.Workshop on Computational Intelligence. [S.l.: s.n.], 2002. p. 37–44.

FISHER, R. Statistical Methods, Experimental Design, and Scientific Inference. NewYork: Oxford University Press, 1990. 870 p.

FRANK, A.; ASUNCION, A. UCI Machine Learning Repository. Irvine, CA, 2010.Disponível em: <http://archive.ics.uci.edu/ml/>.

FROHLICH, H.; CHAPELLE, O.; SCHOLKOPF, B. Feature selection for supportvector machines by means of genetic algorithm. In: Proceedings of IEEE InternationalConference on Tools with Artificial Intelligence. Washington: IEEE Computer Society,2003. p. 142–148.

GAMBARDELLA, L.; TAILLARD, E.; AGAZZI, G. Macs-vrptw: A multiple colonysystem for vehicle routing problems with time windows. In: New Ideas in Optimization.New York: McGraw-Hill, 1999. p. 63–76.

Referências 155

GAO, H.; YANG, H.; WANG, X. Ant colony optimization based network intrusion featureselection and detection. In: Proceedings of International Conference on Machine Learningand Cybernetics. Washington: IEEE Computer Society, 2005. p. 3871–3875.

GARCIA, A.; FERRAZ, I.; ARAúJO, E.; BELHOT, R. Intelligent systems fortransformers tests. In: Proceedings of International Conference on Intelligent SystemApplication to Power Systems. Washington: IEEE Computer Society, 1999. p. 209–215.

GARCIA-MARTINEZ, C.; CORDON, O.; HERRERA, F. A taxonomy and an empiricalanalysis of multiple objective ant colony optimization algorithms for the bi-criteria tsp.European Journal of Operational Research, v. 180, p. 116–148, 2007.

GIACINTO, G.; ROLI, F. Methods for dynamic classifier selection. In: Proceedingsof International Conference on Image Analysis and Processing. Washington: IEEEComputer Society, 1999. p. 659–664.

GRAVEL, M.; PRICE, W.; GAGNE, C. Scheduling continuous casting of aluminumusing a multiple objective ant colony optimization metaheuristic. European Journal ofOperational Research, v. 143, p. 218–229, 2002.

GUERRA-SALCEDO, C.; WHITLEY, D. Genetic approach to feature selection forensemble creation. In: Proceedings of Genetic and Evolutionary Computation Conference.San Francisco: Morgan Kaufmann Publishers, 1999. p. 236–243.

GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. Journalof Machine Learning Research, v. 3, p. 1157–1182, 2003.

GUYON, I.; WESTON, J.; BARNHILL, S.; VAPNIK, V. Gene selection for cancerclassification using support vector machines. Machine Learning, v. 46, n. 1, p. 389–422,2002.

HALL, M. Correlation-based Feature Selection for Machine Learning. Tese (Doutorado)— Department of Computer Science, University of Waikato, Hamilton, NewZealand,1999. 198p.

HALL, M. Correlation-based feature selection for discrete and numeric class machinelearning. In: Proceedings of International Conference on Machine Learning. San Francisco:Morgan Kaufmann, 2000. p. 359–366.

HALL, M.; FRANK, E.; HOMES, G.; PFAHRINGER, B.; REUTEMANN, P.; WITTEN,I. The weka data mining software: An uptade. SIGKD Explorations, v. 11, n. 1, p. 10–11,2009.

HAYKIN, S. Redes Neurais: Princípios e Práticas. Boston: Bookman, 2001. 900 p.

HEBB, D. The Organization of Behavior. New York: Wiley, 1949. 335 p.

Referências 156

HU, X.; EBERHART, R. Multiobjective optimization using dynamic neighborhoodparticle swarm optimization. In: Proceedings of Congress on Evolutionary Computation.Washington: IEEE Computer Society, 2002. v. 2, p. 1677–1681.

HUANG, B.; BUCKLEY, B.; KECHADI, T. Multi-objective feature selection by usingnsga-ii for customer churn prediction in telecommunications. Expert Systems withApplications, v. 37, n. 5, p. 3638–3646, 2010.

HUANG, C.; DUN, J. A distributed pso-svm hybrid system with feature selection andparameter optimization. Applied Soft Computing, v. 8, n. 4, p. 1381–1391, 2008.

HUANG, C.; WANG, C. A ga-based feature selection and parameters optimization forsupport vector machines. Expert Systems with Applications, v. 31, n. 2, p. 231–240, 2006.

HUEI, D. Seleção de atributos relevantes para a extração de conhecimento de bases dedados. Tese (Doutorado) — Instituto de Ciências Matemáticas e de Computação, USP,São Carlos, 2005. 182p.

INZA, I.; LARRAOAGA, P.; ETXEBERRIA, R.; SIERRA, B. Feature subset selection bybayesian network-based optimization. Journal of Artificial Intelligence Research, v. 123,n. 1, p. 157–184, 2000.

IREDI, S.; MERKLE, D.; MIDDENDORF, M. Bi-criterion optimization with multicolony ant algorithms. In: Proceedings of Conference on Evolutionary MultiCriterionOptimization. Berlin: Springer, 2001. (Lecture Notes in Computer Science, v. 1993), p.359–372.

ISHIBUCHI, H. Multi-objective pattern and feature selection by a genetic algorithm. In:Proceedings of Genetic and Evolutionary Computation Conference. San Mateo: MorganKaufmann Publishers, 2000. p. 1069–1076.

ISWANDY, K.; KOENIG, A. Feature-level fusion by multi-objective binary particle swarmbased unbiased feature selection for optimized sensor system design. In: Proceedings ofIEEE International Conference on Multisensor Fusion and Integration for IntelligentSystems. Washington: IEEE Computer Society, 2006. p. 365–371.

JAIN, A.; CHANDRASEKARAN, B. Dimensionality and sample size considerationsin pattern recognition practice. In: KRISHNAIAH, P. (Ed.). Handbook of Statistics.North-Holland: Elsevier Science Pub, 1982. p. 835–855.

JAIN, A.; ZONGKER, D. Feature selection: evaluation, application, and small sampleperformance. IEEE Transactions on Pattern Analysis and Machine, v. 19, n. 2, p.153–158, 1997.

JAMES, B. Probabilidade: um curso em nível intermediário. 3. ed. Rio de Janeiro: IMPA,2004.

Referências 157

JúNIOR, C. M. Questões em bioestatistica: O tamanho da amostra. RevistaInterdisciplinar de Estudos Experimentais, v. 1, n. 1, p. 26–28, 2009.

KANAN, H.; FAEZ, K. An improved feature selection method based on ant colonyoptimization (aco) evaluated on face recognition system. Applied Mathematics andComputation, v. 205, n. 2, p. 716–725, 2008.

KENNEDY, J.; EBERHART, R. Particle swarm optimization. In: Proceedings ofInternational Conference on Neural Network. Washington: IEEE Computer Society, 1995.p. 1942–1948.

KITTLER, J. Pattern recognition and signal processing. In: . Alphen aan den Rjin:Sithof and Noordhoff, 1978. cap. Feature set search algorithm, p. 41–60.

KITTLER, J.; ALKOOT, F. Sum versus vote fusion in multiple classifier systems. IEEETransactions on Pattern Analysis and Machine Intelligence, v. 25, p. 110–115, 2003.

KOHAVI, R.; JOHN, G. Wrappers for feature subset selection. Journal of ArtificialIntelligence Research, v. 97, n. 1, p. 271–324, 1997.

KUDO, M.; SKLANSKY, J. Comparison of algorithms that select features for patternclassifiers. Pattern Recognition, v. 33, n. 1, p. 25–41, 2000.

KUNCHEVA, L. Genetic algorithm for feature selection for parallel classifiers. InformationProcessing Letters, v. 46, n. 4, p. 163–168, 1993.

KUNCHEVA, L. Combining Pattern Classifiers: Methods and Algorithms. New York:Wiley, 2004. 376 p.

LACERDA, E.; CARVALHO, A. Sistemas inteligentes: aplicações a recursos hídricose ciências ambientais. In: . Porto Alegre: UFRGS, 1999. cap. Introdução aoalgoritmos genéticos, p. 99–150.

LEE, H.; MONARD, M.; WU, F. Seleção de atributos relevantes e não redundantesusando a dimensão fractal do conjunto de dados. In: Anais do V Encontro Nacional deInteligência Artificial, XXV Congresso da Sociedade Brasileira de Computação. PortoAlegre: Sociedade Brasileira de Computação, 2005. p. 444–453.

LEMIEUX, A.; PARIZEAU, M. Flexible multi-classifier architecture for face recognitionsystems. Vision Interface, 2003.

LINDEN, R. Algoritmos Genéticos: Teoria e Implementação. São Paulo: Brasport, 2006.115 p.

LIU, B.; CUI, Q.; JIANG, T.; MA, S. A combinational feature selection and ensembleneural network method for classification of gene expression data. Bioinformatics, v. 5,n. 1, p. 136, 2004.

Referências 158

LIU, H.; YU, L. Toward integrating feature selection algorithms for classification andclustering. IEEE Transactions on Knowledge and Data Engineering, v. 17, n. 4, p.491–502, 2005.

LOPEZ-IBANEZ, M.; STUTZLE, T. Automatic configuration of multi-objective acoalgorithms. In: Swarm Intelligence. Berlin: Springer, 2010, (Lecture Notes in ComputerScience, v. 6234). p. 95–106.

MACLIN, R.; OPITZ, D. An empirical evaluation of bagging and boosting. In: Proceedingsof National Conference on Artificial Intelligence, 14 and Conference on InnovativeApplications of Artificial Intelligence, 9. Menlo Park: AAAI Press, 1997. p. 546–551.

MAIA, J.; DESCO, M.; JR., O. M.; KATO, E. Expanding the production planning systembased on simulation (ppss) to dynamically reschedule production in a fms. In: Proceedingsof IEEE International Conference on Systems, Man and Cybernetics. Washington: IEEEComputer Society, 2002. v. 5, p. 6.

MARIANO, C.; MORALES, E. A Multiple Objective Ant-Q Algorithm for the Design ofWater Distribution Irrigation Networks. Jiutepec, Morelos, México, 1999. 40p.

MAYER, L. Tecnologia microarray (biochips de DNA). 2009. Último acesso em 21 deoutubro de 2011. Disponível em: <http://www.webartigos.com/artigos/tecnologia-microarray-biochips-de-dna/17028/ixzz1RqNyqu8D>.

MCCULLOCH, W.; PITTS, W. A logical calculus of the ideas immanent in nervousactivity. Bulletin of Mathematical Biology, v. 5, n. 4, p. 115–133, 1943.

METHER, M. The history of the central limit theorem. Sovelletun Ma-tematiikan erikoistyöt, v. 2, n. 108, p. 1–23, 2003. Disponível em:<http://www.sal.tkk.fi/vanhat

s

ivut/Opinnot/Mat� 2.108/pdf � files/emet03.pdf>.

MITCHELL, T. Machine Learning. New York: McGraw Hill, 1997. 414 p.

MONARD, M.; BARANAUSKA, J. Sistemas inteligentes: Fundamentos e aplicações.In: . São Paulo: Manole, 2002. cap. Conceitos sobre aprendizado de máquina, p.89–114.

MONTI, S.; TAMAYO, P.; MESIROV, J.; GOLUB, T. Consensus clustering: Aresampling-based method for class discovery and visualization of gene expressionmicroarray data. Machine Learning, v. 52, p. 91–118, 2003.

MOORE, J.; CHAPMAN, R. Application of particle swarm to multiobjective optimization.Auburn, Alabama, USA, 1999.

MORITA, M.; SABOURIN, R.; BORTOLOZZI, F.; SUEN, C. Unsupervised featureselection using multi-objective genetic algorithms for handwritten word recognition.In: Proceedings of International Conference on Document Analysis and Recognition.Washington: IEEE Computer Society, 2003. p. 666–670.

Referências 159

MOSTAGHIM, S.; TEICH, J. The role of e-dominance in multi objective particleswarm optimization methods. In: Proceedings of Congress on Evolutionary Computation.Washington: IEEE Computer Society, 2003. v. 3, p. 1764–1771.

MUCCIARDI, A.; GOSE, E. A comparison of seven techniques for choosing subsetsof pattern recognition properties. IEEE Transactions on Computers, v. 20, n. 9, p.1023–1031, 1971.

MURZIN, A.; BRENNER, S.; HUBBARD, T.; CHOTHIA, C. Scop: a structuralclassification of proteins database for the investigation of sequences and structures 247,536-540. Journal of Molecular Biology, v. 247, p. 536–540, 1995.

OH, S.; LEE, J.; MOON, B. Local search-embedded genetic algorithms for featureselection. In: Proceedings of International Conference on Pattern Recognition. Washington:IEEE Computer Society, 2002. p. 148–151.

OH, S.; LEE, J.; MOON, B. Hybrid genetic algorithms for feature selection. IEEETransactions on Pattern Analysis and Machine Intelligence, v. 26, p. 1424–1437, 2004.

OLIVEIRA, L.; MORITA, M.; SABOURIN, R. Multi-objective machine learning: Studiesin computational intelligence. In: . Berlin: Springer, 2006. cap. Feature selection forensembles using the multi-objective optimization approach, p. 49–74.

OLIVEIRA, L.; SABOURIN, R.; BORTOLOZZI, F.; SUEN, C. Feature selection usingmulti-objective genetic algorithms for handwritten digit recognition. In: Proceedings ofInternational Conference on Pattern Recognition. Washington: IEEE Computer Society,2002. p. 568–571.

OLIVEIRA, L.; SABOURIN, R.; BORTOLOZZI, F.; SUEN, C. Feature selection forensembles: a hierarchical multi-objective genetic algorithm approach. In: Proceedings ofInternational Conference on Pattern Recognition. Washington: IEEE Computer Society,2003. p. 676–680.

OPITZ, D. Feature selection for ensembles. In: Proceedings of National Conference onArtificial intelligence, 16 and Innovative applications of Artificial Intelligence Conference,11. Menlo Park: AAAI Press, 1999. p. 379–384.

PAPPA, G. Seleção de Atributos utilizando Algoritmos Genéticos Multiobjetivos.Dissertação (Mestrado) — Programa de Pós-Graduação em Informática Aplicada,Pontifícia Universidade Católica do Paraná, Curitiba, 2002. 85p.

QUINLAN, J. Induction of decision trees. Machine Learning, v. 1, p. 81–106, 1986.

QUINLAN, J. C4.5 : programs for machine learning. San Francisco: Morgan KaufmannPublishers, 1993. 300 p.

Referências 160

QUINLAN, J. Bagging, boosting, and c4.5. In: National Conference on ArtificialIntelligence. Menlo Park: AAAI Press, 1996. p. 725–730.

RAY, T.; LIEW, K. A swarm metaphor for multiobjective design optimization.Engineering Optimization, v. 34, n. 2, p. 141–153, 2002.

REYES-SIERRA, M.; COELLO, C. Improving pso-based multi-objective optimizationusing crowding, mutation and e-dominance. In: Proceedings of International Conferenceon Evolutionary MultiCriterion Optimization. Berlin: Springer, 2005. (Lecture Notes onComputer Science, v. 3410), p. 505–519.

REYES-SIERRA, M.; COELLO, C. Multi-objective particle swarm optimizers: A surveyof the state-of-the-art. International Journal of Computational Intelligence Research, v. 2,n. 3, p. 287–308, 2006.

REZENDE, S. Sistemas inteligentes: Fundamentos e aplicações. In: . São Paulo:Manole, 2002. cap. Introdução, p. 3–11.

ROBBINS, K.; ZHANG, W.; BERTRAND, J.; REKAYA, R. The ant colony algorithmfor feature selection in high-dimension gene expression data for disease classification.Mathematical Medicine and Biology, v. 24, n. 4, p. 413–426, 2007.

ROSENBLATT, F. The perceptron: A probabilistic model for information storage andorganization in the brain. Psychological Review, v. 65, p. 386–408, 1958.

RUMELHART, D.; HINTON, G.; WILLIAMS, R. Learning representations byback-propagating errors. Nature, v. 323, p. 533–536, 1986.

SAEYS; YVAN; INZA. A review of feature selection techniques in bioinformatics.Bioinformatics, v. 23, n. 19, p. 2507–2517, 2007.

SANTANA, L. E. A. S.; SILVA, L. M. M.; CANUTO, A. M. P. Feature selection inheterogeneous structure of ensembles: A genetic algorithm approach. In: InternationalJoint Conference on Neural Networks. Washington: IEEE Computer Society, 2009. p.2784–2791.

SANTANA, L. E. A. S.; SILVA, L. M. M.; CANUTO, A. M. P. Bio-inspired meta-heuristicas feature selector in ensemble systems: A comparative analysis. In: IEEE InternationalJoint Conference on Neural Networks. Washington: IEEE Computer Society, 2011. p.1112–1119.

SANTANA, L. E. A. S.; SILVA, L. M. M.; CANUTO, A. M. P.; PINTRO, F.; VALE, K.M. O. A comparative analysis of genetic algorithm and ant colony optimization to selectattributes for an heterogeneous ensemble of classifiers. In: Congress on EvolutionaryComputing. Washington: IEEE Computer Society, 2010. p. 71–78.

Referências 161

SARAMAGO, S.; PRADO, J. Otimização por colônia de partículas. FAMAT em Revista,v. 4, p. 87–103, 2005.

SCHAFFER, D.; GREFENSTETTE, J. Multi-objective learning via genetic algorithms.In: Proceedings of IJCAI. Menlo Park: AAAI Press, 1985. p. 593–595.

SCHAPIRE, R.; FREUND, Y.; BARLETT, P.; LEE, W. Boosting the margin: Anew explanation for the effectiveness of voting methods. Annals of Statistics, v. 26, p.1651–1686, 1998.

SEIXO, J. Computação Evolucionária Princípios Biológicos Darwin. Coimbra, 2003. 5p.

SHEN, Q.; MEI, Z.; YE, B. Simultaneous genes and training samples selection bymodified particle swarm optimization for gene expression data classification. Computersin Biology and Medicine, v. 39, n. 7, p. 646–649, 2009.

SHEN, Q.; SHI, W.; KONG, W.; YE, B. A combination of modified particle swarmoptimization algorithm and support vector machine for gene selection and tumorclassification. Talanta, v. 71, n. 4, p. 1679–1683, 2007.

SICILIANO, A. Algoritmos genéticos e particle swarm optimization e suas aplicações aproblemas de guerra eletrônica. In: Anais do Simpósio de guerra eletrônica. [S.l.: s.n.],2007.

SIEDLECKI, W.; SKLANSKY, J. A note on genetic algorithms for large-scale featureselection. Pattern Recognition Letters, v. 10, n. 5, p. 335–347, 1989.

SIVAGAMINATHAN, R.; RAMAKRISHNAN, S. A hybrid approach for feature subsetselection using neural networks and ant colony optimization. Expert Systems withapplications, v. 33, p. 49–60, 2007.

SIVANANDAM, S.; DEEPA, S. Introduction to Genetic Algorithms. Berlin: Springer,2008.

SKALAK, D. The sources of increased accuracy for two proposed boosting algorithms. In:Proceedings of American Association for Artificial Intelligence. Menlo Park: AAAI Press,1996. p. 120–125.

SOUZA, T. Algoritmo evolucionário para a distribuição de produtos de petróleo por redesde polidutos. Dissertação (Mestrado) — Departamento de Informática e Matemáticaaplicada, Universidade Federal do Rio Grande do Norte, 2010. 135p.

STEARNS, S. On selecting features for pattern classifiers. In: Proceedings of InternationalConference on Pattern Recognition. Washington: IEEE Computer Society, 1976. v. 3, p.71–75.

Referências 162

TANOMARU, J. Motivação, fundamentos e aplicações de algoritmos genéticos. In: Anaisdo II Congresso Brasileiro de Redes Neurais. Rio de Janeiro: Sociedade Brasileira deRedes Neurais, 1995.

TSYMBAL, A.; PECHENIZKIY, M.; CUNNINGHAM, P. Diversity in search strategiesfor ensemble feature selection. Information Fusion, v. 6, n. 1, p. 83–98, 2005.

TSYMBAL, A.; PECHENIZKIY, M.; CUNNINGHAM, P. Sequential genetic search forensemble feature selection. In: Proceedings of International Joint Conference on Artificialintelligence. Menlo Park: AAAI Press, 2005. p. 877–882.

TSYMBAL, A.; PUURONEN, S.; PATTERSON, D. Ensemble feature selection with thesimple bayesian classification. Information Fusion, v. 4, n. 2, p. 87–100, 2003.

TURING, A. Computing machinery and intelligence. Mind, v. 59, p. 433–460, 1950.

VAPNIK, V. The Nature of Statistical Learning Theory. Berlin: Springer, 1995. 333 p.

VENKATADRI, M.; SRINIVASA, K. A multiobjective genetic algorithm for featureselection in data mining. International Journal of Computer Science and InformationTechnologies, v. 1, n. 5, p. 443–448, 2010.

VIANA, P.; PATARO, C. Aplicação de rede neural ressonante na laminaçãoo de produtosplanos. In: Anais do Simpósio Brasileiro de Redes Neurais. Rio de Janeiro: SociedadeBrasileira de Redes Neurais, 1998. v. 5, p. 285–288.

WIKIPéDIA. Segmentação (processamento de imagem) — Wikipédia, a en-ciclopédia livre. 2011. [Online; accessed 21-outubro-2011]. Disponível em:<http://pt.wikipedia.org/w/index.php?title=Segmenta

XING, E.; JORDAN, M.; KARP, R. Feature selection for high-dimensional genomicmicroarray data. In: Proceedings of International Conference on Machine Learning. SanFrancisco: Morgan Kaufmann Publishers, 2001. p. 601–608.

YANG, J.; HONAVAR, V. Feature subset selection using a genetic algorithm. IEEEIntelligent Systems and their Applications, v. 13, n. 2, p. 44–49, 1998.

YU, H.; GU, G.; LIU, H.; SHEN, J.; ZHU, C. A novel discrete particle swarm optimizationalgorithm for microarray data-based tumor marker gene selection. In: Proceedings ofInternational Conference on Computer Science and Software Engineering. Washington:IEEE Computer Society, 2008. p. 1057–1060.

YU, L.; LIU, H. Feature selection for high-dimensional data: A fast correlation-basedfilter solution. In: Proceedings of International Conference on Machine Learning. MenloPark: AAAI Press, 2003. p. 856–863.

Referências 163

YU, S. Feature selection and classifier ensembles: A study on hyperspectral remote sensingdata. Tese (Doutorado) — Department of physics, University of Antwerpen, Antwerpen,2003. 128p.

ZAHARIE, D.; HOLBAN, S.; LUNGEANU, D.; NAVOLAN, D. A computationalintelligence approach for ranking risk factors in preterm birth. In: Proceedings ofInternational Symposium on Applied Computational Intelligence and Informatics.Washington: IEEE Computer Society, 2007. p. 135–140.

ZENOBI, G.; CUNNINGHAM, P. Using diversity in preparing ensembles of classifiersbased on different feature subsets to minimize generalization error. Machine Learning,v. 2167, p. 576–587, 2001.

ZHOU, J. Face recognition by combining several algorithms. Dissertação (Mestrado) —Department of Sciency Computing, University of Cambridge, Cambridge, 2000.

ZHU, Z.; ONG, Y.; KUO, J. Multi-objective memetic algorithms: Studies in computationalintelligence. In: . [S.l.]: Springer Berlin, 2009. v. 171, cap. Feature selection usingsingle/multi-objective memetic frameworks, p. 111–131.

ZIO, E.; BARALDI, P.; GOLA, G. Feature-based classifier ensembles for diagnosingmultiple faults in rotating machinery. Applied Soft Computing, v. 8, n. 4, p. 1365–1380,2008.

ZITZLER, E.; LAUMANNS, M.; THIELE, L. SPEA2: Improving the Strength ParetoEvolutionary Algorithm. Zurich, 2001. 21p.

164

APÊNDICE A -- Resultados dos Métodos de

Combinação

As tabelas a seguir apresentam a acurácia média e desvio padrão dos métodos Soma,Voto, Soma ponderada, KNN, Naive Bayes e SVM, para comitês com 3, 6 e 12 componentesem cada uma das bases de dados estudadas.

A.1 Image

Tabela A.1: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base image

3 6 12

Mono Bi Mono Bi Mono Bi

Soma 85,70(2,65) 94,03(1,66) 91,72(1,95) 95,11(1,49) 94,01(1,58) 95,41(1,47)

Voto 80,97(3,28) 92,86(1,80) 89,29(2,39) 93,87(1,72) 92,76(1,84) 94,67(1,60)

S. Ponderada 87,75(2,29) 94,48(1,66) 92,05(1,82) 95,32(1,45) 94,27(1,59) 95,64(1,48)

KNN 89,10(2,30) 93,44(1,91) 93,47(1,72) 94,89(1,54) 95,57(1,50) 96,00(1,37)

Naive Bayes 89,47(2,52) 93,75(2,05) 93,28(1,97) 94,58(1,71) 94,56(1,87) 95,30(1,62)

SVM 91,53(1,94) 95,07(1,53) 94,91(1,55) 96,01(1,30) 96,37(1,36) 96,76(1,21)

A.2 SCOP 165

A.2 SCOP

Tabela A.2: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base SCOP

3 6 12


Soma 77,36(4,16) 78,66(4,13) 79,17(4,06) 80,08(4,05) 80,56(4,03) 81,30(3,94)

Voto 76,87(4,23) 78,13(4,25) 77,54(4,35) 78,69(4,41) 79,77(4,15) 80,53(4,10)

S. Ponderada 77,33(4,08) 78,66(4,10) 78,92(4,08) 79,80(4,12) 79,99(4,20) 80,72(4,08)

KNN 73,76(5,06) 74,51(4,96) 75,68(4,82) 75,68(5,09) 77,87(4,55) 77,62(4,88)

Naive Bayes 78,30(4,16) 78,87(4,08) 79,56(4,39) 79,49(4,60) 80,17(4,45) 80,28(4,51)

SVM 78,62(4,20) 79,05(4,36) 80,43(4,02) 80,45(4,21) 80,67(4,07) 80,44(4,10)

A.3 Breastcancer

Tabela A.3: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Breastcancer

3 6 12


Soma 94,57(2,72) 95,92(2,32) 96,01(2,05) 96,28(1,96) 96,40(1,99) 96,50(1,96)

Voto 94,46(2,75) 95,91(2,30) 96,01(2,08) 96,16(2,04) 96,41(1,95) 96,50(2,01)

S. Ponderada 94,61(2,73) 95,91(2,32) 95,95(2,12) 96,19(2,02) 96,37(2,03) 96,48(1,96)

KNN 93,74(3,30) 94,77(3,04) 94,74(2,74) 94,92(2,88) 95,07(2,57) 95,11(3,12)

Naive Bayes 95,03(2,60) 95,89(2,29) 95,80(2,16) 95,94(2,13) 96,16(2,01) 96,14(2,15)

SVM 94,86(2,67) 95,38(2,42) 95,60(2,37) 95,78(2,30) 95,87(2,26) 95,95(2,25)

A.4 Gaussian3 166

A.4 Gaussian3

Tabela A.4: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Gaussian3

3 6 12


Soma 86,85(9,52) 88,39(8,28) 91,32(8,23) 90,42(8,12) 93,44(6,39) 92,63(6,45)

Voto 86,64(9,39) 88,39(8,09) 89,63(8,83) 88,68(8,10) 92,22(6,67) 92,07(7,17)

S. Ponderada 88,51(8,86) 89,88(7,42) 92,32(6,69) 92,06(6,23) 93,78(5,28) 93,36(5,69)

KNN 85,27(9,57) 87,38(8,35) 90,25(6,53) 89,64(6,59) 91,67(4,96) 91,38(5,22)

Naive Bayes 89,00(8,08) 90,33(6,68) 91,35(7,06) 90,59(7,06) 92,03(5,81) 92,03(5,41)

SVM 88,95(7,49) 90,08(6,46) 91,42(6,20) 90,96(5,82) 92,13(4,87) 92,00(4,94)

A.5 Ionosphere

Tabela A.5: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Ionosphere

3 6 12


Soma 91,44(4,40) 92,13(4,38) 92,28(4,32) 92,67(4,29) 92,96(4,16) 92,76(4,14)

Voto 91,33(4,45) 92,07(4,42) 92,69(4,27) 92,93(4,15) 93,24(4,05) 93,05(4,02)

S. Ponderada 91,22(4,45) 92,01(4,36) 91,04(4,47) 91,19(4,61) 92,14(4,32) 91,75(4,32)

KNN 89,85(5,71) 90,38(5,72) 90,36(5,73) 90,79(5,35) 91,15(5,29) 91,25(5,05)

Naive Bayes 92,02(4,33) 92,50(4,34) 92,50(4,56) 92,48(4,46) 92,95(4,32) 93,13(4,13)

SVM 91,46(4,51) 92,00(4,58) 92,42(4,38) 92,58(4,38) 93,03(4,29) 93,22(4,15)

A.6 LIBRAS 167

A.6 LIBRAS

Tabela A.6: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base LIBRAS

3 6 12


Soma 81,36(4,74) 81,57(4,80) 83,35(4,51) 83,57(4,39) 84,18(4,32) 84,23(4,26)

Voto 80,18(4,85) 80,57(4,79) 81,68(4,70) 81,95(4,69) 83,38(4,43) 83,35(4,36)

S. Ponderada 81,76(4,49) 81,93(4,47) 83,26(4,26) 83,47(4,26) 84,00(4,04) 84,11(3,96)

KNN 77,94(5,52) 78,38(5,57) 80,80(5,04) 81,20(5,12) 82,58(4,81) 82,55(4,64)

Naive Bayes 72,95(6,06) 73,33(6,06) 76,90(5,90) 77,05(6,11) 77,53(5,88) 77,10(5,90)

SVM 82,09(4,71) 82,14(4,57) 83,29(4,73) 83,69(4,43) 83,91(4,51) 84,05(4,63)

A.7 Simulated6

Tabela A.7: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Simulated6

3 6 12


Soma 94,88(6,08) 94,43(6,50) 95,79(5,33) 95,69(5,38) 96,45(4,85) 96,65(4,50)

Voto 94,75(6,20) 94,07(6,67) 95,33(5,50) 95,34(5,46) 96,11(5,07) 96,37(4,77)

S. Ponderada 95,31(5,55) 95,20(5,81) 96,16(4,87) 96,32(4,72) 96,66(4,37) 96,97(3,98)

KNN 93,40(6,67) 93,14(6,99) 94,92(5,74) 95,46(5,60) 95,82(5,38) 96,02(5,08)

Naive Bayes 95,06(5,53) 94,61(6,00) 95,14(5,17) 95,71(4,76) 95,70(4,21) 95,47(3,98)

SVM 94,88(5,67) 94,51(5,82) 95,11(5,29) 95,79(5,04) 95,85(5,10) 95,93(4,65)

A.8 Sonar 168

A.8 Sonar

Tabela A.8: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base Sonar

3 6 12


Soma 83,15(6,62) 84,45(6,80) 84,94(6,65) 85,44(6,28) 85,48(6,30) 86,30(6,36)

Voto 83,08(6,65) 84,43(6,79) 84,76(6,83) 85,47(6,50) 85,36(6,49) 86,25(6,49)

S. Ponderada 83,13(6,61) 84,50(6,75) 84,78(6,67) 85,24(6,41) 85,24(6,23) 85,96(6,43)

KNN 79,83(7,94) 80,82(8,01) 80,98(7,55) 81,01(8,10) 81,59(7,45) 82,47(7,07)

Naive Bayes 83,43(6,65) 84,51(6,64) 85,19(6,73) 85,72(6,53) 85,64(6,60) 86,56(6,49)

SVM 82,85(6,82) 83,83(6,84) 84,24(6,60) 84,35(6,91) 84,73(6,58) 85,31(6,77)

A.9 SPECTF

Tabela A.9: Acurácia média e desvio padrão dos métodos de combinação com seleção deatributos mono-objetivo e biobjetivo para a base SPECTF

3 6 12


Soma 76,59(6,55) 77,42(6,24) 77,38(6,30) 77,51(6,49) 77,84(6,04) 77,55(6,15)

Voto 76,60(6,60) 77,43(6,15) 76,73(6,77) 77,01(6,84) 77,63(6,17) 77,51(6,34)

S. Ponderada 77,95(4,86) 78,51(4,84) 78,58(4,26) 78,50(4,50) 78,52(4,25) 78,64(4,23)

KNN 74,25(7,42) 74,87(6,79) 73,24(7,85) 73,75(7,88) 73,82(7,60) 73,81(7,58)

Naive Bayes 76,14(7,20) 75,92(6,98) 74,73(7,77) 75,21(7,79) 74,36(7,86) 74,44(8,24)

SVM 79,16(2,33) 78,94(2,67) 78,80(3,29) 78,75(3,27) 78,31(4,60) 78,20(4,76)

Otimização em comitês de classiﬁcadores: Uma ... · Otimização em comitês de...

Documents

Transcript of Otimização em comitês de classiﬁcadores: Uma ... · Otimização em comitês de...