Icamaan Botelho Viegas da Silva - UFPE · 2019. 10. 25. · catalogaÇÃo na fonte bibliotecÁria...

Pós-Graduação em Ciência da Computação

ADIÇÃO DE RUÍDO DURANTE O PROCESSO DE

TREINAMENTO DE REDES NEURAIS MLP

Uma abordagem para o aprendizado a partir de

bases de dados pequenas e desbalanceadas

Por

Icamaan Botelho Viegas da Silva

Dissertação de Mestrado

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE, FEVEREIRO DE 2011

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

ICAMAAN BOTELHO VIEGAS DA SILVA

ADIÇÃO DE RUÍDO DURANTE O PROCESSO DE TREINAMENTO DE REDES NEURAIS MLP

Uma abordagem para o aprendizado a partir de bases de dados pequenas e desbalanceadas

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DA COMPUTAÇÃO.

ORIENTADOR: PAULO JORGE LEITÃO ADEODATO

RECIFE, FEVEREIRO/2011

CATALOGAÇÃO NA FONTE

BIBLIOTECÁRIA JOANA D’ARC L. SALVADOR, CRB 4-572

SILVA, ICAMAAN BOTELHO VIEGAS DA.

ADIÇÃO DE RUÍDO DURANTE O PROCESSO DE

TREINAMENTO DE REDES NEURAIS MLP: UMA ABORDAGEM

PARA O APRENDIZADO A PARTIR DE BASES DE DADOS

PEQUENAS E DESBALANCEADAS / ICAMAAN BOTELHO VIEGAS

DA SILVA - RECIFE: O AUTOR, 2011.

94 F.: FIG. TAB.

ORIENTADOR: PAULO JORGE LEITÃO ADEODATO.

DISSERTAÇÃO (MESTRADO) - UNIVERSIDADE FEDERAL DE

PERNAMBUCO, CIN, CIÊNCIA DA COMPUTAÇÃO, 2011.

INCLUI BIBLIOGRAFIA E APÊNDICE.

1.Redes neurais. 2.Análise de componentes principais. I. Adeodato, Paulo Jorge Leitão (orientador). II.Título.

006 (22.ed.) MEI 2011-092

“Qualquer tolo inteligente consegue fazer coisas maiores

e mais complexas. É necessário um toque de gênio e

muita coragem para ir na direção oposta.”

(Albert Einstein)

A minha família e amigos

Agradecimentos

Em especial a minha mãe, Márcia, pelas cobranças contínuas, dedicação e amor.

A minha avó Persia, pelos anos dedicados a minha criação, minha namorada, Ana

Amélia, pela compreensão e apoio. Ao meu tio James pela constante ajuda nos

momentos mais delicados da minha vida.

Aos colegas do CIn em especial aos amigos Arthur Gonçalves (gordinho),

Christian Diego (billoca), Renato Marcelino (Carcará) e André Vitor (dedecão), pelo

companheirismo, risadas e apoio nesta etapa.

Ao professor Paulo Adeodato, pela confiança, simplicidade, constante boa

vontade e crença em resultados satisfatórios oriundos deste trabalho.

Aos colegas da NeuroTech, em especial ao Adriano (McCoy – Sempre Ele) e

Petrônio (gordinho 2) pela ajuda, disposição e discussões.

Aos professores Silvio Melo, Alex Sandro, Tsang Ing Ren e Fernando Fonseca

por terem me instruído em projetos de iniciação científica com dedicação e

simplicidade ímpar.

Finalmente, a Rafaella Matos, uma amiga especial sempre disposta a ajudar e

incentivar de forma bastante peculiar.

Resumo

Classificadores têm sido largamente aplicados nos mais diversos campos

científicos e industriais, em geral obtendo bons desempenhos. Entretanto, quando

aplicados a problemas cuja quantidade de dados disponível para o treinamento é

limitada (bases de dados pequenas) ou quando estes dados apresentam um

desbalanceamento entre as classes (bases de dados desbalanceadas), a maioria dos

classificadores obtém um desempenho pobre.

O poder de generalização do classificador é reduzido quando bases de dados

pequenas são utilizadas durante o processo de treinamento, enquanto que em

bases de dados desbalanceadas, as classes com maior representatividade e menor

importância tendem a ser favorecidas. Inerentes a diversos problemas do mundo

real, conjuntos de dados pequenos e desbalanceados representam uma limitação a

ser superada por algoritmos de aprendizagem para produção de classificadores

precisos e confiáveis.

Neste trabalho é proposta uma abordagem baseada na adição de ruído

Gaussiano durante o processo de treinamento de uma rede neural MultiLayer

Perceptron (MLP) com o intuito de contornar as limitações referentes às bases de

dados pequenas e/ou desbalanceadas, possibilitando a rede neural obter um alto

poder de generalização

A metodologia proposta pode ser dividida em duas etapas principais. Na

primeira, um estudo acerca da correlação entre as variáveis é realizado. Este

estudo envolve avaliar a correlação entre as variáveis por meio do coeficiente de

correlação de Pearson e a descorrelação das variáveis através do método Análise

de Componentes Principais (ACP). Na segunda, ruídos derivados a partir de uma

distribuição Gaussiana são inseridos nas variáveis de entrada. Para validar a

abordagem proposta foram utilizadas três bases públicas de um conhecido

benchmark da comunidade de redes neurais, Proben1.

Os resultados experimentais indicam que a abordagem proposta obtém um

desempenho estatisticamente melhor (95% de confiança) que o método de

treinamento convencional, principalmente quando utilizado o método PCA para

descorrelação das variáveis antes da aplicação de ruído.

Palavras chaves: Redes Neurais MLP, treinamento com ruído, ruído gaussiano,

Análise de Componentes Principais, correlação de Pearson, descorrelação de

variáveis, bases de dados pequenas, bases de dados desbalanceadas.

Abstract

Classifiers have been widely applied to scientific and industrial domains, in

general, attaining good performance. However, when applied to problems with

small and unbalanced data sets, most classifiers have much worse performance,

mainly due to the lack of learning ability to cope with these data constraints.

Small data sets reduce the generalization power of the classifier and the

unbalance in class distribution makes the classifiers favor the larger and less

important classes. Inherent to several real-world problems, small and unbalanced

data sets are the reality to be tackled by learning algorithms for producing

accurate and reliable classifiers to solve these problems.

This paper proposes an approach to address these data constraints based on

the addition of Gaussian noise to the input patterns’ variables during the

MultiLayer perceptron (MLP) neural network (NN) training process.

The proposed methodology can be divided in two main stages. First, a study

about the correlation between variables is performed. This study is related to the

evaluation of the correlation based on the Pearson's correlation coefficient and on

decorrelation of variables using Principal Component Analysis (PCA) method. Next,

noise drawn from a normal distribution is added to the input patterns' variables.

Three public data sets from a well-known benchmark (Proben1) were used In

order to validate the proposed approach.

Experimental results indicate that the proposed methodology achieves a

performance statistically better than the traditional training method (95%

confidence), mainly when used PCA method to decorrelate the input patterns'

variables before the noise adding.

Key words: MLP neural networks, training with noise, Gaussian noise, Principal

Component Analysis, Pearson correlation, decorrelation of variables, small data sets,

unbalanced data sets.

Sumário

Capítulo 1. Introdução .................................................................................................................... 1

1.1. Contexto ........................................................................................................................ 1

1.2. Caracterização do Problema ......................................................................................... 3

1.3. Objetivos ....................................................................................................................... 4

1.4. Estrutura do Trabalho ................................................................................................... 5

Capítulo 2. Bases de Dados Pequenas e Desbalanceadas .................................................. 6

2.1. Introdução ..................................................................................................................... 6

2.2. Problemas relacionados à raridade ............................................................................... 7

2.2.1. Métricas inapropriadas ......................................................................................... 7

2.2.2. Raridade absoluta.................................................................................................. 7

2.2.3. Raridade relativa ................................................................................................... 8

2.2.4. Fragmentação dos dados ...................................................................................... 9

2.2.5. Bias inapropriado .................................................................................................. 9

2.2.6. Ruído ..................................................................................................................... 9

2.3. Soluções ...................................................................................................................... 10

2.3.1. Abordagens em nível de dados ........................................................................... 10

2.3.2. Abordagens em nível de algoritmo ..................................................................... 13

2.3.3. Aprendizagem sensível a custos .......................................................................... 14

2.4. Adição de ruído ........................................................................................................... 15

Capítulo 3. Adição de Ruído........................................................................................................17

3.1. Introdução ................................................................................................................... 17

3.2. Dilema Bias-Variância ................................................................................................. 18

3.3. Adição de Ruído .......................................................................................................... 19

3.3.1. Ruído e Distribuição Gaussiana ........................................................................... 20

3.3.1.1. Geração do Ruído ............................................................................................ 20

3.4. Correlação entre variáveis .......................................................................................... 23

3.5. Análise de Componente Principal ............................................................................... 24

Capítulo 4. Metodologia Experimental ...................................................................................26

4.1. Modelo Investigado ..................................................................................................... 26

4.2. Treinamento ................................................................................................................ 27

4.2.1. Infra-Estrutura ..................................................................................................... 27

4.2.2. Base de Dados ..................................................................................................... 28

4.2.3. Correlação e PCA ................................................................................................. 30

4.2.4. Topologia e Parâmetros ...................................................................................... 30

4.2.5. Adição de Ruído................................................................................................... 31

4.3. Avaliação de Desempenho .......................................................................................... 32

4.3.1. 10-Fold Cross-Validation ..................................................................................... 32

4.3.2. Leave-One-Out Cross-Validation ......................................................................... 33

4.3.3. Curva ROC ............................................................................................................ 33

4.3.4. KS2 – Teste de Kolmogorov Smirnov................................................................... 34

4.3.5. Coeficiente de GINI ............................................................................................. 35

4.3.6. Teste de Hipóteses .............................................................................................. 36

Capítulo 5. Resultados Experimentais....................................................................................39

5.1. CARD ............................................................................................................................ 40

5.1.1. Correlação de Pearson ........................................................................................ 41

5.1.2. Base Completa ..................................................................................................... 42

5.1.3. Base Reduzida ..................................................................................................... 45

5.2. DIABETES ..................................................................................................................... 49


5.2.2. Base Completa ..................................................................................................... 50

5.2.3. Base Reduzida ..................................................................................................... 53

5.3. CANCER ........................................................................................................................ 57


5.3.2. Base Completa ..................................................................................................... 58

5.3.3. Base Reduzida ..................................................................................................... 62

5.4. Compilação dos Resultados Obtidos ........................................................................... 65

Capítulo 6. Conclusões ..................................................................................................................67

6.1. Contribuições .............................................................................................................. 68

6.2. Limitações e Trabalhos Futuros .................................................................................. 69

Apêndice A Redes Neurais Artificiais .......................................................................................71

A1. Introdução ................................................................................................................... 71

A2. Histórico ...................................................................................................................... 73

A3. Elementos Fundamentais ............................................................................................ 76

A4. Funções de Ativação .................................................................................................... 78

A5. Modelos de Aprendizado ............................................................................................ 80

A6. Atualização dos pesos associados às sinapses ............................................................ 81

A7. Redes MLP ................................................................................................................... 82

Referências Bibliográficas ..............................................................................................................87

Lista de Figuras

Figura 1. Impacto da ausência de dados [WEI04] ................................................................... 8

Figura 2. Raridade relativa ............................................................................................................... 9

Figura 3. Dados ruidosos prejudicando a fronteira de decisão aprendida .................10

Figura 4. fdp de uma distribuição gaussiana com média μ e desvio padrão σ. ..........20

Figura 5. Distribuição de freqüência para uma amostra de 10.000 valores ...............22

Figura 6. Correlação x Nível de ruído .........................................................................................24

Figura 7. Curva ROC ..........................................................................................................................34

Figura 8. Curva KS_Max ...................................................................................................................35

Figura 9. Curva de Lorenz ...............................................................................................................36

Figura 10. Região Crítica [NA08] .................................................................................................37

Figura 11. Percentual das classes para a base CARD [OLI08] ...........................................40

Figura 12. Seleção do nível de ruído ...........................................................................................44

Figura 13. Seleção do nível de ruído ...........................................................................................47

Figura 14. Percentual das classes para a base DIABETES [OLI08] .................................49

Figura 15. Seleção de ruído ............................................................................................................52


Figura 17. Percentual das classes para a base CANCER [OLI08] .....................................57


Figura 19. Seleção nível de ruído .................................................................................................63

Figura 20. Componentes do neurônio biológico. ...................................................................71

Figura 21. Perceptron ......................................................................................................................74

Figura 22. Rede de Hopfield com três neurônios ..................................................................76

Figura 23. Funcionamento de um neurônio ............................................................................77

Figura 24. Função degrau ...............................................................................................................78

Figura 25. Função de ativação linear por partes (rampa) .................................................79

Figura 26. Função de ativação sigmóide ...................................................................................79

Figura 27. (a) Problema linearmente separável (b) Problema não linearmente .....83

Figura 28. Rede Neural MLP ..........................................................................................................84

Lista de Tabelas

Tabela 1. Experimentos para escolha da topologia da RNA ..............................................31

Tabela 2. Experimentos para definição do nível de ruído .................................................32

Tabela 3. Teste de Hipóteses - Tipos de erro ..........................................................................37

Tabela 4. Base de dados utilizada na avaliação dos modelos ...........................................39

Tabela 5. Correlação de Pearson ..................................................................................................41

Tabela 6. Seleção da arquitetura da rede MLP .......................................................................43

Tabela 7. Desempenho médio 2x10-fold cross-validation ..................................................44

Tabela 8. Teste de Hipóteses .........................................................................................................45

Tabela 9. Seleção da arquitetura da rede MLP .......................................................................46

Tabela 10. Desempenho médio nas 20 repetições ................................................................47

Tabela 11. Teste de Hipóteses ......................................................................................................48

Tabela 12. Correlação de Pearson ...............................................................................................50

Tabela 13. Seleção da arquitetura da rede MLP .....................................................................51

Tabela 14. Desempenho médio 2x10-fold cross-validation ...............................................52



Tabela 17. Desempenho médio nas 20 repetições ................................................................55

Tabela 18. Teste de hipóteses .......................................................................................................56

Tabela 19. Correlação de Pearson ...............................................................................................58


Tabela 21. Desempenho médio 2x10-fold cross-validation ...............................................61



Tabela 24. Desempenho médio nas 20 replicações ..............................................................64


Tabela 26. Resultados compilados para os problemas Card e Diabetes .......................65

Tabela 27. Resultados compilados para os problemas Cancer ........................................66

Tabela 28. Histórico sobre estudos relacionados às RNAs ................................................73

Lista de Abreviações e Siglas

ACP Análise de Componentes Principais

AUC_ROC Área sob a curva ROC

CBO Cluster-Based Oversampling

CNN Condensed Nearest Neighbor

ENN Edited Nearest Neighbor

FDP Função de Densidade de Probabilidade

KS Kolmogorov Smirnov

MLP MultiLayer Perceptron

NCL Neighborhood Cleaning

OSS One-sided Selection

RNA Rede Neural Artificial

ROC Receiver Operating Characteristic

SMOTE Synthetic Minority Over-sampling Technique

SVM Support Vector Machine

TLC Teorema do Limite Central

VA Variável Aleatória

1

Capítulo 1. Introdução

Este capítulo visa a introduzir o leitor no contexto em que o presente trabalho

está inserido, caracterizar o problema investigado, bem como dissertar sobre os

objetivos a serem alcançados. Por fim, é apresentado como este trabalho está

estruturado.

1.1. Contexto

Amplamente utilizadas em uma variedade de campos científicos e industriais,

as redes neurais artificiais (RNAs) conseguem solucionar problemas de difícil

resolução para métodos tradicionais. São modelos matemático-computacionais

inspirados no funcionamento do cérebro humano. Consistem de um grupo de

neurônios artificiais interconectados e processam informação utilizando uma

abordagem conexionista [FAU94]. As primeiras pesquisas envolvendo

neurocomputação datam de 1943, quando o neurofisiologista Warren McCulloch e

o matemático Walter Pitts simularam o comportamento de um neurônio [GOM05].

Em aplicações reais, as redes neurais apresentam desempenho bastante

satisfatório em tarefas como: (i) Aproximação de funções, incluindo predição e

modelagem de séries temporais; (ii) Classificação, reconhecimento de padrões e

tomadas de decisões.

Embora seja uma técnica já consagrada cientificamente, as redes neurais

apresentam algumas limitações. Determinar o motivo pelo qual uma rede chega a

um determinado resultado de forma compreensível é uma tarefa não trivial, uma

vez que os modelos não apresentam justificativas para suas respostas. Neste

sentido, muitas pesquisas vêm sendo realizadas visando à extração de

conhecimento de redes neurais artificiais, e na criação de procedimentos

explicativos, onde se tenta justificar o comportamento da rede em determinadas

2

situações [AM95]. Outra limitação refere-se ao tempo de treinamento das redes

neurais, que dependendo do algoritmo de treinamento, tende a ser muito lento.

Não há um processo definido para determinar a arquitetura ideal da rede de

acordo com o domínio em questão. Por fim, a quantidade de informações

disponíveis para o processo de treinamento deve ser suficientemente grande de

forma que a rede possa generalizar a informação contida nos dados.

Assim como as RNAs, a maioria dos algoritmos de aprendizagem de máquina

apresenta desempenho insatisfatório quando aplicados a problemas cuja

quantidade de dados é pequena ou quando estes dados são desbalanceados

[CHA+08].

Existe uma conhecida regra, rule of thumb, que diz que o número de padrões

está diretamente relacionado à acurácia de um classificador [MMR97]. Alguns

estudos, dizem que o desempenho de um classificador, depende em parte da razão

entre o número de padrões de treinamento e o número de características [JDM00].

Considerando bases de dados desbalanceadas, as classes com maior quantidade de

padrões, e em geral menos importantes, tendem a ser favorecidas [CHA+08].

Pequenas bases de dados

O tamanho da base de dados representa um fator crucial para o desempenho de

um classificador, quanto mais dados se tornam disponíveis para representar um

dado domínio, melhor tende a ser o desempenho do classificador. A aprendizagem

a partir de bases de dados pequenas representa um problema do ponto de vista da

convergência e do poder de generalização.

Mesmo com os avanços tecnológicos tornando possível o armazenamento de

quantidades cada vez maiores de informação, diversos problemas do mundo real

oferecem uma quantidade de dados bastante limitada, tornando a aplicação de

muitas técnicas de aprendizagem de máquinas quase impossível. Como exemplo,

alguns domínios nos quais a extração de informações é extremamente difícil seja

pela pequena quantidade de eventos ou pela difícil automatização: situações como

acidentes em vôos, investigação sobre novas doenças, falhas em equipamentos de

alta voltagem, etc. [FAU94] [HAY99].

Bases de dados desbalanceadas

Outra importante limitação associada à aplicação das principais técnicas de

aprendizagem de máquinas está relacionada ao desbalanceamento das classes na

base de dados para aquisição do conhecimento. Conjuntos de dados, nos quais uma

3

das classes é particularmente rara são denominados conjuntos de dados

desbalanceados. Estes representam um problema comum em uma grande

variedade de aplicações do mundo real, incluindo aplicações envolvendo

aprendizagem supervisionada [CHA+08] [CC08].

A aprendizagem a partir de conjuntos desbalanceados apresenta um grave

problema tanto do ponto de vista da modelagem quanto dos custos associados à

má classificação. Quando uma classe é de grande interesse, mas seus padrões

ocorrem raramente, tais como em casos de fraude, novas doenças, regiões de

interesse em simulações de larga escala, etc., há um custo bastante elevado para o

erro de classificação destes eventos mais raros [CHA+08] [CC08] [CC108].

1.2. Caracterização do Problema

O treinamento adequado de uma rede neural exige, entre outros fatores, que os

dados utilizados para este fim sejam significativamente representativos, quando

nos referimos ao domínio para o qual a solução está sendo desenvolvida, e que

estes dados estejam balanceados, ou seja, representados por uma quantidade

similar de padrões para cada uma das classes existentes.

Entretanto, uma grande diversidade de problemas não oferece quantidades

significativas de informações de forma a prover dados suficientes para o

treinamento de uma rede neural, ou boa parte destas informações são de difícil

obtenção. Além disso, a maioria dos problemas possui dados desbalanceados, onde

a classe de interesse é relativamente rara.

Em problemas cuja quantidade de dados é limitada, a aplicação de diversas

técnicas de aprendizagem de máquina se torna inviável ou obtêm um desempenho

pobre [MMR97]. Para problemas em que a classe de interesse é mais rara do que as

demais classes (conjuntos de dados desbalanceados), métodos de amostragem e

replicação são algumas das formas utilizadas para combater o desbalanceamento

[CJK04] [ELK01].

Sob tais circunstâncias, os padrões que representam as classes mais raras são

re-amostrados para gerar modelos com altas taxas de acerto sobre a classe

minoritária. A classe mais rara é geralmente a classe de interesse,

conseqüentemente o custo por erros de classificação é ainda mais alto [CC08]

[CC108].

4

1.3. Objetivos

Como mencionado, as redes neurais têm sido largamente utilizadas em

projetos acadêmicos e comerciais, entretanto algumas limitações acabam por

restringir a utilização desta técnica a domínios que possuam uma quantidade

significativa de dados disponíveis para o treinamento.

O objetivo do presente trabalho é propor uma abordagem, combinando adição

de ruído e correlação entre variáveis, que permita as redes neurais obter melhor

desempenho quando lidar com problemas cujas bases de dados sejam pequenas e

desbalanceadas. Esta metodologia está baseada na adição de ruído gaussiano aos

dados de entrada durante o processo de treinamento de uma rede neural

MultiLayer Perceptron (MLP).

A opção pela rede MLP se deve à sua importância para a comunidade

acadêmica, evidenciada pela sua ampla utilização e aceitação tanto acadêmica

quanto comercial. Desde seu surgimento, as redes MLP têm sido constantemente

utilizadas em pesquisa. Em alguns casos sendo alvo de estudos, em outros,

utilizadas como ferramentas para solucionar problemas de classificação, predição,

etc. Alguns destes estudos estão relacionados à adição de ruído, o que torna ainda

mais atrativa a utilização desta técnica para o desenvolvimento deste trabalho.

Com o intuito de validar a metodologia proposta, são comparados os

desempenhos de uma rede neural treinada de forma convencional com o

desempenho de RNAs treinadas com a adição de ruído durante o processo de

treinamento. Segundo Bishop [BIS94], a adição de ruído durante o processo de

treinamento de redes neurais artificiais pode ocasionar uma melhora significativa

no desempenho de generalização da rede.

Neste trabalho é analisado o efeito da adição de ruído durante o processo de

treinamento de uma rede neural a fim de contornar duas relevantes limitações,

não apenas desta técnica, mas para grande maioria dos algoritmos de

aprendizagem de máquina, possibilitando que a rede neural MLP consiga um alto

poder de generalização com uma quantidade originalmente insuficiente de

informações.

5

1.4. Estrutura do Trabalho

Este trabalho é composto por seis capítulos. No capítulo 2 são apresentados os

principais problemas relacionados a pequena quantidade de dados disponíveis,

bem como as principais abordagens desenvolvidas ao longo dos anos para lidar

com estes problemas.

O Capítulo 3 aborda os conceitos básicos sobre o processo de adição de ruído,

principalmente o ruído gaussiano. Outros aspectos importantes relacionados ao

desenvolvimento deste trabalho são detalhados, entre eles a existência de

correlação entre variáveis e o uso de PCA (Análise de Componente Principal) como

forma de descorrelacionar as variáveis.

No Capítulo 4, é detalhada a metodologia experimental utilizada para fazer a

comparação entre os modelos. São apresentados detalhes sobre as bases de dados,

as métricas selecionadas para avaliação de desempenho e teste de hipóteses

utilizado.

No Capítulo 5 são apresentados os resultados obtidos pelos classificadores.

Todos os problemas utilizados para avaliar o desempenho das RNAs são bases de

dados públicas utilizadas como benchmark na área de redes neurais.

Finalmente no Capítulo 6, são apresentadas as conclusões, dissertando sobre

algumas limitações e trabalhos futuros relevantes para complementar este estudo.

6

Capítulo 2. Bases de Dados Pequenas e

Desbalanceadas

Este capítulo tem como objetivo introduzir o problema associado à

classificação em conjuntos de dados pequenos e desbalanceados. Após uma breve

introdução, são descritos os principais problemas relacionados à ausência de

dados. Em seguida, são apresentadas diferentes abordagens propostas na

literatura para lidar com este problema. Por fim, são apresentadas as principais

pesquisas relacionadas à adição de ruído.

2.1. Introdução

Em problemas de classificação do mundo real, do inglês real-world problems, é

bastante comum que os conjuntos de dados sejam formados por quantidades

bastante desiguais de exemplos para cada uma das classes [BEC10]. Tal

comportamento pode ser explicado devido à ocorrência de eventos mais raros, e

consequentemente, de maior importância [BEC10].

Outro importante fator associado aos conjuntos de dados está relacionado à

quantidade de exemplos. Alguns estudos [MMR97] [JDM00] afirmam que o número

de exemplos está diretamente relacionado à acurácia de um classificador. Embora

não existam muitos estudos envolvendo a utilização de conjuntos de dados

pequenos, este problema está presente em alguns problemas do mundo real cuja

extração de informações é difícil.

Conjuntos de dados desbalanceados e a pequena quantidade de dados têm tido

um crescente interesse na última década [WEI04]. Um estudo mais detalhado

sobre as principais dificuldades em tratar com tais restrições é realizado nas

próximas seções.

7

2.2. Problemas relacionados à raridade

O termo raridade se refere à escassez de dados. Conjuntos de dados pequenos e

desbalanceados sofrem com a raridade de dados disponíveis. De acordo com Weiss

[WEI04], existem seis problemas principais oriundos da mineração de dados a

partir de conjuntos de dados desbalanceados e pequena quantidade de exemplos.

Estes problemas são abordados nas subseções a seguir.

2.2.1. Métricas inapropriadas

As métricas de avaliação têm papel fundamental na tarefa de mineração de

dados. A utilização de métricas inapropriadas para mensurar o desempenho de um

algoritmo de classificação não traduz a real eficácia do algoritmo para lidar com o

problema em questão [BEC10]. A taxa de acerto, que computa a fração de exemplos

que são corretamente classificados, é a métrica de avaliação de desempenho mais

comumente utilizada para tarefas de classificação [WEI04]. Apesar sua larga

aplicação, esta métrica acaba dando maior valor à classe majoritária.

Consequentemente, sua aplicação para problemas desbalanceados é altamente

desencorajada. Para ilustrar esta situação, suponha um dado problema

desbalanceado (95% classe negativa e 5% classe positiva). Caso o algoritmo de

classificação classifique todos os exemplos como negativos, utilizando a taxa de

acerto como métrica de avaliação teríamos um desempenho de 0.95 de um total de

1. Embora pareça um desempenho fantástico, este algoritmo falha em sua tarefa

principal: classificar corretamente os padrões da classe positiva, a classe de real

interesse.

Outro problema está relacionado à utilização de métricas inapropriadas para

conduzir o “treinamento” do algoritmo. Por exemplo, o algoritmo de árvore de

decisão C4.5 [QUI88] utiliza as métricas de ganho de informação [KL51] e entropia

[SHA51] para construção da árvore. Entretanto, estas métricas priorizam as classes

majoritárias em detrimento das classes de interesse. Consequentemente, poucas

regras são criadas para classificar as instâncias da classe minoritária [BEC10]

[WEI04].

2.2.2. Raridade absoluta

O principal problema relacionado à raridade está associado à ausência de

dados. Raridade absoluta ocorre quando o número de exemplos presentes no

8

conjunto de treinamento é pequeno [WEI04]. A figura 1 ilustra como a raridade

afeta a superfície ou fronteira de decisão aprendida pelo algoritmo de classificação.

Quando a quantidade de exemplos disponíveis é maior a superfície de decisão

aprendida (representada por uma linha tracejada) se torna mais próxima da

superfície de decisão verdadeira (representada por uma linha contínua).

Figura 1. Impacto da ausência de dados [WEI04]

2.2.3. Raridade relativa

Enquanto a raridade absoluta se refere à quantidade absoluta de exemplos

disponíveis, a raridade relativa se refere à quantidade de exemplos de uma classe

quando comparados a outra. Conjuntos de dados desbalanceados são exemplos

perfeitos de raridade relativa. É importante salientar, que mesmo a quantidade de

exemplos da classe de interesse sendo significativa, ainda haverá raridade relativa

caso a quantidade de exemplos da classe majoritária seja muito maior. A figura 2

ilustra a raridade relativa, embora existam muitos exemplos da classe positiva, a

quantidade de exemplos da classe negativa é bastante superior.

9

2.2.4. Fragmentação dos dados

Alguns algoritmos utilizam a estratégia “dividir para conquistar”. Nesta

estratégia o problema original é dividido em problemas menores. Esta operação

resulta no particionamento do espaço de instâncias [WEI04]. Em outras palavras,

os exemplos positivos acabam sendo separados e perdem ainda mais

representatividade [BEC10] [WEI04]. Um exemplo bastante conhecido de

algoritmos que empregam esta abordagem são as árvores de decisão.

2.2.5. Bias inapropriado

Generalização a partir de exemplos específicos requer um bias. Sem este, a

tarefa de aprendizagem pode não ocorrer [WEI04]. Muitos algoritmos de

aprendizagem utilizam um bias com o intuito de promover a generalização e

eliminar overffiting. Contudo, este bias pode influenciar negativamente o

aprendizado a partir de casos mais raros.

Uma abordagem mais detalhada sobre bias e sua influência nas Redes Neurais

Artificiais é feita no capítulo 3 seção 3.2.

2.2.6. Ruído

A presença de dados ruidosos é prejudicial a qualquer sistema de mineração de

dados. Entretanto, dados ruidosos têm um impacto ainda maior quando tratamos

com raridade [WEI04]. De acordo com Hulse e Khoshgoftaar [HK09], a presença de

Figura 2. Raridade relativa

10

exemplos ruidosos no conjunto de treinamento confunde o algoritmo de

classificação, trazendo dificuldades a generalização. A figura 3 ilustra como a

presença de dados ruidosos pode afetar a superfície de decisão aprendida pelo

classificador.

Figura 3. Dados ruidosos prejudicando a fronteira de decisão aprendida

2.3. Soluções

Devido a sua importância e larga ocorrência em problemas reais, diferentes

abordagens têm sido propostas com o intuito de lidar com o problema da raridade.

De acordo com [QIO+08], as abordagens propostas ao longo dos anos podem ser

divididas em grupos principais: (i) Abordagens em nível de dados; (ii) Abordagens

em nível de algoritmo; e (iii) Aprendizagem a sensível a custo. Estas abordagens

são descritas em maiores detalhes nas subseções seguintes.

2.3.1. Abordagens em nível de dados

As abordagens que visam a solucionar o problema da raridade em nível de

dados focam na criação de novas instâncias de forma a promover o balanceamento

entre as classes. A amostragem é a forma mais comum de realizar esta tarefa. O

principal objetivo é eliminar ou reduzir a raridade, alterando a distribuição dos

exemplos de treinamento [WEI04] [QIO+08]. Isso é alcançado removendo

11

exemplos da classe majoritária (undersampling), ou adicionando exemplos da

classe minoritária (oversampling). Embora a re-amostragem seja largamente

utilizada para o balanceamento entre classes, esta técnica também pode ser usada

para lidar com conjunto de dados pequenos [WEI04] [JAP01].

Alguns métodos de amostragem utilizam heurísticas para a escolha dos

padrões a serem eliminados ou replicados. Entretanto, a forma mais comum de

amostragem é realizada de forma aleatória [WEI04]. A amostragem aleatória

possui algumas desvantagens: (i) undersampling pode remover exemplos

relevantes da classe majoritária, e com isso degradar a performance do

classificador; (ii) oversampling aumenta o risco de overfiting, uma vez que são

criadas cópias idênticas dos exemplos da classe minoritária [WEI04] [QIO+08].

Com o intuito de eliminar os inconvenientes associados à amostragem

aleatória, surgem os métodos de amostragem utilizando heurísticas para seleção

dos exemplos a serem eliminados ou replicados. A seguir são descritos alguns

destes métodos.

Tomek Links

Proposto em [TOM76], o método Tomek Links é utilizado para remover

exemplos da classe majoritária (undersampling). Dados dois exemplos Ex e Ey

pertencentes a classes diferentes e d(Ex , Ey) a distância entre eles. Este par é

denominado Tomek Links se, e somente se, d(Ex , Ez) > d(Ex , Ey) e d(Ey , Ez) > d(Ex ,

Ey), onde Ez representa qualquer outro padrão pertencente ao conjunto de dados

[TOM76]. Intuitivamente, quando dois exemplos foram um Tomek Link, ou um

deles é ruído, ou ambos estão na fronteira de decisão. Como método de

undersampling, os exemplos pertencentes à classe majoritária e que formam um

Tomek Link são eliminados.

One-sided selection (OSS)

Proposto em [KM97], o método OSS, assim como o Tomek Links, é utilizado

para eliminação de exemplos da classe majoritária (undersampling). Seu

funcionamento se baseia na aplicação do Tomek Links para eliminação de exemplos

ruidosos ou próximos a fronteira de decisão (exemplos considerados instáveis,

pois uma pequena quantidade de ruído pode fazê-los ultrapassar a fronteira de

decisão). Em seguida, é utilizado o método Closest Nearest Neighbor com o intuito

de remover os exemplos da classe majoritária distantes da fronteira de decisão

(considerados inúteis ao treinamento do modelo).

12

Condensed Nearest Neighbor Rule (CNN)

Proposto em [HAR68], o objetivo do CNN é a construção de um subconjunto

consistente C a partir do conjunto de treinamento T. Um subconjunto C T é dito

consistente com T, quando ao utilizarmos o classificador 1-NN (classificador k-NN,

onde k = 1), com o subconjunto C como conjunto de treinamento, todos os

exemplos de T são corretamente classificados.

Para funcionar como método de undersampling, Kubat e Marwin [KM97]

propuseram uma variação no CNN de forma que o subconjunto C fosse formado

pelos exemplos da classe minoritária, e os mais relevantes da classe majoritária. Os

exemplos pertencentes à classe majoritária e considerados redundantes são

eliminados.

Edited Nearest Neighbor rule (ENN)

Proposto em [WIL72], ENN é um método de undersampling que remove

qualquer exemplo Ex do conjunto de treinamento, caso ele seja classificado

erroneamente pelo método k-NN, com k = 3. Com esta abordagem, tanto os

exemplos próximos à fronteira de decisão quanto os exemplos ruidosos são

eliminados do conjunto de treinamento, tornando a fronteira de decisão mais

suave [WM97].

Neighborhood cleaning rule (NCL)

Proposto em [LAU01], o método NCL pode ser visto como uma variação do ENN

com o intuito de aumentar a “limpeza dos dados” [QIO+08]. De forma similar ao

ENN, cada exemplo Ex do conjunto de treinamento é classificado de acordo com o

método k-NN, com k = 3. Caso Ex seja uma instância da classe de interesse, e

classificado erroneamente, dos três vizinhos mais próximos, os que pertençam à

classe majoritária são eliminados. Caso Ex seja da classe majoritária e seja

classificado erroneamente, Ex é eliminado. Além de remover os exemplos ruidosos,

este método remove os exemplos próximos à fronteira de decisão.

Synthetic Minority Over-sampling Technique (SMOTE)

Proposto em [CHA+02], SMOTE é um método de oversampling baseado na

criação de novos exemplos a partir da interpolação entre os exemplos da classe

minoritária [QIO+08]. O processo para criação de novos exemplos ocorre da

seguinte forma: para cada exemplo Ex pertencente à classe de interesse, calcule a

13

diferença entre Ex e seu vizinho mais próximo (Ey). Multiplique o vetor resultante

da subtração por um número aleatório entre 0 e 1. Por fim, para gerar o novo

exemplo, some o resultado ao exemplo Ex. Esta abordagem força a região de

decisão referente à classe minoritária se tornar mais geral [QIO+08].

Cluster-based Oversampling (CBO)

Proposto em [NJM01], CBO é um método de oversampling baseado no

balanceamento dos grupos encontrados no conjunto de treinamento, e não apenas

na inserção de exemplos da classe minoritária. A proposta do algoritmo é formar

grupos para cada uma das classes. Em seguida, é realizado oversampling com o

intuito de fazer com que todos os grupos formados contenham a mesma

quantidade de padrões. Esse procedimento é realizado primeiramente para a

classe negativa, e posteriormente, estendido a outra classe. Ao final do processo,

todos os grupos e classes terão a mesma quantidade de exemplos.

2.3.2. Abordagens em nível de algoritmo

As abordagens que visam a solucionar o problema da raridade em nível

algorítmico focam na modificação de algoritmos de classificação existentes de

forma a adaptá-los e fortalecer o aprendizado com relação à classe minoritária

[QIO+08]. As abordagens em nível de algoritmo não são tão comuns quanto às

abordagens em nível de dados, pois em geral requerem um alto nível de

conhecimento sobre a técnica estudada e do domínio em questão [QIO+08].

Uma abordagem baseada no aprendizado one-class, utilizando SVM (Support

Vector Machine) foi proposta em [MM01]. De acordo com o autor, a combinação

one-class e SVM produziu bons resultados para classes com poucos exemplos

disponíveis, embora a metodologia tenha se mostrado bastante suscetível a

escolha dos parâmetros. Segundo Japkowicz [JAP03], em certos domínios, tais

como domínios multiclasses, a abordagem one-class é superior à abordagem

tradicional (two-classes).

Em [LYG02], foi proposta uma metodologia para adaptar SVMs para lidar com

problemas com classes desbalanceadas. Nesta metodologia, o autor propõe a

utilização de diferentes penalidades para diferentes classes, uma vez que o custo

associado ao erro de classificação de exemplos pertencentes à classe de interesse é

mais alto. Os resultados obtidos mostram que a SVM modificada gera uma

fronteira de decisão mais próxima da fronteira ótima que a SVM padrão. Outra

14

abordagem utilizando SVMs foi proposta em [WC05]. Nesta abordagem os autores

propõem ajustar o limite das classes através de modificações na função kernel. Os

resultados experimentais comprovaram a eficácia da metodologia proposta.

Outra estratégia interessante são os algoritmos de boosting. Os algoritmos de

boosting, tais como AdaBoost [SCH99], são algoritmos iterativos que associam

pesos aos exemplos do conjunto de treinamento. A cada iteração, os exemplos

classificados incorretamente têm seu peso aumentado, enquanto os exemplos

classificados corretamente têm seu peso reduzido. Esta abordagem força o

classificador a dar maior ênfase aos exemplos classificados erroneamente. Como

em problemas com conjuntos de dados desbalanceados, os exemplos da classe de

interesse são mais suscetíveis a erros [WEI04], os algoritmos de boosting se

tornam bastante atrativos.

2.3.3. Aprendizagem sensível a custos

Introduzido em [PAZ+94], o termo aprendizagem sensível a custos está

relacionado à tentativa de minimização do custo atribuído a má classificação dos

exemplos, ao invés de tentar minimizar o erro de classificação [QIO+08]. Nesta

abordagem, a estratégia adotada consiste de atribuir um custo mais elevado aos

falsos negativos, que aos falsos positivos. Em outras palavras, o custo associado aos

erros de classificação dos exemplos pertencentes à classe minoritária são maiores.

A atribuição de custos mais elevados aos falsos positivos tende a melhorar o

desempenho do classificador com respeitos aos exemplos da classe de interesse

[WEI04].

Alguns estudos comparativos [LZ06] [MZW05] mostraram que o aprendizado

sensível a custos pode obter resultados superiores aos obtidos pelas abordagens

em nível de dados. Contudo, embora existam trabalhos propondo métodos para

definição dos custos [ELK01], determinar a matriz de custos para todos os

problemas não é uma tarefa trivial [CHA03].

A aprendizagem sensível a custos envolve a utilização de uma matriz quadrada,

2x2 para o caso de problemas binários, onde são armazenadas as penalizações

referentes aos erros de classificação. Cada célula da matriz é dada por P(i , j), que

denota a penalização atribuída a classificação de um exemplo pertencente à classe i

como sendo da classe j. Em se tratando de problemas binários, é possível utilizar a

notação P(+,–), que denota a penalização atribuída à exemplos da classe positiva

15

como sendo da classe negativa. Como mencionado, ao lidar com problemas

desbalanceados, a classificação correta dos exemplos da classe positiva tem

importância maior que a classificação dos exemplos da classe negativa.

Consequentemente, P(+,–) > P(–,+) e P(+,+) = P(–,–), pois a classificação correta

não acarreta nenhuma penalização ao sistema.

2.4. Adição de ruído

Pequenas amostras e dados desbalanceados representam um grande

inconveniente para a aplicação das mais conhecidas técnicas de aprendizagem de

máquinas a problemas do mundo real [WEI04] [QIO+08]. Consequentemente, o

número de pesquisas propondo diferentes abordagens para combater estes

inconvenientes vem crescendo nos últimos anos [WEI04]. Devido à proposta deste

trabalho, adição de ruído gaussiano durante o treinamento de redes MLP, é de

suma relevância apresentar os principais trabalhos relacionados a esta abordagem.

Por volta do fim da década de 80, os estudos envolvendo a adição de ruído

durante a aplicação de técnicas de aprendizagem de máquina ganharam força,

inicialmente os trabalhos focaram na adição de ruído como instrumento para

aumentar o poder de generalização ou o tempo de convergência de técnicas como

as Redes Neurais Artificiais [PNH86] [AN96] [MAT92] [JGH96].

Os efeitos da adição de ruído durante o treinamento das RNAs utilizando o

algoritmo backpropagation foram analisados de forma experimental em [PNH86].

Neste trabalho, as RNAs apresentaram um aumento do poder de generalização

quando treinadas com adição de ruído. Matsuoka [MAT92] em seu trabalho

apresentou uma demonstração matemática de como a inserção de ruído atua no

aumento do poder de generalização das RNAs com backpropagation.

Os trabalhos desenvolvidos por Jim, Giles e Horne [JGH96] e An [AN96]

estenderam os de seus predecessores. O primeiro [JGH96] mostrou os efeitos da

adição de ruído no treinamento de redes recorrentes. Os resultados obtidos

mostraram que a inserção de ruído contribuiu para melhorar o poder de

generalização, e tempo de convergência. O segundo trabalho [AN96] apresentou os

resultados da inserção de ruído às entradas, saídas e pesos durante o treinamento

de redes neurais usando backpropagation. Experimentos com problemas de

classificação e regressão foram realizados. Os resultados mostraram que a inserção

de ruído a saída não traz quaisquer benefícios em termos de poder de

16

generalização. A inserção de ruído junto aos pesos mostrou uma sutil melhora para

os problemas de classificação, enquanto a inserção de ruído à entrada mais uma

vez mostrou bons resultados para ambos, classificação e regressão.

Bishop [BIS94] analisou a equivalência entre o treinamento com ruído artificial

injetado aos padrões de entrada e a regularização de Tikhonov. Neste trabalho foi

mostrado que a adição de ruído artificial durante o treinamento das RNAs atua

como uma forma de regularização equivalente a introduzida pelo termo de

Tikhonov. Segundo Bishop [BIS94], Um termo de regularização é um termo extra

adicionado à função de erro, e responsável por adicionar uma penalidade à mesma,

controlando a variância, e consequentemente, o dilema bias-variância, descrito em

maiores detalhes no capítulo 3 seção 2.

Em [AO10] foi estudado os efeitos da adição de ruído durante o treinamento

das redes pRAM n-tuple. Os resultados mostraram um aumento significativo no

desempenho do classificador. Wang e Principe [WP99], propuseram uma nova

estratégia para otimização global através do treinamento de sistemas adaptativos,

nos quais o ruído foi inserido diretamente na saída desejada. Resultados

experimentais mostraram uma grande melhora em termos de tempo de

convergência do algoritmo backpropagation.

Um estudo comparativo sobre dois métodos para a adição de ruído artificial

durante o treinamento de redes neurais foi realizado por Zur, Jiand e Metz

[ZJM04]. No primeiro método foi adicionado ruído aos exemplos de entrada a cada

iteração do treinamento. No segundo, o ruído foi utilizado como técnica de

oversampling gerando novos exemplos e treinando a rede neural de forma

convencional. Os resultados obtidos mostraram bons desempenhos para os dois

métodos, contudo quando utilizado como técnica de oversampling o ruído não se

mostrou eficaz no combate ao overfitting.

Apesar das mais variadas linhas de pesquisas envolvendo a adição de ruído,

poucos trabalhos foram realizados focando pequenas amostras e o

desbalanceamento da base de dados.

17

Capítulo 3. Adição de Ruído

Neste capítulo são abordados os principais aspectos relacionados à adição de

ruído durante o processo de treinamento das redes neurais artificiais.

Inicialmente, é apresentada uma breve introdução destacando pontos importantes

relacionados ao processo de inserção de ruído. O dilema bias-variância é discutido

em seguida. Posteriormente, aspectos práticos e teóricos sobre o cálculo do ruído

são detalhados. Finalmente, a importância da correlação entre variáveis para o

processo, e como determinar o coeficiente de correlação entre as variáveis de

entrada é discutido.

3.1. Introdução

Os estudos envolvendo a adição de ruído ganharam força a partir da década de

90, nesta época, diversos autores abordaram os efeitos da adição de ruído e

demonstraram a melhora de desempenho obtida pelas redes neurais quando

fazem uso desta técnica durante o processo de treinamento [BIS94] [AN96]

[MAT92] [JGH96] [AO10] [WP99]. Entretanto, ainda hoje a adição de ruído como

técnica para sobrepor algumas limitações das redes neurais é um tema pouco

abordado na literatura.

É importante destacar, que ao contrário do ruído geralmente presente nas

bases de dados e que dificulta a tarefa de aprendizagem das mais diversas técnicas

de aprendizagem de máquina, o ruído discutido neste trabalho é gerado

artificialmente, segue uma distribuição previamente definida e tem como objetivo

permitir as RNAs sobreporem algumas de suas limitações, como lidar com bases de

dados pequenas e desbalanceadas. Para melhor compreensão sobre como alcançar

tais objetivos, é necessário introduzir alguns conceitos relacionados ao processo

de aprendizagem das redes neurais, entre eles o dilema bias-variância.

18

3.2. Dilema Bias-Variância

Durante o processo de treinamento de uma rede neural artificial, um

importante fator a ser considerado é o overfitting. Além de sua proposta original, a

adição de ruído durante o processo de treinamento surge como uma alternativa

atrativa a prevenção do overfitting.

O objetivo do processo de treinamento de uma RNA é ajustar seus

“parâmetros” (pesos associados às suas conexões) de modo que as respostas

emitidas sejam tão próximas quanto possível das saídas desejadas. O poder de

generalização da rede está associado à definição da topologia adequada, visto que

quanto maior o número de neurônios, maior a quantidade de conexões e

consequentemente, maior a quantidade de parâmetros ajustáveis na rede [HAY99]

[BCL00].

A grande quantidade de parâmetros ajustáveis permite a rede uma maior

flexibilidade, o que possibilita uma maior aproximação entre o sinal emitido pela

rede e a saída desejada. Contudo, como o conjunto utilizado para o treinamento

contém ruídos, a flexibilidade da RNA pode resultar no mapeamento destes ruídos

o que induziria a rede a cometer erros quando dados não utilizados para o

processo de treinamento fossem apresentados.

Consequentemente, podemos resumir o dilema bias-variância, com relação às

redes neurais artificiais, considerando a quantidade de neurônios em suas

camadas escondidas. Com uma quantidade muito pequena de neurônios o

desempenho da rede pode não ser satisfatório e, com uma quantidade muito

grande de neurônios poderá ocorrer uma memorização do conjunto de

treinamento, processo chamado de overfitting. O que resultaria em um

desempenho insatisfatório em um conjunto de dados independente, não utilizado

no processo de treinamento [NA08].

Existem algumas formas de se evitar o overfitting, entre elas destacam-se a

validação, a regularização e a inserção de ruído. Para a validação, há a necessidade

de um conjunto de dados independente do conjunto de treinamento. Este conjunto

de dados, denominado conjunto de validação, é utilizado durante o processo de

treinamento para determinar quando o treinamento deve parar. A cada época do

treinamento, o conjunto de validação é apresentado à rede neural e o erro entre as

respostas emitidas pela rede e as saídas desejadas é mensurado. Quando este erro

aumenta um determinado número de vezes consecutivas (número determinado

19

pelo usuário), é o momento de encerrar o treinamento, pois a rede começou a

memorizar os dados utilizados no treinamento [NA08].

Já a regularização é utilizada para resolver problemas mal formulados,

largamente presentes em diversos campos da matemática [HAY99]. Este método

envolve a adição de um termo que incorpora informação prévia sobre a solução. A

adição de ruído é detalhada a seguir.

3.3. Adição de Ruído

Consiste na inserção de ruído aos padrões de entrada do conjunto de

treinamento. Dado o conjunto de treinamento, as variáveis que assumem valores

numéricos têm uma perturbação inserida em seus valores reais. Esse processo é

repetido continuamente até que o treinamento seja encerrado. Um pseudocódigo

ilustrando todo o processo de inserção de ruído pode ser visto no capítulo 4, seção

4.2 e página 33.

O processo para adição de ruído apresentado neste trabalho visa a sobrepor

duas grandes limitações das redes neurais: a pequena quantidade de padrões

disponíveis para a realização do treinamento; e o desbalanceamento do conjunto

de dados. Nosso objetivo é mostrar que com a adição de ruído, pode-se não só

superar as citadas limitações como obter um ganho no poder de generalização das

redes neurais artificiais.

Para alcançar estes objetivos é aplicado ruído aos padrões existentes durante o

processo de treinamento. O processo de adição de ruído ocorre durante todo o

período de treinamento. Conseqüentemente, é improvável que um padrão com os

mesmos valores seja apresentado a rede mais de uma vez. Isso traz, entre outros

benefícios, a redução da probabilidade de overfitting. Uma vez que os padrões

apresentados são sempre diferentes, a RNA dificilmente irá memorizá-los.

Consequentemente, os dados, que anteriormente eram utilizados como conjunto

de validação, podem ser utilizados para ajuste dos parâmetros, aumentando a

massa de dados do conjunto de treinamento.

O problema associado a esta técnica está relacionado à descaracterização dos

padrões de entrada. Em outras palavras, a amplitude do ruído a ser inserido nos

dados de treinamento deve ser definida com cautela para prevenir que os padrões

percam a sua “identidade”. Ou seja, a perturbação inserida no padrão de entrada

20

deve ser suficientemente baixa de modo que este padrão não seja

descaracterizado, ou seja, que ele continue pertencendo à mesma classe.

Enfim, a inserção de ruído acaba por criar padrões similares. O mesmo padrão

é mostrado à rede diversas vezes com os atributos modificados devido à adição de

perturbações, associados a saídas idênticas.

3.3.1. Ruído e Distribuição Gaussiana

É o ruído estatístico cuja função densidade de probabilidade é igual a uma

distribuição normal. A distribuição normal, também chamada de distribuição

gaussiana, é bastante conhecida na literatura devido à sua vasta aplicação. É

definida por dois parâmetros: média e variância. A figura 4 ilustra a função

densidade de probabilidade de uma distribuição gaussiana (ruído) com média μ e

desvio padrão σ.

Figura 44. fdp de uma distribuição gaussiana com média μ e desvio padrão σ.

3.3.1.1. Geração do Ruído

Como aludido, o ruído a ser inserido no processo de treinamento obedece à

distribuição normal. A expressão utilizada para gerar o valor do ruído (r), e a

demonstração de que a mesma obedece a uma distribuição normal com μ = 0 e σ =

1, podem ser analisados a seguir [JAI95].

612

1i

iur

Equação 1. Adição de ruído

21

onde ]1,0[~ Uui .

Segundo Morettin e Bussab [MB02], o Teorema do Limite Central afirma que a

soma de variáveis aleatórias independentes e com a mesma distribuição de

probabilidade, tendem a uma distribuição normal. Com isso concluímos que u

tende a uma distribuição normal. Como ]1,0[~Uu podemos trivialmente perceber

que 2

1)(uE e

12

1)(uVar , esperança e variância respectivamente.

Logo, )12

,2

(~1

nnNwu

n

i

i . Onde w é uma variável aleatória com fdp

obedecendo à distribuição normal com média e variância definidas. Mais uma vez

através de conhecimentos básicos em estatística se torna trivial deduzir a média e

variância descritas acima:

12)(

12

1

)(

)()(

2)(

2

1

)(

)()(

1

1

1

1

1

1

nwVar

uVar

uVarwVar

nwE

uE

uEwE

n

i

n

i

i

n

i

i

n

i

n

i

i

n

i

i

Fazendo n = 12, temos:

)1,0(~6 Nzw

Onde,

22

112

12)(

12

)(

)6,(2)6()(

)6(

062

12)(

62

)6()(

)6()(

zVar

n

wVar

wCovVarwVar

wVar

zE

n

EwE

wEzE

Finalmente,

)1,0(~)6(12

1

Nui

i

A figura 5 mostra um gráfico com a distribuição de freqüência para uma

amostra com 10.000 valores, gerados a partir da expressão responsável por gerar

o ruído utilizado neste trabalho, equação 1.

Figura 55. Distribuição de freqüência para uma amostra de 10.000 valores

Para cada característica do vetor de entrada, é gerado um valor de ruído, de

acordo com a equação 1 (pág. 26). Em seguida, este valor é somado ao valor

original da variável, processo detalhado capítulo 4, seção 4.2.5 (pág. 36).

23

Outro aspecto de fundamental importância na adição de ruído junto aos

padrões de entrada está relacionado à correlação entre as variáveis. A inserção

indiscriminada de ruído pode eliminar correlações entre variáveis que deveriam

ser preservadas.

3.4. Correlação entre variáveis

O estudo da correlação entre variáveis é responsável por avaliar a intensidade

da relação entre duas variáveis. As medidas de correlação, em geral, indicam a

força e a direção da associação entre duas variáveis.

Em geral, existem diversos coeficientes para avaliar a relação entre duas

variáveis. O mais conhecido é o coeficiente de correlação de Pearson, o qual pode

ser calculado dividindo a covariância das variáveis analisadas pelo produto de seus

desvios padrão, como mostrado a seguir:

ρ = )().(

),cov(

YdpXdp

YX

Equação 2. Coeficiente de correlação de Pearson

O coeficiente de correlação de Pearson é, em geral, representado por ρ e pode

assumir valores no intervalo entre -1 e 1.

Para ρ = 1, significa uma correlação linear perfeita e positiva entre as

variáveis, ou seja, sempre que o valor de uma variável aumenta o da

outra aumenta também.

Para ρ = 0, significa que as duas variáveis não estão correlacionadas.

Para ρ = -1, significa que há uma correlação perfeita e negativa entre as

variáveis, em outras palavras, sempre que o valor de uma variável

aumenta o da outra diminui.

O cálculo do coeficiente de correlação tem papel fundamental na etapa de pré-

processamento dos dados, mais especificamente, no processo de seleção de

características. Em geral, quando duas variáveis apresentam uma correlação

perfeita, significa que apresentam informações redundantes e em muitos casos

uma delas pode ser descartada.

24

Outro ponto que merece destaque é a importância das variáveis para o

processo decisório. Em muitos casos, uma variável sozinha pode não agregar tanto

valor ao processo, contudo, quando utilizada em conjunto a outras variáveis pode

trazer um grande ganho de informação, como no caso da função OU-exclusivo. A

adição indiscriminada de ruído pode interferir na correlação entre variáveis,

causando prejuízo ao desempenho do classificador. A figura a seguir mostra como

correlações entre duas variáveis, de diferentes intensidades, são influenciadas de

acordo com o nível de ruído inserido.

Figura 6. Correlação x Nível de ruído

A análise do gráfico mostra que quanto maior à correlação entre variáveis,

maior será a influência da adição de ruído. Com o intuito de minimizar a

interferência na correlação, variáveis que possuam alto coeficiente de correlação

não são submetidas ao processo de adição de ruído. Outra abordagem é a

utilização de uma técnica apropriada para descorrelacionar variáveis, analisada em

detalhes na próxima seção.

3.5. Análise de Componente Principal

Análise de componente principal (ACP) é um método matemático que realiza

uma transformação ortogonal para converter um conjunto de variáveis

possivelmente correlacionadas em um conjunto de variáveis descorrelacionadas,

25

chamadas de componentes principais. Esta técnica, utilizada, entre outras coisas,

para compressão de imagens, permite a redução da dimensionalidade de uma base

de dados [HAY01] [GW00]. O número de componentes principais é menor ou igual

ao número de variáveis na base de dados original.

Cada componente principal é uma combinação linear de todas as variáveis

originais. Como as componentes principais são ortogonais entre si, as correlações

entre as variáveis são suprimidas. Outro importante aspecto está relacionado ao

processo de geração de cada componente. Este processo é responsável por

maximizar a informação estatística para cada uma das coordenadas que estão

sendo criadas. As variáveis originais têm a mesma importância estatística,

enquanto que as componentes principais têm importância estatística decrescente,

ordenadas pelos autovalores dos seus autovetores. Ou seja, as primeiras

componentes principais são mais importantes que as demais [GW00].

Enfim, a análise de componentes principais permite que a base original sofra

uma transformação gerando novas variáveis (componentes principais), que

minimizam a perda de informação ao mesmo tempo em que suprimem a

correlação entre as variáveis.

26

Capítulo 4. Metodologia Experimental

Este capítulo aborda todos os aspectos relacionados aos experimentos

desenvolvidos neste trabalho. Inicialmente, o modelo investigado é descrito com o

intuito de prover maiores esclarecimentos quanto aos objetivos do projeto e como

os experimentos foram conduzidos. Em seguida, é apresentado um pseudocódigo

descrevendo todas as etapas do processo de treinamento, com cada etapa sendo

descrita em detalhes nas seções subsequentes. Finalmente, as métricas utilizadas

para avaliar os resultados obtidos são apresentadas.

4.1. Modelo Investigado

Para investigar a metodologia proposta, foi escolhida a RNA multilayer

perceptron (MLP). Esta escolha se deve a sua larga aplicação tanto na área

acadêmica quanto industrial. Alvo de diversas pesquisas, as redes MLP têm

bastante respaldo na comunidade de aprendizagem de máquinas, sendo inclusive,

principal foco de diversas conferências internacionais [ALP04].

A avaliação da metodologia proposta é realizada por meio de uma análise

comparativa. Três redes MLP similares têm seus desempenhos comparados:

A primeira, treinada de forma convencional (doravante denominada

modelo 1);

A segunda (modelo 2) é treinada utilizando a metodologia proposta,

adicionando ruído durante o processo de treinamento. Entretanto,

antes da inserção de ruído são calculados os coeficientes de correlação

entre as variáveis para determinar quais variáveis devem sofrer a

adição de ruído;

27

A terceira (modelo 3) é treinada com a adição de ruído nos padrões de

entrada. Neste caso, antes da inserção de ruído a base original será

transformada por meio da análise de componentes principais.

As redes apresentam a mesma topologia, ou seja, mesmo número de camadas e

neurônios, mesma taxa de aprendizado e são treinadas por um mesmo número de

épocas. A única distinção entre elas está na adição de ruído durante o processo de

treinamento de dois dos modelos.

Para o modelo 1 (treinada de forma convencional), o balanceamento das bases

de dados ocorrerá replicando os padrões da classe menos freqüente. Então, a base

de dados será dividida em três conjuntos: treinamento, validação e teste.

Para o modelo 2 (com adição de ruído e análise de correlação) e o modelo 3

(com adição de ruído e PCA), a base de dados é dividida apenas em treinamento e

teste, visto que uma das vantagens da metodologia proposta é evitar o overfitting.

Com o intuito de simplificar a análise, alguns parâmetros ajustáveis das redes

MLP foram mantidos constantes. Os modelos, por exemplo, apresentam uma única

camada escondida, visto que segundo Cybenko [CYB89], estas redes podem

generalizar qualquer função linearmente contínua. A função de ativação utilizada é

a função sigmóide tangente hiperbólica, segundo Haykin [HAY99], a escolha desta

função leva as redes neurais artificiais a uma convergência mais rápida. O

algoritmo de treinamento utilizado é o backpropagation. Assim como as redes

MLP, o backpropagation é amplamente utilizado, tendo sido alvo de diversos

estudos.

4.2. Treinamento

Nesta seção destacamos como foram definidas as principais características das

RNAs utilizadas neste estudo.

4.2.1. Infra-Estrutura

A abordagem proposta consiste em adicionar ruído aleatório, derivado de uma

distribuição gaussiana, aos padrões de entrada com o intuito de permitir a rede

neural lidar com as limitações impostas pelas bases de dados pequenas e

desbalanceadas. Para alcançar esta tarefa, foi criado um módulo responsável por

gerenciar a adição de ruído durante todo o processo de treinamento.

28

O processo completo para adição de ruído pode ser compreendido a partir de o

pseudocódigo apresentado a seguir. A notação utilizada consiste de: k, constante

responsável por determinar a amplitude do ruído (detalhes na seção 4.2.5, pág.

31), r, variável aleatória derivada de uma distribuição normal, N(0,1), x, valor de

ruído a ser inserido nos padrões de entrada e e representa um exemplo de entrada

com n variáveis. Os principais passos descritos no algoritmo, bem como as

variáveis utilizadas, são detalhados nas seções subseqüentes.

1. Se é o modelo 2

a. Calculam-se os coeficientes de correlação de Pearson ρ. Variáveis com baixa correlação sofrem a adição de ruído (passo 5.b), as demais são apresentadas com seus valores originais

2. Caso contrário, se é o modelo 3 a. Aplicamos ACP para descorrelacionar as

variáveis de entrada. Neste caso, todas as variáveis sofrem a adição de ruído (passo 5.b)

3. Inicializa-se a arquitetura do sistema (RNA) 4. Define-se k, constante que determina a amplitude

do ruído, e máximo num. de épocas 5. Enquanto num. épocas < máximo num. de

épocas a. Randomicamente selecione um padrão de

entrada (vetor e), sem reposição b. Para cada variável n pertencente ao padrão de

entrada e e selecionada no passo 1. 1. Calcule r ~ N(0,1) 2. Calcule x = k x r 3. Faça n = n + x

c. Apresente e a rede d. Ajuste os parâmetros do sistema e. Se o critério de parada foi atendido

1. Pare o treinamento f. Caso contrário

1. Incremente num. épocas 2. Vá para o passo 5

4.2.2. Base de Dados

Proben1 é um repositório de dados que tem sido um dos mais utilizados para

avaliação e validação de pesquisas na área de redes neurais e outros sistemas de

29

regressão e classificação. A maioria de suas bases de dados é pequena, tornando

este benchmark ainda mais atraente para este trabalho.

Entre os problemas de classificação, apenas problemas de decisão binária

foram escolhidos, devido à sua facilidade de interpretação e a robustez das

métricas para avaliação de desempenho. Dos problemas de decisão binária do

Proben1, foram selecionadas as bases Card, Diabetes e Câncer.

Um dos principais objetivos deste trabalho é a proposta de uma metodologia

que permita a utilização das redes neurais artificiais quando a quantidade de

dados disponíveis para o treinamento for pequena. Com este intuito, uma amostra

estratificada com apenas 100 padrões foi selecionada. Em outras palavras, além de

utilizar as bases de dados originais para avaliação da metodologia proposta, foram

realizados experimentos onde cada problema apresentava apenas 100 padrões de

entrada. A amostragem foi realizada aleatoriamente de forma a eliminar qualquer

viés.

O problema Card está relacionado à aprovação de cartões de créditos, tem

originalmente 690 padrões, com 51 atributos, dos quais 383 padrões são rotulados

como maus (classe negativa), e 307 padrões são rotulados como bons (classe de

interesse, positiva). Além da utilização da base original, como mencionado, um

processo de amostragem estratificada, com o intuito de avaliar a metodologia

proposta em bases pequenas, foi realizado. A amostragem produziu uma nova base

de dados com 100 padrões, dos quais 56 rotulados como maus e 44 rotulados

como bons (a mesma proporção da base de dados original).

O problema Diabetes é dedicado ao diagnóstico de diabetes. A base de dados

original possui oito atributos e um total de 768 padrões, com 500 padrões

rotulados como não-diabéticos (classe negativa) e 268 rotulados como diabéticos

(classe de interesse, positiva). O processo de amostragem produziu uma nova base

de dados com 100 padrões, dos quais 65 padrões rotulados como não-diabéticos e

35 rotulados como diabéticos.

O problema Câncer está relacionado à classificação de tumores de câncer de

mama como malignos ou benignos. A base original possui 699 padrões com 9

atributos. 241 padrões são rotulados como bons (classe de interesse, positiva),

enquanto 458 padrões são rotulados como maus (classe negativa). Mais uma vez,

o processo de amostragem produziu uma base de dados com 100 padrões, dos

quais, 34 padrões classificados como malignos e 66 padrões classificados como

benignos, obedecendo à proporção da base original.

30

As bases de dados utilizadas possuem missing values. Como nosso objetivo não

é o pré-processamento das bases de dados, um tratamento bem simples foi

adotado: substituição dos missing values pela mediana (variáveis numéricas) ou

moda (variáveis categóricas).

No capítulo 5 são apresentados mais detalhes dos problemas utilizados, bem

como de suas respectivas bases de dados.

4.2.3. Correlação e PCA

Primeiro passo do algoritmo descrito, o coeficiente de correlação de Pearson é

utilizado para definir quais variáveis devem receber a adição de ruído aos seus

valores. Segundo Santos [SAN07], coeficientes de correlação maiores ou iguais a

0,8 significam que duas variáveis possuem uma forte correlação positiva, enquanto

que valores menores ou iguais a -0,8 significam que duas variáveis possuem uma

forte correlação negativa. Logo, este foi o limiar adotado para determinar quais

variáveis são fortemente correlacionadas e, conseqüentemente, não sofrerão a

adição de ruído.

Como mencionado, para o treinamento do modelo 3, foi aplicado o algoritmo

PCA para transformar a base de dados original e, conseqüentemente, suprimir a

correlação entre as variáveis. Neste processo o número de componentes principais

é igual ao número de características dos vetores originais.

4.2.4. Topologia e Parâmetros

As redes neurais artificiais possuem diversos parâmetros a serem definidos

antes do início do treinamento, como mencionado. Alguns destes parâmetros

foram mantidos constantes, enquanto outros foram definidos experimentalmente.

Entre os parâmetros mantidos constante podemos destacar: taxa de

aprendizagem (0,001), taxa de momento (0,01), quantidade de camadas

intermediárias (1), quantidade de épocas (10.000), e o algoritmo para treinamento

(backpropagation). Os pesos das conexões durante o treinamento foram

atualizados por padrão ou online, não por época.

A quantidade de neurônios presentes na camada intermediária foi definida

experimentalmente. Antes de avaliar o desempenho das redes, foram realizados

31

experimentos a fim de definir a topologia que mais se adequasse às bases

utilizadas. Para cada base de dados foram treinados 10 modelos de redes MLP,

num experimento em que a quantidade de neurônios na camada intermediária era

incrementada.

A tabela 1 ilustra os experimentos realizados para definição da quantidade de

neurônios na camada intermediária, para cada experimento a quantidade de

neurônios é incrementada em um.

Tabela 1. Experimentos para escolha da topologia da RNA

Experimentos Quantidade de neurônios na camada escondida

Experimento 1 1 neurônio

Experimento 2 2 neurônios


... ...


O experimento com melhor desempenho médio determina a rede a ser

utilizada. O melhor desempenho é indicado pelas três métricas utilizadas: AUC, KS

máximo e coeficiente de GINI. Em caso de empate, a topologia mais simples é

escolhida.

4.2.5. Adição de Ruído

Após a definição da topologia, o nível de ruído a ser inserido é escolhido

experimentalmente. Com este objetivo, foram realizados cinco experimentos nos

quais o nível de ruído é gradativamente aumentado.

O nível de ruído (k) é responsável por redefinir a variância do ruído a ser

inserido nos padrões de entrada. Embora, a expressão original obedeça a uma

distribuição Gaussiana com variância um, podemos controlar a “força” do ruído a

ser inserido por meio desta variável.

Para cada base de dados, foram realizados cinco experimentos com o intuito de

definir o nível de ruído apropriado. Na tabela seguinte, o nível de ruído em cada

experimento pode ser observado, bem como sua respectiva variância.

32

Tabela 2. Experimentos para definição do nível de ruído

Experimentos Nível de ruído (k) Variância

Experimento 1 0,05 0,052





Da mesma forma que na etapa anterior, o nível de ruído selecionado é baseado

no desempenho do modelo, em caso de empate, escolhe-se o menor nível de ruído.

Finalmente, podemos definir a expressão utilizada para gerar os valores a

serem adicionados aos padrões de entrada como:

x = k * r 612

1i

iur

(a) (b)

Equação 3 e 4. (a) Geração de ruído, e (b) Normal com média 0 e variância 1

4.3. Avaliação de Desempenho

Para realizar a avaliação de desempenho, cada problema do Proben1 foi

utilizado de duas formas distintas. Na primeira, as bases de dados originais foram

utilizadas e a comparação de desempenho dos modelos seguiu o método 10-fold

Cross-Validation. Na segunda apresentação, os dados de cada problema foram

reduzidos a 100 padrões. Neste caso, o método utilizado para comparação de

desempenho dos modelos foi o Leave-one-out ou Jack Knife. As métricas

selecionadas para mensurar o desempenho obtido foram: Curva ROC, KS máximo e

o coeficiente de GINI.

4.3.1. 10-Fold Cross-Validation

33

Neste método o conjunto de dados é dividido em 10 partes. Uma parte é

separada e utilizada como conjunto de teste, enquanto as demais são utilizadas no

processo de treinamento do modelo – para o caso do treinamento convencional, as

nove partes restantes são divididas em treinamento (66%) e validação (34%). No

treinamento com ruído, as nove partes restantes são utilizadas exclusivamente

para treinamento. Este processo é repetido dez vezes, onde cada uma das 10

partes é utilizada como conjunto de teste exatamente uma vez [KOH95].

4.3.2. Leave-One-Out Cross-Validation

Semelhante ao 10-fold cross-validation, a diferença consiste no tamanho da

amostra separada para ser utilizada como conjunto de teste. Enquanto no 10-fold

cross-validation o tamanho da amostra separada para teste do modelo em cada

iteração corresponde a um décimo da base de dados original, no Leave-one-out

cross-validation o tamanho da amostra separada em cada iteração é de apenas um

padrão. Ou seja, apenas um padrão em cada iteração é utilizado como conjunto de

teste.

Como cada padrão é utilizado como conjunto de teste exatamente uma vez, a

rede neural deve, por conseqüência, ser treinada n vezes, onde n representa a

quantidade total de padrões presentes na base de dados. Esse método é indicado

quando a quantidade de dados disponível para o treinamento da rede é pequeno,

uma vez que apenas um padrão é separado para teste a cada iteração.

4.3.3. Curva ROC

A curva ROC (Receiver Operating Characteristic) é uma ferramenta não

paramétrica que representa o compromisso entre a classificação dos exemplos

como verdadeiros positivos e falsos positivos baseados em uma saída contínua ao

longo de todos os possíveis limiares de decisão (escore). É um método gráfico que

descreve a capacidade de o classificador discriminar entre dois estados, cada ponto

da curva representando um compromisso diferente entre a taxa de verdadeiro

positivo e a taxa de falso positivo baseada na adoção de todos os possíveis limiares

de decisão [BRA00] [MET86].

Há duas métricas extraídas da curva ROC: a distância mínima da curva para o

ponto (x=0, y=1), o qual é um indicador de desempenho restrito a um ponto de

operação; e a área sob a curva ROC (AUC_ROC), que é usada para avaliar o

desempenho através de todo o intervalo de escore [FAW03]. Considerando

decisões binárias sob uma escala contínua, quanto maior o valor para a AUC_ROC,

34

mais próximo o sistema de um classificador ideal (AUC_ROC = 1). Se a curva de um

classificador aparece acima da de outro classificador durante todo o domínio, isso

indica que o primeiro é melhor que o último. A figura 7 esboça o gráfico de uma

curva ROC.

Figura 76. Curva ROC

4.3.4. KS2 – Teste de Kolmogorov Smirnov

Originalmente, o método estatístico Kolmogorov-Smirnov foi concebido como

um teste não paramétrico usado para medir a aderência de uma distribuição de

probabilidade a dados a partir da sua função de distribuição acumulada [CON99].

Em um sistema de decisão binário, esta métrica é aplicada para avaliar a

dissimilaridade (ausência de aderência) entre os conjuntos de dados de duas

classes, tendo o escore como variável independente.

A curva de Kolmogorov-Smirnov é a diferença entre a distribuição acumulada

dos conjuntos de dados das duas classes e quanto mais alta a curva, melhor o

sistema. O ponto de valor máximo (KS_Max) é o indicador de desempenho. Esta

métrica é largamente aplicada para avaliação de desempenho em áreas como

análise de risco de crédito. Quanto maior o valor do KS_Max, melhor o sistema

consegue separar os padrões classificados como bons dos classificados como maus.

O sistema de decisão ideal teria o KS_Max igual a 1, o que corresponde a todos os

padrões de cada classe agrupados separadamente de acordo com o escore

ordenado. A figura 8 esboça o gráfico de uma curva KS.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Falso Positivo

Ve

rda

de

iro

Po

sit

ivo

Rede MLP

Classificador Aleatório

35

Figura 8. Curva KS_Max

4.3.5. Coeficiente de GINI

Métrica bastante utilizada na economia, o cálculo deste índice é baseado na

curva de Lorenz [RCS09]. A curva de Lorenz ilustra a distribuição de uma variável

em função de outra. É largamente utilizada para analisar a concentração da renda

em função da população. Neste caso uma curva diagonal representaria a

distribuição uniforme de renda entre a população.

Neste trabalho a curva de Lorenz é calculada a partir do percentual da

população, eixo x, e da distribuição acumulada dos maus exemplos, eixo y. Esta

abordagem nos permite analisar a distribuição dos maus exemplos dentro da

população. Quanto mais distante de 0 for o valor do coeficiente de GINI, maior a

concentração dos maus exemplos em uma faixa da população e melhor o

desempenho do sistema. O valor máximo para o coeficiente de GINI depende

diretamente da distribuição das classes na base de dados. A figura 9 ilustra a curva

de Lorenz.

36

Figura 9. Curva de Lorenz

4.3.6. Teste de Hipóteses

No campo da Inferência Estatística, a busca por respostas acerca de certas

características de uma população estudada é de fundamental importância [NA08].

Segundo Morettin e Bussab [MB02], o objetivo do teste estatístico de hipóteses é

fornecer uma metodologia que nos permita verificar se os dados amostrais trazem

evidências que apóiem ou não uma hipótese formulada.

Para a formulação do teste faz-se necessário estabelecer uma hipótese a ser

testada, chamada de hipótese nula (H0). Em seguida, definimos uma hipótese

alternativa (H1), que é aceita em caso de rejeição da hipótese nula.

Tipos de erro

Ao tomar uma decisão, aceitando ou rejeitando determinada hipótese, há a

probabilidade de incorrer em erros, visto que a análise é baseada em uma amostra

e não na população. A tabela 3 ilustra os erros associados aos testes de hipóteses,

chamados de “Erro de Tipo 1” e o “Erro de Tipo 2”:

37

Tabela 3. Teste de Hipóteses - Tipos de erro

Realidade

Decisão H0 é verdadeira H0 é falsa

Rejeitar H0 Erro Tipo 1 Decisão Correta

Não Rejeitar H0

Decisão Correta Erro Tipo 2

Região crítica

A região crítica, também conhecida como região de rejeição, é onde a hipótese

nula é rejeitada. A área da região crítica é igual ao nível de significância (α), que

estabelece a probabilidade de rejeitar H0 quando ela é verdadeira [NA08]. A figura

10 ilustra a região crítica, aceitar H0 significa que a hipótese nula não foi rejeitada.

Figura 10. Região Crítica [NA08]

Definida a significância do teste (α), baseado na tabela t-student, encontramos o

valor tα, responsável por determinar se a hipótese nula deve ou não ser rejeitada.

Teste sobre duas médias

O primeiro passo para utilizar o teste de hipóteses é definir qual característica

da amostra deverá ser testada. Com o intuito de validar a metodologia proposta

são comparados os desempenhos médios de três redes neurais, por tanto o teste

de hipótese utilizado será um teste unicaudal e emparelhado sobre duas médias

(desempenho médio de cada modelo).

38

Definida a característica e o teste de hipótese a ser utilizado, foram propostas

as seguintes hipóteses:

H0: μM2 = μM1

H1: μM2 > μM1

O termo μM2 representa o desempenho médio dos modelos cujo

treinamento foi realizado com a inserção de ruído, e μM1 representa o desempenho

médio da RNA treinada de forma convencional, sem adição de ruído no processo

de treinamento.

Após a definição das hipóteses escolhemos o nível de significância do erro.

Quanto menor o erro mais difícil se torna a rejeição da hipótese nula, para este

problema estabelecemos o nível de significância como 0,05.

Finalmente, calculamos t0 e comparamos a tα (também conhecido como t-

crítico) para determinar a região crítica e conseqüentemente rejeitar ou não a

hipótese nula (sempre que t0 é maior que tα, a hipótese nula deve ser rejeitada). O

tα é definido a partir da tabela da distribuição t-student, já o t0 é facilmente

calculado pela expressão [JAI95]:

1

2

1

2

2

2

120

n

S

n

S

MMt

Onde as variâncias e os números de repetições realizadas são definidos por 2

1S

e 2

2S e n1 e n2 respectivamente.

39

Capítulo 5. Resultados Experimentais

Neste capítulo são apresentados todos os resultados obtidos a partir dos

experimentos realizados, desde a seleção da quantidade de neurônios na camada

intermediária até os testes de hipóteses para avaliar a metodologia proposta.

Como mencionado, os problemas são de uma base pública utilizada como

benchmark na comunidade de redes neurais, PROBEN1. Na tabela 4 são

apresentadas as três bases de dados com uma breve descrição do domínio no qual

estão inseridas.

Tabela 4. Base de dados utilizada na avaliação dos modelos

Base de dados Descrição

CARD Dados referentes à aprovação de cartão de crédito

DIABETES Dados referentes ao diagnóstico de diabetes

CANCER Dados referentes ao diagnóstico de câncer na mama

No decorrer deste capítulo uma descrição mais detalhada acerca das bases de

dados é realizada. Inicialmente, são apresentadas três seções, cada uma

responsável por detalhar os experimentos referentes a um dos problemas

escolhidos. Por fim, uma seção sumarizando todos os resultados obtidos.

40

5.1. CARD

É uma base de dados voltada para o problema de aprovação de cartões de

crédito. A base se torna interessante devido grande mistura de atributos, que

podem assumir valores contínuos e discretos.

Das 690 instâncias (padrões), aproximadamente 5% apresentavam “missing

values”. Todos os atributos, como mencionado, assumem valores numéricos; sejam

contínuos ou discretos. A proporção de registros por classe está ilustrada na figura

11 abaixo:

Figura 11. Percentual das classes para a base CARD [OLI08]

Ou seja, a base CARD apresenta 383 registros classificados como maus (classe

negativa) e 307 classificados como bons (classe positiva).

Embora já mencionado, é importante ressaltar que para cada problema (Card,

Diabetes e Cancer) dois experimentos são realizados, um deles utilizando a base de

dados completa (com todos os padrões disponíveis) e o segundo com uma base de

dados reduzida (100 padrões) após um processo de amostragem estratificada.

O primeiro passo após a definição da base de dados é a seleção de quais

variáveis sofrerão a adição de ruído, como descrito no pseudocódigo no capítulo 4.

41

Para realização deste processo, o coeficiente de correlação de Pearson foi utilizado

e os resultados são apresentados a seguir.

5.1.1. Correlação de Pearson

Devido ao grande número de variáveis, a tabela a seguir apresenta apenas os

maiores valores obtidos no cálculo dos coeficientes de correlação. Com o intuito de

manter a confidencialidade dos pacientes, nenhuma variável apresenta nome ou

qualquer descrição. Consequentemente, foi mantida a nomenclatura adotada pelo

Proben1: v1, v2, ... , v51, denotando as 51 variáveis existentes na base de dados.

Tabela 5. Correlação de Pearson

Variáveis Coef. de Correlação de Pearson - ρ

Variáveis Coef. de Correlação de Pearson - ρ

v7 x v12 1,000 v15 x v30 0,815

v8 x v13 1,000 v11 x v40 0,815

v9 x v14 1,000 v15 x v40 0,815

v11 x v15 1,000 v11 x v30 0,815

v30 x v40 1,000 v20 x v34 0,780

v1 x v2 -0,969 v30 x v47 0,703

v7 x v8 -0,969 v40 x v47 0,703

v8 x v12 -0,969 v31 x v32 -0,585

v7 x v13 0,969 v23 x v35 0,575

v12 x v13 -0,969 v43 x v44 0,571

v29 x v38 0,941 v27 x v36 0,559

v47 x v11 0,865 v19 x v33 0,500

v47 x v15 0,865

A partir da tabela acima, é possível concluir que algumas variáveis (v7 e v12, v8

e v13, v9 e v14, v11 e v15 e v30 e v40) apresentam uma correlação linear perfeita

(ρ = 1,0), em outras palavras, informações redundantes [SAN07]. Logo apenas uma

das variáveis, para cada par que apresenta correlação linear perfeita, foi mantida

(v7, v8, v9, v11 e v30).

De acordo com Santos [SAN07], quando duas variáveis apresentam um

coeficiente de correlação de Pearson superior a 0,8 ou inferior a -0,8, significa que

42

estas variáveis são fortemente correlacionadas. A partir deste valor, definido como

limiar, foram determinadas quais variáveis não sofreriam a adição de ruído. Em

outras palavras, quais variáveis seriam apresentadas às redes neurais com seus

valores originais.

Com base nos dados da tabela 5, as variáveis livres de qualquer adição de ruído

são: v1, v2, v7, v8, v11, v29, v30, v38 e v47, ou seja, 9 variáveis são apresentadas às

redes com seus valores originais, enquanto as demais 37 variáveis (5 foram

eliminadas devido a redundância de informações) sofrem a adição de ruído

durante o processo de treinamento.

O próximo passo na realização dos experimentos é a definição da topologia

mais adequada, e o treinamento propriamente dito, este último incluindo a

definição do nível de ruído a ser inserido. Para facilitar a compreensão, esta etapa

foi dividida em duas subseções: uma delas descrevendo os resultados obtidos

utilizando a base de dados original, e a outra descrevendo os resultados para a

base reduzida.

5.1.2. Base Completa

Nestes experimentos foram utilizadas as 690 instâncias disponíveis. Como

citado, a fase inicial consiste da seleção da arquitetura da rede. Em seguida, são

executados os experimentos visando a encontrar o nível de ruído apropriado.

Finalmente, os desempenhos obtidos são comparados e analisados através do teste

de hipóteses.

Topologia

Foram realizados dez experimentos, em cada experimento a quantidade de

neurônios na camada intermediária foi incrementada. A escolha da topologia foi

baseada no desempenho obtido de acordo com as três métricas utilizadas: KS_Max,

AUC_ROC e o coeficiente de GINI. Em caso de empates, por exemplo, três topologias

diferentes obtendo melhor desempenho em uma das métricas, a rede com a

topologia mais simples prevalece.

A seguir, na tabela 6, são apresentados os experimentos, a quantidade de

neurônios na camada intermediária e os desempenhos obtidos.

43

Tabela 6. Seleção da arquitetura da rede MLP

Nodos na camada

intermediária Área sob a Curva ROC

KS máximo GINI

Experimento 1 1 0,913 0,765 0,566

Experimento 2 2 0,900 0,757 0,686

Experimento 3 3 0,900 0,743 0,709

Experimento 4 4 0,897 0,720 0,689

Experimento 5 5 0,905 0,759 0,686

Experimento 6 6 0,855 0,659 0,562

Experimento 7 7 0,906 0,744 0,685

Experimento 8 8 0,904 0,741 0,680

Experimento 9 9 0,902 0,722 0,713

Experimento 10 10 0,910 0,737 0,689

Embora o experimento 1 tenha obtido um baixo valor para o coeficiente de

GINI, ele obteve os melhores desempenhos para as outras duas métricas, AUC_ROC

e o KS_Max. Como mencionado, o coeficiente de GINI analisa a distribuição de maus

exemplos em função do escore emitido pela RNA. Um baixo desempenho neste

índice indica que os maus exemplos não estão tão concentrados. Ou seja, nem

todos os padrões rotulados como maus receberam escores baixos como seria o

ideal. Ao contrário do coeficiente de GINI, os outros índices, AUC_ROC e o KS_Max,

além dos maus exemplos, também levam em consideração os bons exemplos, o que

explica o fato do experimento 1 ter obtido os melhores desempenho para a área

sob a curva ROC e o KS máximo, e o segundo pior desempenho para o coeficiente

de GINI.

Nível de Ruído

Foram realizados cinco experimentos para definição do nível de ruído a ser

inserido no treinamento da RNA. Na figura 12 é apresentado um gráfico ilustrando

os experimentos, o nível de ruído inserido e os desempenhos obtidos. Para estes

experimentos foi utilizado o modelo selecionado da etapa anterior, com um

neurônio na camada intermediária. Assim como na etapa anterior, o experimento 1

(em destaque) foi selecionado pois apresentou melhor desempenho nos três

índices utilizados.

44

Figura 72. Seleção do nível de ruído

Desempenho

Para analisar o desempenho dos modelos foi utilizado 10-fold cross-validation.

Duas repetições foram utilizadas para definir o desempenho médio. A tabela 7

apresenta o desempenho médio dos modelos (com e sem adição de ruído no

processo de treinamento), além de respectivos desvios-padrão.

Tabela 7. Desempenho médio 2x10-fold cross-validation

Nodos na camada intermediária

Inserção de ruído

Métrica Desempenho Desvio Padrão

Modelo 1 1 Não AUC_ROC 0,916 0,0331

1 Não KS_Max 0,767 0,0141

Modelo 2 (Correlação)

1 Sim AUC_ROC 0,923 0,0374

1 Sim KS_Max 0,772 0,0557

Modelo 3 (ACP)

1 Sim AUC_ROC 0,927 0,0387

1 Sim KS_Max 0,789 0,1004

Comparação dos Resultados

Foi utilizado o teste de hipóteses, t-student (unicaudal e emparelhado), para

avaliar se existe diferença significativa entre o desempenho dos modelos

0,922

0,779

0,532

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

0,05 0,1 0,15 0,2 0,25

AUC_ROC

KS_Max

GINI

Nível de ruído

Desempenho

Nível de ruído

Desempenho

45

analisados. Duas comparações foram realizadas: o desempenho dos modelos 2 e 3

foram comparados ao desempenho obtido pelo modelo 1.

A partir dos dados fornecidos na tabela 7, podemos concluir que não há

diferenças significativas entre os desempenhos dos modelos estudados com 95%

de confiança. A tabela 8 apresenta os resultados dos testes realizados.

Tabela 8. Teste de Hipóteses

Modelos Métrica t 0 t (crítico)

Modelo 2 / Modelo 1

AUC_ROC ~0,6261

1,729

KS_Max ~0,3893

1,729

Modelo 3/ Modelo 1

AUC_ROC ~0,9648 1,729

KS_Max ~0,9694 1,729

5.1.3. Base Reduzida

O estudo dos modelos com a utilização da base reduzida, quantidade menor

de padrões que a base original, tem por objetivo investigar a influência da adição

ruído nos casos em que a quantidade de dados disponíveis para o treinamento da

RNA é pequena ou insuficiente.

Para esta análise foi coletada uma amostra com 100 instâncias das 690

disponíveis na base original. A seleção da amostra foi realizada aleatoriamente e

mantendo a proporção entre classes da base original.

Os procedimentos para seleção da rede e nível de ruído seguem o exemplo

anterior, exceto pela técnica utilizada para o treinamento e teste dos modelos.

Enquanto foi utilizado 10-fold cross-validation para análise das bases originais,

para as bases reduzidas é utilizado leave-one-out cross-validation.

Topologia

Como mencionado, foram realizados 10 experimentos para a seleção da

quantidade de nodos na camada intermediária. Na tabela 9 são apresentados os

resultados obtidos, com destaque para o experimento com melhor desempenho

geral.

46


Nodos na camada

intermediária Área sob a Curva ROC

KS máximo GINI

Experimento 1 1 0,818 0,630 0,526

Experimento 2 2 0,836 0,671 0,658

Experimento 3 3 0,834 0,713 0,654

Experimento 4 4 0,825 0,670 0,609

Experimento 5 5 0,839 0,650 0,645

Experimento 6 6 0,866 0,711 0,690

Experimento 7 7 0,830 0,632 0,597

Experimento 8 8 0,822 0,614 0,537

Experimento 9 9 0,828 0,702 0,613

Experimento 10 10 0,842 0,710 0,631

A rede com seis neurônios na camada intermediária obteve os melhores

desempenhos nas três métricas utilizadas.

Nível de Ruído


inserido no treinamento da RNA. O gráfico abaixo, figura 13, ilustra os

experimentos, o nível de ruído inserido e os desempenhos obtidos, com destaque

para o nível de ruído com melhor desempenho.

Os testes foram realizados no modelo definido no processo anterior, MLP com

seis neurônios na camada intermediária. O nível de ruído que proporcionou um

melhor desempenho à rede neural foi de 0,10, com melhores performances em

duas das três métricas utilizadas.

47

Figura 83. Seleção do nível de ruído

Desempenho

Após a definição da arquitetura (seis neurônios na camada intermediária) e

nível de ruído a ser inserido (0,10), foram realizadas 20 repetições para realizar a

comparação dos modelos. Os desempenhos médios podem ser analisados na tabela

seguinte.

Tabela 10. Desempenho médio nas 20 repetições





6 Não KS_Max 0,706 0,0510


6 Sim AUC_ROC 0,871 0,0332

6 Sim KS_Max 0,752 0,1068

Modelo 3 (ACP)

6 Sim AUC_ROC 0,876 0,0458

6 Sim KS_Max 0,757 0,0900


Foi utilizado o teste de hipóteses, t-student, para avaliar se existe diferença

significativa entre o desempenho dos modelos analisados. Duas comparações

foram realizadas: primeiramente, o desempenho dos modelos 2 foi comparado ao

0,866 0,871

0,771 0,771

0,671

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

0,05 0,1 0,15 0,2 0,25

AUC_ROC

KS_Max

GINI

Nível de ruído

Desempenho

Nível de ruído

Desempenho

Nível de ruído

Desempenho

Nível de ruído

Desempenho

48

desempenho obtido pelo modelo 1. Em seguida, o desempenho médio do modelo 3

foi comparado ao desempenho obtido pelo modelo 1.

A partir dos dados fornecidos na Tabela 10, podemos concluir que:

O modelo 2 (adição de ruído e correlação) apresenta desempenho

significativamente superior, 95% de confiança, ao obtido pelo modelo 3

(treinamento convencional) quando analisada a métrica KS_Max. Para a

métrica AUC_ROC, não há diferença significativa entre os modelos.

O modelo 3 (adição de ruído e PCA) apresenta desempenho

significativamente superior, 95% de confiança, ao obtido pelo modelo 1

(treinamento convencional) para ambas as métricas utilizadas,

AUC_ROC e KS_Max.

A tabela 11 apresenta os resultados dos testes realizados.



Modelo 2 / Modelo 1

AUC_ROC ~1,606

1,729

KS_Max ~1,739 1,729

Modelo 3/ Modelo 1

AUC_ROC ~1,741 1,729

KS_Max ~2,205 1,729

49

5.2. DIABETES

É uma base de dados voltada para o problema de diagnóstico de diabetes. O

problema visa a determinar se o paciente apresenta sinais de diabetes de acordo

com critérios definidos pela Organização Mundial da Saúde.

Algumas restrições foram colocadas na seleção das instâncias para compor esta

base de dados, por exemplo, todos os dados se referem a pacientes do sexo

feminino e com idade maior que 21 anos.

Todos os atributos, assim como no problema anterior, apresentam valores

numéricos. A base apresenta 500 instâncias rotuladas como não diabéticas (classe

negativa) e 268 instâncias rotuladas como diabéticas (classe positiva).

Figura 9. Percentual das classes para a base DIABETES [OLI08]

Mais uma vez, o primeiro passo após a definição da base de dados é a seleção

de quais variáveis sofrerão a adição de ruído, como descrito no pseudocódigo no

capítulo anterior. Para realização deste processo, o coeficiente de correlação de

Pearson foi utilizado e os resultados são apresentados na seção seguinte.

50


Assim como no problema Card, com o intuito de manter a confidencialidade dos

pacientes, nenhuma variável apresenta nome ou qualquer descrição.

Conseqüentemente, foi adotada a seguinte nomenclatura: v1, v2, ... , v8, denotando

as oito variáveis existentes na base de dados. A tabela a seguir mostra o coeficiente

de correlação de Pearson:


V1 V2 V3 V4 V5 V6 V7 V8

V1 1 0,129 0,141 -0,082 -0,074 0,018 -0,034 0,544

V2

1 0,153 0,057 0,331 0,221 0,137 0,264

V3

1 0,207 0,089 0,282 0,041 0,240

V4

1 0,437 0,393 0,184 -0,114

V5

1 0,198 0,185 -0,042

V6

1 0,141 0,036

V7

1 0,034

V8

1


Nesta etapa, todas as 768 instâncias disponíveis foram utilizadas no processo

de treinamento. Como citado, a fase inicial consiste da seleção da arquitetura da

rede. Em seguida, são rodados experimentos a fim de encontrar o nível de ruído

apropriado a ser inserido no processo de treinamento das RNA. Finalmente, os

desempenhos obtidos são comparados e analisados através do teste de hipóteses.

Topologia


neurônios na camada intermediária foi incrementada. A tabela 13 apresenta os

experimentos, a quantidade de neurônios na camada intermediária e o

desempenho obtido de acordo com as três métricas utilizadas. Em destaque

aparece o experimento com melhor desempenho e conseqüentemente com a

topologia selecionada para avaliação.

51


Nodos na camada

intermediária Área sob a

Curva KS máximo GINI

Experimento 1 1 0,774 0,503 0,261

Experimento 2 2 0,797 0,534 0,147

Experimento 3 3 0,764 0,556 0,237

Experimento 4 4 0,792 0,524 0,364

Experimento 5 5 0,776 0,533 0,512

Experimento 6 6 0,790 0,574 0,594

Experimento 7 7 0,804 0,537 0,553

Experimento 8 8 0,796 0,523 0,586

Experimento 9 9 0,787 0,556 0,614

Experimento 10 10 0,813 0,594 0,610

O experimento selecionado foi o décimo, com melhores índices nas três

métricas utilizadas.

Nível de Ruído


inserido no treinamento da RNA. Na figura 15 é apresentado um gráfico ilustrando

os experimentos, o nível de ruído e os desempenhos obtidos. Para realização

destes experimentos foi utilizado o modelo selecionado da etapa anterior com 10

neurônios na camada intermediária.

52

Figura 105. Seleção de ruído

O primeiro experimento obteve os melhores desempenhos para as três

métricas utilizadas, logo o nível de ruído aplicado foi de 0,05.

Desempenho

Para analisar o desempenho dos modelos foi utilizado o 10-fold cross-

validation. Duas repetições foram utilizadas para definir o desempenho médio. A

tabela 14 apresenta o desempenho médio dos modelos (com e sem adição de ruído

no processo de treinamento), além de suas respectivas variâncias.






10 Não KS_Max 0,527 0,0203


10 Sim AUC_ROC 0,798 0,0173

10 Sim KS_Max 0,522 0,0346

Modelo 3 (ACP)

10 Sim AUC_ROC 0,829 0,0728

10 Sim KS_Max 0,561 0,0843

53


Foi utilizado o teste de hipóteses, t-student (unicaudal e emparelhado), para

avaliar se existe diferença significativa entre o desempenho dos modelos

analisados. Duas comparações foram realizadas: primeiramente, o desempenho do

modelo 2 foi comparado ao desempenho obtido pelo modelo 1. Em seguida, o

desempenho médio do modelo 3 foi comparado ao desempenho obtido pelo

modelo 1.


Não há uma diferença significativa entre os desempenhos obtidos pelo

modelo 1 (treinamento convencional) e o modelo 2 (adição de ruído e

correlação)

O desempenho obtido pelo modelo 3 (adição de ruído e PCA) é

significativamente, 95% de confiança, superior ao obtido pelo modelo 1,

para ambas as métricas utilizadas, AUC_ROC E KS_Max.

A tabela 15 apresenta os resultados dos testes realizados.



Modelo 2 / Modelo 1

AUC_ROC ~0,223

1,729

KS_Max ~0,559 1,729

Modelo 3/ Modelo 1

AUC_ROC ~1,826 1,729

KS_Max ~1,756 1,729


O estudo dos modelos com a utilização da base reduzida, quantidade menor de

padrões que a base original, tem por objetivo investigar a influência da adição

ruído nos casos em que a quantidade de dados disponíveis para o treinamento da

RNA é pequena ou insuficiente.


disponíveis na base original. A seleção da amostra foi realizada aleatoriamente e

mantendo a proporção entre classes da base original. Enfim, a base utilizada nesta

54

etapa possui 100 padrões onde 65 padrões são rotulados como não-diabéticos e 35

padrões são rotulados como diabéticos.

Os procedimentos para seleção da rede e nível de ruído seguem o exemplo

anterior, exceto pela técnica utilizada para o treinamento e teste dos modelos.

Enquanto foi utilizado 10-fold cross-validation para análise das bases originais,

para as bases reduzidas é utilizado leave-one-out cross-validation.

Topologia

Foram realizados 10 experimentos para a seleção da quantidade de nodos na

camada intermediária. A seguir, na tabela 16, são apresentados os resultados

obtidos, com destaque para o experimento com melhor desempenho.


Nodos na camada



Experimento 1 1 0,622 0,280 0,190

Experimento 2 2 0,676 0,400 0,115

Experimento 3 3 0,655 0,384 0,148

Experimento 4 4 0,702 0,401 0,295

Experimento 5 5 0,672 0,444 0,358

Experimento 6 6 0,648 0,366 0,199

Experimento 7 7 0,686 0,384 0,271

Experimento 8 8 0,695 0,411 0,214

Experimento 9 9 0,696 0,411 0,253

Experimento 10 10 0,640 0,249 0,197

O experimento 4 foi selecionado, sua escolha foi baseada no desempenho

obtido nas três métricas utilizadas: KS_Max, AUC_ROC e o coeficiente de GINI.

Nível de Ruído


inserido no treinamento da RNA.

Na figura 16, um gráfico apresentando os experimentos, o nível de ruído

inserido e os desempenhos obtidos podem ser analisado. O experimento 1

55

apresentou os melhores resultados nas três métricas utilizadas.

Conseqüentemente, o nível de ruído selecionado é igual a 0,05.


Desempenho

Após a definição da arquitetura e nível de ruído a inserido, quatro neurônios na

camada intermediária e nível de ruído igual a 0,05, foram realizadas 20 repetições.

Os desempenhos médios podem ser analisados na tabela 17.

Tabela 17. Desempenho médio nas 20 repetições





4 Não KS_Max 0,352 0,1386


4 Sim AUC_ROC 0,778 0,0361

4 Sim KS_Max 0,531 0,0346

Modelo 3 (ACP)

4 Sim AUC_ROC 0,781 0,1100

4 Sim KS_Max 0,529 0,1010

56




foram realizadas: primeiramente, o desempenho do modelo 2 foi comparado ao



A partir dos dados fornecidos na Tabela 17, podemos concluir que tanto o

modelo 2 (adição de ruído e correlação) quanto o modelo 3 (adição de ruído e

PCA) apresentam desempenho significativamente superior, 95% de confiança, ao

modelo 1 (treinamento convencional), para as duas métricas utilizadas, AUC_ROC e

KS_Max. A tabela 18 apresenta os resultados dos testes realizados.

Tabela 18. Teste de hipóteses


Modelo 2 / Modelo 1

AUC_ROC ~4,600

1,729

KS_Max ~5,605 1,729

Modelo 3/ Modelo 1

AUC_ROC ~2,881 1,729

KS_Max ~4,616 1,729

57

5.3. CANCER

Esta base de dados foi obtida dos Hospitais da Universidade de Wisconsin,

Madison. O problema é diagnosticar, a partir de exames citológicos, se o câncer de

mama encontrado em pacientes é benigno ou maligno.

Das 699 instâncias (ou registros), aproximadamente 2% possuem “missing

values”. Todos os atributos, como mencionado, assumem valores numéricos. A

distribuição da classe de acordo com a quantidade de registros obedece à seguinte

proporção:

Figura 17. Percentual das classes para a base CANCER [OLI08]

O primeiro passo após a definição da base de dados é a seleção de quais

variáveis sofrerão a adição de ruído, como descrito no pseudocódigo no capítulo

anterior. Para realização deste processo, o coeficiente de correlação de Pearson foi

utilizado, os resultados são apresentados na seção seguinte.

58


Assim como nos problema anteriores, com o intuito de manter a

confidencialidade dos dados, nenhuma variável apresenta nome ou qualquer

descrição. Conseqüentemente, foi adotada a seguinte nomenclatura: v1, v2, ... , v9,

denotando as nove variáveis existentes na base de dados. A tabela 19 mostra o

coeficiente de correlação de Pearson:


V1 V2 V3 V4 V5 V6 V7 V8 V9

V1 1 0,645 0,655 0,486 0,522 0,588 0,558 0,536 0,350

V2

1 0,907 0,706 0,752 0,687 0,756 0,723 0,459

V3

1 0,683 0,720 0,710 0,736 0,719 0,439

V4

1 0,600 0,666 0,667 0,603 0,418

V5

1 0,582 0,616 0,629 0,479

V6

1 0,676 0,577 0,340

V7

1 0,666 0,344

V8

1 0,428

V9

1

De acordo com a tabela 19, as variáveis livres de qualquer adição de ruído são:

v2, v3, ou seja, estas variáveis foram apresentadas às redes com seus valores

originais devido à alta correlação entre si (0,907), enquanto as demais (sete

variáveis) sofreram a adição de ruído durante o processo de treinamento.

O próximo passo na realização dos experimentos é a definição da topologia

mais adequada, e o treinamento propriamente dito, este último incluindo a

definição do nível de ruído a inserido. Para facilitar a compreensão, esta etapa foi

dividida em duas seções: uma delas descrevendo os resultados obtidos utilizando a

base de dados original, e a outra descrevendo os resultados para a base reduzida.


Para construção do modelo foram utilizadas as 699 instâncias disponíveis.

Destas, 458 instâncias pertencem a classe positiva, enquanto as outras 241

instâncias pertencem à classe negativa. A fase inicial consiste da seleção da

59

arquitetura da rede. Em seguida, são realizados os experimentos a fim de

encontrar o nível de ruído apropriado. Finalmente, os desempenhos obtidos são

comparados e analisados através do teste de hipóteses.

Topologia


neurônios na camada intermediária foi alterada. Na tabela 20 são mostrados os

dados referentes aos experimentos, a quantidade de neurônios na camada

intermediária e os desempenhos obtidos. O experimento 5 apresentou o melhor

desempenho em duas das três métricas utilizadas (AUC_ROC e KS_Max), e com isso

foi a topologia selecionada.


Nodos na camada



Experimento 1 1 0,994 0,954 0,983

Experimento 2 2 0,992 0,960 0,958

Experimento 3 3 0,992 0,958 0,974

Experimento 4 4 0,991 0,960 0,983

Experimento 5 5 0,994 0,961 0,977

Experimento 6 6 0,994 0,956 0,982

Experimento 7 7 0,992 0,965 0,972

Experimento 8 8 0,994 0,960 0,989

Experimento 9 9 0,992 0,958 0,972

Experimento 10 10 0,994 0,961 0,964

60

Nível de Ruído


inserido no treinamento da RNA. A seguir é mostrado um gráfico ilustrando os

experimentos, o nível de ruído inserido e os desempenhos obtidos. Para estes

experimentos foi utilizado o modelo selecionado da etapa anterior, com cinco

neurônios na camada intermediária.


O primeiro experimento foi selecionado por obter melhor desempenho nas três

métricas utilizadas.

Desempenho

Para analisar o desempenho dos modelos foi utilizado 10-fold cross-validation.

Duas repetições foram utilizadas para definir o desempenho médio. A tabela 21

apresenta o desempenho médio dos modelos (com e sem adição de ruído no

processo de treinamento), além de suas variâncias.

0,993

0,969 0,969

0,995 0,995

0,90

0,91

0,92

0,93

0,94

0,95

0,96

0,97

0,98

0,99

1,00

0,05 0,1 0,15 0,2 0,25

AUC_ROC

KS_Max

GINI

Nível de ruído

Desempenho

Nível de ruído

Desempenho

61






10 Não KS_Max 0,947 0,0200


10 Sim AUC_ROC 0,993 0,0173

10 Sim KS_Max 0,962 0,0387

Modelo 3 (ACP)

10 Sim AUC_ROC 0,991 0,0173

10 Sim KS_Max 0,968 0,0283








Não há diferença significativa entre os desempenhos obtidos pelo

modelo 1 (treinamento convencional) e pelo modelo 2 (adição de ruído

e correlação).

O desempenho obtido pelo modelo 3 (adição de ruído e PCA) é

significativamente superior, 95% de confiança, ao obtido pelo modelo 1,

quando analisamos a métrica KS_Max. Entretanto, para a métrica

AUC_ROC, não há diferença significativa entre o desempenho dos

modelos.

A tabela 22 apresenta os resultados dos testes realizados:



Modelo 2 / Modelo 1

AUC_ROC ~0,800

1,729

KS_Max ~1,539 1,729

Modelo 3/ Modelo 1

AUC_ROC ~0,400 1,729

KS_Max ~2,711 1,729

62


O estudo dos modelos com a utilização da base reduzida, quantidade limitada

de padrões, tem por objetivo investigar a influência da adição ruído nos casos em

que a quantidade de dados disponíveis para o treinamento da RNA é pequena ou

insuficiente.


disponíveis na base completa. A seleção da amostra foi realiza aleatoriamente, mas

preservando a proporção entre classes existente na base de dados original, com 34

padrões pertencentes a classe de interesse e 66 padrões pertencentes a classe

negativa.

Topologia

Foram realizados 10 experimentos para a seleção da quantidade de nodos na

camada intermediária. A tabela 23 apresenta os resultados obtidos.


Nodos na camada



Experimento 1 1 0,900 0,871 0,745

Experimento 2 2 0,901 0,892 0,812

Experimento 3 3 0,878 0,868 0,727

Experimento 4 4 0,887 0,877 0,779

Experimento 5 5 0,892 0,843 0,843

Experimento 6 6 0,881 0,877 0,865

Experimento 7 7 0,886 0,864 0,742

Experimento 8 8 0,890 0,866 0,821

Experimento 9 9 0,896 0,887 0,813

Experimento 10 10 0,888 0,892 0,810

O segundo experimento (dois nodos na camada escondida) foi selecionado por

apresentar melhor desempenho em duas das três métricas utilizadas, AUC_ROC e

KS_Max.

63

Nível de Ruído


inserido durante o treinamento da RNA. A figura 19 ilustra os experimentos, o

nível de ruído inserido e os desempenhos obtidos.

O experimento 4, com um nível de ruído igual a 0,20, apresentou os melhores

resultados em duas das três métricas utilizadas, AUC_ROC e KS_Max. Embora não

tenha obtido melhor desempenho segundo o coeficiente de GINI, o valor foi muito

próximo ao melhor desempenho obtido (0,947).

Figura 19. Seleção nível de ruído

Desempenho

Após a definição da arquitetura e do nível de ruído a ser inserido, dois

neurônios na camada intermediária e nível de ruído igual a 0,20, foram realizados

20 repetições. Os desempenhos médios podem ser analisados na tabela seguinte.

64

Tabela 24. Desempenho médio nas 20 replicações





2 Não KS_Max 0,874 0,0400


2 Sim AUC_ROC 0,901 0,0173

2 Sim KS_Max 0,899 0,0200

Modelo 3 (ACP)

2 Sim AUC_ROC 0,904 0,0200

2 Sim KS_Max 0,901 0,0265


Foi utilizado o teste de hipóteses, t-student, para avaliar se existe uma diferença





A partir dos dados fornecidos na Tabela 24, podemos concluir que os

desempenhos obtidos pelos modelos 2 e 3 apresentam um desempenho

significativamente superior ao obtido pelo modelo 1, com 95% de confiança. Esta

afirmação é válida para as duas medidas utilizadas, AUC_ROC e KS_Max. Na tabela

25 são apresentados os resultados dos testes realizados.


Modelos Métrica t 0 t

Modelo 2 / Modelo 1

AUC_ROC ~2,000 1,729

KS_Max ~2,500 1,729

Modelo 3/ Modelo 1

AUC_ROC ~2,373 1,729

KS_Max ~2,518 1,729

65

5.4. Compilação dos Resultados Obtidos

A tabela 26 e 27 compilam os resultados apresentados nas seções anteriores.

Os resultados em destaque são significativamente melhores, com 95% de

confiança, que os desempenhos obtido pelo modelo 1, de acordo com o teste de

hipóteses t-student.

Tabela 26. Resultados compilados para os problemas Card e Diabetes

Card (Base original)

Neurônios Inserção de ruído



1 Não KS_Max 0,767 0,0141


1 Sim AUC_ROC 0,923 0,0374

1 Sim KS_Max 0,772 0,0557

Modelo 3 (ACP)

1 Sim AUC_ROC 0,927 0,0387

1 Sim KS_Max 0,789 0,1004

Card (Base reduzida)




6 Não KS_Max 0,706 0,0510


6 Sim AUC_ROC 0,871 0,0332

6 Sim KS_Max 0,752 0,1068

Modelo 3 (ACP)

6 Sim AUC_ROC 0,876 0,0458

6 Sim KS_Max 0,757 0,0900

Diabetes (Base original)




10 Não KS_Max 0,527 0,0203


6 Sim AUC_ROC 0,798 0,0173

6 Sim KS_Max 0,522 0,0346

Modelo 3 (ACP)

6 Sim AUC_ROC 0,829 0,0728

6 Sim KS_Max 0,561 0,0843

Diabetes (Base reduzida)




4 Não KS_Max 0,352 0,1386


4 Sim AUC_ROC 0,778 0,0361

4 Sim KS_Max 0,531 0,0346

Modelo 3 (ACP)

4 Sim AUC_ROC 0,781 0,1100

4 Sim KS_Max 0,529 0,1010

66

Tabela 271. Resultados compilados para os problemas Cancer

Cancer (Base original)




10 Não KS_Max 0,947 0,0200


10 Sim AUC_ROC 0,993 0,0173

10 Sim KS_Max 0,962 0,0387

Modelo 3 (ACP)

10 Sim AUC_ROC 0,991 0,0173

10 Sim KS_Max 0,968 0,0283

Cancer (Base reduzida)




2 Não KS_Max 0,874 0,0400


2 Sim AUC_ROC 0,901 0,0173

2 Sim KS_Max 0,899 0,0200

Modelo 3 (ACP)

2 Sim AUC_ROC 0,904 0,0200

2 Sim KS_Max 0,901 0,0265

O modelo 2 faz uso da correlação de Pearson com o intuito de selecionar quais

variáveis devem sofrer a adição de ruído durante o treinamento. Analisando esta

abordagem, percebe-se que foi realizado um total de 12 comparações de

desempenho, das quais cinco obtiveram resultados significativamente melhores

que os desempenhos obtidos pelo modelo 1. Ao analisar apenas as bases reduzidas

(com pequena quantidade de dados), nota-se que cinco das seis comparações

obtiveram desempenho significativamente superior aos desempenhos obtidos pelo

modelo 1, enquanto que nenhuma diferença estatisticamente significativa foi

observada entre os desempenhos na base completa. Esse resultado confirma a

idéia de que a adição de ruído melhora o desempenho em pequenas amostras.

O modelo 3 utiliza a análise de componentes principais para descorrelacionar

as variáveis de entrada antes da adição de ruído. Analisando esta abordagem,

percebe-se que em 75% das comparações realizadas (nove das doze) obtiveram

desempenho significativamente superior aos desempenhos obtidos pelo modelo 1.

Analisando apenas as bases reduzidas, nota-se que todos (100%) os índices

comparados apresentam resultados significativamente superiores aos resultados

obtidos pelo modelo 1, enquanto 50% dos casos apresentaram diferença

estatisticamente significativa entre os desempenhos na base completa. Esse

resultado também confirma a idéia de que a adição de ruído melhora o

desempenho em pequenas amostras.

67

Capítulo 6. Conclusões

No presente trabalho foi realizada uma investigação sobre a influência da

adição de ruído gaussiano, durante o processo de treinamento das redes neurais

MLP, com o intuito de fornecer uma alternativa às limitações referentes à aplicação

das redes neurais artificiais a problemas que possuam bases de dados

desbalanceadas e pequenas. Foram utilizadas três bases públicas, de um

importante benchmark na área de redes neurais: CARD, DIABETES e CANCER. Cada

base foi utilizada duas vezes, na primeira com todos os dados disponíveis, e na

segunda, com uma amostra com 100 padrões extraídos de forma aleatória e

preservando a proporção entre classes da base original.

Para validar a metodologia proposta, foram comparadas as performances de

três redes neurais MLP:

A primeira, treinada de forma convencional (modelo 1);

A segunda (modelo 2), treinada com a adição de ruído gaussiano

durante o processo de treinamento às variáveis que não possuem alta

correlação com nenhuma das demais ( <0,8);

A terceira (modelo 3), transformada por meio da análise das

componentes principais, e treinada com a adição de ruído gaussiano às

variáveis descorrelacionas (todas).

Foram utilizadas duas métricas principais para avaliação do desempenho: a

área sob a curva ROC (AUC_ROC) e o KS máximo (KS_Max). Finalmente, os

desempenhos foram comparados por meio do teste de hipóteses, t-student.

68

Foram realizados seis experimentos, dois para cada problema (Card, Diabetes e

Cancer), um deles fazendo uso da base original, o outro utilizando uma amostra

estratificada contendo 100 padrões. Como mencionado, cada experimento foi

avaliado de acordo com duas métricas, totalizando 12 índices de desempenho para

cada modelo.

Analisando o modelo 2, cinco dos 12 índices obtiveram resultados

significativamente melhores que os desempenhos obtidos pelo modelo 1. Ao

analisar apenas as bases reduzidas (com pequena quantidade de dados), cinco das

seis comparações obtiveram desempenho significativamente superior aos

desempenhos obtidos pelo modelo 1.

Ao analisar o modelo 3, percebe-se que em 75% das comparações realizadas

obtiveram desempenho significativamente superior aos desempenhos obtidos pelo

modelo 1. Analisando apenas as bases reduzidas, nota-se que todos os índices

comparados apresentam resultados significativamente superior aos resultados

obtidos pelo modelo 1.

6.1. Contribuições

As principais contribuições deste trabalho estão sumarizadas a baixo:

Proposta de uma metodologia alternativa, que permite às redes neurais

artificiais lidarem com bases de dados pequenas e desbalanceadas de

forma eficaz. Os resultados obtidos diante da base de dados com 100

padrões mostram que em mais de 90% dos casos a adição de ruído

possibilita a rede alcançar resultados significativamente melhores aos

obtidos com o treinamento convencional. Se analisarmos apenas a

adição de ruído em conjunto com a análise de componentes principais,

em 100% dos casos o desempenho foi significativamente superior aos

obtidos pelo modelo 1;

Redução do risco de overfitting durante o treinamento das redes

neurais. Com a adição de ruído, a probabilidade de que um mesmo

padrão seja apresentado mais de uma vez à RNA são ínfimas. Isso

permite a utilização total da base de dados para treinamento e teste do

modelo, não havendo necessidade de um conjunto de validação, além de

eliminar um parâmetro a ser ajustado pelo usuário: o número de

69

interações consecutivas em que o erro medido no conjunto de validação

aumenta;

Mesmo quando aplicadas a bases de dados originais, a adição de ruído

em conjunto com a análise de componentes principais alcançou bons

resultados: 50% dos experimentos realizados obtiveram desempenho

superior aos obtidos pelo modelo treinado de forma convencional,

enquanto que os demais experimentos não apresentaram diferenças

significativas;

Os resultados oriundos deste trabalho foram publicados na conferência

chamada International Conference on Data Mining (DMIN 2010) [SA10]. Além desta

publicação, outro artigo foi aceito em uma importante conferência na área da

Inteligência Artificial, International Joint Conference on Neural Networks (IJCNN

2011) [SA11].

6.2. Limitações e Trabalhos Futuros

Correlação

Os experimentos realizados evidenciam a influência da adição de ruído na

correlação entre variáveis. Uma das metodologias propostas para mitigar esta

influência é baseada apenas na análise de correlação de Pearson, ou seja, uma

correlação linear entre duas variáveis. Outra limitação associada a esta abordagem

está relacionada à influência que a preservação de variáveis com seus valores

originais podem acarretar no processo de overfitting.

Embora esta metodologia tenha obtido resultados interessantes, estes servem

apenas para apontar a relevância da correlação entre variáveis durante o processo

de adição de ruído. Em outras palavras, os resultados obtidos mostram que é

fundamental conciliar o processo de adição de ruído à forma como as variáveis

estão correlacionadas. A transformação da base de dados, eliminando a correlação

com perda mínima de informações (ACP), se mostrou uma alternativa bastante

atraente. Uma alternativa a esta abordagem está relacionada à proposta de uma

metodologia para adição de ruído preservando a correlação entre variáveis.

70

Nível de ruído

A partir dos resultados obtidos, é possível concluir que o nível de ruído

inserido durante o processo de treinamento tem papel fundamental no

desempenho alcançado pelo sistema.

Neste trabalho, o nível de ruído foi determinado experimentalmente e mantido

constante para todas as variáveis de entrada. Esta metodologia não garante que o

nível de ruído inserido seja o ideal, principalmente quando este nível é constante

para todas as variáveis. Uma metodologia alternativa está relacionada ao estudo da

distribuição de cada variável presente na base de dados, e a partir disto definir o

nível de ruído apropriado para cada variável independentemente.

Extensão a outras técnicas de aprendizagem de máquina

A metodologia proposta consiste da adição de ruído gaussiano durante todo o

processo de treinamento do modelo. Para validar esta metodologia foram

utilizadas RNA MLP. Uma possível extensão deste trabalho é analisar como esta

metodologia se comporta junto a outros modelos de RNA ou mesmo outras

técnicas de aprendizagem de máquina.

Inserção de Ruído

Alguns trabalhos investigam a inserção de ruído nas conexões entre os

neurônios, na saída emitida pela rede, ou mesmo, no conjunto de teste. Essa

alternativa poderia ser investigada e comparada à metodologia proposta.

71

Apêndice A Redes Neurais Artificiais

Neste capítulo, são abordados os conceitos básicos referentes a uma das

técnicas mais utilizadas na área da Inteligência Artificial, as Redes Neurais

Artificiais. Inicia-se com uma breve introdução e histórico. Em seguida, são

apresentados seus componentes fundamentais, bem como os modelos de

aprendizado e funções de ativação. Por fim, concentrou-se no modelo MultiLayer

Perceptron.

A1. Introdução

Os neurônios são unidades básicas do cérebro humano e são responsáveis

pelas principais funções executadas por este órgão: sentimentos, pensamentos,

percepções, controle motor, etc. Estes são constituídos de três partes básicas:

corpo da célula, os dendritos e o axônio.

Figura 20. Componentes do neurônio biológico.

72

Os dendritos têm por função receber os impulsos originados pelos receptores

nervosos ou outros neurônios. Os impulsos são processados e novos impulsos são

emitidos a novos neurônios por meio do axônio.

Inspiradas no modelo do neurônio biológico surgiram às redes neurais

artificiais. Contidas em uma área da Inteligência Artificial conhecida como

conexionismo as RNAs se destacam pela capacidade de aprender e generalizar a

informação adquirida por meio de exemplos [BCL00].

As redes neurais artificiais podem ser definidas como estruturas

computacionais projetadas com o objetivo de simular os princípios organizacionais

existente nos sistemas neurais biológicos [VON93]. Elas não buscam replicar a

operação do cérebro humano, apenas utilizam o seu funcionamento como

inspiração, ou seja, apresentando capacidade de aprender, generalizar informação,

se adaptar em presença de dados ruidosos, etc. [HAR02].

Uma das grandes motivações relacionada ao estudo de um método que simule

o comportamento do cérebro humano está ligada ao fato de que embora o

processamento nos computadores convencionais seja mais rápido que o

processamento do cérebro humano (na ordem de 1.000.000 de vezes), a

quantidade de neurônios, o paralelismo com que eles estão conectados e a sua não-

linearidade os tornam extremamente eficazes para processamentos como

reconhecimento de padrões, controle motor, percepção, entre outros [CAV00]

[RUS98].

As RNAs são constituídas de unidades de processamento dispostas em uma ou

mais camadas, interligadas por conexões associadas a pesos que têm por objetivo

ponderar a entrada recebida. O processo de aprendizagem consiste em fornecer

exemplos como entrada para a rede, esta por sua vez extrai as características

necessárias para generalizar a informação recebida [BCL00].

De acordo com Cybenko [CYB89], uma rede feedforward com duas camadas

(intermediária e saída) utilizando funções de ativação sigmoidais pode aproximar

qualquer função contínua com certo grau de acurácia.

Como mencionado, as RNAs são amplamente utilizadas em uma variedade de

campos científicos e industriais, por conseguirem solucionar problemas de difícil

resolução para métodos tradicionais. Em aplicações reais, as redes neurais

apresentam desempenho bastante satisfatório em tarefas como: (i) Aproximação

73

de funções, incluindo predição e modelagem de séries temporais; (ii) Classificação,

reconhecimento de padrões e tomadas de decisões.

A2. Histórico

Os estudos envolvendo as redes neurais artificiais tiveram início quando

apareceram as primeiras investigações tentando definir um modelo matemático-

computacional similar à forma como o cérebro humano processa informação

[GOM05]. Desde então, as redes neurais artificiais passaram por um intenso

processo de evolução, caracterizado por um momento inicial de grande

produtividade, seguido por um processo de estagnação, e finalmente pelo

ressurgimento do interesse científico devido a novas descobertas.

A seguir, é apresentado um breve histórico das pesquisas e descobertas

relacionadas ao estudo das redes neurais artificiais. Na tabela 28 são compilados

os principais pesquisadores, juntamente com o ano de publicação da sua obra de

maior destaque. O objetivo é evidenciar os momentos destacados no parágrafo

anterior: o grande entusiasmo inicial, seguido pelo período de estagnação, e

finalmente o ressurgimento do interesse científico.

Tabela 28. Histórico sobre estudos relacionados às RNAs

Ano Autor

Período de entusiasmo Inicial

1943 McCulloch e Pitts

1949 Hebb

1958 Rosenblatt

1960 Widrow e Hoff

1969 Minsky e Papert

Período de estagnação

1969 – 1982

Período de ressurgimento do interesse científico

1982 Hopfield

1986 Rumelhart e McClelland

74

O trabalho pioneiro envolvendo neurocomputação data de 1943. O

neurofisiologista Warren McCulloch e o matemático Walter Pitts publicaram um

trabalho no qual sugeriam a construção de uma máquina inspirada no cérebro

humano. Em seu trabalho, McCulloch e Pitts se preocupam mais em projetar um

neurônio artificial e suas capacidades computacionais que com noções e técnicas

de aprendizado [MP43].

Muitos trabalhos surgiram desde McCulloch e Pitts, mas apenas em 1949,

Donald Hebb, psicólogo, escreve o primeiro trabalho dissertando sobre técnicas de

aprendizado. Em particular, ele sugeriu que as conexões entre células que são

ativadas ao mesmo tempo tendem a se fortalecer, enquanto que as outras conexões

tendem a se enfraquecer. Esta teoria passou a nortear a evolução dos algoritmos

de aprendizagem, e ainda hoje, a regra de Hebb, como ficou conhecida sua teoria, é

aplicada em diversos algoritmos de aprendizado [HEB49].

Em 1958, Frank Rosenblatt introduziu um novo modelo, o perceptron e um

algoritmo de aprendizado para treinar sua rede, que consistia de um neurônio

conectado a uma ou mais entradas. Estas conexões eram ponderadas por pesos

que sofriam ajustes durante o treinamento. A figura 21 apresenta a estrutura

básica do perceptron [ROS57].

Figura 21. Perceptron

75

Em 1960, Widrow e Hoff propuseram uma regra de aprendizado conhecida

como regra delta ou regra Widrow-Hoff, que ainda hoje é bastante utilizada

[WID62].

Nos anos 70, um período de poucas pesquisas envolvendo Redes Neurais, ou

melhor, pesquisas silenciosas onde poucos trabalhos foram publicados, devido em

grande parte, ao trabalho de Minsky e Papert em 1969, o livro intitulado

“Perceptron”. Neste livro, os autores realizaram uma análise sobre a capacidade

adaptativa e computacional dos neurônios artificiais. Os resultados demonstravam

que, embora o perceptron fosse capaz de executar as operações booleanas AND e

OR, não era capaz de executar operações básicas como o XOR. Os autores também

não acreditavam que novos algoritmos ou arquiteturas pudessem ser propostas de

forma a superar tais limitações. Com a publicação destes resultados grande parte

dos pesquisadores acabou migrando para outras áreas [MP69] [VON93].

Apesar do período de pessimismo relativo às investigações na área das redes

neurais artificiais, nomes importantes se mantiveram pesquisando, entre eles

podemos destacar: T. Kohonen, S. Grossberg, B. Widrow, J. Anderson, Fukushima e

Hopfield.

Apenas após a publicação do trabalho de John Hopfield, renomado físico, em

1982, no qual ele chama a atenção para as regras associativas das RNAs e relatava

a utilização de redes simétricas para problemas de otimização, a credibilidade,

abalada devido ao trabalho de Minsk e Papert, se recuperou e o “renascimento”

ocorreu. Em seu trabalho [HOP82], Hopfield considerou um conjunto de neurônios

dispostos de forma que as suas saídas fossem realimentadas para as entradas

formando uma memória auto-associativa. Este modelo é apresentado na figura 22.

Em 1986, surge o trabalho que consolidaria o renascimento da área de redes

neurais artificiais, publicado no livro intitulado “Parallel Distributed Processing”

editado por McClelland e Rumelhart [MR86] [MR186], o algoritmo error

backpropagation, para ajuste dos parâmetros em redes não-recorrentes de

múltiplas camadas, é publicado, acabando de vez com os pessimismos surgidos

após o trabalho de Minsk e Papert.

Atualmente, a consolidação e evolução obtida pelas redes neurais artificiais

podem ser facilmente evidenciadas pelo grande número de conferências e

periódicos devotados a este tema, além da sua larga aplicação comercial.

76

Figura 22. Rede de Hopfield com três neurônios

A3. Elementos Fundamentais

As redes neurais são baseadas na abordagem conexionista, particularmente nos

conceitos de processamento paralelo e distribuído onde é possível descrever a

rede como uma composição de unidades processadoras simples e similares entre

si no aspecto funcional [MR186]. Nesta sessão são descritos os principais

componentes de uma Rede Neural Artificial, bem como seu funcionamento e papel

dentro deste sistema.

A3.1. Neurônio artificial

Nos neurônios biológicos, os dendritos são responsáveis por receber impulsos

oriundos de outros neurônios e conduzi-los ao corpo celular. Então, a informação

recebida é processada e novos impulsos são gerados e propagados aos próximos

neurônios.

Como mencionado, os neurônios artificiais tem seu comportamento inspirado

nos neurônios biológicos, e como tal, recebem informações de entrada, as

processam e emitem um valor de saída.

Na figura 23, o funcionamento do neurônio artificial é detalhado. Os impulsos

x1, x2, ... , xn, oriundos de n neurônios, são ponderados pelos pesos associados às

sinapses de pesos w1, w2, ... , wn, e passadas ao “corpo celular”. Aqui, os sinais

recebidos são somados, produzindo o sinal v. Em seguida, aplicamos a função de

ativação, φ(v), e enfim, o sinal de resposta, y, é produzido e propagado [RUN98].

77

Figura 23. Funcionamento de um neurônio

A3.2. Conexões ou sinapses

São responsáveis por conectar os neurônios de uma RNA, cada conexão tem um

peso associado que pode assumir valores positivos e negativos, o que caracteriza

uma conexão como excitatória ou inibitória, respectivamente.

O valor deste peso é atualizado de acordo com uma função de aprendizado, de

forma a fortalecer ou enfraquecer a conexão entre dois neurônios. Os pesos

associados às conexões são os responsáveis pelas respostas emitidas pela rede

neural, sendo assim podemos afirmar que o conhecimento obtido por uma RNA

está armazenado em suas conexões.

A3.3. Topologia

Define como os neurônios estão dispostos em uma RNA, podendo ser

classificada de acordo com a quantidade de camadas, ou de acordo com a

propagação da reposta dos neurônios:

Feedforward, quando as ligações entre neurônios são unidirecionais.

Neste tipo de rede a resposta de cada neurônio é transmitida através de

camadas adjacentes, no sentido da entrada para a saída.

78

Recorrentes, quando as respostas emitidas pelos neurônios de

determinada camada são reintroduzidas como entradas para neurônios

de camadas anteriores ou da própria camada.

Existem outros componentes associados às RNAs, como o algoritmo de

aprendizado e a função de ativação. Estes componentes são abordados em detalhes

nas seções subseqüentes.

A4. Funções de Ativação

Os neurônios, biológicos ou artificiais, devem emitir uma resposta a partir de

estímulos recebidos do ambiente ou de outros neurônios. No caso dos neurônios

artificiais, o mapeamento desses estímulos em uma saída é realizado a partir de

uma função de ativação.

Como mencionado, a resposta emitida por um neurônio artificial (y), é

calculada aplicando-se a função de ativação (φ), aos estímulos recebidos, ou vetor

de entrada (x), ponderados pelos pesos das sinapses, ou vetor de pesos (w). Na

figura 23 é possível verificar como a resposta emitida por um neurônio é calculada.

Existem hoje diversas funções de ativação, classificadas a partir dos seus

respectivos gráficos. Entre as funções de ativação mais utilizadas destacam-se as

funções sigmóides (logística e tangente hiperbólica) e a linear.

A função degrau, utilizada no modelo de neurônio de McCulloch e Pitts,

apresenta apenas duas saídas possíveis (0 ou 1), independente da entrada

recebida. Possui uma descontinuidade e torna-se ineficaz para problemas que

exigem uma solução não binária. A função degrau pode ser vista na figura 24.

Figura 24. Função degrau

79

A partir da função degrau, surgiram outras funções de ativação com o intuito de

aumentar o poder de decisão de uma rede neural artificial, até então restrita a

respostas binárias. Neste ponto destacam-se as funções rampa e linear, que ao

contrário da função degrau, são capazes de emitir qualquer resposta no intervalo

[0, 1]. Na figura 25 é apresentado o gráfico da função rampa.

Figura 25. Função de ativação linear por partes (rampa)

Apesar da evolução, as funções de ativação lineares ainda não eram suficientes

para garantir que as redes neurais resolvessem problemas não linearmente

separáveis, afinal, mesmo em redes multicamadas, a composição de funções

lineares ainda é uma função linear. A partir da necessidade de resolver tais

problemas surgem as funções sigmóides, com destaque a função logística e

tangente hiperbólica.

Figura 26. Função de ativação sigmóide

80

A5. Modelos de Aprendizado

Uma das características mais significantes das RNAs é a capacidade de

aprendizado. O processo de aprendizado, geralmente denominado treinamento,

permite as redes extraírem conhecimento utilizando informações implícitas para

conseguir um alto poder de generalização.

O processo de aprendizado consiste basicamente em ajustar os parâmetros, de

forma continuada, a partir do estimulo fornecido pelo ambiente no qual a rede está

operando [HAY99]. Em outras palavras, o conhecimento obtido pelas redes neurais

é armazenado em suas interconexões. Estas são ajustadas continuamente, de

acordo com as entradas fornecidas até que um determinado critério de parada seja

atendido. Ao final do processo de treinamento, é esperado que a rede produza a

saída desejada para cada vetor de entrada recebido.

Existem, consensualmente, dois paradigmas de aprendizado: supervisionado e

o não-supervisionado. Alguns autores citam um terceiro paradigma: aprendizado

por reforço. Estes paradigmas estão diretamente relacionados à forma como os

ajustes dos parâmetros de uma RNA ocorrerá [BCL00].

A5.1. Aprendizado Supervisionado

Neste método, a RNA é treinada com a apresentação de vetores de entrada e

suas respectivas saídas desejadas (Cada vetor de entrada possui uma saída

desejada). Um “supervisor” externo é responsável por conduzir o treinamento do

sistema, informando o quão diferente a resposta calculada é da saída desejada

(erro), e com isso os parâmetros da rede são reajustados de forma a minimizar a

diferença entre as saídas. Este processo é repetido sistematicamente para cada

vetor de entrada fornecido à RNA.

Após a apresentação de todos os pares de treinamento (vetor de entrada e

saída desejada), tem-se completado um ciclo de treinamento denominado época. A

quantidade de épocas é um dos critérios de parada utilizado para determinar o

final do processo de treinamento.

81

A5.2. Aprendizado Não-Supervisionado

Ao contrário do método anterior, não há a presença do supervisor informando

o erro associado às saídas calculadas e desejadas. Durante o processo de

treinamento apenas os vetores de entradas são fornecidos a rede. O algoritmo de

treinamento é conduzido de forma a produzir saídas similares para padrões de

entrada iguais ou similares. Em outras palavras, o processo de treinamento extrai

informações do conjunto de treinamento de forma a agrupar vetores de entradas

similares em clusters.

A5.3. Aprendizado por Reforço

O aprendizado por reforço pode ser visto como um caso particular de

aprendizado supervisionado. Neste método, além do vetor de entrada, a rede é

informada se a resposta emitida foi correta ou não, enquanto no aprendizado

supervisionado é possível mensurar o quão distante da saída desejada é a resposta

emitida pela rede. Por fim, a RNA ajusta seus parâmetros de forma a reforçar as

respostas dadas corretamente e inibir as respostas errôneas.

A6. Atualização dos pesos associados às sinapses

Além dos paradigmas de aprendizado, o processo pelo qual os pesos das

interconexões são atualizados tem papel fundamental durante o aprendizado de

uma rede neural. Existem dois processos utilizados para atualização dos pesos:

Por padrão ou online

Durante a atualização por padrão, os pesos das interconexões são atualizados

após a apresentação de cada exemplo. O processo consiste de apresentar um vetor

de entrada a rede neural. Em seguida, verificamos a resposta emitida pela rede e

calculamos o erro entre a resposta dada e a saída desejada. Finalmente, os pesos

são atualizados a partir do erro calculado.

Este processo tende a tornar o processo de aprendizado mais instável que o

processo por ciclo, principalmente se a taxa de aprendizagem for alta. Contudo, é

um processo, em geral, mais rápido, principalmente se o conjunto de treinamento

for grande e redundante. Outra vantagem é que requer menos memória que o

processo por ciclo.

82

Por ciclo ou batch

No processo de atualização por ciclo, os pesos das interconexões são

atualizados ao final de cada época, ou seja, após a apresentação de todos os

exemplos do conjunto de treinamento à rede. O processo consiste em apresentar

todos os padrões de entrada seqüencialmente, e ir atualizando o erro entre a

resposta emitida pela rede e a saída desejada. Após todos os padrões serem

apresentados, os pesos das interconexões são, finalmente, atualizados.

Em geral, este processo é mais estável que o por padrão, contudo, tende a ser

mais lento.

A7. Redes MLP

A MultiLayer Perceptron (MLP) está certamente entre as mais populares RNAs

[Hay94]. As MLP têm sido largamente utilizadas para resolução de problemas

difíceis. São redes do tipo feedforward e utilizam o paradigma supervisionado para

o treinamento, geralmente com o algoritmo de retro-propagação do erro

(backpropagation), baseado na regra delta proposta por Widrow e Hoff, e suas

variações. Como o próprio nome sugere é composta por múltiplas camadas

explicadas em detalhes na seção seguinte.

A7.1. Arquitetura

Após as limitações apontadas por Minsky e Papert na década de 70, os estudos

envolvendo RNAs passaram por um período turbulento no qual poucos trabalhos

foram publicados. O surgimento das redes MLP, com poder computacional muito

maior que o apresentado pelas redes sem camadas intermediárias, de certa forma

contribuiu para por um fim as dúvidas que ainda restavam sobre a capacidade das

RNAs [AM95].

Antes do surgimento das redes neurais de múltiplas camadas não era possível a

resolução de problemas não linearmente separáveis. A inserção de novas camadas

tornou possível às redes neurais resolver problemas mais complexos. A figura 27

ilustra dois problemas; um deles é linearmente separável, enquanto o segundo é

não linearmente separável.

As redes MLP conseguem tratar problemas não linearmente separáveis, devido

a suas múltiplas camadas. As redes multicamadas, em geral, consistem de:

83

Camada de entrada. Um conjunto de unidades sensoriais responsáveis

por fornecer as percepções do ambiente. Alguns autores não

consideram como uma camada já que não realizam qualquer tipo de

computação, sendo responsáveis apenas por propagar os vetores de

entrada às camadas intermediárias.

Camadas intermediárias. Também conhecidas como camadas ocultas

ou escondidas, uma rede MLP pode apresentar uma ou mais camadas

intermediárias. É devido às camadas intermediárias que uma rede

neural pode solucionar problemas não linearmente separáveis.

Camadas de saída. Responsáveis por emitir uma resposta para o

ambiente.

Figura 27. (a) Problema linearmente separável (b) Problema não linearmente separável

A figura 28 apresenta uma rede MLP com quatro neurônios na camada de

entrada (ou seja, um vetor de entrada com quatro posições), duas camadas

intermediárias, ou escondidas, com cinco e três neurônios, respectivamente, e por

fim, uma camada de saída, com dois neurônios.

84

Figura 28. Rede Neural MLP

A7.2. Treinamento

Existem diversos algoritmos para o treinamento das redes MLP, o mais

conhecido e utilizado é o backpropagation [RM86]. Antes da descrição do processo

de treinamento é importante destacar que cada conexão entre os neurônios possui

um peso associado. Este peso é ajustado à medida que o treinamento ocorre de

forma a otimizar a resposta gerada pela rede MLP.

Outro importante aspecto a se destacar no processo de treinamento de redes

neurais é o pré-processamento e divisão do conjunto de treinamento. Em geral,

utiliza-se 50% da base de dados para o treinamento (conjunto de treinamento),

25% para validação (conjunto de validação) e os outros 25% para teste (conjunto

de testes). Esta divisão é importante para que o desempenho obtido pela rede seja

o mais imparcial e próximo do real possível. O conjunto de treinamento é utilizado

para o ajuste dos pesos propriamente dito, enquanto que o conjunto de validação é

utilizado para avaliar o processo de aprendizagem parando o treinamento sempre

que a rede comece a decorar os dados do conjunto de treinamento (overfitting).

Finalmente, o desempenho da rede é avaliado junto ao conjunto de testes. É

importante destacar que os conjuntos devem ser disjuntos, não havendo vetores

de entrada iguais em dois conjuntos.

85

Entre as etapas de pré-processamento destacam-se a normalização, técnica

responsável por converter os valores dos vetores de entrada para o intervalo [0, 1]

(dependendo da função de ativação utilizada) e a conversão dos valores

categóricos para valores numéricos.

Como mencionado, o paradigma utilizado é o supervisionado e o processo de

treinamento consiste basicamente de duas etapas principais:

Forward. Nesta etapa as entradas são apresentadas à rede por meio da

camada de entrada. As respostas de cada camada, calculadas por meio

da função de ativação, são transmitidas para a camada subseqüente até

chegar à camada de saída que emite uma resposta para o ambiente.

Backward. A resposta emitida pela rede é comparada à saída desejada.

O erro entre as saídas desejadas e emitida é calculado e, por fim, o ajuste

dos pesos é realizado, começando pela camada de saída até a camada de

entrada.

A7.3. Limitações

Como analisado na seção anterior, a rede MLP possui uma arquitetura que

consiste de uma camada de entrada, uma ou mais camadas intermediárias e uma

camada de saída. Uma dificuldade na utilização das redes MLP é a definição de sua

topologia, em outras palavras, quantas camadas intermediárias e quantos

neurônios a rede deve possuir.

A definição da topologia ideal da rede está intimamente associada ao seu

desempenho. A escolha de uma topologia inadequada pode impedir que a rede

consiga uma boa generalização. A maioria dos conjuntos utilizados para o

treinamento da rede possui erros inerentes ao processo de amostragem. Assim, a

escolha da topologia adequada deve permitir que as RNAs sejam capazes de

modelar os dados adequadamente sem que para isso os ruídos contidos no

conjunto de treinamento sejam modelados [BCL00]. Este problema é conhecido na

literatura como dilema bias-variância, e será abordado em mais detalhe no capítulo

3.

Em geral, as RNAs são vistas como “caixas pretas”; não é uma tarefa trivial

explicar como elas chegam a um determinado resultado, visto que elas não

apresentam quaisquer justificativas para suas respostas.

86

Outra dificuldade está associada ao tempo de treinamento utilizado pelo

algoritmo backpropagation, em geral se fazem necessários milhares de épocas até

que a RNA termine o processo de treinamento.

Por fim, objeto de estudo deste trabalho, as redes neurais exigem que os dados

estejam balanceados e que haja uma quantidade suficientemente grande de forma

a permitir a rede obter desempenhos satisfatórios. Como a rede aprende a partir

de exemplos, é fácil perceber que quanto maior a quantidade de dados disponíveis,

melhor tende a ser o desempenho da rede neural.

87

Referências Bibliográficas

[AO10] ADEODATO, P. J. L., OLIVEIRA NETO, R. F. pRAM n-Tuple

Classifier – a New Architecture of Probabilistic RAM Neurons for Classification Problem. In Proc. of the International Joint Conference on Neural Networks – IJCNN 2010, Barcelona, Spain, p. 1-7, 2010.

[AM95] ALEKSANDER, I; MORTON, H. An introduction to Neural

Computing, London: International Thompson Computer Press, 288p., 1995.

[AN96] AN, G. The effects of adding noise during backpropagation

training on a generalization performance, Neural Computation, vol 8, p. 643-674, 1996

[ALP04] ALPAYDM, E. Introduction to Machine Learning, The MIT Press,

Cambridge - Mass, 415p., 2004. [BEC10] BECKMANN, M. Algoritmo Genéticos como Estratégia de Pré-

processamento em conjuntos de dados Desbalanceados. Dissertação de Mestrado - UFRJ, 112p., 2010.

[BCL00] BRAGA, A. P.; CARVALHO A. C. P. L. F.; LUDERMIR, T. B.; Redes Neurais Artificiais: Teoria e aplicações. Livros Técnicos e Científicos editora, 262p., 2000.

[BIS94] BISHOP, C. M. Training with Noise is Equivalent to Tikhonov Regularization. Neural Computing, p. 108-116, 1994.

[BIS94] BISHOP, C. M., Neural Networks for Pattern Recognition,

Oxford Univ. Press, New York, 1995. Neural Computing, 482p., 1994.

[BRA00] BRAGA, A. C. S.; CURVAS ROC: ASPECTOS FUNCIONAIS E APLICAÇÕES. Tese de Doutorado - Universidade do Minho, Braga. 267p., 2000.

[CAV00] CAVALCANTI, H. M. V. C. Extração de características via Redes

Neurais. Dissertação de Mestrado - UNICAMP. Campinas, . 116p., 2000.

88

[CEH01] CHAWLA, N. V., ESCHRICH, S., HALL, L. O. Creating Ensembles of Classifiers. IEEE International Conference on Data Mining (ICDM.01), p. 571-583, 2001

[CHA03] CHAWLA, N. V. C4.5 and imbalanced data sets: investigating

the effect of sampling method, probabilistic estimate, and decision tree structure, In Workshop on Learning from Imbalanced Datasets II, International Conference on Machine Learning, Washington DC, 2003.

[CJK04] CHAWLA, N. V., JAPKOWICZ, N., KOTCZ, A. Special issue on

learning from imbalanced data sets. SIGKDD Explorations 6(1): p. 1–6. 2004

[CHA+02] CHAWLA, N. V., et al. SMOTE: SyntheticMinority Over-sampling

Technique, Journal of Artificial Intelligence Research, vol. 16, pp. 321-357, 2002.

[CHA+08] CHAWLA, N. V., et al. Automatically countering imbalance and

its empirical relationship to cost, Data Mining and Knowledge Discovery, p. 225- 252, 2008.

[CC08] CIESLAK, D. A., CHAWLA, N. V. Learning decision trees for

unbalanced data. European Conference on Machine Learning and Knowledge Discovery in Databases (ECML/PKDD08), p. 241-256, 2008.

[CC108] CIESLAK, D. A., CHAWLA, N.V. Improving Performance on

Imbalanced Data. IEEE International Conference on Data Mining (ICDM08), p. 143-152, 2008

[CC208] CIESLAK, D. A., CHAWLA, N.V. Analyzing PETs on Imbalanced

datasets When Training and Testing Class Distributions Differ. Pacific Asian Knowledge Discovery and Datasets (PAKDD08), p. 519-526, 2008.

[CCS08] CIESLAK, D. A., CHAWLA, N. V., STRIEGEL, A. Combating

Imbalance in Network Intrusion Datasets. Data Mining Knowledge Discovery, p. 732-737, 2008.

[CON99] CONOVER, W. J. Practical Nonparametric Statistics. John Wiley

& Sons, 592p., 1999.

[CYB89] CYBENKO, G. Approximation by Superpositions of a Sigmoidal Function. Mathematics of control, Signals, and systems. pg. 303-314, 1989. New York.

89

[ELK01] ELKAN, C. The foundations of cost-sensitive learning. International Joint Conference on Artificial Intelligence, p. 973–978, 2001.

[FAU94] FAUSETT, L. Fundamentals of neural networks: architectures,

algorithms and applications. Ed. Prentice Hall. New Jersey, 461p.

1994.

[FAW06] FAWCETT, T. An introduction to ROC analysis. Pattern Recognition Letters, pp. 861–874, 2006.

[GOM05] GOMES, D. T. Redes Neurais Recorrentes Para Previsão de Séries Temporais de Memórias Curta e Longa. Dissertação de Mestrado - UNICAMP. Campinas, 153p., 2005.

[GUR08] GURGEL, T. B. Mineração de Dados Aplicada à Cardiologia Pediátrica. Dissertação de Mestrado – UFPE. Recife, 129p., 2008.

[GW00] GONZALEZ, R. C., WOODS, R. E. Processamento de Imagens

Digitais, Editora Edgard Blucher, 2000. [HAR68] HART, P. E. The Condensed Nearest Neighbor Rule, IEEE

Transactions on Information Theory, vol. IT-14. pp. 515–516, 1968.

[HAR02] HARTMANN, F. R., Redes Neurais, Conceitos Básicos e análise.

Universidade do Vale do Rio dos Sinos, UNISINOS - RS, 2002. [HAY99] HAYKIN, S.; Neural Networks: A comprehensive Foundation. 2ª

edição. Prentice Hall, 837p., 1999. [HEB49] HEBB, D. O. Organization of Behaviour: A Neuropsychological

Theory. Wiley, New York, 1949. [HK92] HOLMSTROM, L., KOISTINEN, P. Using additive noise in

backpropagation training, IEEE Transaction on Neural Networks – vol 3, p. 24-38, 1992.

[HK09] HULSE, J.V., KHOSHGOFTAAR, T. Knowledge discovery from

imbalanced and noisy data, Elsevier, Data & Knowledge Engineering, vol. 68, pp. 513–1542, 2009.

[HOP] HOPFIELD, J. Neural networks and Physical Systems with

Emergent collective computational Abilities. Proceedings of the National Academy of Sciences 79, p. 2554-2558, 1982.

90

[JDM00] JAIN, A. K., DUIN, R. P. W., MAO, J. Statistical Pattern Recognition: A Review. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, pp. 4-37, 2000.

[JAP01] JAPKOWICZ, N. Concept learning in the presence of between-

class and within-class imbalances. In Proceedings of the Fourteenth Conference of the Canadian Society for Computational Studies of Intelligence, Springer-Verlag, pp. 67-77, 2001.

[JAP03] JAPKOWICZ, N. Class imbalances. Are we focusing on the right

issue?, In Proceedings of the ICML’2003 Workshop on Learning from Imbalanced Data Sets II, Washington DC, 2003.

[JGH96] JIM, K.; GILES, C. L.; HORNE, B. G. An analysis of Noise in

Recurrent Neural Networks: Convergence and Generalization. IEEE Transactions on Neural Networks. p. 1424-1439, 1996.

[KOH95] KOHAVI, R.; A study of cross-validation and bootstrap for

accuracy estimation and model selection. Proceedings of the

Fourteenth International Joint Conference on Artificial Intelligence:

1137–1143. (Morgan Kaufmann, San Mateo).

[KH91] KOISTINEN, P., HOLMSTROM, L. Kernel regression and

backpropagation training with noise, Neural Information

Processing Systems, 1992. (NIPS 1991), 1033-1039.

[KL51] KULLBACK, S., LEIBLER, R. A. On Information and Sufficiency,

Annals of Mathematical Statistics, vol. 22, no. 1, pp. 79-86, 1951.

[KM97] KUBAT, M., MATWIN, S. Addressing the Curse of Imbalanced

Training Sets: Onesided Selection. In Proceedings of ICML,

Nashville, pp.179–86, 1997.

[LAU01] LAURIKKALA, J. Improving Identification of Difficult Small

Classes by Balancing Class Distribution, the 8th Conference on

AI in Medicine in Europe: Artificial Intelligence Medicine Lecture

Notes In Computer Science, pp. 63-66, 2001.

[LYG02] LIN, Y., YOONKYUNG, L., GRACE, W. Support Vector Machines for

Classification in Nonstandard Situations, Machine Learning,

vol. 46, no. 1-3, pp.191-202, 2002.

91

[LZ06] LIU, X. Y., ZHOU, Z. H. The Influence of Class Imbalance on Cost-

Sensitive Learning: An Empirical Study, Proceedings of

International Conf. on Data Mining, pp. 970-974, 2006.

[MM01] MANEVITZ, L. M., MALIK, Y. One-Class Svms for Document

Classification, Machine Learning Research, Vol. 2, No. 2, pp.139-

154, 2001.

[MAT92] MATSUOKA, K. Noise Injection into Inputs in Back-Propagation Learning, IEEE Transac. on Systems, Man, and Cybernetics, Vol 22, No. 3, p. 436-440, May/Jun 1992.

[MMR97] MEHROTRA, K., MOHAN, C. K., RANKA, S. Elements of artificial

neural networks. MIT Press, Cambrigde, Mass. 1997.

[MB02] MORETTIN, P. A.; BUSSAB, W. O.; Estatística Básica. Editora Saraiva, 5ª edição. 526p.

[MET86] METZ, C. E.; Statistical Analysis of ROC Data in Evaluating

Diagnostic Performance. Multiple Regression Analysis:

Applications in the Health Sciences, number 13, edited by Donald

E. Herbert and Raymond H. Myers. 365–384. American Institute of

Physics, 1986.

[MP43] McCULLOCH, W. S., PITTS, W. A logical calculus of the ideas

immanent in nervous activity. Bulletin of Mathematical

Biophysics, vol 5, p. 115-133, 1943.

[MP69] MINSKY, M., PAPERT, S. Perceptrons: An introduction to

Computational Geometry. M.I.T. Press, Cambridge, Massachusetts, 1969.

[MZW05] McCARTHY, K., ZABAR, B., WEISS, G. M. Does Cost-Sensitive

Learning Beat Sampling for Classifying Rare Classes?, In Proceedings of International Workshop Utility-Based Data Mining, pp. 69-77, 2005.

[MR86] McCLELLAND, J. L., RUMELHART, D. E., Parallel Distributed Processing: Explorations in the Microstructure of Cognition, vol 1 - Foundations. M.I.T. Press, Cambridge, Massachusetts, 1986

[MR186] McCLELLAND, J. L., RUMELHART, D. E., Parallel Distributed

Processing: Explorations in the Microstructure of Cognition,

92

vol 2 - Psychological and Biological Models. M.I.T. Press, Cambridge, Massachusetts, 1986.

[NJM01] NICKERSON, A., JAPKOWICZ, N., MILLOS, E. Using Unsupervised

Learning to Guide Resampling in Imbalanced Data Sets, In Proceedings of the 8th International Workshop on AI and Statistics, Key West, Florida, pp.261-265, 2001.

[OLI08] OLIVEIRA NETO, R. F.; Investigação sobre o efeito de ruído na

generalização de redes neurais sem peso em problemas de classificação binária. Dissertação de Mestrado – UFPE. Recife, 2008. 92p.

[PAZ+94] PAZZANI, M. et al. Reducing misclassification costs. In

Proceedings of the Eleventh International Conference on Machine Learning, pages 217-225, 1994.

[PNH86] PLAUT, D.C., NOWLAN, S. J., HINTON, G. E. Experiments on

learning by backpropagation, Tech Rep. 1986. [PRE94] PRECHELT, L. Proben 1 – A set of Neural Network Benchmark

Problems and Benchmarking Rules, 1994. [QIO+08] QIONG, G., et al. Data Mining on Imbalanced Data Sets,

International Conference on Advanced Computer Theory and Engineering, Phuket, Thailand, pp. 1020-1024, 2008.

[QUI88] QUINLAN, J. R. C4.5 Programs for Machine Learning, Morgan

Kaufmann, 1988.

[RCS09] RODRIGUE, J. P., COMTOIS, C., SLACK, B. The Geography of Transport Systems. Routledge, 352p., 2009.

[RM86] RUMELHART, D. E.; McCLELLAND, J. L.; Parallel Distributed Processing. Volume 1: Foudations. The MIT Press, 1986.

[ROS57] ROSENBLATT, F. The Perceptron: A perceiving and

recognizing automation. Thecnical Report 85-460-1, Cornell Aeronautical Laboratory, 1957.

[RUN98] RUNSTEIN, F. O. Sistema de Reconhecimento de Fala Baseado

em Redes Neurais Artificiais. Tese de Doutorado - UNICAMP. Campinas, 170p., 1998.

[SA10] SILVA, I. B. V., ADEODATO, P. J. L. An Approach for Learning

From Small and Unbalanced Data Sets Using Gaussian Noise

93

During Artificial Neural Network Training. International Conference on Data Mining, 23-30p., 2010.

[SA11] SILVA, I. B. V. ; ADEODATO, P. J. L. PCA and Gaussian Noise in

MLP Neural Network Training Improve Generalization in Problems with Small and Unbalanced Data Sets. International Joint Conference on Neural Networks, 2011.

[SAN07] SANTOS, C. Estatística Descritiva - Manual de Auto-

aprendizagem, Lisboa, Edições Sílabo, 2007. [SHA51] SHANNON, C. E. Prediction and entropy of printed English, The

Bell System Technical Journal, vol. 30, pp. 50-64, 1951. [SCH99] SCHAPIRE, R. E. A brief introduction to boosting. In Proceedings

of the Sixteenth International Joint Conference on Artificial Intelligence, pp. 1401-1406, 1999.

[TXF95] TAFNER, M. A.; XEREZ, M.; FILHO, I. W. R. Redes neurais

artificiais: introdução e princípios de neurocomputação, Blumenau: Eko, 1995.

[TA77] TIKHONOV, A. N.; ARSENIN, V. A. Solutions of Ill-posed

Problems, Washington: Winston & Sons, 1977. [TOM76] TOMEK, I. Two Modifications of CNN, IEEE Transactions on

Systems Man and Communications, vol.6 , pp. 769–772, 1976. [VON93] VON ZUBEN, F. J. Redes Neurais aplicadas ao controle de

Máquina de Indução. Dissertação de Mestrado - UNICAMP. Campinas, 252p., 1993.

[WEI04] WEISS, G. M. Mining with Rarity: A Unifying Framework, ACM

SIGKDD Explorations Newsletter, vol. 6, nº1, pp. 7-19, 2004. [WES00] WEST, D. Neural network credit scoring models, Computers

and Operations Research, vol 27, p. 1131-1152, 2000. [WP99] WANG, C.; PRINCIPE, J. C.; Training neural network with

additive noise in the desire signal. IEEE Transactions on Neural Networks. p. 1511-1517, 1999.

[WH60] WIDROW, B.; HOFF, M. E. Adaptive switching circuits. Institute

of Radio Engineers, In IRE WESCON Convention Referências Bibliográficas 92 Record, p. 96-104, 1960.

94

[WID62] WIDROW, B., Generalization and information storage in networks of adaline "neurons". Self-Organazing Systems, p. 435-461, Spartan Books, Washington DC, 1962.

[WIL72] WILSON, D. L. Asymptotic Properties of Nearest Neighbor

Rules Using Edited Data, IEEE Transactions on Systems, Man, and Communications vol. 2, no. 3, pp. 408–421, 1972.

[WM97] WILSON, D. R., MARTINEZ, T. R. Improved Heterogeneous

Distance Functions, AI Access Foundation and Morgan Kaufmann Publishers, Journal of Artificial Intelligence Research vol. 6, pp.1-34, 1997.

[WF05] WITTEN, I. H.; FRANK, E. Data Mining: Pratical Machine

Learning Tools and Techniques with Java Implementations, San Mateo: Morgan Kaufmann, 2005.

[WC05] WU, G., CHANG, E. Y. KBA: Kernel Boundary Alignment

Considering Imbalanced Data Distribution, IEEE Trans. Knowledge and Data Eng., vol. 17, no. 6, pp. 786-795, 2005.

[YL97] YAO, X.; LIU, Y. A new evolutionary system for evolving

artificial neural networks, IEEE Transactions on Neural Networks, p. 694–713, 1997.

[YLG04] YONG, S.; LAI, W. K.; GOGHILL, G. Weightless Neural Networks

for Typing Biometrics Authentication. Lecture Notes in Computer Science. p. 284-293, 2004.

[ZJM04] ZUR, R. M., JIANG, Y., METZ, C. E., Comparison of two methods of

adding jitter to artificial neural network training, Int. Congress Series, p. 886-889, 2004.

Icamaan Botelho Viegas da Silva - UFPE · 2019. 10. 25. · catalogaÇÃo na fonte bibliotecÁria...

Documents

Transcript of Icamaan Botelho Viegas da Silva - UFPE · 2019. 10. 25. · catalogaÇÃo na fonte bibliotecÁria...