Estudio emp´ırico del desbalance de las clases sobre redes...

8
Estudio emp´ ırico del desbalance de las clases sobre redes RBF y MLP R. Alejo, J.M. Sotoca, V. Garc´ ıa R.M. Valdovinos Institute of New Imaging Technologies Grupo C´ omputo Aplicado Dept. Lenguajes y Sistemas Inform´ aticos CU Valle de Chalco Universidad Jaime I Universidad Aut´ onoma del Estado de M´ exico 12071 Castell´ on (Espa ˜ na) 56615 Valle de Chalco (M´ exico) [email protected] li [email protected] Resumen Actualmente, el problema del desbalance entre clases es reconocido como un problema cr´ ıtico en el dise˜ no y construcci´ on de redes neuronales ar- tificiales con aprendizaje supervisado. Este prob- lema aparece cuando existen muchas m´ as muestras de una clase que de la otra, y ocasiona que la con- vergencia de la clase menos representada sea m´ as lenta, disminuyendo la capacidad de generalizaci ´ on del clasificador. Sin embargo, no est´ a claro si este problema afecta de igual forma en diferentes arqui- tecturas de redes neuronales. En este trabajo, se re- portan las principales diferencias del efecto del des- balance de las clases sobre dos arquitecturas de red neuronal (las redes RBF y el MLP) entrenadas con el algoritmo back-propagation con procesamiento por grupos. 1 Introducci´ on En los ´ ultimos a˜ nos se ha popularizado el em- pleo de redes neuronales artificiales en tareas de aprendizaje autom´ atico, reconocimiento de formas y miner´ ıa de datos, especialmente con las redes RBF (Radial Basis Function) y el MLP (Multilayer Perceptron). ´ Estas comparten varias caracter´ ısticas en com´ un. Por ejemplo, son de redes de propa- gaci´ on hacia adelante (feedforward) con capas no lineales [1], aproximadores universales [2] y mo- delos que pueden ser entrenados con m´ etodos si- milares de descenso por gradiente, por ejemplo, con el algoritmo back-propagation [3]. No obstante, ambas presentan importantes diferencias [4]: 1. Las redes RBF tienen una capa oculta mientras que el MLP puede tener una o m´ as. 2. Generalmente, en el MLP los nodos ocultos y los de salida tienen el mismo modelo neuronal, mientras que en las redes RBF el modelo neu- ronal de la capa oculta y el de salida es distinto. 3. Los MLP generan una aproximaci ´ on global de la relaci ´ on no lineal entrada-salida en tanto que en las redes RBF, esta relaci´ on es local. 4. Las redes RBF y MLP tienen diferentes fun- ciones de activaci´ on de los nodos ocultos. En las redes RBF depende de la distancia entre los vectores de entrada y los centros de la red. En el MLP depende del producto del vector de en- trada y el vector de pesos. Las redes RBF y el MLP, al igual que otros mecanismos de aprendizaje autom´ atico, mues- tran desempe˜ nos deficientes en contextos donde la muestra de entrenamiento (ME) presentan des- balance [5]. Sin embargo, no est´ a claro si el efecto del desequilibrio en la distribuci´ on de las clases es el mismo en ambas redes. En investigaciones recientes [6–8] se ha obser- vado que en este tipo de problemas, el desempe˜ no de las redes RBF es inferior al mostrado por el MLP. Por lo que surgen la pregunta ¿qu´ e diferencia existe entre ambas redes?. En este trabajo, se desarrolla un estudio emp´ ırico con bases de datos artificiales y reales con el fin de ver las diferencias fundamentales entre ambas re- des cuando son entrenadas con el algoritmo back- propagation con procesamiento por grupos y bases de datos desbalanceadas.

Transcript of Estudio emp´ırico del desbalance de las clases sobre redes...

Page 1: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

Estudio empırico del desbalance de las clases sobre redes RBF y MLP

R. Alejo, J.M. Sotoca, V. Garcıa R.M. ValdovinosInstitute of New Imaging Technologies Grupo Computo Aplicado

Dept. Lenguajes y Sistemas Informaticos CU Valle de Chalco

Universidad Jaime I Universidad Autonoma del Estado de Mexico

12071 Castellon (Espana) 56615 Valle de Chalco (Mexico)

[email protected] li [email protected]

Resumen

Actualmente, el problema del desbalance entreclases es reconocido como un problema crıtico enel diseno y construccion de redes neuronales ar-tificiales con aprendizaje supervisado. Este prob-lema aparece cuando existen muchas mas muestrasde una clase que de la otra, y ocasiona que la con-vergencia de la clase menos representada sea maslenta, disminuyendo la capacidad de generalizaciondel clasificador. Sin embargo, no esta claro si esteproblema afecta de igual forma en diferentes arqui-tecturas de redes neuronales. En este trabajo, se re-portan las principales diferencias del efecto del des-balance de las clases sobre dos arquitecturas de redneuronal (las redes RBF y el MLP) entrenadas conel algoritmo back-propagation con procesamientopor grupos.

1 Introduccion

En los ultimos anos se ha popularizado el em-pleo de redes neuronales artificiales en tareas deaprendizaje automatico, reconocimiento de formasy minerıa de datos, especialmente con las redesRBF (Radial Basis Function) y el MLP (MultilayerPerceptron). Estas comparten varias caracterısticasen comun. Por ejemplo, son de redes de propa-gacion hacia adelante (feedforward) con capas nolineales [1], aproximadores universales [2] y mo-delos que pueden ser entrenados con metodos si-milares de descenso por gradiente, por ejemplo, conel algoritmo back-propagation [3]. No obstante,ambas presentan importantes diferencias [4]:

1. Las redes RBF tienen una capa oculta mientrasque el MLP puede tener una o mas.

2. Generalmente, en el MLP los nodos ocultos ylos de salida tienen el mismo modelo neuronal,mientras que en las redes RBF el modelo neu-ronal de la capa oculta y el de salida es distinto.

3. Los MLP generan una aproximacion global dela relacion no lineal entrada-salida en tanto queen las redes RBF, esta relacion es local.

4. Las redes RBF y MLP tienen diferentes fun-ciones de activacion de los nodos ocultos. Enlas redes RBF depende de la distancia entre losvectores de entrada y los centros de la red. Enel MLP depende del producto del vector de en-trada y el vector de pesos.

Las redes RBF y el MLP, al igual que otrosmecanismos de aprendizaje automatico, mues-tran desempenos deficientes en contextos dondela muestra de entrenamiento (ME) presentan des-balance [5]. Sin embargo, no esta claro si el efectodel desequilibrio en la distribucion de las clases esel mismo en ambas redes.

En investigaciones recientes [6–8] se ha obser-vado que en este tipo de problemas, el desempenode las redes RBF es inferior al mostrado por el MLP.Por lo que surgen la pregunta ¿que diferencia existeentre ambas redes?.

En este trabajo, se desarrolla un estudio empıricocon bases de datos artificiales y reales con el fin dever las diferencias fundamentales entre ambas re-des cuando son entrenadas con el algoritmo back-propagation con procesamiento por grupos y basesde datos desbalanceadas.

Page 2: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

2 Aspectos metodologicos

Trabajos previos [6–8] sugieren que un aspecto queafecta de forma diferente al comportamiento delMLP y la red RBF cuando son entrenadas con elalgoritmo back-propagation es el solapamiento.

Para estudiar como afecta esta cuestion en pro-blemas desbalanceados se desarrollaron diversosexperimentos con bases de datos sinteticas y des-equilibradas en tres escenarios de separabilidaddistintos. Las bases de datos artificiales fuerondisenadas segun un modelo de dos clases con dis-tribuciones gaussianas bivariadas.

En la Fig. 1a-c se presenta el primer escenariodonde las clases muestran un alto nivel de separa-bilidad. La Fig. 1d-f corresponde al segundo esce-nario en el que las clases se encuentran a una menordistancia pero sin llegar al solapamiento y en la Fig.1g-i se observa un alto solapamiento entre clases.En cada uno de los escenarios el desequilibrio entreclases es de 1:10, 1:100 y 1:1000.

Tambien se estudia una base de datos des-balanceada real de dos clases B2Cls. Esta corres-ponde a una modificacion del conjunto de datosBalance extraıda del UCI Machine Learning Repo-sitory (http://archive.ics.uci.edu/ml/). Para obtenerB2Cls se tomo la clase menos representada de Ba-lance como minoritaria y las otras 2 clases fueronunidas en una sola clase o clase mayoritaria.

Se establecio el criterio de parada en 100.000 ite-raciones o un error inferior a 0.0001. Para el MLPla razon de aprendizaje se fijo en 0.9 mientras queen las redes RBF fue de 0.00001. El objetivo deutilizar un valor pequeno para la razon de apren-dizaje en esta red, es el de evitar oscilaciones en elerror cuadratico medio (Mean Square Error, MSE) acausa del ajuste de los centros y varianzas de la reden cada una de las iteraciones. En ambos modelosse utilizaron dos neuronas en la capa oculta.

3 Resultados experimentales

En esta seccion, se presentan algunos resultadosobtenidos al experimentar con el MLP y la red RBF.

Las Fig. 2, 3 y 4, muestran el error cuadraticomedio (Mean Square Error, MSE) de la clase mi-noritaria en cada uno de los escenarios discutidospreviamente. Cada lınea pertenece a una inicia-lizacion distinta de la red. El eje x representa el

numero de iteraciones mientras que el eje y el valordel MSE para cada iteracion. El eje x ha sido es-calado logarıtmicamente dado que los principalescambios ocurren durante las primeras iteraciones.

3.1 ¿Es mas sensible la red RBF al desbalance en laME que el MLP?

En la Fig. 2 se presenta el MSE de la clase mi-noritaria correspondiente a las tres bases de datossinteticas de las Fig. 1a, 1b y 1c.

En este escenario las clases estan altamente se-parables y se tienen tres niveles de desequilibrio.La finalidad de utilizar estas bases de datos es evi-tar factores como el ruido, muestras atıpicas o sola-pamiento, que puedan interferir en el aprendizaje dela red. Por lo tanto, el unico factor que puede con-siderarse como problematico para el aprendizaje esel desbalance.

Si se observa la Fig. 2 se podrıa pensar que el des-balance afecta mas a las redes RBF que al MLP. Noobstante, el incremento del MSE y la variabilidaddel mismo que se observa en las redes RBF durantelas primeras iteraciones, es principalmente debido ala inicializacion de la red RBF. Al inicializar aleato-riamente la red RBF se obtienen valores iniciales deMSE distintos, debido a que tanto pesos como cen-tros y varianzas son determinados aleatoriamente.Estos resultados evidencian que el MLP es menossensible a la inicializacion de sus parametros libresque la red RBF.

Ahora bien, si se reduce el problema del desequi-librio de las clases aplicando una funcion de coste1

como se sugiere en los trabajos [7, 8], se puede ob-servar que en ambas redes la convergencia del MSEde la clase minoritaria es alcanzada en el mismonumero de iteraciones (excepto por la red RBF conla base de datos lejos 10/100), independientementede la inicializacion de la red.

Sin embargo, al observar el MSE de la clase mi-noritaria obtenido sin ningun tipo de compensaciondel error, se puede apreciar una mayor inestabili-dad en el MSE de la clase minoritaria. Esto es oca-sionado por el desbalance de las clases. Observeseen la Fig. 2, que el MSE de la clase minoritaria es

1Para este caso la funcion de coste queda definida comoγ(k) = Nmax/Nk; donde k = 1, ..., K; K es el total declases, Nmax es el numero de muestras de la clase mayoritaria yNk el de la clase k.

Page 3: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Lejos (10 / 100)

cls-cls+

(a) lejos

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Lejos (10 / 1000)

cls-cls+

(b) lejos

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Lejos (10 / 10000)

cls-cls+

(c) lejos

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Cerca (10 / 100)

cls-cls+

(d) cerca

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Cerca (10 / 1000)

cls-cls+

(e) cerca

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Cerca (10 / 10000)

cls-cls+

(f) cerca

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Solapada (10 / 100)

cls-cls+

(g) solapadas

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Solapada (10 / 1000)

cls-cls+

(h) solapadas

0.8

1.2

1.6

2

0.4 0.8 1.2 1.6 2

Solapada (10 / 10000)

cls-cls+

(i) solapadas

Figura 1: Bases de datos sinteticas de dos clases con diferentes niveles de separabilidad y desequilibrio entre clases.

mucho mas estable cuando las proporciones de e-rror son equilibradas por la inclusion de la funcionde coste.

3.2 ¿Como afecta la separabilidad de las clases a lasredes MLP y RBF cuando se tiene desbalance?

Para evaluar los efectos de la separabilidad de lasclases en el MLP y las redes RBF se utilizaron lasbases de datos de las Fig. 1d-i. En esta ultimaexiste solapamiento entre clases mientras que en laprimera, las clases se encuentran muy cerca entre sipero sin llegar a un claro solapamiento de las clases.

En las Fig. 3 y 4 se presenta el MSE de la claseminoritaria para diferentes inicializaciones de la red

con las bases de datos cerca y solapadas corres-pondientes a las Fig. 1d-f y 1g-i, respectivamente.

En estas figuras se observa que a medida que sereduce la separabilidad entre clases, el numero de i-teraciones necesarias para alcanzar la convergenciacuando las aportaciones de error son equilibradas alaplicar la funcion de coste es mayor en la red RBFque en el MLP.

Esto evidencia lo sugerido en trabajos previos enel sentido de que las redes RBF son mas vulnera-bles al solapamiento entre clases cuando se presen-tan distribuciones desbalanceadas.

La Tabla 1 presenta los resultado obtenidos enla fase de clasificacion2 por las redes MLP y RBF.

2PC hace referencia a la precision en la clasificacion y g-mean

Page 4: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(a) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(b) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(c) MLP (Funcion de coste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(d) Red RBF (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(e) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(f) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(g) MLP (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(h) Red RBF (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(i) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(j) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(k) MLP (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(l) Red RBF (Funcion decoste)

Figura 2: MSE correspondiente a la clase minoritaria de las bases de datos sinteticas lejos. La primera fila corresponden auna ME con desbalance de 10− 100, la segunda a un desbalance de 10− 1000 y la tercera a un desbalance 10− 10000.

Observese que estos resultados corresponden conel comportamiento el MSE presentado en las fi-guras anteriores. Pueden observase dos valores deg-mean (de las bases de datos cerca –desequilibriode 10:1000– y lejos –desequilibrio de 10:10000– enla red RBF sin compensar el desequilibrio de las

a la media geometrica. La g-mean es definida como g-mean =(∏Kk=1

(aciertosk

aciertosk+erroresk

)) 1K =

(∏Kk=1 PCk

) 1K ,

donde aciertosk y erroresk son el numero de aciertos y er-rores de la clase k. Por lo tanto, PCk representa la precision de laclase k. Esta medida busca maximizar la efectividad por clase delclasificador.

clases) que podrıan contradecir lo discutido hastaahora. Estos resultados pudieran sugerir que el des-censo del error cuando no es compensado, es masrapido en la red RBF. No obstante, al analizar ladesviacion estandar correspondiente a cada valor deg-mean se observa que este comportamiento no esuna tendencia, sino mas bien, un hecho fortuito de-bido al problema de la inicializacion de la red.

La busqueda de la configuracion inicial de la redes una lınea de investigacion que desde hace mu-chos anos esta presente en los diferentes modelos

Page 5: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(a) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(b) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(c) MLP (Funcion de coste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(d) Red RBF (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(e) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(f) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(g) MLP (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(h) Red RBF (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(i) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(j) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(k) MLP (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(l) Red RBF (Funcion decoste)

Figura 3: MSE correspondiente a la clase minoritaria de las bases de datos sinteticas cerca. La primera fila corresponden auna ME con desbalance de 10− 100, la segunda a un desbalance de 10− 1000 y la tercera a un desbalance 10− 10000.

de redes neuronales, y que ahora debe considerar eldesbalance porque es un factor decisivo en los algo-ritmos basados en las reglas de correccion del error.

3.3 Caso de estudio B2Cls

En esta seccion se estudia la base de datos B2Cls,debido a que presenta una notable diferencia enlos valores de precision de clasificacion y g-meanobtenidos al clasificar con el MLP y la red RBF(vease la Tabla 2).

La pregunta es ¿cual es la causa de esta diferencia

entre el MLP y la red RBF?.

Los resultados discutidos hasta el momento su-gieren que el problema es que la red RBF es massensible al solapamiento entre clases, y por lo tanto,la disparidad de precision de clasificacion y g-meanen B2Cls de un modelo y del otro es ocasionadaprincipalmente por el solapamiento entre clases.Para tratar de evidenciar esta hipotesis se desarro-llaron los siguientes experimentos.

La base de datos B2Cls cuenta con 2 clases y 4atributos por lo que visualmente es muy difıcil de-

Page 6: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(a) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(b) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(c) MLP (Funcion de coste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(d) Red RBF (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(e) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(f) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(g) MLP (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(h) Red RBF (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(i) MLP

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(j) Red RBF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(k) MLP (Funcion decoste)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1 10 100 1000 10000

MS

E

Iteraciones

(l) Red RBF (Funcion decoste)

Figura 4: MSE correspondiente a la clase minoritaria de las bases de datos sinteticas solapadas. La primera fila corre-sponden a una ME con desbalance de 10 − 100, la segunda a un desbalance de 10 − 1000 y la tercera a un desbalance10− 10000.

terminar si se trata de un conjunto de datos sola-pado. Para compensar el desbalance, se prosiguiode la siguiente manera: A la base de datos B2Clsse le aplico una estrategia de submuestreo aleatoriode tal manera que se genero un conjunto de datosequilibrado (Bal-01).

Posteriormente, se fue incrementando aleatoria-mente el numero de muestras de la clase que ini-cialmente era la mayoritaria hasta regresarla a suestado original. En este proceso gradual se obtu-

vieron los conjuntos Bal-03, Bal-05, Bal-07 y Bal-10. Los valores 03, 05, 07 y 10 corresponden ala proporcion de la clase minoritaria en relacion ala mayoritaria. En Bal-03 la clase mayoritaria estres veces el tamano de la minoritaria, en Bal-05cinco veces y ası sucesivamente. A cada base dedatos se le aplico la estrategia de validacion cruzadak − fold − crossvalidation con k = 10 y cadaejecucion de la red se repitio 10 veces.

Observese en la Tabla 2 (sin incluir la funcion de

Page 7: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

Tabla 1: Resultados obtenidos en la fase de clasificacion por la red neuronal MLP y RBF, con las bases dedatos lejos, cerca y solapada correspondientes a las figuras 1a-c, 1d-f, 1g-i respectivamente.Los valoresentre parentesis hacen referencia a la desviacion estandar.

10 / 100 10 / 1000 10 / 10000Sin funcion de coste

MLP PC g-mean PC g-mean PC g-meanLejos 100.00(0.00) 100.00(0.00) 99.98(0.04) 98.98(2.06) 99.90(0.00) 0.00(0.00)Cerca 99.09(0.00) 99.51(0.00) 99.01(0.00) 0.00(0.00) 99.90(0.00) 0.00(0.00)Solapada 94.55(0.00) 70.36(0.00) 99.01(0.00) 0.00(0.00) 99.90(0.00) 0.00(0.00)

Con funcion de costeMLP PC g-mean PC g-mean PC g-meanLejos 100.00(0.00) 100.00(0.00) 100.00(0.00) 100.00(0.00) 100.00(0.00) 100.00(0.00)Cerca 99.09(0.00) 99.51(0.00) 99.76(0.05) 99.89(0.02) 99.04(0.01) 99.53(0.01)Solapada 81.91(1.66) 85.44(0.96) 92.34(0.66) 91.18(0.33) 98.60(0.08) 99.31(0.04)

Sin funcion de costeRed RBF PC g-mean PC g-mean PC g-meanLejos 100.00(0.00) 100.00(0.00) 99.96(0.05) 97.96(2.53) 99.92(0.04) 18.98(38.14)Cerca 97.55(1.42) 87.81(11.63) 99.05(0.08) 8.95(17.98) 99.90(0.00) 0.00(0.00)Solapada 92.45(1.59) 30.72(30.96) 99.01(0.00) 0.00(0.00) 99.90(0.00) 0.00(0.00)

Con funcion de costeRed RBF PC g-mean PC g-mean PC g-meanLejos 100.00(0.00) 100.00(0.00) 100.00(0.00) 100.00(0.00) 100.00(0.00) 100.00(0.00)Cerca 97.73(1.17) 98.75(0.65) 98.66(0.54) 99.33(0.28) 99.04(0.29) 99.53(0.15)Solapada 84.64(2.43) 83.40(2.11) 92.18(0.49) 91.10(0.24) 96.81(0.66) 98.40(0.34)

coste) que cuando no existe desbalance entre clases(Bal-01), el resultado coincide con el presentadopor la base de datos original cuando el desequilibrioes compensado al incluir la funcion de coste. La efi-cacia del MLP es superior a la de la red RBF. Estatendencia se observa al irse incrementado el dese-quilibrio de las clases.

Al aplicarse la funcion de coste este compor-tamiento sigue observandonse, y se evidencia queel rendimiento obtenido con el algoritmo estandary la red RBF a causa del desbalance es mejoradoal aplicarse la funcion de coste. Sin embargo, enningun caso se alcanzan los valores de PC y g-meanobtenidos por el MLP.

Estos resultados sugieren que B2Cls es un pro-blema mas difıcil de aprender por la red RBF quepor el MLP, y confirman la hipotesis planteada.

4 Conclusion

Se ha afirmado que siempre existe una red RBFcapaz de igualar la eficacia de un MLP. Sin em-

bargo, la presencia de algunos factores como eldesbalance, el solapamiento o la baja separabilidadentre clases ocasiona que los problemas sean masdifıciles de aprender por el clasificador.

Trabajos previos han sugerido que la red RBF esmas vulnerable a problemas de desequilibrio entreclases, separabilidad o solapamiento. En este tra-bajo, se han desarrollado una serie de experimentoscon datos sinteticos y reales para tratar de confirmaresta hipotesis.

En terminos generales se observo lo siguiente:

• La red RBF es mas sensible a la configuracioninicial de la red que el MLP.

• El desequilibrio de las clases ocasiona unamayor inestabilidad en el MSE de la clase mi-noritaria en la red RBF.

• A medida que se reduce la separabilidad entreclases la red RBF requiere de mas iteracionespara alcanzar valores semejantes de MSE queel MLP.

Page 8: Estudio emp´ırico del desbalance de las clases sobre redes ...marmota.dlsi.uji.es/WebBIB/papers/2010/cedi2010_sotoca.pdf · la muestra de entrenamiento (ME) presentan des-balance

Tabla 2: Resultados de la fase de clasificacion de las redes MLP y RBF, con la base de datos B2Cls. Losvalores entre parentesis hacen referencia a la desviacion estandar.

MLP Red RBFSin funcion de coste PC g-mean PC g-meanBal-01 85.58(14.68) 84.70(15.87) 62.71(17.39) 58.98(20.15)Bal-03 86.32(12.34) 62.34(43.10) 72.22(5.21) 6.80(16.31)Bal-05 83.13(1.35) 0.45(4.47) 82.29(2.72) 2.68(10.67)Bal-07 87.49(0.85) 0.00(0.00) 87.09(1.34) 1.79(8.81)Bal-10 92.16(0.50) 0.00(0.00) 92.16(0.50) 0.00(0.00)

Con funcion de coste PC g-mean PC g-meanBal-01 85.29(13.37) 84.50(13.87) 62.77(16.97) 59.46(18.82)Bal-03 94.34(5.54) 93.30(7.82) 63.42(9.90) 59.68(20.20)Bal-05 89.63(9.51) 88.61(11.67) 66.36(7.29) 63.57(13.95)Bal-07 90.44(2.43) 90.81(6.70) 68.78(5.77) 68.68(11.18)Bal-10 89.51(6.40) 85.82(20.47) 68.29(6.87) 52.81(28.98)

• El solapamiento entre clases ocasiona que losproblemas de clasificacion sean mas difıcilesde aprender para la red RBF.

Es indudable que se requiere profundizar en eltema no solo por la importancia del mismo, sinopor su relacion con otras areas del reconocimientode formas. Una de las principales lıneas de investi-gacion que permanecen abiertas es el desarrollo deestrategias que permitan una inicializacion optimade la red RBF considerando factores basados en lacomplejidad de los datos.

Agradecimientos

Este trabajo ha sido suvencionado parcialmente porel Ministerio de Educacion y Ciencia de Espana conel proyecto CSD2007-00018, y por los proyectosUAEMCA-114, 2703/2008U (PROMEP) y SBI112de la SEP (Mexico).

Referencias

[1] S. Haykin. Neural Networks. A Comprehen-sive Foundation. Prentice Hall, New Jersey, 2edicion, 1999.

[2] C. Looney. Pattern Recognition Using Neu-ronal Networks - theory and algorithms for en-gineers and scientists. Oxford University Press,New York, 1 edicion, 1997.

[3] F. Schwenker, H.A. Kestler, y G. Palm. Threelearning phases for radial-basis-function net-works. Neural Networks, 14(4-5):439–458,2001.

[4] S.Q. Ding y C. Xiang. From multilayer percep-trons to radial basis function networks: a com-parative study. En IEEE CIS, volumen 1, pag.69–74, 2004.

[5] N. Japkowicz y S. Stephen. The class imbal-ance problem: a systematic study. IntelligentData Analysis, 6:429–449, 2002.

[6] R. Alejo, V. Garcıa, J.M. Sotoca, R.A.Mollineda, y J.S. Sanchez. Improving the clas-sification accuracy of RBF and MLP neural net-works trained with imbalanced samples. EnIDEAL, volumen 4224, pag. 464–471, 2006.

[7] R. Alejo, J.M. Sotoca, y G. A. Casan. Anempirical study for the multi-class imbalanceproblem with neural networks. En CIARP, pag.479–486, 2008.

[8] R. Alejo, J.M. Sotoca, R.M. Valdovinos, y G.A.Casan. The multi-class imbalance problem:Cost functions with modular and non-modularneural networks. En ISNN, pag. 421–431, 2009.