1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais...

55
TÉCNICAS DE OTIMIZAÇÃO NÃO- TÉCNICAS DE OTIMIZAÇÃO NÃO- LINEAR IRRESTRITA APLICADAS AO LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS DE TREINAMENTO DE REDES NEURAIS DE MÚLTIPLAS CAMADAS MÚLTIPLAS CAMADAS IA 353 - Redes Neurais Leandro Nunes de Castro Fernando José Von Zuben

description

 

Transcript of 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais...

Page 1: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

TÉCNICAS DE OTIMIZAÇÃO NÃO-TÉCNICAS DE OTIMIZAÇÃO NÃO-LINEAR IRRESTRITA APLICADAS AO LINEAR IRRESTRITA APLICADAS AO TREINAMENTO DE REDES NEURAIS TREINAMENTO DE REDES NEURAIS

DE MÚLTIPLAS CAMADASDE MÚLTIPLAS CAMADAS

IA 353 - Redes Neurais

Leandro Nunes de Castro

Fernando José Von Zuben

Page 2: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

2

Tópicos• Introdução (motivação)• Redes de múltiplas camadas• Algoritmo de retropropagação• Treinamento e critérios de parada• Superfícies de erro e mínimos locais• Abordagem (forma de análise)• Aproximação de funções• Algoritmos de otimização• Detalhes de implementação e variações• Taxas de aprendizagem globais• Algoritmos• Exemplos de aplicação

Page 3: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

3

Motivação• Estímulo inicial

• Potencial de aplicação na análise e síntese de problemas não-lineares

• Aplicação de redes MLP a problemas de mundo real

• Utilização de técnicas de otimização não-linear irrestrita para o treinamento de redes do tipo MLP

Garantia de convergência

Taxa de convergência

Teoria deotimização

Aproximação de funções

Teoria de análise numérica

Áreas de atuação científica a serem abrangidas

Page 4: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

4

Redes de múltiplas camadasMLP - Multilayer Perceptron

… …

Camadade entrada

Primeiracamada

escondida

Segundacamada

escondida

Camadade saída

Propagação do sinal

Retro-propagação do erro

Page 5: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

5

Abordagem matricial para o algoritmo de retro-propagação (backpropagation)

f1

W1

b1

u1

x

1f2

W2

b2

u2

y1

1f3

W3

b3

u3

y2

1

y3

f1.

f2.

f3.

Propagação dos sinais

2 (y – s)

321

Retro-propagaçãodas sensibilidades

(W2)T (W3)T

2 3

Page 6: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

6

Treinamento e critérios de parada

• Treinamento:– Local (on-line): atualização imediatamente após a

apresentação de cada amostra.

– Em lote (off-line, batch): atualização após a apresentação de todo o conjunto de dados.

• Critérios de parada:– || || < J() < – J() < – Outras funções de custo

)θ(J

Page 7: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

7

Superfícies de erro e mínimos locais (I)

*

| |J( ) || = 0

x 0

d e sejad o

m ín im oglob a l da

su p er fíc ied e e rro

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20

-15

-10

-5

0

5

10

Mínimo local

Mínimo global

Critérios de parada

Mínimos locais

Page 8: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

8

Série de Taylor

...*)()(*)(2

1*)()(*)()(

*

2

*

xxxxxxxxxx

xxxx

TTT FFFF

T

nF

xF

xF

xF

)()()()(21

xxxx

T

nnn

n

n

Fx

Fxx

Fxx

Fxx

Fx

Fxx

Fxx

Fxx

Fx

F

)()()(

)()()(

)()()(

)(

2

2

2

2

1

2

2

2

22

2

12

21

2

21

2

21

2

2

xxx

xxx

xxx

x

Page 9: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

9

Aproximação em Taylor - Exemplo)cos()( xxF

Expansão em Taylor para F(x) em torno do ponto x = 0:

42

24

1

2

11)( xxxF

Neural Network

DESIGN Taylor Series #1

TAYLOR SERIES APPROXIMATION

Click in the left graph to create a Taylor series approximationof the cosine function.

Click on the check-box buttons at the right of the w indow to turnvarious orders of approximation on and off.

Chapter 8

-6 -3 0 3 6-2

-1

0

1

2

x

cos(x)

< CLICK ON ME >

-6 -3 0 3 6-2

-1

0

1

2

F0(x)

F4(x)

F2(x)

Page 10: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

10

Mínimos• Local: O ponto x* é um mínimo local de F(x) se existe um escalar > 0,tal que F(x*) < F(x + x) para todo x tal que 0 < ||x|| < .

• Global: O ponto x* é um mínimo global único de F(x) se F(x*) < F(x + x) para todo x 0.

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2-20

-15

-10

-5

0

5

10

Mínimo local

Mínimo global

Page 11: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

11

Primeira derivada direcional:

Segunda derivada direcional:

p

xp )(FT

2

2 )(

p

pxp FT

Derivada direcional

• Qual a direção cuja derivada é nula?

• Qual a direção de maior inclinação (maior crescimento da função)?

Page 12: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

12

Otimalidade & Hessiana (caso quadrático)

Condições de otimalidade:

0)(* xx

xF• Primeira ordem: (Ponto estacionário)

• Segunda ordem: (Hessiana semi-definida positiva)0)(*

2 xx

xF

Auto-sistema da Hessiana:

max2min λλ p

AppT

cF TT xdAxxx2

1)(

max2max

maxmax λz

Azz T

Z1

(min)

Z2

(max)

Page 13: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

13

Hessiana - Exemplos

Page 14: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

14

1 1

x y

w01

w11

v01

w12

v02

v11

v21

Superfícies de erro e mínimos locais (II)

0 5 10 15 20 25 30 35 40 450.25

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65

0.7

0.75

Função a ser aproximada Rede para aproximação

Page 15: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

15

-5 0 5 10 15-5

0

5

10

15

v(1,1)

w(1

,1)

Superfícies de erro e mínimos locais (III)

-50

510

15

-5

0

5

10

150

2

4

6

8

10

v(1,1)w(1,1)

Vales

Platô

Superfície do erro quadrático e seu contorno em relação aos pesos v11 e w11

Page 16: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

16

Superfícies de erro e mínimos locais (IV)

-10 -8 -6 -4 -2 0 2 4 6 8 10-10

-8

-6

-4

-2

0

2

4

6

8

10

v(0,1)

w(0

,1)

-10-5

05

10

-10

-5

0

5

100

0.5

1

1.5

v(0,1)w(0,1)

Mínimo global Mínimo local

Superfície do erro quadrático e seu contorno em relação aos limiares v01 e w01

Page 17: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

17

Abordagem

• Representar o treinamento sob a forma de aproximação de funções minimização de um funcional de erro (J)

• Aproximação quadrática do funcional J (Taylor)

• Objetivo: • Processo iterativo de solução:

)θθ)(θ()θθ()θθ()θ()θ()θ( 2ii

Tii

Tiiquad JJJJ

)θ(J

)θ(2J

vetor gradientematriz hessiana

0,αθθ 1 iiiii d

)θ(minarg*θθ

JP

Page 18: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

18

• Aproximar: g(.): X m r

• Modelo: :X P r, onde P (P finito)

• Dados: amostrados da forma

* P tal que dist(g(.),   )  dist(g(.),   ), para

todo P

• Nível de aproximação:

• Otimização:

• Erros:– representação (bias)

– generalização (variância)

– otimização

Aproximação de funções

Nlll 1, sx lll g )(xs

)θ(.,g

)θ(.,g*)θ(.,g

N

l

ggN

J1

2)θ,(ˆ)(1

)θ( xx

)θ(minarg*θθ

JP

Page 19: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

19

Algoritmos de otimização• Algoritmo padrão (BP)

• Método do gradiente (GRAD)

• Método de Newton (MN)

• Método de Levenberg-Marquardt (LM)

• Método do gradiente conjugado (GC)

• Método de Fletcher & Reeves (FR)

• Método de Polak-Ribère (PR)

• Gradiente conjugado escalonado (SCG)

• Davidon-Fletcher-Powell (DFP)

• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

• One-Step Secant (OSS)

1a ordem

2a ordem

2a ordem (grad. conjugado)

2a ordem (quase-Newton)

2a ordem

Page 20: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

20

Algoritmos de otimização

Page 21: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

21

• Algoritmo padrão (BP)– passo fixo

Métodos de 1a ordem (I)

• Método do gradiente (GRAD)– Busca simples do passo

0,θβ.α.θθ 11 iiiii d

)θ(

)θ(

J

J

d

momento

)θ(

)θ(αθθ 1

i

iiii J

J

Page 22: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

22

Métodos de 1a ordem (II)

Exemplo 1: Problema XOR (OU-exclusivo)

-1 1

1

-1

-1

-1+ 1

+ 1

• Rede: [2-10-1]• SSE: 0.01

Page 23: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

23

Métodos de 1a ordem (III)

Algoritmo padrão com e semmomento

Método do gradiente

Exemplo 1:

Err

o

Page 24: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

24

• Newton modificado (NM) • Levenberg-Marquardt (LM)

Métodos de 2a ordem (I)

)θ()θ(αθθ12

1 iiiii JJ

0λ)λε()θ(

0λ)θ(][

min][

min2

][min

2

iiii

iii

seJ

seJ

IM

M

)θ(αθθ 11 iiiii J

M

Positivando a Hessiana

q

kl

N

i

m

jijij rggJ

1

2

1 1

2)θ,(ˆ)()θ( xx

Tq

T

r

r

1

J

q

kkk

T rJ1

22 2 rJJ

rJJJ TT 1θ

rJIJJ TT 1μθ

Gauss-Newton

Page 25: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

25

Exemplo 1: Levenberg-Marquardt

Métodos de 2a ordem (II)

Err

o

Page 26: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

26

• Davidon-Fletcher-Powell (DFP)

• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

Métodos de 2a ordem (III)Quase-Newton

Aproximação iterativa da inversa da Hessiana: 12 )( lim

θH Ji

i

iiii J pggq )θ(21

iii dp α

iiTi

iTiii

iTi

Tii

iiqHq

HqqH

qp

ppHH 1

iTi

iTii

Tiii

iTi

iiTi

iTi

Tii

iiqp

HqppqH

qp

qHq

qp

ppHH

11

iii gHd

iiii dαθθ 1

Page 27: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

27

Exemplo 1: Quase-Newton

Métodos de 2a ordem (IV)

DFP BFGS

Err

o

Page 28: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

28

• Secantes de um Passo (OSS)

Métodos de 2a ordem (V)

iiiiii BA qsgd 1

iii θθ 1 s

iTi

iTi

ii

Ti

iTi

iTi

iTi

iTi

iTi

i BAqs

gs

qs

gq

qs

gs

qs

qq

;1

Exemplo 1:

Err

o

Page 29: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

29

• Polak-Ribière (PR) • Fletcher & Reeves (FR)

Métodos de 2a ordem (VI)

Gradiente Conjugado

.)θ(

θθ 1 ii

Ti

iTi

iiJ

dQdd

d

iTi

iT

i

iiii

J

iJ

J

Qdd

Qd

dd

d

)θ(βcom

0β)θ(

)θ(

1i

11

00

Passo i

i

Ti

iiTi

igg

ggg 11β 2

21β

i

ii

g

g

Page 30: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

30

PR FR

Exemplo 1:

Métodos de 2a ordem (VII)E

rro

Page 31: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

31

• Gradiente conjugado escalonado modificado– evita a busca

unidimensional através de um escalonamento do passo de ajuste [MOLLER,1993]

– modificado: cálculo exato da informação de segunda ordem [PEARLMUTTER,1994]

Métodos de 2a ordem (VIII)

Exemplo 1:

Err

o

Page 32: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

32

Complexidade ComputacionalP: graus de liberdade do modelo l: número de unidades naN: número de amostras camada intermediária

Page 33: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

33

Detalhes de implementação/Variações• Os métodos de segunda ordem (QN & GC) foram

projetados para problemas quadráticos

• Momento de segunda ordem:

• Variação do ganho da função de ativação:

• Normalização dos dados de entrada:

Busca unidimensional

Reinicializaçãodo algoritmo

0,θγθβαθθ 211 iiiiii d3

1βγ

tanh(x)xe

xfβ1

γ)(

i

inini

xxx

σ,

,

N

n nii xN

x1 ,

1

N

n ninii xxN 1

2,, )(

1

Page 34: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

34

• Minimizar:• Mínimo: f (2, 1) = 0

• Ponto inicial: (x1, x2) = (0, 0)

• Estratégias:– método do gradiente (GRAD)

– método de Newton (MN)

– método de Davidon-Fletcher-Powell (DFP)

– método de gradiente conjugado (GC)

Algoritmos de otimização não-linear irrestrita

Exemplo 2: Propriedades de convergência

221

4121 )2()2(),( xxxxxf

Page 35: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

35

Algoritmos de otimização

(139)GRAD

(1)MN

(9)GC

(13)DFP

Page 36: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

36

• Determinação da taxa• Busca inexata

– simples

Taxas de Aprendizagem Globais (I)

TAXAS DE APRENDIZAGEM GLOBAIS

DETERMINAÇÃO(FIXA/DECRESCENTE)

BUSCA

SIMPLES INTERVALO DEINCERTEZAS

MINIMIZAÇÃODA FUNÇÃO

• Busca exata– método de Fibonacci

– método da Seção Áurea

– método da Falsa Posição

Page 37: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

37

• Garantia de ajustes minimizantes

• Encontrar um valor ótimo para i (0, ]

• Subproblema: J(i + idi)

• Busca unidimensional: d P fixo

-10-5

05

10

-10

-5

0

5

100

0.5

1

1.5

v(0,1)w(0,1)

Taxas de Aprendizagem Globais (II)

α

]α,0(α imin

Page 38: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

38

Algoritmos• Busca Simples

• Falsa posição1 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )

2 . E n q u a n t o i

ii

θ

θ- θ 1 d N f a ç a :

2 . 1 . )θ()θ(

θθ).θ(θθ

1

11

ii

iiiii JJ

J

3 . T e s t e a c o n d i ç ã o d e p a r a d a

Page 39: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

39

Taxas de Aprendizagem Globais (III)

Exemplo 3: Busca simplesA

lfa

Page 40: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

40

Algoritmos - Seção Áurea1 . ( a 1 , b 1 ) - i n t e r v a l o i n i c i a l d e i n c e r t e z a s

2 . E s c o l h a u m v a l o r a r b i t r á r i o p a r a d N ( c r i t é r i o d e p a r a d a )

3 . = 618.02

15

- r a z ã o á u r e a

4 . 1111 α1λ aba e 1111 αμ aba

5 . J ( 1 ) e J (

1 )

6 . E n q u a n t o 2

- 1 ba d N f a ç a :

6 . 1 . S e J ( i ) > J (

i ) , v á p a r a 6 . 1 . 1 ; e s e J ( i ) J (

i ) , v á p a r a 6 . 1 . 2

6 . 1 . 1 . F a ç a :

a i + 1 = i e b i + 1 = b i

i + 1 =

i e 1111 αμ iiii aba

J ( i + 1 )

6 . 1 . 2 . F a ç a :

a i + 1 = a i e b i + 1 = i

i + 1 =

i e 1111 α1λ iiii aba

J ( i + 1 )

7 . T e s t e a c o n d i ç ã o d e p a r a d a

Page 41: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

41

Taxas de Aprendizagem Globais (IV)

Exemplo 4: Redução do intervalo de incertezas

2214

121 22),( xxxxxf

• Problema: min f(xi + idi) s.a. (0, 1]

• Onde:• Mínimo: f (2, 1) = 0

• Ponto inicial: (x1, x2) = (0, 0) e d = [1, -1]

• Estratégias:– método da Seção Áurea (GOLD)

– método de Fibonacci (FIB)

– método da Falsa Posição (FP)

Page 42: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

42

Taxas de Aprendizagem Globais (V)

Exemplo 4:

(20)Fibonacci

(20)Seção áurea

(6)Falsa posição

Page 43: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

43

Exemplo

0 100 200 300 400 500 600

-2

-1

0

1

2

3

4

Atualização em lote: 625 amostras do Exercício 3

npEQMSSESSEnp

EQM ..1 2

Page 44: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

44

Parâmetros:nh = 10; minerr = 0.64; maxep = 1000; val = 0.5;dn = 0.001; cm = 0.9;

Exemplo - exercício 3

Page 45: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

45

0

50

100

150

200

250

Tempo (seg.)

Exemplo - exercício 3

0

50

100

150

200

250

300

350

400

Flops(xe6)

BP

GRAD

FR

PR

OSS

SCGM

DFP

BFGS

Page 46: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

46

Exemplo - exercício 3

0 20 40 60 80 100

100

101

102

103

104

SSE

Epochs

GRAD

BPM

PR

FR

BFGS

DFP

SCGM

OSS

Legenda:

Comportamento do SSE (soma dos erros quadráticos)

Page 47: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

47

• XOR - paridade– k = 2; N = 4 e m = 1

• COD/DEC - paridade– k = 10; N = 10 e m = 10

• sen(x)cos(2x) - aproximação de funções– k = 1; N = 21 e m = 1

• ESP - aproximação de funções– k = 2; N = 75 e m = 5

• SOJA - aproximação de funções– k = 36; N = 144 e m = 1

• IRIS - classificação– k = 4; N = 150 e m = 1

• ECOLI - classificação– k = 7; N = 336 e m = 1

• GLASS - classificação– k = 10; N = 214 e m = 1

Problemas Abordados

Page 48: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

48

• Algoritmo padrão (BP)• Método do gradiente (GRAD)• Fletcher & Reeves (FR)• Pollak-Ribière (PR)• Gradiente conjugado escalonado modificado

(SCGM)• One step secant (OSS) • Davidon-Fletcher-Powell (DFP)• Broyden-Fletcher-Goldfarb-Shanno (BFGS)

Algoritmos Implementados

Page 49: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

49

Velocidade de Convergência (I)

Exemplo 5: Problema XOR (OU-exclusivo)Net: [2, 35, 1] SSE: 0.01

P: 141 bp: 0.001

N: 4 : 0.95

Nci: 20 Inic.: [-1.0; 1.0]

ÉPOCAS ||J()|| T(seg.) flops 106

BP 861 0.12879 14.65 5.34

GRAD 85 0.24059 1.48 0.66

FR 151 0.51931 26.94 9.95

PR 19 0.37450 3.93 1.49

OSS 45 0.79577 10.05 3.45

SCGM 9 0.33544 1.10 0.67

DFP 30 0.52997 13.05 153.13

BFGS 23 0.52833 12.71 151.40

Page 50: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

50

Velocidade de Convergência (II)

Exemplo 6: Problema sen(x).cos(2x)

Net: [1, 10, 1] SSE: 0.1

P: 31 bp: 0.005

N: 25 : 0.95

Nci: 20 Inic.: [-1.0; 1.0]

ÉPOCAS ||J()|| flops 106 T(seg.)

BP 15257 0.021516 195.86 374.67

GRAD 11324 0.022548 143.74 342.45

FR 360 0.623722 32.21 60.81

PR 414 0.328516 36.41 65.00

OSS 2709 0.251328 282.89 469.95

SCGM 172 0.717829 17.19 23.63

DFP 134 0.325639 21.39 19.74

BFGS 199 0.568088 35.35 33.23

Page 51: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

51

Velocidade de Convergência (III)

Exemplo 7: Problema GLASSNet: [9, 16, 3] SSE: 0.15

P: 211 bp: 0.001

N: 214 : 0.95

Nci: 10 Inic.: [-0.2; 0.2]

MSE EP ||J()|| flops 106

MSEtr MSEval MSEte

BP 0.205891 2.2426 3.08130 50000 59.3554 8529.80

GRAD 0.324729 2.4465 1.79153 50000 134.632 9942.66

FR 0.156150 12.7743 11.3970 5000 0.6438 7066.38

PR 0.136103 2.3864 4.56294 5000 2.6744 7450.81

OSS 0.307864 2.4813 2.84755 5000 3.2956 9360.64

SCG 0.081086 3.3898 4.29241 5000 104.3746 7545.26

DFP 0.688553 1.8633 2.90665 5000 2.0361 101991.95

BFGS 0.281159 4.9137 1.78893 5000 2.9778 105521.20

Page 52: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

52

Velocidade de Convergência (IV)

Estatísticas: 12.5%

75.0%

12.5%

FR

SCG

DFP

16.7%

66.7%

16.7%

GRAD

SCG

DFP

33.3%

66.7%

GRAD

SCG

ÉpocasTempo de processamento

Esforço computacional (flops)

Page 53: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

53

Referências (I)• Barnard, E., “Optimization for Training Neural Nets”, IEEE Trans. on Neural Networks,

vol. 3, n° 2, 1992.• Battiti, R., “First- and Second-Order Methods for Learning: Between Steepest Descent

and Newton’s Method”, Neural Computation, vol. 4, pp. 141-166, 1992.• Battiti, R., “Learning with First, Second, and no Derivatives: A Case Study in High

Energy Physics”, Neurocomputing, NEUCOM 270, vol. 6, pp. 181-206, 1994, URL: ftp:// ftp.cis.ohio-state.edu/pub/neuroprose/ battiti.neuro-hep.ps.Z.

• Castro, L.N., “Análise e Síntese de Estratégias de Aprendizagem para redes Neurais Artificiais”, Tese de Mestrado, FEEC/UNICAMP, Outubro de 1998.

• Fahlman, S.E., “An Empirical Study of Learning Speed in Back-Propagation Networks”, Technical Report, September 1988, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/ fahlman.quickprop-tr.ps.Z

• Fiesler, E., “Comparing Parameterless Learning Rate Adaptation Methods,” Proceedings of the ICNN’97, pp. 1082-1087, 1997.

• Finschi, L., “An Implementation of the Levenberg-Marquardt Algorithm”, Technical Report, April 1996, URL: http://www.ifor.math.ethz.ch/staff/finschi/Papers/ LevMar.ps.gz.

• Groot, C. de & Würtz, D., “Plain Backpropagation and Advanced Optimization Algorithms: A Comparative Study”, NEUCOM 291, vol. 6, pp.153-161, 1994.

Page 54: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

54

• Haygan, M.T., “Training Feedforward Networks with the Marquardt Algorithm”, IEEE Trans. on Neural Networks, vol. 5, n° 6, pp. 989-993, 1994.

• Jacobs, R.A., “Increased Rates of Convergence Through Learning Rate Adaptation”, Neural Networks, vol. 1, pp. 295-307, 1988, URL: http://www.cs.umass.edu/Dienst/UI/2.0/Describe/ncstrl.umassa_cs %2fUM-CS-1987-117

• Jondarr, C.G.H., “Back Propagation Family Album”, Technical Report C/TR96-5, 1996, URL: ftp://ftp.mpce.mq.edu.au/pub/comp/techreports/96C005.gibb.ps.

• Joost, M. & Schiffman, W., “Speeding Up Backpropagation Algorithms by Using Cross-Entropy Combined With Pattern Normalization”, International Journal of Uncertainty, Fuzzyness and Knowledge-Based Systems, 1993, URL: http://www.uni-koblenz.de/~schiff/ cenprop_eng.ps.gz

• Moller, M.F., “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks, vol. 6, pp. 525-533, 1993.

• Pearlmutter, B.A., “Fast Exact Calculation by the Hessian”, Neural Computation, vol. 6, pp. 147-160, 1994, URL: ftp://ftp.cis.ohio-state.edu/pub/neuroprose/pearlmutter. hessian.ps.Z.

Referências (II)

Page 55: 1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Redes Neurais Artificiais

55

• Shepherd, A.J., “Second-Order Methods for Neural Networks – Fast and Reliable Methods for Multi-Layer Perceptrons”, Springer, 1997.

• Shewchuk, J.R., “An Introduction to the Conjugate Gradient Method Without the Agonizing Pain”, Technical Report, 1994, URL: http://www.cs.cmu.edu/ afs/cs/project/quake/public/papers/painless-conjugate-gradient.ps.

• Schiffman, W., Joost, M., & Werner, R., “Optimization of the Backpropagation Algorithm for Training Multilayer Perceptrons”, Technical Report, 1994, URL: ftp://archive.cis.ohio-state.edu/pub/neuroprose/schiff. bp_speedup.ps.Z.

• Stäger, F., & Agarwal, M., “Three Methods to Speed up the Training of Feedforward and Feedback Perceptrons”, Neural Networks, vol. 10, n° 8, pp. 1435-1443, 1997.

• Van Der Smagt, P., P, “Minimization Methods for Training Feedforward Neural networks,” Neural Networks, vol 1, n° 7, 1994, URL: http://www.op.dlr.de/~smagt/ papers/SmaTB92.ps.gz

• Von Zuben, F.J., “Modelos Paramétricos e Não-Paramétricos de Redes neurais Artificiais e Aplicações”, Tese de Doutorado, Faculdade de Engenharia Elétrica, Unicamp, 1996.

Referências (III)