Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34...

48
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE MATEMÁTICA E E STATÍSTICA A DEMIR A LVES AGUIAR Análise de Convergência Local do Método de Gauss-Newton sob condição Lipschitz Goiânia 2012

Transcript of Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34...

Page 1: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

UNIVERSIDADE FEDERAL DE GOIÁSINSTITUTO DE MATEMÁTICA E ESTATÍSTICA

ADEMIR ALVES AGUIAR

Análise de Convergência Local doMétodo de Gauss-Newton sob condição

Lipschitz

Goiânia2012

Page 2: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

ADEMIR ALVES AGUIAR

Análise de Convergência Local doMétodo de Gauss-Newton sob condição

Lipschitz

Monografia apresentada ao Programa de Pós–Graduaçãodo Instituto de Matemática e Estatística da UniversidadeFederal de Goiás, como requisito parcial para obtenção doCertificado de Especialização em Matemática.

Área de concentração: Otimização.

Orientador: Prof. Dr. Max Leandro Nobre Gonçalves

Goiânia2012

Page 3: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

À minha querida mãe Jaci,por me ensinar a viver...

Page 4: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

Agradecimentos

À Deus, por me amar e dar a oportunidade e capacidade de ver um sonho sendorealizado, pois sem Deus não seria possível a conclusão deste projeto. Acima de tudo,louvado e exaltado seja seu nome, a Ele toda honra e toda glória.

À minha mãe Jaci, já dedicado este trabalho, mas que merece todo agradecimentopor seu amor, carinho, apoio e orientação em persistir sempre.

À meu pai Isaias (em memória), pelas palavras de sabedoria e prudência tornandoefetivo minha conquista.

À meu padrasto Gilberto, pelo incentivo e apoio.À minha esposa Gislene, pelo amor, amizade, afeto, carinho e compreensão. Sua

ajuda e apoio foram determinantes para realização desta conquista.Ao meu orientador, professor Dr. Max Leandro Nobre Gonçalves, pela orien-

tação, confiança, competência, paciência, amizade, motivação e dedicação que foram in-dispensáveis para concretização deste trabalho.

Aos amigos da pós-graduação pelo convívio e amizade, além de me ajudaremnos momentos de dificuldades, sempre lembrarei de vocês.

Page 5: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

Resumo

Aguiar, Ademir Alves. Análise de Convergência Local do Método de Gauss-Newton sob condição Lipschitz. Goiânia, 2012. 47p. Monografia de Especial-ização. Instituto de Matemática e Estatística, Universidade Federal de Goiás.

Esta obra foi desenvolvida com o intuito de propor a busca dos pontos críticos defunções não-linear. Devido a sua velocidade e eficiência computacional, o método deGauss-Newton têm sido utilizado com o propósito de obter os pontos críticos de taisfunções. Neste trabalho apresentaremos a análise de convergência local do métodode Gauss-Newton sob a condição Lipschitz. Para tanto, apresentaremos os resultadospreliminares necessários para o entendimento dos conceitos envolvidos na apresentaçãoe na convergência do método em consideração, estudaremos o método dos mínimosquadrados e finalizaremos com o estudo da convergência local do método de Gauss-Newton. Além do mais, um dos objetivos desta obra é ser uma fonte de leitura e deprojetos de pequisa.

Palavras–chave

<Método de Gauss-Newton, Mínimos Quadrados, Funções Não-Linear.>

Page 6: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

Sumário

1 Introdução 6

2 Notações e Resultados Preliminares 82.1 Noções sobre Transformações Lineares e Matrizes 8

2.1.1 Inversa Generalizada de Moore-Penrose 112.1.2 Norma de Matrizes 17

2.2 Noções Topológicas e Análise no Espaço Euclidiano 19

3 Problemas dos Mínimos Quadrados não Lineares e Método de Gauss-Newton 223.1 Método dos Mínimos Quadrados 22

3.1.1 Análise dos Mínimos Quadrados para o Caso linear 253.1.1.1 Caso m≥ n e Posto(A) = n 253.1.1.2 Caso m≤ n e Posto(A) = m 293.1.1.3 Caso Geral 30

3.1.2 Análise dos Mínimos Quadrados para o Caso não Linear 323.2 O Método de Gauss-Newton 34

4 Estudo de Convergência Local do Método de Gauss-Newton 374.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 37

4.1.1 Prova do Teorema 4.1 43

5 Considerações Finais 45

Referências Bibliográficas 46

Page 7: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

CAPÍTULO 1Introdução

O método de Gauss-Newton é um dos métodos mais eficientes para resolver oproblema de mínimos quadrados não-linear, ou seja,

min12

F(x)T F(x) (1-1)

onde F : Ω→Rm é uma função continuamente diferenciável em Ω, Ω⊂Rn é um conjuntoaberto e m ≥ n, onde m é o número de equações e n é o número de parâmetros. Porquestões de simplicidade ‖.‖ refere-se a norma-2.

Este problema tem sido uma frutífera área de estudo nos últimos anos, principal-mente pelo seu número de aplicações em diversos problemas práticos, veja por exemplo[9, 5, 17]. Essas aplicações, buscam encontrar os parâmetros de um modelo matemático,que melhor descreva um conjunto de dados numéricos de um experimento químico, físico,estatístico ou econômico, usando uma função da forma (1-1) para medir a discrepânciaentre as saídas do modelo e o conjunto de dados.

A forma básica do método de Gauss-Newton para resolver (1-1) é descrito como:dado um ponto inicial x0 ∈Ω, defina

xk+1 = xk−[F ′(xk)

T F ′(xk)]−1

F ′(xk)T F(xk), k = 0,1, . . . . (1-2)

onde F ′(x) é a matriz Jacobiana de F em x, AT e A−1 denotam as matrizes transposta einversa do operador linear A, respectivamente.

Se o método acima converge para x∗ ∈ Ω, então x∗ é um ponto crítico doproblema (1-1), i.e., F ′(x∗)T F ′(x∗) = 0, mas não podemos concluir que x∗ é a soluçãode (1-1) ou F(x∗) = 0. A fim de assegurar que um ponto crítico x∗ é a solução de(1-1), devemos aplicar algumas condições de otimalidade. Outro detalhe, e que se F ′(x)

é invertível para todo x ∈ Ω, então o método de Gauss-Newton torna-se o método deNewton.

Como é bem conhecido, a convergência do método de Gauss-Newton podefalhar, ou mesmo deixar de gerar uma sequência infinita, quando um ponto singularde F ′(x)T F ′(x) é encontrado. Para assegurar a convergência do método para um ponto

Page 8: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

7

crítico x∗ de (1-1), algumas condições devem ser impostas. Por exemplo, a análise deconvergência local clássica, veja por exemplo [5, 6, 11, 17], requer que o ponto inicialesteja suficiente próximo de x∗ e que F ′ tenha posto completo em x∗. Além disso, acontinuidade Lipschitz de F ′ é assumida, i.e.,

‖F ′(x)−F ′(xτ)‖ ≤ K‖x− xτ‖, ∀x ∈ B(x∗,κ), (1-3)

onde xτ = x∗+ τ(x− x∗),0≤ τ≤ 1, κ > 0 e K > 0. Entretanto, essas análises não deixamclara quais os maiores raios de convergência ótimo e unicidade de solução.

O presente trabalho tem por objetivo estudar a convergência local do método deGauss-Newton sob as hipóteses clássicas citadas acima. Em nossa análise os principais re-sultados necessários para a convergência do método de Gauss-Newton são demonstrados,tornando o texto "auto-contido"e obviamente uma referência para o estudo do problemaem consideração. Além disso, em nossa análise, é obtido os maiores raios de convergênciaótimo e unicidade de solução.

Assim, esta monografia está organizada da seguinte forma. No capítulo 2, esta-beleceremos as notações e alguns resultados preliminares para o entendimento dos con-ceitos envolvidos na apresentação do método de Gauss-Newton e no estudo de convergên-cia do método. No capítulo 3, estudaremos o problema dos mínimos quadrados e o métodode Gauss-Newton. No capítulo 4, apresentaremos a discussão sobre a convergência lo-cal do método de Gauss-Newton sob a condição Lipschitz. Mostraremos que sob certascondições, a sequência gerada pelo método está bem definida e converge para um pontocrítico de (1-1). Além disso, determinaremos os maiores raios de convergência e unici-dade de solução com respeito a condição Lipschitz. Finalmente, no capítulo 5 fazemos asconsiderações finais.

Page 9: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

CAPÍTULO 2Notações e Resultados Preliminares

Nosso objetivo neste capítulo é introduzir algumas noções topológicas e análiseno espaço euclidiano, além de introduzirmos algumas notações sobre operadores linearese matrizes, incluindo noções sobre posto e espaço nulo de matrizes. Encerraremos estu-dando o importante conceito sobre a inversa generalizada de Moore-Penrose. Estes assun-tos serão necessários ao desenvolvimento dos capítulos seguintes, dando um fundamentoteórico para uma boa compreensão do texto.

2.1 Noções sobre Transformações Lineares e Matrizes

Nesta seção, apresentaremos os conceitos básicos de transformações lineares ede matrizes que nos auxiliarão nas demonstrações de resultados futuros nessa monografia.Para mais informações sobre estes assuntos veja Boldrini [2] e Lima [15].

Inicialmente, seja Rm×n o conjunto das matrizes de Rn em Rm. Dado A ∈ Rm×n,denotemos a transposta da matriz A por AT .

Daremos agora a definição sobre matrizes definidas positivas, que será impor-tante para futuras consultas.

Definição 2.1 Seja A ∈ Rn×n. A é dita definida positiva se xT Ax > 0, para todo x ∈ Rn

diferente de zero.

O espaço das transformações lineares de Rn em Rm é denotado por L(Rn,Rm).É importante mencionar que se A ∈ L(Rn,Rm), então A ∈ Rm×n.

O posto segundo colunas de uma matriz A ∈ Rm×n é o número máximo decolunas linearmente independentes em A. Este número é igual à dimensão do subespaçovetorial de Rm gerado pelos vetores-coluna de A.

De maneira análoga, definimos o posto segundo linhas da matriz A∈Rm×n comoo número máximo de linhas linearmente independentes em A, ou seja, como a dimensãodo subespaço vetorial Rn gerado pelos vetores-linha da matriz A.

Embora o vetores coluna e os vetores linha de A sejam sub-espaços de espaçosvetoriais diferentes, o seguinte resultado é válido:

Page 10: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 9

Proposição 2.2 Para toda matriz A ∈ Rm×n, o posto segundo linhas e o posto segundo

colunas são iguais.

Demonstração. Ver Teorema 8.2, pp. 95 de Lima [15].

Portanto, segue a seguinte definição sobre o posto de uma matriz.

Definição 2.3 Seja A∈Rm×n. O posto de A, denotado por posto(A), é o número de linhas

ou de colunas linearmente independentes da matriz A.

Observação 2.4 Se posto(A) = minm,n, então A ∈ Rm×n é posto completo.

Para exemplificar a definição acima, calcularemos o posto de uma determinadamatriz. Antes, enunciaremos uma definição e um resultado que nos auxiliarão nestecálculo.

Definição 2.5 Dada uma matriz A ∈Rm×n entendemos por operações elementares sobre

as linhas da matriz A, qualquer das seguintes alternativas:

i) Permuta das i-ésima e j-ésima linhas. (Li↔ L j);

ii) Multiplicação da i-ésima linha por um escalar não nulo k. (Li→ kLi);

iii) Substituição da i-ésima linha pela i-ésima linha mais k vezes a j-ésima linha.

(Li→ Li + kL j) .

Dizemos que B ∈Rm×n é equivalente a matriz A, se B for obtida de A através de

um número finito de operações elementares sobre as linhas de A.

Proposição 2.6 Duas matrizes A,B ∈Rm×n são equivalentes se, e somente se, elas têm o

mesmo posto.

Demonstração. Ver Corolário 3.8.1, pp. 47 de Mendes [16].

Exemplo 2.7 Desejamos encontrar o posto de uma matriz A ∈ R3×4 , onde

A =

2 1 −2 51 0 −3 23 −1 −13 5

.Efetuamos as operações elementares sobre as linhas da matriz A como definidas em 2.5,

obtemos após simples manipulações algébricas que

Page 11: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 10

2 1 −2 51 0 −3 23 −1 −13 5

−−−−−−→L1→L1−2L2

L3→L3−3L2

0 1 4 11 0 −3 20 −1 −4 −1

−−−−−→L3→L3+L1

0 1 4 11 0 −3 20 0 0 0

Daí, temos que a matriz A é equivalente a matriz

B =

0 1 4 11 0 −3 20 0 0 0

.Agora é fácil ver que o posto(B) = 2. Portanto segue da Proposição 2.6 que o

posto(A) = 2.

A seguir definiremos núcleo e a imagem de uma matriz..

Definição 2.8 Seja A ∈ Rm×n. Designa-se por Núcleo ou Kernel de uma matriz A,

denotado N (A), o seguinte subconjunto,

N (A) = x ∈ Rn |Ax = 0.

Denomina-se imagem de uma matriz A, o seguinte subconjunto,

R (A) = y ∈ Rm |y = Ax, para algum x ∈ Rn.

Proposição 2.9 Seja A ∈ L(Rn,Rm). Então

n = dim N (A)+Posto(A).

Demonstração. O resultado é uma consequência imediata do Teorema do Núcleo e daImagem, ver Teorema 6.6, pp. 68 de Lima [15].

Proposição 2.10 Seja A ∈ Rm×n,m ≥ n. Então, posto(A) = n se, e somente se,

N (A) = 0.

Demonstração. Seja posto(A)= n. Segue da Proposição 2.9 que dim N (A)= 0. Portanto,N (A) = 0. Reciprocamente, seja N (A) = 0, o que implica que dim N (A) = 0. Daípela Proposição 2.9 temos que Posto(A) = n.

Corolário 2.11 Seja A ∈ Rm×n,m≥ n. Se posto(A) = n e Ax = 0 então x = 0.

Page 12: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 11

Demonstração. Como posto(A) = n, segue da Proposição 2.10 que N (A) = 0. E comoAx = 0, temos que x ∈N (A), portanto x = 0.

Lema 2.12 Seja A∈Rm×n,m≥ n. Então, posto(A)= n se, e somente se, posto(AT A)= n.

Demonstração. Seja posto(A) = n. Para mostrar que posto(AT A) = n é suficiente pelaProposição 2.10 mostrar que N (AT A) = 0. Então tome x ∈N (AT A), logo, AT Ax = 0.Portanto,

‖Ax‖2 = xT AT Ax = 0,

o que implica que Ax = 0. Como posto(A) = n, temos pelo Corolário 2.11 que x = 0.Reciprocamente, seja posto(AT A)= n, daí N (AT A)= 0. Para provar que posto(A)= n,é suficiente pela Proposição 2.10 mostrar que N (A) = 0. Então seja x ∈ N (A), logoAx = 0, o que implica que, AT Ax = 0. Como posto(AT A) = n, temos pelo Corolário 2.11que x = 0.

A seguir daremos a definição de matrizes invertíveis.

Definição 2.13 Dada uma matriz A ∈ Rn×n é invertível ou não singular, se existe uma

matriz B ∈ Rn×n tal que AB = BA = In, onde In é a matriz identidade de ordem n. A

matriz B é chamada de inversa de A. Escrevemos A−1 para inversa de A. Se A não tem

inversa, dizemos que A é singular ou não invertível.

Proposição 2.14 Uma matriz A ∈ Rn×n admite inversa se, e somente se, posto(A) = n.

Demonstração. Ver Corolário 3.8.2, pp. 47 de Mendes [16].

Agora daremos a definição de função quadrática.

Definição 2.15 Dada uma matriz A ∈ Rn×n, b ∈ Rn, c ∈ R, definimos uma função

quadrática f : Rn→ R dada por

f (x) =12

xT Ax−bT x+ c.

2.1.1 Inversa Generalizada de Moore-Penrose

Nesta subseção estaremos interessados em estudar sobre a pseudo-inversa ouinversa generalizada de Moore-Penrose de uma matriz A ∈ Rm×n, ao qual desempenhao papel de A−1 quando A não possui inversa. Para mais informações sobre inversasgeneralizadas e suas aplicações, veja Ben-Israel e Greville [1].

Page 13: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 12

Considere a seguinte equação matricial

AXA = A,

onde A ∈Rm×n é uma matriz dada e X ∈Rn×m é uma matriz à qual queremos determinar.Observe que se A é uma matriz quadrada não singular, então a equação acima temuma única solução X = A−1. A seguir definiremos o conceito de inversa generalizadae discutiremos sua existência.

Definição 2.16 Dada uma matriz A ∈Rm×n. Uma matriz A† ∈Rn×m é chamada pseudo-

inversa ou inversa generalizada da matriz A se

AA†A = A,

e existem as matrizes U ∈ Rn×n e V ∈ Rm×m tais que

A† =UAT e A† = ATV. (2-1)

A inversa generalizada possui as seguintes propriedades:

a. (AT )† = (A†)T ;

b. (A†)† = A.

As duas propriedades acima são similares as propriedades da matriz inversausual. No entanto, destacamos que a propriedade (A1A2)

† = A†2A†

1 não é em geral válida.Em (2-1), o requerimento A† = UAT = ATV pode ser interpretado da seguinte

forma. Cada linha da inversa generalizada A† de A é uma combinação linear das linhas deAT , e cada coluna de A† é uma combinação linear das colunas de AT .

Quando A ∈ Rm×n, m ≥ n e posto(A) = n, podemos facilmente verificar que ainversa generalizada de A é:

A† = (AT A)−1AT .

De fato, pois A(AT A)−1AT A = A, e se definirmos U = (AT A)−1 e V =

A(AT A)−1(AT A)−1AT , então A† = UAT = ATV . Note que A†A = In. Daí, (AT A)−1AT

é chamada de inversa generalizada a esquerda de A.Agora, quando A ∈ Rm×n, m≤ n e posto(A) = m, podemos facilmente verificar

que a inversa generalizada de A é:

A† = AT (AAT )−1.

Note que neste caso, temos AA† = Im. Daí, AT (AAT )−1 é chamada de inversa

generalizada a direita de A.

Page 14: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 13

Agora discutiremos como obter a inversa de Moore-Penrose, para isso usaremosa propriedade de que uma matriz não nula de posto r pode ser expressa como o produtode uma matriz posto coluna completo por uma matriz de posto linha completo. Estapropriedade é denominada como fatorização de posto completo. A prova deste resultadoé descrito no seguinte lema.

Lema 2.17 (Fatorização de Posto Completo) Seja A ∈ Rm×n, posto(A) = r ≤ min(m,n).

Então, existem matrizes B ∈ Rm×r e C ∈ Rr×n tal que A = BC, onde posto(A) =

posto(B) = posto(C) = r.

Demonstração. Como posto(A) = r, segue que existem r colunas linearmente indepen-dentes em A. Sem perda de generalidade, seja a1,a2, . . . ,ar tais colunas, onde ai é a i-ésima coluna de A. As colunas restantes de A podem ser expressas como combinaçõeslineares de a1,a2, . . . ,ar. Assim, uma possível escolha das matrizes B e C com posto com-pleto são

B = [a1, . . . ,ar] ∈ Rm×r,

C =

1 . . . 0 c1,r+1 . . . c1,n... . . . ... . . . ...0 . . . 1 cr,r+1 . . . cr,n

∈ Rr×n,

onde as entradas ci, j são tais que para cada j = r + 1, . . . ,n, temos ci, ja1 + . . .+ cr, jar.Portanto, A = BC.

Note que se m < n e posto(A) = m, então obtemos B = Im,C = A, onde Im é umamatriz identidade ∈ Rm×m. Caso contrário, se m > n e posto(A) = n, então temos queB = A,C = In.

Exemplo 2.18 Considere a matriz A ∈ R3×4 definida por

A =

2 1 −2 51 0 −3 23 −1 −13 5

.Note que a partir do Exemplo 2.7 temos que Posto(A) = 2. Assim, podemos escrever uma

fatorização de posto completo de A baseado na prova do Lema 2.17:

A =

2 11 03 −1

[ 1 0 −3 20 1 4 1

]= BC.

A seguir discutiremos a unicidade da inversa generalizada.

Page 15: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 14

Proposição 2.19 Seja A ∈ Rm×n. Se existe a inversa generalizada A† de A, então ela é

única.

Demonstração. Seja A†1 e A†

2 as inversas generalizadas de A. Devemos mostrar queA†

1 = A†2. Pela definição 2.16 temos,

AA†1A = AA†

2A = A,

e existem as matrizes U1,U2 ∈ Rn×n e V1,V2 ∈ Rm×m, tais que

A†1 =U1AT = ATV1,

A†2 =U2AT = ATV2.

SejaD = A†

2−A†1,U =U2−U1,V =V2−V1.

Então, temos queO = ADA,D =UAT = ATV.

Logo, usando as duas equações acima, obtemos

(DA)T DA = AT DT DA = ATV T ADA = O,

ou equivalentemente,DA = O.

Por outro lado, como DA = O, temos

DDT = DAUT = O,

o que implica emD = A†

2−A†1 = O

portanto A†2 = A†

1.

A proposição acima implica que se uma matriz possui inversa generalizada, entãoela é única. Nosso objetivo agora é mostrar que a inversa generalizada sempre existe.Na verdade, mostraremos que a inversa generalizada de qualquer matrix A é dada pelafórmula

A† =C†B†,

onde B† e C† são inversas generalizadas das matrizes B e C que formam uma fatorizaçãode posto completo de A, isto é, A = BC onde B e C são de posto completo (veja

Page 16: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 15

Lema 2.17). Note que já sabemos como calcular B† e C†, ou seja,

B† = (BT B)−1BT ,

eC† =CT (CCT )−1.

Proposição 2.20 Seja uma matriz A ∈ Rm×n que possui fatorização de posto completo

A = BC, com posto(A) = posto(B) = posto(C) = r,B ∈ Rm×r,C ∈ Rr×n. Então,

A† =C†B†.

Demonstração. Devemos mostrar que

A† =C†B† =CT (CCT )−1(BT B)−1BT

satisfaz a condição da Definição 2.16 para a inversa generalizada. De fato, primeiroobserve que

AC†B†A = BCCT (CCT )−1(BT B)−1BT BC = BC = A.

Agora, definiremosU =CT (CCT )−1(BT B)−1(CCT )−1C

eV = B(BT B)−1(CCT )−1(BT B)−1BT .

É fácil ver que as matrizes U e V acima satisfazem

A† =C†B† =UAT = ATV.

Portanto,A† =C†B†,

é a inversa generalizada de A.

Para exemplificar o resultado acima, calcularemos a seguir a inversa generalizadade uma matriz que não possui inversa.

Exemplo 2.21 Seja A ∈ R3×4 dada por

A =

2 1 −2 51 0 −3 23 −1 −13 5

=

2 11 03 −1

[ 1 0 −3 20 1 4 1

]= BC.

Page 17: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 16

Calculando B† e C†, temos

B† = (BT B)−1BT =1

27=

[5 2 5

16 1 −11

],

e

C† =CT (CCT )−1 =1

76=

9 55 7−7 1323 17

.Assim, obtemos

A† =C†B† =1

2052

125 23 −10137 17 −52173 −1 −178387 63 −72

.Nos enfatizamos que a fórmula A† =C†B† não funciona no caso em que A = BC

não tenha fatorização de posto completo. O seguinte exemplo ilustra este ponto.

Exemplo 2.22 Seja A = [1]. Obviamente, A† = A−1 = A = [1]. A matriz A também pode

ser representada da seguinte forma

A =[

0 1][ 1

1

]= BC.

Observe que como mostrado A não possui uma fatorização de posto completo. Seja então

a matriz

B† = BT (BBT )−1 =

[01

],

e

C† = (CTC)−1CT =[

1/2 1/2].

(Note que fórmulas das matrizes B† e C† são diferentes do exemplo anterior por causa

das dimensões de B e C neste exemplo.) Assim,

C†B† = [1/2],

diferente da matriz A†.

Finalmente, é importante ressaltar que a inversa generalizada pode ser definidade uma forma equivalente a Definição 2.16. Especificamente, a definição de Penrose deinversa generalizada de uma matriz A ∈Rm×n é uma matriz única A† ∈Rn×m que satisfazas seguintes propriedades:

Page 18: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 17

1. AA†A = A;

2. A†AA† = A†;

3. (AA†)T = AA†;

2. (A†A)T = A†A.

2.1.2 Norma de Matrizes

Nossa meta nesta subseção é estudar algumas propriedades de norma de matrizesou equivalentemente norma de transformações lineares. Demonstraremos o Lema deBanach e provaremos alguns resultados sobre inversa generalizada. Iniciaremos definindonorma de uma transformação linear.

Definição 2.23 Seja T ∈ L(Rn,Rm). Definimos a norma das transformações lineares ‖.‖como sendo o número

‖T‖= sup‖x‖6=0

‖T x‖‖x‖

(2-2)

Seja T,S ∈ L(Rn,Rm). Uma norma ‖.‖ é uma aplicação que associa cada matrizum número real não negativo e satisfaz as seguintes propriedades.

N1. T 6= 0⇒‖T‖> 0;

N2. ‖αT‖ ≤ |α|‖T‖, ∀α ∈ R;

N3. ‖T +S‖ ≤ ‖T‖+‖S‖.

A condição N3 é conhecida como desigualdade triangular. Além disso, a apli-cação norma goza das seguintes propriedades.

Lema 2.24 Dados T,S ∈ L(Rn,Rn) e x ∈ Rn, então são válidas as seguintes pro-

priedades:

i) ‖T x‖ ≤ ‖T‖‖x‖;

ii) ‖T S‖ ≤ ‖T‖‖S‖;

iii) ‖T k‖ ≤ ‖T‖k, ∀ k = 0,1,2, . . ..

Demonstração. i) Se x é o vetor nulo segue imediato de (2-2). Se x não é o vetor nulo,considere o vetor y = x/‖x‖ e usando (2-2) temos

‖T‖ ≥ ‖Ty‖= 1‖x‖‖T x‖.

Page 19: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.1 Noções sobre Transformações Lineares e Matrizes 18

Portanto ‖T x‖ ≤ ‖T‖‖x‖.ii) É fácil ver de (2-2), item i e propriedades do supremo que

‖T S‖= sup‖x‖6=0

‖T Sx‖‖x‖

≤ sup‖x‖6=0

‖T‖‖Sx‖‖x‖

= ‖T‖‖S‖,

o que prova o item ii.iii) É consequência imediata do item ii.

Lema 2.25 (Lema de Banach) Sejam B ∈ L(Rn,Rn) um operador linear e I o operador

identidade de Rn. Se ‖B− I‖< 1, então B é não singular e vale

‖B−1‖ ≤ 1/(1−‖B− I‖). (2-3)

Demonstração. Primeiro, devemos mostrar que se T ∈L(Rn,Rn) é tal que ‖T‖< 1, entãoI−T é inversível e vale

‖(I−T )−1‖ ≤ 11−‖T‖

.

Para isso, considere as seguintes sequências Sk e tk definidas respectivamente por:

Sk = I +T +T 2 + . . .+T k, tk = 1+‖T‖+‖T‖2 + . . .+‖T‖k.

Observe que,

‖Sk+1−Sk‖= ‖(I +T + . . .+T K+1)− (I +T + . . .+T k)‖ ≤ ‖T‖k+1 = tk+1− tk.

Agora, como ‖T‖ < 1, temos então que tk é uma sequência monótona crescente econvergente, com limite t∗ = 1/(1−‖T‖). Portanto, deste fato e da equação acima, Ské uma sequência de Cauchy em L(Rn,Rn), logo existe limn→∞ Sn. Agora, observe que

Sk(I−T ) = (I +T + . . .+T k)(I−T ) = I−T k+1 (2-4)

Por outro lado, temos que limk→∞ I−T k = I, pois

‖I− (I−T k)‖= ‖T k‖ ≤ ‖T‖k, limk→∞‖T‖k = 0.

Assim, pela última equação e (2-4), concluímos que limk→∞

Sk = (I−T )−1. Note ainda que

‖(I−T )−1‖= ‖ limk→∞

Sk‖ ≤ limk→∞

(‖I‖+‖T‖+ . . .+‖T k‖)≤ limk→∞

tk = 1/(1−‖T‖).

Page 20: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.2 Noções Topológicas e Análise no Espaço Euclidiano 19

Agora, tomando T = I−B e observando a hipótese ‖B− I‖< 1, temos que (I−T ) = B éinversível e vale a estimativa dada em (2-3) para a norma da inversa B−1.

A seguir, daremos dois resultados a respeito da inversa generalizada de Moore-Penrose que serão necessários mais tarde, para garantir a boa definição do método deGauss-Newton.

Lema 2.26 Suponha que A,E ∈ Rm×n(m ≥ n), B = A+E, ‖EA†‖ < 1 e posto(A) = n,

então posto(B) = n.

Demonstração. Primeiro, note que B = A + E = (I + EA†)A. Daí, usando a hipótese‖EA†‖ < 1, segue do Lema 2.25 que I + EA† é inversível. Portanto, posto(B) =

posto(A) = n.

Lema 2.27 Suponha que A,E ∈Rm×n, B = A+E, ‖A†‖‖E‖< 1 e posto(A) = posto(B),

então

‖B†‖ ≤ ‖A†‖1−‖A†‖‖E‖

,

e se posto(A) = posto(B) = min(m,n), obtemos

‖B†−A†‖ ≤√

2‖A†‖2‖E‖1−‖A†‖‖E‖

.

Demonstração. Ver Lema 5.1, pp. 40 de Stewart [18].

2.2 Noções Topológicas e Análise no Espaço Euclidiano

Nesta seção definiremos alguns conjuntos importantes do espaço euclidiano Rn,sequências no Rn e enunciaremos o Teorema Fundamental do Cálculo. Provaremos umresultado sobre convergência de sequências que será necessário posteriormente.

Inicialmente, sejam dados o ponto a ∈ Rn e o número real ε > 0. A bola aberta

de centro a e raio ε é o conjunto

B(a,ε) = x ∈ Rn; ‖x−a‖< ε,

isto é, o conjunto dos pontos x ∈ Rn cuja a distância ao ponto a é menor do que ε.Analogamente a bola fechada de centro a e raio ε é o conjunto

B[a,ε] = x ∈ Rn; ‖x−a‖ ≤ ε.

Page 21: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.2 Noções Topológicas e Análise no Espaço Euclidiano 20

Uma sequência xk ⊂ Rn é uma aplicação x : N → Rn, que associa a cadanúmero natural k um vetor xk ∈ Rn. Diz-se que uma sequência xk é limitada quandoo conjunto de seus termos é limitado em Rn, isto é, quando existe um número real c > 0tal que ‖xk‖ ≤ c, isto para todo k ∈ N.

Uma sequência xk diz-se monotóna quando se tem xk ≤ xk+1 para todo k ∈ Nou então xk+1 ≤ xk para todo k ∈ N. No primeiro caso, diz-se que xk é monótona não-decrescente e, no segundo, que xk é monótona não-crescente.

Um conjunto A⊂Rn é aberto quando todos os seus pontos são interiores, ou seja,para cada a∈A existe ε> 0 tal que B(a,ε)⊂A. O conjunto dos pontos interiores de A serárepresentado pela notação int(A). Similarmente um conjunto A ⊂ Rn é fechado quandocontém todos os seus pontos de aderência, ou seja, diz-se que um ponto a é aderente aoconjunto A⊂Rn quando a é limite de alguma sequência de pontos xk ∈ A. Evidentemente,todo ponto a ∈ A é aderente a A, basta tomar xk = a para todo k ∈ N. Chama-se f echo

de um conjunto A ao conjunto A formado por todos os pontos aderentes a A. Logo umconjunto A diz-se fechado quando A = A, isto é, quando todo ponto aderente a A pertencea A.

Seja A⊂Rn. Um ponto a∈Rn diz-se ponto de acumulação do conjunto A quandotoda bola aberta de centro a contém algum ponto do conjunto A diferente do próprio a, ouseja, para todo ε > 0, deve existir x ∈ A tal que 0 < ‖x− a‖ < ε. O conjunto dos pontosde acumulação de A será representado pela notação A′.

Definição 2.28 Diz-se que uma sequência xk converge para x∗ ∈ Rn, se dado ε > 0existe n0 tal que

‖xk− x∗‖< ε, ∀k ≥ n0

Uma sequência xk é chamada sequência de Cauchy, se dado ε > 0 existe n0 tal que

‖xm− xk‖< ε, ∀m,k ≥ n0

Tem-se lim xk = x∗⇔ lim ‖xk− x∗‖= 0.Uma das maneiras de medir a performance de uma sequência é calculando sua

ordem de convergência. A seguir definiremos o conceito de ordem de convergência deuma sequência.

Definição 2.29 Seja xk uma sequência em Rn que converge para x∗. Dizemos que a

convergência é Q-linear se existe uma constante α ∈ (0,1) tal que

‖xk+1− x∗‖ ≤ α‖xk− x∗‖, ∀k.

Page 22: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

2.2 Noções Topológicas e Análise no Espaço Euclidiano 21

A convergência é dita Q-quadrática se existe uma constante M positiva não necessaria-

mente menor que 1, tal que

‖xk+1− x∗‖ ≤M‖xk− x∗‖2, ∀k.

Proposição 2.30 Seja xk uma sequência em Rn. Se existe uma número 0 < α < 1 tal

que

‖xk+1− x∗‖ ≤ α‖xk− x∗‖, ∀k, (2-5)

então xk converge Q-linear para x∗.

Demonstração. É fácil ver de (2-5) que

0≤ ‖xk− x∗‖ ≤ αk‖x0− x∗‖

Fazendo k→∞ na desigualdade acima, temos limk→∞‖xk−x∗‖= 0. Assim, têm-se que xk

converge para x∗.

Proposição 2.31 (Teorema Fundamental do Cálculo) Seja U ⊂ Rm um conjunto aberto.

Dada f : U → Rn de classe C1, suponha que o segmento de reta [x, x+h] esteja em U

então

∫ 1

0f ′(x+ th) ·hdt = f (x+h)− f (x)

Demonstração. Ver Teorema 9, pp. 324 de Lima [14].

No próximo capítulo, estudaremos o problema dos mínimos quadrados para ocaso linear e não-linear além do Método de Gauss-Newton.

Page 23: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

CAPÍTULO 3Problemas dos Mínimos Quadrados nãoLineares e Método de Gauss-Newton

Neste capítulo discutiremos o método dos mínimos quadrados na solução deproblemas de minimização. Um enorme número de aplicações em diversas áreas do con-hecimento, como na biologia, medicina, engenharia em geral, estatística, física, entre out-ras, possuí solução utilizando o problema dos mínimos quadrados. Encerraremos estu-dando o método de Gauss-Newton para resolução do problema dos mínimos quadradosnão lineares e enunciaremos suas principais diferenças com o método de Newton. Estesassuntos são importantes instrumentos no desenvolvimento do capítulo seguinte.

3.1 Método dos Mínimos Quadrados

Com frequência, verifica-se que existe uma relação entre duas ou mais variáveis.Por exemplo: os pesos dos adultos dependem, em certo grau, de suas alturas; as áreas doscírculos dependem de seus raios; e a pressão de uma determinada massa de gás dependede sua temperatura e de seu volume.

Deseja-se, frequentemente, expressar essa relação sob forma matemática, pormeio do estabelecimento de uma equação que ligue as variáveis.

Para auxiliar a determinação de uma equação que relacione as variáveis, umprimeiro passo consiste em colecionar dados que indiquem os valores correspondentesdas variáveis consideradas.

Uma segunda etapa consiste em locar os pontos (ou vetores) (x11,x12, . . . ,x1n),(x21,x22, . . . ,x2n), . . . , (xn1,xn2, . . . ,xnn) em um sistema de coordenadas. O conjunto depontos resultante é denominado, diagrama de dispersão.

No diagrama de dispersão é possível, frequentemente, visualizar uma curva quemelhor se aproxime dos dados. Essa curva é denominada de ajustamento. Na Figura 3.1,por exemplo, os dados parecem estar bem próximos de uma linha reta, e diz-se que há umarelação linear entre as variáveis. Na Figura 3.2, entretanto, embora exista uma relaçãoentre as variáveis é denominada relação não-linear.

Page 24: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 23

Figura 3.1: Relação Linear. Figura 3.2: Relação Não Linear.

Dada uma classe de curvas, a melhor curva que se ajusta ao conjunto de pontosno sentido dos "mínimos quadrados" é descrita abaixo.

Sejam x1,x2, . . . ,xn ∈ Rn tais que xi < xi+1 para todo i = 1, . . . ,n − 1, ey1,y2, . . . ,yn ∈ Rm. Considere a Figura 3.3, na qual os dados estão representados pelospontos (x1,y1), (x2,y2), . . . , (xn,yn). Para um dado valor x, por exemplo, x1, haverá umadiferença entre y1 e o valor correspondente determinado na curva C. Como está indi-cado na figura, representa-se essa diferença por F1, que é, muita vezes, designado comodesvio, erro ou resíduo e pode ser positivo, negativo ou nulo. De modo semelhante, emcorrespondência com os valores de x2, . . . ,xn, obtém-se os resíduos de F2, . . . ,Fn.

Figura 3.3: Ilustração de uma função não-linear.

Uma medida da "qualidade do ajustamento"da curva C aos dados apresentadosé proporcionada pela quantidade F2

1 +F22 + . . .+F2

n . Se ela é pequena, o ajustamentoé bom; se é grande, o ajustamento é mau. Assim, no sentido dos mínimos quadradosa melhor curva de ajustamento em uma classe é a curva que minimiza a quantidadeF2

1 +F22 + . . .+F2

n .

Page 25: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 24

Mais especificamente, se por exemplo as curvas de ajustamento forem da formaφ(x) = ax2 + bx+ c, com a,b,c ∈ R, a soma dos resíduos será uma função G : R3→ Rdada por

G(a,b,c) =n

∑i=1

[yi− (ax2i +bxi + c)]2.

Assim, no sentido dos mínimos quadrados as melhores curvas de ajustamento comequações como descrita acima são da forma φ(x) = aix2+ bix+ ci, onde (ai, bi, ci) denotaos pontos de mínimo da função G no intervalo [x1,xn].

A seguir, para exemplificar o método dos mínimos quadrados descrito acimadescreveremos e mostraremos porque ele é frequentemente usado no ajuste de curvas aum conjunto de pontos observados.

Exemplo 3.1 Gostaríamos de estudar os efeitos de certa medicação em um paciente.

Coletamos as amostras de sangue em certos momentos após o paciente tomar uma

dose, e medimos a concentração da medicação de cada amostra, tabulamos o tempo

t j e a concentração y j de cada amostra. Desejamos construir um modelo que indica a

concentração da medicação em função do tempo, escolhendo parâmetros deste modelo,

de modo que suas previsões concordam tão perto quanto possível com as observações

que fizemos das amostras de sangue. Baseados em experiências anteriores com projetos

deste tipo, escolhemos o seguinte modelo de função:

φ(x, t) = x1 + tx2 + e−x3t .

Onde, x1,x2,x3 e t são números reais; a variável t indica o tempo, enquanto os x′is são os

parâmetros do modelo. A concentração prevista no tempo t é dada por φ(x, t). A diferença

entre o modelo previsto e os valores observados será uma função dada por

12

m

∑j=1

[y j−φ(x, t j)]2 (3-1)

Gráficamente, cada termo de (3-1) representa o quadrado da distância vertical entre

a curva φ(x, t) e o ponto (t j,y j). Assim, escolhemos o minimizador x∗ do problema

dos mínimos quadrados como a melhor estimativa dos parâmetros, e usa-se φ(x∗, t)

para estimar a concentração restante na corrente sanguínea do paciente, em qualquer

momento t.

A seguir, faremos um estudo detalhado do problema de mínimos quadrados parao caso linear.

Page 26: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 25

3.1.1 Análise dos Mínimos Quadrados para o Caso linear

Nesta subseção discutiremos o método dos mínimos quadrados lineares, ouseja, como ajustar uma reta a um conjunto de pontos. Para tanto iremos considerar osistema Ax = b, com m equações lineares e n parâmetros. Dividiremos o estudo emtrês importantes casos. Primeiro, problemas que envolvem sistemas de equações linearescuja solução não exista, neste caso dizemos que o sistema é impossível ou incompatível,onde o posto de A é coluna completo. Segundo, problemas que envolvem sistemas deequações lineares onde normalmente este tipo de sistema possuí infinitas soluções, nestecaso dizemos que o sistema é indeterminado, onde o posto de A é linha completo. Terceiro,problemas que envolvem sistemas lineares cujo posto de A não é completo.

3.1.1.1 Caso m≥ n e Posto(A) = n

Considere o sistema de equações lineares Ax = b, onde A∈Rm×n,b∈Rm,m≥ n

e Posto(A) = n. Note que o número de parâmetros n não supera o número de equações,m. Suponha que o sistema Ax = b não possui uma solução, ou seja, o vetor b não pertenceao espaço imagem da matriz A isto é b 6∈ R (A). Isso é muito comum quando se temm > n, ou seja, um número maior de equações do que incógnitas. Faz sentido, entretanto,procurar em Rn um vetor x tal que Ax esteja o mais próximo possível de b e, dentreesses vetores x, aquele de menor norma. Nossa meta então é encontrar um vetor x∗ queminimiza ‖Ax−b‖2.

Seja x∗ o vetor que minimiza ‖Ax−b‖2, para todo x ∈ Rn, temos então,

‖Ax−b‖2 ≥ ‖Ax∗−b‖2.

Desta forma o vetor x∗ é a solução dos mínimos quadrados para Ax = b. Assim quandoAx = b possui solução, então a solução é a solução dos mínimos quadrados.

Caso o sistema possuir uma solução exata, ou seja, Ax∗ = b, então x∗ é o vetorque resulta em ‖Ax−b‖ mínimo absoluto, ou seja, ‖Ax∗−b‖2 = 0.

A proposição a seguir caracteriza a solução dos mínimos quadrados.

Proposição 3.2 Sejam A ∈ Rm×n,b ∈ Rm,m ≥ n e Posto(A) = n. O único vetor x∗que minimiza ‖Ax− b‖2 é dado pela solução da equação AT Ax = AT b, ou seja, x∗ =

(AT A)−1AT b .

Demonstração. Seja x∗ = (AT A)−1AT b. Primeiro note que,

‖Ax−b‖2 = ‖A(x− x∗)+(Ax∗−b)‖2

= (A(x− x∗)+(Ax∗−b))T (A(x− x∗)+(Ax∗−b))

= ‖A(x− x∗)‖2 +‖Ax∗−b‖2 +2[A(x− x∗)]T (Ax∗−b).

Page 27: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 26

Substituindo o valor de x∗ na equação acima, obtemos

[A(x− x∗)]T (Ax∗−b) = (x− x∗)T AT (A(AT A)−1AT b−b)

= (x− x∗)T AT [(A(AT A)−1AT − In)]b

= (x− x∗)T (AT −AT )b

= 0.

Daí, temos que‖Ax−b‖2 = ‖A(x− x∗)‖2 +‖Ax∗−b‖2.

Se x 6= x∗, então ‖A(x− x∗)‖2 > 0. Assim, segue que para todo x 6= x∗,

‖Ax−b‖2 > ‖Ax∗−b‖2.

Portanto, x∗ = (AT A)−1AT b é o único minimizador de ‖Ax−b‖2.

Agora daremos uma interpretação geométrica do teorema acima. Primeiro noteque as colunas de A geram R (A) de A, ao qual é um sub-espaço n-dimensional de Rm.A equação Ax = b possui então solução se, e somente se, b encontra-se neste sub-espaçoR (A) n-dimensional. Se m = n, então b ∈ R (A) e a solução será x∗ = A−1b. Suponhaagora m > n. Geralmente, a probabilidade de b ∈ R (A) é bem pequena, pois o sub-espaço gerado pelas colunas de A é muito pequeno. Por essa razão, suponha que b nãopertença a R (A). Assim queremos encontrar um ponto h ∈ R (A) o mais próximo de b.Geometricamente, o ponto h deve ser tal que o vetor e = h−b é ortogonal ao sub-espaçoR (A) (Ver Figura 3.4). Lembrando que um vetor e ∈ Rm é dito ortogonal ao sub-espaçoR (A) se é ortogonal a cada vetor deste sub-espaço. Chamamos h a projeção ortogonal

de b sobre o sub-espaço R (A). Acontece que h = Ax∗ = A(AT A)−1AT b. Portanto, o vetorh ∈ R (A) minimizando ‖h−b‖ é exatamente a projeção ortogonal de b sobre R (A). Emoutras palavras, o vetor x∗ minimizando ‖Ax−b‖ é exatamente o vetor que faz Ax−b serortogonal a R (A).

Figura 3.4: Projeção Ortogonal de b sobre o sub-espaço R (A)

Um método alternativo para encontrar a solução do problema dos mínimos

Page 28: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 27

quadrados é minimizando a função:

G(x) = ‖Ax−b‖2

= (Ax−b)T (Ax−b)

=12

xT (2AT A)x− xT (2AT b)+bT b.

Portanto G é uma função quadrática. Agora, como posto(A) = n, segue do Lema 2.12que a matriz AT A é invertível. Além disso, AT A é definida positiva. Assim, o únicominimizador da função G é obtido por calcular o ponto crítico de G, isto é,

G′(x) = 2AT Ax−2AT b = 0.

Daí, a única solução x∗ da equação acima satisfaz

(AT A)x∗ = AT b. (3-2)

As equações (3-2) são chamadas de equações normais.A seguir, daremos um exemplo onde a metodologia dos mínimos quadrados para

o caso linear é utilizada.

Exemplo 3.3 Suponha que um processo possui apenas uma entrada de x∈R e uma única

saída y ∈ R. Suponha também que coletamos alguns dados como mostrados na tabela a

seguir de pontos.

i 0 1 2xi 2 3 4yi 3 4 15

Tabela 3.1: Dados Experimentais

Queremos encontrar uma reta dada por y = ax + b, que ajustam os dados mostrados

na Tabela 3.1. Em outras palavras, queremos encontrar dois números, a e b, tais que

yi = axi +b, i = 0,1,2. Entretanto, não existe uma reta que passa diretamente por todos

os três pontos simultaneamente. Por essa razão, queremos encontrar os valores de a e

b que melhor ajustam os dados. A ilustração gráfica do nosso problema é mostrado na

Figura 3.5.

Podemos representar nosso problema com um sistema de três equações linear

da forma:

2a+b = 3

3a+b = 4

4a+b = 15

Page 29: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 28

Figura 3.5: Ajustamento dos dados experimentais a uma reta

Agora, escrevendo o sistema de equações acima na forma Ax = b, onde

A =

2 13 14 1

, b =

34

15

, x =

[a

b

].

É fácil ver que, Posto(A) < Posto(A,b), ou seja, o vetor b não pertence ao sub-espaço

imagem de A. Portanto, o sistema de equações acima é considerado incompatível.

Daí, a reta de melhor ajuste é aquela que minimiza

‖Ax−b‖2 =2

∑i=0

(axi +b− yi)2.

Por essa razão, nosso problema reside na classe dos problemas de mínimos quadrados.

Note que na função acima temos distância vertical ao quadrado (erro ao quadrado) entre

a reta definida por a e b e os pontos coletados.

A solução do nosso problema de mínimos quadrados é

x∗ = (AT A)−1AT b =

[6

−32/3

].

Note que o vetor erro e = Ax∗−b é ortogonal a cada coluna de A.

Page 30: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 29

3.1.1.2 Caso m≤ n e Posto(A) = m

Considere o sistema de equações lineares Ax = b, onde A∈Rm×n,b∈Rm,m≤ n

e Posto(A) = m. Note que o número de equações m não supera o número de incógnitas n.Existem infinitas soluções para este sistema de equações. Entretanto, podemos encontraruma solução mais próxima da origem, ou seja, uma solução para Ax = b cuja norma ‖x‖é mínima. Seja x∗ esta solução, isto é, Ax∗ = b e ‖x∗‖ ≤ ‖x‖ para todo x tal que Ax = b.Em outras palavras, x∗ é a solução para o problema

min‖x‖, sujeito Ax = b.

A proposição a seguir caracteriza a solução dos mínimos quadrados neste caso.

Proposição 3.4 Sejam A∈Rm×n,b∈Rm,m≤ n e Posto(A) =m. A única solução x∗ para

Ax = b que minimiza ‖x‖ é dado por x∗ = AT (AAT )−1b.

Demonstração. Seja x∗ = AT (AAT )−1b. Primeiro note que,

‖x‖2 = ‖(x− x∗)+ x∗‖2

= ((x− x∗)+ x∗)T ((x− x∗)+ x∗)

= ‖x− x∗‖2 +‖x∗‖2 +2xT∗ (x− x∗).

Agora iremos mostrar que xT∗ (x− x∗) = 0.

De fato,

xT∗ (x− x∗) = [AT (AAT )−1b]T [x−AT (AAT )−1b]

= bT (AAT )−1[Ax− (AAT )(AAT )−1b]

= bT (AAT )−1[b−b] = 0

Daí, temos que‖x‖2 = ‖x∗‖2 +‖x− x∗‖2.

Como ‖x− x∗‖2 > 0 para todo x 6= x∗, segue-que para todo x 6= x∗,

‖x‖2 > ‖x∗‖2.

O que implica que‖x‖> ‖x∗‖.

Page 31: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 30

A seguir, daremos um exemplo onde utilizaremos os resultados desta seção paraencontrar um ponto mais próximo da origem que intercepta dois planos.

Exemplo 3.5 Queremos encontrar um ponto o mais próximo da origem de R3 na linha

de intersecção de dois planos definidos pelas seguintes equações:

x1 +2x2− x3 = 1

4x1 + x2 +3x3 = 0

Note que o problema acima é equivalente ao problema

min‖x‖, sujeito Ax = b

onde

A =

[1 2 −14 1 3

], b =

[10

].

Assim, segue da Proposição 3.4 que a solução do problema é

x∗ = AT (AAT )−1b =

0.09520.3333−0.2381

.3.1.1.3 Caso Geral

Considere o sistema de equações lineares Ax = b, onde A ∈ Rm×n,b ∈ Rm ePosto(A) = r. Provaremos como encontrar uma aproximação geral para resolução deAx = b. A aproximação envolve a definição da inversa generalizada da matriz A.

Proposição 3.6 Considere um sistema de equações lineares Ax = b, onde A ∈ Rm×n,b ∈Rm e Posto(A) = r. O vetor x∗ = A†b minimiza ‖Ax− b‖2 sobre Rn. Além disso, entre

todos os vetores em Rn que minimiza ‖Ax− b‖2, o vetor x∗ = A†b é o único vetor de

norma mínima.

Demonstração. Primeiro mostraremos que x∗ = A†b minimiza ‖Ax− b‖2 sobre Rn.Observe que para todo x ∈ Rn, temos

‖Ax−b‖2 = ‖A(x− x∗)+(Ax∗−b)‖2

= ‖A(x− x∗)‖2 +‖Ax∗−b‖2 +2[A(x− x∗)]T (Ax∗−b).

Page 32: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 31

Note que [A(x− x∗)]T (Ax∗−b) = 0, isto é

[A(x− x∗)]T (Ax∗−b) = (x− x∗)T (AT Ax∗−AT b)

= (x− x∗)T (AT AA†b−AT b).

Usando o Lema 2.17, existem matrizes B ∈ Rm×r e C ∈ Rr×n tais que A = BC, ondeposto(A) = posto(B) = posto(C) = r, assim concluímos que

AT AA† =CT BT BCCT (CCT )−1(BT B)−1BT = AT .

Portanto,[A(x− x∗)]T (Ax∗−b) = (x− x∗)T (AT b−AT b) = 0.

Assim, temos‖Ax−b‖2 = ‖A(x− x∗)‖2 +‖Ax∗−b‖2.

Como, ‖A(x− x∗)‖2 ≥ 0, obtemos

‖Ax−b‖2 ≥ ‖Ax∗−b‖2.

O que implica que x∗ minimiza ‖Ax−b‖2.Agora mostraremos que entre todos x que minimiza ‖Ax− b‖2, o vetor x∗ = A†b é oúnico vetor de norma mínima. Então suponha que exista um outro vetor x minimizando‖Ax−b‖2. Temos assim,

‖x‖2 = ‖(x− x∗)+ x∗‖2

= ‖x− x∗‖2 +‖x∗‖2 +2xT∗ (x− x∗).

Note que xT∗ (x− x∗) = 0, isto é

xT∗ (x− x∗) = (A†b)T (x−A†b)

= bT B(BT B)−T (CCT )−TC(x−CT (CCT )−1(BT B)−1BT b) (3-3)

= bT B(BT B)−T (CCT )−T [Cx− (BT B)−1BT b],

onde o expoente −T denota a transposta da matriz inversa. Usando novamente o Lema2.17, temos que ‖Ax−b‖2 = ‖B(Cx)−b‖2. Como x minimiza ‖Ax−b‖2 e C possui postocompleto, então y∗ = Cx minimiza ‖By− b‖2 sobre Rr. Como B possui posto completo,pela Proposição 3.2, temos que Cx = y∗ = (BT B)−1BT b. Substituindo esta informação na

Page 33: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 32

equação (3-3), obtém-se xT∗ (x− x∗) = 0. Daí, obtemos que

‖x‖2 = ‖x− x∗‖2 +‖x∗‖2.

Como ‖x− x∗‖2 > 0 para todo x 6= x. Segue que

‖x‖2 > ‖x∗‖2.

Equivalentemente, temos‖x‖> ‖x∗‖.

Portanto, entre todos os vetores minimizando ‖Ax−b‖2, o vetor x∗ = A†b é o único vetorde norma mínima.

A seguir, faremos um estudo detalhado do problema de mínimos quadrados parao caso não linear.

3.1.2 Análise dos Mínimos Quadrados para o Caso não Linear

Na seção anterior foi determinado uma solução para o ajuste de funções poli-nomiais de grau 1, através do método dos mínimos quadrados. Nesta seção nossa metaé utilizar o método dos mínimos quadrados para o ajuste de curvas que possuem mod-elos matemáticos não lineares. Funções não lineares estão presentes em vários modelosmatemáticos da engenharia em geral, estatística, entre outros.

Como já discutido neste capitulo, o problema dos mínimos quadrados não linearbusca um vetor x∗ que minimize a expressão:

G(x) =12

F(x)T F(x) (3-4)

onde F : Ω→Rm é uma função continuamente diferenciável em Ω, Ω⊂Rn é um conjuntoaberto e m≥ n. Se F(x) é linear então o problema sob consideração transforma-se em umproblema de mínimos quadrados linear cuja solução foi discutida na seção anterior.

Agora, considere

F(x) = (F1(x),F2(x), . . . ,Fm(x))T , (3-5)

onde Fi : Ω→R é uma função continuamente diferenciável em Ω para todo i= 1,2, . . . ,m.Assim, o problema de mínimos quadrado não linear pode ser escrito

minx∈Ω

G(x) =12

m

∑i=1

Fi(x)T Fi(x). (3-6)

Page 34: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.1 Método dos Mínimos Quadrados 33

A primeira derivada de F(x) é simplesmente a matriz Jacobiana F ′(x) ∈ Rmxn,onde F ′(x) = ∂Fi(x)/∂x j, com i = 1,2, . . . ,m e j = 1,2, . . . ,n.

Temos que a primeira derivada da função G em (3-6) é,

G′(x) =m

∑i=1

Fi(x)∇Fi(x) = F ′(x)T F(x). (3-7)

Similarmente, a segunda derivada da função G em (3-6) é,

G′′(x) =m

∑i=1

∇Fi(x)∇Fi(x)T +m

∑i=1

Fi(x)∇2Fi(x)

= F ′(x)T F ′(x)+S(x). (3-8)

onde S(x) = ∑mi=1 Fi(x)∇2Fi(x), denota a segunda informação de G′′(x).

Como é bem conhecido, ver [4], a sequência gerada pelo o método de Newtonpara resolver o problema (3-6) tem a seguinte forma:

xk+1 = xk +dk, G′′(xk)dk =−G′(xk), k = 0,1, . . . . (3-9)

Certamente (3-9), é um bom método para resolver o problema de mínimos quadradosnão lineares, visto que este método converge Q-quadraticamente. O problema com aaproximação através do método de Newton é que S(xk) ou é inviável ou inconvenientede ser obtido, adicionalmente este termo é muito caro de ser aproximado por diferençasfinitas. Um detalhe importante é que F(x)T F(x) é geralmente mais importante que osegundo termo em (3-8), isso se deve a quase linearidade do modelo (∇2Fi pequeno)próximo da solução ou por causa dos residuais pequenos (Fi pequeno). Portanto, o métodode Newton se torna inviável para a resolução de (3-6). Descreveremos, entretanto napróxima seção uma variação do método de Newton para resolver (3-6), o qual é conhecidocomo o método de Gauss-Newton. Antes porém, faremos alguns comentários que serãonecessários mais tarde.

Na discussão dos métodos para resolução do problema dos mínimos quadradosnão lineares, queremos distinguir as diferenças entre problemas de residuais pequeno,

grande e zero. Estes termos se referem ao valor de F(x) para o minimizador x∗ em (3-6).O problema ao qual F(x∗) = 0 é chamado de problema com residual zero ou nulo; emaplicações de ajustamento de dados significam que o modelo φ(x∗, t) ajusta os dadosyi exatamente a cada ponto de informação. A distinção entre problemas de residuaispequeno e grande será esclarecido na próxima seção, onde a performance do método deGauss-Newton é melhor para problemas de residual pequeno ou zero do que problemasde residual grande.

Page 35: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.2 O Método de Gauss-Newton 34

3.2 O Método de Gauss-Newton

Agora descreveremos o método de Gauss-Newton, um dos métodos mais simplespara minimização da função não linear (3-4) que explora as estruturas de G′ e G′′ obtidosem (3-7) e (3-8), respectivamente. Além disso, o método de Gauss-Newton pode ser vistocomo uma modificação do método de Newton. Mais especificamente, no lugar de resolvero sistema padrão de Newton G′′(xk)dk =−G′(xk), excluímos em (3-8) o segundo termo eobtemos a seguinte sequência, denominada de sequência de Gauss-Newton, para resolver(3-6)

xk+1 = xk +dk, F ′(xk)T F ′(xk)dk =−F ′(xk)F(xk), k = 0,1, . . . . (3-10)

Esta simples modificação nos dá um surpreendente número de vantagens sobreo método de Newton. Primeiro, o uso da aproximação

G′′(xk)≈ F ′(xk)T F ′(xk),

nos poupa de calcular as hessianas dos residuais individuais ∇2Fi, i = 1,2, . . . ,m, os quaissão necessários no segundo termo em (3-8).

Segundo, como já mencionado existem muitas situações em que o primeirotermo F ′(xk)

T F ′(xk) em (3-8) é mais importante que o segundo termo, de modo queo método de Gauss-Newton oferece uma performance bastante semelhante ao métodode Newton mesmo quando o segundo termo S(xk) é omitido. Isto acontece, quando osresiduais Fi são pequenos ou quando cada Fi está próximo de uma função linear. Para estesproblemas o método de Gauss-Newton geralmente possui convergência local rápida.

A terceira vantagem do método de Gauss-Newton surge da similaridade entre asegunda equação em (3-10) e as equações normais em (3-2) para solução do problemados mínimos quadrados linear. Esta conexão mostra que dk é a solução para o problemados mínimos quadrados linear

minx∈Ω

12‖F ′(xk)dk +F(xk)‖2. (3-11)

Assumindo que F ′(x) possui posto coluna completo, pela Proposição 3.2, podemos en-contrar o passo dk para o sub-problema (3-11). Este sub-problema sugere outra motivaçãopara cada passo da sequência de Gauss-Newton em (3-10), ou seja, em vez de formar ummodelo quadrático da função G(x), é formado um modelo linear de F(x), i.e.,

F(x+dk) = F(x)+F ′(x)dk.

O passo dk é obtido substituindo este modelo linear na expressão (3-4) e minimizando ao

Page 36: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.2 O Método de Gauss-Newton 35

longo de dk.A seguir, na Tabela 3.2, destacaremos mais algumas vantagens e desvantagens

do método de Gauss-Newton.

Vantagens1 Possui convergência local Q-quadrática para problemas de residual zero.2 Possui convergência local rápida Q-linear para problemas com residual pe-

queno.3 Resolve problemas de mínimos quadrados lineares em apenas uma interação.

Desvantagens1 Possui convergência local Q-linear lenta sobre os problemas razoavelmente

não-lineares ou que possuem residuais moderadamente grandes.2 Não converge localmente para problemas de residual grande.3 Não está definido, se F ′(xk) não possui posto de coluna completo.4 Não possui necessariamente convergência global.

Tabela 3.2: Vantagens e desvantagens do método de Gauss-Newton

A seguir, daremos um exemplo onde é examinado o comportamento dométodo de Gauss-Newton no ajustamento do modelo y = etx em relação aos dados(1,2),(2,4),(3,y3), onde y3 terá vários valores. Quando y3 = 8, o modelo ajusta os dadosexatamente a cada ponto, com x∗ = ln2 ∼= 0.69315, e o método de Gauss-Newton con-verge quadráticamente. Se y3 torna-se menor então o valor de x∗ torna-se menor, o residualF(x∗) torna-se maior e o método de Gauss-Newton não converge. Nos casos de y3 = 3e y3 = −1, o método de Gauss-Newton converge linearmente, embora no último caso aconvergência é muito devagar. Se y3 =−4 ou y3 =−8 então o método de Gauss-Newtonnão converge.

Para comparação, também analisaremos o comportamento do método de Newtonpara a função anterior. Enquanto a performance do método de Gauss-Newton dependefortemente do tamanho do residual, o método de Newton independe do tamanho doresidual. O comportamento dos métodos a partir do ponto inicial dá a melhor indicaçãode suas propriedades de convergência local.

Exemplo 3.7 Seja F : R1→ R3,Fi(x) = etix− yi, i = 1, . . . ,3, e o problema dos mínimos

quadrados não lineares para F, i.e., minimizar G(x) = 12F(x)T F(x), onde t1 = 1, y1 = 2,

t2 = 2, y2 = 4, t3 = 3 e seja os valores de y3 e x0 mostrados na Tabela 3.3. Então o

método de Gauss-Newton (3-10) e o método de Newton (3-9), requer o seguinte número de

interações mostrados na Tabela 3.3, com critério de parada |F ′(xk)T F ′(xk)| ≤ 10−10 em

cada caso. O minimizador de G(x), x∗, e o valor do residual na solução, G(x∗), também

são mostrados na Tabela 3.3.

Page 37: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

3.2 O Método de Gauss-Newton 36

y3 x0 Método Gauss-Newton Método de Newton x∗ G(x∗)8 1 5 7 0.69315 0

0.6 4 63 1 12 9 0.44005 1.6390

0.5 9 5-1 1 34 10 0.044744 6.9765

0 32 4-4 1 * 12 -0.37193 16.435

-0.3 * 4-8 1 * 12 -0.79148 41.145

-0.7 * 4

Tabela 3.3: Interações e comparação entre o Método de Gauss-Newton e o Método de Newton

Agora com os resultados obtidos neste capítulo, estamos aptos a provar a con-vergência local do Método de Gauss-Newton.

Page 38: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

CAPÍTULO 4Estudo de Convergência Local do Método deGauss-Newton

Neste capítulo, apresentaremos uma análise de convergência local do método deGauss-Newton sob condição Lipschitz para resolver o problema de mínimos quadradosnão-linear (1-1). É importante ressaltar que a ordem dos resultados apresentados nestecapitulo, evidência a importância de cada hipótese no estudo da convergência local dométodo de Gauss-Newton.

4.1 Convergência do Método de Gauss-Newton SobCondição Lipschitz

Nesta seção, provaremos a convergência local do método de Gauss-Newtonsob condição Lipschitz para resolver (1-1). Com algumas exigências para a função F

e admitindo que o ponto x∗ ∈ Ω é uma solução de (1-1), mostraremos que tomando oponto inicial x0 numa vizinhança apropriada de x∗, a sequência gerada pelo método deGauss-Newton está bem definida e converge para x∗. Além disso, determinamos os raiosde convergência ótima e unicidade de solução. Estas afirmações é o teorema:

Teorema 4.1 Sejam Ω⊆Rn um conjunto aberto, F : Ω→Rm uma função continuamente

diferenciável em Ω e m≥ n. Seja x∗ ∈Ω, R > 0 e

c := ‖F(x∗)‖, β := ‖F ′(x∗)†‖, κ := supt ∈ [0,R) : B(x∗, t)⊂Ω .

Suponha que F ′(x∗)T F(x∗) = 0, F ′(x∗) tem posto completo e existe um K > 0 tal que

√2cβ

2K < 1,∥∥F ′(x)−F ′(y))

∥∥≤ K‖x− y‖, ∀x,y ∈ B(x∗,κ). (4-1)

Seja

r := min

κ, (2−2√

2Kβ2c)/(3Kβ)

.

Page 39: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 38

Então, o método de Gauss-Newton para resolver (1-1), com ponto inicial x0 ∈B(x∗,r)/x∗

xk+1 = xk−F ′(xk)†F(xk), (4-2)

está bem definido, a sequência xk está contida na B(x∗,r), converge para x∗ e vale

‖xk+1− x∗‖ ≤βK

2(1−βK‖x0− x∗‖)‖xk− x∗‖2 +

√2cβ2K

1−βK‖x0− x∗‖‖xk− x∗‖,

para todo k = 0,1, . . . . Além disso, se (2− 2√

2Kβ2c)/(3Kβ) < κ, então r = (2−2√

2Kβ2c)/(3Kβ) é o melhor raio de convergência possível.

Adicionalmente, se cβ0K < 1, então o ponto x∗ é o único ponto crítico de F ′(x)T F(x) na

B(x∗,(2−2cβ0K)/(βK)), onde β0 = ‖[F ′(x∗)T F ′(x∗)]−1‖.

Para provar o Teorema 4.1, precisamos de alguns resultados preliminares. Deagora em diante vamos assumir que todas as hipóteses do teorema são válidas.

Proposição 4.2 A seguinte função é crescente:

[0, R) 3 t 7→ 1/(1−βKt).

Demonstração. Seja a,b ∈ [0, R) com a < b. Devido ao fato de que K > 0 e β > 0, seguecom simples manipulações algébricas que

11−βKa

<1

1−βKb,

o que prova a proposição.

Proposição 4.3 A seguinte desigualdade é válida:

0 <βKt +2

√2cβ2K

2(1−βKt)< 1, ∀ t ∈ (0, (2−2

√2Kβ

2c)/(3Kβ)). (4-3)

Demonstração. Usando o fato de que K,β,c > 0 e que −2√

2Kβ2c < 1, daí comsimples manipulações algébricas temos (2− 2

√2Kβ2c)/3 < 1. Combinando as últimas

desigualdades com a primeira desigualdade de (4-1), obtemos que

0 <2−2

√2Kβ2c

3Kβ=

(2−2

√2Kβ2c

3

)1

βK≤ 1

βK. (4-4)

Como t < (2− 2√

2Kβ2c)/(3Kβ), temos então com algumas manipulações algébricasque βKt < (2− 2

√2Kβ2c)/3, logo βKt < 1. Considerando a inequação anterior e com

Page 40: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 39

simples manipulações algébricas, concluímos que 2−2βKt > 0. O que prova a primeiradesigualdade de (4-3).Agora note que usando o fato de que t < (2−2

√2Kβ2c)/(3Kβ), com algumas manipu-

lações algébricas obtemos a segunda desigualdade de (4-3) e a proposição está provada.

Proposição 4.4 Seja β0 := ‖[F ′(x∗)T F ′(x∗)]−1‖. Adicionalmente, se cβ0K < 1, então é

válida a seguinte desigualdade:

0 <βKt +2cβ0K

2< 1, ∀ t ∈ (0, (2−2cβ0K)/(βK)). (4-5)

Demonstração. Usando o fato de que K,β,c > 0 e cβ0K < 1, note que 2cβ0K > 0, agoratomando em consideração que t ∈ (0, (2− 2cβ0K)/(βK)), temos que βKt > 0, o queprova a primeira desigualdade de (4-5).Agora note que usando o fato de que t < (2−2cβ0K)/(βK), com algumas manipulaçõesalgébricas obtemos a segunda desigualdade de (4-5) e a proposição está provada.

Lema 4.5 Seja x ∈ Ω. Se ‖x− x∗‖ < min1/(βK),κ, então F ′(x)T F ′(x) é invertível e

são válidas as seguintes desigualdades

‖F ′(x)†‖ ≤ β

1−βK‖x− x∗‖, ‖F ′(x)†−F ′(x∗)†‖<

√2β2K‖x− x∗‖

1−βK‖x− x∗‖.

Em particular, se ‖x− x∗‖ < r = mink,(2− 2√

2Kβ2c)/(3Kβ) então F ′(x)T F ′(x) é

invertível em B(x∗,r).

Demonstração. Para simplificar a demonstração, definiremos as seguintes matrizes

A = F ′(x∗), B = F ′(x), E = F ′(x)−F ′(x∗). (4-6)

Seja x ∈ Ω tal que ‖x− x∗‖ < min1/(βK),κ. Daí, usando propriedades de norma,definição de β e a segunda desigualdade em (4-1), obtemos que

‖F ′(x∗)†(F ′(x)−F ′(x∗))‖ ≤ ‖F ′(x∗)†‖‖F ′(x)−F ′(x∗)‖ ≤ βK‖x− x∗‖< 1.

A última desigualdade juntamente com a definição (4-6) implica que

‖EA†‖ ≤ ‖E‖‖A†‖< 1. (4-7)

Considerando a inequação anterior, as definições em (4-6) e que F ′(x∗) tem posto com-pleto, segue do Lema 2.26 que F ′(x) tem posto completo. Daí, o Lema 2.12 implica que

Page 41: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 40

F ′(x)T F ′(x) é invertível para todo x∈Ω tal que ‖x−x∗‖<min1/(βK),κ. Observe que,a partir de (4-4) e tomando em particular, ‖x− x∗‖ < r = mink,2− 2

√2Kβ2c/3Kβ,

concluímos que F ′(x)T F ′(x) é invertível para todo x ∈ B(x∗,r). Agora, comoposto(F ′(x)) = posto(F ′(x∗)) = n. Daí usando as definições em (4-6) e inequação(4-7) as desigualdades do lema seguem das desigualdades no Lema 2.27.

É de extrema importância o estudo do erro linear de F para cada ponto em Ω,por isso definimos

EF(x,y) := F(y)−[F(x)+F ′(x)(y− x)

], y, x ∈Ω. (4-8)

Lema 4.6 Se ‖x∗− x‖< κ, então vale ‖EF(x,x∗)‖ ≤ K2 ‖x∗− x‖2.

Demonstração. Como B(x∗,κ) é um conjunto convexo, segue x∗+ τ(x− x∗) ∈ B(x∗,κ),para 0 ≤ τ ≤ 1. Daí, usando definição de EF , F é continuamente diferenciável em Ω ealgumas manipulações algébricas, obtemos que

‖EF(x,x∗)‖= ‖F(x∗)−[F(x)+F ′(x)(x∗− x)

]‖

= ‖F ′(x)(x− x∗)−∫ 1

0F ′(x∗+ τ(x− x∗))dτ(x− x∗)‖

≤∫ 1

0

∥∥F ′(x)−F ′(x∗+ τ(x− x∗))∥∥ ‖x− x∗‖dτ.

Agora, considerando a desigualdade acima junto com a segunda desigualdade em (4-1), éfácil ver que

‖EF(x,x∗)‖ ≤∫ 1

0K‖x− x∗‖2(1− τ)dτ =

K2‖x∗− x‖2

De acordo com o Lema 4.5 é garantido, em particular, que F ′(x)T F ′(x) éinvertível na B(x∗,r), assim temos a boa definição da aplicação iteração de Gauss-NewtonGF nesta região

GF : B(x∗,r) → Rn

x 7→ x−F ′(x)†F(x).(4-9)

Observe que podemos aplicar uma iteração de Gauss-Newton em qualquerx ∈ B(x∗,r) para se obter GF , de forma que pode não pertencer a B(x∗,r) ou mesmo,pode não pertencer ao domínio de F. Todas estas alternativas nos dizem que não podemosdefinir a próxima iteração do método de Gauss-Newton. Assim, os resultados anterioressão apenas para garantir a boa definição de apenas uma iteração. Para assegurar que a

Page 42: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 41

iteração de Gauss-Newton possa ser repetida indefinidamente, precisamos garantir queGF(x)⊂ B(x∗,r).

Lema 4.7 Seja x ∈Ω. Se 0 < ‖x− x∗‖< r, então

‖GF(x)− x∗‖ ≤βK

2(1−βK‖x− x∗‖)‖x− x∗‖2 +

√2cβ2K

(1−βK‖x− x∗‖)‖x− x∗‖.

Em particular,

‖GF(x)− x∗‖< ‖x− x∗‖.

Demonstração. Primeiro, como ressaltamos acima se 0 < ‖x− x∗‖ < r, então GF(x)

está bem definida. Agora, usando (4-9) e que F ′(x∗)T F(x∗) = 0 obtemos, após simplescálculos que

GF(x)− x∗ = x− x∗−[F ′(x)T F ′(x)

]−1F ′(x)T F(x)

=[F ′(x)T F ′(x)

]−1F ′(x)T [F ′(x)(x− x∗)−F(x)+F(x∗)]

+[F ′(x∗)T F ′(x∗)

]−1F ′(x∗)T F(x∗)−[F ′(x)T F ′(x)

]−1F ′(x)T F(x∗).

É fácil ver, que reunido a última equação, propriedades de norma e definição em (4-8),obtemos

‖GF(x)− x∗‖ ≤ ‖F ′(x)†‖‖EF(x,x∗)‖+‖F ′(x∗)†−F ′(x)†‖‖F(x∗)‖.

Como c = ‖F(x∗)‖, combinando a última desigualdade com os Lemas 4.5 e 4.6 temos

‖GF(x)− x∗‖ ≤βK

2(1−βK‖x− x∗‖)‖x− x∗‖2 +

√2cβ2K

(1−βK‖x− x∗‖)‖x− x∗‖.

que é equivalente a primeira desigualdade do lema. Para concluir a prova, note que adesigualdade acima também é equivalente a

‖GF(x)− x∗‖ ≤

[βK‖x− x∗‖+2

√2cβ2K

2(1−βK‖x− x∗‖)

]‖x− x∗‖

Por outro lado como x ∈ B(x∗,r)/x∗, i.e., 0 < ‖x− x∗‖ < r ≤ ρ segue da desigual-dade (4-3) com t = ‖x−x∗‖, que o termo entre colchetes na última desigualdade é menorque um, o que conclui a prova.

Lema 4.8 Se (2−2√

2Kβ2c)/(3Kβ)< κ, então (2−2√

2Kβ2c)/(3Kβ) é o melhor raio

de convergência possível.

Page 43: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 42

Demonstração. Seja a função h : (−κ, κ)→ R, definida por

h(t) =

−t/β−Kt2/2, t ∈ (−κ, 0],

−t/β+Kt2/2, t ∈ [0, κ).(4-10)

É simples mostrar que h(0) = 0, h′(0) = −1/β, h′(t) = −1/β+K|t| para t ∈ (−κ, κ).

Então temos

∣∣h′(t)−h′(u)∣∣≤ K||t|− |u|| ≤ K|t−u|, t,u ∈ (−κ, κ).

Assim, F = h satisfaz todas as hipóteses do Teorema 4.1 com c = |h(0)| = 0. Como(2− 2

√2Kβ2c)/(3Kβ) < κ, é suficiente mostrar que o método de Gauss-Newton para

resolver (1-1), com F = h e ponto inicial x0 = 2/(3Kβ) não converge. Pela definição de hem (4-10) e manipulações algébricas, obtemos

x1 = 2/(3Kβ)− h′(2/(3Kβ))T h(2/(3Kβ))

h′(2/(3Kβ))T h′(2/(3Kβ))= 2/(3Kβ)− −4/(9Kβ2)

−1/(3β)=−2/(3Kβ).

Novamente, considerando a definição em (4-10), implica

x2 =−2/(3Kβ)− h′(−2/(3Kβ))T h(−2/(3Kβ))

h′(−2/(3Kβ))T h′(−2/(3Kβ))=−2/(3Kβ)− 4/(9Kβ2)

−1/(3β)= 2/(3Kβ).

Portanto, o método de Gauss-Newton para resolver (1-1) com F = h e ponto inicialx0 = 2/(3Kβ), produz a sequência

x0 = 2/(3Kβ), x1 =−2/(3Kβ), x2 = 2/(3Kβ), . . .

Em particular ela não converge e o lema esta provado.

Lema 4.9 Adicionalmente, se cβ0K < 1, então o ponto x∗ é o único ponto critíco de

F ′(x)T F(x) na B(x∗,(2−2cβ0K)/(βK)), onde β0 = ‖[F ′(x∗)T F ′(x∗)]−1‖.

Demonstração. Suponha que y ∈ B(x∗,(2− 2cβ0K)/(βK)) é outra solução de (1-1).Como F ′(y)T F(y) = 0, temos que

y− x∗ = y− x∗− [F ′(x∗)T F ′(x∗)]−1F ′(y)T F(y).

Page 44: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 43

Considerando a última equação, F ′(x∗)T F(x∗) = 0 e algumas manipulações algébricasobtemos

y− x∗ = [F ′(x∗)T F ′(x∗)]−1F ′(x∗)T [F ′(x∗)(y− x∗)−F(y)+F(x∗)]

+ [F ′(x∗)T F ′(x∗)]−1(F ′(x∗)T −F ′(y)T )F(y).

Combinando a última equação com definições de c, β e β0 obtemos, após alguns cálculosque

‖y− x∗‖ ≤ β

∫ 1

0‖F ′(x∗)−F ′(x∗+u(y− x∗))‖‖y− x∗‖du+ cβ0‖F ′(x∗)T −F ′(y)T‖.

Agora, seja x = x∗+u(y−x∗) no primeiro termo do lado direito da última desigualdade eusando (4-1), obtemos

‖y− x∗‖ ≤ β

∫ 1

0K‖y− x∗‖2udu+ cβ0K‖y− x∗‖.

Avaliando a integral acima, temos que

‖y− x∗‖ ≤[

βK‖y− x∗‖2 +2cβ0K‖y− x∗‖2‖y− x∗‖

]‖y− x∗‖.

Como 0 < ‖y− x∗‖ < (2− 2cβ0K)/(βK), podemos aplicar a desigualdade (4-5) comt = ‖x− x∗‖, para concluir que o termo entre colchetes na última desigualdade é menorque um. Daí, ‖y− x∗‖< ‖y− x∗‖, o que é uma contradição. Portanto, y = x∗.

Façamos agora a demonstração do Teorema 4.1.

4.1.1 Prova do Teorema 4.1

Primeiro, note que a equação em (4-2) junto com (4-9) implica que a sequênciaxk satisfaz

xk+1 = GF(xk), k = 0,1, . . . . (4-11)

Demonstração. Desde que x0 ∈ B(x∗,r)/x∗, i.e., 0 < ‖xk− x∗‖ < r, usando (4-11), oLema 4.5 e a última desigualdade do Lema 4.7, é fácil ver que xk está bem definida econtida na B(x∗,r).Agora, iremos provar que xk converge para x∗. Como xk está bem definida e contidana B(x∗,r), combinando o Lema 4.7 com (4-11), temos que

‖xk+1− x∗‖ ≤βK

2(1−βK‖xk− x∗‖)‖xk− x∗‖2 +

√2cβ2K

(1−βK‖xk− x∗‖)‖xk− x∗‖,

Page 45: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

4.1 Convergência do Método de Gauss-Newton Sob Condição Lipschitz 44

para todo k = 0,1, . . . . Além disso, usando novamente (4-11) e a última parte do Lema 4.7,obtemos que

‖xk− x∗‖< ‖x0− x∗‖, k = 1,2 . . . . (4-12)

Daí, combinando as duas últimas desigualdades com a Proposição 4.2 temos que

‖xk+1− x∗‖ ≤βK

2(1−βK‖x0− x∗‖)‖xk− x∗‖2

+

√2cβ2K

(1−βK‖x0− x∗‖)‖xk− x∗‖, k = 0,1, . . . ,

Considerando (4-12) e a última desigualdades temos que

‖xk+1− x∗‖ ≤

[βK‖x0− x∗‖+2

√2cβ2K

2(1−βK‖x0− x∗‖)

]‖xk− x∗‖, ∀k = 0,1, . . . ,

Segue então da desigualdade (4-3) da Proposição 4.3 com t = ‖x0−x∗‖ que o termo entrecolchetes na última desigualdade é menor que um, assim usando a Proposição 2.30 temosque, xk converge para x∗. Os Raios de convergência ótima e unicidade de solução foramprovados nos Lemas 4.8 e 4.9, respectivamente.

Page 46: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

CAPÍTULO 5Considerações Finais

Modelos matemáticos podem surgir nas mais variadas formas. Em particular,podem definir, funções lineares ou mesmo funções não linear. Existem diversas es-tratégias de modelação e estimação de parâmetros em modelos matemáticos. Neste tra-balho, foi proposto o método dos mínimos quadrados como estratégia de estimaçãodesses parâmetros. Em modelos mais complicados que definem funções não linear nosparâmetros, a implementação do método dos mínimos quadrados origina processos in-terativos. Destes, nesta monografia foi dado como ênfase o estudo do método de Gauss-Newton.

Assim, estudamos e demonstramos resultados acerca da análise de convergêncialocal para o método de Gauss-Newton sob a condição Lipschitz. Demonstramos aqui, osprincipais resultados necessários para a convergência do método, tornando assim o texto"auto-contido"e obviamente uma referência para o estudo do método em consideração.Além disso, os Lemas 4.9 e 4.8, deram uma estimativa dos maiores raios de convergênciaótimo e unicidade do ponto crítico.

A análise de convergência local do método de Gauss-Newton também foi estu-dada em Gonçalves em [11], Ferreira, Gonçalves, Oliveira em [6], entretanto tais análisesrelaxam a condição Lipschitz através de um principio majorante para função F . Esteprincípio majorante, foi introduzido por Kantorovich em [12] e usado com sucesso porFerreira em [7], Ferreira, Svaiter em [8] e Gonçalves em [10]. Acreditamos que, uma pos-sibilidade de pesquisa futura, seria estender este princípio majorante para outros métodosque exigem na prova de convergência a condição Lipschitz do operador não-linear rela-cionado ao problema.

Page 47: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

Referências Bibliográficas

[1] BEN-ISRAEL, A; GREVILLE, T. N. E. Generalized Inverses: Theory and Applica-tions. 2 edition, 1973.

[2] BOLDRINI, J. L. Álgebra Linear. Harper & Row do Brasil, São Paulo, 3 edition,

1980.

[3] CHEN, J; LI, W. Local convergence results of gauss-newton’s like method in weakconditions. J. Math. Anal. App., 324(2):1381–1394, 2006.

[4] CHONG, E; ZAK, S. H. An Introduction to Optimization. John Wiely & Sons Inc,

New York, NY, 2 edition, 2001.

[5] DENNIS, J; SCHNABEL, R. B. Numerical methods for unconstrained optimiza-tion and nonlinear equations v. 16. Classics in Applied Mathematics. Society for

Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 1996. Corrected reprint

of the 1983 original.

[6] FERREIRA, O; GONÇALVES, M. L. N; OLIVEIRA, P. R. Local convergence analysisof the gauss-newton method under a majorant condition. Journal of Complexity,

27:111–125, 2011.

[7] FERREIRA, O. P. Local convergence of newton’s method in banach space fromthe viewpoint of the majorant principle. IMA J. Numer. Anal., 29(3):746–759,

2009.

[8] FERREIRA, O. P; SVAITER, B. F. Kantorovich’s majorants principle for newton’smethod. Comput. Optim. Appl., 42(2):213–229, 2009.

[9] FLOUDAS, C. A; PARDALOS, P. M. Encyclopedia of Optimization. Springer,

second edition, 2009.

[10] GONÇALVES, M. L. N. Convergência Local do Método de Newton Inexato eSuas Variações do Ponto de Vista do Princípio Majorante de Kantorovich.

Dissertação de Mestrado em Matemática,IME/UFG, Goiânia, 2007.

Page 48: Análise de Convergência Local do Método de Gauss-Newton ... · 3.2 O Método de Gauss-Newton 34 4 Estudo de Convergência Local do Método de Gauss-Newton 37 4.1 Convergência

Referências Bibliográficas 47

[11] GONÇALVES, M. L. N. Análise de Convergência Local do Método de Gauss-Newton do Ponto de Vista do Princípio Majorante. Tese de Doutorado em

Engenharia de Sistemas e Computação,COPPE/UFRJ, Rio de Janeiro, 2011.

[12] KANTOROVICH, L. V. The principe of the majorant and newton’s method.

Doklady Akad. Nauk SSSR(N.S.), 76:17–20, 1951.

[13] LIMA, E. L. Curso de análise - volume 2. IMPA, Rio de Janeiro, 9 edition, 2006.

[14] LIMA, E. L. Curso de análise - volume 1. IMPA, Rio de Janeiro, 12 edition, 2007.

[15] LIMA, E. L. Álgebra Linear. IMPA, Rio de Janeiro, 8 edition, 2009.

[16] MENDES, R. M. N. Álgebra Linear. PUC Minas, Belo Horizonte, 2009.

[17] NOCEDAL, J; WRIGHT, S. J. Numerical optimization. Sringer Series in Opera-tions Research. Springer-Verlag, New York, 1999.

[18] STEWART, G. W. On the continuity of the generalized inverse. SIAM J. Appl.

Math., 17:35–45, 1969.