Teoria Do Controle Otimo Capitulo 7 Stamford (1)

44
1 Capítulo 7 Controle Ótimo: O princípio do máximo O cálculo das variações, o método clássico para atacar problemas de otimização dinâmica, assim como o cálculo comum, requer para sua aplicabilidade a diferenciabilidade das funções que entram no problema. Mais importante que isso é que apenas soluções interiores podem ser manipuladas. Um desenvolvimento mais moderno que pode trabalhar com características não clássicas tais como solução de canto, é encontrado na teoria do controle ótimo. Como seu nome indica, a formulação de controle ótimo do problema de otimização dinâmica foca uma ou mais variáveis que servem como instrumentos de otimização. Diferente, entretanto, do cálculo das variações, onde nosso objetivo é encontrar o caminho temporal ótimo para uma variável estado y, a teoria do controle ótimo tem como sua principal meta a determinação do caminho ótimo para a variável de controle u. Certamente, logo que o caminho do controle ótimo, u*(t), seja encontrado, nós podemos também encontrar o caminho do estado ótimo, y*(t), que corresponde a ele. De fato, os caminhos u*(t) e y*(t) são usualmente encontrados no mesmo processo. Mas a presença de uma variável de controle como estágio central muda a orientação básica do problema de otimização dinâmica. Duas questões são propostas imediatamente. O que é que uma variável de “controle” faz? E como é seu ajuste dentro do problema da otimização dinâmica? Para responder essas questões, vamos considerar uma economia ilustrativa simples. Suponha que exista numa economia um estoque finito de recursos exauríveis S (tal como carvão ou óleo), como no modelo de Hotelling, com S(0) = S 0 . Como esse recurso está sendo extraído (e usado), o estoque de recurso será reduzido de acordo com a relação ) ( ) ( t E dt t dS = onde E(t) denota a taxa de extração do recurso no tempo t. A variável E(t) é qualificada como variável de controle porque possui as duas propriedades seguintes. Primeiro, ela é algo que esta sujeito a nossa escolha arbitrária. Segundo, nossa escolha de E(t) age sobre a variável S(t) que indica o estado do recurso a todo instante do tempo. Conseqüentemente, a variável E(t) é como um mecanismo de pilotagem em que nós podemos manobrar de forma a “dirigir” a variável de estado S(t) para várias posições em qualquer tempo t por meio da equação diferencial dS(t)/dt = - E(t). Por uma pilotagem correta de tal variável de controle, nós poderíamos, consequentemente, visar a otimização de algum critério de performance expresso pelo funcional objetivo. Para o presente exemplo, nós podemos postular que a sociedade quer maximizar a utilidade total derivada do uso do recurso exaurível sobre um dado período de tempo [0,T]. Se não há restrição no estoque final, o problema de otimização dinâmica toma a seguinte forma:

Transcript of Teoria Do Controle Otimo Capitulo 7 Stamford (1)

Page 1: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

1

Capítulo 7

Controle Ótimo:

O princípio do máximo O cálculo das variações, o método clássico para atacar problemas de otimização dinâmica, assim como o cálculo comum, requer para sua aplicabilidade a diferenciabilidade das funções que entram no problema. Mais importante que isso é que apenas soluções interiores podem ser manipuladas. Um desenvolvimento mais moderno que pode trabalhar com características não clássicas tais como solução de canto, é encontrado na teoria do controle ótimo. Como seu nome indica, a formulação de controle ótimo do problema de otimização dinâmica foca uma ou mais variáveis que servem como instrumentos de otimização. Diferente, entretanto, do cálculo das variações, onde nosso objetivo é encontrar o caminho temporal ótimo para uma variável estado y, a teoria do controle ótimo tem como sua principal meta a determinação do caminho ótimo para a variável de controle u. Certamente, logo que o caminho do controle ótimo, u*(t), seja encontrado, nós podemos também encontrar o caminho do estado ótimo, y*(t), que corresponde a ele. De fato, os caminhos u*(t) e y*(t) são usualmente encontrados no mesmo processo. Mas a presença de uma variável de controle como estágio central muda a orientação básica do problema de otimização dinâmica.

Duas questões são propostas imediatamente. O que é que uma variável de “controle” faz? E como é seu ajuste dentro do problema da otimização dinâmica? Para responder essas questões, vamos considerar uma economia ilustrativa simples. Suponha que exista numa economia um estoque finito de recursos exauríveis S (tal como carvão ou óleo), como no modelo de Hotelling, com S(0) = S0. Como esse recurso está sendo extraído (e usado), o estoque de recurso será reduzido de acordo com a relação

)()( tEdttdS

−=

onde E(t) denota a taxa de extração do recurso no tempo t. A variável E(t) é qualificada como variável de controle porque possui as duas propriedades seguintes. Primeiro, ela é algo que esta sujeito a nossa escolha arbitrária. Segundo, nossa escolha de E(t) age sobre a variável S(t) que indica o estado do recurso a todo instante do tempo. Conseqüentemente, a variável E(t) é como um mecanismo de pilotagem em que nós podemos manobrar de forma a “dirigir” a variável de estado S(t) para várias posições em qualquer tempo t por meio da equação diferencial dS(t)/dt = - E(t). Por uma pilotagem correta de tal variável de controle, nós poderíamos, consequentemente, visar a otimização de algum critério de performance expresso pelo funcional objetivo. Para o presente exemplo, nós podemos postular que a sociedade quer maximizar a utilidade total derivada do uso do recurso exaurível sobre um dado período de tempo [0,T]. Se não há restrição no estoque final, o problema de otimização dinâmica toma a seguinte forma:

Page 2: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

2

) ,( )( )0(

)(

)(

00

0

dadosTSlivresTSSSe

tEdtdSasujeito

dteEUMaximizeT t

=

−=

∫ −ρ

Nessa formulação, apenas a variável de controle E entra no funcional objetivo. Mas, de uma maneira geral, espera-se que o funcional objetivo dependa tanto da(s) variável(eis) de estado quanto da(s) variável(eis) de controle. Similarmente, é apenas um caso especial que nesse exemplo o movimento da variável de estado S dependa apenas da variável de controle E. Em geral, o curso do movimento da variável de estado sobre o tempo pode ser afetado tanto por variável (variáveis) de estado quanto por variável (variáveis) de controle, e ainda pela própria variável t.

Com esse conhecimento, nós agora continuamos a discussão do método de controle ótimo.

7.1 – O PROBLEMA BÁSICO DE CONTROLE ÓTIMO Para manter uma estrutura introdutória simples, primeiro vamos considerar um problema com uma única variável de estado y e uma única variável de controle u. Como sugerido anteriormente, a variável de controle é o instrumento de política que nos habilita a influenciar a variável de estado. Assim, qualquer escolha do caminho de controle u(t) irá implicar num caminho de estado associado y(t). Nossa tarefa é escolher um caminho ótimo admissível u*(t) no qual, ao longo do caminho de estado ótimo admissível y*(t), iremos otimizar o funcional objetivo sobre o intervalo de tempo [0,T]. Características Especiais dos Problemas de Controle ótimo

Page 3: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

3

Uma característica notável da teoria do controle ótimo é a de que um caminho de controle não precisa ser contínuo para se transformar em admissível; ele apenas precisa ser contínuo por partes. Isso significa que ele pode conter saltos descontínuos, como ilustrado na figura 7.1a, apesar de não podermos permitir descontinuidades que envolvam um valor infinito de u. Uma boa ilustração de controle contínuo por partes na vida diária é o liga e desliga da chave do computador ou da ignição. Quando giramos a chave para ligar (u = 1) e desligar (u = 0), a trajetória do controle experimenta um salto.

A trajetória de estado y(t), por outro lado, deve ser contínua no período de tempo [0,T]. Mas, como ilustrado na Fig. 7.1b, permite-se que tenha um número finito de pontos agudos, ou quinas. Isto é, para ser admissível, uma trajetória de estado necessita apenas ser diferenciável por partes1. Note que cada ponto agudo sobre a trajetória do estado aparece no tempo em que o caminho do controle dá um salto. A razão para esse ritmo coincidente está no processo de obtenção da solução do problema. Uma vez que tenhamos encontrado que o segmento do controle ótimo para o intervalo de tempo [0,t1) é, digamos, a curva ab na Fig 7.1a, nós tentamos então determinar o segmento correspondente da trajetória ótima de estado. Ela pode ser, digamos, a curva AB, na Fig. 7.1b, cujos pontos iniciais satisfazem uma dada condição inicial. Para o próximo intervalo, [t1,t2), determinamos novamente o segmento da trajetória de estado ótimo sobre a base do controle ótimo pré encontrado, curva cd, mas dessa vez devemos tomar o ponto B como “ponto inicial” do segmento de estado ótimo. Daí, o ponto B serve como ponto terminal para o primeiro segmento e como ponto inicial para o segundo segmento da trajetória de estado ótimo. Por essa razão, não há descontinuidade no ponto B, apesar de aparecer como um ponto agudo. Como trajetória de controle admissível, a trajetória admissível deve ter um valor finito y para todo t no intervalo de tempo [0,T].

Outra característica importante é que a teoria de controle ótimo é capaz de manipular diretamente uma restrição na variável de controle u, tal como a limitação Utu ∈)( para 1 Pontos agudos numa trajetória de estado podem também ser acomodados no cálculo de várias variáveis via as condições de Weierstrass-Edrmann. Nós não discutimos esse assunto nesse livro, por causa da relativa raridade de suas aplicações econômicas. O leitor interessado pode consultar qualquer livro sobre cálculo das variações.

Trajetória estado

C

B

A

0 t 0

Trajetória de controle d

c

b a

u

t1 t2 T t

Figura 7.1

T t2 t1

y

(a) (b)

Page 4: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

4

todo ],0[ Tt∈ , onde U denota algum conjunto de controle limitado. O conjunto controle pode ser de fato fechado, conjunto convexo, tal como ]1,0[)( ∈tu . O fato de que U possa ser um conjunto fechado significa que soluções de canto (soluções de fronteiras) podem ser admitidas, o que insere uma importante característica não clássica na estrutura do problema. Quando essa característica é combinada com a possibilidade de saltos descontínuos na trajetória de controle, um fenômeno interessante chamado de solução bang-bang pode ocorrer. Assumindo que o conjunto controle seja U = [0,1], por exemplo, a trajetória do controle ótimo irá saltar como segue:

u*(t) = 1 para ),[ 1tot∈ u*(t) = 0 para 2121 ),[ ttttt <∈ u*(t) = 1 para TtTtt <∈ 22 ],[

então estaremos “ricocheteando”* (“banging”) sucessivamente entre um e outro limite do conjunto de controle U; daí, o nome “bang-bang”.

Finalmente, chamamos a atenção de que o problema básico da teoria do controle ótimo, diferente do cálculo das variações, tem um estado terminal livre (linha terminal vertical) ao invés de um ponto terminal fixo. A primeira razão para isso é que: No desenvolvimento das condições fundamentais de primeira ordem conhecido como princípio máximo, invocamos a noção de um Δu arbitrário. Qualquer Δu arbitrário deve, portanto, implicar num Δy associado. Se o problema tem um estado terminal fixo, precisamos prestar atenção se o Δy associado irá para o estado terminal designado. Assim, a escolha de Δu pode não ser inteiramente e verdadeiramente arbitrária. Se o problema tem um estado terminal livre (linha terminal vertical), por outro lado, então podemos arbitrar um Δu sem qualquer preocupação com o destino final de y. E isto simplifica o problema.

O problema básico Baseado na discussão precedente, podemos colocar o problema básico do controle ótimo como

(7.1)

],0[ todopara )( ) ,( )( )0(

),,(

),,( V 0

TtUtuedadosTAlivreTyAy

uytfyasujeito

dtuytFMaximizeT

∈∈

=

=

= ∫

Aqui, como na discussão subseqüente, nos ocuparemos exclusivamente com o problema de maximização. Nesse aspecto, as condições necessárias para otimização podem ser

* N.T. O termo em inglês foi mantido entre parênteses por não ter tradução direta para o português

Page 5: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

5

estabelecidas com mais especificidade e menos confusão. Quando for encontrado um problema de minimização, podemos sempre reformulá-lo como um problema de maximização simplesmente colocando o sinal de menos no funcional objetivo. Por exemplo, minimizar ∫

TdtuytF

0),,( é equivalente a maximizar ∫ −

TdtuytF

0),,( .

Em (7.1), o funcional objetivo ainda toma a forma de uma integral definida, mas a

função integrando F não inclui o argumento yʹ′ como no cálculo das variações. Ao contrário, existe um novo argumento u. A presença da variável de controle u necessita de uma ligação entre u e y, para nos dizer como u afeta especificamente o curso tomado pela variável de estado y. Essa informação é fornecida pela equação ),,( uytfy = , onde o símbolo com ponto y , denotando a derivada dy/dt, é uma notação alternativa para o símbolo y´ usado antes2. No tempo inicial, os dois primeiros argumentos na função f devem tomar valores dados t = 0 e y(0) = A, então apenas o terceiro argumento está sob nossa escolha. Para alguma política escolhida em t = 0, digamos, )0(1u , essa equação produzirá um valor específico para y , digamos, )0(1y , que impõe uma direção específica para a qual a variável y move-se. Uma política diferente )0(2u , geralmente nos dará um valor diferente, )0(2y , via a função f. E um argumento similar aplicar-se-á a outros pontos do tempo. O que essa equação faz, todavia, é fornecer um mecanismo pelo qual nossa escolha do controle u poderá ser transformada num padrão específico de movimento da variável de estado y. Por essa razão, essa equação é conhecida como a equação de movimento para a variável de estado (ou, para simplificar, a equação de estado). Normalmente, a ligação entre u e y pode ser adequadamente descrita pela equação diferencial de primeira ordem ),,( uytfy = . Entretanto, se existir um padrão de mudança da variável de estado y que não possa ser capturado pela primeira derivada y mas que requer o uso da segunda derivada 22 / dtydy ≡ , então a equação de estado tomará a forma de uma equação diferencial de segunda ordem, que nós deveremos transformar num par de equações diferenciais de primeira ordem. A complicação é que, no processo de transformação, uma variável de estado adicional deverá ser introduzida no problema. Um exemplo de tal situação pode ser encontrado na seção 8.4.

Nós usaremos consistentemente a letra f minúscula como símbolo da função na equação de movimento, e reservaremos a letra maiúscula F para a função integrando no funcional objetivo. Assume-se que as funções F e f são contínuas em todos os seus argumentos, e possuem derivadas parciais de primeira ordem contínuas com respeito a t e y, mas não necessariamente com respeito a u.

O resto do problema (7.1) consiste de especificações com relação aos conjuntos de fronteira e de controle. Da mesma forma que o caso da linha-terminal-vertical é básico e foi implementado, outras especificações de ponto-terminal também podem ser acomodadas. Igualmente para o conjunto controle, o caso básico é de U ser um conjunto aberto

),( +∞−∞=U . Se entretanto, a escolha de U de fato é não restritiva, em tal caso poderemos, de um modo geral, omitir a imposição Utu ∈)( do problema.

2 Ainda que y e yʹ′ sejam símbolos alternativos, usaremos y exclusivamente no contexto da teoria do controle ótimo, para fazer distinção do contexto do cálculo das variações.

Page 6: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

6

Um caso especial Como um caso especial, considere o problema onde a escolha de u não é restringida, e onde a equação de movimento toma uma forma particularmente simples

uy =

Então o problema de controle ótimo fica

(7.2) ) ,( )( )0(

),,( V 0

dadosTAlivresTyAyuyasujeito

dtuytFMaximizeT

=

=

= ∫

Substituindo a equação de movimento na função integrando, entretanto, podemos eliminar y e reescrever o problema como

(7.2’) ) ,( )( )0(

),,( V 0

dadosTAlivresTyAyasujeito

dtyytFMaximizeT

=

= ∫

Este é precisamente o problema de cálculo das variações com linha terminal vertical. A ligação fundamental entre o cálculo das variações e a teoria do controle ótimo é, então, evidente. Mas, as equações de movimento encontradas nos problemas de controle ótimo são geralmente mais complicadas que em (7.2). 7.2 O PRINCÍPIO DO MÁXIMO O resultado mais importante na teoria do controle ótimo – uma condição necessária de primeira ordem – é conhecida como o princípio do máximo. Esse termo foi cunhado pelo matemático russo L S Pontryagin e seus associados3. Como mencionado na seção 1.4, entretanto, a mesma técnica foi independentemente descoberta por Maguns Hestenes, um matemático da Universidade da Califórnia, Los Angeles, que depois também expandiu os resultados de Pontryagin. O enunciado do princípio do máximo envolve o conceito da função Hamiltoniana e da variável co-estado. Devemos, entretanto, primeiro explicar esses conceitos. A variável de co-estado e a função Hamiltoniana

3 L. S. Pontryagin, V. G. Boltyanski, R. V. Gamkrelidze, e E. F. Miahchenko, O proceso Matemático do Controle Ótimo (The Mathematical Theory of Optimal Processes), traduzido do russo por K.N. Trirogoff, Interscience, New York, 1962. Esse livro ganhou em 1962 o Prêmio Lênin de Ciência e Tecnologia.

Page 7: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

7

Três tipos de variáveis foram apresentadas no problema (7.1): t (tempo), y (estado) e u (controle). No processo de solução, outro tipo de variável emerge. Ela é chamada de variável de co-estado (ou variável auxiliar) e será designada por λ. Como veremos, a variável de co-estado é similar ao multiplicador de Lagrange e, como tal, tem caráter de uma variável de valoração, medindo o preço sombra de uma variável de estado associada. Como y e u, a variável λ pode tomar diferentes valores em diferentes pontos do tempo. Assim, o símbolo λ é na verdade uma notação simplificada para λ(t).

O veículo pelo qual a variável de co-estado entra no problema do controle ótimo é a função Hamiltoniana, ou simplesmente, o Hamiltoniano, que figura com muito destaque no processo de solução. Denotando por H, o Hamiltoniano é definido como

(7.3) ),,()(),,(),,,( uytftuytFuytH λλ +≡

Desde que H consiste da função integrando F mais o produto da variável de co-estado pela função f, ele é naturalmente uma função com quatro argumentos: t, y, u bem como λ. Note que, em (7.3), nós designamos um coeficiente unitário para F, o que entra em contraste com o coeficiente ainda indeterminado λ(t) de f. Rigorosamente falando, o Hamiltoniano deveria ser escrito como (7.4) ),,()(),,(),,,( 0 uytftuytFuytH λλλ +≡

onde 0λ é uma constante não negativa, também ainda indeterminada. Para o problema (7.1) da linha-terminal-vertical, a constante 0λ torna-se sempre não nula (estritamente positiva); assim, ela pode normalizada para o valor unitário, reduzindo (7.4) a (7.3). O fato de ser

00 ≠λ no problema básico é devido a duas condições do princípio do máximo. Primeiro, os multiplicadores 0λ e λ(t) não podem desaparecer simultaneamente em nenhum ponto do tempo. Segundo, a solução do problema da linha-terminal-vertical deve satisfazer a condição de transversalidade λ(T) = 0, que será explicada na discussão que se segue. A condição λ(T) = 0 requer um valor não nulo para 0λ em t = T. Mas, desde que 0λ é uma constante não negativa concluímos que 0λ é uma constante positiva, que pode ser normalizada para a unidade.

Para formulações do problema do controle ótimo diferente de (7.1), por outro lado, 0λ pode tornar-se zero, invalidando desta forma o Hamiltoniano em (7.3). O purista, entretanto, insistirá em checar que 0λ é de fato positivo em todo problema, antes de usar o Hamiltoniano (7.3). O processo de checagem envolverá uma demonstração onde a hipótese de que 00 =λ conduzirá a uma contradição e violará a condição mencionada antes, de que,

0λ e λ(t) não podem desaparecer simultaneamente4. Na realidade, porém, a eventualidade de um 0λ nulo acontece apenas em certas situações não usuais (algumas digamos “patológicas”) onde a solução do problema é independente da função integrando, F, ou

4 Para exemplos específicos do processo de checagem veja, Akira Takayama, Mathematical Economics 2ed., Cambridge Universty Press, Cambridge, 1985, pp. 617 – 618, 674 – 675, e 679 – 680.

Page 8: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

8

seja, onde a função F não tem importância no processo da solução5. É exatamente esse o motivo pelo qual se pode pôr o coeficiente 0λ igual a zero, para fazer a função F sair do Hamiltoniano. Como muitos dos problemas encontrados em economia são do tipo onde a função F tem importância, a prática prevalecente entre os economistas é simplesmente assumir 00 >λ , normalizando-o então para a unidade e usando o Hamiltoniano (7.3), sempre que o problema não for daquele com uma linha terminal vertical. Essa é a prática que seguiremos. O princípio do máximo Em contraste com a equação de Euler que é uma simples equação diferencial de segunda ordem na variável de estado y, o princípio do máximo envolve duas equações diferenciais de primeira ordem na variável de estado y e na variável de co-estado λ. Junto com essas equações, é exigido também que o Hamiltoniano seja maximizado com respeito as variáveis de controle u em todo ponto do tempo. Para uma eficiência pedagógica, primeiro explicamos e discutimos as condições envolvidas, antes de fornecer a racionalidade do princípio do máximo.

Para o problema em (7.1), e com o Hamiltoniano definido em (7.3), as condições para o princípio do máximo são

(7.5)

salidade] transverde [condição 0)(

] para movimento de [equação

] para movimento de [equação

],0[ todopara ),,,( u

=

∂−=

∂=

TyH

yHy

TtuytHMax

λ

λλ

λ

λ

O símbolo HMax

u significa que o Hamiltoniano deve ser maximizado

exclusivamente com respeito a u como variável de escolha. Um modo equivalente de expressar essa condição é

(7.6) ),,,(),,,( * λλ uytHuytH ≥ para todo ],0[ Tt∈ onde u* é o controle ótimo, e u é qualquer outro valor de controle. Na discussão a seguir, para simplificar, vamos usar algumas vezes uma notação mais curta “Max H” para indicar essa exigência sem mencionar explicitamente u. O leitor notará que é esse requerimento de maximizar H com respeito a u que faz surgir o nome “o princípio do máximo”.

Pode parecer a princípio que o requerimento em (7.6) possa ser resumidamente colocado na condição de primeira ordem 0/ =∂∂ uH (particularmente suportado por uma condição de segunda ordem apropriada). A verdade, entretanto, é que a exigência de 5 Um exemplo de um problema como esse pode ser encontrado em Morton I. Kamien e Nancy L. Schwartz, Dynamic Optimazation: The Calculus of Variations and Control Optimal in Economics and Management, 2ed., Elsevier, New York, 1991, p. 149.

Page 9: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

9

HMaxu

é uma exigência muito mais extensa desse requerimento. Na fig. 7.2, desenhamos

três curvas, cada uma indicando um possível gráfico do Hamiltoniano H contra a variável de controle u em um ponto específico do tempo, para valores específicos de y e λ. Assume-se que a região de controle é o intervalo fechado [a,c]. Para a curva 1, que é diferenciável com respeito a u, o máximo de H ocorre em u = b, um ponto interior da região de controle U; nesse caso, a equação 0/ =∂∂ uH pode de fato servir para identificar o controle ótimo em cada ponto do tempo. Mas, se a curva 2 é a curva relevante, então o controle que maximiza H em U, é u = c, um ponto limite de U. Assim a condição 0/ =∂∂ uH não se aplica ainda que a curva seja diferenciável. E no caso da curva 3, com o Hamiltoniano

linear em u, o máximo de H ocorre em u = a, outro ponto limite e a condição 0/ =∂∂ uH é novamente inaplicável porque a derivada não é igual a zero em nenhum lugar. Em resumo, enquanto a condição 0/ =∂∂ uH pode servir ao propósito quando o Hamiltoniano é diferenciável com respeito a u e produz uma solução interior, o fato de que a região de controle possa ser um conjunto fechado, com possibilidade de soluções de canto, necessita da exigência mais ampla de HMax

u . De fato, sob o princípio do máximo não se requer

sempre que o Hamiltoniano seja diferenciável com respeito a u. O caso onde o Hamiltoniano é linear em u é de especial interesse. Ele tanto é uma

situação especialmente simples de manipular quando se traça o gráfico de H contra u como também é uma linha reta positiva ou negativamente inclinada, pois o controle ótimo é sempre encontrado num dos limites de u. A tarefa é apenas determinar qual dos limites. (Se o gráfico de H contra u é uma linha horizontal, então não existe controle ótimo único). Mais importante ainda, esse caso serve para realçar como uma situação incômoda no cálculo das variações torna-se facilmente manipulável na teoria do controle ótimo. No cálculo das variações, sempre que a função integrando é linear em yʹ′ , resultando 0=ʹ′ʹ′yyF , a equação de Euler não produz uma solução que satisfaça as condições de limite dado. Na teoria do controle ótimo, ao contrário, esse caso não apresenta qualquer problema.

U

Curva 3

Curva 2

c

Curva 1 H

b 0 a

u

Figura 1 7.2

Page 10: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

10

Partindo-se para as outras partes de (7.5), notamos que a condição λ∂∂= /Hy não é nada mais que uma reafirmação da equação de movimento da variável de estado originalmente especificada em (7.1). O único motivo de re-expressar y como a derivada parcial de H com respeito a variável de co-estado λ é mostrar a simetria entre essa equação de movimento e a variável de co-estado. Note, entretanto, que na última equação de movimento, λ é o negativo da derivada parcial de H com respeito a variável de estado y. Juntas, as duas equações de movimento são referidas coletivamente como o sistema Hamiltoniano, ou sistema canônico (significando o sistema de equações diferenciais padrão) para o dado problema. Contudo nós temos mais que uma equação diferencial para tratar na teoria do controle ótimo – uma para cada variável de estado e uma para cada variável de co-estado – cada equação diferencial é apenas de primeira ordem. Desde que a variável de controle nunca aparece na forma derivada, não existe equação diferencial para u no sistema Hamiltoniano. Mas, da solução básica de (7.5) pode-se, se desejado, obter uma equação diferencial para a variável de controle. E, em alguns modelos, pode ser mais conveniente tratar com um sistema dinâmico nas variáveis (y, u) no lugar do sistema canônico nas variáveis (y, λ).

A última condição em (7.5) é a condição de transversalidade para o problema de estado-terminal-livre – aquele com uma linha terminal vertical. Como nós esperaríamos, tal condição diz respeito apenas ao que deveria ocorrer no tempo terminal T.

EXEMPLO 1: Ache a curva de menor distância de um ponto P dado para uma linha reta L dada. Nós já tínhamos encontrado esse problema no cálculo das variações. Para reformulá-lo como um problema de controle ótimo, seja o ponto P(0,A), e assuma, sem perda de generalidade, que a linha L é uma linha vertical. (Se a posição da linha não for vertical, pode-se sempre fazer que seja através de uma rotação apropriada nos eixos). A função F previamente usada ( ) 2/121 yʹ′+ pode ser reescrita como ( ) 2/121 u+ , onde uy =ʹ′ ou uy = . Para converter o problema de minimização-de-distância para maximização, devemos também, colocar o sinal de menos no integrando. Então, nosso problema é

(7.7)

( )

) ,( )( )0(

1 V 0

2/12

dadosTAlivreTyAyuyasujeito

dtuMaximizeT

=

=

+−= ∫

Note que a variável de controle não é restringida, portanto o controle ótimo será uma solução interior. Etapa i Começamos escrevendo a função Hamiltoniana (7.8) ( ) uuH λ++−=

2/121 observando que H é diferenciável e não linear, podemos aplicar a condição de primeira ordem 0/ =∂∂ uH para obter

Page 11: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

11

( ) 0)2(121 2/12 =++−=

∂ −λuu

uH

Isso produz a solução6 (7.9) ( ) 2/121)( −

−= λλtu Além disso a diferenciação de uH ∂∂ / usando a regra do produto produz

( ) 01 2/322

2

<+−=∂

∂ −uuH

Assim, o resultado em (7.9) maximiza H. Mesmo que (7.9) expresse u em termos de λ, nós vemos agora encontrar uma solução para λ. Etapa ii Para fazer isso, nós recorremos a equação de movimento da variável de co-estado

yH∂

∂−=λ em (7.5). Mas, como (7.8) mostra que H é independente de y, temos

(7.10) constante)( 0 =⇒=∂

∂−= tyH

λλ

Convenientemente, a condição de transversalidade 0)( =Tλ em (7.5) é suficiente para definir a constante. Pois, se λ é uma constante, então seu valor em t = T também é seu valor para todo t. Assim,

(7.10’) 0)(* =tλ para todo ],0[ Tt∈ Observando (7.9), nós também poderemos concluir que (7.11) 0)(* =tu para todo ],0[ Tt∈ Etapa iii Da equação de movimento uy = , estamos agora capacitados a escrever 6 A equação 0/ =∂∂ uH pode ser escrita como

( ) λ=−− 2/121 uu

Elevando ao quadrado em ambos os lados, multiplicando por ( )21 u+ e arrumando os termos, obteremos

( ) 222 1 λλ =−u

Esse resultado implica que 12 ≠λ , de outra forma a equação produziria 0 = 1, o que é impossível. Dividindo ambos os lados pela quantidade não nula ( )21 λ− e tomando a raiz quadrada nós finalmente chegaremos a (7.9)

Page 12: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

12

(7.12) constante)( 0 == tyy Mais ainda, a condição inicial y(0) = A habilita-nos a definir essa constante e escrever (7.12’) A)(* =ty

Esse caminho y*, ilustrado na Fig. 7.3, é uma linha reta horizontal. Alternativamente, ele pode ser visto como um caminho ortogonal para a linha terminal vertical. EXEMPLO 2 Encontre o controle ótimo que

(7.13)

( )

]2,0[)( e )2( 4)0(

32 V 0

=∈

=

+=

−= ∫

Utulivreyy

uyyasujeito

dtuyMaximizeT

Como esse problema é caracterizado pela linearidade em u e um por um conjunto de controle fechado, podemos esperar que ocorram soluções de canto. Etapa i O Hamiltoniano de (7.13), nominalmente,

uyuyuyH )3()2()(32 −++=++−= λλλ é linear em u, com inclinação 3/ −=∂∂ λuH . Se em um dado ponto do tempo, encontramos λ > 3, então uma curva de inclinação ascendente como a curva 1 na Fig. 7.4 irá prevalecer; para maximizar H, devemos escolher u* = 2. Se por outro lado λ< 3, então a curva 2 irá prevalecer, e deveremos escolher u* = 0. Em resumo,

y

t

Aty =)(* A

0

Figura 7.3

B

T

Page 13: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

13

02

)(*⎩⎨⎧

=tu se 3)(⎭⎬⎫

⎩⎨⎧

<

>tλ

As soluções u* = 2 e u* = 0 são, certamente, soluções de canto. Note que, pelo fato de H ser linear em u, a condição de primeira ordem usual 0/ =∂∂ uH é inaplicável na nossa busca por u*. Etapa ii Nossa próxima tarefa é determinar λ(t), dado que ele é necessário em (7.14). Da equação de movimento de λ, nós teremos a equação diferencial

λλ −−=∂

∂−= 2yH ou 2−=+λλ

Sua solução geral é7

2)( −= −tketλ (k arbitrária)

Desde que a constante arbitrária k pode ser definida como 22ek = pela utilização da condição de transversalidade λ(t) = λ(2) = 0, poderemos escrever a solução definitiva como (7.15) 2222)(* 22 −=−= −− tt eeetλ

Note que )(* tλ é uma função decrescente, caindo do valor do estado inicial 778,1222)0(* 2 ≈−= eλ para o valor final 022)2(* =−=λ . Assim, λ* primeiramente

excede 3 e eventualmente cai abaixo de 3. O ponto crítico no tempo, quando λ* = 3 e quando o controle ótimo muda abruptamente de u* = 2 para u* = 0, pode ser encontrado colocando λ* (t) = 3 em (7.15) e resolvendo para t. Denotando esse t particular pela letra grega τ, teremos

7 Equações lineares de primeira ordem desse tipo são explicadas na Sec. 14.1, de Alpha C. Chiang, Fundamental Methods of Matematical Economics, 3 ed. McGraw-Hill, New York, 1984.

Curva 2 λ < 3

Curva 1 λ > 3

H

u 0

Figura 7.4

Max H

2

Max H

Page 14: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

14

(7.16) 084,15,2ln2 ≅−=τ Conseqüentemente, o controle ótimo em (7.14) pode ser reescrito mais especificamente em duas fases: (7.17) Fase I: 2),0[** =≡ τuu I Fase II: 0]2,[** =≡ τuu II

Como descrito graficamente na Fig. 7.5a, esse controle ótimo exemplifica uma variante simples de bang-bang. Etapa iii Ainda que o problema pergunte somente o caminho do controle ótimo, nós podemos encontrar também o caminho de estado ótimo, em duas fases. Na fase I, a equação de movimento para y é 2+=+= yuyy , ou

2=− yy com valor inicial y(0) = 4

Sua solução é (7.18) ( )132),0[** −=≡ t

I eyy τ

Na fase II, a equação de movimento para y é 0+= yy , ou

y*II

y*I

39,339

15,739 4,000

2 1 τ = 1,083

u*

t

2

2 1 τ = 1,083

Fase II Fase I

0

(a)

(b)

Figura 7.5

t

Page 15: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

15

0=− yy

com solução geral (7.19) t

II ceyy =≡ ]2,[** τ (c arbitrária) Note que a constante c não pode ser definida pelas condições iniciais y(0) = 4 dada em (7.13) porque já estamos na fase II, depois de t = 0. Nem pode ser definida por qualquer condição terminal porque o estado terminal é livre. Entretanto, o leitor lembrará do requerimento de que o caminho ótimo y deva ser contínuo, como ilustra a Fig. 7.1b. Conseqüentemente, o valor inicial de y*II deve ser igual ao valor de y*I em τ. Porquanto,

( )132* −= τey I [por (7.18)] e

τey II 2* = [por (7.19)] encontramos, igualando essas duas expressões e resolvendo para c, que )3(2 τ−−= ec , portanto o caminho ótimo y na fase II é (7.19’) ( ) t

II eey 324,532* ≈−= −τ O valor de y* no tempo de troca τ é aproximadamente 739,15)13(2 096,1 =−e .

Combinando os dois caminhos (7.18) e (7.19’), obteremos o caminho completo y* para o intervalo de tempo [0,2], como exposto na Fig. 7.5b. Nesse particular exemplo, a junção dos caminhos parece uma curva exponencial simples, mas os dois segmentos são de fato partes de duas curvas exponenciais separadas.

Exercícios 7.2

1 No exemplo 2, λ(t) é uma função decrescente, e atinge o valor 3 apenas em um ponto do tempo, τ. O que acontece se λ(t) = 3 para todo t?

2 Encontre os caminhos ótimos das variáveis de controle, estado e co-estado para

]2,0[)( e )4( 5)0(

3 4

0

=∈

=

+=

Utulivreyy

uyyasujeito

ydtMaximize

Cheque que de fato o Hamiltoniano é maximizado ao invés de minimizado. 3 Encontre os caminhos ótimos das variáveis de controle, estado e co-estado para

Page 16: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

16

( )

restrito não )( )2( 0)0(

2

0

2

tulivreyyuyasujeito

dtuyMaximize

=

=

−∫

Verifique que o Hamiltoniano é maximizado ao invés de minimizado. 4 Encontre os caminhos ótimos das variáveis de controle, estado e co-estado para

( )

restrito não )( )1( 1)0(

21

1

0

22

tulivreyyyuyasujeito

dtuyMaximize

=

−=

+−∫

Verifique que o Hamiltoniano é maximizado ao invés de minimizado. [Sugestão: Duas equações de movimento devem ser resolvidas simultaneamente. Revise o material sobre equações diferenciais simultâneas em Alpha C. Chiang, Fundamental Methods of Mathematical Economics, 3ed., McGraw-Hill, New York, 1984, Séc. 18.2] 7.3 A RACIONALIDADE DO PRINCÍPIO DO MÁXIMO Vamos agora explicar a racionalidade subjacente ao princípio do máximo. O que nós planejamos fazer não é dar uma prova detalhada mas, apresentar uma variação do problema para tornar o princípio do máximo plausível – a prova completa dada por Pontryagin e seus associados (Cap. 2 do seu livro) tem algo em torno de 40 páginas. Isso será reforçado mais tarde fazendo-se uma comparação das condições do princípio do máximo com a equação de Euler e as outras condições do cálculo das variações. Uma visão variacional do problema do controle Para tornar as coisas simples, assume-se aqui que a variável de controle u é irrestrita, de forma que u* é uma solução interior. Além disso, é assumido que a função Hamiltoniana é diferenciável com respeito a u e que a condição 0/ =∂∂ yH pode ser invocada no lugar da condição “Max H”. Como usual, tomamos o ponto inicial como um ponto fixo, mas é permitido ao ponto terminal variar. Isso irá nos habilitar a derivar certas condições de transversalidade no processo da discussão. O problema então fica

dado )0( ),,(

),,(V

0

0

yyuytfyasujeito

dtuytFMaximizeT

=

=

= ∫

Page 17: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

17

Etapa i Como primeiro passo no desenvolvimento do princípio do máximo, incorporaremos a equação de movimento dentro do funcional objetivo e então re-expressaremos o funcional em termos do Hamiltoniano.

O leitor observará que, se a variável y sempre obedece a equação de movimento, então a quantidade ]),,([ yuytf − irá seguramente tomar um valor zero para todo t no intervalo [0,T]. Assim, usando a noção dos multiplicadores de Lagrange, podemos formar uma expressão ]),,()[( yuytft −λ para cada valor de t, e ainda ter um valor zero. Apesar de existir um número infinito de valores de t no intervalo [0,T], somando ]),,()[( yuytft −λ sobre o tempo no período [0,T] ainda iremos produzir um valor geral zero:

(7.21) 0]),,()[(

0=−∫ dtyuytft

Por essa razão, podemos aumentar o antigo funcional objetivo com a integral em (7.21) sem afetar a solução. Isso é, podemos trabalhar com um novo funcional objetivo

(7.22) ∫

∫−+=

−+=

T

T

dtyuytftuytF

dtyuytftV

0

0

]}),,()[(),,({

]),,()[(

λ

λν

confiando que υ terá os mesmos valores que V, pois a equação de movimento em (7.20) é obedecida em todos os pontos do tempo.

Previamente, tínhamos definido a função Hamitoniana como

),,()(),,(),,,( uytftuytFuytH λλ +≡

A substituição da função H dentro de (7.22) pode simplificar o novo funcional para a forma

(7.22’) ∫ ∫

∫−=

−=

T T

T

dtytdtuytH

dtytuytH

0 0

0

)(),,,(

])(),,([

λλ

λν

É importante distinguir claramente entre o segundo termo no Hamiltoniano, ),,()( uytftλ , por um lado, e a expressão do multiplicador de Lagrange, ]),,()[( yuytft −λ por outro. O último contém explicitamente y , enquanto o anterior não. Quanto a última integral em (7.22’), é integrada por partes8, encontramos que 8 A fórmula da integração por partes uma integral definida foi dada em (2.15). Aqui, trocamos o símbolo u em

(2.15) por w, porque u é agora usado para denotar a variável de controle. Seja )(tv λ= (implicando que dtdv λ= )

)(tyw = (implicando que dtydw = )

Page 18: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

18

∫ ∫++−=−T T

T dttyyyTdtyt0 00 )()0()()( λλλλ

Consequentemente, pela substituição desse resultado, o novo funcional objetivo pode ser re-escrito como

(7.22’’)

321

00)0()(])(),,,([

ΩΩΩ

+−+= ∫ yyTdttyuytH T

Tλλλλν

A expressão υ é composta da soma de três termos, Ω1, Ω2 e Ω3. Note que enquanto o

termo Ω1, uma integral, cobre todo período de planejamento [0,T], o termo Ω2 diz respeito exclusivamente ao tempo terminal T, e Ω3 diz respeito apenas ao tempo inicial.

Etapa ii O valor de υ depende da escolha dos caminhos no tempo para as três variáveis, y, u e λ, bem como dos valores escolhidos de T e yT. Na presente etapa, iremos focar λ.

A variável λ, sendo um multiplicador de Lagrange, difere fundamentalmente de u e y, pois a escolha do caminho de λ(t) não irá produzir efeito sobre o valor de υ, pois a equação de movimento ),,( uytfy = é estritamente satisfeita no período, isto é, durante o período

(7.23) yHy∂

∂= para todo ],0[ Tt∈

Portanto, para ajudar-nos nas inquietações do efeito de λ(t) sobre υ, simplesmente impomos (7.23) como uma condição necessária para a maximização de υ. Isso é responsável por uma das três condições do princípio do máximo. Essa, claro, é uma etapa pouco estremecedora, pois a equação de movimento na realidade é dada como uma parte do próprio problema. Etapa iii Agora podemos voltar para o caminho de u(t) e seus efeitos sobre o caminho y(t). Se conhecemos um caminho u*(t) e o perturbamos com uma curva de perturbação p(t), podemos produzir caminhos de controle “vizinhos” (7.24) )()(*)( tptutu ∈+= para cada valor de ∈. Mas, de acordo com a equação de movimento ),,( uytfy = , existirá para cada ∈ uma perturbação correspondente no caminho y*(t). Os caminhos na vizinhança de y podem ser escritos como

Então, desde que vdwdtyt =)(λ , nós temos

∫ ∫+−=−T TT dttytytdtyt0 00 )()]()([)( λλλ

que coincide com o resultado no texto.

Page 19: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

19

(7.25) )()(*)( tqtyty ∈+= Além disso, se T e yT são variáveis, também teremos

(7.26) TTT Δ∈+= * e TTT yyy Δ∈+= * (implicando TddT

Δ=∈

e TT y

ddy

Δ=∈

)

Observando as expressões de u e y em (7.24) e (7.25), podemos expressar υ em termos de ∈, portanto poderemos aplicar a condição de primeira ordem 0/ =∂∂ ευ . A nova versão de υ é (7.27) ∫

∈+−∈++∈+∈+=

)(

0 0)0()()]}(*[]),(*),(*,[{T

T yyTdttqytputqytH λλλλυ

Etapa iv Agora aplicamos a condição 0/ ∈=∂∂υ . No processo da diferenciação, o termo integral gera, pela fórmula (2.11), a derivada

(7.28) ∫∈

− ∈++

⎭⎬⎫

⎩⎨⎧

+⎥⎦

⎤⎢⎣

∂∂

+∂∂)(

0][)()()(

T

Tt ddTyHdttqtp

uHtq

yH

λλ

E a derivada do segundo termo em (7.27) com respeito a ∈ é, pela regra do produto,

(7.29) TTyyTddT

dTTdy

ddyT TTT

T Δ−Δ−=∈

⋅−∈

− )()()()( λλλ

λ

[por (7.26)] Por outro lado, o termo 0)0( yλ na equação (7.27) desaparece na diferenciação. Assim,

∈∂∂ /υ é a soma de (7.28) e (7.29). Adicionando essas duas expressões, entretanto, notamos que um componente de (7.28) pode ser re-escrito como segue:

[ ] TyTddTy TTt Δ=∈= )(λλ [por (7.26)]

Assim, quando a soma de (7.28) e (7.29) é igualada a zero, a condição de primeira ordem emerge (após re-ordenamento) como

(7.30) 0)(][)()(0

=Δ−Δ+⎥⎦

⎤⎢⎣

∂∂

+⎟⎟⎠

⎞⎜⎜⎝

⎛+

∂∂

=∈ =∫ TTt

TyTTHdttp

uHtq

yH

dd

λλυ

Os três componentes dessa derivada relacionam-se com termos arbitrários diferentes:

O componente da integral contém as curvas de perturbações arbitrárias p(t) e q(t), enquanto os outros dois envolvem os termos arbitrários TΔ e TyΔ , respectivamente. Conseqüentemente, cada uma das três devem ser individualmente igualadas a zero para

Page 20: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

20

satisfazer (7.30). Colocando o componente integral igual a zero, podemos deduzir duas condições:

yH∂

∂−=λ e 0=

uH

A primeira nos dá a equação de movimento para a variável de co-estado λ (ou simplesmente, a equação de co-estado). E a segunda representa uma versão frágil da condição “ HMax

u ” – frágil no sentido de que é previamente assumido que H seja

diferenciável com respeito a u e que exista uma solução interior. Desde que o problema básico tem um T fixo e um Ty livre, o termo TΔ em (7.30) é automaticamente igual a zero, mas o termo TyΔ não. A fim de que façamos a expressão TyT Δ− )(λ desaparecer, devemos impor a restrição

0)( =Tλ

Isso explica a condição de transversalidade em (7.5)

Note que apesar do caminho de λ(t) ter sido anteriormente, na etapa ii, descartado por não ter efeito no valor do funcional objetivo, ele agora, impressionantemente, volta à condição anterior. Nós vemos que, para o princípio do máximo trabalhar, o caminho λ(t) não deve ser arbitrariamente escolhido, mas é imposto que ele siga uma equação de movimento prescrita e que finalize com um valor terminal de zero se o problema tem um estado terminal livre.

7.4 CONDIÇÕES TERMINAIS ALTERNATIVAS

O que acontecerá ao princípio do máximo quando a condição terminal especificar alguma outra coisa ao invés de linha terminal vertical? A resposta geral é que as três primeiras condições em (7.5) ainda serão asseguradas, mas a condição de transversalidade assumirá uma forma alternativa. Ponto Terminal Fixo A razão pela qual o problema com um ponto terminal fixo (com ambos, o estado terminal e o tempo terminal fixos) não se qualifica como um problema “básico” na teoria do controle ótimo é que a especificação de um ponto terminal fixo acarreta uma complicação na noção de uma curva de perturbação “arbitrária” p(t) para a variável de controle u. Se a perturbação do caminho u*(t) é suposta para gerar através da equação de movimento ),,( uytfy = uma perturbação correspondente no caminho y*(t) que tem que acabar em um estado terminal pré-estabelecido, então a escolha da curva de perturbação p(t) não é verdadeiramente arbitrária. A questão então procede como se ainda pudéssemos deduzir legitimamente a condição 0/ =∂∂ uH de (7.30).

Afortunadamente, a validade do princípio do máximo não é afetada por esse compromisso na arbitragem de p(t). Por simplicidade, todavia, não entraremos em detalhes

Page 21: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

21

para demonstrar esse ponto. Para nossos propósitos, é suficiente afirmar que, com um ponto terminal fixo, a transversalidade é substituída pela condição

TyTy =)( ( TyT, dados)

Linha Terminal Horizontal (O Problema do Pontofinal-Fixo) Se o problema tem uma linha terminal horizontal (com um tempo terminal livre mas um “ponto final” fixo, significando um estado terminal fixo), então Ty é fixo ( )0=Δ Ty , mas T não é ( TΔ é arbitrário). Do segundo e terceiro termos componentes em (7.30), é fácil ver que a condição de transversalidade para esse caso é (7.31) [ ] 0==TtH A função Hamiltoniana deve atingir um valor zero no tempo terminal ótimo. Mas, não existe restrição sobre o valor de λ no tempo T. Curva terminal Caso uma curva terminal )(TyT φ= governe a seleção do ponto terminal, então TΔ e TyΔ não serão ambos arbitrários, mas ligados um ao outro pela relação tTyT Δʹ′=Δ )(φ . Usando isso para eliminar TyΔ , podemos combinar os dois últimos termos em (7.30) numa simples expressão envolvendo apenas TΔ :

[ ] [ ] THTTtTH TtTt Δʹ′−=Δʹ′−Δ == φλφλ )()(

Segue-se que, para um TΔ arbitrário, a condição de transversalidade deva ser (7.32) [ ] 0=ʹ′− =TtH φλ Linha Terminal Vertical Truncada Agora considere o problema em que o tempo terminal é fixo, mas o estado terminal é livre para variar, apenas sujeito a minyyT ≥ onde miny denota um dado nível mínimo permissível para y.

Apenas dois tipos de resultados são possíveis na solução ótima: min* yy T > ou

min* yy T = . No primeiro resultado, a restrição terminal é automaticamente satisfeita. Assim, a condição de transversalidade para o problema com um linha terminal vertical regular usaria

(7.33) λ(T) = 0 para min* yy T >

Page 22: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

22

No outro resultado, min* yy T = , desde que a restrição terminal é atingida, os caminhos admissíveis da vizinhança de y consistiram apenas daqueles que tem estado terminal minyyT ≥ . Se avaliamos (7.25) para t = T e permitimos min* yy T = , obtemos

yT = ymin + ∈q(T)

Assumindo que q(T) > 0 sobre a curva de perturbação q(t)9, a exigência minyyT ≥ impõe ∈ ≥ 0. Mas, pelas condições de Kuhn-Tucker, a não negatividade de ∈ alteraria a condição de primeira ordem 0/ ∈=ddυ para 0/ ∈≤ddυ no nosso problema de maximização10. Segue-se que (7.30) iria gerar agora uma condição de transversalidade de desigualdade

0)( ≤Δ− TyTλ Ao mesmo tempo, nós podemos ver de (7.26) que, dado ∈ ≥ 0, a exigência de minyyT ≥ –que é a mesma que TT yy *≥ no presente contexto – implica 0≥Δ Ty . Assim, a precedente condição de transversalidade de desigualdade reduz-se a (7.34) 0)( ≥Tλ para min* yy T =

Combinando (7.33) e (7.34) e omitindo o símbolo *, podemos finalmente escrever um simples enunciado conciso da condição de transversalidade como segue:

(7.35) 0)( ≥Tλ minyyT = ( ) 0)(min =− TyyT λ Note que a última parte desse enunciado representa a familiar condição de folga-complentar das condições de Kuhn-Tucker. Como no problema similar com uma linha terminal vertical truncada no cálculo das variações, a aplicação prática de (7.35) não é complicada como a condição possa parecer. Podemos sempre tentar primeiro a condição 0)( =Tλ e checar se o resultante valor de y*T satisfaz a restrição terminal minyyT ≥ . Se sim, o problema está resolvido. Se não, colocamos então min* yy T = para satisfazer a condição de folga-complementar e tratamos o problema como se fosse um problema com um ponto terminal dado. Linha Horizontal Terminal Truncada Seja o estado terminal fixo, mas permita o tempo terminal T variar sujeito a restrição T* ≤ Tmax, onde Tmax é o valor máximo permitido de T – um deadline* pré-estabelecido. Então, nós temos T* < Tmax ou T* = Tmax, na solução do ótima. 9 Essa hipótese não influencia o resultado final do processo aqui deduzido. 10 As condições de Kuhn-Tucker são explicadas em Alpha C. Chiang, Fundamental Methods of Matematical Economics, 3ed, McGraw-Hill, New York, 1984, Séc. 21.2 * NT. O termo deadline é usual em controle ótimo no Brasil, seu significado pode ser grosseiramente traduzido como “o instante onde tudo acaba”.

Page 23: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

23

No primeiro resultado, a restrição terminal não é atingida, e a condição de transversalidade para o problema com uma linha terminal horizontal regular ainda é válido:

(7.36) [ ] 0==TtH para T* < Tmax Mas se T* = Tmax, então por implicação todos os caminhos admissíveis vizinhos do caminho y devem ter tempo terminal T* ≤ Tmax. Por razões análogas às que conduziram ao resultado (7.34) para a linha terminal vertical truncada, é possível estabelecer a condição de transversalidade: (7.37) [ ] 0≥=TtH para T* = Tmax

Combinando (7.36) e (7.374) e omitindo o símbolo *, obtemos o seguinte enunciado cresumido da condição de transversalidade:

(7.38) [ ] 0≥=TtH masTT ≤ ( )[ ] 0max =− +TtHTT EXEMPLO 1

0 )1( 1)0(

V 1

0

2

==

+=

−= ∫

yyuyyasujeito

dtuMaximize

Com pontos finais fixos, não necessitamos de condição de transversalidade nesse problema. Etapa i Desde que a função Hamiltoniana é não linear:

)(2 uyuH ++−= λ e desde que u não é restrito, podemos aplicar a condição de primeira ordem

02 =+−=∂

∂λu

uH

Isso gera a solução 2/λ=u ou, mais precisamente,

(7.39) )(21)( ttu λ=

Desde que 2/ 22 −=∂∂ uH é negativa, essa solução u(t) maximiza ou invés de minimizar H. Mas desde que a solução é expressa em termos de λ(t), devemos encontrar o caminho final de u(t) que será determinado adiante.

Page 24: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

24

Etapa ii Da equação de movimento de co-estado

λλ −=∂

∂−=yH

conseguimos a solução geral (7.40) tket −=)(λ (k arbitrária) Para definir a constante arbitrária, tentamos resolver as condições de vizinhança, mas, infelizmente, para o problema de ponto terminal fixado, essas condições são ligadas a variável y ao invés de λ. Assim, agora é necessário procurar primeiro dentro do caminho solução de y. Etapa iii A equação de movimento de y é uyy += . Usando (7.39) e (7.40),

entretanto, podemos re-escrever essa equação como tkeyy −+=21 ou,

tkeyy −=−

21

Essa é uma equação diferencial linear de primeira ordem com um coeficiente variável e um

termo variável, do tipo )()(/ twytudtdy =+ - aqui com u(t) = - 1 e tketw −=21)( . Via uma

fórmula padrão, sua solução pode ser encontrada como segue11:

(7.41)

)arbitrária (c 41

41

21

21)(

2

11

tt

tt

ttt

dttdt

kece

kece

dtekece

dtekecety

−−

−−−−

−=

⎟⎠

⎞⎜⎝

⎛ −=

⎟⎠

⎞⎜⎝

⎛ +=

⎟⎠

⎞⎜⎝

⎛ ∫+∫=

11 Veja Alpha C. Chiang, Fudamental Methods of Mathematical Economics, 3 ed., Mc-Graw-Hill, New York, 1984, Sec. 14.3. Na execução da integração envolvida na aplicação da fórmula, omitimos a constante de integração sempre que elas podem ser incluídas sob outras constantes. Alternativamente, nós podemos encontrar a função complementar e a integral particular separável e então combiná-las. Com um termo variável na equação diferencial, podemos obter a integral particular pelo método dos coeficientes a determinar. (ibid., Sec. 15.6)

Page 25: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

25

Etapa iv Agora as condições limites y(0)=1 e y(1)=0 são diretamente aplicáveis, e elas nos dão a seguinte valores definitivos para c e k:

211e

c−

= e 2

2

14eek−

=

Conseqüentemente, substituindo esses valores em (7.41), (7.40) e (7.37), temos a seguinte solução definitiva para os três caminhos ótimos:

tt

tt

eeetue

eet

eeee

ety

−−

−=

−=

−−

−=

2

2

2

2

2

2

2

12)(* e

14)(*

111)(*

λ

A procura pelas trajetórias de u*(t), y*(t) e λ*(t) no presente problema torna-se um

processo entrelaçado. Isso é porque, diferente do problema básico do controle ótimo, onde a condição de transversalidade λ(T) = 0 pode habilitar-nos a obter uma solução definida do caminho de co-estado λ*(T) no estágio inicial do jogo, o problema do ponto terminal fixo não permite a aplicação das condições de fronteira sobre y(0) e y(T) até o estágio final do processo de solução.

EXEMPLO 2 Vamos considerar o exemplo precedente, com condição terminal y(1) = 0, substituída pela restrição

T = 1 y(1) ≥ 3

O problema é então aquele com uma linha terminal vertical truncada e a condição de transversalidade apropriada é (7.35). Primeiro tentamos resolver esse problema como se sua linha terminal vertical não fosse truncada. Se y*(1) torna-se ≥ 3, então o problema está resolvido; noutros casos, nós refazemos então o problema colocando y(1) = 3. Etapa i O Hamiltoniano permanece o mesmo como no Exemplo 1 e a solução para variável de controle ainda é

(7.42) )(21)( ttu λ= [de (7.39)]

Etapa ii Embora que a solução geral para λ seja ainda

tket −=)(λ [de (7.40)]

podemos agora usar a condição de transversalidade λ(T) = 0 ou λ(1) = 0 para definir a constante arbitrária. O resultado é k = 0, portanto,

λ*(t) = 0

Page 26: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

26

Segue-se então de (7.42) que (7.44) u*(t) = 0 Etapa iii Da equação de movimento para y, encontramos

yuyy =+= [por (7.44)]

A solução geral para essa equação diferencial é

tcety =)(

onde a constante c pode ser definida como c = 1 pela condição inicial y(0) = 1. Assim, o caminho ótimo de estado é (7.45) tety =)(* Etapa iv Resta checar (7.45) contra a restrição terminal. No ponto terminal fixo T = 1, (7.45) nos dá ety =)(* . Isso, infelizmente, viola a restrição terminal y(1) ≥ 3. Assim, para satisfazer a condição de transversalidade (7.35), temos que colocar y(1) = 3 e resolver o problema como um problema com um ponto terminal fixo. Note que tendo a restrição terminal permanecido T = 1, y(1) ≥ 2, então (7.45) teria sido uma solução aceitável. EXEMPLO 3

]1,1[)( elivre 11 )( 5)0(

1V 0

−∈

==

+=

−= ∫

tuTTyy

uyyasujeito

dtMaximizeT

Esse exemplo ilustra o problema com uma linha terminal horizontal. Mais ainda, ele ilustra o tipo de problema conhecido como problema do tempo ótimo, cujo objetivo é atingir algum alvo preestabelecido num montante de tempo mínimo. A natureza de tempo-ótimo do problema é transmitida pelo funcional objetivo:

[ ]∫ −=−=−T T Ttdt0 01

Claramente, maximizar essa integral é minimizar T. Etapa i Para começar, forme o Hamiltoniano (7.46) )(1 uyH ++−= λ

Page 27: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

27

Pelo fato da função H ser linear em u, a condição 0/ =∂∂ uH é inaplicável. E, com a variável de controle confinada ao intervalo fechado [-1,1], espera-se que o valor ótimo de u em qualquer ponto do tempo seja um valor limite, ou -1 ou 1. Especificamente, se λ > 0 (H é uma função crescente de u), então u* = 1 (limite superior); mas, se λ < 0, então u* = - 1. Como terceira possibilidade, se λ = 0 para algum valor de t, então o Hamiltoniano será traçado num gráfico contra u como uma linha horizontal, e u* será indeterminado neste ponto do tempo. Essa relação entre u* e λ pode ser sucintamente capturada pela chamada função sinal, denotada pelo símbolo sgn e definida como segue:

(7.47) 0 se 1

adoindetermin1

sgn⎪⎭

⎪⎬

⎪⎩

⎪⎨

<

=

>

⎪⎭

⎪⎬

⎪⎩

⎪⎨

=⇔= xyxy

Note que se y é uma função sinal de x, então y (se determinado) pode tomar apenas um dos dois valores, e o valor de y depende do sinal (não da magnitude) de x.

Aplicado ao presente problema, essa função resulta em

(7.48) u* = sgn λ ou 0 se 11

*⎭⎬⎫

⎩⎨⎧

<

>

⎭⎬⎫

⎩⎨⎧

−= λu

Mais uma vez, encontramos que é necessário um conhecimento de λ antes de u poder ser determinado. Etapa ii A equação de movimento da variável de co-estado é, de (7.46)

λλ −=∂

∂−=yH

que integrada dá (7.49) tket −=)(λ (k arbitrária) Nesse resultado, λ(t), sendo exponencial, pode tomar apenas um único sinal algébrico – o sinal da constante k. Conseqüentemente, excetuando a eventualidade de k = 0 isto é λ(t) = 0 para todo t (o que eventualmente, de fato, não ocorre aqui), u* deve ser determinado e aderir a um único sinal – qualquer, um único valor constante – em concordância com a função sinal. Por essa razão, ainda que a linearidade do Hamiltoniano na variável de controle u resulte numa solução de fronteira no presente exemplo, ela não produz o fenômeno bang-bang.

Ocorre que o indicativo para o sinal de k reside na condição de transversalidade [ ] 0==TtH . Usando o H em (7.46), o λ em (7.49) e a condição terminal y(T) = 11, nós podemos escrever a condição de transversalidade como

0*)11(1 =++− − uke T

Page 28: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

28

Desde que u* é ou 1 ou -1, a quantidade (11 + u*) deve ser positiva, como é Te− .

Entretanto, k deve ser positivo para satisfazer essa condição. Então segue-se que λ (t) > 0 para todo t, e que

(7.50) u*(t) = 1

Etapa iii Com u* = 1 para todo t, podemos expressar a equação de movimento da variável estado, uyy += , como

1=− yy

Isso se enquadra no formato de uma equação diferencial de primeira ordem com coeficiente constante e como termo constante, baydtdy =+/ – aqui com a = -1 e b = 1. Sua solução definitiva nos dá o caminho ótimo y12

(7.51)

]5)0([ 16

)0()(*

=−=

+⎥⎦

⎤⎢⎣

⎡ −= −

ye

abe

abyty

t

at

Etapa iv Tendo obtido os caminhos do controle ótimo e do estado u*(t) e y*(t), procuramos a seguir por λ*(t). Para esse propósito, primeiro retornamos à condição de transversalidade [ ] 0==TtH para fixar o valor da constante k. Considerando (7.50) e (7.51), a condição de transversalidade agora se reduz a

16ou 0)116(1 ==+−+− −− keke TT

Portanto 61

=k . Substituindo então esse resultado em (7.49) produz o caminho ótimo λ

(7.52) tet −=61)(*λ

Etapa v Os três caminhos ótimos em (7.50), (7.51) e (7.52) retratam a solução completa par o presente problema exceto para o valor de T*. Para calculá-lo, lembre que o valor do estado terminal é estipulado em y(T) = 11. Disso, em conjunto com o caminho y*(t) obtido anteriormente, nos diz que 1611 −= Te ou 2=Te . Consequentemente, 12 A fórmula solução é deduzida em Alpha C. Chiang, Fundamental Methods of Mathematical Economics, 3ed. Mc-Graw- Hill, New York, 1984 Sec. 14.1

Page 29: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

29

)6931,0(2ln ≈=T Os caminhos ótimos para as várias variáveis são facilmente desenhados. Deixamos isso para o leitor. A Constância do Hamiltoniano em Problemas Autônomos Todos os exemplos discutidos previamente partilhavam em comum a característica de que os problemas eram “autônomos”, isto é, as funções no integrando e f na equação de movimento não continham t como um argumento explícito. Uma importante conseqüência dessa característica é que o Hamiltoniano ótimo – o Hamiltoniano avaliado ao longo dos caminhos ótimos de y, u e λ – terá um valor constante no tempo.

Para ver isso, primeiro vamos examinar a derivada com respeito ao tempo do Hamiltoniano ),,,( λuytH no caso geral:

λλ

∂∂

+∂∂

+∂∂

+∂∂

=Hu

uHy

yH

tH

dtdH

Quando H é maximizado, temos 0=∂∂ uH (para uma solução interior) ou 0=u (para uma solução de canto). Assim o terceiro termo do lado direito desaparece. Mais ainda, o

princípio do máximo também estipula que λ∂

∂=Hy e

λλ

∂−=H . Portanto, o segundo e o

quarto termos do lado direito se cancelam. O resultado líquido é que H*, o Hamiltoniano avaliado ao longo do caminho ótimo em todas as variáveis, satisfaz a equação

(7.53) tH

dtdH

∂=

**

Esse resultado é válido em geral, para ambos os problemas autônomos e não autônomos.

No caso especial de um problema autônomo, como t está ausente das funções F e f como um argumento explícito, o Hamiltoniano também não deve conter esse argumento. Conseqüentemente, nós temos 0/ =∂∂ tH , portanto

(7.54) constante*ou 0*== H

dtdH [para problemas autônomos]

Esse resultado é de uso prático num problema autônomo com uma linha terminal

horizontal. Espera-se normalmente que a condição de transversalidade [ ] 0==TtH seja válida apenas para tempo terminal. Mas se o Hamiltoniano é uma constante na solução ótima, então ele deve zero para todo t e a condição de transversalidade pode ser aplicada a qualquer ponto do tempo.

No exemplo 3, por exemplo, nós acharemos que

( ) 0116611*)*(*1* =+−+−=++−= −− tt eeuyH λ

Page 30: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

30

Esse valor zero de H* prevalece indiferentemente do valor de t, o que mostra que a condição de transversalidade é de fato satisfeita para todo t. EXERCÍCIOS 7.4

1. Ache os caminhos ótimos das variáveis de controle, estado e co-estado para

livre 5 )( 4)0(

)( 0

22

TTyyuyasujeito

dtutMaximizeT

==

=

+−∫

2. Ache os caminhos ótimos das variáveis de controle, estado e co-estado para

2)u(0 e300 )4( 5)0(

3 4

0

≤≤

≥=

+=

tyy

uyyasujeito

ydtMaximize

3. Nós desejamos nos mover do ponto inicial (0,8) no plano ty para alcançar o valor do

estado terminal y(T) = 0 logo que possível. Formule e resolva o problema, assumindo que udtdy 2/ = , e que o conjunto de controle é o intervalo fechado [-1,1]

4. Ache o caminho do controle ótimo e o estado ótimo correspondente que minimiza a distância entre o ponto de origem (0,0) e uma curva terminal 0 ,10)( 2 >−= TTTy . Faça um gráfico da curva terminal e do caminho y*(t).

5. Demonstre a validade da condição de transversalidade (7.37) para o problema com uma linha terminal horizontal truncada.

7.5 COMPARAÇÃO DO CÁLCULO DAS VARIAÇÕES E DA TEORIA DO CONTROLE ÓTIMO Nós mostramos anteriormente em (7.2) e (7.2’) que um problema básico de controle ótimo pode ser transladado para um problema equivalente de cálculo das variações. Será maravilhoso se, em tal problema, as condições de otimalidade requeridas para o princípio do máximo também forem equivalentes àquelas do cálculo das variações. A resposta é que elas realmente são.

Para o problema (7.55), a função Hamiltoniana é

(7.55) uuytFH λ+= ),,( Assumindo que essa função seja diferenciável com respeito a u, podemos listar as seguintes condições para o princípio do máximo:

Page 31: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

31

(7.56)

0)(

0

=

−=∂

∂−=

=∂

∂=

=+=∂

T

FyH

uHy

FuH

y

u

λ

λ

λ

λ

A primeira equação em (7.56) pode ser re-escrita como uF−=λ . Mas, devido a segunda equação aqui, ela pode ser re-escrita como (7.57) yF−=λ Diferenciando (7.57) com respeito a t produz

yFdtd

−=λ

Entretanto, a terceira equação em (7.56) dá uma outra expressão para λ . Pela igualdade das duas expressões, terminamos com a simples condição

0=− yy FdtdF

que é idêntica a equação de Euler (2.18).

Quando o Hamiltoniano é maximizado com respeito a u, a condição uH ∂∂ / será acompanhada pela condição de segunda ordem 0/ 22 ≤∂∂ uH . Além disso, a diferenciação de uH ∂∂ / na expressão (7.56) produz

02

2

≤==∂∂

yyuu FFuH

Isso, claro, é a condição necessária de Legendre. Assim, o princípio do máximo é perfeitamente consistente com as condições do cálculo das variações.

Agora, lancemos um olhar sobre as condições de transversalidade. Para o problema do controle com linha terminal vertical, a condição de transversalidade é λ(T) = 0. Por (5.57), entretanto, isso pode ser re-escrito como 0][ =− =TtyF , ou, equivalentemente,

0][ ==TtyF

Page 32: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

32

Novamente, isso é precisamente a condição de transversalidade no cálculo das variações apresentada em (3.10).

Para o problema com linha terminal horizontal, a condição de transversalidade do controle ótimo é [ ] 0==TtH . Observando (7.55), isso significa [ ] 0=+ =TtuF λ . Usando (7.56) novamente após a substituição de y por u, contudo, podemos transformar esse condição em

[ ] 0=− =Tty yFF

Exceto por essa ligeira diferença na simbologia, esta é precisamente a condição de transversalidade sob o cálculo das variações dada em (3.11).

Pode também ser mostrado que a condição de transversalidade para o problema com uma curva terminal )(TyT φ= sob a teoria do controle ótimo pode ser transladada para a correspondente condição sob o cálculo das variações e vice-versa. Os detalhes da demonstração são, todavia, deixados para o leitor.

7.6 A POLÍTICA DO CICLO DE NEGÓCIOS Aplicações do princípio do máximo a problemas econômicos cresceram rapidamente entre 1965 e 1975, e a técnica tem se tornado bastante comum. Suas aplicações alcançam inteiramente das áreas mais clássicas na macro e microeconomia até tópicos como indústria de pesca, planejamento urbano e controle da poluição. Na presente seção, vamos introduzir um modelo interessante de William Nordhaus13, que mostra que, numa democracia, um partido político da situação que tenta impedir o partido (ou partidos) rival de tirá-lo do poder encoraja a busca por políticas que irão dar uma atenção particular às taxas de desemprego e de inflação a cada período eleitoral. A repetição de tal padrão em períodos eleitorais sucessivos irá então se manifestar, como uma série de ciclo de negócios unicamente enraizada no jogo dos políticos. A Função Voto e o Tradeoff de Phillips O partido da situação, no controle do governo nacional, é obrigado, numa democracia, a perseguir políticas que agradem a uma maioria de eleitores no intuito de obter a vitória nas eleições. No presente modelo, a atenção é focada apenas sobre políticas econômicas, na verdade em apenas duas variáveis econômicas: U (a taxa de desemprego) e p (a taxa de inflação). Como os efeitos maléficos do desemprego e da inflação dão a impressão de serem a primeira preocupação econômica do eleitorado, essa escolha do foco é certamente razoável. Assume-se que a reação dos eleitores a quaisquer valores de U e p percebidos está incorporada na função voto (agregada).

13 William Nordhauss: “The Political Business Cycle.” Review of Economics Studies, April 1975, pp. 169 – 190.

Page 33: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

33

(7.58) υ = υ(U,p) (υU < 0 υp > 0) onde υ é uma medida do poder dos votos ganhos do partido da situação. As derivadas parciais de υ com respeito a cada argumento são negativas, porque altos valores de ambos U e p conduzem a perda de votos. Esse fato é refletido na Fig. 7.6, onde, fora das três curvas de isovotos ilustradas, a mais alta é associada a um baixo υ. A noção da curva isovoto ressalta o fato que, no lado político, existe um tradeoff entre as duas variáveis U e p. Se o partido da situação desagrada os eleitores pela produção de uma alta inflação, ele pode esperar recuperar os votos perdidos via uma redução suficiente na taxa de desemprego.

A parte do tradeoff político, as duas variáveis em consideração também são ligadas uma a outra por um tradeoff econômico via relação de Phillips com expectativas-aumentadas

(7.59) )10 ,0( )( ≤<<ʹ′+= αφαπφ Up onde π denota a taxa esperada de inflação. Assume que as expectativas são formadas adaptativamente, de acordo com a equação diferencial (7.60) 0 )( >−= bpb ππ

No final das contas, temos agora três variáveis, U, p e π. Mas destas, quais deverão ser consideradas como variáveis de estado e como variáveis de controle? Para uma variável qualificar-se como variável de estado, ela deve vir com uma dada equação de movimento no problema. Como (7.60) constitui uma equação de movimento para π, podemos tomar π como variável de estado. A variável U, por outro lado, não vem com uma equação de movimento. Mas como U pode afetar p via (7.59) e assim dirigir dinamicamente π via (7.60), nós podemos usá-la como variável de controle. Usar U como uma variável de controle, porém, requer a suposição implícita de que o governante no poder tem a habilidade de implementar qualquer taxa alvo de desemprego que ele escolha em qualquer

Maior υ

Menor υ

p(%)

U(%) FIGURA 7.6 0

Page 34: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

34

ponto no tempo. Como para a variável remanescente, p, (7.59) mostra que seu valor em qualquer tempo t será determinado após os valores das variáveis de estado e controle serem conhecidos. Portanto, não poderemos vê-la nem como variável de estado nem como variável de controle, mas, semelhante a υ, apenas como uma função das outras duas variáveis.

O Problema do Controle Ótimo Suponha que um partido ganhou as eleições no tempo t = 0, e que a próxima eleição está para acontecer T anos mais tarde em t = T. O partido vencedor tem então T anos no total para impressionar os eleitores com suas realizações (ou com o que possa aparentar ser isto) e como isso ganhar seus votos. A qualquer tempo do período [0,T], o par de valores realizados de U e p determinarão um valor especifico de υ. Todos esses valores de υ, em diferentes pontos do tempo, deverão entrar no funcional objetivo do partido da situação. Mas, os vários valores devem ser ponderados diferentemente dependendo do tempo em que ocorram. Se os eleitores têm uma memória coletiva curta e são mais influenciados por eventos que ocorram próximos ao período eleitoral, então, deverão ser atribuídos pesos maiores aos valores de υ da parte posterior do período [0,T] do que àqueles que vêm antes. Nós podemos então formular o problema do controle ótimo do partido da situação como segue:

(7.61)

dados) T( livre )( )0( e)(

)(

),(

0,0

0

ππππ

ππ

πφ

υ

Tpb

aUpasujeito

dtepUMaximizeT rt

=

−=

+=

Alguns comentários devem ser feitos sobre (7.61). Primeiro, ao sistema de

ponderação dos valores υ pertinentes a diferentes pontos no tempo foi dado a forma específica de uma função exponencial rte , onde r > 0, denota a taxa de queda de memória. Essa função mostra que os valores de υ para pontos posteriores do tempo são mais fortemente ponderados. Note que, em contraste com a expressão te ρ− , o que temos aqui não é um fator de desconto, mas seu inverso. Segundo, nós conservamos a relação de Phillips de expectativas aumentadas no enunciado do problema. No momento, nós não estamos equipados para tratar com tal restrição. Felizmente, a variável p pode ser facilmente eliminada pela substituição daquela equação na função voto e na equação de movimento. Então a equação de p desaparecerá como restrição separada. Terceiro, como indicam as condições de fronteira, o partido da situação encontra uma linha terminal vertical, devido ao T (o tempo da eleição) está predeterminado. Quarto, mesmo que a taxa de desemprego seja necessariamente não negativa, nenhuma restrição de não negatividade foi de fato colocada na variável de controle U. O plano – e isso é uma estratégia freqüentemente usada – é não impor nenhuma restrição e deixar a solução por ela mesma cair fora. Se U*(t) vier a ter valores economicamente aceitáveis para todo t, então não haverá motivo para preocupação; se não, e somente se não, nós teremos que modificar a formulação do problema.

Page 35: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

35

Como declarado em (7.61) o problema contém funções gerais e assim não pode produzir uma solução quantitativa. Para resolver o problema quantitativamente, Nordhaus assume as seguintes formas funcionais específicas:

(7.62) )0( ),( 2 >−−= hhpUpUυ (7.63) )10,0,( )( ≤<>+−= akjakUjp π De (7.62) pode ser visto que as derivadas parciais de υ são de fato negativas. Em (7.63), percebemos que relação de Phillips )(Uφ foi linearizada. Usando essas funções específicas, e após substituir (7.63) em (7.62), agora temos o problema específico:

(7.64) dados) T( livre )( )0( e

])1([

)(

0,0

0

2

ππππ

ππ

π

TakUjbasujeito

dtehahkUhjUMaximizeT rt

=

−−−=

−+−−∫

Maximizando o Hamiltoniano O Hamiltoniano é (7.65) ( ) ])1([2 πλπ akUjbehahkUkjUH rt −−−+−+−−= − Maximizando com respeito a variável de controle U, temos a equação

( ) 02 =−+−=∂

∂ − bkehkUUH rt λ

Isso implica no caminho de controle

(7.66) )(21)( rtbehktU −−= λ

Desde que 022

2

<−=∂

∂ −rteUH , o caminho de controle em (7.66) de fato maximiza H em todo

ponto do tempo, como requer o princípio do máximo. A presença de λ na solução de U(t) requer agora uma procura pelo caminho λ(t).

O Caminho do Co-estado Ótimo A procura pelo caminho do co-estado começa com a equação de movimento

Page 36: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

36

)1( abhaeH rt −+=∂∂

−= − λπ

λ

Quando re-escrita na forma

rthaeab −=−− )1(λλ

a equação é prontamente reconhecida como uma equação diferencial linear de primeira ordem com um coeficiente constante mas um termo variável. Empregando os métodos padrão de solução14, nós podemos achar a função complementar λc e a integral particular λ como sendo, respectivamente,

tabc Ae )1( −=λ (A arbitrário)

( )abbrBeBha rt +−≡= λ

Segue que a solução geral para λ é

(7.67) )( )1( rttabc e

BhaAet +=+= −λλλ

Note que as duas constantes A e B são fundamentalmente diferentes na sua natureza; B é meramente um símbolo taquigráfico que escolhemos para simplificar a notação, mas A é uma constante arbitrária a ser definida.

Para definir A, podemos fazer uso da condição de transversalidade para o problema de linha terminal vertical, λ(T) = 0. Pondo t = T em (7.67), aplicando a condição de transversalidade e resolvendo para A, encontramos que ( ) BTeBhaA /−= . Segue-se que a solução definitiva – o caminho do co-estado ótimo – é

(7.67’) ][)(* )1( tabBTrt eeBhat −+−=λ

O Caminho do Controle Ótimo Agora que encontramos λ*(t), tudo que se tem a fazer é substituir (7.67’) em (7.66) para deduzir o caminho do controle ótimo. O resultado é, após simplificações,

(7.68) ])[(2

)(* )( tTBbaebrBkhtU −+−=

14 Veja Alpha C. Chiang, Fundamental Methods of Mathematical Economics, 3ed. Mc-Graw- Hill, New York, 1984 Sec. 14.1 (para função complementar) e Sec 15.6 (para a integral particular)

Page 37: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

37

É esse caminho de controle que o partido da situação deve seguir no interesse de sua reeleição no ano T.

Quais são as implicações econômicas desse caminho? Primeiro, notemos que U* é uma função decrescente de t. Especificamente, temos

(7.69) 021* )( <−= −tTBkhbae

dtdU

porque k, h, b e a são todas positivas, como é a expressão exponencial. A política econômica maximizadora de votos é, consequentemente, estabelecer um alto nível de desemprego imediatamente após vencer a eleição em t = 0 e então deixar a taxa de desemprego cair persistentemente por todo o período eleitoral [0,T]. De fato, os níveis ótimos de desemprego no tempo 0 e no tempo T podem ser precisamente determinados. Eles são

])[(2

)0(* BTbaebrBkhU +−=

2])[(

2)(* khbabr

BkhTU =+−=

Note que o nível terminal de desemprego, 2/kh é uma quantidade positiva. E desde que U*(T) representa o ponto mais baixo em todo o caminho U*(t), os valores de U* para todos os valores de t em [0,T] devem ser uniformemente positivos. Isso significa que a estratégia de não impor restrições deliberadamente na variável U não causa nenhum incômodo relativo ao sinal de U no presente caso. Entretanto, para ser economicamente significativo, U*(0) deve ser menor que a unidade ou mais realisticamente, menor que alguma taxa máxima de desemprego tolerável Umax < 1. A menos que os valores dos parâmetros sejam tais que U*(0) ≤ Umax, o modelo necessitará ser reformulado para incluir a restrição

],0[)(* maxUtU ∈ . O típico caminho do desemprego ótimo, U*(t), é ilustrado na Fig 7.7, onde também

mostramos que a repetição de padrões similares U*(t) sobre sucessivos períodos eleitorais geram ciclos dos negócios políticos. Entretanto, a curvatura do caminho U*(t) nem sempre é côncava como na Fig. 7.7. Pois, por diferenciação de (7.69) com respeito a t, podemos ver que

(7.70) 021* )(

2

2 >

<

− == tTBBkhbaedtUd quando 0

>

<=B

Page 38: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

38

Se, para ilustração, r = 0,03, b = 0,30 e a = 0,70, então B = r – b + a b = – 0,06 e o caminho U*(t) será côncavo. Porém, um valor positivo de B mudará a curvatura para outra forma. E, com mudanças nos parâmetros em períodos eleitorais diferentes, tanto a posição quanto a curvatura dos caminhos U*(t) em sucessivos períodos eleitorais podem mudar bastante. Todavia, a política do ciclo de negócios tenderá a persistir. O Caminho do Estado Ótimo A tendência cíclica na variável de controle U inspirada politicamente deve também verter-se sobre a variável de estado π e consequentemente também para a taxa real de inflação p. O padrão geral seria de uma taxa de inflação ótima relativamente menor no começo de cada período eleitoral, mas sofrendo uma subida persistente. Noutras palavras, o perfil temporal de p* tende a ser oposto ao de U*. Mas não iremos deduzir o caminho ótimo da taxa de inflação aqui.

O leitor está lembrado que as conclusões do presente modelo – como aquelas de alguns outros modelos – estão intimamente ligadas às suposições adotadas. Em particular, as formas específicas escolhidas para a função voto em (7.62) e a relação de expectativas aumentadas de Phillips (7.63) indubitavelmente exerce uma importante influência sobre a solução final. Suposições alternativas – tais como mudança no termo linear - hp em (7.62) para - 2hp – são prováveis de modificar significativamente tanto a solução U*(t) quanto a solução p*(t). Mas também é provável que a formulação do problema seja mais complicada.

EXERCÍCIOS 7.6

1. (a) O que acontece no modelo de Nordhaus se o caminho do controle ótimo for caracterizado por 0/* =dtdU para todo t?

(b) Quais valores dos vários parâmetros farão dtdU /* farão ser zero? (c) Interprete economicamente os valores encontrados na parte (b).

2. Qual valor do parâmetro que causa 0/* =dtdU causará também U*(t) = 0 para todo t? Explique as implicações econômicas e racionais para tal resultado.

FIGURA 7.7

U*

t 3T 2T T 0

Page 39: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

39

3. Como uma mudança no valor do parâmetro r (taxa de decaimento da memória do voto) afeta a inclinação do caminho de U*(t)? Discuta as implicações econômicas desse resultado. [Note: ( )bbrB α+−≡ ]

4. Elimine o termo rte na função objeto em (7.64) e escreva o novo problema (a) Resolva o novo problema efetuando os mesmos passos como aqueles ilustrados no

texto do problema original (b) Verifique seus resultados colocando r = 0 no resultado do modelo original

especialmente (7.68) e (7.69)

7.7 USO DA ENERGIA E QUALIDADE AMBIENTAL Quando uma economia é revestida com um recurso que é exaurível, digamos, combustível fóssil, é certamente conveniente a coletividade ser concernente sobre a questão de como a ofertada limitada do recurso é melhor do que ser alocado para uso todo tempo. Discutimos algumas das controvérsias envolvidas na Sec. 6.3 com o método do cálculo das variações. Mas, os cidadãos da mundo atual são também intensivamente concernentes quanto à qualidade do meio ambiente em que eles vivem. Se o uso de combustível exaurível gera poluição como um derivado, então qual é o caminho ótimo do tempo para o uso da energia? Ilustramos agora como tal questão pode ser incluída na teoria do controle ótimo com um modelo de Bruce A. Forester15. A Função Utilidade Social Denote por S(t) o estoque de combustível e E(t) a taxa de extração do combustível (e uso da energia) em qualquer tempo t. Então, temos: (7.71) ES −= O uso de energia, E, possibilita a produção de bens e serviços para o consumo, C, que gera utilidade, mas também gera um fluxo de poluição., P, que cria desutilidade. Ao invés de escrever a função utilidade simplesmente como U(E), como fizemos na seção introdutória desse capítulo, portanto, nossa funcional objetivo irá conter dois argumentos, C(E) e P(E). Forester, especifica a função consumo e a função poluição como segue: (7.72) ( )0C0,C )( <ʹ′ʹ′>ʹ′= ECC (7.73) ( )0P0,P )( >ʹ′ʹ′>ʹ′= EPP

15 Bruce A. Forester, “Optimal Energy Use in a Polluted Enviroment”, Journal of Enviromental Economics and Management, 1980, pp – 321 - 333. Enquanto esse trabalho apresenta três diferentes modelos, aqui confinaremos nossa atenção exclusivamente no primeiro deles, que assume uma fonte simples de energia produzindo um poluente não acumulativo. Outro modelo, tratando poluição como um estoque variável e envolvendo duas variáveis de estado será discutido na Sec. 8.8.

Page 40: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

40

Enquanto o uso da energia cresce a uma taxa decrescente, ela gera poluição a uma taxa crescente. Nesse modelo particular, poluição é assumida por simplicidade ser não acumulativa; isto é, ela é um fluxo que dissipa e não forma estoque. Isso é exemplificado pelo tipo auto-emissão de poluição.

A função utilidade social depende do consumo e da poluição, com derivadas como segue:

(7.74) ( )0U0,U0,U0,U0,U ),( CPPPCCPC =<<<>= PCUU A especificação de 0UC > e 0UCC < , mostra que a utilidade marginal do consumo é positiva, mas decrescente. Ao contrário, a especificação de 0UP < e 0UPP < revela que a utilidade marginal da poluição é negativa e diminui (dado um acréscimo particular em P,

PU pode diminuir de, digamos, – 2 para – 3). Em termos de desutilidade marginal de )( PUP −≡ , portanto, 0UPP < significa aumento na desutilidade marginal.

Desde que ambos C e P dependem de E, a utilidade social depende, em última análise, da energia usada exclusivamente – positivamente via consumo e negativamente via poluição. Isso significa que C e P podem ambos ser substituídos deixando E como o primeiro candidato a variável de controle. Outra única variável no modelo, S, aparece em (7.71) na forma derivada. Desde que é uma variável dinamicamente direcionada para variável de controle E, é claro que S faz aqui o papel de variável de estado.

O Problema do controle ótimo Se um Conselho de Energia é indicado para planejar e desenhar o caminho do tempo ótimo do uso da variável energia E sobre um especificado período de tempo [0,T], o problema de otimização dinâmica deve tomar a forma:

(7.75) dados) T( livre )( )0( e

)](),([

0,0

0

STSSSESasujeito

dtEPECUMaximizeT

=

−=

Essa particular formulação não permite fator de desconto no integrando, uma prática em Ramsey tradicional. E o Conselho de Energia compete a prudência de escolher o estoque terminal S(T), sujeito apenas a restrição imposta pela natureza de não negatividade. Desde que o tempo terminal é fixado, o problema se caracteriza por linha vertical terminal truncada. Com uma simples variável de controle E e uma simples variável de estado S, o problema pode ser resolvido facilmente. Maximização do Hamiltoniano A função Hamiltoniana

Page 41: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

41

(7.76) EEPECUH λ−= )](),([( envolve funções diferenciais não lineares U, C e P. Assim, podemos maximizar H com respeito a variável de controle simplesmente colocando sua derivada primeira igual a zero:

0)()( =−ʹ′+ʹ′=∂

∂λEPUECU

EH

PC

Quando resolvido, essa equação expressa E em termos de λ.

Para fazer tal como em (7.77) maximizar ao invés de minimizar o Hamiltoniano, verificamos o sinal EH 22 / ∂∂ . Desde que UC e UP são, como U, dependente de E, a segunda derivada é

0)( 222

2

<ʹ′ʹ′+ʹ′+ʹ′ʹ′+ʹ′=∂

∂ PUPUCUECUEH

PPPCCC [por (7.72), (7.73) e (7.74)]

O sinal negativo garante que H é maximizado. Os caminhos ótimos do co-estado e do controle Para extrair mais informação sobre E de (7.77), portanto, precisamos olhar dentro do caminho do tempo de λ. O princípio do máximo nos diz que a equação de movimento para λ é

0=∂

∂−=SH

λ implicando λ(t) = c (constante)

Para definir c, podemos recorrer a condição de transversalidade. Para o problema em mãos, com linha vertical terminal truncada, a condição toma a forma: (7.79) λ(T) ≥ 0 S(T) ≥ 0 λ(T) S(T) = 0 [por (7.35)] Em aplicações práticas desse tipo de condição, o passo inicial é colocar λ(T) = 0 (como se linha terminal não fosse truncada) para ver com solução irá trabalhar. Desde que λ(T) é constante por (7.78), para colocar λ(T) = 0 é realmente colocar λ(t) = 0 para todo t.

Com λ(t) = 0 (7.77) se reduz a uma equação numa simples variável E,

(7.80) 0)()( =ʹ′+ʹ′ EPUECU PC que, em princípio, pode ser resolvido pelo caminho do controle ótimo. Desde que essa equação é independente da variável t, sua solução é constante no tempo: (7.81) E*(t) = E* (uma constante específica) [se λ*(t) = 0]

Page 42: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

42

Se essa solução é aceitável do ponto de vista de S(T) ≥ 0 a restrição é, todavia, é ainda causa para ser estabelecida.

Entretanto, isso é usado para examinar o significado econômico de (7.80). O primeiro termo, )(ECUC ʹ′ , mede o efeito da troca em E sobre U via C. Isto é, representa a utilidade marginal do uso da energia através de sua contribuição para o consumo. Similarmente, o termo )(EPUP ʹ′ expressa a desutilidade marginal do uso da energia através de seu efeito poluição. O que (7.80) faz é, entretanto, direcionar o Conselho de Energia para selecionar o valor E* que equilibra a utilidade marginal e a desutilidade marginal do uso da energia, tanto quanto a familiar regra Custo Marginal = Receita Marginal requer para uma firma equilibrar os efeitos de custo e receita da produção.

O Caminho do estado ótimo Lembre-se de verificar se a solução E* em (7.81) pode satisfazer a restrição S(T) ≥ 0. Para esse propósito, devemos encontrar o caminho do estado S(t).

Com o uso da energia constante, a equação de movimento ES −= pode ser realmente integrada para gerar

kEttS +−=)( (k arbitrária)

Mais ainda, colocando t = 0 nesse resultado, é fácil ver que k representa o estoque inicial de combustível S0. Assim, o caminho do estado ótimo pode ser re-escrito como (7.82) EtStS −= 0)(*

O valor de S*(t) em qualquer tempo claramente depende da magnitude de E*. Desde que as funções que temos trabalhado – U(C,P), C(E) e P(E) – são todas gerais, E* não pode assumir um valor específico ou uma expressão paramétrica. Além disso, podemos examinar a restrição S(T) ≥ 0 qualitativamente.

Considere três valores ilustrativos de E* na Fig. 7.8, onde E*1 < E*2 < E*3. Quando a taxa do uso da energia E*1 está verdadeiramente baixa, o estoque S*(t) aparece como uma linha reta de inclinação suave, tal que S*(t) seja positivo. Com uma alta taxa do uso de energia, por outro lado, o estoque de combustível está caindo a zero no tempo T. Ainda assim, o Conselho de Energia usaria de sua autoridade. Mas, o outro caso, E*3, vinculando a exaustão pré matura da dotação do combustível, evidentemente viola a estipulação S(T) ≥ 0. Assim, se nossa solução E* em (7.81)

Page 43: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

43

tende ser como E*1 ou E*2, então a condição de transversalidade (7.79) é adequada e o problema solucionado. Mas se for como E*3, então devemos colocar S(T) = 0 e resolver o problema como se fosse um com ponto terminal dado. Nesse evento, o valor E* pode ser diretamente encontrado de (7.82) colocando t = T e S(T) = 0:

(7.83) 0* 0 ==TSE [se (7.81)viola S*(T) ≥ 0]

Esse novo E* está ilustrado por E*2 na Fig. 7.8.

É uma notável característica desse modelo que E*, a taxa do uso ótimo da energia, é constante no tempo. Essa constância de que E* prevalece mesmo que a restrição sobre o estoque terminal, S(T) ≥ 0, é amarrada [como em (7.83)] ou não amarrada [como em (7.81)]. Que hipótese do modelo é responsável por esse resultado? A resposta cai na ausência do fator de desconto. Se um fator de desconto é introduzido [veja Prob. 3, Exercício 7.7], o caminho E* então irá ser decrescente no tempo, conquanto que λ*(t) > 0. Entretanto, no outro caso em que λ*(t) = 0, E* será constante. Exercício 7.7

1. Suponha que a solução em (7.80) seja E*3 que é insuficiente para satisfazer a restrição S(T) ≥ 0, e conseqüentemente o Conselho de Energia é forçado a selecionar uma baixa taxa do uso de energia, E*2, por exemplo.

(a) E*3 satisfaz a regra “utilidade marginal = desutilidade marginal”? (b) E*2 satisfaz a regra? Se não, E*2 caracteriza-se por “utilidade marginal <

desutilidade marginal” ou “utilidade marginal > desutilidade marginal”? Explique.

2. Seja a condição terminal no modelo de Forester alterada de S(T) ≥ 0 para S(T) ≥ Smin >0. Como será modificada a Fig. 7.8 para mostrar que E*1 resulta em S(T) > Smin , E*2 resulta em S(T) = Smin e E*3 resulta em S(T) < Smin?

3. Suponha que o Conselho de Energia decida incorporar um fator de desconto te ρ− na funcional objetivo.

(a) Escreva o novo Hamiltoniano e encontre as condições que irão maximizar o novo Hamiltoniano.

t

S*(t)

E*= E*1

E*= E*2 E*= E*3

0

Figura 7.8

S*(t)=S0 – E*t E*1 < E*2 < E*3

Page 44: Teoria Do Controle Otimo Capitulo 7 Stamford (1)

44

(b) Examine o caminho ótimo do co-estado. Você conseguirá obter um caminho constante λ como em (7.78)?

(c) Se a condição de transversalidade λ(T) = 0 aplica-se, como será transformado a condição de maximização na parte (a)? Essa condição pode ser simplificada para (7.80)? O que você pode concluir sobre E* nesse caso?

(d) Se a condição de transversalidade é λ(T) > 0 e S(T) = 0, por exemplo, como será transformado a condição de maximização do Hamiltoniano na parte (a)? Encontre a derivada dtdE / e deduza o caminho característico de E*(t) para esse caso.