341sica econometria material de apoio curso de teoria ...£o básica econometria... · Carmem...

31
1 Material de apoio ao curso de Teoria Macroeconomica PPGE UFF Revisão de econometria básica Introduzindo a revolução Novo Clássica Bibliografia: introduction to econometrics G S Maddala e Kajal Lahiri 4a. Edição 2009 Carmem Feijó – Curso Macroeconomia Avançada

Transcript of 341sica econometria material de apoio curso de teoria ...£o básica econometria... · Carmem...

1

Material de apoio ao curso de Teoria Macroeconomica

PPGE UFF

Revisão de econometria básica

Introduzindo a revolução Novo Clássica

Bibliografia: introduction to econometrics

G S Maddala e Kajal Lahiri

4a. Edição 2009

Carmem Feijó – Curso Macroeconomia Avançada

2

Dados em Economia

• Amostra ou dados são uma coleção de n observações que são tratadas como variáveis

randômicas (i.e. variáveis cujos valores estão sujeitos ao acaso). Seja o seguinte levantamento (observação) de dados x:

• x é uma variável randômica. Os valores xi são independentes entre si e igualmente

prováveis.

• Variância é uma medida de dispersão: quanto menor, menos dispersos são os valores.

Variância nula significa que todos os valores são idênticos. A raiz quadrada da variância

(i.e. o desvio padrão) dá um valor mais semelhante a uma distância para indicar a

dispersão em relação à média.

Carmem Feijó – Curso Macroeconomia Avançada

.

.

...

..

µ = média da população = ?σ2 = variância da população = ?

População: renda das famílias

Amostra da população = x

= média da amostra

VAR(x) = variância da amostra

�̅

�̅ = 1/����

��

Estimativas não-tendenciosas de µ e σ2 :

n

� � � = 1� − 1� �� − �̅ �

��correção de Bessel� = ��� �desvio padrão:

3

Variáveis Randômicas

Carmem Feijó – Curso Macroeconomia Avançada

��� = 1

��Exemplos:

• Uma variável randômica é uma variável cujo valor é qualquer um dos resultados de um

experimento aleatório. Cada possível valor de uma variável randômica tem uma

probabilidade associada a ela, o que chamamos de distribuição de probabilidade.

Denotamos variáveis randômicas por letras maiúsculas e usamos letras minúsculas para denotar valores particulares destas variáveis. Desta maneira, a variável randômica X

pode assumir o valor xi que é associado à probabilidade pi, isto é: P(X = xi) = pi. A soma das

probabilidades de cada um dos valores possíveis de uma variável randômica é sempre

igual a 1:

1. X é o valor observado quando se joga um dado. Isto é, você joga um dado e X é o valor observado. Os valores possíveis são {1,2,3,4,5,6} e a probabilidade associada a cada um destes valores é 1/6. Fig.1(a)

2. Y é 1 se a moeda dá cara e 0 se dá coroa. Os valores possíveis são {0,1} e a probabilidade de cada um é ½.

3. Z é a quantidade de pizzas entregues por dia pela empresa A. Neste caso, os valores possíveis e as suas probabilidades podem ser calculados a partir das frequências relativas (se um houver um período bastante longo de observações). Fig1(b)

Distribuição de Probabilidades:

Fig. 1

4

Variáveis Randômicas: discretas

• Note que a probabilidade de uma variável randômica tomar um valor menor ou igual a xi

é igual P(X ≤ xi) = p1 + p2 + … + pi , pois são eventos mutuamente excludentes. Por exemplo, a probabilidade do dado rolar um número menor ou igual a 3 é igual a 1/6 + 1/6 + 1/6 = 0.5 (na Fig.1(a), basta somar as 3 primeiras barras). Já a probabilidade de serem entregues “1, 2 ou nenhuma pizza” é igual a 0.02 + 0.05 + 0.10 = 0.17 (i.e. a soma das 3 primeiras barras da Fig.1(b)). Na Fig.1(b), a soma da terceira, quarta e quinta barra dá a probabilidade de serem entregues 2, 3 ou 4 pizzas. A soma de todas as barras é sempre igual a 1.

• As variáveis randômicas dos exemplos anteriores (1 a 3) são chamadas de variáveis randômicas discretas, porque os valores possíveis são valores discretos, isto é, números inteiros. A característica é que estes valores podem ser contados (mesmo que sejam em quantidade infinita).

• A média de uma variável randômica, também chamada de valor esperado ou expectativa, é denotada como µX ou E(X): � � = ∑ ������ . E(X) é igual ao resultado médio de um experimento depois de um grande número de tentativas. Por exemplo, a média (i.e. o valor esperado) para uma quantidade grande de lançamentos de um dado é 3.5 (mesmo que seja impossível rolar um 3.5 com um dado de 6 faces): 1(1/6)+2(1/6)+3(1/6)+4(1/6)+5(1/6)+6(1/6) = 3.5.

• Agora imagine que a variável randômica X é o volume de chuva que ocorrerá no mês seguinte. Este valor pode ser 8.0 mm, 8.01 mm, 8.0005 mm, … . Uma infinidade de valores podem ser observados. Nem faz sentido falar de um valor exato de 8.0mm. Este tipo de variável é denominada variável randômica contínua. A ocorrência de qualquer valor exato de X pode ser considerado como tendo probabilidade zero.

Carmem Feijó – Curso Macroeconomia Avançada

5

Variáveis Randômicas Contínuas

• No caso de variáveis randômicas contínuas, as probabilidades

devem ser discutidas em termos de algum intervalo, e.g. a probabilidade do volume de chuva estar no intervalo [8.0, 8.2]

mm. Neste caso poderíamos construir uma distribuição de

probabilidades semelhante ao caso das variáveis randômicas

discretas (Fig. 2). Observe que a soma de todas as barras é igual a 1.

Carmem Feijó – Curso Macroeconomia Avançada

Fig. 2

• Fazendo barras cada vez mais estreitas no limite tem-se uma curva. Neste caso, podemos definir que uma variável randômica contínua é associada a uma função f(x),

chamada de função de densidade de probabilidade. A probabilidade de uma variável randômica cair dentro de um particular intervalo de valores é dada pela integral de f(x)

neste intervalo, ou seja: a probabilidade é dada pela área abaixo da curva (Fig.3).

f(x)

P(X ≤ b)

x

� � ≤ � = � � ��

� !�

� ≤ � ≤ � = � � ��

"!�

bx

ba

P(a ≤ X ≤ b)

f(x)

Fig. 3

6

Variáveis Randômicas Contínuas

• A média de uma variável randômica contínua, i.e. o valor esperado ou expectativa, é

dado por:

• A variância, como medida de dispersão, permanece sendo uma “distância” do ponto ao

valor médio que é elevada ao quadrado, porém “ponderada” pelo valor da função de

densidade de probabilidade:

Carmem Feijó – Curso Macroeconomia

Avançada

� � � = � � − � � �� � !�

Na realidade, a definição de

variância é diretamente feita em termos de E(X): var(X) = E([X –

E(X)]2), o que desenvolvendo leva

var(X) = E(X2)-(E(X))2.

7

Propriedades da Expectativa e da Variância

1. E(X + Y) = E(X) + E(Y)

2. var(X + Y) = var(X) + var(Y)

• Se c é uma constante (i.e. não-randômico):

3. E(cX) = cE[X]

4. var(cX) = c2var(X)

5. var(X + c) = var(X)

Carmem Feijó – Curso Macroeconomia Avançada

8

f(x|y)

x19 92

Densidade Conjunta e Condicional

• No caso de dois eventos A e B, P(AB) é a probabilidade da ocorrência conjunta de A e

B (i.e. a interseção dos dois eventos).

• A probabilidade de um evento A, dado que um outro evento B ocorreu é denotada por

P(A|B) e é definida como P(A|B) = P(AB)/P(B). Isto é: P(AB) = P(A|B)P(B).

• No caso de variáveis randômicas contínuas, definimos uma função de densidade de probabilidade conjunta (ou simplesmente “densidade/distribuição conjunta”) f(x,y)

para descrever a situação conjunta (Fig. 4). A integral dupla de f(x,y) é igual ao volume

abaixo da superfície. No caso de todo o domínio, este volume é igual a 1. Para um evento conjunto A (e.g. 55<x<74 e 1<y<26) a probabilidade de A é igual a:

Carmem Feijó – Curso Macroeconomia Avançada

Fig. 4

xy

f(x,y)

A

� � =# � �, % !�!%&

• A função de densidade de probabilidade condicional f(x|y) corresponde à função de

densidade de X dado Y = y.

• Similarmente à probabilidade condicional f(x|y) =

f(x,y)/fY(y). Isto é: f(x,y) = f(x|y)fY(y).

• fY(y) é chamada de densidade marginal.

• f(x|y) para y = 26 na Fig.4 corresponde ao corte

transversal da superfície.

y=26

9

Expectativa Condicional e Variância• Definimos expectativa condicional de X dado Y = y como:

• Note que é essencialmente � � = ' �� � !� � com f(x|y) no lugar de f(x). Por

simplicidade, indicamos Y = y por Y, i.e. escrevemos expectativa condicional como E[X|Y].

• O condicionamento pode ser sobre várias variáveis, e.g. E[X|Y1,Y2,…,Yn]. Neste caso, a

função de densidade condicional é f(x|y1,y2,…,yn).

• Podemos definir variância condicional em termos da média condicional:

• Uma notação para variância condicional: � � � ( = �)|+�• Algumas propriedades:

1. E(XY|Y) = Y E[E(X|Y)]

2. E(X) = E[E(X|Y)] , conhecida como Lei das Expectativas Totais (ou Lei Simples das Expectativas Iteradas)

3. E(X|Y1) = E[E(X|Y1,Y2)|Y1), conhecida como Lei das Expectativas Iteradas. Note que Y1 é parte do conjunto que

estamos condicionando. Poderíamos também apresentar esta propriedade como E(X|Y1) = E[E(X|Z)|Y1), onde Y1 é um

elemento de Z (ou seja, Y1 está contido em Z). Esta lei diz que o “conjunto de menor informação ganha”!

– Propriedades devidas à linearidade das expectativas condicionais:

4. E(a|Y) = a se a é uma constante

5. E(aX|Y) = aE(X|Y) se a é uma constante

6. E(aX+ bZ | Y) = aE(X|Y) + bE(Z|Y) se a e b são constantes

7. E(g(Y)X|Y) = g(Y)E(X|Y) e, em particular, E(g(Y)|Y) = g(Y) onde g é uma função g:ℜ→ℜ

Carmem Feijó – Curso Macroeconomia Avançada

� �|( = % = � ��)|+ �|% !�

� � � ( = � � − � �|( �|( = � �� ( − �[�|(]�

10

Independência e Correlação

• Duas variáveis randômicas X e Y são ditas independentes se a densidade conjunta f(x,y)

puder ser fatorada em um produto: f(x,y) = fX(x) fY(y)

– Esta situação é análoga à de eventos independentes. Dizemos que os eventos A e B

são independentes se a probabilidade de ocorrência de um não depende se o outro

tenha ocorrido ou não. Neste caso, a probabilidade da ocorrência conjunta de A e B é

dada por P(AB) = P(A)P(B).

– fX e fY são chamadas de densidades marginais.

• Se as distribuições fX e fY forem as mesmas, então dizemos que X e Y são independente e identicamente distribuídas (iid), i.e. X e Y têm a mesma distribuição de densidade e

são mutuamente independentes. Esta suposição existe em cross-sectional data.

• Quando duas variáveis randômicas não são independentes, calculamos a covariânciapara ter uma idéia de o quão fortemente elas estão relacionadas entre si. Uma forma fácil de calcular a covariância é dada por: cov(X,Y) = E(XY)−E(X)E(Y). E(XY) é chamada de

momento vetorial (cross moment). Uma notação para covariância é �)+.• Uma melhor quantidade para avaliar este grau de interelacionamento, por ser

adimensional, é o coeficiente de correlação: corr(X,Y) = cov(X,Y)/σXσY.

• Dizemos que duas variáveis são não-correlacionadas (uncorrelated) se e somente secorr(X,Y) = 0 (ou, o que é o mesmo, cov(X,Y) = 0). corr(X,Y) varia no intervalo [-1,1].

• Se X e Y são independentes, então elas são não-correlacionadas. Porém o inverso não

vale (e.g. em Y = X2, Y e X são perfeitamente dependentes, mas têm cov(X,Y) = 0).

Carmem Feijó – Curso Macroeconomia Avançada

11

Independência e Correlação• Quando trabalhamos com uma amostra com n medidas de X e Y, o coeficiente de

correlação da amostra rxy pode ser usado para estimar o coeficiente de correlação da

população corr(X,Y):

– Neste caso de apenas duas variáveis, costumamos usar o quadrado deste coeficiente, denotado por R2 e chamado de coeficiente de determinação, que varia de 0 a 1. Quanto mais perto de 1, mais correlacionado está (ou seja, X mais explica linearmente Y).

• Se o momento vetorial (cross moment) é igual a zero, i.e. E(XY) = 0, dizemos que X é

ortogonal a Y (e vice-versa). Ortogonalidade só corresponde a zero-correlação se E(X)

ou E(Y) é zero.

• Se X e Y são independentes, então:

– cov(X,Y) = 0.

– E(X|Y) = E(X)

• Propriedades da Covariância

– cov(X,Y) = cov(Y,X)

– cov(X,X) = var(X)

– cov(X,Y+Z) = cov(X,Y) + cov(X,Z)

– cov(X,a) = 0 , se a é constante

– cov(aX,bY) = ab cov(X,Y)

– cov(X+a,Y+b) = cov(X,Y)

– var(X + Y) = var(X) + 2cov(X,Y) + var(Y)

Carmem Feijó – Curso Macroeconomia Avançada

�./ = ∑ �� − �̅ %� − %0��∑ �� − �̅ ��� ∑ %� − %0 ���

12

Distribuição Normal• Dizemos que uma variável randômica X no intervalo [−∞, ∞] segue uma distribuição

normal se a sua função de densidade de probabilidade tem a forma de um sino, é

simétrica, é centrada no seu valor esperado µ e tem variância σ2 de maneira que:

• Denotamos com: X~3(5, ��). Quando é uma coleção de variáveis randômicas independente e

identicamente distribuídas (iid) indicamos como ����7~ 3(0, ��) ou ��~93(0, ��) ou ��~3. 9. 9. ;. (0, ��).

• A Fig.5 ilustra algumas distribuições normais, sendo a mais interessante a que tem média zero �~3(0, ��). Quando uma variável randômica tem média zero e variância é 1, i.e. �~3(0,1), chamamos X de variável normal padrão (standard normal variable).

• No caso de densidade conjunta f(x,y), se �~3 5., �.� e %~3 5/, �/� então dizemos que temos uma

distribuição normal bivariada (bivariate normal distribution). Neste caso, f(x,y) é uma expressão que

depende de 5., 5/, �.�, �/� e ρ. O parâmetro ρ é o coeficiente de correlação que mede o quão

fortemente as duas variáveis variam juntas.

• Se as variáveis econômicas não são normalmente distribuídas, sempre podemos considerar transformações das variáveis de maneira que as variáveis transformadas têm distribuição normal.

Carmem Feijó – Curso Macroeconomia Avançada

� � = 1� 2= >

���.�?@

A

Fig. 5

13

Distribuição Log-Normal

• Denotamos com �~BCD3 5, �� para indicar que a variável randômica X tem uma

distribuição log-normal com média 5 e variância ��. Uma distribuição log-normal é uma distribuição cujo logaritmo é normalmente distribuído. Portanto, se X é distribuído de

maneira log-normal, então Y = log(X) tem uma distribuição normal. Da mesma maneira,

se Y tem uma distribuição normal, então X =eY tem uma distribuição log-normal.

• A partir da definição de X log-normalmente distribuída, podemos mostrar que

• Se X é uma variável distribuída de forma log-normal, então:

• e, em particular, para n = 1 e média u = 0:

• Por exemplo, se uma variável randômica Z tem uma distribuição normal, i.e. Z~3 5, �� ,

então � >F = >GA AH .

Carmem Feijó – Curso Macroeconomia Avançada

� � = >?IA@A�

� � = >@A�

J>�~3 5, �� >�LãC>)~BCD3 5, ��

14

Equação de Regressão Linear• Lembrar a essência do que é estimativa de variáveis randômicas e estimador.• Suponha que queremos uma estimativa %N de uma variável randômica Y, sabendo apenas a sua função

de densidade de probabilidade � % . Uma maneira é minimizar o erro quadrático médio (mean square error - MSE) entre o resultado do experimento e a estimativa %N (lembre que média é dada pela expectativa E( )). Matematicamente queremos o valor que minimiza a seguinte expressão: � ( − %N � =' % − %N �� % !%. Derivando esta expressão com relação a %N e igualando a zero, obtemos %N = � ( , ou

seja a estimativa de Y é o seu valor médio (i.e. a sua expectativa) (a rigor também temos que calcular a

segunda derivada e verificar que é positiva – o que no caso dá o valor 2). Ademais, o mínimo erro quadrático médio é obtido substituindo %N = � ( em � ( − %N � , o que dá � ( − �[(] � ; o que por sua vez é igual à variância de Y - no slide 5: var(X) = E([X – E(X)]2)

• Considere agora que Y é relacionada a uma outra variável randômica X cujos valores já foram observados. O cálculo é similar e o valor que minimiza � ( − %N(�) �|� = � = ' % − %N(�) �� %, � !% é

%N(�) = � (|� = � , ou seja: a estimativa é a expectativa condicional de Y dado X = x. O mínimo erro quadrático médio é a variância condicional var(Y|X).

• Na prática, estamos interessados no estimador (i.e. no procedimento ou função que produz a estimativa) e não no resultado quando a variável X assume um específico valor. Estimativa e estimador são diferentes (assim como são diferentes o valor de uma função num específico ponto e a própria

função). Portanto, falaremos do estimador (O = �((|�) ao invés da estimativa %N(�) = � (|� = � , onde (Oé uma variável randômica, mas %N(�) não o é (porque x é um valor específico). �((|�) é uma variável randômica e não um número. Vamos também abusar da notação e usar letras minúsculas: % = � % � .

• Propriedade da Decomposição: qualquer variável randômica y pode ser expressa como % =� % � + Q onde Q é uma variável randômica satisfazendo (1) � Q � = 0 e (2) �(Qℎ � ) = 0, i.e. Qnão é correlacionada com qualquer função de x.

• Ao invés do estimador geral Mínimo MSE (onde f(y|x) é difícil de determinar), escolhemos uma relação linear entre y e x para minimizar o MSE (estimador Mínimo MSE Linear): � % � = S + T� (equação de regressão linear); que é equivalente a % = S + T� + Q , onde Q é o erro e y é o estimador. E como a variável x não está correlacionada com o erro Q, temos que � = � � + �, onde � é o erro.

Carmem Feijó – Curso Macroeconomia Avançada

15

Parâmetros de uma Equação de Regressão Linear

• Se a distribuição conjunta de y e x, i.e. � %, � = �(%|�)�) � , é normal bivariada e a

relação entre y e x é linear, podemos mostrar que:

• Podemos também deduzir (com algum algebrismo) que, no caso acima, temos:

• Portanto, podemos ver que regredir a equação U = V + WX + Y é equivalente a determinar os parâmetros da distribuição conjunta.

Carmem Feijó – Curso Macroeconomia Avançada

% = S + T� + ZZ~93 0, �/|.�� = � � + ��~ 93 0, �.�

onde os parâmetros S, T, �/|.� estão relacionados com a componente condicional � % �da distribuição conjunta � %, � , enquanto que os parâmetros � � , �.� estão

relacionados com a componente marginal �) � . Costumamos indicar os conjuntos de

parâmetros como: [� = S, T, �/|.� e [� = � � , �.� . Lembre que �/|.� é a notação para a

variância condicional � � % � e que �.� é � �(�). Note que, por construção, \C� �, Z = 0e os erros são independentes entre si, i.e. \C� Z, � = 0.

S = � % − T�(�)T = �/.�.�

�/|.� = �/� − �/. ��.�

onde �/. é a notação para \C� %, � .

16

Modelos de Regressão Linear

• Dadas n observações, todas as variáveis e todos os erros são randômicos.

• Tipos de variáveis

– endógenas (ou dependentes)

– predeterminadas

• exógenas

• defasadas (lagged)

• artificiais (dummy)

• Suposição de Linearidade: %� = S + T�� + ]^� + Z� para a observação i, sendo i = 1, … , n.

– xi e zi são variáveis randômicas exógenas denominadas de regressores. Para

simplificar a notação, estamos apresentando apenas dois regressores, mas seriam K

regressores: S���� + S���� +⋯+ S`��` + Z� (a = 1,2,⋯ , �). yi é a variável randômica

exógena (i.e. dependente).

– εi é o erro ou a pertubação. O termo de erro εi representa a parte da variável dependente deixada sem explicação pelos regressores .

– α, β e γ são os coeficientes de regressão. Eles representam os efeitos separados

dos regressores (também chamados de efeitos marginais). Por exemplo, βrepresenta a mudança na variável dependente quando o regressor xi aumenta de 1

(uma) unidade, enquanto todos os outros são mantidos constantes.

Matematicamente isto significa b%� b��⁄ = T. A suposição de linearidade implica que o

efeito marginal não depende do nível dos regressores.

Carmem Feijó – Curso Macroeconomia Avançada

17

Erro

• Fontes de erro

1. Elemento imprevisível de aleatoriedade quando se observam respostas humanas

• pessoas não se comportam com a regularidade de uma máquina!

2. Variáveis omitidas

3. Erros de medidas

• Erro no processo de registro

• Erro por usar uma variável “proxy” (visto que a verdadeira variável não é mensurável). Um exemplo de variável proxy é “anos de escolaridade” que supomos ser uma aproximação, um representante (proxy), para “educação”.

• Problemas com variáveis proxy

– Suponha que o verdadeiro modelo é % = T� + Z e que usamos os seguintes

proxies: %d = % + � e

– �d = � + e, onde v e u são erros de medida. x e y são chamadas de partes sistemáticas.

– O modelo em termos das variáveis observadas passa a ser %d = T�d + f onde f =Z + � − Te.

Carmem Feijó – Curso Macroeconomia Avançada

18

Erro

• Uma suposição que facilita os métodos de regressão é supor que o erro εi da equação

de regressão linear é a seguinte: εi são independente entre si e normalmente distribuído

com média zero e uma variância comum σ2. Indicamos esta situação como Z�~93(0, ��).• Outra suposição simplificadora é considerar que εi e os regressores xj e zj , no exemplo

anterior, são independentes para todos os i e j. Isto significa que a distribuição de não

depende do valor de x nem do valor de z.

• Para visualizar as duas condições acima, suponha a equação %� = S + T�� + Z�. Desta maneira, para um dado valor de x, teremos valores aleatórios de y que acompanha a

distribuição normal do erro ε. Por exemplo, para x = 5, y poderia ser 10.0, 10.6, 9.6, … .

Pela Fig.6, y seria 10.0, porque corresponde ao valor mais provável (os valores dos

coeficientes são estimados com esta suposição).

Carmem Feijó – Curso Macroeconomia Avançada

x = 5.0

y = 10.0y = 9.6

ε

0

mais provável

y

x

% = 2 + 0.5� + Z

independentes

independentes − +

ε

0− +

independentes

Fig. 6

19

Suposições do Modelo de Regressão Linear

• A amostra das n observações dos regressores forma a matriz de dados (hachureada nas figuras abaixo):

• Suposição 1 (Exogeneidade Estrita):

– Na Fig.7 a notação acima significa:

– Note que a condicionalidade é em relação a todos as n observações de todos os K regressores !

– A expectativa condicional � Z�|h�, ⋯ , h geralmente é uma função não-linear de h�, ⋯ , h . A

suposição de exogeneidade estrita diz que esta função é constante e de valor zero.

– Uma outra maneira de definir Exogeneidade Estrita é dizer que “os regressores são estritamente exógenos se h� é independente de εj para todo i, j”. Esta definição é mais forte do que a

apresentada acima (mas não é inconsistente com ela).

Carmem Feijó – Curso Macroeconomia Avançada

� Z�|h�, ⋯ , h = 0a = 1,2,⋯ , �

Obs. x z y

1 x1 z1 y1

2 x2 z2 y2

… … … …

i xi zi yi

… … … …

n xn zn yn

%� = S + T�� + ]^� + Z�

h� = ��^� h� =������⋯��`

vetor da i-ésimaobservaçãode 2 regressores:

vetor da i-ésimaobservaçãode K regressores:

� Z� | ��^� ,��^� , ⋯ ,

�^ = 0

h� →

x1 x2 … xK y

1 x11 x12 … x1K y1

2 x21 x22… x1K y2

… … … … … …

i xi1 xi2 xik xiK yi

… … … … … …

n xn1 xn2… xnK yn

Fig. 7 Fig. 8

matriz de dados matriz de dados

h� →

%� = S + T���� + T���� +⋯+ T`��` + Z�

20

Suposições do Modelo de Regressão Linear– As consequências da suposição de exogeneidade estrita são várias:

1. a expectativa do termo do erro é zero: E(εi) = 0 (i = 1,2,…,n)

– isto decorre diretamente da Lei das Expectativas Totais: E Z� = � � Z�|h�, ⋯ , h = 02. os regressores são ortogonais ao termo do erro para todas as observações:

– no caso geral de K regressores: � �klQ� = 0a, m = 1,⋯ , �; o = 1,⋯ , p– Note que a ortogonalidade diz respeito tanto ao termo de erro εi com a mesma observação

i, como ao termo de erro εi e qualquer outra observação j.

3. Porque a expectativa do termo do erro é zero, as condições de ortogonalidade (2) equivalem

a condições de correlação-zero: \C� Z� , �k = 0>\C� Z� , k̂ = 0a, m = 1,⋯ , �

– Quando há correlação, dizemos que há problemas de endogeneidade. Isto geralmente ocorre devido às fontes de erro relatadas no slide 13 e também quando lidamos com modelos de equações simultâneas.

− OBS: Para séries temporais (onde i é o tempo), a consequência de ortogonalidade da exogeneidade estrita

equivale a dizer que o termo de erro é ortogonal aos regressores passados, correntes e futuros.

− Mesmo quando o contexto não é o de séries temporais, a presença de variáveis defasadas (lagged) invalida a

suposição de exogeneidade estrita, e.g. %� = T%��� + Z� (que é o modelo autoregressivo de primeira ordem –

AR(1)); pois � %�Z� = � T%��� + Z� Z� = � T%���Z� + Z�� = T� %���Z� + � Z�� = � Z�� ≠ 0 mesmo quando

� %���Z� = 0. Ademais, yi é o regressor para a observação i+1, ou seja: o regressor não é ortogonal ao termo

de erro passado – o que viola a exogeneidade estrita!

Carmem Feijó – Curso Macroeconomia Avançada

� �kQ� = 0>� k̂Q� = 0a, m = 1,⋯ , �

21

Suposições do Modelo de Regressão Linear

• Suposição 2 (inexistência de multicolinearidade): nenhum dos K regressores pode

ser expresso como uma combinação linear dos outros

– Na Fig. 7, por exemplo, se xi = 2zi + 5, temos dois regressores perfeitamente colineares, o que inviabiliza o modelo. Na prática, nunca temos multicolinearidade perfeita, exata. O que temos são variáveis fortemente, mas não exatamente, relacionadas. Multicolinearidade causa valores elevados de erros-padrão, valores de estatística-t pequenos e excessiva sensibilidade (pequenas mudanças nos dados ou retirada/adição de variáveis provocam grandes mudanças nos parâmetros estimados).

• Suposição 3 (homoskedasticity):

– Em geral � Z��|h�, ⋯ , h é uma função não-linear de h�, ⋯ , h , mas a suposição de

homoskedasticity diz que é uma função constante. Se as condições de exogeneidade estritasão observadas, a suposição de homoskedasticity pode ser expressa em termos da variância, que tem uma interpretação mais simples: � � Z�|h�, ⋯ , h = �� para todo i. Isto é: há uma

variância comum para todos os termos de erro.

– � � Z�|h�, ⋯ , h = � Z��|h�, ⋯ , h − � Z�|h�, ⋯ , h � = � Z��|h�, ⋯ , h = \C�JL �L>, pois � Z�|h�, ⋯ , h = 0– Quando esta suposição é violada, dizemos que há heteroskedasticity. Quando

heteroskedasticity é detectada (há testes para tal), algumas soluções podem ser tentadas (incluindo a tentativa simples de transformar os dados em forma logarítmica).

Carmem Feijó – Curso Macroeconomia Avançada

� Z��|h�, ⋯ , h = \C�JL �L>a = 1,2,⋯ , �

22

Suposições do Modelo de Regressão Linear

• Suposição 4 (independência entre erros):

– Se as condições de exogeneidade estrita são observadas, a suposição de erros independentes

pode ser expressa em termos da covariância: cov Z� , Zk|h�, ⋯ , h = 0a, m = 1,⋯ , �; a ≠ m– cov Z� , Zk|h�, ⋯ , h = � Z�Zk|h�, ⋯ , h − � Z�|h�, ⋯ , h � Z�|h�, ⋯ , h = � Z�Zk|h�, ⋯ , h = 0– Para séries temporais, a suposição de erros independentes significa admitir que não há

correlação serial no termo de erro.

• Nas 4 suposições acima, explicitamos a condicionalidade com h�, ⋯ , h , tais como em

� Z��|h�, ⋯ , h = �� e � Z�Zk|h�, ⋯ , h = 0. Entretanto, é usual dispensar h�, ⋯ , h a

título de simplificação de notação. Neste caso apresentamos: � Z�� = ��, � Z�Zk = 0, � � Z� = �� e cov Z� , Zk = 0.

Carmem Feijó – Curso Macroeconomia Avançada

� Z�Zk|h�, ⋯ , h = 0a, m = 1,2,⋯ , �; a ≠ m

23

Modelos de Equações Simultâneas• As principais formas de endogeneidade (i.e. quando há correlação entre regressores e o termo de

erro) são:

– as oriundas de erros (variáveis omitidas e erros de medida) e

– simultaneidade (quando a variável explanatória é conjuntamente determinada com a variável dependente, tipicamente através de um mecanismo de equilíbrio).

• Suponha que escrevemos uma equação estrutural (estrutural no sentido de que vem da teoria econômica e tem interpretação causal; ou seja, no sentido de que vem de uma estrutura causal na economia) do tipo ℎ = � + ��f + \�^ + Z�. Se w for uma variável endógena (i.e. w é determinada pelo funcionamento do modelo) não poderemos regredir a equação e devemos buscar mais uma equação que, junta com a primeira, revele a relação entre h e w, e.g.: ℎ = � + ��f + \�� + Z�. Estas duas equações formam um Modelo de Equações Simultâneas, onde a simultaneidade é responsável pela correlação entre regressores e o termo de erro. No exemplo acima, esta correlação é facilmente percebida se colocarmos a primeira equação na segunda, quando então w revela sua dependência de Z�.

• O exemplo acima é o de um possível modelo de oferta (supply) e demanda (demand) do mercado de trabalho, onde h é a quantidade de horas de trabalho, w é o salário por hora médio, z é o salário médio de manufatura do país, e P é a preço médio da passagem do domicílio ao local de trabalho. As variáveis endógenas são h e w e as exógenas são z e P. Neste modelo, a curva de demanda ℎ7 = � + ��f + \�^ + Z� e a curva de oferta ℎu = � + ��f + \�� + Z� são relacionadas através da interseção da demanda e da oferta, que devem estar em equilíbrio ℎ7 = ℎu (Fig.9). Em um outro

exemplo qualquer de modelo de equações simultâneas, as relações entre variáveis explanatórias e variáveis

dependentes nem precisam vir de um mecanismo explícito de equilíbrio (como no caso acima) nem terem a mesma

variável no lado esquerdo das equações (Fig.10).

Carmem Feijó – Curso Macroeconomia Avançada

w

h

S

D DFig. 9

%� = �� + �%� + e%� = ��^ + ��%� + �Fig. 10

endógenas: y1 e y2

exógenas: x e z

24

Modelos de Equações Simultâneas

• Em um modelo de equações simultâneas, as variáveis exógenas permitem que as equações sejam identificadas (i.e. “identificadas” no sentido de que os seus parâmetros são estimados e as equações são reconhecidas). Se, por exemplo, a equação que estamos tentando estimar seus parâmetros puder ser obtida como uma combinação linear das outras, não será possível identificá-la. Ter o número exato de exógenas permite a identificação da equação.

• Independente das equações serem identificadas ou não, as equações estruturais do modelo não podem ser regredidas pelo método OLS. Mas se transformarmos as equações estruturais de maneira que as variáveis explanatórias são todas exógenas (i.e. no lado direito das equações só existem exógenas), podemos regredir (as equações transformadas) com o método OLS e através das transformações usadas poderemos obter os valores dos parâmetros das equações originais. As equações transformadas desta forma são chamadas de forma reduzida do modelo (ou equações de forma reduzida). E este procedimento de estimar os parâmetros do modelo chama-se de método LS Indireto (Indirect Least Squares).

• No exemplo anterior de demanda-oferta, a forma reduzida do modelo é obtida colocando a primeira equação na segunda e vice-versa, de maneira a resolver as duas equações para h e w em termos de z e D. As equações transformadas e os parâmetros originais calculados através das estimativas =Nk(obtidos por uma regressão LS) são os seguintes:

Carmem Feijó – Curso Macroeconomia Avançada

ℎ = =� + =�^ + =v; + ��f = =w + =x^ + =y; + ��

onde =� = ��� − ����� − ��

=� = \����� − ��=v = ⋯⋯

e �O� = =Nv=Ny �O� = =Nv=Ny\̂� = −=Nx �O� − �O� \̂� = =Ny �O� − �O�

N� = =N� − �O�=Nw N�= =N� − �O�=Nw

25

Caso2:ℎ = � + ��f + \�^ + Z� (não identificada)

ℎ = � + ��f + Z� (identificada)

Modelos de Equações Simultâneas - Identificação• Quando obtemos estimativas de todos os coeficientes estruturais de uma equação a partir das

estimativas dos coeficientes da forma reduzida, dizemos que esta específica equação é exatamente identificada, ou simplesmente identificada. Porém, algumas vezes, isto não é possível. Uma equação pode ter um excesso de exógenas e a forma reduzida do modelo pode levar a coeficientes estruturais com múltiplas estimativas (e não saberemos qual valor escolher). Neste caso, dizemos que a equação é sobre-identificada (overidentified). Outra situação é quando a equação tem exógenas de menos e nós não conseguimos obter estimativas dos coeficientes estruturais. Neste caso, onde a solução é impossível, dizemos que a equação é subidentificada (underidentified), também denominada de equação não identificada. Note que num mesmo modelo podemos ter uma equação exatamente identificada e outra subidentificada, assim como qualquer outra combinação de identificação (identificação é uma propriedade de cada equação). Veja estas situações nos seguintes modelos:

• Não é necessário encontrar a forma reduzida para verificar o tipo de identificação. Há testes para determinar o tipo de identificação de uma equação. Para o Caso 2 está apresentado o teste mais simples de condições apenas necessárias (mas não suficientes):

Carmem Feijó – Curso Macroeconomia Avançada

Caso1:ℎ = � + ��f + \�^ + Z� (identificada)

ℎ = � + ��f + \�� + Z� (identificada)

Caso3:ℎ = � + ��f + \�^ + !�� + Z� (não identificada)

ℎ = � + ��f + Z� (sobreidentificada)(múltiplas)g = 2

h w z k g-1

� � � 0 1

� � � 1 1

Caso4:ℎ = � + ��f + \�^ + Z� (identificada)

ℎ = � + ��f + \�� + Z� (não identificada)

26

Modelos de Equações Simultâneas – O Problema de Exogeneidade• Em modelos de equações simultâneas, a classificação de variáveis como endógenas e exógenas

termina sendo bastante arbitrária. Geralmente, valores correntes de algumas variáveis são tratados como endógenos e valores defasados (lagged) destas mesmas variáveis são tratadas como exógenas (mesmo quando os valores correntes e defasados estão altamente correlacionados). A recomendação, portanto, é ao invés de simplesmente contar o número de variáveis exógenas, devemos investigar o quão fortemente as variáveis estão correlacionadas. Algumas vezes elas estão tão fracamente correlacionadas que compensa considerar uma delas como exógena.

• Algumas vezes a endogeneidade de um modelo de equações simultâneas é aparente; isto é, não há viés (bias) de simultaneidade.

• Variáveis exógenas também podem levantar questionamentos sobre como validar modelos. Por exemplo, nos seguintes dois modelos (o primeiro é o mesmo da Fig.10), temos a mesma forma reduzida. Então fica a questão: � é o efeito de x sobre %� ou o efeito de z sobre %� ? Isto levanta a

crítica de que a capacidade de fazer previsão de uma equação não pode ser tomada como evidência para a validade de qualquer teoria.

• A maior crítica, entretanto, dos Novos Clássicos está na conhecida Crítica de Lucas ( slide 27).

Carmem Feijó – Curso Macroeconomia Avançada

%� = �X + �%� + e%� = ��� + ��%� + �

Endógenas: y1 e y2 Exógenas: x e z

%� = �� + �%� + e%� = ��X + ��%� + �

Endógenas: y1 e y2 Exógenas: x e z

27

Modelos de Equações Simultâneas – Superexogeneidade• Até meados da década de 70, a abordagem para modelos de equações simultâneas era a dominada

pela proposta da Cowles Foundation (Univ. de Chicago) que estabeleceram (no final dos 40s e início dos 50) a seguinte premissa: a classificação de variáveis em endógenas e exógenas e a estrutura causal do modelo são todos dados a priori e não são testáveis (i.e. exogeneidade e causalidade não podem ser testadas). O foco da Cowles Foundation era em métodos econométricos de estimativa. Isto não resiste às observações que já fizemos com relação a exogeneidade nem à mais contundente crítica de todas: aquela feita por R.E.Lucas em seu trabalho “Econometric Policy Evaluation: A Critique”, em 1976, que hoje é conhecida como a Crítica de Lucas.

• Um dos principais propósitos da estimativa de equações simultâneas é prever o efeito de mudanças nas variáveis exógenas sobre as variáveis endógenas. Entretanto, se as variáveis exógenas são mudadas e os agentes de maximização de lucros percebem as mudanças vindo, eles certamente modificarão seus comportamentos de acordo com tais mudanças. Portanto, os coeficientes dos modelos de equações simultâneas não podem ser assumidos invariantes, independentes, das mudanças nas variáveis exógenas. Esta é a essência da Crítica de Lucas. Uma solução para a Crítica de Lucas seria tornar os coeficientes dos sistemas de equações simultâneas dependentes das variáveis de políticas exógenas. Modelos de parâmetros variáveis já foram propostos. Entretanto, o uso de Expectativas Racionais, propostas pelo próprio Lucas, representa a linha dominante neste sentido. Veremos, mais a frente, que a Crítica de Lucas conduziu a propostas de tipos de exogeneidade, onde a chamada superexogeneidade seria o tipo relacionado à Crítica de Lucas e representaria uma condição necessária para propósitos de políticas. Entretanto, nem as Expectativas Racionais nem a superexogeneidade encontraram evidências empíricas claras até o momento.

• Lucas (1976) considera um modelo condicional dinâmico usado e especificado para simulação de políticas macroeconômicas. Os parâmetros de tal modelo devem refletir as regras de decisão dos agentes econômicos. Estes agentes são supostos integrarem tanto o conhecimento sobre políticas passadas como as expectativas sobre possíveis deslocamentos futuros das políticas. Com estas considerações não podemos esperar que as regras de decisão fiquem invariantes quando sujeitas a intervenções de políticas.

Carmem Feijó – Curso Macroeconomia Avançada

28

Modelos de Equações Simultâneas – Superexogeneidade• Para Lucas o comportamento passado é um guia pobre para avaliar os efeitos das ações de política.

Concluiu que modelos de forma reduzida não conseguem prover informação útil sobre as reais consequências de políticas alternativas porque a estrutura da economia muda quando a política muda (e, portanto, os parâmetros estimados variam). Propos um novo programa de pesquisa, real business cycle (ou equilibrium business cycle), onde os modelos usados para análise de políticas são imunes à crítica de Lucas no sentido de que são modelos de equilíbrio com comportamento olhando para frente (forward-looking behavior). Em 1983, foi proposto o conceito de superexogeneidade com o objetivo de ser usado para testar a relevância empírica da crítica de Lucas – algo que não foi ainda empiricamente evidenciado. Apesar disto, esta nova classificação de exogeneidade tem sido bastante usada. Para a classificação e o uso de superexogeneidade ver: Engle, Hendry e Richard (1983) e Engle e Hendry (1993).

• As variáveis exógenas em geral têm um grau fraco de exogeneidade, chamada de exogeneideade fraca (weak exogeneity). Podemos observar isto no caso de regressão linear simples (slide 15), onde

vemos que a estimativa de [� = S, T, �/|.� não necessita de informação sobre [� = � � , �.� ., i.e. [�e [� são dois conjuntos de parâmetros separados. Quando os parâmetros associadaos à distribuição marginal de uma variável exógena x não são necessários para a estimativa dos parâmetros associados à distribuição condicional da variável endógena y, dizemos que x é fracamente exógena para a estimativa de y. Este resultado pode ser estendido para sistemas de equações simultâneas com várias

variáveis exógenas. Normalmente são todas fracamente exógenas.

• A situação de mais forte exogeneidade, no sentido da crítica de Lucas, seria quando os parâmetros relacionados à distribuição condicional de y (e.g. [� no caso da regressão linear simples) permanecem invariantes a mudanças (i.e. a intervenções) na distribuição marginal da variável exógena x. Neste caso dizemos que x é uma variável superexógena. No exemplo da regressão linear simples, x é

fracamente exógenas, mas não é superexógena, porque mudanças em [� = � � , �.� provocam

mudanças em [� = S, T, �/|.� .

Carmem Feijó – Curso Macroeconomia Avançada

29

Modelos de Equações Simultâneas – Exogeneidade Forte• Continuando a classificação de egogeneidade, há uma situação intermediária entre a fraca e a super,

chamada de exogeneidade forte. Este conceito está relacionado precedência no tempo. Portanto usaremos o subescrito t nas variáveis.

• Se a variável xt é fracamente exógena e se xt não é precedida (no tempo) por nenhuma das outras variáveis endógenas do sistema, dizemos que xt é uma variável fortemente exógena.

• Um contraexemplo é o seguinte:

• A precedência que impede uma variável ser fortemente exógena pode ser verificada pelo conhecido teste de causalidade de Granger que testa se xt falha causar %�. A expressão “causar” no teste teste de Granger significa “preceder” (ou seja “causalidade de Granger” significa “precedência de Granger” –i.e. trata-se apenas de um termo inapropriado, porém muito usado). Um outro teste alternativo é fazer uma regressão de %� sobre todos os x defasados (passado), correntes e futuros. Neste caso se os coeficientes futuros da regressão forem zero, dizemos que xt falha causar %�.

Carmem Feijó – Curso Macroeconomia Avançada

onde e� e �� têm uma distribuição normal bivariada e são serialmente independentes(i.e. \C� e�, �� = 0). Nestas condições, xt é fracamente exógena (porque a distribuição marginal

de xt não envolve os parâmetros [� = T, �/�|.�� relacionados à distribuição condicional de y).

Porém xt não é fortemente exógena, porque a segunda equação mostra que %� precede xt

(xt depende de %���).

%� = T�� + e��� = S����� + S�%��� + ��

30

Modelos de Expectativas Adaptativas• Modelos de expectativas consideram a expectativa do agente econômico com relação a

variáveis econômicas. Vamos denotar X�∗ como sendo a expectativa de ��. Por exemplo,

%� = ���∗ + e�.• No modelo de expectativas adaptativas, agentes formam suas expectativas sobre o que

acontecerá no futuro baseados no que aconteceu no passado. Neste modelo, partindo de

que ��∗ = T����� + T����� + T����� +⋯, e considerando pesos geometricamente

decrescentes do tipo T� = T�[�, com 0 < [ < 1 de maneira que a soma acima converge,

podemos chegar à fórmula da expectativa adaptativa: ��∗ − ����∗ = (1 − [) ���� − ����∗ ,

onde ��∗ − ����∗ representa uma revisão da expecativa e ���� − ����∗ representa o erro mais

recente. Na prática usamos uma fórmula equivalente (após um algebrismo bem fácil):

��∗ − [����∗ = (1 − [)����.• A maneira mais fácil de estimar uma equação dentro do modelo de expectativas adaptativas

é a chamada estimativa na forma autoregressiva. Nesta técnica de estimativa (há

outras), primeiro defasamos a equação original de 1 período no passado, a multiplicamos

por λ e a subtraimos da original. Depois aplicamos a fórmula da expectativa adaptativa e

obtemos uma nova equação.

• No exemplo acima, subtraindo %� = ���∗ + e� de [%��� = �[����∗ + [e��� e considerando a

fórmula ��∗ − [����∗ = (1 − [)����, obtemos a seguinte expressão: %� = [%��� + �d���� + ��, onde �d = �(1 − [) e �� = e� − [e���. Esta equação envolve a regressão de %� sobre %���, o

que chamamos de forma autoregressiva. A autocorrelação do novo termo de erro também

fica evidente.

Carmem Feijó – Curso Macroeconomia Avançada

31

Expectativas Racionais• As expectativas dos agentes representam o melhor palpite do futuro que usa todas as informações

disponíveis no momento. Assumimos que as expectativas dos agentes podem estar erradas, mas são corretas na média ao longo do tempo (i.e. têm um corportamento verdadeiramente estatístico e não-tendencioso).

• Muth (1961) considerou que o erro de previsão é não-correlacionado com o conjunto completo de informações que está disponível para o agente na ocasião em que a previsão é feita. Denotamos este conjunto por 9��� para representar toda a informação disponível no tempo t−1.

• onde ��∗ depende de 9��� e ��∗ não é correlacionado com Z�; além de Z� não ser correlacionado com qualquer uma das variáveis no conjunto de informação 9���.

• Aplicando a média esperada (i.e. a expectativa matemática) nesta equação, temos que:

• A interpretação é que a parte esquerda é a expectativa subjetiva e a parte direita é a expectativa objetiva condicionada aos dados disponíveis quando a expectativa foi formada (i.e. os agentes se comportam como se tivessem completo conhecimento sobre o modelo que os econometristas estão estimando – em outras palavras: os agentes se comportam como se conhecessem não apenas a estrutura do modelo, mas também todos os seus parâmetros). Desta maneira, há uma conexão entre as crenças subjetivas dos agentes econômicos e o comportamento vigente do sistema econômico.

• A idéia básica é verificar se o erro �� − ��∗ é não-correlacionado com as variáveis no conjunto de informações 9���.

• Exemplo : �� = T���∗ + ]�^� + e� (onde �� é quantidade, ��∗ é o preço no tempo t conforme esperado no tempo t−1 e ^� é uma exógena). Quando todas as variáveis são conhecidas no tempo t−1(i.e. todas estão no conjunto de informações 9���), basta substituir��∗= �� − Z� na equação e estimar (até mesmo com OLS) a equação então resultante: �� = T��� + ]�^� + ��, onde o termo de erro é �� = e� − T�Z�.

Carmem Feijó – Curso Macroeconomia Avançada

�� = ��∗ + Z�

��∗ = � ��|9���

ou ��∗ = �� − Z�

expectativa subjetiva expectativa objetiva