Econometria
Transcript of Econometria
ECONOMETRIA 1
MODELO DE REGRESSÃO LINEAR SIMPLES
ECONOMETRIA
• REFERÊNCIAS:
• Introdução à Econometria – Uma abordagem Moderna.
Jeffrey M. Wooldridge 2ª edição – 2006
• Estatística e Introdução a Econometria – Alexandre Sartoris – Ed.Saraiva.
1ªedição - 2004
ECONOMETRIA
• Regressão: Processo o qual tenta se estimar a relação entre duas ou mais
variáveis
• Regressão Linear Simples: ocorre quando a regressão apresenta apenas
uma variável independente.
ECONOMETRIA
• Regressão Linear Simples(RLS)
• Formalmente a RLS se apresenta no seguinte formato:
• Sendo:
• equação da reta.
• : termo de erro.
• O termo , deve ser incluído na regressão, pois como mostra o gráfico, o
valor de Y não será exatamente dado pelo ponto da reta. Em segundo, o
termo , se refere diretamente a imprecisão de medidas, por mais preciso
que este seja.
iii exY
ix
ie
ie
ie
iY
ix
ECONOMETRIA
• Por fim, o erro da conta de todos os eventos de difíceis mensuração, mas
que são (supostamente) aleatórios. Se o modelo que estivermos trabalhando
estiver corretamente especificado, podemos supor, que em média o erro tem
valor zero, isto é, a probabilidade do erro ser x unidades acima da reta é a
mesma de ser x unidades abaixo da reta.
• Com isso, temos a primeira hipótese sobre o modelo de regressão:
• 1. , os erros tem média zero. 0ieE
ECONOMETRIA
• Método dos Mínimos Quadrados Ordinários (OLS)
• Estimar a reta de regressão significa na verdade, encontrar os
estimadores para α e β (pois estamos trabalhando com uma
amostra). Para isso, podemos reordenar as variáveis x e y da
seguinte forma:
• x e y são variáveis centradas na média.
Xx
Yy
ECONOMETRIA
• Assim:
• (1)
• Como por hipótese
• (2)
• Ao subtrairmos (2) de (1):
• Logo:
• (3)
• Tal metodologia pressupõe que queremos estimar uma reta que tenha o menor
erro possível. Mas somar erros não acrescenta muito, pois há erros negativos e
positivos, que irão se cancelar.
0ieE
iii eXY
0 XY
iii eXXYY )()(
iexy
ECONOMETRIA
• Para resolvermos isto, basta elevarmos ao quadrado, eliminando os
negativos. Então a melhor reta será aquela cuja a soma dos quadrados dos
erros for mínima. Daí: MQO ou OLS (ordinary least squares).
• De (3), usando as variáveis centradas na média:
• A soma dos quadrados dos erros:
• ou;
• Pelas propriedades da soma e como β é uma constante:
xye
)²()²(11
n
i
n
i
i xye )2²²()²(1
2
1
yxxyen
i
n
i
i
n
i
n
i
n
i
n
i
i xyxye1 111
2²²²)²(
ECONOMETRIA
• Para Encontrar o valor de β que dê o minimize essa soma, o procedimento é
derivar e igualar a zero. Como o valor de β é um estimador, utilizaremos logo
. .
• Derivando em relação a β e igualando a zero:
• Dividindo por dois em ambos os lados:
• Assim :
• (4)
02²ˆ2 xyx
0²ˆ xyx
0²
ˆ x
xy
ECONOMETRIA
• E o estimador para :
• Substituindo pelos respectivos estimadores:
•
• portanto:
•
(5)
XY
XY ˆˆ
XY ˆˆ
ECONOMETRIA
• Tabela 1:
Som/méd X Y x y x² y² xy
103 160 -50.57 -52.57 2575.56 2763.60 2667.92
123 167 -30.75 -45.57 945.56 2076.62 1401.27
145 205 -8.75 -7.57 76.56 57.30 66.23
126 173 -27.75 -39.57 770.06 1565.78 1098.06
189 256 35.25 43.43 1242.56 1886.16 1530.9
211 290 57.25 77.43 3277.66 5995.40 4432.86
178 237 24.25 24.43 588.06 596.82 592.42
∑ 1075 1488 0 0 9474.92 14941.68 11788.68
Média 153,7 212,5 0 0 1353.56 2134.52 1684.09
ECONOMETRIA
• Agora podemos facilmente estimar a reta de regressão que na
tabela representa os valores em negrito:
• = 1684.09 /1353.56 = 1.244
• E para o intercepto, utilizamos os valores em vermelho:
• = 212.57 – 1.244 x 153.75 = 21.28
• A reta a ser estimada é dada por:
• = 21.28 + 1.244.
• Significando que se x = 150:
• = 21.28 + 1.244. 150 = 207.88
XY ˆˆ
Y X
Y
ECONOMETRIA
• Devemos verificar se a regressão é boa e a maneira mais formal é calcular
a diferença entre os dados no exemplo e o da reta de regressão:
• = 21.28 + 1.244. 103 = 149.42
• = 21.28 + 1.244. 123 = 174.29
• = 21.28 + 1.244. 145 = 201.08
• = 177.52
• = 255.64
• = 282.92
• = 242.71
2Y
1Y
3Y
4Y
5Y
6Y
7Y
ECONOMETRIA
• Tabela 2
Soma/média
149.42 10.59
174.29 -7.29
201.08 3.92
177.52 -4.52
255.64 0.36
282.92 7.08
242 -5
∑ 1481.86 0
média 211.59 0
Y YY ˆ
ECONOMETRIA
• Essas diferenças não são os erros, é quase isso. Os erros são as diferenças
entre os valores de Y e a reta verdadeira, isto é, a reta oriunda de valores
populacionais de e (que não são conhecidos).
• As diferenças que encontramos são entre os valores de Y e os dados com os
valores amostrais de e . São, portanto, não os erros, mas os
estimadores dos erros, ou simplesmente os resíduos da regressão.
• Analisaremos, agora o quadro dos resíduos e sua variância, a análise da
variância é conhecido como ANOVA.
ECONOMETRIA
•
Soma/méd Resíduos Quadrado dos resíduos
149.42 10.59 112.78
174.29 -7.29 53.14
201.08 3.92 15.36
177.52 -4.52 20.43
255.64 0.36 0.129
282.92 7.08 50.12
242 -5 25
∑ 1481.86 0 276.04
média 211.59 0 39.56
Y
A análise da variância consiste em dividir a variável Y em duas partes:i) a explicada pela regressãoii) não explicada (resíduos)Então o primeiro passo é calcular a soma dos quadrados da variável Y e de suas partes explicada e não explicada.
ECONOMETRIA
• Calculamos, logo:
• 1) SQT Soma dos Quadrados Totais de Y(centrado);
• 2) SQE Soma dos Quadrados Explicativos (Y estimado);
• 3) SQR Soma dos Quadrados dos Resíduos.
• Com tais informações, já é possível tirar uma conclusão a respeito da
regressão, dado que SQR é uma parcela pequena do total ou podemos dizer
que SQE tem uma parcela importante.
•
ECONOMETRIA
• SQT = 14941.68 = ∑y².
• Para a SQE há duas maneiras:
• 1 – Calcular um a um tirando a média e elevando ao quadrado.
• 2 – Ou usarmos a equação da reta:
• SQE =
• = 1.244² . 9474.92 = 14662.62
• e SQR que já foi calculado:
• SQR = 276.92
• Notando que: SQT = SQR + SQE = 14662.62 + 276.96 = 14941.68
iXY ˆ
iXY ˆ
²²ˆ)²ˆ()²ˆ( ii XXY
ECONOMETRIA
• Essa proporção é conhecida como poder explicativo, coeficiente de
determinação ou simplesmente R²:
• R² = SQE/ SQT = 14665.62/ 14941.68 = 0.9814 = 98.14%
• Note que é impossível SQE > SQT e este também não pode ser negativo. Logo
0 ≤ R² ≤ 1.
• Como R² = 98.14%, dizemos que 98.14% da variância de Y é explicada por X,
indicando que a regressão de Y por X indicou um bom resultado.
•
ECONOMETRIA
• Contudo, a análise continua. Colocaremos os Graus de Liberdade(G.L)
• ( lembrando que G.L é adquirido através da variância amostral que é dada
por porque seu estimador é uma soma de n – 1
variáveis normais padronizadas, dado que S² é obtido de uma variável cuja a
distribuição é normal.). Para SQT, os Graus de Liberdade são os mesmos p/
variância amostral normal, ou seja, 7 – 1 = 6.
1/²)(²1
nXXSn
i
ECONOMETRIA
• SQR são os resíduos de uma reta e para uma reta são necessários dois pontos. Mas
com dois pontos, não temos variação nenhuma. Assim, devemos ter n – 2 G.L para os
resíduos, ou seja, 7 – 2 = 5.
• Para SQE, há dois modos:
• - diferença( 6 – 5 = 1)
• - o fato de que há apenas uma variável explicativa.
• Utilizando de uma tabela temos:
• Soma dos Quadrados G.L Quadrados Médios
SQE = 14662.62 1 14662.62
SQR = 276.96 5 55.39
SQT = 14941.68 6 2489.93
ECONOMETRIA
• Os quadrados médios são as variâncias propriamente ditas. Iremos testar,
estatisticamente falando, se a variância explicada é maior do que a variância
dos resíduos, ou seja, faremos a comparação de variâncias.
• O Teste F é feito,dividindo-se uma variância pela outra. Mas para tal teste, é
necessário que as variáveis das quais foram obtidas as variâncias sejam
normais, isto é, Y é normalmente distribuído: Como ela é uma reta, mais um
erro aleatório, a variância de Y será dada pela variância do erro. Portanto,
criaremos uma hipótese adicional sobre o erro, a de que ele segue uma
distribuição normal. Então:
• Soma dos Quadrados
G.L Quadrados Médios
Teste F
SQE = 14662.62
1 14662.62 264.71
SQR = 276.96 5 55.39
SQT = 14941.68
6 2489.93
ECONOMETRIA
• Consultando a Tabela de distribuição F, acharemos o valor limite da distribuição
para o teste, com 1 G.L para o numerador e 5 para o denominador, a 5% de
significância:
• F1,5 = 6.61 FTABELADO
• FCALCULADO = 264.71
• Logo Fc > FT. Na regressão, temos a hipótese nula de que as variâncias são
iguais. Se rejeitarmos H0, isso significa que a regressão explica mais do que
não explica, considerando a regressão válida. No nosso caso, Fc > FT, por isso
a regressão é valida a 5% de significância.
ECONOMETRIA
• Teste de Significância dos Parâmetros.
• Testar a significância dos parâmetros significa testar H0 de que e são, na
verdade, iguais a zero. Isto é, será que os parâmetros não existem de fato, e o
valor que encontramos é apenas resultados da amostra?
• Isto equivale a testar as seguintes hipóteses p/ (assim como p/ ):
0:
0:
1
0
H
H
ECONOMETRIA
• Como são variáveis normalmente distribuídas, cuja a variância não
conhecemos ao certo, a distribuição a ser utilizada é a t de Student. Os valores
tabelados com 5 (= n -2) G.L, com 1%, 5% e 10% (bicaudais) são:
• E o valor calculado da estatística t é dado por:
• Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão.
032,4
570,2
015,2
%1,5
%5,5
%10,5
t
t
t
ˆˆ
ˆ0ˆ
SS
ECONOMETRIA
• A questão, agora, é encontrar o dp de . Sabemos que:
• Então:
•
• O estimador dessa variância (amostral)será:
•
• Onde var(yi) = var(resíduos)
²varˆvar
i
ii
x
yx
i
i
iy
x
xS var
²2
2
2ˆ
²ˆ
i
ii
x
yx
ECONOMETRIA
• Já que a variância de Y dado X, ou seja, a variância de Y no modelo de
regressão, é a própria variância dos resíduos, que já calculamos na ANOVA é
igual a 55,39 e foi obtida por meio da expressão SQR/(n-2):
• O cálculo da estatística é, então:
• Como o valor calculado é superior aos tabelados, rejeitamos H0 de que .
• Dizemos então que é estatisticamente diferente de zero ou significante a 1%.
28,160764,0
244,1ˆ
0764,000584,092,9474
39,55
ˆ
ˆ2ˆ
S
SS
resíduosx
nSQRS
i
var2/
22ˆ
0
ECONOMETRIA
• O Procedimento para é quase o mesmo. A diferença está no cálculo de seu
desvio padrão. Sabemos que:
• Cujo o estimador será dado por:
• Logo também é estatisticamente
significante a 1%
ˆvarvarˆvar
ˆvarvarˆvarˆvarˆvar
ˆˆ
2Xn
y
XYXY
XY
22
22ˆ
2/
2 ix
nSQRX
n
SQR
n
nS
2
22ˆ
1
2 ix
X
nn
SQRS
441,4 72,19
92,9474
7,153
7
139,55 ˆ
22ˆ
SS
791,4441,4
28,21ˆ
ˆ
S
ECONOMETRIA
• Ex: Uma amostra de 16 observações de duas variáveis Y e X, foram obtidos os
seguintes resultados:
• Estimemos os parâmetros da reta de regressão e testemos sua significância,
assim como a validade da regressão. Os parâmetros da regressão serão dados
por:
59,587.23 4,764.127
12,567.58 43,553.10
35,511.288 751.57
1,1891 869
22
22
xyXY
yx
YX
YX
51,116
869235,2
16
1,918.1ˆˆ
e 235,243,553.10
59,587.23ˆ2
XY
x
xy
i
ECONOMETRIA
• O modelo encontrado é então:
• Para testar a validade da regressão, montamos uma ANOVA. Para isso,
calculamos as somas dos quadrados:
XY 235.251.1ˆ
37,847.5
75,719.52ˆ
12,567.58
22
2
SQESQTSQR
xSQE
ySQT
Soma dos Qdos G.L Qdos Médios Teste F
SQE= 52.719,75
SQR= 5.847,37
1
14
52.719,75
417,67
126,22
SQT= 58.567,12 15 3.904,47
ECONOMETRIA
• Usando a Tabela com GL1,14 a 5%, valor encontrado é 4,60. Com isso,
aceitamos a validade da regressão. O poder explicativo é:
• Quanto a significância dos parâmetros, temos que seus desvios-padrão são:
• As estatísticas t serão, portanto:
9002,012,567.58
75,719.522 R
199,0 e 95,11 ˆˆ SS
2.11199,0
235,2
ˆ
13.095,11
51.1ˆ
ˆ
ˆ
S
S
ECONOMETRIA
• Os valores críticos para a distribuição t , com 14 G.L são:
• Como o valor encontrado para é superior a todos esses valores, temos que
ele é significante a 1%.
• Já para , ocorre o contrário, portanto, concluímos que não é significante,
o que vale dizer que não podemos rejeitar a hipótese de que é zero.
Poderíamos, também, dizer que o intercepto não existe.
• O procedimento agora seria, logo, retirar o intercepto, isto é, estimar novamente
a regressão sem o coeficiente , o que é feito no exemplo seguinte.
•
98,2
14,2
76,1
%1,14
%5,14
%10,14
t
t
t
ECONOMETRIA
• Tendo em vista que o intercepto da regressão do exemplo anterior era não
significante estatisticamente, estimemos novamente a regressão, só que sem
intercepto:
• (reta que passa pela origem)
• Quando encontramos o estimador de M.Q.O, havíamos substituímos as
variáveis originais ( X e Y) por variáveis centradas na média. O objetivo era,
exatamente, eliminar o intercepto da equação. Como ele agora não existe
mesmo, o estimador de MQO será o mesmo, exceto pelo fato de que não
usaremos mais variáveis centradas.
ii XY
²ˆ
i
ii
X
YX
ECONOMETRIA
• Substituindo pelos valores dados no ex. anterior:
• O modelo será:
• E, para o teste do coeficiente encontrado, precisaremos de seu dp. Temos que o SQE
pela regressão é dada por:
• A soma dos quadrados dos resíduos será, portanto:
• E, assim, podemos encontrar a variância dos resíduos (que é a própria variância da
regressão):
212,2751.57
4,764.127ˆ
XY 212,2ˆ
3,657.282ˆ 22 XSQE
05,854.53,657.28235,511.288ˆ 222 XYSQESQTSQR
27,39015
05,854.5
1var 2
n
SQRSresiduos
ECONOMETRIA
• Repare que usamos n – 1 e não n – 2, como fazíamos quando a regressão
incluía o intercepto. Isso é fácil de entender já que, ao excluir o intercepto,
implicitamente supomos conhecer a existência de pelo menos um ponto da
reta, que é a origem, o que nos faz ganhar um grau de liberdade.
• Para calcular a variância ( e o dp) do coeficiente , usamos a mesma fórmula
já usada anteriormente, apenas trocando o x (centrado) pelo X:
• Portanto, a estatística t será:
•
082,000676,0
751.57
27,3901/ˆ2
2ˆ
SX
nSQRS
i
27082,0
212,2ˆ
ˆ
S
ECONOMETRIA
• O que, evidentemente, é maior do que os valores tabelados. Em todo caso,
esses valores, para 15 GL, são:
• E, obviamente, o valor encontrado, 27, é maior do que os tabelados, sendo
então, significante a 1%.
95,2
13,2
75,1
%1,15
%5,15
%10,15
t
t
t
ECONOMETRIA
• O R², tb deve ser visto com reservas qdo se trata de uma regressão sem
intercepto. Isso porque, na medida em que usamos variáveis não centradas, ele
é diferente do R² usual e ambos não podem ser comparados ( pois se usarmos
o R² c/as variáveis centradas, o resultado poderá ser negativo).
• Esse R² especial p/modelos sem intercepto é conhecido como R² não centrado
ou R² bruto. Nesse caso:
9797,035,511.288
3,657.2822 NCR
ECONOMETRIA
• Quando comparamos os resultados obtidos nos dois modelos ( com e sem
intercepto), verificamos que as diferenças entre os coeficientes são muito
pequenas. O dp, quando a estimação foi realizada sem intercepto, foi menor ( o
q é uma vantagem).
• De fato, se a reta realmente passa pela origem, é razoável que uma estimação
que leve isso em conta seja mais precisa.
• Obs: Devido a relação custo – benefício (devido a erros de especificação e
avaliação no modelo) a estimação sem intercepto só é recomendável se existir
uma razão muito forte em se acreditar que a reta passe pela origem.
ECONOMETRIA
• Hipótese de Normalidade:
• As hipóteses até o momento para regressão:
• 1) E(εi) = 0, os erros tem média zero.
• 2) εi são normalmente distribuídos.
ECONOMETRIA
• Propriedades dos estimadores de mínimos quadrados:
• O estimador de β é não viesado?
•
• Como a esperança da soma é a soma das esperanças:
• e como β é uma constante:
•
²)ˆ(
i
ii
x
yx
²
)()ˆ(
i
iii
x
xx
²
)²()ˆ(
i
iii
x
xx
²²
²)ˆ(
i
ii
i
i
x
x
x
x
²²
²)ˆ(
i
ii
i
i
x
x
x
x
²)ˆ(
i
ii
x
x
²)ˆ(
i
ii
x
x
ECONOMETRIA
• Olhando o termo dentro da esperança, vemos que os valores xi são fixos, ou para ser
mais preciso, fixos em amostras repetidas. Ex: Imóveis.
Um imóvel é sorteado na amostra e este tem uma área(m²).Se por acaso este for
novamente sorteado, ele irá apresentar a mesma área, ou seja, valor fixo, e que não
depende de Pbdd. Logo, a área de um imóvel se enquadra nesta hipótese.
• Isto não se aplicaria se: ex: nota de um aluno.
• P1 8,0
• P2 não necessariamente tiraria a mesma nota, então, dependeríamos de uma
distribuição de Pbdd e neste caso x é uma variável estocástica.
• Se x for fixa então xi pode ser estimado como uma constante:
²)ˆ(
i
ii
x
x
0)( iiii xx
ECONOMETRIA
• Já que , logo:
• Dessa forma, , é um estimador não viesado do coeficiente • Assim:•
0)( i
²)ˆ(
i
ii
x
x
os)estocástic (não fixos são .3
osdistribuíd enormalment são .2
0)( .1
i
i
i
x
ECONOMETRIA
• Isso significa que, se for estocástica o coeficiente não será viesado se mantivermos a
condição de que , o que equivale a dizer que
Já que , podemos garantir que o estimador é não viesado, ou seja,
•
• EFICIÊNCIA E BLUE Se além das hipóteses 1 e 3 os tiverem variância constante e
forem não autocorrelacionados (erros independentes) o Teorema de Gauss-Markov
mostra que o estimador de MQO apresenta a menor variância entre todos, que são
lineares e não viesados, portanto um BLUE:
• 4. (constante)
• 5. (os erros não são autocorrelacionados).
• Se ainda levarmos em conta a hipótese de normalidade, é possível demonstrar
(desigualdade de Cramer-Rao) que o estimador tem a menor variância entre todos os
estimadores não viesados de , isto é, é um estimador eficiente.
0iixeE
ix
0iixeE iiii xeExe cov
ix
ie
2var ie
jieeE ji 0
3. * , os xi são não correlacionados com os erros 0iixeE