Econometria

ECONOMETRIA 1

MODELO DE REGRESSÃO LINEAR SIMPLES

ECONOMETRIA

• REFERÊNCIAS:

• Introdução à Econometria – Uma abordagem Moderna.

Jeffrey M. Wooldridge 2ª edição – 2006

• Estatística e Introdução a Econometria – Alexandre Sartoris – Ed.Saraiva.

1ªedição - 2004

ECONOMETRIA

• Regressão: Processo o qual tenta se estimar a relação entre duas ou mais

variáveis

• Regressão Linear Simples: ocorre quando a regressão apresenta apenas

uma variável independente.

ECONOMETRIA

• Regressão Linear Simples(RLS)

• Formalmente a RLS se apresenta no seguinte formato:

• Sendo:

• equação da reta.

• : termo de erro.

• O termo , deve ser incluído na regressão, pois como mostra o gráfico, o

valor de Y não será exatamente dado pelo ponto da reta. Em segundo, o

termo , se refere diretamente a imprecisão de medidas, por mais preciso

que este seja.

iii exY

ix

ie

ie

ie

iY

ix

ECONOMETRIA

• Por fim, o erro da conta de todos os eventos de difíceis mensuração, mas

que são (supostamente) aleatórios. Se o modelo que estivermos trabalhando

estiver corretamente especificado, podemos supor, que em média o erro tem

valor zero, isto é, a probabilidade do erro ser x unidades acima da reta é a

mesma de ser x unidades abaixo da reta.

• Com isso, temos a primeira hipótese sobre o modelo de regressão:

• 1. , os erros tem média zero. 0ieE

ECONOMETRIA

• Método dos Mínimos Quadrados Ordinários (OLS)

• Estimar a reta de regressão significa na verdade, encontrar os

estimadores para α e β (pois estamos trabalhando com uma

amostra). Para isso, podemos reordenar as variáveis x e y da

seguinte forma:

• x e y são variáveis centradas na média.

Xx

Yy

ECONOMETRIA

• Assim:

• (1)

• Como por hipótese

• (2)

• Ao subtrairmos (2) de (1):

• Logo:

• (3)

• Tal metodologia pressupõe que queremos estimar uma reta que tenha o menor

erro possível. Mas somar erros não acrescenta muito, pois há erros negativos e

positivos, que irão se cancelar.

0ieE

iii eXY

0 XY

iii eXXYY )()(

iexy

ECONOMETRIA

• Para resolvermos isto, basta elevarmos ao quadrado, eliminando os

negativos. Então a melhor reta será aquela cuja a soma dos quadrados dos

erros for mínima. Daí: MQO ou OLS (ordinary least squares).

• De (3), usando as variáveis centradas na média:

• A soma dos quadrados dos erros:

• ou;

• Pelas propriedades da soma e como β é uma constante:

xye

)²()²(11

n

i

n

i

i xye )2²²()²(1

2

1

yxxyen

i

n

i

i

n

i

n

i

n

i

n

i

i xyxye1 111

2²²²)²(

ECONOMETRIA

• Para Encontrar o valor de β que dê o minimize essa soma, o procedimento é

derivar e igualar a zero. Como o valor de β é um estimador, utilizaremos logo

. .

• Derivando em relação a β e igualando a zero:

• Dividindo por dois em ambos os lados:

• Assim :

• (4)

02²ˆ2 xyx

0²ˆ xyx

0²

ˆ x

xy

ECONOMETRIA

• E o estimador para :

• Substituindo pelos respectivos estimadores:

•

• portanto:

•

(5)

XY

XY ˆˆ

XY ˆˆ

ECONOMETRIA

• Tabela 1:

Som/méd X Y x y x² y² xy

103 160 -50.57 -52.57 2575.56 2763.60 2667.92

123 167 -30.75 -45.57 945.56 2076.62 1401.27

145 205 -8.75 -7.57 76.56 57.30 66.23

126 173 -27.75 -39.57 770.06 1565.78 1098.06

189 256 35.25 43.43 1242.56 1886.16 1530.9

211 290 57.25 77.43 3277.66 5995.40 4432.86

178 237 24.25 24.43 588.06 596.82 592.42

∑ 1075 1488 0 0 9474.92 14941.68 11788.68

Média 153,7 212,5 0 0 1353.56 2134.52 1684.09

ECONOMETRIA

• Agora podemos facilmente estimar a reta de regressão que na

tabela representa os valores em negrito:

• = 1684.09 /1353.56 = 1.244

• E para o intercepto, utilizamos os valores em vermelho:

• = 212.57 – 1.244 x 153.75 = 21.28

• A reta a ser estimada é dada por:

• = 21.28 + 1.244.

• Significando que se x = 150:

• = 21.28 + 1.244. 150 = 207.88

XY ˆˆ

Y X

Y

ECONOMETRIA

• Devemos verificar se a regressão é boa e a maneira mais formal é calcular

a diferença entre os dados no exemplo e o da reta de regressão:

• = 21.28 + 1.244. 103 = 149.42

• = 21.28 + 1.244. 123 = 174.29

• = 21.28 + 1.244. 145 = 201.08

• = 177.52

• = 255.64

• = 282.92

• = 242.71

2Y

1Y

3Y

4Y

5Y

6Y

7Y

ECONOMETRIA

• Tabela 2

Soma/média

149.42 10.59

174.29 -7.29

201.08 3.92

177.52 -4.52

255.64 0.36

282.92 7.08

242 -5

∑ 1481.86 0

média 211.59 0

Y YY ˆ

ECONOMETRIA

• Essas diferenças não são os erros, é quase isso. Os erros são as diferenças

entre os valores de Y e a reta verdadeira, isto é, a reta oriunda de valores

populacionais de e (que não são conhecidos).

• As diferenças que encontramos são entre os valores de Y e os dados com os

valores amostrais de e . São, portanto, não os erros, mas os

estimadores dos erros, ou simplesmente os resíduos da regressão.

• Analisaremos, agora o quadro dos resíduos e sua variância, a análise da

variância é conhecido como ANOVA.

ECONOMETRIA

•

Soma/méd Resíduos Quadrado dos resíduos

149.42 10.59 112.78

174.29 -7.29 53.14

201.08 3.92 15.36

177.52 -4.52 20.43

255.64 0.36 0.129

282.92 7.08 50.12

242 -5 25

∑ 1481.86 0 276.04

média 211.59 0 39.56

Y

A análise da variância consiste em dividir a variável Y em duas partes:i) a explicada pela regressãoii) não explicada (resíduos)Então o primeiro passo é calcular a soma dos quadrados da variável Y e de suas partes explicada e não explicada.

ECONOMETRIA

• Calculamos, logo:

• 1) SQT Soma dos Quadrados Totais de Y(centrado);

• 2) SQE Soma dos Quadrados Explicativos (Y estimado);

• 3) SQR Soma dos Quadrados dos Resíduos.

• Com tais informações, já é possível tirar uma conclusão a respeito da

regressão, dado que SQR é uma parcela pequena do total ou podemos dizer

que SQE tem uma parcela importante.

•

ECONOMETRIA

• SQT = 14941.68 = ∑y².

• Para a SQE há duas maneiras:

• 1 – Calcular um a um tirando a média e elevando ao quadrado.

• 2 – Ou usarmos a equação da reta:

• SQE =

• = 1.244² . 9474.92 = 14662.62

• e SQR que já foi calculado:

• SQR = 276.92

• Notando que: SQT = SQR + SQE = 14662.62 + 276.96 = 14941.68

iXY ˆ

iXY ˆ

²²ˆ)²ˆ()²ˆ( ii XXY

ECONOMETRIA

• Essa proporção é conhecida como poder explicativo, coeficiente de

determinação ou simplesmente R²:

• R² = SQE/ SQT = 14665.62/ 14941.68 = 0.9814 = 98.14%

• Note que é impossível SQE > SQT e este também não pode ser negativo. Logo

0 ≤ R² ≤ 1.

• Como R² = 98.14%, dizemos que 98.14% da variância de Y é explicada por X,

indicando que a regressão de Y por X indicou um bom resultado.

•

ECONOMETRIA

• Contudo, a análise continua. Colocaremos os Graus de Liberdade(G.L)

• ( lembrando que G.L é adquirido através da variância amostral que é dada

por porque seu estimador é uma soma de n – 1

variáveis normais padronizadas, dado que S² é obtido de uma variável cuja a

distribuição é normal.). Para SQT, os Graus de Liberdade são os mesmos p/

variância amostral normal, ou seja, 7 – 1 = 6.

1/²)(²1

nXXSn

i

ECONOMETRIA

• SQR são os resíduos de uma reta e para uma reta são necessários dois pontos. Mas

com dois pontos, não temos variação nenhuma. Assim, devemos ter n – 2 G.L para os

resíduos, ou seja, 7 – 2 = 5.

• Para SQE, há dois modos:

• - diferença( 6 – 5 = 1)

• - o fato de que há apenas uma variável explicativa.

• Utilizando de uma tabela temos:

• Soma dos Quadrados G.L Quadrados Médios

SQE = 14662.62 1 14662.62

SQR = 276.96 5 55.39

SQT = 14941.68 6 2489.93

ECONOMETRIA

• Os quadrados médios são as variâncias propriamente ditas. Iremos testar,

estatisticamente falando, se a variância explicada é maior do que a variância

dos resíduos, ou seja, faremos a comparação de variâncias.

• O Teste F é feito,dividindo-se uma variância pela outra. Mas para tal teste, é

necessário que as variáveis das quais foram obtidas as variâncias sejam

normais, isto é, Y é normalmente distribuído: Como ela é uma reta, mais um

erro aleatório, a variância de Y será dada pela variância do erro. Portanto,

criaremos uma hipótese adicional sobre o erro, a de que ele segue uma

distribuição normal. Então:

• Soma dos Quadrados

G.L Quadrados Médios

Teste F

SQE = 14662.62

1 14662.62 264.71

SQR = 276.96 5 55.39

SQT = 14941.68

6 2489.93

ECONOMETRIA

• Consultando a Tabela de distribuição F, acharemos o valor limite da distribuição

para o teste, com 1 G.L para o numerador e 5 para o denominador, a 5% de

significância:

• F1,5 = 6.61 FTABELADO

• FCALCULADO = 264.71

• Logo Fc > FT. Na regressão, temos a hipótese nula de que as variâncias são

iguais. Se rejeitarmos H0, isso significa que a regressão explica mais do que

não explica, considerando a regressão válida. No nosso caso, Fc > FT, por isso

a regressão é valida a 5% de significância.

ECONOMETRIA

• Teste de Significância dos Parâmetros.

• Testar a significância dos parâmetros significa testar H0 de que e são, na

verdade, iguais a zero. Isto é, será que os parâmetros não existem de fato, e o

valor que encontramos é apenas resultados da amostra?

• Isto equivale a testar as seguintes hipóteses p/ (assim como p/ ):

0:

0:

1

0

H

H

ECONOMETRIA

• Como são variáveis normalmente distribuídas, cuja a variância não

conhecemos ao certo, a distribuição a ser utilizada é a t de Student. Os valores

tabelados com 5 (= n -2) G.L, com 1%, 5% e 10% (bicaudais) são:

• E o valor calculado da estatística t é dado por:

• Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão.

032,4

570,2

015,2

%1,5

%5,5

%10,5

t

t

t

ˆˆ

ˆ0ˆ

SS

ECONOMETRIA

• A questão, agora, é encontrar o dp de . Sabemos que:

• Então:

•

• O estimador dessa variância (amostral)será:

•

• Onde var(yi) = var(resíduos)

²varˆvar

i

ii

x

yx

i

i

iy

x

xS var

²2

2

2ˆ

²ˆ

i

ii

x

yx

ECONOMETRIA

• Já que a variância de Y dado X, ou seja, a variância de Y no modelo de

regressão, é a própria variância dos resíduos, que já calculamos na ANOVA é

igual a 55,39 e foi obtida por meio da expressão SQR/(n-2):

• O cálculo da estatística é, então:

• Como o valor calculado é superior aos tabelados, rejeitamos H0 de que .

• Dizemos então que é estatisticamente diferente de zero ou significante a 1%.

28,160764,0

244,1ˆ

0764,000584,092,9474

39,55

ˆ

ˆ2ˆ

S

SS

resíduosx

nSQRS

i

var2/

22ˆ

0

ECONOMETRIA

• O Procedimento para é quase o mesmo. A diferença está no cálculo de seu

desvio padrão. Sabemos que:

• Cujo o estimador será dado por:

• Logo também é estatisticamente

significante a 1%

ˆvarvarˆvar

ˆvarvarˆvarˆvarˆvar

ˆˆ

2Xn

y

XYXY

XY

22

22ˆ

2/

2 ix

nSQRX

n

SQR

n

nS

2

22ˆ

1

2 ix

X

nn

SQRS

441,4 72,19

92,9474

7,153

7

139,55 ˆ

22ˆ

SS

791,4441,4

28,21ˆ

ˆ

S

ECONOMETRIA

• Ex: Uma amostra de 16 observações de duas variáveis Y e X, foram obtidos os

seguintes resultados:

• Estimemos os parâmetros da reta de regressão e testemos sua significância,

assim como a validade da regressão. Os parâmetros da regressão serão dados

por:

59,587.23 4,764.127

12,567.58 43,553.10

35,511.288 751.57

1,1891 869

22

22

xyXY

yx

YX

YX

51,116

869235,2

16

1,918.1ˆˆ

e 235,243,553.10

59,587.23ˆ2

XY

x

xy

i

ECONOMETRIA

• O modelo encontrado é então:

• Para testar a validade da regressão, montamos uma ANOVA. Para isso,

calculamos as somas dos quadrados:

XY 235.251.1ˆ

37,847.5

75,719.52ˆ

12,567.58

22

2

SQESQTSQR

xSQE

ySQT

Soma dos Qdos G.L Qdos Médios Teste F

SQE= 52.719,75

SQR= 5.847,37

1

14

52.719,75

417,67

126,22

SQT= 58.567,12 15 3.904,47

ECONOMETRIA

• Usando a Tabela com GL1,14 a 5%, valor encontrado é 4,60. Com isso,

aceitamos a validade da regressão. O poder explicativo é:

• Quanto a significância dos parâmetros, temos que seus desvios-padrão são:

• As estatísticas t serão, portanto:

9002,012,567.58

75,719.522 R

199,0 e 95,11 ˆˆ SS

2.11199,0

235,2

ˆ

13.095,11

51.1ˆ

ˆ

ˆ

S

S

ECONOMETRIA

• Os valores críticos para a distribuição t , com 14 G.L são:

• Como o valor encontrado para é superior a todos esses valores, temos que

ele é significante a 1%.

• Já para , ocorre o contrário, portanto, concluímos que não é significante,

o que vale dizer que não podemos rejeitar a hipótese de que é zero.

Poderíamos, também, dizer que o intercepto não existe.

• O procedimento agora seria, logo, retirar o intercepto, isto é, estimar novamente

a regressão sem o coeficiente , o que é feito no exemplo seguinte.

•

98,2

14,2

76,1

%1,14

%5,14

%10,14

t

t

t

ECONOMETRIA

• Tendo em vista que o intercepto da regressão do exemplo anterior era não

significante estatisticamente, estimemos novamente a regressão, só que sem

intercepto:

• (reta que passa pela origem)

• Quando encontramos o estimador de M.Q.O, havíamos substituímos as

variáveis originais ( X e Y) por variáveis centradas na média. O objetivo era,

exatamente, eliminar o intercepto da equação. Como ele agora não existe

mesmo, o estimador de MQO será o mesmo, exceto pelo fato de que não

usaremos mais variáveis centradas.

ii XY

²ˆ

i

ii

X

YX

ECONOMETRIA

• Substituindo pelos valores dados no ex. anterior:

• O modelo será:

• E, para o teste do coeficiente encontrado, precisaremos de seu dp. Temos que o SQE

pela regressão é dada por:

• A soma dos quadrados dos resíduos será, portanto:

• E, assim, podemos encontrar a variância dos resíduos (que é a própria variância da

regressão):

212,2751.57

4,764.127ˆ

XY 212,2ˆ

3,657.282ˆ 22 XSQE

05,854.53,657.28235,511.288ˆ 222 XYSQESQTSQR

27,39015

05,854.5

1var 2

n

SQRSresiduos

ECONOMETRIA

• Repare que usamos n – 1 e não n – 2, como fazíamos quando a regressão

incluía o intercepto. Isso é fácil de entender já que, ao excluir o intercepto,

implicitamente supomos conhecer a existência de pelo menos um ponto da

reta, que é a origem, o que nos faz ganhar um grau de liberdade.

• Para calcular a variância ( e o dp) do coeficiente , usamos a mesma fórmula

já usada anteriormente, apenas trocando o x (centrado) pelo X:

• Portanto, a estatística t será:

•

082,000676,0

751.57

27,3901/ˆ2

2ˆ

SX

nSQRS

i

27082,0

212,2ˆ

ˆ

S

ECONOMETRIA

• O que, evidentemente, é maior do que os valores tabelados. Em todo caso,

esses valores, para 15 GL, são:

• E, obviamente, o valor encontrado, 27, é maior do que os tabelados, sendo

então, significante a 1%.

95,2

13,2

75,1

%1,15

%5,15

%10,15

t

t

t

ECONOMETRIA

• O R², tb deve ser visto com reservas qdo se trata de uma regressão sem

intercepto. Isso porque, na medida em que usamos variáveis não centradas, ele

é diferente do R² usual e ambos não podem ser comparados ( pois se usarmos

o R² c/as variáveis centradas, o resultado poderá ser negativo).

• Esse R² especial p/modelos sem intercepto é conhecido como R² não centrado

ou R² bruto. Nesse caso:

9797,035,511.288

3,657.2822 NCR

ECONOMETRIA

• Quando comparamos os resultados obtidos nos dois modelos ( com e sem

intercepto), verificamos que as diferenças entre os coeficientes são muito

pequenas. O dp, quando a estimação foi realizada sem intercepto, foi menor ( o

q é uma vantagem).

• De fato, se a reta realmente passa pela origem, é razoável que uma estimação

que leve isso em conta seja mais precisa.

• Obs: Devido a relação custo – benefício (devido a erros de especificação e

avaliação no modelo) a estimação sem intercepto só é recomendável se existir

uma razão muito forte em se acreditar que a reta passe pela origem.

ECONOMETRIA

• Hipótese de Normalidade:

• As hipóteses até o momento para regressão:

• 1) E(εi) = 0, os erros tem média zero.

• 2) εi são normalmente distribuídos.

ECONOMETRIA

• Propriedades dos estimadores de mínimos quadrados:

• O estimador de β é não viesado?

•

• Como a esperança da soma é a soma das esperanças:

• e como β é uma constante:

•

²)ˆ(

i

ii

x

yx

²

)()ˆ(

i

iii

x

xx

²

)²()ˆ(

i

iii

x

xx

²²

²)ˆ(

i

ii

i

i

x

x

x

x

²²

²)ˆ(

i

ii

i

i

x

x

x

x

²)ˆ(

i

ii

x

x

²)ˆ(

i

ii

x

x

ECONOMETRIA

• Olhando o termo dentro da esperança, vemos que os valores xi são fixos, ou para ser

mais preciso, fixos em amostras repetidas. Ex: Imóveis.

Um imóvel é sorteado na amostra e este tem uma área(m²).Se por acaso este for

novamente sorteado, ele irá apresentar a mesma área, ou seja, valor fixo, e que não

depende de Pbdd. Logo, a área de um imóvel se enquadra nesta hipótese.

• Isto não se aplicaria se: ex: nota de um aluno.

• P1 8,0

• P2 não necessariamente tiraria a mesma nota, então, dependeríamos de uma

distribuição de Pbdd e neste caso x é uma variável estocástica.

• Se x for fixa então xi pode ser estimado como uma constante:

²)ˆ(

i

ii

x

x

0)( iiii xx

ECONOMETRIA

• Já que , logo:

• Dessa forma, , é um estimador não viesado do coeficiente • Assim:•

0)( i

²)ˆ(

i

ii

x

x

os)estocástic (não fixos são .3

osdistribuíd enormalment são .2

0)( .1

i

i

i

x

ECONOMETRIA

• Isso significa que, se for estocástica o coeficiente não será viesado se mantivermos a

condição de que , o que equivale a dizer que

Já que , podemos garantir que o estimador é não viesado, ou seja,

•

• EFICIÊNCIA E BLUE Se além das hipóteses 1 e 3 os tiverem variância constante e

forem não autocorrelacionados (erros independentes) o Teorema de Gauss-Markov

mostra que o estimador de MQO apresenta a menor variância entre todos, que são

lineares e não viesados, portanto um BLUE:

• 4. (constante)

• 5. (os erros não são autocorrelacionados).

• Se ainda levarmos em conta a hipótese de normalidade, é possível demonstrar

(desigualdade de Cramer-Rao) que o estimador tem a menor variância entre todos os

estimadores não viesados de , isto é, é um estimador eficiente.

0iixeE

ix

0iixeE iiii xeExe cov

ix

ie

2var ie

jieeE ji 0

3. * , os xi são não correlacionados com os erros 0iixeE

Econometria

Documents

Transcript of Econometria