MB-207: Econometria denise/teaching/MB207/MB207_S02.pdf · PDF...

Instituto Tecnológico de AeronáuticaDivisão de Engenharia Mecânica-Aeronáutica

MB-207: Econometria Aplicada

Profa. Denise Beatriz Ferrariwww.mec.ita.br/∼denise

[email protected]

1o. semestre/2017

Roteiro

Princípios de modelos lineares de regressãoCorrelação amostralRegressão linear simples:

– hipóteses do modelo– estimação de parâmetros– propriedades e inferência dos estimadores (?)– intervalos de confiança e de previsão (?)

Princípios de análise de regressão

Origens

Galton, F.R.S. "Regression towards mediocrity inhereditary stature", Journal of the AnthropologicalInstitute 15 (1886), 246-263.

Sir Francis Galton (1840)Fonte: Wikipedia Commons

O que é análise de regressão?

Análise de regressão consiste em um conjunto de ferramentas estatísticaspara análise de dados, que nos permite investigar as relações existentesentre um grupo de variáveis.

A relação é expressa na forma de um modelo (equação) que expressauma variável de resposta (Y ) como função de uma ou mais variáveisexplicativas ou fatores (X1,X2, . . . ,Xp).

As relações reais entre as variáveis, no entanto, raramente são conhecidasna prática, sendo necessário apoiar-se em evidências empíricas (dados)para construir aproximações.

O que é análise de regressão?

A relação real entre Y e X1,X2, . . . ,Xp pode, então, ser aproximada pelomodelo de regressão

Y = f (X1,X2, . . . ,Xp) + ε,

Notação:Y : variável de respostaX1,X2, . . . ,Xp: variáveis explicativasε: erro aleatório

Modelo de regressão linear

O modelo de regressão linear é dado por

Y = β0 + β1X1 + β2X2 + . . .+ βpXp + ε,

ou Y =

p∑j=0

βjXj + ε

em que:

Y : variável de respostaXj : variáveis explicativasβj : coeficientes ou parâmetros da regressãoε: erro aleatório

Etapas da análise de regressão

1. Formulação do problema2. Seleção de variáveis3. Coleta de dados4. Especificação do modelo (forma e escopo)5. Escolha do método de ajuste do modelo6. Ajuste do modelo7. Validação e avaliação do modelo8. Utilização do modelo construído para responder à questão científica

Dados para análise de regressão

Observação Resposta Variáveis Explicativasno. Y X1 X2 . . . Xj . . . Xp

1 y1 x11 x12 . . . x1j . . . x1p2 y2 x21 s22 . . . x2j . . . x2p3 y3 x31 x32 . . . x3j . . . x3p...

......

... . . .... . . .

...i yi xi1 xi2 . . . xij . . . xip...

......

... . . .... . . .

...n yn xn1 xn2 . . . xnj . . . xnp

Tabela: Notação para os dados utilizados em análise de regressão.

Tipos de análise de regressão

Tipo de Regressão Condições

Univariada Apenas uma resposta quantitativaMultivariada Duas ou mais respostas quantitativasSimples Apenas uma variável explicativaMúltipla Duas ou mais variáveis explicativasLinear Modelo linear (ou linearizável) nos parâmetrosNão-Linear Não há transformação que linearize o modeloANOVA Todas as variáveis explicativas são qualitativasANCOVA Variáveis explicativas quantitativas e qualitativasLogística Resposta qualitativa

Tabela: Classificação de tipos de análise de regressão.

Regressão Linear Simples

Regressão linear simples

Começaremos pelo estudo de Modelos de Regressão Linear Simples, emque temos apenas um par de variáveis.

O modelo de regressão linear simples é dado por

Y = β0 + β1X + ε

Notação:X : variável independente, variável explicativa, previsorY : variável dependente, respostaε: erro aleatório

Relações entre Variáveis

Precisamos fazer distinção entre dois tipos de relação:

Relação Determinística (ou funcional): Y = f (X )

I É expressa por uma fórmula matemática, que representa umarelação exata entre as variáveis.

Exemplo:

TF = 95TC + 32

Relações entre Variáveis

Relação Estatística:I Diferentemente de uma relação funcional, não é perfeita.

Gráficos de Dispersão:

Simulação: 500 realizações do par (X ,Y )

– Cada ponto (xi , yi ), para i = 1, . . . , n, no gráfico é chamado de “caso”.

Exemplos?

Correlação Amostral

A correlação amostral de duas variáveis X e Y , representada por r[X ,Y ]

ou rXY , é definida como:

rXY =

∑ni=1(Xi − X )(Yi − Y )√∑n

i=1(Xi − X )2∑n

i=1(Yi − Y )2

com X = 1n

∑ni=1 Xi , Y = 1

n

∑ni=1 Yi

Propriedades:I Medida da associação linear entre duas variáveisI Sinal indica se a relação entre duas variáveis é positiva ou negativaI É adimensionalI X ,Y independentes =⇒ rXY = 0I −1 ≤ rXY ≤ 1

Correlação AmostralAnálise do Quarteto de Anscombe

Assim como outras estatísticas (e.g. média, variância, etc.), a correlaçãoamostral pode ser fortemente influenciada pela presença de outliers nosdados.

A fim de avaliar este comportamento, Anscombe (1973) * construiuquatro bases de dados (“O Quarteto de Anscombe”) muito diferentes,mas que apresentam muitas características estatísticas idênticas.

... Vamos ao R!

Anscombe, F.J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21

Reta de Melhor Ajuste

Qual das duas retas melhor representa a relação entre as variáveis?

Y (1) = −120, 9+ 109, 6X (tracejada)Y (2) = −151, 1+ 127, 1X (pontilhada)

Reta de Melhor Ajuste

Notação:

Yi : resposta observada para a unidade experimental (caso, observação) iXi : valor da variável explicativa para o caso iYi : resposta prevista (valor ajustado) para o caso i

Queremos encontrar a equação da reta que “melhor” representa a relaçãoentre X e Y . Isto significa encontrar (com base nos dados disponíveis) asquantidades b0 e b1, tais que os valores ajustados da resposta, dados por

Yi = b0 + b1Xi

estejam mais “próximos” o possível dos valores observados Yi .

Reta de Melhor AjusteInterpretação dos Coeficientes

b0: coeficiente linear (intercepto)– Valor de Y quando X = 0.– Só faz sentido se o escopo do modelo (gama de valores de x)

inclui X = 0.– Caso contrário, não há interpretação

b1: coeficiente angular– Valor da variação esperada na resposta Y para cada variação

unitária no valor de X .– b1 > 0: relação positiva– b1 < 0: relação negativa

Precisamos encontrar os valores de b0 e b1. Como???

Reta de Melhor AjusteResíduos

Em geral, a reta de melhor ajuste será obtida através da imposição dealguma condição (restrição) aos resíduos...

ResíduoA diferença entre o valor observadoYi e o valor ajustado Yi é chamadode resíduo e é dado por:

ei = Yi − Yi

Antes é preciso definir o modelo de regressão linear formalmente.É o que faremos a seguir.

Definição Formal do Modelo

Um modelo de regressão é uma maneira formal de expressar duascaracterísticas de uma relação estatística:

1. A tendência de a resposta Y variar sistematicamente com a variávelexplicativa X ;

2. A dispersão de pontos em volta da curva que representa a relaçãoestatística.

Tais características são embutidas no modelo de regressão, postulando-seque:

1. Existe uma distribuição de probabilidade de Y para cada nível de X(distr. condicional);

2. As médias de tais distribuições variam de forma sistemática com X .

Definição Formal do Modelo de Regressão Linear SimplesHipótese de Linearidade

Supomos existir entre duas variáveis X e Y uma relação linear, emboradesconhecida, representada por:

Yi = β0 + β1Xi + εi , i = 1, . . . , n

onde:Yi : valor da resposta para a unidade experimental iXi : valor da var. explicativa para a unidade experimental i

(constante conhecida)β0, β1 : parâmetros do modelo

εi : perturbação estocástica (ou erro aleatório), t.q.

E [εi ] = 0

σ2[εi ] = σ2 = cte.

σ[εi , εj ] = 0, ∀i , j ; i 6= j

Definição Formal do Modelo de Regressão Linear Simples II

Características:

Considerando o modelo de regressão:

Yi = β0 + β1Xi + εi , i = 1, . . . , n

1. Yi é uma v.a.: Yi ∼ fYi , t.q.

2. Reta de Regressão:E [Y |Xi ] = β0 + β1Xi=⇒ Yi − E [Y |Xi ] = εi

3. σ2[Yi ] = σ2[εi ] = σ2 = cte.(Demonstração)

4. σ[εi , εj ] = 0 =⇒ σ[Yi ,Yj ] = 0, ∀i , j ; i 6= j

Definição Formal do Modelo de Regressão Linear Simples III

Formulações Alternativas:

1. Yi = β0X0 + β1Xi + εi , X0 ≡ 1(Esta versão associa uma var. independente a cada coeficiente)

2. Em função de desvios da média:

Yi = β0 + β1Xi − β1X + β1X + εi

= (β0 + β1X ) + β1(Xi − X ) + εi

= β?0 + β1(Xi − X ) + εi , β?0 = β0 + β1X

O Problema da EstimaçãoO Método dos Mínimos Quadrados Ordinários (OLS – “Ordinary Least Squares”)

Função Perda (“Loss Function”):

Q =n∑

i=1

(Yi − E [Y |Xi ])2

No entanto, a função de regressão populacional E [Y ] é desconhecida eprecisa ser estimada a partir de uma amostra:

Yi = b0 + b1Xi

Portanto,

Q =n∑

i=1

(Yi − Yi )2

=n∑

i=1

e2i

=n∑

i=1

(Yi − b0 − b1Xi )2

O Problema da Estimação IIO Método dos Mínimos Quadrados Ordinários (OLS – “Ordinary Least Squares”)

Para que

Q =n∑

i=1

(Yi − b0 − b1Xi )2

atinja o mínimo, devemos ter:

b1 =∑

(Xi − X )(Yi − Y )∑(Xi − X )2

b0 =1n(∑

Yi − b1∑

Xi ) = Y − b1X

(Demonstração)

O Problema da EstimaçãoPropriedades dos estimadores de Mínimos Quadrados Ordinários

Teorema de Gauss-Markov (TGM)

Sob as condições do modelo de regressão linear simples, os estimadoresb0 e b1 são:

B bestL linearU unbiasedE estimators

isto é,são os estimadores de menor variância, dentre todos os estimadoreslineares não-tendenciosos.

O Problema da EstimaçãoResposta Esperada

Dados os estimadores b0 e b1 para os parâmetros da reta de regressão, aresposta esperada

E [Y ] = β0 + β1X ,

(ou seja, a média da distribuição de probabilidade Y |X )

é estimada através do estimador pontual

Y = b0 + b1X

Extendendo o TGM, temos que

Y é BLUE de E [Y ]

O Problema da EstimaçãoResíduos × Erros Aleatórios

Lembrando:

resíduo: ei = Yi − YiE [] (conhecido)erro aleatório: εi = Yi − E [Yi ] (desconhecido)

O Problema da EstimaçãoPropriedades da Reta de Regressão Estimada (OLS)

1. Soma dos resíduos é nula:∑n

i=1 ei = 0(erros de arredondamento podem tornar 6= 0)

2.∑

e2i é mínima (critério adotado)

3.∑n

i=1 Yi =∑n

i=1 Yi ⇒ 1n

∑ni=1 Yi = Y

4.∑n

i=1 Xiei = 0

5. (1), (4) ⇒∑n

i=1 Yiei = 0

6. A reta de regressão sempre passa pelo ponto (X ,Y )

(Demonstrar propriedades 1 – 6)

O Problema da EstimaçãoEstimação da Variância dos Erros Aleatórios

Precisamos estimar a variância σ2[εi ] = σ2 dos erros aleatórios a fim deconhecermos a variabilidade das distribuições de probabilidade de Y .

Para uma população:

A variância σ2 de uma população é estimada a partir da var. amostral:

s2 =∑n

i=1(Yi − Y )2

n − 1

I s2 é um estimador não-tendencioso para a variância σ2 de umapopulação infinita

I O numerador representa a soma de desvios quadráticosI O denominador representa o no. de graus de liberdade

(1 g.d.l. é perdido pois temos que estimar a média populacionaldesconhecida, µ, usando Y )

O Problema da EstimaçãoEstimação da Variância dos Erros Aleatórios

Para o modelo de regressão:Temos: σ2[εi ] = σ2 = cte. ⇒ σ2[Yi ] = σ2

Semelhantemente ao caso de uma população, precisamos calcular:

Numerador: Soma de desvios quadráticos, lembrando que cada Yi vem deuma distribuição de probabilidade com média diferente, quedepende do valor de Xi : Yi ∼ fi (Y |X = Xi )Cada desvio deve ser calculado com respeito à sua médiaestimada Yi (resíduos)Yi − Yi = ei ⇒ SSE =

∑ni=1(Yi − Y )2 =

∑ni=1 e

2i

Denominador: Precisamos estimar β0 e β1 para obter Yi . Sendo assim,perdemos 2 g.d.l.

Portanto:

s2 = MSE =SSEn − 2

=

∑ni=1 e

2i

n − 2

OBS: MSE é um estimador não-viesado de σ2.

Regressão Linear SimplesAlternativas ao Método de Mínimos Quadrados

LAD (Least Absolute Deviations) ou Norma L1

Q =n∑

i=1

|Yi − Yi |

I Formulado por Roger Boscovich, 1757I Formulação algébrica para o algoritmo: Laplace, 1792I Fourier (1768–1830) foi o primeiro a resolver o problema utilizando

o que hoje chamamos de Programação Linear:

Min 1′e+ + 1′e−

s.t.

X · b + e+ − e− = Y

e+, e− ≥ 0b irrestrito

e+i =

{Yi − Yi , seYi − Yi > 0

0, c.c.

e−i =

{−(Yi − Yi ), seYi − Yi ≤ 0

0, c.c.

Modelo de Regressão Linear NormalHipótese de Normalidade

Modelo Normal

Yi = β0 + β1Xi + εi , εiiid∼ N(0, σ2), i = 1, . . . , n

I Hipótese de correlação nula vira hipótese de independência dos erros:

Yiind∼ N(E [Yi ], σ

2), E [Yi ] = β0 + β1Xi

I Hipótese de normalidade (TLC): o termo aleatório (εi ) representa asoma das contribuições de todos os fatores que não foram incluídosno modelo, mas que afetam a resposta, e que não têm relação coma var. explicativa X .

Notas:I Independentemente da distribuição dos erros aleatórios, o método OLS fornece

estimadores BLUEI Precisamos estabelecer uma distribuição para os erros aleatórios a fim de realizar

inferência estatística* estimar intervalos de confiança* testar hipóteses

Modelo de Regressão Linear NormalEstimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”)

A lógica do Método ML consiste em encontrar estimadores cujos valores(estimativas) sejam consistentes com os dados da amostra.

Temos:

Yiind∼ N(β0+β1Xi , σ

2) ⇒ fYi =1√2πσ2

exp[− 12σ2

(Yi − β0 − β1Xi )2]

Modelo de Regressão Linear Normal IIEstimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”)

Função de Verossimilhança

L(β0, β1, σ2) = fY1,...,Yn (indep.)

=n∏

i=1

fYi

=1

(2πσ)n/2exp

[− 12σ2

n∑i=1

(Yi − β0 − β1Xi )2

]

Queremos:max

β0,β1,σ2L(β0, β1, σ2)

Encontramos:

β0(ML)= b0(OLS)

, β1(ML)= b1(OLS)

, σ2(ML) =

∑(Yi − Yi )

2

n

(Demonstração)

Modelo de Regressão Linear NormalPropriedades dos Estimadores de Máxima Verossimilhança

Os estimadores ML para β0 e β1I Possuem as mesmas propriedades dos estimadores OLS: BLUEI Consistentes

σ2[β0(ML)] n→∞

−→ 0; σ2[β1(ML)] n→∞

−→ 0

I Suficientesf (Y1, . . . ,Yn|β1(ML)

) = f (Y1, . . . ,Yn);

f (Y1, . . . ,Yn|β0(ML)) = f (Y1, . . . ,Yn)

I BUE (“best unbiased estimators”)

Inferências sobre β1Distribuição Amostral de b1

Estimador pontual:

b1 =∑

(Xi − X )(Yi − Y )∑(Xi − X )2

Para o modelo de regressão normal:

b1 ∼ N(E [b1], σ2[b1]);E [b1] = β1

σ2[b1] =σ2∑

(Xi − X )2;

σ2 desconhecido : σ2 = MSE

Inferências sobre β1Distribuição Amostral de b1−β1

s[b1]

Temos:

b1 ∼ N(E [b1], σ2[b1]); E [b1] = β1; σ2[b1] =σ2∑

(Xi − X )2

Padronizando:

b1 − β1σ[b1]

∼ N(0, 1); σ[b1] = s[b1] =MSE∑

(Xi − X )2

=⇒ b1 − β1s[b1]

∼ ?

Inferências sobre β1 IIDistribuição Amostral de b1−β1

s[b1]

NOTA:Sempre que uma estatística é padronizada mas, no lugar dodesvio-padrão real, utilizarmos um desvio-padrão estimado, temos umaestatística “studentizada”:

t =estimador− parâmetrodesvio-padrão estimado

Teorema:

Para o modelo de regressão

b1 − β1s[b1]

∼ tn−2

(Demonstração)

Inferências sobre β1Intervalo de Confiança para β1

Temos:b1 − β1s[b1]

∼ tn−2

Portanto:IC (β1)

(1−α)100% : b1 ± tα2 ;(n−2)s[b1]

(Demonstração)

Inferências sobre β1Testes envolvendo β1

Tipo de Teste H0 Ha Regra de Decis?o(Rej. H0)

Bi-caudal β1 = β∗1 β1 6= β∗1 |t| > tα/2,dfMono-caudal à direita β1 = β∗1 β1 > β∗1 t > tα,dfMono-caudal à esquerda β1 = β∗1 β1 < β∗1 t < tα,df

Estatística do Teste:t =

b1 − β∗1s[b1]

NOTA:

– Para β∗1 = 0, se o teste rej. H0 (conclui-se que β1 6= 0), diz-se que asvariáveis X e Y possuem associação estatisticamente linear.

Inferências sobre β0

Raramente estamos preocupados com β0.– Apenas quando o escopo do modelo inclui X = 0.

Seja o estimador:b0 = Y − b1X

Distribuição Amostral de b0:

b0 ∼ N(E [b0], σ2[b0]); E [b0] = β0; σ2[b0] = σ2

[1n+

X2∑

(Xi − X )2

]

Estimador para σ2[b0]:

s2[b0] = MSE

[1n+

X2∑

(Xi − X )2

]

Inferências sobre β0 II

Analogamente ao caso de b1, temos:

Distribuição Amostral de b0−β0s[b0]

:

b0 − β0s[b0]

∼ tn−2

Intervalo de Confiança para β0:

IC (β0)(1−α)100% : b0 ± tα

2 ;(n−2)s[b0]

NOTA:

– Quando o escopo do modelo não inclui X = 0, o IC para b0 nãonecessariamente tem significado prático.

Inferências sobre β1, β0

Desvios da Normalidade:

I Se Y ∼N =⇒ b1, b0 ∼N:Podemos utilizar a estatística t para inferências.

I Caso contrário, b1, b0 são assintoticamente normais:b1, b0 n→∞

−→ N

Para n grande, podemos ainda realizar inferências utilizando aestatística Z .

Inferências sobre E [Y |Xi ] = E [Yi ] (resposta média)Distribuição Amostral de Yi

Estimador pontual de E [Yi ]:

Yi = b0 + b1Xi

(Xi pode ser um valor observado na amostra ou qualquer outro valor davariável explicativa no escopo do modelo.)

Para o modelo de regressão normal:

Yi ∼ N(E [Yi ], σ2[Yi ]);

E [Yi ] = β0 + β1Xi

σ2[Yi ] = σ2[1n+

(Xi − X )2∑(Xi − X )2

]: σ2 desconhecido

⇒ σ2[Yi ] = MSE[1n+

(Xi − X )2∑(Xi − X )2

]OBS:– A normalidade decorre do fato de que Yi é uma combinação linear de de Yi ,assim como b0 e b1.

Inferências sobre E [Y |Xi ] = E [Yi ]

Distribuição Amostral de Yi−E [Yi ]s[Yi ]

Temos, para o modelo de regressão:

Yi − E [Yi ]

s[Yi ]∼ tn−2,

Portanto:IC (E [Yi ])

(1−α)100% : Yi ± tα2 ;(n−2)s[Yi ]

(Demonstração)

NOTA:– A precisão do IC é máxima quando Xi = X .

Previsão de uma nova observação

Queremos prever a resposta Yo de uma nova observação, correspondendoao nível Xo da variável explicativa:

– A nova observação é considerada independente das observações nasquais baseou-se a construção do modelo de regressão.

– Consideramos válido o modelo de regressão já calibrado.

Intervalo de Previsão de Yo (nova observação)Caso 1: parâmetros do modelo conhecidos

Temos:

β0 = β∗0 ; β1 = β∗1 ; σ2 = (σ∗)2 : conhecidos

Portanto, a reta de regressão é conhecida e vale:

E [Y ] = β∗0 + β∗1X

Assim, para uma nova observação:

E [Yo ] = β∗0 + β∗1Xo

O intervalo de previsão pode ser construído:

IP(Yo)(1−α)100% : E [Yo ]± z(α/2)σ

NOTA:– O intervalo centrado em E [Yo ] é o mais preciso, consistente com aprobabilidade de uma previsão correta.

Intervalo de Previsão de YoCaso 2: parâmetros do modelo desconhecidos

β0; β1; σ2 : precisam ser estimados

Portanto, também precisamos estimar:

E [Yo ] −→ Yo ; σ2[Yo ] −→ MSE

Podemos, então, apenas substituir os parâmetros desconhecidos peloscorrespondentes estimadores pontuais no IP acima?

NÃO!!!Por que?...

(Ilustração)

Intervalo de Previsão de YoCaso 2: parâmetros do modelo desconhecidos

Precisamos levar em conta duas incertezas:(1) Quanto à possível localização da distribuição de Y(2) Quanto ao valor amostrado da própria distribuição de Y

A resposta da nova observação pode ser escrita da seguinte forma:

Yo = Yo + eprev ⇒ eprev = Yo − Yo

Podemos construir a seguinte estatística “studentizada”, para o modelode regressão:

eprevs[eprev ]

=Yo − Yo

s[eprev ]∼ tn−2

em que

s2[eprev ] = MSE[1+

1n+

(Xo − X )2∑(Xi − X )2

](Demonstração)

Intervalo de Previsão de Yo IICaso 2: parâmetros do modelo desconhecidos

O intervalo de previsão pode ser construído:

IP(Yo)(1−α)100% : Yo ± tα

2 ;(n−2)s[eprev ]

NOTA:– O IP é mais largo para valores de Xo mais distantes de X , ou seja, a

estimativa Yo é menos precisa.– Os limites de previsão são sensíveis a desvios da normalidade.

(Ao contrário de IC para a resposta média, E [Yi ])

IC’s para E [Yi ] × IP’s para Yo

Diferenças Conceituais:

IC: Inferência a respeito de um parâmetro(a média da distribuição de probabilidade de Yi )– o intervalo contém com certo nível de confiança o valor verdadeirodo parâmetro

IP: Declaração a respeito de um valor assumido por uma v.a.(a nova observação, Yo)

MB-207: Econometria denise/teaching/MB207/MB207_S02.pdf · PDF...

Documents

Transcript of MB-207: Econometria denise/teaching/MB207/MB207_S02.pdf · PDF...