MB-207: Econometria denise/teaching/MB207/MB207_S02.pdf · PDF...
-
Upload
phunghuong -
Category
Documents
-
view
232 -
download
6
Transcript of MB-207: Econometria denise/teaching/MB207/MB207_S02.pdf · PDF...
Instituto Tecnológico de AeronáuticaDivisão de Engenharia Mecânica-Aeronáutica
MB-207: Econometria Aplicada
Profa. Denise Beatriz Ferrariwww.mec.ita.br/∼denise
1o. semestre/2017
Roteiro
Princípios de modelos lineares de regressãoCorrelação amostralRegressão linear simples:
– hipóteses do modelo– estimação de parâmetros– propriedades e inferência dos estimadores (?)– intervalos de confiança e de previsão (?)
Princípios de análise de regressão
Origens
Galton, F.R.S. "Regression towards mediocrity inhereditary stature", Journal of the AnthropologicalInstitute 15 (1886), 246-263.
Sir Francis Galton (1840)Fonte: Wikipedia Commons
O que é análise de regressão?
Análise de regressão consiste em um conjunto de ferramentas estatísticaspara análise de dados, que nos permite investigar as relações existentesentre um grupo de variáveis.
A relação é expressa na forma de um modelo (equação) que expressauma variável de resposta (Y ) como função de uma ou mais variáveisexplicativas ou fatores (X1,X2, . . . ,Xp).
As relações reais entre as variáveis, no entanto, raramente são conhecidasna prática, sendo necessário apoiar-se em evidências empíricas (dados)para construir aproximações.
O que é análise de regressão?
A relação real entre Y e X1,X2, . . . ,Xp pode, então, ser aproximada pelomodelo de regressão
Y = f (X1,X2, . . . ,Xp) + ε,
Notação:Y : variável de respostaX1,X2, . . . ,Xp: variáveis explicativasε: erro aleatório
Modelo de regressão linear
O modelo de regressão linear é dado por
Y = β0 + β1X1 + β2X2 + . . .+ βpXp + ε,
ou Y =
p∑j=0
βjXj + ε
em que:
Y : variável de respostaXj : variáveis explicativasβj : coeficientes ou parâmetros da regressãoε: erro aleatório
Etapas da análise de regressão
1. Formulação do problema2. Seleção de variáveis3. Coleta de dados4. Especificação do modelo (forma e escopo)5. Escolha do método de ajuste do modelo6. Ajuste do modelo7. Validação e avaliação do modelo8. Utilização do modelo construído para responder à questão científica
Dados para análise de regressão
Observação Resposta Variáveis Explicativasno. Y X1 X2 . . . Xj . . . Xp
1 y1 x11 x12 . . . x1j . . . x1p2 y2 x21 s22 . . . x2j . . . x2p3 y3 x31 x32 . . . x3j . . . x3p...
......
... . . .... . . .
...i yi xi1 xi2 . . . xij . . . xip...
......
... . . .... . . .
...n yn xn1 xn2 . . . xnj . . . xnp
Tabela: Notação para os dados utilizados em análise de regressão.
Tipos de análise de regressão
Tipo de Regressão Condições
Univariada Apenas uma resposta quantitativaMultivariada Duas ou mais respostas quantitativasSimples Apenas uma variável explicativaMúltipla Duas ou mais variáveis explicativasLinear Modelo linear (ou linearizável) nos parâmetrosNão-Linear Não há transformação que linearize o modeloANOVA Todas as variáveis explicativas são qualitativasANCOVA Variáveis explicativas quantitativas e qualitativasLogística Resposta qualitativa
Tabela: Classificação de tipos de análise de regressão.
Regressão Linear Simples
Regressão linear simples
Começaremos pelo estudo de Modelos de Regressão Linear Simples, emque temos apenas um par de variáveis.
O modelo de regressão linear simples é dado por
Y = β0 + β1X + ε
Notação:X : variável independente, variável explicativa, previsorY : variável dependente, respostaε: erro aleatório
Relações entre Variáveis
Precisamos fazer distinção entre dois tipos de relação:
Relação Determinística (ou funcional): Y = f (X )
I É expressa por uma fórmula matemática, que representa umarelação exata entre as variáveis.
Exemplo:
TF = 95TC + 32
Relações entre Variáveis
Relação Estatística:I Diferentemente de uma relação funcional, não é perfeita.
Gráficos de Dispersão:
Simulação: 500 realizações do par (X ,Y )
– Cada ponto (xi , yi ), para i = 1, . . . , n, no gráfico é chamado de “caso”.
Exemplos?
Correlação Amostral
A correlação amostral de duas variáveis X e Y , representada por r[X ,Y ]
ou rXY , é definida como:
rXY =
∑ni=1(Xi − X )(Yi − Y )√∑n
i=1(Xi − X )2∑n
i=1(Yi − Y )2
com X = 1n
∑ni=1 Xi , Y = 1
n
∑ni=1 Yi
Propriedades:I Medida da associação linear entre duas variáveisI Sinal indica se a relação entre duas variáveis é positiva ou negativaI É adimensionalI X ,Y independentes =⇒ rXY = 0I −1 ≤ rXY ≤ 1
Correlação AmostralAnálise do Quarteto de Anscombe
Assim como outras estatísticas (e.g. média, variância, etc.), a correlaçãoamostral pode ser fortemente influenciada pela presença de outliers nosdados.
A fim de avaliar este comportamento, Anscombe (1973) * construiuquatro bases de dados (“O Quarteto de Anscombe”) muito diferentes,mas que apresentam muitas características estatísticas idênticas.
... Vamos ao R!
Anscombe, F.J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21
Reta de Melhor Ajuste
Qual das duas retas melhor representa a relação entre as variáveis?
Y (1) = −120, 9+ 109, 6X (tracejada)Y (2) = −151, 1+ 127, 1X (pontilhada)
Reta de Melhor Ajuste
Notação:
Yi : resposta observada para a unidade experimental (caso, observação) iXi : valor da variável explicativa para o caso iYi : resposta prevista (valor ajustado) para o caso i
Queremos encontrar a equação da reta que “melhor” representa a relaçãoentre X e Y . Isto significa encontrar (com base nos dados disponíveis) asquantidades b0 e b1, tais que os valores ajustados da resposta, dados por
Yi = b0 + b1Xi
estejam mais “próximos” o possível dos valores observados Yi .
Reta de Melhor AjusteInterpretação dos Coeficientes
b0: coeficiente linear (intercepto)– Valor de Y quando X = 0.– Só faz sentido se o escopo do modelo (gama de valores de x)
inclui X = 0.– Caso contrário, não há interpretação
b1: coeficiente angular– Valor da variação esperada na resposta Y para cada variação
unitária no valor de X .– b1 > 0: relação positiva– b1 < 0: relação negativa
Precisamos encontrar os valores de b0 e b1. Como???
Reta de Melhor AjusteResíduos
Em geral, a reta de melhor ajuste será obtida através da imposição dealguma condição (restrição) aos resíduos...
ResíduoA diferença entre o valor observadoYi e o valor ajustado Yi é chamadode resíduo e é dado por:
ei = Yi − Yi
Antes é preciso definir o modelo de regressão linear formalmente.É o que faremos a seguir.
Definição Formal do Modelo
Um modelo de regressão é uma maneira formal de expressar duascaracterísticas de uma relação estatística:
1. A tendência de a resposta Y variar sistematicamente com a variávelexplicativa X ;
2. A dispersão de pontos em volta da curva que representa a relaçãoestatística.
Tais características são embutidas no modelo de regressão, postulando-seque:
1. Existe uma distribuição de probabilidade de Y para cada nível de X(distr. condicional);
2. As médias de tais distribuições variam de forma sistemática com X .
Definição Formal do Modelo de Regressão Linear SimplesHipótese de Linearidade
Supomos existir entre duas variáveis X e Y uma relação linear, emboradesconhecida, representada por:
Yi = β0 + β1Xi + εi , i = 1, . . . , n
onde:Yi : valor da resposta para a unidade experimental iXi : valor da var. explicativa para a unidade experimental i
(constante conhecida)β0, β1 : parâmetros do modelo
εi : perturbação estocástica (ou erro aleatório), t.q.
E [εi ] = 0
σ2[εi ] = σ2 = cte.
σ[εi , εj ] = 0, ∀i , j ; i 6= j
Definição Formal do Modelo de Regressão Linear Simples II
Características:
Considerando o modelo de regressão:
Yi = β0 + β1Xi + εi , i = 1, . . . , n
1. Yi é uma v.a.: Yi ∼ fYi , t.q.
2. Reta de Regressão:E [Y |Xi ] = β0 + β1Xi=⇒ Yi − E [Y |Xi ] = εi
3. σ2[Yi ] = σ2[εi ] = σ2 = cte.(Demonstração)
4. σ[εi , εj ] = 0 =⇒ σ[Yi ,Yj ] = 0, ∀i , j ; i 6= j
Definição Formal do Modelo de Regressão Linear Simples III
Formulações Alternativas:
1. Yi = β0X0 + β1Xi + εi , X0 ≡ 1(Esta versão associa uma var. independente a cada coeficiente)
2. Em função de desvios da média:
Yi = β0 + β1Xi − β1X + β1X + εi
= (β0 + β1X ) + β1(Xi − X ) + εi
= β?0 + β1(Xi − X ) + εi , β?0 = β0 + β1X
O Problema da EstimaçãoO Método dos Mínimos Quadrados Ordinários (OLS – “Ordinary Least Squares”)
Função Perda (“Loss Function”):
Q =n∑
i=1
(Yi − E [Y |Xi ])2
No entanto, a função de regressão populacional E [Y ] é desconhecida eprecisa ser estimada a partir de uma amostra:
Yi = b0 + b1Xi
Portanto,
Q =n∑
i=1
(Yi − Yi )2
=n∑
i=1
e2i
=n∑
i=1
(Yi − b0 − b1Xi )2
O Problema da Estimação IIO Método dos Mínimos Quadrados Ordinários (OLS – “Ordinary Least Squares”)
Para que
Q =n∑
i=1
(Yi − b0 − b1Xi )2
atinja o mínimo, devemos ter:
b1 =∑
(Xi − X )(Yi − Y )∑(Xi − X )2
b0 =1n(∑
Yi − b1∑
Xi ) = Y − b1X
(Demonstração)
O Problema da EstimaçãoPropriedades dos estimadores de Mínimos Quadrados Ordinários
Teorema de Gauss-Markov (TGM)
Sob as condições do modelo de regressão linear simples, os estimadoresb0 e b1 são:
B bestL linearU unbiasedE estimators
isto é,são os estimadores de menor variância, dentre todos os estimadoreslineares não-tendenciosos.
O Problema da EstimaçãoResposta Esperada
Dados os estimadores b0 e b1 para os parâmetros da reta de regressão, aresposta esperada
E [Y ] = β0 + β1X ,
(ou seja, a média da distribuição de probabilidade Y |X )
é estimada através do estimador pontual
Y = b0 + b1X
Extendendo o TGM, temos que
Y é BLUE de E [Y ]
O Problema da EstimaçãoResíduos × Erros Aleatórios
Lembrando:
resíduo: ei = Yi − YiE [] (conhecido)erro aleatório: εi = Yi − E [Yi ] (desconhecido)
O Problema da EstimaçãoPropriedades da Reta de Regressão Estimada (OLS)
1. Soma dos resíduos é nula:∑n
i=1 ei = 0(erros de arredondamento podem tornar 6= 0)
2.∑
e2i é mínima (critério adotado)
3.∑n
i=1 Yi =∑n
i=1 Yi ⇒ 1n
∑ni=1 Yi = Y
4.∑n
i=1 Xiei = 0
5. (1), (4) ⇒∑n
i=1 Yiei = 0
6. A reta de regressão sempre passa pelo ponto (X ,Y )
(Demonstrar propriedades 1 – 6)
O Problema da EstimaçãoEstimação da Variância dos Erros Aleatórios
Precisamos estimar a variância σ2[εi ] = σ2 dos erros aleatórios a fim deconhecermos a variabilidade das distribuições de probabilidade de Y .
Para uma população:
A variância σ2 de uma população é estimada a partir da var. amostral:
s2 =∑n
i=1(Yi − Y )2
n − 1
I s2 é um estimador não-tendencioso para a variância σ2 de umapopulação infinita
I O numerador representa a soma de desvios quadráticosI O denominador representa o no. de graus de liberdade
(1 g.d.l. é perdido pois temos que estimar a média populacionaldesconhecida, µ, usando Y )
O Problema da EstimaçãoEstimação da Variância dos Erros Aleatórios
Para o modelo de regressão:Temos: σ2[εi ] = σ2 = cte. ⇒ σ2[Yi ] = σ2
Semelhantemente ao caso de uma população, precisamos calcular:
Numerador: Soma de desvios quadráticos, lembrando que cada Yi vem deuma distribuição de probabilidade com média diferente, quedepende do valor de Xi : Yi ∼ fi (Y |X = Xi )Cada desvio deve ser calculado com respeito à sua médiaestimada Yi (resíduos)Yi − Yi = ei ⇒ SSE =
∑ni=1(Yi − Y )2 =
∑ni=1 e
2i
Denominador: Precisamos estimar β0 e β1 para obter Yi . Sendo assim,perdemos 2 g.d.l.
Portanto:
s2 = MSE =SSEn − 2
=
∑ni=1 e
2i
n − 2
OBS: MSE é um estimador não-viesado de σ2.
Regressão Linear SimplesAlternativas ao Método de Mínimos Quadrados
LAD (Least Absolute Deviations) ou Norma L1
Q =n∑
i=1
|Yi − Yi |
I Formulado por Roger Boscovich, 1757I Formulação algébrica para o algoritmo: Laplace, 1792I Fourier (1768–1830) foi o primeiro a resolver o problema utilizando
o que hoje chamamos de Programação Linear:
Min 1′e+ + 1′e−
s.t.
X · b + e+ − e− = Y
e+, e− ≥ 0b irrestrito
e+i =
{Yi − Yi , seYi − Yi > 0
0, c.c.
e−i =
{−(Yi − Yi ), seYi − Yi ≤ 0
0, c.c.
Modelo de Regressão Linear NormalHipótese de Normalidade
Modelo Normal
Yi = β0 + β1Xi + εi , εiiid∼ N(0, σ2), i = 1, . . . , n
I Hipótese de correlação nula vira hipótese de independência dos erros:
Yiind∼ N(E [Yi ], σ
2), E [Yi ] = β0 + β1Xi
I Hipótese de normalidade (TLC): o termo aleatório (εi ) representa asoma das contribuições de todos os fatores que não foram incluídosno modelo, mas que afetam a resposta, e que não têm relação coma var. explicativa X .
Notas:I Independentemente da distribuição dos erros aleatórios, o método OLS fornece
estimadores BLUEI Precisamos estabelecer uma distribuição para os erros aleatórios a fim de realizar
inferência estatística* estimar intervalos de confiança* testar hipóteses
Modelo de Regressão Linear NormalEstimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”)
A lógica do Método ML consiste em encontrar estimadores cujos valores(estimativas) sejam consistentes com os dados da amostra.
Temos:
Yiind∼ N(β0+β1Xi , σ
2) ⇒ fYi =1√2πσ2
exp[− 12σ2
(Yi − β0 − β1Xi )2]
Modelo de Regressão Linear Normal IIEstimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”)
Função de Verossimilhança
L(β0, β1, σ2) = fY1,...,Yn (indep.)
=n∏
i=1
fYi
=1
(2πσ)n/2exp
[− 12σ2
n∑i=1
(Yi − β0 − β1Xi )2
]
Queremos:max
β0,β1,σ2L(β0, β1, σ2)
Encontramos:
β0(ML)= b0(OLS)
, β1(ML)= b1(OLS)
, σ2(ML) =
∑(Yi − Yi )
2
n
(Demonstração)
Modelo de Regressão Linear NormalPropriedades dos Estimadores de Máxima Verossimilhança
Os estimadores ML para β0 e β1I Possuem as mesmas propriedades dos estimadores OLS: BLUEI Consistentes
σ2[β0(ML)] n→∞
−→ 0; σ2[β1(ML)] n→∞
−→ 0
I Suficientesf (Y1, . . . ,Yn|β1(ML)
) = f (Y1, . . . ,Yn);
f (Y1, . . . ,Yn|β0(ML)) = f (Y1, . . . ,Yn)
I BUE (“best unbiased estimators”)
Inferências sobre β1Distribuição Amostral de b1
Estimador pontual:
b1 =∑
(Xi − X )(Yi − Y )∑(Xi − X )2
Para o modelo de regressão normal:
b1 ∼ N(E [b1], σ2[b1]);E [b1] = β1
σ2[b1] =σ2∑
(Xi − X )2;
σ2 desconhecido : σ2 = MSE
Inferências sobre β1Distribuição Amostral de b1−β1
s[b1]
Temos:
b1 ∼ N(E [b1], σ2[b1]); E [b1] = β1; σ2[b1] =σ2∑
(Xi − X )2
Padronizando:
b1 − β1σ[b1]
∼ N(0, 1); σ[b1] = s[b1] =MSE∑
(Xi − X )2
=⇒ b1 − β1s[b1]
∼ ?
Inferências sobre β1 IIDistribuição Amostral de b1−β1
s[b1]
NOTA:Sempre que uma estatística é padronizada mas, no lugar dodesvio-padrão real, utilizarmos um desvio-padrão estimado, temos umaestatística “studentizada”:
t =estimador− parâmetrodesvio-padrão estimado
Teorema:
Para o modelo de regressão
b1 − β1s[b1]
∼ tn−2
(Demonstração)
Inferências sobre β1Intervalo de Confiança para β1
Temos:b1 − β1s[b1]
∼ tn−2
Portanto:IC (β1)
(1−α)100% : b1 ± tα2 ;(n−2)s[b1]
(Demonstração)
Inferências sobre β1Testes envolvendo β1
Tipo de Teste H0 Ha Regra de Decis?o(Rej. H0)
Bi-caudal β1 = β∗1 β1 6= β∗1 |t| > tα/2,dfMono-caudal à direita β1 = β∗1 β1 > β∗1 t > tα,dfMono-caudal à esquerda β1 = β∗1 β1 < β∗1 t < tα,df
Estatística do Teste:t =
b1 − β∗1s[b1]
NOTA:
– Para β∗1 = 0, se o teste rej. H0 (conclui-se que β1 6= 0), diz-se que asvariáveis X e Y possuem associação estatisticamente linear.
Inferências sobre β0
Raramente estamos preocupados com β0.– Apenas quando o escopo do modelo inclui X = 0.
Seja o estimador:b0 = Y − b1X
Distribuição Amostral de b0:
b0 ∼ N(E [b0], σ2[b0]); E [b0] = β0; σ2[b0] = σ2
[1n+
X2∑
(Xi − X )2
]
Estimador para σ2[b0]:
s2[b0] = MSE
[1n+
X2∑
(Xi − X )2
]
Inferências sobre β0 II
Analogamente ao caso de b1, temos:
Distribuição Amostral de b0−β0s[b0]
:
b0 − β0s[b0]
∼ tn−2
Intervalo de Confiança para β0:
IC (β0)(1−α)100% : b0 ± tα
2 ;(n−2)s[b0]
NOTA:
– Quando o escopo do modelo não inclui X = 0, o IC para b0 nãonecessariamente tem significado prático.
Inferências sobre β1, β0
Desvios da Normalidade:
I Se Y ∼N =⇒ b1, b0 ∼N:Podemos utilizar a estatística t para inferências.
I Caso contrário, b1, b0 são assintoticamente normais:b1, b0 n→∞
−→ N
Para n grande, podemos ainda realizar inferências utilizando aestatística Z .
Inferências sobre E [Y |Xi ] = E [Yi ] (resposta média)Distribuição Amostral de Yi
Estimador pontual de E [Yi ]:
Yi = b0 + b1Xi
(Xi pode ser um valor observado na amostra ou qualquer outro valor davariável explicativa no escopo do modelo.)
Para o modelo de regressão normal:
Yi ∼ N(E [Yi ], σ2[Yi ]);
E [Yi ] = β0 + β1Xi
σ2[Yi ] = σ2[1n+
(Xi − X )2∑(Xi − X )2
]: σ2 desconhecido
⇒ σ2[Yi ] = MSE[1n+
(Xi − X )2∑(Xi − X )2
]OBS:– A normalidade decorre do fato de que Yi é uma combinação linear de de Yi ,assim como b0 e b1.
Inferências sobre E [Y |Xi ] = E [Yi ]
Distribuição Amostral de Yi−E [Yi ]s[Yi ]
Temos, para o modelo de regressão:
Yi − E [Yi ]
s[Yi ]∼ tn−2,
Portanto:IC (E [Yi ])
(1−α)100% : Yi ± tα2 ;(n−2)s[Yi ]
(Demonstração)
NOTA:– A precisão do IC é máxima quando Xi = X .
Previsão de uma nova observação
Queremos prever a resposta Yo de uma nova observação, correspondendoao nível Xo da variável explicativa:
– A nova observação é considerada independente das observações nasquais baseou-se a construção do modelo de regressão.
– Consideramos válido o modelo de regressão já calibrado.
Intervalo de Previsão de Yo (nova observação)Caso 1: parâmetros do modelo conhecidos
Temos:
β0 = β∗0 ; β1 = β∗1 ; σ2 = (σ∗)2 : conhecidos
Portanto, a reta de regressão é conhecida e vale:
E [Y ] = β∗0 + β∗1X
Assim, para uma nova observação:
E [Yo ] = β∗0 + β∗1Xo
O intervalo de previsão pode ser construído:
IP(Yo)(1−α)100% : E [Yo ]± z(α/2)σ
NOTA:– O intervalo centrado em E [Yo ] é o mais preciso, consistente com aprobabilidade de uma previsão correta.
Intervalo de Previsão de YoCaso 2: parâmetros do modelo desconhecidos
β0; β1; σ2 : precisam ser estimados
Portanto, também precisamos estimar:
E [Yo ] −→ Yo ; σ2[Yo ] −→ MSE
Podemos, então, apenas substituir os parâmetros desconhecidos peloscorrespondentes estimadores pontuais no IP acima?
NÃO!!!Por que?...
(Ilustração)
Intervalo de Previsão de YoCaso 2: parâmetros do modelo desconhecidos
β0; β1; σ2 : precisam ser estimados
Portanto, também precisamos estimar:
E [Yo ] −→ Yo ; σ2[Yo ] −→ MSE
Podemos, então, apenas substituir os parâmetros desconhecidos peloscorrespondentes estimadores pontuais no IP acima?
NÃO!!!Por que?...
(Ilustração)
Intervalo de Previsão de YoCaso 2: parâmetros do modelo desconhecidos
Precisamos levar em conta duas incertezas:(1) Quanto à possível localização da distribuição de Y(2) Quanto ao valor amostrado da própria distribuição de Y
A resposta da nova observação pode ser escrita da seguinte forma:
Yo = Yo + eprev ⇒ eprev = Yo − Yo
Podemos construir a seguinte estatística “studentizada”, para o modelode regressão:
eprevs[eprev ]
=Yo − Yo
s[eprev ]∼ tn−2
em que
s2[eprev ] = MSE[1+
1n+
(Xo − X )2∑(Xi − X )2
](Demonstração)
Intervalo de Previsão de Yo IICaso 2: parâmetros do modelo desconhecidos
O intervalo de previsão pode ser construído:
IP(Yo)(1−α)100% : Yo ± tα
2 ;(n−2)s[eprev ]
NOTA:– O IP é mais largo para valores de Xo mais distantes de X , ou seja, a
estimativa Yo é menos precisa.– Os limites de previsão são sensíveis a desvios da normalidade.
(Ao contrário de IC para a resposta média, E [Yi ])
IC’s para E [Yi ] × IP’s para Yo
Diferenças Conceituais:
IC: Inferência a respeito de um parâmetro(a média da distribuição de probabilidade de Yi )– o intervalo contém com certo nível de confiança o valor verdadeirodo parâmetro
IP: Declaração a respeito de um valor assumido por uma v.a.(a nova observação, Yo)