3. Inferência estatística (parte 1)

Post on 13-Jul-2022

5 views 0 download

Transcript of 3. Inferência estatística (parte 1)

ESTATÍSTICA II Ec/Fi1. Intervalos de confiança para um parâmetro
2. Testes de hipóteses sobre um parâmetro: estatística t
3. Testes de hipóteses sobre uma combinação linear de parâmetros
4. Testes de hipóteses sobre várias combinações lineares de parâmetros: estatística F
Econometria Aplicada 1
peso = 0 + 1cigs + 2idade + 3educ + 4nconsul + u
Será que o número de consultas é uma variável relevante para explicar o peso?
H0 : 4 = 0 H1 : 4 0 Teste de significância individual
Teste de uma restrição linear sobre os parâmetros
Teste de significância conjunta Várias restrições em simultâneo
Será que o peso depende apenas do número de cigarros?
H0 : 2 = 0, 3 = 0, 4 = 0 H1 : 2 0 3 0 4 0
peso = 0 + 1cigs + u peso = 0 + 1cigs + 2educ + 3idade + 4nconsul + u
Modelo sob H0 Modelo sob H1
2
Econometria Aplicada 2
Será que se a mãe tiver mais uma consulta durante a gravidez compensa o efeito negativo no peso
decorrente de fumar mais 2 cigarros?
H0 :21 + 4 = 0 H1 :21 + 4 0
O termo de erro é independente das variáveis explicativas 1, 2, … , e tem distribuição normal de média 0 e variância 2
|~(0 + 11 + 22 ++ ; 2)
Hipótese MLR 6 – Distribuição normal
Econometria Aplicada 3
Observações:
1. Esta hipótese é bastante mais forte do que qualquer das anteriores já que, para além da distribuição normal, ela implica MLR 4 e MLR 5.
2. A independência entre e implica = () e var = () logo (2ª parte da hipótese) = 0 e var = 2.
3. O conjunto de hipóteses MLR 1 a MLR 6 é conhecido como “classical linear assumptions” (CLM) no quadro dos modelos seccionais.
4. No quadro das hipóteses CLM o estimador dos mínimos quadrados tem propriedades reforçadas: De estimador BLUE passa a ser o mais eficiente de entre os estimadores centrados (a comparação pode ser feita abrangendo estimadores não lineares)
Hipótese MLR 6
Econometria Aplicada 4
5
.
Para as observações da amostra, |~(0 + 11 + 22 ++ ; 2)
Teorema: Sob as hipóteses MLR.1 a MLR.6 prova-se que ~ ,
2 ,
2 e
Estandardizando , tem-se −
~ 0,1
6
~ 0,1 não pode ser diretamente utilizada para
fazer inferência sobre porque envolve que é desconhecido.
A ideia é utilizar o estimador de 2 em vez do parâmetro
desconhecido. Mostra-se que
= −
2
−−1
resultado com base no qual se fará inferência (intervalos de confiança, teste de hipóteses) sobre
Econometria Aplicada
7
= −
~ − − 1
O intervalo de confiança (com 1 − 100% de confiança) para vem
− /2 ; + /2
Sendo /2 o quantil adequado de
uma distribuição t-Student
Econometria Aplicada
Exemplo: Considere-se o exemplo que nos tem acompanhado e que originou (erro padrão por baixo de cada coeficiente)
ç = −19.286 + 1.384 + 15.121 (31.046) (0.1489) (9.4886)
n=88
Construa um IC a 95% para o impacto da área, isto é, para 1.
Intervalo de confiança para - exemplo
Econometria Aplicada 8
9
Para efetuar um teste de hipóteses sobre o parâmetro constrói- se a estatística de teste a partir do rácio t.
= −
~ − − 1
Temos duas formas alternativas (e equivalentes) de proceder para fazer os testes de hipóteses:
• A abordagem de Neyman – Pearson
• Utilizando o valor-p.
10
Neyman-Pearson Valor-p Estabelecer as hipóteses em teste, 0 e 1
Definir a estatística de teste (substituir pelo valor em 0)
Definir (nível de significância ) Definir (nível de significância )
Construir (região crítica - região de
rejeição) Calcular ,
Decidir Decidir
Teste sobre um valor para j
H0 : j = b
Abordagem de Neyman- Pearson. Temos que escolher o valor de α, geralmente α =0.01 ou 0.05 ou 0.1
Dado o nível de significância temos que obter a região crítica W
W =t :| t | t /2; t /2 : P(t(n− k −1) t /2) = / 2
W =t : t t; t : P(t(n− k −1) t ) =
6
t : P(t(n − k −1) t ) =
Seja , o valor observado da estatística tj na amostra.
Decisão : Rejeitamos H0 a favor de H1 ao nível de 100×% se , W
W =t : t <− t;
H1 : j b então
H1 : j >b então
H1 : j <b então
/2, − têm o nome de valor crítico
Econometria Aplicada 11
= −
Decisão: De forma equivalente
• Se H1 : j b então rejeitamos H0 a favor de H1 ao nível de
100×% se , > /2
• Se H1 : j b então rejeitamos H0 a favor de H1 ao nível de
100×% se ,>
• Se H1 : j < b então rejeitamos H0 a favor de H1 ao nível de
100×% se ,< −
Econometria Aplicada 12
Exemplo: Suponha-se que, no exemplo anterior, se quer testar se um acréscimo de 10 m2 na área tem um impacto esperado superior a 10 mil dólares (erros padrão entre parêntesis).
ç = −19.286 + 1.384 + 15.121 (31.046) (0.1489) (9.4886)
0: 1 =1.0 vs 1: 1 >1.0 (10 mil dólares por 10 m2 ↔ 1000 dolares/m2)
Teste de hipóteses para - Exemplo
Econometria Aplicada 13
Econometria Aplicada 14
Alternativa bilateral:
Estatística de teste sob H0
Valor-p (p-value)
é o menor nível de significância estatística para o qual ainda se rejeita H0
Mede a evidência favorável a H0
A definição de valor-p depende da hipótese alternativa
Alternativa H1 : j b
Alternativa
H1 : j b então p = 2P(t(n − k −1) | t j ,obs |)
então p = P(t(n−k −1) t j ,obs )
H1 : j < b então p = P(t(n−k −1) < t j ,obs )
Rejeitar H0 sempre que p < α com α =0.01 ou 0.05 ou 0.1
= −
~ − − 1
De entre os possíveis valores de , o valor 0 tem uma significado particularmente importante: testa a significância estatística do regressor associado com .
O teste é então 0: =0 vs 1: ≠0
Estatística teste: = 1−0
1
~( − − 1)
Rejeitar 0 equivale a aceitar que a variável é relevante para explicar o comportamento de . Pelo contrário, não rejeitar equivale a não rejeitar que é irrelevante para explicar o comportamento de .
Como este teste é feito de forma rotineira para todos os regressores, o seu resultado figura nos outputs de computador.
Significância de
Econometria Aplicada 15
preco Coefficient Std. err. t P>|t| [95% conf. interval]
Total 917854.508 87 10550.0518 Root MSE = 63.045
Adj R-squared = 0.6233
Residual 337845.355 85 3974.65124 R-squared = 0.6319 Model 580009.153 2 290004.577 Prob > F = 0.0000
F(2, 85) = 72.96
Significância de - exemplo
Econometria Aplicada
Erros padrão
Erro padrão da regressão
Outro caso particular que surge com alguma frequência é o de avaliar o sinal do impacto. Neste caso o teste será
Caso − 0: =0 vs 1: >0
Caso 2 − 0: =0 vs 1: <0
Observações:
1. Os dois testes não são de todo equivalentes. O caso 1 testa um impacto positivo enquanto o caso 2 testa um impacto negativo (ver 1). A resposta é “afirmativa” quando se rejeita 0.
2. Nas 2 situações a estatística de teste será = 1
1
~( − − 1)
3. No 1º caso a região de rejeição é unilateral direita e no segundo caso unilateral esquerda.
Teste ao sinal de um
Econometria Aplicada 17
Teste ao sinal de um coeficiente:
Hipóteses Nota
0: = 0
1: ≠ 0
Hipóteses Nota
0: = 0

Hipóteses Nota
0: =
1: ≠ b (1: > b ou 1: < b)


Econometria Aplicada
Testes sobre uma combinação linear de coeficientes
19
.
O propósito é agora fazer inferência (IC ou TH) sobre uma combinação linear de coeficientes = 00 + 11 ++ .
Observações:
1. Os são os coeficiente do modelo que estimámos
2. Os são valores pré-fixados em função do que se pretende testar.
3. Por exemplo, se no modelo
ç = 0 + 1 + 2 +
Se se quisesse testar se o impacto de 10 m2 de área equivale ao impacto de 1 quarto definir-se-ia = 10 1- 2 e testar-se-ia 0: = 0
Econometria Aplicada
20
Pretende-se testar 0: = 0 + 11 ++
Sendo o estimador OLS = 0 + 11 ++ , ~ , 2 ,
com 2=var( 0 + 11 ++ )
A estatística de teste é então
= −
Em que é um estimador de 2.
Econometria Aplicada
21
~( − − 1)
com base na qual se fará a inferência estatística.
• IC 1 − vem − /2 ; + /2
• TH – Em tudo semelhante ao que se fez para
A dificuldade prática reside em obter .
Existem 2 abordagens possíveis.
(31.046) (0.1488) (9.4835)
e assuma-se que se queria testar se o impacto de 10 m2 de área equivale ao impacto de 1 quarto.
De acordo com o que se viu define-se = 10 1- 2 e testa-se 0: = 0 vs 1: ≠ 0 com base na estatística de teste
=
~(88 − 2 − 1).
Em termos observados, = 10 1 − 2 = 10 × 1.3824 − 15.198= -1.3740 e
2 = 102 1
2 + 2 2 − 2 × 10 × 1 12 em que 12 é um estimador de cov( 1 2)
Para obter σβ1β2 tem de recorrer-se à matriz estimada das var/cov do estimador
dos mínimos quadrados. Note-se que 1 2 = 0.14882 e 2
2 = 9.48352.
Econometria Aplicada 22
Para obter a matriz estimada da matriz de variâncias covariâncias temos de escrever em Stata estat vce depois de estimar o modelo.
Obtemos neste caso:
2 + 2 2 − 2 × 10 × 1 12
= 100 × 0.02214 + 89.937 + 20 × 0.75 = 107.15
Assim, , =
= −0.13274, − − 1 = 88 − 2 − 1 =85.
Valor crítico a 5% t5% ≈1.987 (90 graus de liberdade – ver tabelas do livro).
e portanto não se rejeita 0
Vamos utilizar este exemplo para introduzir uma metodologia alternativa para efetuar o mesmo teste
Testes sobre uma combinação linear de coeficientes
Econometria Aplicada 23
area .02214337
24
Resolver em ordem a 2 → 2 = 101 − δ
Obter a regressão auxiliar: Substituir o 2 pela expressão obtida e simplificar
ç = 0 + 1 + 2 +
ç = 0 + 1 + 101 − δ +
ç = 0 + 1 + 101 − +
ç = 0 + 1( + 10) − +
ç = 0 + 11 + 2 + com 1 = ( + 10)
e 2 = −
Definir as novas variáveis e estimar o modelo auxiliar (slide seguinte)
Fazer inferência sobre a partir do output obtido para a regressão auxiliar
Econometria Aplicada
Output regressão auxiliar
Repare-se que a linha de x1 referente ao parâmetro 1 não se alterou em relação ao modelo inicial (área)
Testes sobre uma combinação linear de coeficientes
Econometria Aplicada 25
preco Coefficient Std. err. t P>|t| [95% conf. interval]
Total 917854.508 87 10550.0518 Root MSE = 63.045
Adj R-squared = 0.6233
Model 580009.153 2 290004.577 Prob > F = 0.0000
F(2, 85) = 72.96
. reg preco x1 x2
26
.
Vamos agora considerar que queremos testar várias combinações lineares de
Embora se possa continuar a considerar as 2 vias de abordagem anteriores apenas se irá desenvolver a segunda por ser bastante mais conveniente do ponto de vista computacional.
Apresentaremos o problema do caso mais simples para o mais geral (complicado) e utilizaremos um novo exemplo com base numa regressão envolvendo mais parâmetros
Econometria Aplicada
27
.
Exemplo: Vamos modelar o logaritmo do salário dos jogadores profissionais de baseball (dados de 1993 no ficheiro MLB1.xlsx) em função de 5 características:
• – nº de anos de carreira do jogador
• – nº médio de jogos que o jogador joga por ano
• – nº médio de batting/ano
• – nº médio de home runs por ano
• – nº médio de “runs” por ano (“runs batted in per year”)
Modelo
4 + 5 +
28
Modelo estimado
Olhando para o output vê-se que os coeficientes de bavg hrunsyr e rbisyr não são, individualmente considerados, estatisticamente significativos. Será que os podemos eliminar?
Econometria Aplicada
lsalary Coefficient Std. err. t P>|t| [95% conf. interval]
Total 492.175565 352 1.39822604 Root MSE = .72658 Adj R-squared = 0.6224 Residual 183.186336 347 .527914514 R-squared = 0.6278 Model 308.989228 5 61.7978456 Prob > F = 0.0000
F(5, 347) = 117.06
. reg lsalary years gamesyr bavg hrunsyr rbisyr
Teste à significância conjunta de q regressores
29
.
Considere-se, sem perda de generalidade, que se estava a testar a significância conjunta dos últimos r coeficientes. Definindo = − , a hipótese em teste escreve-se:
0: +1 = = = 0
Estratégia de teste
• Estimar o modelo incorporando a restrição definida em 0, isto é, estimar o modelo sem considerar as variáveis +1, +2, … , .
• Comparar a qualidade do modelo com restrição com a qualidade do modelo inicial (sem a restrição): • Se a qualidade for semelhante, pode concluir-se que as r variáveis associadas com os
coeficientes em teste não acrescentam nada de significativo ao modelo e poderão ser consideradas conjuntamente não significantes e, eventualmente, eliminadas.
• Se a introdução da restrição originar uma quebra de qualidade significativa, a conclusão terá de ser a oposta. As variáveis +1, +2, … , são conjuntamente significantes.
• Problemas em aberto: • Como medir a qualidade? Utilizar a soma dos quadrados dos resíduos de cada modelo
• Como definir o valor crítico? Baseamo-nos numa estatística de teste.
Econometria Aplicada
30
.
0: +1 = = = 0 vs 1: ∃ ≠ 0, = + 1,…
Ou, mais simplesmente, 1: 0 falsa
Estimar o modelo inicial com variáveis explicativas →
Estimar o modelo com restrições ( − var explicativas) → ∗ ( restrições)
Mostra-se que
A região de rejeição situar-se-á na cauda direita da distribuição
Valor crítico: : P , − − 1 > = α.
Seja o valor observado na amostra para a estatística .
Decisão: rejeitamos H0 a favor de H1 ao nível de 100×% se >
Econometria Aplicada
Teste à significância conjunta de q regressores
Econometria Aplicada 31
valor − p = P , − − 1 >
Decisão: rejeitamos H0 a favor de H1 ao nível de 100×% se valor − p <
Teste à significância conjunta de q regressores
32
.
Como neste caso a variável é a mesma nos 2 modelos, pode
mostrar-se que ∗− /
/ −−1 =
2−∗ 2 /
forma equivalente, tem-se
= 2 − ∗
1 − 2 / − − 1 ~ , − − 1
Sendo o “*” referente ao modelo com restrições.
Econometria Aplicada
33
.
Exemplo: 0: 3 = 4 = 5 = 0 vs 1: 0 falsa (pelo menos um dos ≠ 0) ao nível de 5%.
Modelo com a restrição
lsalary Coefficient Std. err. t P>|t| [95% conf. interval]
Total 492.175565 352 1.39822604 Root MSE = .75273
Adj R-squared = 0.5948
Model 293.864043 2 146.932022 Prob > F = 0.0000
F(2, 350) = 259.32
. reg lsalary years gamesyr
34
Hipóteses em teste
0: 1 = = = 0 vs 1: 0 falsa (pelo menos um dos ≠ 0)
Utiliza-se a estratégia de teste vista para o caso anterior.
O modelo com restrições não precisa de ser estimado já que não incorporando nenhum regressor teremos: ∗
2 = 0, ∗ = e ∗=0.
A estatística de teste será então = − /
/ −−1 ~ , − − 1 ou
= 2/
2
~ , − − 1
Como este teste (teste à significância global da regressão) é feito de forma rotineira ela está incluído em todos os output de computador.
Econometria Aplicada
Econometria Aplicada 35
lsalary Coefficient Std. err. t P>|t| [95% conf. interval]
Total 492.175565 352 1.39822604 Root MSE = .72658 Adj R-squared = 0.6224 Residual 183.186336 347 .527914514 R-squared = 0.6278 Model 308.989228 5 61.7978456 Prob > F = 0.0000
F(5, 347) = 117.06
. reg lsalary years gamesyr bavg hrunsyr rbisyr
Estatística F para testar a significância conjunta de todos os regressores
Valor-p desta estatística
36
.
A metodologia de teste que se apresentou pode ser estendida para qualquer sistema de restrições lineares.
Para tal:
• Resolver o sistema em ordem a um sub-conjunto de
• Definir a regressão auxiliar e estimá-la
• Calcular e realizar o teste (utilizando o valor-p ou valor crítico)
Nota importante: Caso a variável dependente da regressão auxiliar seja diferente da variável dependente da regressão original não se pode utilizar o resultado baseado no 2.
Econometria Aplicada
37
.
Exemplo: Considere-se o exemplo anterior e admita-se que se quer testar
0: 1 = 0.1
• Resolver o sistema
1 = 0.1
ln() − 0.1 = 0 + 2 + 3 + 5 + + ,
= 0 + 2 + 3 + 5 +
Em que y = ln() − 0.1 , x = +
Econometria Aplicada
38
Econometria Aplicada
y Coefficient Std. err. t P>|t| [95% conf. interval]
Total 357.59522 352 1.01589551 Root MSE = .73136
Adj R-squared = 0.4735 Residual 186.674442 349 .534883789 R-squared = 0.4780
Model 170.920777 3 56.9735924 Prob > F = 0.0000
F(3, 349) = 106.52 Source SS df MS Number of obs = 353
. reg y gamesyr bavg x
0: 1 = 0.1
4 − 5 = 0 vs 1: 0 falsa