Post on 18-Nov-2018
11
Prof. Lorí Viali, Dr.http://www.pucrs.br/famat/viali/
viali@pucrs.br Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O modelo de regressão linear múltiplaO modelo de regressão linear múltipla
IntroduçãoIntrodução
Definição e terminologiaDefinição e terminologia
InterpretaçãoInterpretação
EstimaçãoEstimação
Interpretação revisitadaInterpretação revisitada
Qualidade do ajusteQualidade do ajuste
Propriedades estatísticasPropriedades estatísticas
Regressão Linear Múltipla
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
DefiniçãoDefinição
MaiorMaior desvantagemdesvantagem::
NãoNão éé muitomuito adequadoadequado parapara modelarmodelar
relaçõesrelações CeterisCeteris ParibusParibus entreentre variáveis,variáveis,
poispois dificilmentedificilmente
u+xβ+β=y 10
0=)uE(=)x|uE(
MModeloodelo dede RRegressão egressão LLinear inear SSimplesimplesOutrosfatores
relevantespermanecem
fixos.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
AjudaAjuda aa encontrarencontrar relaçõesrelações Ceteris
Paribus entreentre variáveisvariáveis;;
MelhoraMelhora oo ajusteajuste aoao dadosdados;;
MaiorMaior flexibilidadeflexibilidade..
MModeloodelo dede RRegressão egressão LLinear inear MMúltiplaúltipla
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
SejamSejam YY ee XX11 ,,......,, XXkk –– ““kk ++ 11”” variáveisvariáveis
populapopulacionaiscionais..
OO objetivoobjetivo éé explicarexplicar YY emem funçãofunção dede
XX11 ,,......,, XXkk ,, istoisto éé,, comocomo YY sese alteraaltera sese umauma
ouou todastodas asas variáveisvariáveis XX11,, ......,, XXkk sese
alteramalteram..
DDDDDDDDefiniçãoefiniçãoefiniçãoefiniçãoefiniçãoefiniçãoefiniçãoefinição e e e e e e e e TTTTTTTTerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologia
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ComoComo nãonão háhá umauma relaçãorelação precisaprecisa entreentre YY ee
XX11 ,,......,, XXkk,, comocomo levarlevar emem contaconta outrosoutros fatoresfatores
queque afetamafetam YY??
QualQual aa verdadeiraverdadeira relaçãorelação funcionalfuncional entreentre YY ee
XXii,, ii == 11,, 22,, ......,, kk??
ComoComo capturarcapturar umauma relaçãorelação ceterisceteris paribusparibus
entreentre YY ee XXii,, ii == 11,, 22,, ......,, kk (se(se esteeste forfor oo caso)?caso)?
PProblemasroblemas
22
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
OO (MLRM)(MLRM) ModeloModelo LinearLinear dede
RegressãoRegressão MúltiplaMúltipla éé dadodado pelapela seguinteseguinte
equaçãoequação::
UXβXβXββY kk22110 +++++= L
O O O O O O O O MMMMMMMModeloodeloodeloodeloodeloodeloodeloodelo
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
YY:: variávelvariável dependente,dependente, variávelvariável explicada,explicada,
variávelvariável dede resposta,resposta, variávelvariável prevista,prevista,
regressando,regressando, saída,saída, efeitoefeito..
XXii:: variáveisvariáveis independentes,independentes, variáveisvariáveis
explicativas,explicativas, variáveisvariáveis dede controle,controle, preditorespreditores,,
regressoresregressores,, entradas,entradas, causascausas..
UU:: erro,erro, distúrbiodistúrbio ouou ruídoruído..
TTTTTTTTerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologiaerminologia
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
erros de medida;
forma funcional inadequada;
variabilidade inerente das variáveis
envolvidas;
outros fatores além de X1 ,..., Xk que afetam
a variável Y.
O termoO termo U U U U U U U U representa:representa:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Média nulaMédia nula
E(U) = 0E(U) = 0
Média condicional Média condicional nulanula
E(U| XE(U| X1,1, XX2,2, ..., ..., XXkk) = E(U) = 0) = E(U) = 0
HHipótesesipóteses AAdicionais dicionais SSobre obre UUUUUUUU
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Para estimar os parâmetros
β0, β1,..., βk da equação de regressão
múltipla é necessário uma amostra da
população!
( ){ }n,,1=i:y,x,,x,x ikii2i1 KK
O Método dos Mínimos Quadrados
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Considere uma amostra aleatória de
tamanho nnnn da população.
Supondo que esta amostra satisfaça o
modelo pode-se escrever:
ikiki22i110i UXβXβXββY +++++= L
Onde a letra i refere-se a i-ésimaobservação.
33
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A descrição do modelo de regressão
múltipla é normalmente apresentado de
forma matricial.
A equação anterior pode ser escrita
como:UβXY +=
Onde:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
=
=
=
=
U
...
U
U
U
β
...
β
β
β
X...XX
........... .
X...XX
X...XX
X
Y
...
Y
Y
Y
n
2
1
k
1
0
nk2n1n
k22221
k11211
n
2
1
(nx1)U kx1β (nxk)X )1nx(Y →→→→
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Note-se que cada linha da matriz X
representa um conjunto de valores das variações
independentes referentes a umaumaumauma observaçãoobservaçãoobservaçãoobservação, ao
passo cada coluna representa um conjunto de
valores de umaumaumauma variávelvariávelvariávelvariável independenteindependenteindependenteindependente nas nnnn
observações amostrais. A primeira coluna de X é
composta inteiramente de valores iguais a um.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
As hipóteses vistas para a regressão linear
simples podem ser colocadas na forma
matricial da seguinte forma:
)Σ,0(N~U
Onde “0” é um vetor-coluna de zeros e Σ é
uma matriz nxn.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Onde In é uma matriz-identidade
de ordem nxn, com unidades na
diagonal principal e zeros em todo o
resto.
Iσ n2Σ =
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os elementos da matriz X são não
estocásticos com valores fixados em
amostras repetidas, e a matriz
((((1111/n)(X’X)/n)(X’X)/n)(X’X)/n)(X’X) é não singular e tal que, para
qualquer tamanho amostral, seus
elementos são finitos.
44
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Da mesma forma que na regressão linear
simples os estimadores de mínimos quadrados
dos coeficientes de regressão podem ser
obtidos, minimizando a soma dos quadrados
dos resíduos, isto é:
∑∑==
−−−−==n
1i
2kiki110i
n
1i
2i )XβXββY(UΦ L
Estimação dos Parâmetros
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑
∑
∑
=
=
=
−−−−−=∂
∂
−−−−−=∂
∂
−−−−−=∂
∂
n
1ikiki110iki
k
n
1ikiki110ii1
2
n
1ikiki110i
1
)XβXββY(X2Φ
.... ..........
)XβXββY(X2Φ
)XβXββY(2Φ
β
β
β
L
L
L
Diferenciando Φ em relação aos parâmetros de
regressão: β1, β2, ..., βk, tem-se:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
===
+++=
+++=
+++=
n
1i
2k
n
1ikii21
n
1iki0
n
1iki i
n
1ikii2k
n
1i
2i21
n
1ii20
n
1ii2 i
n
1ikik
n
1ii110
n
1ii
XYX
XYX
Y
kiβ...XXβXβ
.... ..........
XXβ...βXβ
Xβ...Xββn
Igualando cada derivada a zero e
reagrupando os termos, tem-se:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
XXβXβ kk2 2110ββY −−−−= L
Para resolver as equações normais de
mínimos quadrados, escreve-se a primeira
equação da seguinte forma:
Onde:
Xn
1X e Y
n
1Y
n
1ikik
n
1ii ∑=∑=
==
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Estimação dos Parâmetros
Substituindo a equação anterior nas demais
equações, obtém-se após algumas simplificações:
kkk2k21k1Yk
k3k2231133Y
k2k2221122Y
βββ
... ... ... ...
βββ
βββ
mmmm
mmmm
mmmm
−−−=
−−−=
−−−=
L
L
L
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Onde:
( )( )
( )( )
K,..,2,1k,j
Y
n
1ikikjijjk
n
1ikkiiYk
XXXXm
XXYm
=
−−=
−−=
∑
∑
=
=
55
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Estimação dos Parâmetros
Estas equações podem ser resolvidas
para . A solução é simples,
porém trabalhosa. Se K = 2, isto é, para o
caso de duas variáveis, tem-se:
k21 β.., ,β ,β
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Estimação dos Parâmetros
mmmmmmmm
mmmmmmmm
mmmmmmmm
mmmmmmmm
12122211
121Y112Y
2212
1211
2Y12
1Y11
2
12122211
2Y12221Y
2212
1211
222Y
121Y
1
β
β
−
−==
−
−==
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
EExemplo xemplo UUmm
Considere os dados como sendo das
variáveis: Y = Quantidade vendida de um
produto, X1 = Preço do produto e X2 = Gasto
com a divulgação do produto. Determinar a
equação de regressão de Y em função de X1 e
de X2.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Q (kg) Preço (R$) Investimento (R$ mil)5555 100100 550550
7070 9090 6306309090 8080 720720
100100 7070 7007009090 7070 625625
105105 7070 7357358080 7070 560560
110110 6565 715715125125 6060 750750115115 6060 690690130130 5555 715715130130 5050 650650
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Y X1 X2 Y2 Y X1 YX2 X1 X2
5555 100100 550550
7070 9090 630630
9090 8080 720720
100100 7070 700700
9090 7070 625625
105105 7070 735735
8080 7070 560560
110110 6565 715715
125125 6060 750750
115115 6060 690690
130130 5555 715715
130130 5050 650650
X 21 X 2
2
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Onde:
6300
75,125
3550
m m m
YY
2Y
Y1
=
=
−=
670
70
100Y
X
X
2
1
=
=
=
5400
49000
2502
m m m
12
22
11
−=
=
=
66
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Então:
1578,1161125,070).3077,1(100
1125,0)(49000.2250
)3550).(5400(75,125.2250
3077,1)(49000.2250
75,125).5400(49000.3550
β
5400β
5400β
0
22
21
=−−−=
=−
−−−=
−=−
−−−=
−
−
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim a equação procurada, será:
XX 21 11,01,31-116,16Y +=
Desta forma, uma redução de R$10 no preço
do produto, sem investimento em publicidade,
aumentaria as vendas em em aproximadamente 13
kg. Um aumento na publicidade de 100 mil, sem
alteração no preço, aumenta as vendas em 11 kg.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
EExercício xercício UUm (Gujarati m (Gujarati –– 7.18)7.18)
A tabela apresenta dados sobre o produto brutoreal, trabalho e capital real no setor industrial deTaiwan.
(a) Ajuste os seguintes modelos aos dados da
tabela:
UXlnαXlnααYln 'tt22t110t +++=
UY tt22t110t XβXββ +++=
(b) Qual modelo oferece melhor ajuste e porquê?
Ano Y X1 X219581958 8911,48911,4 281,5281,5 120753120753
19591959 10873,210873,2 284,4284,4 122242122242
19601960 11132,511132,5 289,0289,0 125263125263
19611961 12086,512086,5 375,8375,8 128539128539
19621962 12767,512767,5 375,2375,2 131427131427
19631963 16347,116347,1 402,5402,5 13426713426719641964 19542,719542,7 478,0478,0 139038139038
19651965 21075,921075,9 553,4553,4 14645014645019661966 23052,023052,0 616,7616,7 153714153714
19671967 26128,226128,2 695,7695,7 164783164783
19681968 29563,729563,7 790,3790,3 17686417686419691969 33376,633376,6 816,0816,0 188146188146
19701970 38354,338354,3 848,4848,4 205841205841
19711971 46868,346868,3 873,1873,1 221748221748
19721972 54308,054308,0 999,2999,2 239715239715
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
EExercício xercício UUm (Gujarati m (Gujarati –– 7.18)7.18)
Onde
Y = Produto Bruto real (em milhões de NT $*)
X1 = Trabalho (por mil pessoas)
X2 = Capital Real (em milhões deNT $)
(*) Dólares Novos de TaiwanFonte: Thomas Pei-Fan Chen”, “Economic Growth and Structural
Change in Taiwan - 1952/1972, A Production Function Approach”, tese de
doutorado não-publicada, Departamento de Economia, Centro de
Graduação, City University of New York, Junho de 1976, Tabela II.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
SSoluçãoolução dodo EExercício xercício UUm (Gujarati m (Gujarati –– 7.18)7.18)
77
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Forma Matricial
As equações normais do método dos
mínimos quadrados podem (e devem) ser
apresentadas em notação matricial, daseguinte forma:
β)X'X(Y'X =
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Onde:
β
...
β
β
β
XX...XXX
............
XX...XXX
X...Xn
XX'
YX
...
YX
Y
Y'X
k
1
0
ikik2i ikik
ik2i2i2i1i
ik2i
ik i
1i i
i
=
=
∑
∑
∑
=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
AA SSoluçãoolução
)Y'X(β )X'X( 1−=
A solução para será, então:β
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
EExemploxemplo DDoisois
Considere os dados como sendo de três
variáveis, sendo uma dependente Y e duas
independentes X1 e X2. Determinar a
equação de regressão de Y em função de X1
e de X2.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Y X1 X2
33 22 1122 33 5544 55 3355 77 6688 88 77
ii22110i UXβXββY +++=
O modelo para este caso será dado por:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
EY
EY
EY
EY
EY
52105
42104
32103
22102
12101
β7β.8β.18
β.6β.7β.15
β.3β.5β.14
β.5β.3β.12
β.1β.2β.13
+++==
+++==
+++==
+++==
+++==
Substituindo os valores temos:
88
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
As equações podem ser expressas de
forma matricial, fazendo:
=
8
5
4
2
3
Y
=
781
671
351
531
121
X
=
β
β
β
2
1
0
β
=
eeeee
5
4
3
2
1
E
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Tem-se, então:
+
=
=
eeeee
β
β
β
5
4
3
2
1
2
1
0
781
671
351
531
121
8
5
4
2
3
y
A forma matricial é, então: y = βx + e
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A solução é dada por: Xy)XX( '' 1β
−=
Assim, para os valores dados, tem-se:
=
−
8
5
4
2
3
76351
87532
11111
β
781
671
351
531
121
76351
87532
11111
1
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Resolvendo por partes:
=
12013022
13015125
22255
XX '
=
111
131
22
yX '
−−
−−
−−
=−
13010072
100116140
721401220
1016
1)XX( ' 1
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os coeficientes serão:
−
=
−−
−−
−−
=
25,0
00,1
50,0
111
131
22
13010072
100116140
721401220
1016
1β
A equação de regressão, será:
21iX.25,0X50,0Y −+=
YYE iii −=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
)YY()YY(YY iiii −−−=−
Na ANOVA a variabilidade entorno damédia geral é decomposta em variabilidadedentro e entre tratamentos. Na Análise deRegressão a variabilidade total é decompostaem variabilidade sobre a regressão (Explicada)e variabilidade devido a regressão (Não-Explicada). Para mostrar esta decomposiçãovamos partir da seguinte identidade:
Qualidade do Ajuste
99
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
)]YY()YY([)YY(ii
2
ii2 −−−=−
Elevando os dois lados ao quadrado, tem-se:
∑ −∑ −=−==
∑=
+n
1ii
2n
1iii
2n
1ii
2)YY()YY()YY(
Manipulando algebricamente, tem-se:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −===
n
1i
2i )YY(SQTVT
SQT (Soma dos Quadrados Total )
(TSS = Total Sum of Squares)
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −===
n
1i
2i )YY(SQEVE
SQE (SSSSoma dos QQQQuadrados EEEExplicados ou Ajustados)
(ESS = Explained Sum of Squares)
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −=∑====
n
1i
2n
1i
2i )YY(ESQRVR ii
SSR (SSSSoma dos QQQQuadrados dos RRRResíduos)
(RSS = Residual Sum of Squares)
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −∑ −=−==
∑=
+n
1ii
2n
1iii
2n
1ii
2)YY()YY()YY(
Assim:
SQT = SQR + SQE
n -1 = (n - k - 1) + kG.L.
Assim, a tabela da ANOVA para aAnálise de Regressão, fica:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
FonteFonte Soma dos Soma dos QuadradosQuadrados
GLGL Média dos Média dos QuadradosQuadrados
FF
RegressãoRegressão SQESQE kk MQE=SQE/kMQE=SQE/k
Resíduo Resíduo (Erro)(Erro)
SQRSQRn n –– k k -- 11
MQS = MQS = SQR/SQR/
(n (n –– k k –– 1)1)MQE/MQSMQE/MQS
1010
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
SQT
SQR1
SQT
SQER 2 −==
( )( )
( ) ( )
∑ −
∑ −
∑ −−
=
==
=
n
1i
2
i
n
1i
2
i
2n
1iii
2
YYYY
YYYYR
ComoComo nana regressãoregressão simplessimples podepode--sesedefinirdefinir oo coeficientecoeficiente dede determinaçãodeterminação ouou RR22
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
R2 é uma função não decrescente do
número de regressores. Conforme aumenta o
número de variáveis explicativas R2
geralmente também aumenta. Para verificar
isto, basta lembrar que:
VT
VR1
VT
VER 2 −==
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Então é
independente do número de variáveis Xno modelo.
( )
( ) ( )∑ −
∑−=
∑ −
∑ −−=
=
=
=
=n
1i
2
i
n
1i
2i
n
1i
2
i
n
1i
2
2
YY
E1
YY
YY1R
ii
( )∑ −==
n
1i
2
i YYVT
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Mas
depende do número de variáveis
independentes existentes no modelo.
Assim, pelo menos intuitivamente, a
medida que aumenta o número de variáveis
X, VR deve diminuir ou não aumentar.
( )∑ −=∑===
n
1i
2n
1i
2i ii YYEVR
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim R2, conforme definido irá
aumentar. Desta forma ao se comparar dois
modelos de regressão com a mesma variável
dependente mas diferente número de variáveis
independentes, deve-se ter cautela na
interpretação de R2.
1111
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim para comparar dois modelos com
números diferentes de variáveis explicativas é
conveniente levar em conta esta diferença.
Para fazer isto define-se um coeficiente de
determinação alternativo, denominado de R2
ajustado, da seguinte forma:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
)1n/(VT
)kn/(VR1R
2
−
−−=
Onde k = número de parâmetros do
modelo incluindo o intercepto. Esta medida é
ajustada para o número de g.l. associados às
variações que fazem parte do seu cálculo.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Ou ainda:
( )
( )
( )
( )∑ −−
∑ −−−=
−
∑ −
−
∑ −
−=
=
=
=
=
n
1i
2
i
n
1i
2
n
1i
2
i
n
1i
2
2
YY)kn(
YY)1n(1
1n
YY
kn
YY
1Rii
ii
S
σ1R
2Y
22 −=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Onde o numerador é a variância residual,
isto é, uma estimativa dos termos erro e o
denominador a variância da variável Y.
2R pode ser determinado a partir de R2 da
seguinte forma:
1n
knR 2R 2
−
−=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Desta forma se existir apenas uma variável
explicativa os dois coeficientes são iguais. A
partir de k = 2, o coeficiente ajustado será
sempre menor do que o coeficiente não ajustado.
Observe que se R2 = 1, então também será
um e se R2 = 0, poderá ser menor do que 1
se k > 1.
2R2R
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
1212
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
NãoNão--TendenciosidadeTendenciosidade
Os estimadores de mínimos quadrados
ordinários da regressão linear múltipla são
não-tendenciosos, isto é:
kk
22
11
00
β)βE(
...
β)βE(
β)βE(
β)βE(
=
=
=
=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Variância dos EstimadoresVariância dos Estimadores
Três fatores influenciam a variância dos Três fatores influenciam a variância dos
estimadoresestimadores
Variância do erroVariância do erro
Variação de XVariação de Xii
GrauGrau dede relaçãorelação linearlinear entreentre asas
variáveisvariáveis explicativasexplicativas
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
TeoremaTeorema 33:: sobsob asas hipótesehipótese jájá mencionadas,mencionadas,temtem--sese::
)1kn(
SQRE
)1kn(
1σ
n
1i
2i
22 S−−
=−−
== ∑=
22 σ)σE( =
Como estimar Como estimar σσ22??
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Variância dos EstimadoresVariância dos Estimadores
AA variânciavariância dosdos estimadoresestimadores ββ jj éé dadadada
porpor::
)R1(SST
σ)βVar(
2jj
2
j−
=
∑=
−=n
1i
2jjij )XX(SST
∑
∑
=
=
−
−
==n
1i
2jji
n
1i
2jji
j
j2j
)XX(
)XX(
SST
SSER
ondeonde
ee
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Teorema de GaussTeorema de Gauss--MarkovMarkov
Sob as hipóteses (H1) - (H5) os estimadores
de MQO são BLUE (Best Linear Unbiased
Estimators), isto é, são os melhores
estimadores, no sentido de possuírem menor
variância (maior eficiência), dentro da classe
dos estimadores lineares e não-viesados..
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Todos os estimadores
Estimadores linearesEstimadores não-tendenciosos
MQO
1313
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Inferência em modelos de regressão linear múltipla.
Distribuição dos estimadores de MQO;
Testes de hipóteses sobre um único parâmetro:
o teste t;
Intervalos de confiança;
Testando restrições lineares nos parâmetros: o
teste F.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Sob as hipóteses (H1) - (H6) econdicionalmente nos valores observados dasvariáveis independentes.
( ))β,Var(βN~β jjj
( )1,0N~)βVar(
ββ
j
jj −LogoLogo
Teorema Teorema
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Testes de Hipóteses Sobre um Único ParâmetroTestes de Hipóteses Sobre um Único Parâmetro
HipótesesHipóteses sobresobre oo parâmetroparâmetro bjbj podempodem serser
testadastestadas porpor::
UXβXβXββY kk22110 +++++= L
1knβ
jj tσ
ββ
j
−−=−
ConsidereConsidere oo modelomodelo
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
IntervalosIntervalos dede ConfiançaConfiança
σtβ βj
1knj ⋅± −−
Da mesma forma podem ser criados
intervalos de confiança para os parâmetros
estimados, através das seguintes expressões:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Testando Hipóteses Sobre uma Testando Hipóteses Sobre uma
Combinação Linear de ParâmetrosCombinação Linear de Parâmetros
ConsidereConsidere aa regressão,regressão, abaixo,abaixo, ondeonde salsal éésalario,salario, secsec éé oo númeronúmero dede anosanos emem escolaescolasecundária,secundária, uniuni éé oo númeronúmero dede anosanos nanauniversidadeuniversidade ee expexp éé oo númeronúmero dede anosanos dedeexperiênciaexperiência profissionalprofissional..
Uexpβuniβsecββ)sallog( 3210 ++++=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
SeSe quisermosquisermos verificarverificar sese umum anoano aa maismais dede
escolaescola secundáriasecundária equivaleequivale aa umum anoano adicionaladicional
nana universidade,universidade, qualqual hipótesehipótese deveriadeveria sersertestada?testada?
HH00:: ββ11 == ββ22
ComoComo testartestar HH00??
1414
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
RedefinaRedefina HH00 dada seguinteseguinte formaforma::
HH00:: β11 -- ββ22 == 00
σ21 ββ
211kn
ββt
−−−
−=
A estatística do teste será:A estatística do teste será:
SoluçãoSolução
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
)β,βCov(2)βV()βV()ββV( 212121 −+=−
OO erroerro padrãopadrão dada diferençadiferença dosdos doisdois
estimadores,estimadores, seráserá::
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ConsistênciaConsistência dosdos estimadoresestimadores
NormalidadeNormalidade assintóticaassintótica
Propriedades assintóticasPropriedades assintóticas
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
AtéAté oo momentomomento foramforam estudadasestudadas asaspropriedadespropriedades emem amostrasamostras pequenaspequenas dosdos estimadoresestimadoresdede mínimosmínimos quadradosquadrados..
PorPor exemplo,exemplo, aa propriedadepropriedade dede nãonão--tendenciosidadetendenciosidade dosdos estimadoresestimadores dede MQOMQO valevale paraparaqualquerqualquer tamanhotamanho dede amostraamostra..
EstasEstas propriedadespropriedades sãosão conhecidasconhecidas comocomo
propriedadespropriedades exatasexatas dosdos estimadoresestimadores..
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
OO próximopróximo passopasso éé estudarestudar quaisquais sãosão asas
propriedadespropriedades dosdos estimadoresestimadores dede MQOMQO quandoquando
oo tamanhotamanho dada amostraamostra crescecresce..
EstasEstas propriedadespropriedades sãosão conhecidadasconhecidadas comocomo
propriedadespropriedades assintóticasassintóticas..
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ConsistênciaConsistência
RelembrandoRelembrando queque sobsob asas hipóteseshipóteses dede
GaussGauss--MarkovMarkov
ParaPara cadacada tamanhotamanho dede amostraamostra n,n, oo
estimadorestimador possuipossui umauma distribuiçãodistribuição dede
probabilidadeprobabilidade..
jj β]βE[ =
1515
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ConsistênciaConsistência
ComoComo oo estimadorestimador éé nãonão--tendenciosotendencioso,, aa
médiamédia dede cadacada distribuiçãodistribuição éé simplesmentesimplesmente
ββjj..
SeSe oo estimadorestimador forfor consistente,consistente, aa medidamedida
queque nn crescecresce aa distribuiçãodistribuição ficafica maismais
concentradaconcentrada emem tornotorno dada médiamédia..
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Seja um estimador do parâmetro β j
para uma amostra de tamanho n. será um
estimador consistente se, para um número ε
qualquer:
^
0)ε|ββPr(|lim jjn
=>−∞→
Definição
jβ
jβ
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
^^
TeoremaTeoremaTeoremaTeorema:::: sob as hipóteses (H1) - (H4),
os estimadores de mínimos quadrados
ordinários são consistentes.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Normalidade
TeoremaTeorema:: sobsob asas hipóteseshipóteses dede GaussGauss--
MarkovMarkov (H(H11 aa HH55)) osos estimadoresestimadores dede MQOMQO
sãosão assintoticamenteassintoticamente normaisnormais ondeonde::
= ∑
=∞→
n
1i
2ij
n
2j r
n
1plima
( ) ( )1,0Nβse
ββn
D
j
jj→
−
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ParaPara osos parâmetrosparâmetros dede inclinaçãoinclinação
ss22 éé umum estimadorestimador consistenteconsistente dede
σσ22 == V(UV(Ujj),), parapara todotodo jj
→− 2
j
2D
jja
σ ,0N )ββ(n
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O que acontece quando variáveis
irrelevantes são incluídas no modelo?
Considere que o modelo abaixo tenha
sido especificado.
UXβXβXββY 3322110 ++++=
1616
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Considere ainda que o efeito de X3 em Y,após a inclusão de X1 e X2 no modelo, sejanulo. Isto é:
2211021
213213
xβxββ)x,x|yE(
)x,x|yE()x,x,x|yE(0β
++=
=⇒=
Mas na prática não se sabe a priori queβ3= 0. O que acontecerá com os estimadores?
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
OO queque aconteceacontece quandoquando variáveisvariáveis
relevantesrelevantes nãonão sãosão incluídasincluídas nono modelo?modelo?
OsOs estimadoresestimadores serãoserão viesadosviesados
(tendenciosos)(tendenciosos)..
OO viésviés éé geralmentegeralmente chamadochamado dede viésviés dede
variáveisvariáveis omitidasomitidas..
UXβXββY 22110 +++=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
ConsidereConsidere oo seguinteseguinte modelomodelo populacionalpopulacional::
Agora,Agora, suponhasuponha queque nono modelomodelo estimadoestimado aa
variávelvariável XX22 nãonão foifoi incluídaincluída..
( )
( )∑
∑
=
=
−
−
=
⇓
+=
n
1i
21i1
n
1ii1i1
1
110
XX
YXX
β~
Xβ~
β~
Y~
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Nem sempre se quer testar os coeficientes
individuais da regressão. Pode ser necessário e é
conveniente testar o modelo como um todo, isto é
testar se:0β...ββ:H k320 ====
Este caso pode ser tratado através da análise
de variância (ANOVA).
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O modelo de Regressão Múltipla Geral é
dado por:
0β...ββ:H k320 ====
Yi = β1 + β2X1i + β3X2i + …+βkXki + Ui
Para testar a hipótese nula de que:
1717
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Isto é, todos os coeficientes são nulos,
contra a alternativa de que nem todos são
simultaneamente nulos, determina-se:
)kn/(SQR
)1k/(SQEF
−
−=
A expressão tem uma distribuição F com
k - 1 e n - k graus de liberdade.Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
)kn/()R1(
)1k/(R
)R1)(1k(
R)kn(
)]SQT/SQE(1)[1k(
)SQT/SQE)(kn(
)SQESQT)(1k(
SQE)kn(
SQR)1k(
SQE)kn(
)kn/(SQR
)1k/(SQEF
2
2
2
2
−−
−=
−−
−=
=−−
−=
=−−
−=
=−
−=
−
−=
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −=∑====
n
1i
2n
1i
2i )YY(ESQRVR ii
SSR (SSSSoma dos QQQQuadrados dos RRRResíduos)
(RSS = Residual Sum of Squares)
Onde:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −===
n
1i
2)YY(SQEVE i
SQE (SSSSoma dos QQQQuadrados EEEExplicados)
(ESS = Explained Sum of Squares)
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
∑ −∑ −=−==
∑=
+n
1ii
2n
1iii
2n
1ii
2)YY()YY()YY(
e:
SQT = SQR + SQE
n -1 = (n - k - 1) + kG.L.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O resultado anterior mostra que F e R2
variam diretamente. Assim se R2 = 0, então F é
zero. Quanto maior o valor de R2 maior será o
valor de F. Desta forma o teste F que é de
ajuste do modelo também testa a significância
do coeficiente de determinação.
1818
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A decisão entre um modelo linear ou um
modelo log-linear (o lagaritmo do regressor é
uma função dos logaritmos dos regressores) éuma questão básica na análise empírica. Para
testar:
H0: Modelo Linear;
H1: Modelo Log-Linear.
Pode-se utilizar o teste MWD.
Decidindo entre modelos competitivos
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O teste MWD foi proposto por
MacKinnon, White e Davidson e envolve as
seguintes etapas:
Estimar o modelo linear e determinar osvalores ;
Estimar o modelo log-linear e obter os
valores ;
Y
^Yln
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Obtenha Z1 = ;
Fazer uma regressão de Y sobre os valores de X e Zotidos como acima. Rejeitar H0 se o coeficiente de Z1 forestatisticamente significativo através do teste ttradicional;
Obter Z2 =
Regredir o ln de Y sobre os logaritmos de Xs e Z2.Rejeitar H1 se o coeficiente de Z2 for significativo peloteste t.
Yln^
Yln −
)Ylnanti( Yln^ )
−
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O modelo clássico de Regressão Linear é baseado
em um conjunto de hipóteses simplificadoras:
É linear nos parâmetros;
Os regressores Xi são fixos em amostragens
repetidas;
A expectância dos Ui é zero;
A variância de Ui é constante e homocedástica.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Se Ui não são autocorrelacionados;
Se os Xi são aleatórios eles são
independentes ou não-correlacionados com Ui;O número de observações (n) deve ser maior
que o número de regressoes (k);
Não há relação linear entre os regressoes,
isto é, multicolinearidade;Os termos Ui são normais.
1919
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Três questões devem ser respondidas:
Qual o desvio mínimo em relação a uma
hipótese, para que isto faça diferença?
Como verificar se uma hipótese foi, de fato,violada, numa situação específica?
Que correção adotar quando uma ou mais
hipóteses não forem verdadeiras?
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O termo multicolinearidade foi cunhado por
Ragnar Frisch na obra “Statistical Confluence
Analysis by Means of Complete Regression
Systems” do Instituto de Economia da
Universidade de Oslo que foi publicada em 1934.
O termo significa a existência de uma relação
“perfeita” linear entre algumas ou todas as
variáveis explicativas do modelo.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim para uma regressão que envolva “k”variáveis explicativas: X1, X2, …, Xk, diremos queexiste uma relação linear exata se:
λ1X1 + λ2X2 + λkXk = 0
Onde λ1, λ2, …, λk são constantes não
simultaneamente nulos.
A idéia de multicolinearidade inclui ainda:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
λ1X1 + λ2X2 + λkXk + Vi = 0
Onde o termo Vi é estocástico.
O termo multicolinear como definido inclui
apenas relacionamento linear mas isto não exclui
outras relações como por exemplo: X2 = X1.X1
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A existência da multicolinearidade
pefeita torna os coeficientes da regressão
indeterminados e seus erros padrãoinfinitamente grandes. Se a
multicolinearidade não for alta (não perfeita)
os coeficientes de regressão poderão ser
determinados mas os erros padrão serãograndes.
2020
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Se as hipóteses do modelo são satisfeitas os
estimadores de MQO dos coeficientes da
regressão são MELNV. Pode-se mostrar quemesmo que as variáveis sejam altamente
colineares os MQO ainda mantém a
propriedade MELNV. Assim as conseqüências
práticas podem ser:
Conseqüências da multicolinearidade
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
As estimativas apresentarem grandes
variâncias e como resultante ter-se-á:
Intevalos de confiança maiores;
Alguns coeficientes podem ser nãosignificativos;
O R2 ainda ser alto, mesmo com coeficientes
não significativos.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Este é um fenômeno essencialmente
amostral, conseqüência decorrente em boa parte
de dados não-experimentais coletados na
maioria das Ciências Sociais. A seguir algumas
regras práticas para detectar sua presença:
Percepção da multicolinearidade
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Um R2 alto com poucos regressores
significativos;
Altas correlações dois a dois entre os
regresssores;
Índice de Condição (IC)
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O número de condição “k” é definido
como:
Mínimo Autovalor
Máximo Autovalork =
Índice de CondiçãoÍndice de Condição
kMínimo Autovalor
Máximo AutovalorIC ==
O Índice de Condição (IC) é definido,então, como:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Pode-se adotar, então, a seguinte regra
empírica. Se k estiver entre 100 e 1000 existe
multicolinearidade de moderada a forte. Se
estiver acima de 1000 a multicolinearidade é
grave. Da mesma pode-se utilizar o IC. Se ele
estiver entre 10 e 30 colinearidade moderada a
forte e acima de 30 grave.
2121
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Uma hipótese importante do modelo
clássico de regressão linear é a de que a
variância de cada termo residual (Ui) é
constante e igual a σ2.
Homo (igual) scedasticidade (dispersão) ,
oun ..., 2, 1, i σ)U(E 22
i ==
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
σ)x/Y(V 2i =
Alternativamente a homoscedasticidade
pode ser expressa por:
A heteroscedasticidade é, então dada por:
σ)x/Y(V 2ii =
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Alguns causas da heteroscedasticidade
podem ser:
Situações de aprendizagem e erro;
Aumento de renda com aumento da liberdadede escolha de como dispor a renda;
Melhora nas técnicas de coleta de dados,
menos erros, menor variabilidade;
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A heteroscedasticidade é mais comum
quando os dados são provenientes de cortes de
séries temporais. OO queque aconteceacontece comcom osos
estimadoresestimadores dosdos MQOMQO ee comcom suassuas variânciasvariâncias nana
presençapresença dede heteroscedasticidadeheteroscedasticidade??
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Vamos supor o modelo de Regressão
Linear Simples: Yi = α + βXi + Ui e que:
A inclinação da linha de regressão é dada
por:
σ)U(E 2i
2i =
∑ −
∑ −==
XnX
YXnXY
S
Sb
22XX
XY
2222
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Neste caso, a variância do estimador será
dada por:
∑ −
∑ −=
])XX([
σ)XX()b(V
i2 2
2ii
2
Se σσ 22i = , então a expressão acima
ficará reduzida ao caso usual.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Neste caso o estimador MQO continua
linear e não tendencioso, mas não será mais
de variância mínima.
EleEle nãonão éé eficienteeficiente,, poispois nãonão levaleva ememconsideraçãoconsideração aa informaçãoinformação dede queque parapara cadacada xx
aa variânciavariância dede YY éé diferentediferente.. ParaPara obterobter umum
estimadorestimador eficienteeficiente éé precisopreciso fazerfazer usouso dodo
métodométodo dosdos MQGMQG..
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O MQO não leva em conta as diferentes
variabilidades dos resíduos, conferindo a
mesma importância para cada observação. O
MQG leva em conta explicitamente tal
informação e por isto é capaz de produzir
estimadores eficientes na presença de
heteroscedasticidade.
MQGMQG (Mínimos(Mínimos QuadradosQuadrados Generalizados)Generalizados)
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Como saber se existe heteroscedasticidade
nos dados? Não existe um método seguro com
valores amostrais. Como, em geral, só existe
um Y para cada X, dectetar a presença de
heroscedasticidade não é simples.
A maioria dos métodos se baseia no exame
dos resíduos.
DetectandoDetectando aa HeterocedasticidadeHeterocedasticidade
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Teste de Park;
Teste de Glejser;
Teste de Spearman de correlação da ordem;
Teste de Goldfeld-Quandt;
Teste de Breusch-Pagan-Godfrey;
Teste Geral de Heteroscedasticidade deWhite;
TestesTestes formaisformais
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
As medidas corretivas devem levar em
conta as duas seguintes situações:
Quando as variabilidades resíduais forem
conhecidas e
Quando elas não forem conhecidas.
MedidasMedidas CorretivasCorretivas
2323
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Se as variabilidades residuais
forem conhecidas então deve-se
utilizar o Método dos Mínimos
Quadrados Generalizados ou
Ponderados, onde a ponderação é
dada por:
σ
1w 2
ii =
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Se as variabilidades residuais não forem
conhecidas pode-se adotar os seguintes
procedimentos:
Variâncias e erros-padrão consistentes em
heteroscedasticidade segundo White;
Hipóteses plausíveis a respeito do padrão de
heteroscedasticidade;
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Uma hipótese importante do modelo
clássico de regressão linear é a de que não
existe autocorrelação ou correlação serial entre
os resíduos Ui.
No entanto, a correlação pode ocorrer,
então deve-se responder:
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Qual a sua natureza?
Quais as conseqüências teóricas e
práticas?
Como corrigir o problema quando ele
ocorre?
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O termo autocorrelação pode ser entendidocomo a “correlação entre os termos de observaçõesno tempo” [séries temporais} ou “espaciais” [dados
de corte].
No modelo clássico a suposição é de que:
E(UiUj) = 0 se i ≠ j
Isto é, um dado resíduo “i” não é influenciado
por um outro dado resíduo “j”.
AA NaturezaNatureza
2424
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Inércia ou rigidez. Séries como PNB,
Índices de Preços, Produção, Emprego e
Desemprego são cíclicas;
Viés de especificação: variáveis excluídas.
Viés de especificação: forma funcional
incorreta;
Fenômeno da Teia de Aranha.
CausasCausas dada AutocorrelaçãoAutocorrelação
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A oferta de produtos agrícolas reflete um
fenômeno denominado de Teia de Aranha, em
que a oferta reage ao preço como uma
defasagem de um período de tempo, pois as
decisões relativas à oferta levam um certo
tempo para serem implementadas.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Defasagens. Em uma regressão de série temporal
do consumo sobre a renda, não é raro verificar
que o consumo no período corrente depende,
entre outras coisas, do consumo no período
anterior;
Manipulações de dados. Dados trimestrais
agregados de médias de dados mensais;
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O que ocorre com os estimadores de MQO
se E(UiUj) ≠ 0 (para i ≠ j) e as demais
hipóteses forem mantidas?
Neste caso os estimadores, a exemplo, do
caso heteroscedástico, são ainda lineares e não
tendeciosos.
EstimativasEstimativas porpor MQOMQO comcom AutocorrelaçãoAutocorrelação
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
No entanto sua variância será afetada.
Neste caso eles não mais terão variância
mínima, isto é, eles não serão eficientes.
Aqui, também, a exemplo da
heteroscedasticidade pode-se encontrar um
estimador que seja eficiente.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Para isto será necessário utilizar
MQG – Mínimos Quadrados
Generalizados, que incorpora qualquer
informação adicional que tivermos através
da transformação das variáveis.
2525
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A autocorrelação é um problema
potencialmente sério e medidas corretivas
devem ser tomadas. Entretanto,
inicialmente, é necessário, verificar se ela
existe. Alguns testes para detectar a
autocorrelação.
DetectandoDetectando aa AutocorrelaçãoAutocorrelação
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Método Gráfico. Representar
graficamente os resíduos (Ut) e os
resíduos padronizados (Ut/s);
Teste das carreiras ou de Geary.
O teste d de Durbin-Watson
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Quando a estrutura da autocorrelação
é conhecida utilizar a transformação de
Prais-Winsten e a Equação de Diferença
Generalizada ou de Quase-Diferença.
MedidasMedidas CorretivasCorretivas
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Quando o autocorrelação não é conhecida.
Embora simples de aplicar a regressão de
diferença generalizada é geralmente difícil de
rodar, pois, na prática, poucas vezes se
conhece o valor de ρ. Por isto foram criados
métodos alternativos.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Método da primeira diferença. Para
aplicá-lo é necessário fazer o teste de
Berenblutt-Webb de que ρ = 1.
O processo iterativo de Cochrane-
Orcutt para estimar ρ.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O método de Cochrane-Orcutt em duas
etapas. É uma versão abreviada do
processo iterativo.
Método de Durbin em duas etapas
para estimar ρ.
2626
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
PARK, R. E. Estimation with Heteroscedastic Error
Terms. Econometrica. v. 34, n. 34, Out de 1966. p.
888.
GLEJSER, H. A New Test for Heteroscedasticity.
Journal of the American Statistical Association. v.
64, 1969. p. 316-23.
GOLDFELD, S. M., QUANDT, R. E. Nonlinear
Methods of Econometrics. Amesterdã: North-
Holland, 1972.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
BREUSCH, T., PAGAN, A. A Simple Test for
Heteroscedasticity and Random Coefficient
Variation. Econometrica. v. 47, 1979. p. 1287-94.
GODFREY, L. Testing for Multiplicative
Heteroscedasticity. Jornal of Econometrics. v. 8,
1978. p. 227-36.
WHITE, H. A Heteroscedasticity Consistent
Covariance Matrix Estimator and a Direct Test of
Heteroscedasticity. Econometrica. v. 48, 1980. p. 817-
18.
Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
GEARY, R. C. Relative Efficiency of Count of Sign
Changes for Assessing Residual Autoregression in Least
Squares Regression. Biometrika, v. 57, 1970. P. 123-27.
DURBIN, J., WATSON, G. S. Testing for Serial
Correlation in Least-Squares Regression. Biometrika. v.
38, 1951. p. 159-71.
BERENBLUTT, I. I., WEBB, G. I. A New Test for
Autocorrelated Errors in the Linear Regression Model.
Journal of the Royal Statistical Society. Série B, v. 35,
n. 1, 1973. P. 33-50.Curso: Engenhariade Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
COCHRANE, D. ORCUTT, G. H. Application of Least
Squares Regressions to Relationships Containing
Autocorrelated Error Terms. Journal of the Royal
Statistical Society. v . 44, 1949. P. 32-61.
DURBIN, J. Estimation of Parameters in Time-Series
Regression Models. Journal of the Royal Statistical
Society. Série B. v. 22, 1960. p. 139-153.