Regressão Linear Simples
Vıctor Hugo Lachos Davila
Departamento Estatıstica-IMECC
Universidade Estadual de Campinas
Campinas, Sao Paulo, Brasil
Regressao Linear Simples – p. 1/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Regressao Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Regressao Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Regressao Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Demanda dos productos de uma firma e publicidade;
Regressao Linear Simples – p. 2/60
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Altura dos pais e altura dos filhos(Fig 1);
Renda semanal e despensas de consumo;
Variação dos salarios e taxa de desemprego (Fig 2);
Demanda dos productos de uma firma e publicidade;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regress ao.
Quantificando a força dessa relação: correlac ao.
Regressao Linear Simples – p. 2/60
Observações
1) Regressão vs Causação
Uma relação estatística por sí propria não implica umacausação
Para atribuir causação, devemos invocar a algumateoría (p.e. econômica)
2) Regressão (AR) vs Correlação (AC)
na AC há tratamento simetrico das variáveis
na AR a variável explanatoria é fixa
na AC presupõe-se que as duas variaveís sãoaleatórias
Regressao Linear Simples – p. 3/60
Dados Hipotéticos
Os dados se referem à renda semanal (X) e as despensasde consumo (Y) (em US$), de uma população total de 60familias. As 60 familias foram divididas em 10 grupos derenda (Fig 3 e 4).
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
X 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1043 966 1211
E(Y|X) 65 77 89 101 113 125 137 149 161 173Regressao Linear Simples – p. 4/60
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.
Regressao Linear Simples – p. 5/60
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.Cada valor individual Yi será determinado pelo valor médioda função linear (µY |x) mais um termo que representa umerro aleatório,
Regressao Linear Simples – p. 5/60
Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.Cada valor individual Yi será determinado pelo valor médioda função linear (µY |x) mais um termo que representa umerro aleatório,
Yi = µY |x + εi = β0 + β1xi + εi,
onde εi é o erro estocástico que satisfaz E(εi|xi) = 0Regressao Linear Simples – p. 5/60
Em geral, a variável resposta pode estar relacionada comk variáveis explicativas X1, . . . Xk obedecendo à equação :
Y = β0 + β1X1 + . . . + βkXk + ε,
A equação é denominada modelo de regressão linearmúltipla.
Regressao Linear Simples – p. 6/60
Em geral, a variável resposta pode estar relacionada comk variáveis explicativas X1, . . . Xk obedecendo à equação :
Y = β0 + β1X1 + . . . + βkXk + ε,
A equação é denominada modelo de regressão linearmúltipla.
O adjetivo "linear"é usado para indicar que o modelo élinear nos parâmetros β1, . . . , βk e não porque Y é funçãolinear dos X ’s. Por exemplo, uma expressão da formaY = βo + β1 log X1 + β2X
32 + ε é um modelo de regressão
linear múltipla, mas o mesmo não acontece com aequação Y = β0 + β1X
β2
1 + β3X22 + ε.
Regressao Linear Simples – p. 6/60
Significado do erro estocástico
Caráter vago da teoria
Falta de dados disponíveis
Variávies essenciais vs variáveis periféricas
Caráter aleatório da natureza
Principio da parcimônia
Forma funcional equivocada
Regressao Linear Simples – p. 7/60
Função de Regressão Amostral(FRA)
A tarefa agora é estimar a FRP com base em informaçõesamostrais
Yi = Yi + εi = β0 + β1Xi + εi, i = 1, . . . , n,
onde β0 e β1 são estimadores de β0 e β1, respectivamentee εi = Yi − Yi a componente residual (Fig 5). Precisamosformular uma regra ou método que torne tal aproximação omais próximo possível!
Exercicio : Resolva o problema 2.16 do livro texto.
Regressao Linear Simples – p. 8/60
Estimação: Método de MQO
Suponha que tem-se n pares de observações amostrais(x1, y1), . . . , (xn, yn). A soma de quadrados dos desviosdas observações em relação à FRA é:
Q =n∑
ε2i =
n∑(yi − β0 − β1xi)
2.
O método de mínimos quadrados ordinarios (MQO)escolhe β1 e β2 (únicos) de forma que, para qualqueramostra, Q é o menor possível. Após uma simple algebratem-se
Regressao Linear Simples – p. 9/60
β0 + β1
n∑
i=1
xi =n∑
i=1
yi(1)
β0
n∑
i=1
xi + β1
n∑
i=1
x2i =
n∑
i=1
xiyi.
As equações (1) recebem o nome de equações normaisde mínimos quadrados.
Regressao Linear Simples – p. 10/60
A solução dessas equações fornece os EMQ, β0 e β1,dados por:
β0 = y − β1x.
β1 =
n∑i=1
xiyi −�
nPi=1
xi
��nP
i=1
yi
�
n
n∑i=1
x2i −
�nP
i=1
xi
�2
n
.
onde x =
nPi=1
xi
ne y =
nPi=1
yi
n.
Regressao Linear Simples – p. 11/60
Notações especiais
Sxx =nX
i=1
(xi − x)2 =nX
i=1
x2
i −
�
nPi=1
xi
�2
n=
nXi=1
x2
i − nx2,
Sxy =nX
i=1
(xi − x)(yi − y) =nX
i=1
(xi − x)yi =nX
i=1
xiyi −
�nP
i=1
xi
��
nP
i=1
yi
�
n
=nX
i=1
xiyi − nxy,
Syy =nX
i=1
(yi − y)2 =nX
i=1
(yi − y)yi =nX
i=1
y2
i −
�
nP
i=1
yi
�
2
n=
nX
i=1
y2
i − ny2.
Os EMQ de β0 e β1 em termos da notação acima são:
β0 = y − β1x, β1 =Sxy
Sxx
, byi − y = bβ1(xi − x).Regressao Linear Simples – p. 12/60
Observaçoes sobre os EMQ
Os EMQ dependem só de quantidades observáveis
São estimadores pontuais
A linha de regressão amostral é facilmente obtida
Yi = β0 + β1Xi
O valor médio do resíduo ǫi é zero
Os residuos ǫi são não correlacionados com Xi e Yi.
Regressao Linear Simples – p. 13/60
Exemplo 1
O gerente de uma cadeia de supermercados desejadesenvolver um modelo com a finalidade de estimar asvendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercadosescolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41
Regressao Linear Simples – p. 14/60
Aplicação
Considerando os dados do exemplo 1
n = 20nX
i=1
xi = 907 + 926 + . . . + 621 = 14.623; x = 731, 15
nX
i=1
yi = 11, 20 + 11, 05 + . . . + 7, 41 = 176, 11; y = 8, 8055
nX
i=1
x2
i = (907)2 + (926)2 + . . . + (621)2 = 11.306.209
nXi=1
y2
i = (11, 20)2 + (11, 05)2 + . . . + (7, 41)2 = 1.602, 0971
nXi=1
xiyi = (907)(11, 20) + (11, 05)(926) . . . + (7, 41)(621) = 134.127, 90
Regressao Linear Simples – p. 15/60
Sxx =nX
i=1
x2
i − n(x)2 = 11.306.209 − 20(731, 15)2 = 614.603
Sxy =nX
i=1
xiyi − n(x)(y) = 134.127, 90 − 20(8, 8055)(731, 15) = 5.365, 08
Syy =nX
i=1
y2
i − n(y)2 = 1.609, 0971 − 20(8, 8055) = 51, 3605.
As estimativas dos parâmetros do MRLS são:
β1 =Sxy
Sxx
=5.365, 08
614.603= 0, 00873; β0 = y−β1x = 8, 8055−(0, 00873)(731, 15) = 2, 423
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
y = 2, 423 + 0, 00873x.
Regressao Linear Simples – p. 16/60
400 500 600 700 800 900 1000
67
89
1011
Numero de clientes
Vend
as se
man
ais
Regressao Linear Simples – p. 17/60
Suponha que tem-se interesse em prever as vendassemanais para um supermercado com 600 clientes.No modelo de regressão ajustado basta substituirX = 600, ísto é,
y = 2, 423 + (0, 00873)(600) = 7, 661.
Regressao Linear Simples – p. 18/60
Suponha que tem-se interesse em prever as vendassemanais para um supermercado com 600 clientes.No modelo de regressão ajustado basta substituirX = 600, ísto é,
y = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode serinterpretada com uma estimação da venda média semanalverdadeira dos supermercados com X = 600 clientes,
Regressao Linear Simples – p. 18/60
Suponha que tem-se interesse em prever as vendassemanais para um supermercado com 600 clientes.No modelo de regressão ajustado basta substituirX = 600, ísto é,
y = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode serinterpretada com uma estimação da venda média semanalverdadeira dos supermercados com X = 600 clientes, oucomo uma estimação de uma futura venda de umsupermercado quando o número de clientes for X = 600.
Regressao Linear Simples – p. 18/60
Suposições do método de MQO
(i) E(ε|X) = 0, V ar(ε|X) = σ2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada peloexperimentador.
(iv) o modelo de regressão esta especificado da formacorreta
(v) n> número de variáveis explanatorias
(iv) não ha multicolinearidade perfeita
Regressao Linear Simples – p. 19/60
Propriedades dos EMQ
Se as suposições do método de MQO são válidas, então
E(β1) = β1, V ar(β1) = σ2
Sxx= σ2bβ1
.
E(β0) = β0, V ar(β0) = σ2[
1n
+ x2
Sxx
]= σ2bβ0
.
Cov(β0, β1) = −σ2xSxx
Exercicio 2.
Regressao Linear Simples – p. 20/60
Estimação de σ2
Os resíduos,ei = yi − yi
são empregados na estimação de σ2. A soma dequadrados residuais ou soma de quadrados dos erros,denotado por SQR é:
SQR =n∑
i=1
e2i =
n∑
i=1
(yi − yi)2
Pode-se demonstrar que o valor esperado da soma dequadrados dos residuais SQR, é dado por:(Exercício 3)
E(SQR) = (n − 2)σ2
Regressao Linear Simples – p. 21/60
Portanto, um estimador não viciado de σ2, é
σ2 =SQR
n − 2= QMR (Quadrado m edio residual ),
Uma fórmula mais conveniente para o cálculo da SQR édada por:
SQR = Syy − β1Sxy.
A estimativa de σ2 para o exemplo 1.
σ2 =SQR
n − 2=
Syy − β1Sxy
n − 2
=51, 3605 − (0, 00873)(5.365, 08)
20 − 2= 0, 2513.
Regressao Linear Simples – p. 22/60
Previsão
Seja xp o valor para o qual deseja-se prever (ou projetar) ovalor médio E(Y |xp) e o valor individual de Y .- Previsão média
Yi é um estimador não viciado de E[Y |xp], dado que
E(Yi) = E(β0 + β1xp) = β0 + β1xp = E(Y |xp)
V ar(Yi) = σ2[ 1n
+ (xi−x)2
sxx]
- Previsão individual (Exercicio 4.)
V ar(Ypart) = σ2[1 + 1n
+ (xi−x)2
sxx]
Na pratica sustituimos σ2 (desconhecido), pelo estimadorconsistente σ2 Regressao Linear Simples – p. 23/60
Coeficiente de Determinação ( r2)
O r2 é uma medida de qualidade do ajustamento. No casode regressão linear simples o coeficiente de determinaçãoé o quadrado do coeficiente de correlação.(Fig 6)
(Yi − Y ) = (Yi − Yi − Y + Yi)n∑
i=1
(Yi − Y )2 =n∑
i=1
(Yi − Y )2 +n∑
i=1
(Yi − Yi)2
SQT = SQM + SQR
1 =SQM
SQT+
SQR
SQT⇒ r2 =
SQM
SQT=
s2xy
sxxsyy
Regressao Linear Simples – p. 24/60
Teorema de Gauss-Markov
Se as suposições MQO são satisfeitas, os EMQ da classede estimadores lineares não viesados têm variânciamínima, isto é, são os melhores estimadores lineares nãoviesados. (Prova)
Para que normalidade?A estimação é a metade do caminho, a outra metade éteste se hipóteses, para isto, suposições adicionais sãonecessárias.
uma alternativa é considerar tamanhos de amostra osuficientemente grandes (estimação de máximaverossimilhança)
a outra é supor que ǫi ∼ N(0, σ2) (O modelo deregressão normal simple clássico)
Regressao Linear Simples – p. 25/60
Propiedades dos EMQ sob Normalidade
A justificão teórica da premissa de normalidade é o TLC
β1 =
n∑
i=1
kiYi =
n∑
i=1
ki(β1 + β2xi + ǫi) ∼ N(.)
β0 ∼ N(β0, σ2bβ0
), β1 ∼ N(β1, σ2bβ1
),
(n − 1)σ2/σ2 ∼ χ2(n − 2)
A distribuição de β0 e β1 é independente de σ2
(Exercicio 5.)
β0 e β1 têm variância mínima dentro de toda classe dosestimadores não viesados, sejam ou não lineares (Rao)
Yi|Xi ∼ N(β0 + β1Xi, σ2) Regressao Linear Simples – p. 26/60
Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que ainclinação é igual a uma constante representada por β1,0.As hipóteses apropriadas são:
H0 : β1 = β1,0, vs H1 : β1 6= β1,0
A estatística
T =β1 − β1,0√
σ2/Sxx
,
tem distribuição t-Student com n − 2 graus de liberdadesob H0 : β1 = β1,0. Rejeita-se H0 se
|Tobs| > tα/2, n−2.
Regressao Linear Simples – p. 27/60
Teste de hipóteses sobre β0
H0 : β0 = β0,0, vs H1 : β0 6= β0,0
A estatística
T =β0 − β0,0√σ2[ 1
n+ x2
Sxx]
que tem distribuição t-Student com n − 2 graus deliberdade. Rejeitamos a hipóteses nula se |Tobs| > tα/2, n−2.
Regressao Linear Simples – p. 28/60
Teste de significância do MRLS
H0 : β1 = 0, vs H1 : β1 6= 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir quenão há nenhuma relação linear entre X e Y.
Regressao Linear Simples – p. 29/60
Se H0 : β1 = 0 é rejeitado, implica que X tem importânciapara explicar a variabilidade de Y
Regressao Linear Simples – p. 30/60
Exemplo
Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β1 = 0, vs H1 : β1 6= 0Do exemplo tem-se:
β1 = 0, 00873, n = 20 Sxx = 614, 603, σ2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs =β1√
σ2/Sxx
=0, 00873√
0, 2513/614.603= 13, 65.
Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipóteseH0 : β1 = 0.
Regressao Linear Simples – p. 31/60
Análise de variância
Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística
F =SQM/1
SQR/(n − 2)=
QMreg
QMR∼ F (1, n − 2),
Portanto, rejeita-se H0 se F0bs > Fα, 1, n−2.As quantidadesQMreg = SQM
1, (quadrado médio devido à regressão) e
QMR = SQR(n−2)
( quadrado médio residual)
Regressao Linear Simples – p. 32/60
Tabela de ANOVA
Fonte de Soma de Graus de Quadradovariação Quadrados Liberdade Médio F
Regressão SQM 1 QMreg QMregQMR
Residual SQR n − 2 QMR
Total SQT n − 1
Regressao Linear Simples – p. 33/60
Tabela de ANOVA
Fonte de Soma de Graus de Quadradovariação Quadrados Liberdade Médio F
Regressão SQM 1 QMreg QMregQMR
Residual SQR n − 2 QMR
Total SQT n − 1
Exemplo: o procedimento de análise de variância paratestar se de fato existe relação linear entre o número declientes (X) e as vendas semanais (Y), no modeloproposto para os dados do exemplo 1. Relembre queSyy = 51, 3605, β1 = 0, 00873, Sxy = 5.365, 08 e n = 20.
Regressao Linear Simples – p. 33/60
A soma de quadrados da regressão é
SQM = β1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − β1Sxy = 51, 3605 − 46, 8371 = 4, 5234
Regressao Linear Simples – p. 34/60
A soma de quadrados da regressão é
SQM = β1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − β1Sxy = 51, 3605 − 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, aestatística de teste é
F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.
Regressao Linear Simples – p. 34/60
A soma de quadrados da regressão é
SQM = β1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − β1Sxy = 51, 3605 − 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, aestatística de teste é
F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.
Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0, aonível de significância de 5%.
Regressao Linear Simples – p. 34/60
Tabela de ANOVA para Ex. 1
Fonte de Soma de Graus de Quadradovariação Quadrados Liberdade Médio F
Regressão 46, 8371 1 46, 8371 186,45Residual 4, 5234 18 0, 2513
Total 51, 3605 19
Regressao Linear Simples – p. 35/60
Intervalo de confiança para β0 e β1
Se para o MRLS é válida a suposição de que osεi ∼ NID(0, σ2), então
(β1 − β1)/√
QMR/Sxx e (β0 − β0)/
√
QMR[1
n+
x2
Sxx
]
são variáveis aleatórias com distribuição t-Student comn − 2 graus de liberdade.Um intervalo de 100(1 − α)% de confiança para β1 :
IC(β1; 1−α) =
(
β1 − tα2
, n−2
√QMR
Sxx; β1 + tα
2, n−2
√QMR
Sxx
)
Regressao Linear Simples – p. 36/60
De modo similar, um intervalo de 100(1− α)% de confiançapara β0 é dado por:
IC(β0; 1 − α) =
(β0 − tα
2, n−2
√
QMR[1
n+
x2
Sxx
]
β0 + tα2
, n−2
√
QMR[1
n+
x2
Sxx
]
)
A seguir é obtido um intervalo de 95% de confiança para ainclinação do MRLS com os dados do exemplo 1,
Regressao Linear Simples – p. 37/60
Relembre que n = 20, β1 = 0, 00873, Sxx = 614, 603 eQMR = 0, 2513. Para 1−α = 0, 95, tem-se t0,025, 18 = 2, 101.
IC(β1; 0, 95) = (β1 − E ; β1 + E)
E = t0,025,18
√QMRSxx
= 2, 101√
0,2513614.603
= 0, 00134
IC(β1; 0, 95) = (0, 00873 − 0, 00134; 0, 00873 + 0, 00134)
= (0, 00739; 0, 01007)
Regressao Linear Simples – p. 38/60
Intervalo de confiança para respostamédia
O interesse consiste em estimar um intervalo de confiançapara
E(Y |X = x0) = µY |x0= β0 + β1x0.
Um estimador pontual de µY |x0é
µY |xo= Y = β0 + β1x0.
Se εi ∼ NID(0, σ2) é válida, pode-se demonstrar
T =µY |xo
− µY |xo√QMR
[1n
+ (x0−x)2
Sxx
] ∼ t(n − 2)
Regressao Linear Simples – p. 39/60
Int. conf. 100(1 − α)% para µY |x0
IC(µY |x; 1 − α) =(µY |xo
− E; µY |xo+ E
)
onde E = tα2
, n−2
√QMR[ 1
n+ (x0−x)2
Sxx]
Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.
Regressao Linear Simples – p. 40/60
Int. conf. 100(1 − α)% para µY |x0
IC(µY |x; 1 − α) =(µY |xo
− E; µY |xo+ E
)
onde E = tα2
, n−2
√QMR[ 1
n+ (x0−x)2
Sxx]
Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.No modelo ajustado µY |x0
= 2, 423 + 0, 00873x0. Parax0 = 600, obtém-se µY |x0
= 7, 661.
Regressao Linear Simples – p. 40/60
Int. conf. 100(1 − α)% para µY |x0
IC(µY |x; 1 − α) =(µY |xo
− E; µY |xo+ E
)
onde E = tα2
, n−2
√QMR[ 1
n+ (x0−x)2
Sxx]
Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.No modelo ajustado µY |x0
= 2, 423 + 0, 00873x0. Parax0 = 600, obtém-se µY |x0
= 7, 661. Também,x = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.
Regressao Linear Simples – p. 40/60
Int. conf. 100(1 − α)% para µY |x0
IC(µY |x; 1 − α) =(µY |xo
− E; µY |xo+ E
)
onde E = tα2
, n−2
√QMR[ 1
n+ (x0−x)2
Sxx]
Exemplo: Suponha que tem-se interesse em construir umintervalo de 95% de confiança da venda, média, semanalpara todos supermercados com 600 clientes.No modelo ajustado µY |x0
= 2, 423 + 0, 00873x0. Parax0 = 600, obtém-se µY |x0
= 7, 661. Também,x = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.
E = 2, 101√
0, 2513[ 120
+ (600−731,15)2
614.603] = 0, 292
Regressao Linear Simples – p. 40/60
IC(µY |x0; 0, 95) = (7, 661 − 0, 292; 7, 661 + 0, 292)
= (7, 369; 7, 935)
Regressao Linear Simples – p. 41/60
Previsão de novas observações
Uma aplicação muito importante de um modelo deregressão é a previsão de novas ou futuras observaçõesde Y, (Y0) correspondente a um dado valor da variávelexplicativa X, x0, então
Y0 = β0 + β1x0
é o melhor estimador pontual de Y0.Um intervalo de 100(1 − α)% de confiança para uma futuraobservação é dado por:
IC(Y0; 1 − α) = (Y − E; Y + E)
onde E = tα2
, n−2
√QMR[1 + 1
n+ (x0−x)2
Sxx]
Regressao Linear Simples – p. 42/60
Exemplo
Suponha agora, tem-se interesse em encontrar umintervalo de previsão de 95% das vendas semanais de umsupermercado com 600 clientes.Considerando os dados do exemplo 1, Y = 7, 661 e ointervalo de predição é:
E = 2, 101√
0, 2513[1 + 120
+ (600−731,15)2
614.603] = 1, 084
IC(Y0; 0, 95) = (7, 661 − 1, 084; 7, 661 + 1, 084)
= (6, 577; 8, 745).
Regressao Linear Simples – p. 43/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Regressao Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidoscomo
ei = yi − yi, i = 1, . . . , n
onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.
Regressao Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidoscomo
ei = yi − yi, i = 1, . . . , n
onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados
di =ei√
QMR, i = 1, . . . , n
Regressao Linear Simples – p. 45/60
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidoscomo
ei = yi − yi, i = 1, . . . , n
onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados
di =ei√
QMR, i = 1, . . . , n
Regressao Linear Simples – p. 45/60
Exemplo: Coeficiente deDeterminação
Para os dados dos supermercados do exemplo1,determinar R2.
Regressao Linear Simples – p. 48/60
Exemplo: Coeficiente deDeterminação
Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:
R2 =SQM
SQT=
46, 8371
51, 3605= 0, 912
Regressao Linear Simples – p. 48/60
Exemplo: Coeficiente deDeterminação
Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:
R2 =SQM
SQT=
46, 8371
51, 3605= 0, 912
Esse resultado significa que o modelo ajustado explicou91,2% da variação na variável resposta Y (vendassemanais). Isto é, 91,2% da variabilidade de Y é explicadapela variável regressora X (número de clientes).
Regressao Linear Simples – p. 48/60
Analise de Correlação
Suponha que se deseja desenvolver um modelo deregressão que relacione a resistência ao corte dos pontosde soldadura com o diâmetro dos mesmos. Neste caso,não é possível controlar o diâmetro de soldadura. O quepode ser feito é selecionar ao acaso n pontos desoldadura e observar o diâmetro (Xi) e a resistência aocorte (Yi) de cada um deles. Portanto, (Xi, Yi) sãovariáveis aleatórias distribuídas de maneira conjunta.
Regressao Linear Simples – p. 49/60
Suponha que a distribuição conjunta de Xi e Yi tenha umadistribuição normal bivariada cuja função de densidade édada por
Regressao Linear Simples – p. 50/60
Suponha que a distribuição conjunta de Xi e Yi tenha umadistribuição normal bivariada cuja função de densidade édada por
f(x, y) =1
2πσ1σ2
√1 − ρ2
exp
{1
2(1 − ρ2)
[(x − µ1
σ1
)2
+
(y − µ2
σ2
)2
− 2ρ
(x − µ1
σ1
)(y − µ2
σ2
)]}
Regressao Linear Simples – p. 50/60
Suponha que a distribuição conjunta de Xi e Yi tenha umadistribuição normal bivariada cuja função de densidade édada por
f(x, y) =1
2πσ1σ2
√1 − ρ2
exp
{1
2(1 − ρ2)
[(x − µ1
σ1
)2
+
(y − µ2
σ2
)2
− 2ρ
(x − µ1
σ1
)(y − µ2
σ2
)]}
onde µ1 e σ21 são a média e variância de X e µ2 e σ2
2 são amédia e variância de Y e, ρ é coeficiente de correlacao entre X
e Y.Regressao Linear Simples – p. 50/60
A densidade condicional de Y para um valor dado X = x édado por (exercicio 5.)
f(y|x) =1√
2πσY |xexp
−1
2
(yi − β0 − β1x
σ2Y |x
)2
Regressao Linear Simples – p. 51/60
A densidade condicional de Y para um valor dado X = x édado por (exercicio 5.)
f(y|x) =1√
2πσY |xexp
−1
2
(yi − β0 − β1x
σ2Y |x
)2
onde β0 = µ2 − µ1ρσ2
σ1
, β1 = σ2
σ1
ρ e σ2Y |x = σ2
2(1 − ρ2)
Regressao Linear Simples – p. 51/60
A densidade condicional de Y para um valor dado X = x édado por (exercicio 5.)
f(y|x) =1√
2πσY |xexp
−1
2
(yi − β0 − β1x
σ2Y |x
)2
onde β0 = µ2 − µ1ρσ2
σ1
, β1 = σ2
σ1
ρ e σ2Y |x = σ2
2(1 − ρ2)
A distribuição condicional de Y dado X = x é normal commédia
E(Y |X = x) = β0 + β1x
e variância σ2Y |x.
Regressao Linear Simples – p. 51/60
Estimadores de β0, β1 e ρ
β0 = Y − β1X
β1 =
Pni=1
Yi(Xi−X)Pni=1
(Xi−X)2= SXY
SXX
PsP P
Regressao Linear Simples – p. 52/60
Estimadores de β0, β1 e ρ
β0 = Y − β1X
β1 =
Pni=1
Yi(Xi−X)Pni=1
(Xi−X)2= SXY
SXX
ρ = r =
nP
i=1
Yi(Xi−X)s
nP
i=1
(Xi−X)2nP
i=1
(Yi−Y )2= SXY√
SXXSY Y
Regressao Linear Simples – p. 52/60
Estimadores de β0, β1 e ρ
β0 = Y − β1X
β1 =
Pni=1
Yi(Xi−X)Pni=1
(Xi−X)2= SXY
SXX
ρ = r =
nP
i=1
Yi(Xi−X)s
nP
i=1
(Xi−X)2nP
i=1
(Yi−Y )2= SXY√
SXXSY Y
β1 =(
SY Y
SXX
)1/2
r
Regressao Linear Simples – p. 52/60
Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é
T =r√
n − 2√1 − r2
∼sob H0 t(n − 2)
Regressao Linear Simples – p. 53/60
Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ 6= 0
A estatística de teste apropriada é
T =r√
n − 2√1 − r2
∼sob H0 t(n − 2)
A hipótese nula deverá ser rejeitada se |Tobs| ≥ tα/2, n−2.
Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0.
Regressao Linear Simples – p. 53/60
H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.Para amostras de tamanho moderado grande (n ≥ 30), aestatística
Regressao Linear Simples – p. 54/60
H0 : ρ = ρ0 vs H1 : ρ 6= ρ0
onde ρ0 6= 0.Para amostras de tamanho moderado grande (n ≥ 30), aestatística
Zr = arctanh r =1
2ln
1 + r
1 − r
tem distribuição aproximadamente normal com média
µZr= arctanh ρ =
1
2ln
1 + ρ
1 − ρ
e variância σ2Zr
= (n − 3)−1.Regressao Linear Simples – p. 54/60
A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0) (n − 3)1/2.
Regressao Linear Simples – p. 55/60
A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0) (n − 3)1/2.
Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem,aproximadamente, distribuição normal padrão. Portanto,H0 deverá ser rejeitada se |Zobs| ≥ zα/2.
Regressao Linear Simples – p. 55/60
Intervalo de confiança para ρ
Um intervalo aproximado de 100(1 − α)% de confiançapara o coeficiente de correlação ρ, que é dado por:
IC(ρ; 1 − α) =
(tanh
[arctanh r − zα/2√
n − 3
];
tanh[arctanh r +
zα/2√n − 3
]),
onde tanhw = ew−e−w
ew+e−w .
Regressao Linear Simples – p. 56/60
Exemplo 2
Suponha que se tenha interesse em medir a força darelação linear de dois produtos diferentes com relação aopreço em várias cidades do mundo.
Y - Preço de uma libra de frango; e
X - Preço de uma caixa de suco.
Regressao Linear Simples – p. 57/60
Caixa com seis Uma libraCidade sucos (X) de frango (Y )
Frankfurt 3,27 3,06Hong Kong 2,22 2,34Londres 2,28 2,27Manila 3,04 1,51México 2,33 1,87Nova York 2,69 1,65París 4,07 3,09Sidney 2,78 2,36Tokyo 5,97 4,85
Regressao Linear Simples – p. 58/60
Dos dados da tabela são obtidos os valores seguintes:
n = 9;n∑
i=1
Xi = 28, 65; X = 3, 183;n∑
i=1
X2i = 28, 65 = 102
SXX = 11, 4594;n∑
i=1
Yi = 23, 00; Y = 2, 5566;n∑
i=1
Y 2i = 67
SY Y = 8, 3522;n∑
i=1
XiYi = 81, 854; SXY = 8, 6437
r =SXY√
SXXSY Y
=8, 6437√
(11, 4594)(8, 3522)= 0, 883.
Regressao Linear Simples – p. 59/60
H0 : ρ = 0 (não relação linear entre X e Y )
H1 : ρ 6= 0 (há relação linear entre X e Y )
O valor calculado para a estatística do teste foi
Tobs =r√
n − 2√1 − r2
=0, 883
√9 − 2√
1 − (0, 883)2= 4, 98.
Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98,logo, rejeita-se H0 : ρ = 0 ao nível de significância deα = 5%.
Regressao Linear Simples – p. 60/60
Top Related