Análise de Regressão e Correlação
Prof. Victor Hugo Lachos Davila
Departamento Estatıstica
Universidade Estadual de Campinas, (UNICAMP-IMECC)
Campinas, Brasil
Analise de Regressao e Correlacao – p. 1/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Analise de Regressao e Correlacao – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Analise de Regressao e Correlacao – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Analise de Regressao e Correlacao – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Tempo de estudo e nota na prova;
Analise de Regressao e Correlacao – p. 2/29
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Tempo de estudo e nota na prova;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regress ao.
Quantificando a força dessa relação: correlac ao.
Analise de Regressao e Correlacao – p. 2/29
Exemplo 1
O gerente de uma cadeia de supermercados desejadesenvolver um modelo com a finalidade de estimar asvendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercadosescolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41
Analise de Regressao e Correlacao – p. 3/29
Diagrama de dispersão
Analise de Regressao e Correlacao – p. 4/29
Diagrama de dispersão
400 500 600 700 800 900 1000
67
89
1011
Numero de clientes
Vend
as se
mana
is
Analise de Regressao e Correlacao – p. 4/29
É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.
Analise de Regressao e Correlacao – p. 5/29
É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.O valor real de Y será determinado pelo valor médio dafunção linear (µY |x) mais um termo que representa um erroaleatório,
Analise de Regressao e Correlacao – p. 5/29
É razoável supor que a média da variável aleatória Y , estárelacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e ainclinação da reta e recebem o nome de coeficientes deregressão.O valor real de Y será determinado pelo valor médio dafunção linear (µY |x) mais um termo que representa um erroaleatório,
Y = µY |x + ε = β0 + β1x + ε,
onde ε é o erro aleatório.
Analise de Regressao e Correlacao – p. 5/29
Modelo de Regressão Linear Simples
Um modelo de regressão linear simples (MRLS) descreveuma relação entre uma variável independente (explicativaou regressora) X e uma variável dependente (resposta) Y ,nos termos seguintes:
Y = β0 + β1X + ε,(1)
onde β0 e β1 são constantes (parâmetros) desconhecidase ε é o erro aleatório.
Analise de Regressao e Correlacao – p. 6/29
Suposições do MRLS
(i) E(ε) = 0 V ar(ε) = σ2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada peloexperimentador.
(iv) ε ∼ N(0, σ2)
Analise de Regressao e Correlacao – p. 7/29
Suposições do MRLS
(i) E(ε) = 0 V ar(ε) = σ2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada peloexperimentador.
(iv) ε ∼ N(0, σ2)
Se (i)-(iv) se verificarem, então a variável dependente Yi éuma v.a. com distribuição normal com variância σ2 emédia µYi|xi
, sendo
E(Y |Xi = x) = µYi|x = β0 + β1x.
Analise de Regressao e Correlacao – p. 7/29
Estimação dos parâmetros do MRLS
Suponha que tem-se n pares de observações(x1, y1), . . . , (xn, yn).
Analise de Regressao e Correlacao – p. 8/29
Estimação dos parâmetros do MRLS
Suponha que tem-se n pares de observações(x1, y1), . . . , (xn, yn). A figura mostra uma representaçãográfica dos dados observados e um candidato para a linhade regressão.
Analise de Regressao e Correlacao – p. 8/29
Ao utilizar o modelo (1), é possível expressar as nobservações da amostra como:
yi = β0 + β1xi + εi, i = 1, . . . , n.(2)
E a soma de quadrados dos desvios das observações emrelação à linha de regressão é:
Q =n
∑
ε2i =
n∑
(yi − β0 − β1xi)2.
Analise de Regressao e Correlacao – p. 9/29
Os estimadores de mínimos quadrados (EMQ) de β0 e β1
denotados por β0 e β1 devem satisfazer as seguintesequações:
∂Q
∂β0|β0,β1
= −2
n∑
i=1
(yi − β0 − β1xi) = 0,
∂Q
∂β1
|β0,β1= −2
n∑
i=1
(yi − β0 − β1xi)xi = 0.
Analise de Regressao e Correlacao – p. 10/29
Após simplificar as expressões anteriores, tem-se:
β0 + β1
n∑
i=1
xi =
n∑
i=1
yi(3)
β0
n∑
i=1
xi + β1x2i =
n∑
i=1
xiyi.
As equações (3) recebem o nome de equações normaisde mínimos quadrados.
Analise de Regressao e Correlacao – p. 11/29
A solução dessas equações fornece os EMQ, β0 e β1,dados por:
β0 = y − β1x.
β1 =
n∑
i=1
xiyi −�
nPi=1
xi
��nP
i=1
yi
�
n
n∑
i=1
x2i −
�nP
i=1
xi
�2
n
.
onde x =
nPi=1
xi
ne y =
nPi=1
yi
n.
Analise de Regressao e Correlacao – p. 12/29
Portanto, a linha de regressão estimada ou ajustada é :
y = β0 + β1x
e estima a média da variável dependente para um valor davariável explicativa X = x, µY |x.Note que cada par de observações satisfaz a relação:
yi = β0 + β1xi + ei, i = 1, . . . , n
onde ei = yi − yi recebe o nome de resıduo .
Analise de Regressao e Correlacao – p. 13/29
Notações especiais no MRLS
Sxx =nX
i=1
(xi − x)2 =nX
i=1
x2
i −
�
nPi=1
xi
�2
n=
nXi=1
x2
i − nx2,
Sxy =nX
i=1
(xi − x)(yi − y) =nX
i=1
(xi − x)yi =nX
i=1
xiyi −
�nP
i=1
xi
��
nP
i=1
yi
�
n
=nX
i=1
xiyi − nxy,
Syy =nX
i=1
(yi − y)2 =nX
i=1
(yi − y)yi =nX
i=1
y2
i −
�
nP
i=1
yi
�
2
n=
nX
i=1
y2
i − ny2.
Os EMQ de β0 e β1 em termos da notação acima são:
β0 = y − β1x, β1 =Sxy
Sxx
.Analise de Regressao e Correlacao – p. 14/29
Exemplo de aplicação
Sxx =nX
i=1
x2
i − n(x)2 = 11306209 − 20(731, 15)2 = 614603
Sxy =nX
i=1
xiyi − n(x)(y) = 134127, 90 − 20(8, 8055)(731, 15) = 5365, 08
Syy =nX
i=1
y2
i − n(y)2 = 1609, 0971 − 20(8, 8055) = 51, 3605.
As estimativas dos parâmetros do MRLS são:
β1 =Sxy
Sxx
=5365, 08
614603= 0, 00873; β0 = y−β1x = 8, 8055−(0, 00873)(731, 15) = 2, 423.
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
y = 2, 423 + 0, 00873x.
Analise de Regressao e Correlacao – p. 15/29
400 500 600 700 800 900 1000
67
89
1011
Numero de clientes
Vend
as se
man
ais
Analise de Regressao e Correlacao – p. 16/29
Estimação de σ2
Os resíduos,ei = yi − yi
são empregados na estimação de σ2. A soma dequadrados residuais ou soma de quadrados dos erros,denotado por SQR é:
SQR =n
∑
i=1
e2i =
n∑
i=1
(yi − yi)2
Pode-se demonstrar que o valor esperado da soma dequadrados dos residuais SQR, é dado por:
E(SQR) = (n − 2)σ2
Analise de Regressao e Correlacao – p. 17/29
Portanto,
σ2 =SQR
n − 2= QMR (Quadrado m edio residual ),
é um estimador não viciado de σ2,Uma fórmula mais conveniente para o cálculo da SQR édada por:
SQR = Syy − β1Sxy.
Analise de Regressao e Correlacao – p. 18/29
Exemplo
Com os dados do exemplo, é feita a estimação davariância σ2. Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 eβ1 = 0, 00873.Portanto, a estimativa de σ2 para o exemplo 1.
σ2 =SQR
n − 2=
Syy − β1Sxy
n − 2
=51, 3605 − (0, 00873)(5365, 08)
20 − 2= 0, 2513.
Analise de Regressao e Correlacao – p. 19/29
Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que ainclinação é igual a uma constante representada por β1,0.As hipóteses apropriadas são:
H0 : β1 = β1,0, vs H1 : β1 6= β1,0
A estatística
T =β1 − β1,0√
σ2/Sxx
,
tem distribuição t-Student com n − 2 graus de liberdadesob H0 : β1 = β1,0. Rejeita-se H0 se
|Tobs| > t1−α/2, n−2.
Analise de Regressao e Correlacao – p. 20/29
Teste de hipóteses sobre β0
H0 : β0 = β0,0, vs H1 : β0 6= β0,0
A estatística
T =β0 − β0,0
√
σ2[ 1n
+ x2
Sxx]
que tem distribuição t-Student com n − 2 graus deliberdade. Rejeitamos a hipóteses nula se|Tobs| > t1−α/2, n−2.
Analise de Regressao e Correlacao – p. 21/29
Teste de significância do MRLS
H0 : β1 = 0, vs H1 : β1 6= 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir quenão há nenhuma relação linear entre X e Y.
Analise de Regressao e Correlacao – p. 22/29
Se H0 : β1 = 0 é rejeitado, implica que X tem importânciaao explicar a variabilidade de Y
Analise de Regressao e Correlacao – p. 23/29
Exemplo
Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Analise de Regressao e Correlacao – p. 24/29
Exemplo
Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0Do exemplo tem-se:
β1 = 0, 00873, n = 20 Sxx = 614603, σ2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs =β1
√
σ2/Sxx
=0, 00873
√
0, 2513/614603= 13, 65.
Analise de Regressao e Correlacao – p. 24/29
Exemplo
Teste de significância para o MRLS para os dados doexemplo 1, com α = 0, 05.As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0Do exemplo tem-se:
β1 = 0, 00873, n = 20 Sxx = 614603, σ2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs =β1
√
σ2/Sxx
=0, 00873
√
0, 2513/614603= 13, 65.
Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hipóteseH0 : β1 = 0.
Analise de Regressao e Correlacao – p. 24/29
Adequação do modelo de regressão
Análise residual,
Analise de Regressao e Correlacao – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Analise de Regressao e Correlacao – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidoscomo
ei = yi − yi, i = 1, . . . , n
onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.
Analise de Regressao e Correlacao – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidoscomo
ei = yi − yi, i = 1, . . . , n
onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados
di =ei√
QMR, i = 1, . . . , n
Analise de Regressao e Correlacao – p. 25/29
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidoscomo
ei = yi − yi, i = 1, . . . , n
onde yi é uma observação real de Y e yi é o valorcorrespondente estimado através do modelo de regressão.Resíduos padronizados
di =ei√
QMR, i = 1, . . . , n
Analise de Regressao e Correlacao – p. 25/29
Analise de Regressao e Correlacao – p. 26/29
Gráfico de resíduos do exemplo 1
Analise de Regressao e Correlacao – p. 27/29
Coeficiente de Determinação
A quantidade:
R2 = 1 − SQR
SQT
onde, SQT =n∑
i=1
(Yi − Y )2, recebe o nome de coeficiente de
determinac ao que é usado para julgar a adequação domodelo de regressão.Pode ser interpretado como a proporção da variabilidadepresente nas observações da variável resposta Y, que éexplicada pela variável independente X no modelo deregressão.
Analise de Regressao e Correlacao – p. 28/29
Exemplo
Para os dados dos supermercados do exemplo1,determinar R2.
Analise de Regressao e Correlacao – p. 29/29
Exemplo
Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:
R2 = 0, 912
Analise de Regressao e Correlacao – p. 29/29
Exemplo
Para os dados dos supermercados do exemplo1,determinar R2. Da definição tem-se:
R2 = 0, 912
Esse resultado significa que o modelo ajustado explicou91,2% da variação na variável resposta Y (vendassemanais). Isto é, 91,2% da variabilidade de Y é explicadapela variável regressora X (número de clientes).
Analise de Regressao e Correlacao – p. 29/29
Top Related