Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão:...

28
“método estatístico que utiliza entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da outra ou das outras” Análise de Regressão relação Neter, J. et al. Applied Linear Statistical Models. McGraw Hill, 1996

Transcript of Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão:...

Page 1: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

“método estatístico que utiliza entre duas ou mais variáveis de modo que uma variável pode ser

estimada (ou predita) a partir da outra ou das outras”

Análise de Regressão

relação

Neter, J. et al. Applied Linear Statistical Models. McGraw Hill, 1996

Page 2: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

a) Quantificando a força dessa relação: correlação.

b) Explicitando a forma dessa relação: regressão.

Representação gráfica de duas variáveis quantitativas: Diagrama de dispersãoDiagrama de dispersão

A presença ou ausência de relação linear pode ser investigada sob dois pontos de vista:

Page 3: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Relação funcional x CorrelaçãoRelação funcional x Correlação

As variáveis podem possuir dois tipos de relações:Funcional: a relação é expressa por uma fórmula matemática: Y = f(X)

Ex: relação entre o perímetro (P) e o lado de um quadrado (L)

y = 4x

0

50

100

150

0 10 20 30 40

Lado do Quadrado

Perím

etro

P = 4 L

Todos os pontos caem na curva da relação funcional

Page 4: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Correlação: não há uma relação perfeita como no caso da relação funcional.As observações em geral não caem exatamente na curva da relação.

Ex: relação entre o peso (P) e a altura (A) de uma pessoa

50

55

60

65

70

75

80

85

90

95

100

150 160 170 180 190

Altura (cm)

Pe

so

(k

g)

A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y dependa de X, ou que exista uma relação de causa-efeito entre X e Y.

Page 5: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Exemplo 1: Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem).

20 30 40

90

100

110

120

130

X

Y

20 30 40

90

100

110

120

130

X

Y

Correlação entre Y e X = 0,768

Page 6: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

1. Tempo de reação ⇒ variável dependente ou resposta

idade ⇒ variável independente

modelo de regressão linear simples

2. Tempo de reação ⇒ variável dependente ou resposta

sexo, idade, acuidade visual ⇒ var. independentes

modelo de regressão linear múltipla

Page 7: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Medida de AssociaçãoMedida de Associação

X

Y

X

Y

XY

X

Y

Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y

r = 0,9 r = 0,3 r = 0

r = - 0,9

Page 8: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Coeficiente de CorrelaçãoCoeficiente de Correlação

Interpretações errôneas dos coeficientes de correlação

1. Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.

X

Y

X

Y

X

Y

1

1

0

0i i i i

i i i i

Y Y y y

X X x x−

= + ∆ ∆ ᄈ= + ∆ ∆ ᄈ

XY

ΣX

ΣY

?

?

Page 9: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Coeficiente de CorrelaçãoCoeficiente de Correlação

Interpretações errôneas dos coeficientes de correlação

1. Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.

X

Y

XY

X

Y

A

X

Y

B

Page 10: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Análise de RegressãoAnálise de Regressão

1. Determinar como duas ou mais variáveis se relacionam.

2. Estimar a função que determina a relação entre as variáveis.

3. Usar a equação ajustada para prever valores da variável dependente.

Regressão Linear Simples

Yi = β0 + β1Xi + ξi

( )( )

( )2

E 0

Var

, 0

i

i

i jCOV i j

ξ

ξ σ

ξ ξ

=

=

= ∀ ᄈ

Page 11: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples

iii XY ξββ ++= 10

Erro Aleatório

Variável Independente

Variável Dependente

ξi

X

Y

β0

β1 Coeficienteangular

E(Y) = β0 + β1 X

Page 12: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Em geral não se conhece os valores de β0, β1 e σ2

Eles podem ser estimados através de dados obtidos por amostras.

O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:

ξi = Yi – (β0 + β1 Xi)

Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:

210

1

][ ii

n

i

XYQ ββ −−= ∑=

Estimação dos parâmetrosEstimação dos parâmetros

Page 13: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Estimação dos parâmetrosEstimação dos parâmetros

De acordo com o método dos mínimos quadrados, os estimadores de β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.

Derivando ][2 1010

ii

n

i

XYQ βββ

−−−=∂∂ ∑

=

iii

n

i

XXYQ

][2 1011

βββ

−−−=∂∂ ∑

=

2

1

11

)(

))((

XX

YYXXb

i

n

i

ii

n

i

−−=

=

=

XbYb 10 −=iii YYe

XbbY

XYE

ˆ

ˆ

)(

10

10

−=

+=

+= ββ

(resíduo)

Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:

Page 14: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

1)

2) é mínima

3)

4) A reta de regressão passa sempre pelo ponto

01

=∑=

n

iie

∑=

n

iie

1

2

∑∑==

=n

ii

n

ii YY

11

ˆ

Propriedades da equação de regressãoPropriedades da equação de regressão

),( YX

X

Y

X

Y

Page 15: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

No exemplo:

n=20, Σyi= 2150, Σxi=600, Σxiyi=65400, Σxi2=19000

ii

2

x90,050,80y

50,8030.90,050,107ˆ

90,030.2011000

5,107.30.2065400ˆ

+=

=−=α

=−

−=β

Interpretação: Para um aumento de 1 ano na idade, o tempo médio de reação aumenta 0,90.

Podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 anos ⇒ 50,9820.90,050,80)20(y =+=

Page 16: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

5,116)40(y 112)35(y 50,107)30(y 103)25(y ====

⇓Vantagem: permite estimar o tempo médio de reação para idades não observadas

⇓20,11033.90,050,80)33(y =+=

20 30 40

90

100

110

120

130

X

Y

Y = 80,5 + 0,9X

R-Sq = 59,0 %

Regression Plot

Page 17: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de analfabetismo (X), a taxa de criminalidade (Y) tende a aumentar. Nota-se também uma tendência linear.

Correlação entre X e Y: 0,702

Page 18: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

a reta ajustada é:

Para um aumento de uma unidade na taxa do analfabetismo (X), a taxa de criminalidade (Y) aumenta, em média, 4,257 unidades.

smoanalfabeti de taxa :X

adecriminalid de taxa a para predito valor :^Y

Interpretação de b:

Page 19: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Graficamente, temos

Como desenhar a reta no gráfico?

Page 20: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Exemplo 3: expectativa de vida e analfabetismo

Considere as duas variáveis observadas em 50 estados norte-americanos.

Y: expectativa de vida

X: taxa de analfabetismo

Page 21: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de analfabetismo (X), a expectativa de vida (Y) tende a diminuir. Nota-se também uma tendência linear.

Correlação entre X e Y:- 0,59

Page 22: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

a reta ajustada é:

Interpretação de b:

smoanalfabeti de taxa :X

vida de aexpectativ a para predito valor :^Y

Para um aumento de uma unidade na taxa do analfabetismo (X), a expectativa de vida (Y) diminui, em média, 1,296 anos.

Page 23: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Graficamente, temos

Page 24: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Resíduos

Para verificar a adequação do ajuste deve-se

fazer uma análise dos resíduos.

^

Y - Y

ResíduoResíduo é a diferença entre o valor observado e

o valor ajustado pela reta, isto é,

Page 25: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis
Page 26: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Análise de ResíduosAnálise de Resíduos

Resíduo = iii YYe ˆ−=

Y = 0,9983X + 0,1306

R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

0 2 4 6 8 10

XR

esíd

uos

9496,0

1306,09983,0ˆ

2 =

+=

R

XY

Page 27: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Análise de ResíduosAnálise de Resíduos

MQReseiResíduo Padronizado =

Y = 0,9983X + 0,1306

R2 = 0,9496

0

2

4

6

8

10

0 2 4 6 8 10

X

Y

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

XR

esíd

uos

Padr

oniz

ado9496,0

1306,09983,0ˆ

2 =

+=

R

XY

Page 28: Análise de Regressão - ime.unicamp.brnancy/Cursos/me104/regressao.pdf · Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis

Análise de ResíduosAnálise de Resíduos

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

“ideal”

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

σ2 não constante

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

não linearidade

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

não independência

tempo

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

“outlier”