Correlação e Regressão Linear - Estatística

32
Correlação e regressão linear simples Daniela Benzano Dr. Mário B. Wagner, PhD Serviço de Epidemiologia e Bioestatística/HCPA

description

Correlação e regressão linear.

Transcript of Correlação e Regressão Linear - Estatística

Page 1: Correlação e Regressão Linear - Estatística

Correlação e regressãolinear simples

Daniela Benzano

Dr. Mário B. Wagner, PhDServiço de Epidemiologia e

Bioestatística/HCPA

Page 2: Correlação e Regressão Linear - Estatística

Correlação linear

Karl Pearson

�1857, Londres, Inglaterra

� 1936, Londres, Inglaterra

O desenvolvimento da correlação linear recebeu uma importante contribuição a partir de 1893 com os estudos de Karl Pearson.

Pearson formou-se em matemática em Cambridge, 1879 e atuou como professor de Matemática Aplicada no University College,

London durante a maior parte do tempo de sua carreira acadêmica.

Page 3: Correlação e Regressão Linear - Estatística

Correlação linear

• Para avaliar se existe associação linear entre duas variáveis quantitativas é comum a utilização do coeficiente de correlação(produto-momento) de Pearson (r)

• O coeficiente de Pearson avalia o quanto duas séries numéricas repousam sobre uma linha reta, indicando assim o grau de sua associação linear.

Page 4: Correlação e Regressão Linear - Estatística

Correlação linear

• O coeficiente de Pearson (r) varia entre −1 e +1.

• Valores negativos indicam relação inversa: x↑ e y↓

• Valores positivos indicam relação direta: x ↑ e y ↑

• Os valores mínimo (-1) e máximo (+1) de r ocorrem quando todos os pontos estão sobre a reta.

r = −1 r = +1

Page 5: Correlação e Regressão Linear - Estatística

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 1500.0

0.2

0.4

0.6

0.8

1.0

1.2

Gráficos de dispersão de pontos

r = 0,76 r = 0,42

r = - 0,82r = 0

relação não linear

Page 6: Correlação e Regressão Linear - Estatística

Correlação linear

• A fórmula do coeficiente de Pearson (r) é

yx

xy

ss

covr

⋅= onde

( )( )( )1n

yyxxcovxy −

−−= ∑

• Quando x e y não estão associados eles não covariam,

a covariância (covxy) é pequena, e o r é pequeno.

• Quando x e y estão associados a covariância tende a ser tão grande quanto (sx × sy) e assim o valor de r torna-se grande (próximo de 1).

Page 7: Correlação e Regressão Linear - Estatística

Correlação linear

• A fórmula mais conhecida do coeficiente dePearson (r) é

( )( )

( ) ( )

−=

∑ ∑∑ ∑

∑∑∑

n

yy

n

xx

n

yxxy

r2

2

2

2

Page 8: Correlação e Regressão Linear - Estatística

Correlação linear

• O coeficiente de Pearson como toda estatística obtida em amostra sofre variação aleatória, devendo ser testado estatisticamente.

• O r populacional é representado por “rô” (ρ).

• O procedimento clássico é testar o desvio de r em relação ao ρ populacional

Page 9: Correlação e Regressão Linear - Estatística

Teste de significância do coeficiente de correlação (r)

ρ = 0 +1−1

Page 10: Correlação e Regressão Linear - Estatística

Teste t de Student para o

coeficiente de correlação

Dados da amostra

r = 0,58 e n=8

• Ho: ρ = 0

• Ha: ρ ≠ 0

• α = 0,05

• gl=nº de pares-2=6

• tα;gl = t0,05;6 = 2,447Estudo (horas)

0 1 2 3 4 5 6 7 8 9

No

ta n

a p

rova

0

1

2

3

4

5

6

7

8

9

10

Page 11: Correlação e Regressão Linear - Estatística

2n

r1

r

EP

rt

2r

−−

=ρ−

=

Como |tcalc| = 1,74 < t0,05;6 = 2,447, não há evidência de correlação uma vez que o desvio de r em relação a ρ=0 não foi significativo.

Teste t de Student para o

coeficiente de correlação

741

28

5801

580t

2,

,

,=

−−

=

*

* É possível obter-se, também, o intervalo de confiança para o r

Page 12: Correlação e Regressão Linear - Estatística

rgl EPtr ⋅±≅ρ α;ˆ

Li = 0,58 −( 2,447 × 0,33) = −0,23

Intervalo de 95% confiança para a ρpor aproximação t

Ls = 0,58 + (2,447 × 0,33) = 1,39 ≅ 1

IC 95%assintótico (ρ): −0,23 a 1,0

t 0,05;6 = 2,447

IC 95%exato (ρ): −0,22 a 0,91

Page 13: Correlação e Regressão Linear - Estatística

Uma escala de magnitudes

TEP

f dif.

Trivial Pequena Moderada Grande Mt. Grande Q Prf

Adaptada de Will Hopkins, http://www.sportsci.org/resource/stats/effectmag.html

Page 14: Correlação e Regressão Linear - Estatística

Correlação linearCoeficiente de determinação

• O quadrado do coeficiente de correlação (r2) é conhecido como coeficiente de determinação e representa a “variância explicada”, ou seja, qual a proporção da variabilidade de y que pode ser explicada pela variabilidade de x.

Page 15: Correlação e Regressão Linear - Estatística

Explorador e antropologista, Galton tornou-se famoso por seus estudos pioneiros sobre hereditariedade da inteligência.Galton descobriu a regressão linear (a qual chamou inicialmente de reversão) estudando ervilhas, provavelmente influenciado por seu não menos famoso primo, o biólogo Charles Darwin. Apesar de não ser matemático, Galtoninfluenciou o pensamento estatístico da época tendo como um de seus seguidores o jovem matemático Karl Pearson.

Francis Galton�1822, Birmingham, Inglaterra� 1911, Surrey, Inglaterra

Galton e a reversão

Page 16: Correlação e Regressão Linear - Estatística

Regressão linear

• Técnica de análise de dados que permite quantificar o efeito de x sobre y partindo de um modelo linear (reta).

• Com regressão linear é possível estimar o valor de y (variável dependente) a partir de um valor de x (variável independente).

Page 17: Correlação e Regressão Linear - Estatística

Altura (cm)

Peso (Kg)

A reta de regressão linear

altura peso152 55153 56160 63163 60165 61171 64172 70178 71180 73181 85185 80186 89186 75

Page 18: Correlação e Regressão Linear - Estatística

• y: peso (v. dependente)

• x: altura (v. independente)

• b: coeficiente angular. Efeito de x em y, ou seja, para cada alteração de uma unidade em x, y altera-se em b unidades.

• a: coeficiente linear. Ponto em y quando x for igual a zero.

Altura (cm)

Peso (Kg)

A reta de regressão linear

y = a + bx

Page 19: Correlação e Regressão Linear - Estatística

Regressão linear

( )( )

( )∑ ∑

∑∑∑

−=

n

xx

n

yxxy

b2

2

xbya −=

y = a + bx

Page 20: Correlação e Regressão Linear - Estatística

Regressão linear

Assim, no exemplo da altura (cm) e do peso (kg) temos

( )( )

( )∑ ∑

∑∑∑

−=

n

xx

n

yxxy

b2

2

xbya −=

x8105369y ,, +−=

altura8105369peso ⋅+−= ,,

Page 21: Correlação e Regressão Linear - Estatística

Teste de significância do coeficiente angular (b)

Β = 0

Page 22: Correlação e Regressão Linear - Estatística

Teste t de Student para o

coeficiente angular

• Ho: Β = 0

• Ha: Β ≠ 0

• α = 0,05

• gl=nº de pares-2=11

• tα;gl = t0,05;11 = 2,201

altura peso152 55153 56160 63163 60165 61171 64172 70178 71180 73181 85185 80186 89186 75

Page 23: Correlação e Regressão Linear - Estatística

bb EP

b

EP

Bbt =

−=

Teste t de Student para o

coeficiente angular (b)

( ) ( )

−−

−−=

∑ ∑∑∑ ∑

2

2

2

2n

xxn

xybyayEPb

onde

Page 24: Correlação e Regressão Linear - Estatística

Teste t de Student para o

coeficiente angular (b)*

altura(x)8105369peso(y) ⋅+−= ,,

Coefficientsa

-69.527 19.070 -3.646 .004

.809 .111 .910 7.301 .000

(Constant)

ALTURA

Model1

B Std. Error

Unstandardized

Coefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: PESOa.

SPSS output

Page 25: Correlação e Regressão Linear - Estatística

Teste t de Student para o

coeficiente angular (b)*

Como |tcalc| = 7,30 > t0,05;11 = 2,201, o “b”é significativamente diferente de zero, havendo regressão do peso sobre a altura.

* É possível obter-se o IC para o b.

Coefficientsa

-69.527 19.070 -3.646 .004

.809 .111 .910 7.301 .000

(Constant)

ALTURA

Model1

B Std. Error

Unstandardized

Coefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: PESOa.

SPSS output

Page 26: Correlação e Regressão Linear - Estatística

bgl EPtbB ⋅±= α;ˆ

Li = 0,81 − ( 2,201 × 0,11) = 0,57

Intervalo de 95% de confiança para a Β

Ls = 0,81 + (2,201 × 0,11) = 1,05

IC 95%assintótico (Β): 0,57 a 1,05

t 0,05;11= 2,201

Page 27: Correlação e Regressão Linear - Estatística

Tema

Ex: 60

64

Page 28: Correlação e Regressão Linear - Estatística

Tema: solução do exercício 60

E: igual número de acidentes nos 6 dias da semana. 180/6=30 por dia

• χ2 calculado = 23.7 > χ20,01;5 = 15,09, rej.

Ho.

• Acidentes não ocorrem com igual freqüência nos seis dias da semana.

Page 29: Correlação e Regressão Linear - Estatística

Tema: solução do exercício 64 (cont)

Associação idade início vida sexual com

câncer uterino

Idade início vida sexual

<16 17-20 >20

Casos 19 22 2 43

Controles 16 33 14 63

• 35 55 16 106

E: TC x TL/TG em cada casela

ex: 35 x 43/106 na primera casela

Page 30: Correlação e Regressão Linear - Estatística

Tema: solução do exercício 64

Testes de associação da idade de início da vida sexual com câncer uterino

• χ2 calculado = 7,97 > χ20,05;2 = 5,99, rej. Ho.

• Há associação entre idade de início da vida sexual e câncer da cérvice uterina.

Page 31: Correlação e Regressão Linear - Estatística

Tema: solução do exercício 64 (cont)Associação com alelo DQB1*03

DQB1*03 Outro

Casos 33 10

Controles 24 39

• Como é uma tabela 2x2, usar correção de Yates.

• χ2 Yates = 13,84 > χ20,001;1 = 10,83, rej. Ho.

• Mulheres portadoras do alelo DQB1*03 têm maior risco.

Page 32: Correlação e Regressão Linear - Estatística

Tema: solução do exercício 64 (cont)

Associação câncer uterino com alelo DQB1*03

• Como é uma tabela 2x2, usar correção de Yates.

• χ2 Yates = 13,84 > χ20,001;1 = 10,83, rej. Ho.

• Mulheres portadoras do alelo DQB1*03 têm maior risco.