Correlação
-
Upload
federal-university-of-bahia -
Category
Education
-
view
2.386 -
download
4
Transcript of Correlação
{Correlação linear
Paulo Novis Rocha
Créditos: Bioestatística: Princípios e Aplicações. Sidia M. Callegari-Jacques
Avaliar se existe associação entre duas características quantitativas.
Quando se constata que duas variáveis quantitativas variam juntas, diz-se que elas estão correlacionadas.
Correlação linear simples
ALUNO X (horas) Y (nota)
A 8 10
B 7 8
C 6 4
D 3 8
E 3 6
F 6 9
G 5 7
H 2 4
Número de horas de estudo e nota obtida por 8 alunos em uma prova
Diagrama de dispersão correspondente ao número de horas de estudo e nota obtida por 8 alunos em uma prova
Outra maneira de se avaliar a correlação é usar um coeficiente
Número puro, independente da unidade de medida das variáveis
Mede a intensidade da associação existente entre duas variáveis quantitativas
Coeficiente de correlação produto-momento (r)
Proposto por Karl Pearson em 1896
Coeficiente de correlação produto-momento ou coeficiente de correlação de Pearson (r)
r pode variar entre -1 e +1
Valores negativos = correlação inversa
Valores positiva = correlação direta
Variação no coeficiente de correlação
Valores máximos: reta inclinada
Nula: nuvens circulares ou nuvem elíptica paralela a um dos eixos do gráfico
Valores intermediários: nuvens elípticas inclinadas (quanto mais estreitas, maior a correlação)
Situações especiais: pontos formam uma nuvem cujo eixo principal é uma curva Solução: transformação de dados, técnica não
paramétrica
Intensidade da correlação nos diagramas de dispersão
Exemplos de diagramas de dispersão, com os valores de r correspondentes
Fórmula para obtenção de r
58,0
)()(
))((
1
))((cov onde ,
cov
22
r
SQxSQ
SP
yyxxx
yyxxr
n
yyxx
SxSr
yx
xy
y
xy
xy
x
|r| Intensidade
0 nula
0 – 0,3 Fraca
0,3 |– 0,6 Regular
0,6 |– 0,9 Forte
0,9 |– 1 Muito forte
1 Plena ou perfeita
Intensidade da correlação
r da amostra é uma estimativa da verdadeira correlação entre x e y existente na população.
(1) Elaboração das hipóteses
H0 : ρ = 0
HA : ρ ≠ 0
(2) Escolha do nível de significância
α = 0,05
(3) Determinação do valor crítico do teste
t α;gl = t 0,05;6 = 2,447 (gl = n – 2, onde n = no pares x,y)
(4) Determinação do valor calculado de t
Teste de hipóteses sobre a correlação
06;05,0
22
rejeita se não ,45,2 1,74
74,1333,0
58,0
28
58,01
58,0
2
1
0
EP
Httcomo
n
r
rrt
calc
r
calc
r2 é o quadrado do coeficiente de correlação
Informa que fração da variabilidade de uma característica é explicada estatisticamente pela outra variável.
Coeficiente de determinação
Não há necessidade de satisfazer pressuposição alguma para calcular o r entre duas variáveis quantitativas
Os pressupostos se aplicam apenas à realização do teste estatístico
(1) x e y têm distribuição normal
(2) Homocedasticidade A variância de x é a mesma para os vários níveis de y
A variância de y é a mesma para os vários níveis de x
Pressupostos
Situações onde o r deve ser usado com cautela
r = 0,84 (todos os pontos)r = 0,46 (excluindo outliers) Heterocedasticidade
rmede uma associação e não uma relação de causa e efeito.
Pode haver outros fatores determinando os níveis tanto de uma quanto da outra variável.
Pode haver correlação fraca e estatisticamente significante (n = 900, r = 0,15, p < 0,001)
Lembrar que:
Exemplo no SPSS
Coeficiente de correlação para postos de Spearman
Mais antiga estatística baseada em postos (1904)
Utilizado para avaliar o grau de correlação entre variáveis quantitativas quando as exigências para o teste de Pearson não são satisfeitas
Distribuição bivariada normal
Homocedasticidade
Coeficiente de correlação de Spearman
rs = 0, ausência de correlação
rs = -1, correlação negativa perfeita
rs = +1, correlação positiva perfeita
O cálculo de rs baseia-se nas diferenças entre os postos de x e y
Exemplo
Um pesquisador procurou correlacionar os níveis de nitrato na água com a profundidade de uma lagoa.
Variaçao temporal do nitrato (μg/L) e da profunidade (m) da lagoa
Mês/ano Nitrato(x)
Profundidade(y)
Posto dex
Posto dey
d d2
03/1988 30,6 4,2 8 11 3 9
05/1988 17,2 3,2 5 9 4 16
06/1988 36,2 2,2 10 6 -4 16
10/1988 < 1,9 2 2 0 0
11/1988 < 2,0 2 4 2 4
12/1988 13,7 2,0 4 4 0 0
01/1989 98,1 5,1 12 13 1 1
02/1989 111,4 4,3 13 12 -1 1
05/1989 19,4 2,3 6 7 1 1
06/1989 23,2 2,4 7 8 1 1
08/1989 37,2 2,0 11 4 -7 49
12/1989 < 1,7 2 1 -1 1
01/1990 34,5 3,4 9 10 1 1
Σ 0 100
<: abaixo do limite de detecção, que é 10 μg/L
Cálculo do rs
725,0275,012184
6001
1313
)100(61
valoresde pares de número onde ,6
1
3
3
2
s
s
r
nnn
dr
Fórmula com correção para empates
722,0180*1802
100180180
posto cada em empates de número o é onde,12
)()(
para como para anto onde ,2
33
2
s
yx
yx
s
r
tttnn
A
yxtAA
dAAr
O valor tabelado de rs para um teste bilateral, α = 0,01 e n = 13 é 0,703.Portanto, o coeficiente de correlação obtido é estatisticamente significativo.
Exemplo no SPSS