Variáveis Prof. Ivan Balducci FOSJC / Unesp. Tipos de Variáveis.
Prof. Ivan Balducci FOSJC / Unesp CORRELAÇÃO linear de Pearson ( r )
Transcript of Prof. Ivan Balducci FOSJC / Unesp CORRELAÇÃO linear de Pearson ( r )
Prof. Ivan Balducci
FOSJC / Unesp
CORRELAÇÃO linear de Pearson
( r )
Correlação: Há um Relacionamento entre as variáveis?
Elas vão juntas? Aumentando uma variável, então aumenta também a outra?
Exº de variáveis
X ... Horas de estudo
Y ... Notas na Prova
Exemplo 1: Notas vs Horas de estudo
• Variável independente é o número de horas estudadas.
• A nota do aluno é a var. dependente.
• A nota do aluno depende do nº de horas que ele estuda?
• Essas variáveis se relacionam?
752F
683E
885D
571C
632B
826A
NotaHoras estudadas
Aluno
Diagrama de Dispersão
• Por convenção, a variável independente é considerada no eixo horizontal x.
• A dependente é considerada no eixo vertical y.
Exemplo de Diagrama de Dispersão
Horas Notas
1 57
2 63
2 75
3 68
5 88
6 82
C1
C2
6543210
90
85
80
75
70
65
60
55
50
75
68
88
57
63
82
Diagrama de Dispersão: Notas vs Horas de Estudo
C1: Horas de Estudo ; C2: Notas dos Alunos
Correlação Positiva Linear
x x
yy y
x(a) Positiva (b) Forte
positiva(c) Perfeita positiva
Correlação Negativa Linear
x x
yy y
x(d) Negative (e) Strong
negative(f) Perfect
negative
Correlação Não Linear
x x
yy
(g) Nenhuma Correlação (h) Correlação Não linear
Exemplos Quanto à Intensidade do Relacionamento
Definição:
Coeficiente Correlação Linear r
• Mede a força do relacionamento linear entre valores pareados x e y na amostra
nxy – (x)(y)
n(x2) – (x)2 n(y2) – (y)2r =
•Calculadoras Científicas (estatística)
podem calcular r
Fórmula do Coeficiente de Correlação Linear
Notação: Coeficiente de Correlação Linear
n número de pares de dados presentes.
soma.
x soma de todos os valores de x.
x2 indica que cada x deve ser elevado ao quadrado e então aqueles quadrados somados.
(x)2 indica que x deve ser somado e o total é elevado ao quadrado.
xy indica que cada x deve ser primeiro multiplicadopor seu
correspondente y. Após obter todos os produtos, somamos.
r coeficiente correlação linear para a amostra
Exemplo 2: Idade vs Pressão
• Dados de idade e pressão sanguínea.
• Calculamos: x, y, xy, x2 e y2.
2310449001064015270F
1124432039947634819345Soma
198814489944714167E
204493721872314361D
182253136756013556C
144002304576012048B
163841849550412843A
BP2age2Age*BP
Blood Pressure
AgeAluno
Exemplo 2: Cálculo de r
• Substituímos na fórmula e resolvemos para r:r= {(6*47634)-(345*819)}/{[(6*20399)-3452]
[(6*112443)-8192]}0.5.
r= 0.897 = 0.90 aprox.
• O coeficiente de correlação sugere um relacionamento forte positivo entre a idade e a pressão sanguínea.
interpretação do “r”
• A correlação é 0.9• Há um
relacionamento positivo e forte
• entre idade e pressão sanguínea
AgeBlood Pressure 0.90
Propriedades de r
1. –1 r 1
2. Valor de r não muda se todos os valores de ambas variáveis mudam (são convertidos) para a diferentes escalas
3. Trocando todos os valores x e y não mudarão r
4. r mede a força de um relacionamento linear
Erros Comuns sobre Correlação
1. Evite concluir que uma correlação entre duas variáveis implica em causalidade.
2. Nenhum relacionamento linear não implica nenhum relacionamento. Há uma
possibilidade de um relacionamento não linear.
Correlação
O que se pode dizer sobre a intensidade do relacionamento entre x e y ?
A magnitude refere-se à força de associação entre x e y. Por exemplo:
Correlação Interpretação
r = 0.00 Não há relacionamento entre x e y
r = 0.20 Baixo, relacionamento entre x e y
r = 0.40 Moderado relacianamento entre x e y
r = 0.70 Alto relacionamento entre x e y
r = 1.00 Perfeita correspondência entre x e y
Correlação
Quanto à direção da relação entre x e y ?
A direção se refere ao como os altos e baixos valores em x e y estão associados. Por exemplo:
Positiva Negativa NenhumaCorrelação Correlação Correlação r = +1.0 r = -1.0 r = 0.00
x x x
yyy
RegressãoRegressão
Regressão
• Analisa o relacionamento entre uma dependente variável e uma
independente variável. • Tenta explicar o relacionamento por
ajustar uma linha (relacionamento linear).
• É estabelecida uma equação: Y = a + bx
dependente independente
Linha de Regressão e Equação de RegressãoV
ariá
vel D
epen
den
te (
Y)
Variável Independente (X)
Intercepto = a
Inclinação = b
Regressão equação:
Y = a + b.X
Modelo Regressão Linear
Uma linha reta que melhor ajusta ou descreve os dados é dada pela equação:
Y = a + bX
a = é o intercepto em Y (valor de Y quando X = 0)
b = é a inclinação da linha (taxa de mudança)
Exemplo 1: nº de Frangos vs Batata frita
Predizer o consumo french fries em função do nº de frangos consumidos
Jantar nº Frangos nº fries 1 1 152 3 303 7 404 2 295 4 356 3 32
Exemplo 1: nº de Frangos vs Batata frita
a = 18,34b = 3,55
r = 0,87
0
10
20
30
40
50
0 1 2 3 4 5 6 7 8
Frangos
fri
es
Exemplo 2: Relacionamento
Altura e Teor da droga das folhas
Y: variável Dependente – teor da droga
X: variável Independente – altura da folha
Equação de Regressão
Pode-se predizer o teor da droga a partir da posição
da folha
variável Dependente
Independente
teor da droga posição da folha
X: Altura (m) Y:Droga (mg/g folha seca)
1.3 811.9 652.4 612.6 693.0 773.7 444.1 454.3 464.9 395.6 496.2 316.8 287.0 467.4 318.6 38
Exemplo 2: Altura das folhas e o teor das drogas
Avaliação
Gráfica Inicial
Fazemos um gráfico para garantir que não estamos
diante de algum relacionamento não linear
É Importante Traçar o Diagrama de Dispersão
Quarteto de AnscombeEm todos os 4 casos:
Y =3+0,5X e rxy=0,816
987654321
80
70
60
50
40
30
Height
Dru
gTeor da droga versus Altura
da folhaD
rog
a
( m
g/g
)
Altura (m)
É razoável considerar linear
Exemplo 2
987654321
80
70
60
50
40
30
20
10
Height
Dru
gEscolhendo a linha de melhor
ajuste
Desvio do ponto à linha
Equação de Regressão
Teor (mg/g) = 79,3 - 6,30 x Altura (m)
987654321
80
70
60
50
40
30
Height
Dru
g
O sinal menos indica um negativo relacionamento entre concentração da droga e altura. A figura apresenta uma inclinação negativa
Exemplo 5
Predizendo o teor da droga
Predizer a concentração da droga em uma folha situada a uma altura de 5 m da árvore …
Teor = 79,3 - 6,30 x Altura
= 79,3 - 6,30 x 5
= 79,3 - 31,5
= 47,8
Concentração Prevista da droga = 47,8 mg/g
Exemplo 2
Extrapolação
Predizer o teor da droga em uma folha colhida a 15 m da árvore …
Teor da droga = 79,3 - 6,30 x Altura
= 79,3 - 6,30 x 15
= 79,3 - 94,5
= -15,2 mg/g !?!?!
resultado sem sentido
Exemplo 2
121086420
100
90
80
70
60
50
40
30
20
10
0
Height
Dru
g
Interpolação ExtrapolaçãoExtrapolação
Interpolação versus Extrapolação
Exemplo 2
Interpolação vs Extrapolação
A Interpolação, em geral, é muito segura.
A Extrapolação só é válida quando pode-se garantir relacionamento linear além da região de observação.
Exemplo 2 (os teores seriam negativos em qualquer folha acima
de 12 m)
Correlaçãobaixa
moderada
forte
Termos que devem ser familiares
Regressão Linearinclinação
interpolação
extrapolação
Diagrama de dispersão