calculo R2

of 55 /55
1 9 Correlação e Regressão 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Embed Size (px)

Transcript of calculo R2

9

Correlao e Regresso9-1 Aspectos Gerais 9-2 Correlao 9-3 Regresso 9-4 Intervalos de Variao e Predio 9-5 Regresso Mltipla

1

9-1

Aspectos GeraisDados Emparelhados

h uma relao? se h, qual a equao? usar a equao para predio

2

9-2

Correlao

3

DefinioCorrelao existe entre duas variveis quando uma delas est, de alguma forma, relacionada com a outra.

4

Suposies1. A amostra de dados emparelhados (x,y) uma amostra aleatria. 2. Os pares de dados (x,y) tem uma distribuio normal bivariada.

5

DefinioDiagrama de Disperso um grfico de dados amostrais emparelhados (x,y) com o eixo x horizontal e o eixo y vertical. Cada par individual (x,y) plotado como um ponto.6

Diagrama de Disperso

7

Correlao Linear Positivay y y

x(a) Positiva (b) Positiva Forte

x

(c) Positiva Perfeita

x

Figura 9-1

Diagramas de Disperso8

Correlao Linear Negativay y y

x(d) Negativa (e) Negativa Forte

x(f) Negativa Perfeita

x

Figura 9-1

Diagramas de Disperso9

Sem Correlao Lineary y

(g) No h Correlao

x

(h) Correlao no-linear

x

Figura 9-1

Diagramas de Disperso10

Notao- 2 = (x2) n( x )2 Sxx = (x x) - 2 = (y2) n( y )2 Syy = (y y) - Sxy = (x x)(y y) = (xy) n ( x )( y )

11

Coeficiente de Correlao Linear rmede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra

Definio

r=Frmula 9-1

Sxy (Sxx) (Syy )

Calculadoras podem fornecer r

(r) o coeficiente de correlao linear de todos osdados emparelhados da populao.12

Notao para o Coeficiente de Correlao Linearn x x 2nmero de pares de dados presentes denota a adio dos itens indicados. denota a soma de todos os valores de x. indica que devemos ao quadrado cada valor de x e somar os resultados.

(x)2 indica que devemos somar os valores de x e elevar o total ao quadrado.

xy r

indica que devemos multiplicar cada valor de x pelo valor correspondente de y e somar ento todos estes produtos. representa o coeficiente de correlao linear para uma amostra. representa o coeficiente de correlao linear para uma populao13

Interpretando o Coeficiente de Correlao LinearSe o valor absoluto de r excede o valor na Tabela A - 6, conclumos que h correlao linear significativa. Caso contrrio, no h evidncia suficiente para apoiar a existncia de uma correlao linear significativa.

14

TABELA A-6 Valores Crticos do Coeficiente de Correlao de Pearson rn4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100

= .05,950 ,878 ,811 ,754 ,707 ,666 ,632 ,602 ,576 ,553 ,532 ,514 ,497 ,482 ,468 ,456 ,444 ,396 ,361 ,335 ,312 ,294 ,279 ,254 ,236 ,220 ,207 ,196

= .01,999 ,959 ,917 ,875 ,834 ,798 ,765 ,735 ,708 ,684 ,661 ,641 ,623 ,606 ,590 ,575 ,561 ,505 ,463 ,430 ,402 ,378 ,361 ,330 ,305 ,286 ,269 ,256 15

Propriedades do Coeficiente de Correlao Linear r1. -1 r 1 2. O valor de r no varia se todos os valores de qualquer uma das variveis so convertidos para uma escala diferentes. 3. O valor de r no afetado pela escolha de x ou y. Permutando todos os valores de x e y, o valor de r permanecer inalterado. 4. r mede a intensidade, ou grau, de um relacionamento linear.16

Erros Comuns Envolvendo Correlao1. Causalidade: errado concluir que correlao implica causalidade. 2. Mdias ou Taxas: Taxas ou mdias suprimem a variao individual e podem inflacionar o coeficiente de correlao. 3. Linearidade: Pode haver alguma relao entre x e y mesmo quando no h correlao linear significativa.17

Erros Comuns Envolvendo CorrelaoFIGURA 9-2

250 200

Distncia (ps)

150 100 50

0

0

1

2

3

4

5

6

7

8

Tempo (segundos)

Diagrama de disperso da distncia acima do solo e do tempo para um objeto lanado para cima18

Teste de Hiptese FormalPara determinar se existe uma correlao linear significativa entre duas variveis Dois mtodos Ambos mtodos utilizam: H0: = 0 H1: 0

(no h correlao linear significativa)

(correlao linear significativa)19

Mtodo 1: Estatstica de Teste t(segue formato apresentado anteriormente)

Estatstica de Teste:

t=

r1-r2 n-2

Valores Crticos:

utilizar a Tabela A-3 com graus de liberdade = n - 220

Mtodo 1: Estatstica de Teste t(segue formato apresentado anteriormente)

Figura 9-421

Mtodo 2: Estatstica de Teste r(exige menos clculos)

Estatstica de teste: r Valores crticos: Consulte a Tabela A-6(no h graus de liberdade)Rejeitar =0 No rejeitar =0 Rejeitar =0

-1

r = - 0,811

0

r = 0,811 Valor amostral: r = 0,828

1

Figura 9-5

22

FIGURA 9-3

Incio Seja: H0: = 0 H1: 0

Teste para a Correlao Linear

Escolha um nvel de significncia l Calcule r com a Frmula 9-1

MTODO 1

MTODO 2

A estatstica de teste

1-r2 n -2 Os valores crticos de t esto na Tabela A-3, ( n -2 graus de liberdade)

t=

r

A estatstica de teste r Os valores crticos de r encontram-se na Tabela A-6

Se o valor absoluto da estatstica de teste excede os valores crticos, rejeitar H0: = 0 Caso contrrio, no rejeitar H0

Se H0 rejeitada, concluir que h Correlao linear significativa. Se H0 no rejeitada, ento no h evidncia suficiente para concluir pela existncia de uma correlao linear.

23

H correlao linear significativa?Dados do Projeto do Lixo: Anlise de plstico descartadox Plstico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383 y Tamanho da residncia

2

3

3

6

4

2

1

5

n=8

= 0,05

H 1 : 0

H0: = 0

Estatstica de teste r = 0,842

24

H correlao linear significativa?n=8

= 0,05

H0: H1

=0 : 0

n4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100

= ,05,950 ,878 ,811 ,754 ,707 ,666 ,632 ,602 ,576 ,553 ,532 ,514 ,497 ,482 ,468 ,456 ,444 ,396 ,361 ,335 ,312 ,294 ,279 ,254 ,236 ,220 ,207 ,196

= ,01,999 ,959 ,917 ,875 ,834 ,798 ,765 ,735 ,708 ,684 ,661 ,641 ,623 ,606 ,590 ,575 ,561 ,505 ,463 ,430 ,402 ,378 ,361 ,330 ,305 ,286 ,269 ,256

Estatstica de teste r = 0,842

Valores crticos so r = - 0,707 e 0,707 (Tabela A-6 com n = 8 e = 0,05)

TABELA A-6 Valores Crticos do Coeficiente de Correlao de Pearson r

25

H correlao linear significativa?0,842 > 0,707, ou seja, a estatstica de teste est na regio crtica. REJEITAMOS, pois, H0: = 0 (ausncia de correlao) e conclumos que h correlao linear significativa entre o Peso de plstico descartado e o tamanho das residncias.Rejeitar =0 No Rejeitar =0 Rejeitar =0

-1

r = - 0,707

0

r = 0,707Dados amostrais: r = 0,842

1

26

Justificao para a Frmula de rFrmula 9-1 desenvolvida de

r=

(x -x) (y -y)(n -1) sx syy24 20II Quadrante

(x, y)x=3

centride dos pontos da amostra

x - x = 7- 3 = 4

I Quadrante

(7, 23)

y - y = 23 - 11 = 12

16 12 8 4 0 0

(x, y)IV Quadrante

y = 11

III Quadrante

FIGURA 9-6x2 3 4 5 6 727

1

9-3 Regresso DefinioEquao de RegressoDada uma coleo de dados amostrais emparelhados, a equao de regresso

^ y = b0 + b1xdescreve a relao entre as duas variveis

(reta de melhor ajuste ou reta de mnimos quadrados)

Reta de Regresso

o grfico da equao de regresso28

Reta de Regresso em Diagrama de Disperso

29

A Equao de Regressox a varivel independente(varivel preditora)

^y a varivel dependente(varivel resposta)

^ y = b0 +b1x y = mx +b

b0 = y - intercepto b1 = inclinao30

Notao para a Equao de RegressoParmetro Populacional Estatstica Amostral

y-intercepto da equao de regressoInclinao da equao de regresso Equao da reta de regresso

0 1y = 0 + 1 x

b0 b1^ y = b0 + b1 x

31

Suposies1. Estamos investigando apenas relaes lineares. 2. Para um dado valor de x, y uma varivel aleatria com distribuio normal (em forma de sino). Todas essas distribuies de y tem a mesma varincia. E ainda, para um dado valor de x, a mdia da distribuio dos valores de y est sobre a reta de regresso. (Os resultados no so afetados seriamente se os desvios da normalidade e da igualdade da varincia no so grandes.)32

Frmula para b0 e b1Frmula 9-2

b0 = b1 =

--b x y 1(Sxy) (Sxx)

(intercepto y)

Frmula 9-3

(coeficiente angular

Calculadoras ou computadores podem determinar estes valores Frmula 9-433

A reta de regresso a que melhor se ajusta aos pontos amostrais.

34

PrediesAo predizer um valor de y com base em determinado valor de x ...1. Se no h uma correlao linear significativa, o melhor valor predito de y y.

2. Se h uma correlao linear significativa, obtm-se o melhor valor predito de y substituindo-se o valor de x na equao de regresso.

35

FIGURA 9-7

Predizendo o Valor de uma VarivelIniciar

Calcular r e testar a hiptese que = 0 H correlao linear significativa ? No Dado um valor arbitrrio de uma varivel, o melhor valor Predito da outra varivel sua mdia amostral. Utilizar a equao de regresso para fazer predies. Levar o valor Dado na equao de regresso.

Sim

36

Diretrizes para o Uso da Equao de Regresso1. Se no h correlao linear significativa, no use a equao de regresso para fazer predies. 2. Ao aplicar a equao de regresso para predies, mantenha-se dentro do mbito dos dados amostrais. 3. Uma equao de regresso baseada em dados passados no necessariamente vlida hoje. 4. No devemos fazer predies sobre uma populao diferente daquela de onde provm os dados amostrais.37

Qual a melhor predio do tamanho de uma residncia que descarta 0,227 kg de plstico?Dados do Projeto Lixo: Anlise de plstico descartadox Plstico (kg) 0,122 0,640 0,993 1,284 0,993 0,821 0,386 1,383 y Tamanho da residncia

2

3

3

6

4

2

1

5

Usando uma calculadora:

b0 = 0,549 b1 = 3,263y = 0,549 + 3,263 (0,227) y = 1,29Uma residncia que que descarta 0,227 kg de plstico tem aproximadamente uma pessoa.38

DefiniesVariao Marginala quantia que uma varivel varia quando a outra varivel sofre uma variao de exatamente 1 unidade

Outlierum ponto que est muito afastado dos demais pontos.

Pontos de Influnciapontos que afetam fortemente o grfico da reta de regresso.39

Resduos e Propriedade de Mnimos QuadradosDefiniesResduosdado um par de dados amostrais (x,y), um resduo a ^ diferena (y - y) entre um valor amostral observado y e ^ o valor y predito com base na equao de regresso.

Propriedade dos Mnimos QuadradosUma reta verifica a propriedade dos mnimos quadrados se a soma dos quadrados dos resduos a menor possvel.

40

Resduos e a Propriedade dos Mnimos Quadradosx y1 2 4 24 4 5 8 32 y32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0

^ = 5 + 4x y Resduo = 7 Resduo = 11

1

Resduo = -52 3 4

Resduo = -135

FIGURA 9-8

x

41

9-4

Intervalo de Variao e de Predio42

Desvio Total (de um particular ponto (x, y) em relao mdia) a distncia vertical y - y, que a distncia entre o ponto (x, y) e a reta horizontal que passa pela mdia amostral y.

Definies

Desvio Explicado

^ a distncia vertical y - y, que a distncia entre o valor predito y e a reta horizontal que passa pela mdia amostral y. ^ a distncia vertical y - y, que a distncia vertical entre o ponto (x, y) e a reta de regresso. (A distncia y - ^ y tambm chamada resduo, definido na Seo 9-3.)

Desvio no-explicado

43

Figura 9-9 Desvios: No-explicado, Explicado e Totaly20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0

(5, 19)

Desvio total (y - y ) (5, 13)

Desvio no-explicado ^ (y - y ) Desvio explicado (^ - y) y

(5, 9) ^ y = 3 + 2x

y=9

x1 2 3 4 5 6 7 8 9

44

(desvio total)

=

(y - y) =

(desvio explicado) + (desvio no-explicado) ^ ^

(y - y)

+

(y - y)

(variao total)

= (variao explicada) + (variao no-explicada)

(y - y) =

2

(y^-

y)

2

+ (y - y)

^ 2

Frmula 9-5

45

DefinioCoeficiente de determinao o valor da variao de y que explicado pela reta de regresso

R

2

=

variao explicada. variao total

ou simplesmente o quadrado de r (determinado pela Frmula 9-1, seo 9-2)

46

Intervalos de PredioDefinioErro-padro da estimativa uma medida das diferenas (ou distncias) entre os valores amostrais y observados e os ^ valores preditos y obtidos atravs da reta de regresso.

47

Erro-padro da Estimativa

s

e

=

(y

^ 2 - y)

n-2

ou

s

e

=

y - b0 y - b1 xy2

n-2

Frmula 9-648

Intervalo de Predio para um determinado y

y-E< y < y+Eonde E = t/2 se(x0 x ) 1+ n + Sxx12

^

^

t/2 tem n - 2 graus de liberdade

x0 representa o valor dado de x49

9-5

Regresso MltiplaDefinio

Equao de Regresso MltiplaUm relacionamento linear entre uma varivel dependente y e duas ou mais variveis independentes (x1, x2, x3 . . . , xk)

^=b +b x +b x +...+b x y 0 1 1 2 2 k k50

Notao(Forma geral da equao de regresso mltipla estimada)

y = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk

^

n = tamanho da amostra k = nmero de variveis independentes^ y = valor predito da varivel dependente y

x1, x2, x3 . . . , xk so as variveis independentes

51

Notao0 = intercepto y, ou valor de y quando todas asvariveis preditoras so 0.

b0 = estimativa de 0 baseada nos dados amostrais 1, 2, 3 . . . , k so os coeficientes das variveisindependentes x1, x2, x3 . . . , xk

b1, b2, b3 . . . , bk so as estimativas amostrais dos coeficientes 1, 2, 3 . . . , k52

R Ajustado DefiniesCoeficiente de determinao mltiplauma medida do grau de ajustamento da equao de regresso mltipla aos dados amostrais

2

Coeficiente de determinao ajustadoo coeficiente mltiplo de determinao R modificado de modo a levar em conta o nmero de variveis e o tamanho da amostra.2

53

R Ajustado2

R Ajustado = 1 Frmula 9-7 onde

2

(n - 1)

[n - (k + 1)]

(1 - R )

2

n = tamanho da amostra k = nmero de variveis independentes (x)54

Determinao da Melhor Equao de Regresso Mltipla1. Use o bom senso e consideraes de ordem prtica para incluir ou excluir variveis. 2. Em vez de incluir todas as variveis disponveis, inclua um nmero relativamente pequeno de variveis independentes (x), eliminando as variveis independentes que no tenham influncia na varivel dependente. 3. Escolha uma equao que tenha um valor de R ajustado com esta propriedade: Se se inclui uma varivel 2 independente adicional, o valor de R ajustado no aumentado substancialmente. 4. Para um dado nmero de variveis independentes (x), 2 escolha a equao com o maior valor ajustado R . 5. Escolha uma equao que tenha significncia global, tal como determinada pelo valor P na tela do computador.55

2