calculo R2

Post on 02-Jul-2015

899 views 5 download

Transcript of calculo R2

1

9Correlação e Regressão

9-1 Aspectos Gerais

9-2 Correlação

9-3 Regressão

9-4 Intervalos de Variação e Predição

9-5 Regressão Múltipla

2

9-1 Aspectos Gerais

Dados Emparelhadoshá uma relação?

se há, qual é a equação?

usar a equação para predição

3

9-2

Correlação

4

Definição

Correlaçãoexiste entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra.

5

Suposições

1. A amostra de dados emparelhados (x,y) é uma amostra aleatória.

2. Os pares de dados (x,y) tem uma distribuição normal bivariada.

6

Definição

Diagrama de Dispersãoé um gráfico de dados amostrais emparelhados (x,y) com o eixo xhorizontal e o eixo y vertical. Cada par individual (x,y) é plotado como um ponto.

7

Diagrama de Dispersão

8

Correlação Linear Positiva

x x

yy y

x(a) Positiva (b) Positiva

Forte(c) Positiva

Perfeita

Figura 9-1 Diagramas de Dispersão

9

Correlação Linear Negativa

x x

yy y

x(d) Negativa (e) Negativa

Forte(f) Negativa

Perfeita

Figura 9-1 Diagramas de Dispersão

10

Sem Correlação Linear

x x

yy

(g) Não há Correlação

(h) Correlação não-linear

Figura 9-1 Diagramas de Dispersão

11

Notação

Sxx = Σ(x – x)2 = (Σx2) – n( x )2--

Syy = Σ(y – y)2 = (Σy2) – n( y )2--

Sxy = Σ (x – x)(y – y) = (Σxy) – n ( x )( y )-- --

12

Sxy

(Sxx) (Syy )

DefiniçãoCoeficiente de Correlação Linear r

mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra

r =

Fórmula 9-1

Calculadoras podem fornecer r

ρ (rô) é o coeficiente de correlação linear de todos os dados emparelhados da população.

13

Notação para o Coeficiente de Correlação Linear

n número de pares de dados presentes

Σ denota a adição dos itens indicados.

Σx denota a soma de todos os valores de x.

Σx2 indica que devemos ao quadrado cada valor de x e somar os resultados.

(Σx)2 indica que devemos somar os valores de x e elevar o total ao quadrado.

Σxy indica que devemos multiplicar cada valor de x pelo valor correspondente de y e somar então todos estes produtos.

r representa o coeficiente de correlação linear para uma amostra.

ρ representa o coeficiente de correlação linear para uma população

14

Interpretando o Coeficiente de Correlação Linear

Se o valor absoluto de r excede o valor na Tabela A - 6, concluímos que há correlação linear significativa.

Caso contrário, não há evidência suficiente para apoiar a existência de uma correlação linear significativa.

15

TABELA A-6 Valores Críticos do Coeficiente de Correlação de Pearson r

456789

101112131415161718192025303540455060708090100

n,999,959,917,875,834,798,765,735,708,684,661,641,623,606,590,575,561,505,463,430,402,378,361,330,305,286,269,256

,950,878,811,754,707,666,632,602,576,553,532,514,497,482,468,456,444,396,361,335,312,294,279,254,236,220,207,196

α = .05 α = .01

16

Propriedades do Coeficiente de Correlação Linear r

1. -1 ≤ r ≤ 12. O valor de r não varia se todos os valores de

qualquer uma das variáveis são convertidos para uma escala diferentes.

3. O valor de r não é afetado pela escolha de x ou y. Permutando todos os valores de x e y, o valor de r permanecerá inalterado.

4. r mede a intensidade, ou grau, de um relacionamento linear.

17

Erros Comuns Envolvendo Correlação

1. Causalidade: É errado concluir que correlação implica causalidade.

2. Médias ou Taxas: Taxas ou médias suprimem a variação individual e podem inflacionar o coeficiente de correlação.

3. Linearidade: Pode haver alguma relação entre x e y mesmo quando não há correlação linear significativa.

18

0

50

100

150

200

250

0 1 2 3 4 5 6 7 8

Dis

tânc

ia(p

és)

FIGURA 9-2

Erros Comuns Envolvendo Correlação

Tempo (segundos)

Diagrama de dispersão da distância acima do solo e do tempo para um objeto lançado para cima

19

Teste de Hipótese FormalPara determinar se existe uma correlação linear significativa entre duas variáveisDois métodosAmbos métodos utilizam:

H0: ρ = 0 (não há correlação linear significativa)

H1: ρ ≠ 0 (correlação linear significativa)

20

Método 1: Estatística de Teste é t(segue formato apresentado anteriormente)

Estatística de Teste:

1 - r 2n - 2

rt =

Valores Críticos:

utilizar a Tabela A-3 com graus de liberdade = n - 2

21

Método 1: Estatística de Teste é t(segue formato apresentado anteriormente)

Figura 9-4

22

Método 2: Estatística de Teste é r(exige menos cálculos)

Estatística de teste: r

Valores críticos: Consulte a Tabela A-6 (não há graus de liberdade)

Não rejeitarρ = 0

Rejeitarρ = 0

Rejeitarρ = 0

0r = - 0,811 r = 0,811 1

Valor amostral:r = 0,828

-1

Figura 9-5

23

FIGURA 9-3

Teste para aCorrelação Linear

Início

Seja: H0: ρ = 0H1: ρ ≠ 0

Escolha umnível de

significância l α

Calcule r com a Fórmula 9-1

MÉTODO 1 MÉTODO 2

Se H0 é rejeitada, concluir que háCorrelação linear significativa.

Se H0 não é rejeitada, então não háevidência suficiente para concluir

pela existência de uma correlação linear.

Se o valor absoluto daestatística de teste excede os

valores críticos, rejeitar H0: ρ = 0Caso contrário, não rejeitar H0

A estatística de teste é

t =1 - r 2

n -2

r

Os valores críticos de t estão na Tabela A-3, ( n -2 graus de liberdade)

A estatística de teste é

Os valores críticos de r encontram-se na Tabela A-6

r

24

Há correlação linear significativa?

0,1222

0,6403

0,9933

1,2846

0,9934

0,8212

0,3861

1,3835

Dados do Projeto do Lixo: Análise de plástico descartadox Plástico (kg)

y Tamanho daresidência

n = 8 α = 0,05 H0: ρ = 0H1 :ρ ≠ 0

Estatística de teste é r = 0,842

25

Há correlação linear significativa?

456789

101112131415161718192025303540455060708090100

n,999,959,917,875,834,798,765,735,708,684,661,641,623,606,590,575,561,505,463,430,402,378,361,330,305,286,269,256

,950,878,811,754,707,666,632,602,576,553,532,514,497,482,468,456,444,396,361,335,312,294,279,254,236,220,207,196

α = ,05 α = ,01n = 8 α = 0,05 H0: ρ = 0

H1 :ρ ≠ 0

Estatística de teste é r = 0,842

Valores críticos são r = - 0,707 e 0,707(Tabela A-6 com n = 8 e α = 0,05)

TABELA A-6 Valores Críticos do Coeficiente de Correlação de Pearson r

26

Há correlação linear significativa?0,842 > 0,707, ou seja, a estatística de teste está na região crítica.

REJEITAMOS, pois, H0: ρ = 0 (ausência de correlação) e concluímos que há correlação linear significativa entre o Peso de plástico descartado e o tamanho das residências.

Não Rejeitarρ = 0

Rejeitarρ = 0

Rejeitarρ = 0

1- 1 r = - 0,707 r = 0,7070

Dados amostrais:r = 0,842

27

x = 3

•••III Quadrante

II Quadrante

IV Quadrante

y

y = 11(x, y)

x - x = 7- 3 = 4

y - y = 23 - 11 = 12

4

8

12

16

20

24

r = Σ (x -x) (y -y)(n -1) sx sy

(x, y) centróide dos pontos da amostra

•(7, 23)

FIGURA 9-6

Fórmula 9-1 é desenvolvida deJustificação para a Fórmula de r

I Quadrante

x00 1 2 3 4 5 6 7

28

9-3 RegressãoDefinição

Equação de RegressãoDada uma coleção de dados amostrais emparelhados, a equação de regressão

y = b0 + b1x^descreve a relação entre as duas variáveis

Reta de Regressão(reta de melhor ajuste ou reta de mínimos quadrados)

o gráfico da equação de regressão

29

Reta de Regressão em Diagrama de Dispersão

30

A Equação de Regressãox é a variável independente

(variável preditora)

y é a variável dependente(variável resposta)

^

y = b0 +b1x^

y = mx +b

b0 = y - intercepto

b1 = inclinação

31

Notação para a Equação de Regressão

ParâmetroPopulacional

EstatísticaAmostral

y-intercepto da equação de regressão β0 b0

Inclinação da equação de regressão β1 b1

Equação da reta de regressão y = β0 + β1 x y = b0 + b1 x^

32

Suposições1. Estamos investigando apenas relações lineares.

2. Para um dado valor de x, y é uma variável aleatória com distribuição normal (em forma de sino). Todas essas distribuições de y tem a mesma variância. E ainda, para um dado valor de x, a média da distribuição dos valores de yestá sobre a reta de regressão.(Os resultados não são afetados seriamente se os desvios da normalidade e da igualdade da variância não são grandes.)

33

Fórmula para b0 e b1

b0 = y - b1 x (intercepto y)- -

Fórmula 9-2

(Sxy)b1 = (coeficiente angular(Sxx)

Fórmula 9-3

Calculadoras ou computadores podem determinar estes valores

Fórmula 9-4

34

A reta de regressão é a que melhor se ajusta aos pontos

amostrais.

35

PrediçõesAo predizer um valor de y com base em determinado valor de x ...

1. Se não há uma correlação linear significativa, o melhor valor predito de y é y.

2. Se há uma correlação linear significativa, obtém-se o melhor valor predito de y substituindo-se o valor de x na equação de regressão.

36

Utilizar a equaçãode regressão para fazerpredições. Levar o valorDado na equação deregressão.

Calcular r etestar a hipótese

que ρ = 0

Hácorrelação

linearsignificativa

?

Dado um valor arbitrário deuma variável, o melhor valorPredito da outra variável ésua média amostral.

Sim

Não

Iniciar

FIGURA 9-7 Predizendo o Valor de uma Variável

37

Diretrizes para o Uso daEquação de Regressão

1. Se não há correlação linear significativa, não use a equação de regressão para fazer predições.

2. Ao aplicar a equação de regressão para predições, mantenha-se dentro do âmbito dos dados amostrais.

3. Uma equação de regressão baseada em dados passados não é necessariamente válida hoje.

4. Não devemos fazer predições sobre uma população diferente daquela de onde provêm os dados amostrais.

38

Qual é a melhor predição do tamanho de uma residência que descarta 0,227 kg de plástico?

0,1222

0,6403

0,9933

1,2846

0,9934

0,8212

0,3861

1,3835

Dados do Projeto Lixo: Análise de plástico descartadox Plástico (kg)

y Tamanho da residência

b0 = 0,549

b1 = 3,263

Usando uma calculadora:

y = 0,549 + 3,263 (0,227)y = 1,29

Uma residência que que descarta 0,227 kg de plástico tem aproximadamente uma pessoa.

39

DefiniçõesVariação Marginala quantia que uma variável varia quando a outra variável sofre uma variação de exatamente 1 unidadeOutlier

um ponto que está muito afastado dos demais pontos.

Pontos de Influênciapontos que afetam fortemente o gráfico da reta de regressão.

40

DefiniçõesResíduos

dado um par de dados amostrais (x,y), um resíduo é a diferença (y - y) entre um valor amostral observado y e o valor y predito com base na equação de regressão.

Propriedade dos Mínimos QuadradosUma reta verifica a propriedade dos mínimos quadrados se a soma dos quadrados dos resíduos é a menor possível.

^

Resíduos e Propriedade de Mínimos Quadrados

^

41

Resíduos e a Propriedade dos Mínimos Quadrados

x 1 2 4 5y 4 24 8 32 y = 5 + 4x

02468

101214161820222426283032

1 2 3 4 5

••

x

yResíduo = 7

Resíduo = -13Resíduo = -5

Resíduo = 11

^

FIGURA 9-8

42

9-4

Intervalo de Variação e de

Predição

43

DefiniçõesDesvio Total (de um particular ponto (x, y) em relação à média)

é a distância vertical y - y, que é a distância entre o ponto (x, y) e a reta horizontal que passa pela média amostral y.

Desvio Explicadoé a distância vertical y - y, que é a distância entre o valor predito y e a reta horizontal que passa pela média amostral y.

Desvio não-explicadoé a distância vertical y - y, que é a distância vertical entre o ponto (x, y) e a reta de regressão. (A distância y - y também é chamada resíduo, definido na Seção 9-3.)

^

^^

44

Figura 9-9 Desvios: Não-explicado, Explicado e Total

Desviototal

(y - y)

0123456789

1011121314151617181920

Desvionão-explicado

(y - y)

Desvioexplicado

(y - y)

(5, 19)

(5, 13)

(5, 9)

y = 3 + 2x^

y = 9

^

^

y

x0 1 2 3 4 5 6 7 8 9

45

(y - y) = (y - y) + (y - y)(desvio total) = (desvio explicado) + (desvio não-explicado)

^ ^

(variação total) = (variação explicada) + (variação não-explicada)

Σ (y - y) 2 = Σ (y - y) 2 + Σ (y - y) 2^ ^

Fórmula 9-5

46

DefiniçãoCoeficiente de determinaçãoé o valor da variação de y que é explicado pela reta de regressão

R2 = variação explicada.variação total

ousimplesmente o quadrado de r

(determinado pela Fórmula 9-1, seção 9-2)

47

Intervalos de PrediçãoDefinição

Erro-padrão da estimativa

é uma medida das diferenças (ou distâncias) entre os valores amostrais y observados e os valores preditos y obtidos através da reta de regressão.

^

48

Erro-padrão da Estimativa

Σ (y - y)2

n - 2

^se =

ou

Σ y2 - b0 Σ y - b1 Σ xyn - 2 Fórmula 9-6

se =

49

y - E < y < y + E^ ^

Intervalo de Predição para um determinado y

onde

n Sxx

(x0 – x )2

1 + +1E = tα/2 se

x0 representa o valor dado de xtα/2 tem n - 2 graus de liberdade

50

9-5 Regressão MúltiplaDefinição

Equação de Regressão Múltipla

Um relacionamento linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2, x3 . . . , xk)

y = b0 + b1x1 + b2x2 + . . . + bkxk^

51

Notaçãoy = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk

(Forma geral da equação de regressão múltipla estimada)

n = tamanho da amostrak = número de variáveis independentes

y = valor predito da variável dependente y

x1, x2, x3 . . . , xk são as variáveis independentes

^

52

Notaçãoß0 = intercepto y, ou valor de y quando todas as

variáveis preditoras são 0.b0 = estimativa de ß0 baseada nos dados amostrais

ß1, ß2, ß3 . . . , ßk são os coeficientes das variáveis independentes x1, x2, x3 . . . , xk

b1, b2, b3 . . . , bk são as estimativas amostrais dos coeficientes ß1, ß2, ß3 . . . , ßk

53

R2 AjustadoDefiniçõesCoeficiente de determinação múltipla

uma medida do grau de ajustamento da equação de regressão múltipla aos dados amostrais

Coeficiente de determinação ajustadoo coeficiente múltiplo de determinação R2

modificado de modo a levar em conta o número de variáveis e o tamanho da amostra.

54

R2 Ajustado

R2 Ajustado = 1 - (n - 1) (1 - R2)[n - (k + 1)]

Fórmula 9-7

onde n = tamanho da amostrak = número de variáveis independentes (x)

55

Determinação da Melhor Equação de Regressão Múltipla1. Use o bom senso e considerações de ordem prática para

incluir ou excluir variáveis.2. Em vez de incluir todas as variáveis disponíveis, inclua

um número relativamente pequeno de variáveis independentes (x), eliminando as variáveis independentes que não tenham influência na variável dependente.

3. Escolha uma equação que tenha um valor de R2 ajustado com esta propriedade: Se se inclui uma variável independente adicional, o valor de R2 ajustado não é aumentado substancialmente.

4. Para um dado número de variáveis independentes (x), escolha a equação com o maior valor ajustado R2.

5. Escolha uma equação que tenha significância global, tal como determinada pelo valor P na tela do computador.