1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de...

42
1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo. 13.3 Minimizando os erros. 13.4 Exemplo: Previsão de vendas 13.5 Coeficiente de determinação - R 2 . 13.6 Natureza estatística da reta estimada 13.7 Normalidade, independência e a constância da variância dos erros residuais. 13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança. 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. 13.10 Teste de hipótese representatividade da equação como um todo, a estatística F. 13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell. 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão. 13.13 Não linearidade, e retornando ao exemplo do Boyle 13.14 Conclusões 13.15 Exercícios 13.16 Referências

Transcript of 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de...

Page 1: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

1

  Capítulo 13. Regressão Simples

 

13.1 Introdução a regressão simples: causalidade e os erros de previsão.13.2 Regressão simples com a variável tempo.13.3 Minimizando os erros. 13.4 Exemplo: Previsão de vendas13.5 Coeficiente de determinação - R2. 13.6 Natureza estatística da reta estimada 13.7 Normalidade, independência e a constância da variância dos erros residuais.13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança.13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples.13.10 Teste de hipótese representatividade da equação como um todo, a estatística F. 13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell.13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.13.13 Não linearidade, e retornando ao exemplo do Boyle13.14 Conclusões13.15 Exercícios13.16 Referências

Page 2: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

2

13.1 Introdução a regressão simples: causalidade e os erros de previsão.

• A regressão demonstra quantitativamente a força atrás de uma causalidade ou um simples relacionamento que ocorre de Xt para Yt.

• Yt é a variável dependente da variável Xt, denominada variável independente.

• Quando o valor de Xt se altera por alguma razão, então, em conseqüência, o valor de Yt se alterará.

• É também comum chamar Yt a variável explicada e Xt a variável explicatória (ou explicativa).

• É importante enfatizar que a questão de causalidade entre variáveis (influência da variável explicatória na variável explicada) deve ser determinada antes de investigar a relação com regressão.

Page 3: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

3

Figura 13.1 - A reta estimada de regressão no gráfico de dispersão

X-Y.

ttt eYY tt XbaY

ttt eYY

erros residuais positivos et > 0

erros residuais negativos et < 0

Page 4: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

4

13.2 Regressão simples com a variável tempo.

t tˆˆPreço a bt + e

Uma das maneiras mais fáceis de construir uma equação de regressão é através da utilização de uma variável artificial que representa tempo como variável independente Xt. Imaginando por exemplo que Yt represente o preço médio mensal de um quilo de banana (Preçot), durante um ano terá doze preços mensais em seqüência. Para 12 meses, a variável Xt = t corresponderia à seqüência de

t = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

A equação de regressão seria a seguinte:

Para prever o valor do preço de banana no mês 13, deve-se inserir 13 na equação para a variável t e, usando os valores estimados dos coeficientes a e b torna-se fácil calcular a previsão do Preçot.

Page 5: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

5

13.3 Minimizando os erros – a soma dos quadrados dos erros (SQE)

O método de mínimos quadrados pode ser resumido na seguinte expressão: 2

,t

baeMIN

Em palavras, a expressão significa procurar valores de a e b que minimizem a soma dos erros quadrados. A soma dos erros quadrados é dada embaixo pela expressão Q:

2t

T

1t

2tt

T

1t

e bXaYQ

onde T é o número total de observações em X e Y. O método para minimizar uma expressão como Q envolve o cálculo de derivadas parciais, igualando-as a zero:

0aQ

0

bQ

Page 6: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

6

CONTINUAÇÃO: Minimizando os erros – a soma dos quadrados dos erros (SQE)

As equações chamadas de estimadores são as seguintes (sempre notando que um estimador ou variável estimada por regressão e mínimos quadrados é vestido por um chapeuzinho):

X

YXY

t

tt2

t2

t

tttt

SSr

XvarY,Xcov

XXT

YXYXTb

O estimador de a é dado pela expressão:

tttt XbY

TXbY

a

Page 7: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

7

13.4 Exemplo: Previsão de vendasMES VENDAS

MENSAISVENDAS

ESTIMADASERRO

RESIDUAL1 1102 -4195,17 -5297,172 2030 -1681,17 -3711,173 5838 832,8333 -5005,174 6995 3346,833 -3648,175 6283 5860,833 -422,1676 1719 8374,833 6655,8337 25263 10888,83 -14374,28 19244 13402,83 -5841,179 23171 15916,83 -7254,1710 19146 18430,83 -715,16711 37174 20944,83 -16229,212 16691 23458,83 6767,83313 4235 25972,83 21737,8314 15077 28486,83 13409,8315 11791 31000,83 19209,8316 17497 33514,83 16017,8317 11353 36028,83 24675,8318 3646 38542,83 34896,8319 56471 41056,83 -15414,220 44973 43570,83 -1402,1721 66937 46084,83 -20852,222 59371 48598,83 -10772,223 84512 51112,83 -33399,224 52661 53626,83 965,8333

Tabela 13.1 – Vendas de

camisetas e previsões

Page 8: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

8

Figura 13.2 - A reta de regressão para a demanda de camisetas

Os valores de

a ( = - 6709) e b ( = 2514)

são os melhores estimativos

considerando o critério de minimização da

soma dos erros quadrados. Qualquer outra reta com outros valores de a e b será

associada a uma soma de quadrados dos erros

residuais maior.

Page 9: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

9

Tabela 13.2– Previsões para a venda de camisetas

MES VENDAS FUTURAS

25 56140,0

26 58654,0

27 61168,0

28 63682,0

29 66196,0

30 68710,0

31 71224,0

32 73738,0

33 76252,0

34 78766,0

35 81280,0

36 83794,0

Para calcular previsões fora da amostra observada para os

meses 25 e 26, utiliza-se a equação estimada.

O valor da previsão para o mês 25 é 56.140 camisetas (= - 6709 + 2514*25), e para mês 26, 58.654

camisetas.

Page 10: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

10

13.5 Coeficiente de determinação - R2.

tt XbaY ˆˆˆ ttt eYY ˆ

O coeficiente de determinação, R2, pondera matematicamente a separação de Yt nas suas duas partes distintas: a parte representada pelo valor estimado de Y e a outra parte advinda do erro residual. Quando o erro é relativamente grande, o valor de R2

é próximo ao zero.

Y

Por outro lado, se os erros fossem realmente pequenos (no gráfico, com os pontos aparecendo mais próximos à reta), então a equação está representando bem os dados e será próximo ao valor um.

Page 11: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

11

Continuação: Coeficiente de determinação - R2.

O coeficiente de determinação R2 tem um ponto de referência que é a soma dos erros quadrados ao redor da média dos Yt, denominada Soma de Quadrados Total SQT. Essa soma considera simplesmente a diferença entre o valor médio de Yt e o valor observado.

T

t 1

2t YYSQT

Já vimos esta expressão em outro contexto no capítulo 2, no cálculo da variância e do desvio padrão,

Variância = SY2 =

2ni

i 1

(Y Y)n 1

= SQT/(n – 1)

Page 12: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

12

Figura 13.3 – A reta de regressão e o erro total e o da regressão

0; 1

1; 2,7

2; 4,4

3; 7,1

4; 5,8

5; 3,5

6; 11,2

7; 5,9

8; 9,6

9; 5,3

10; 11

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10 11

Y

X

ERRO TOTAL

ERRO REGRESSÀO

Page 13: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

13

Continuação: Coeficiente de determinação - R2.

T

t 1

2t YYSQT = 1,3E+10

T

t 1

2

tt YYSQE = 5,74E+09

SQT - SQE = SQR = 7,27E+09 R2 = SQR / SQT = (SQT – SQE)/SQT = 7,27E+09/1,3E+10 = 0,559

Page 14: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

14

13.6 Natureza estatística da reta estimada

Veja na Figura 13.4 (próxima transparência) a relação entre as variáveis Xt e Yt e a distribuição normal que está relacionada à aleatoriedade de Yt.

A equação colocada na base da figura no plano X-Y é Yt = f(Xt). Para cada valor de Xt há um valor estimado de Yt,.

O eixo vertical é o valor da distribuição normal. Geralmente, a relação entre variáveis em regressão é mostrada no plano de

X-Y e o eixo vertical Z é ignorado.

Para um dado valor de X, existe um valor de Y mais provável, mas em função de Y ser aleatória, outros valores de Y são prováveis.

Como fica clara na figura 13.4, variabilidade é característica de Yt e não Xt considerado fixo. Conseqüentemente, o erro da regressão

(et) é oriundo exclusivamente da aleatoriedade de Yt.

Page 15: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

15

Figura 13.4 - A reta de regressão e a distribuição normal.

X

Z

Y

Page 16: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

16

13.7 Normalidade, independência e a constância da variância dos erros residuais.

Foram apresentados no capítulo 6 os testes de Bera-Jarque e testes visuais como o da linha reta entre

valores teóricos e observados e o histograma.

Quando foi mencionado em cima que os resíduos devem ser aleatórios, isso também significa a

ausência de qualquer relacionamento do resíduo com as variáveis da equação, e qualquer padrão repetitivo

que pode ser visualizado graficamente.

O gráfico dos resíduos deve aparecer como uma nuvem de dados com média zero e desvio padrão

constante. Veja a figura 13.5.

Page 17: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

17

Figura 13.5 – Erros residuais bem comportados com média zero e desvio padrão constante.

-4

-3

-2

-1

0

1

2

3

4

Err

o re

sidua

l

Page 18: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

18

onde T é o tamanho da amostra e T – 2 são os graus de liberdade, assunto que será comentado futuramente. O desvio padrão do estimador do coeficiente a e do coeficiente b é o seguinte:

Esses elementos permitem a construção de intervalos de confiança.

13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança.

2i

2

eaXX

XT1ss

2T

e2TYY

s2t

2

te

t

2i

eb XX1ss

A estimativa dos coeficientes a e b resulta em parte da variável Yt por definição aleatória, possuindo média e desvio padrão. Conseqüentemente, os coeficientes

estimados também têm médias e desvio padrão, chamado de erro padrão. O desvio padrão dos coeficientes tem uma relação direta com o desvio padrão dos erros de

regressão (et):

Page 19: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

19

13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples.

mês/ano PIB VENDAS Yt

jun-06 100 1102jul-06 98,08 2030

ago-06 108,97 5838set-06 107,19 6995out-06 108,08 6283nov-06 108,93 1719dez-06 112,18 25263jan-07 108,64 19244fev-07 108,17 23171

mar-07 107,85 19146abr-07 105,66 37174mai-07 101,54 16691jun-07 100,37 4235jul-07 98,08 15077

ago-07 109,47 11791set-07 107,06 17497out-07 107,59 11353nov-07 108,87 3646dez-07 110,44 56471jan-08 109,92 44973fev-08 108,75 66937

mar-08 109,19 59371abr-08 108,25 84512mai-08 107,68 52661

Tabela 13.3 – Vendas de camisetas e PIB

Page 20: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

20

Aplicamos mínimos quadrados e os resultados são esses:

Coeficientes Erro padrãoInferior

95%Superior

95%Interseção a = -220.156 = 126.015 -481.496 41.183

PIB b = 2294 = 1.180 -152 4.742

asb

s

Continuação: 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples.

Tabela 13.4 – Intervalo de confiança para as estimativas de a e b. Cálculos feitos e adaptados do Excel (2002).

ˆ ˆ0,025, 22 a 0,025, 22 aˆ ˆP a t s a a t s 95%

P( -220.156 – 2,074*126.015 < a< -220.156 + 2,074*126.015) = 95%

P(-481.496 < a < 41.183) = 95%

Page 21: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

21

13.10 Teste de hipótese da representatividade da equação como um todo, a estatística F.

H0: a equação estimada com Xt não explica adequadamente as variações da variável dependente Yt

H1: a equação estimada explica as variações da variável dependente Yt

As considerações a seguir são muito parecidas com o conceito de R2 elaborado no início do capítulo, contudo a análise por teste de hipótese tem a vantagem de ter embasamento estatístico mais forte e supera a desvantagem do R2 que não tem ponto de referência bem definida para validar ou não a equação.

Tudo depende da montagem da estatística F.

Page 22: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

22

Estatística F22

22 1 2

1

1

SQRgl kF(gl ,gl )

SQET k 1gl

Já vimos na seção sobre R2 que SQT = SQR + SQE.

Os graus de liberdade associados a SQT é T-1, como já foi visto (SQT)/(T-1) é a variância de Yt.

Os graus de liberdade associados a SQR é k, o número de variáveis explicativas na equação, nesse caso de regressão

simples k = 1.

O SQE dos erros residuais tem gl = T-k-1. Quando SQR/gl(uma espécie de média dos quadrados, MQ na tabela ANOVA)

é relativamente maior que SQE/gl, a regressão explica bem a relação entre Xt e Yt

No caso de regressão simplesF(1, T – 2) = (SQR/1) / (SQE/(T – 2) )

Page 23: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

23

Tabela 13.5 – ANOVA. Teste de hipótese. Cálculos feitos e adaptados do Excel (2002).

Fonte:tabela13.3 ANOVA

graus de liberdade (gl) SQ MQ F valor

P

Regressão k = 1 SQR = 1.907.658.861

SQR/k = 1.907.658.861

(SQR/gl) / (SQE/gl) 3,781 0,065

Erros Residuais T-k-1 = 22 SQE =

11.099.781.778SQE/T-k-1 = 504.535.535

Total T-1 = 23 SQT = 13.007.440.639

SQT/T-1 = 565.540.897

Relembrando a apresentação no capítulo 6 sobre testes de hipótese, um valor-p de 0,065 é considerado alto demais para rejeitar a hipótese nula, especialmente nas áreas mais exatas como a engenharia. A hipótese nula terá que ser aceita e a equação descartada pelo pesquisador, confirmando o resultado já visto na luz da análise do intervalo de confiança.

Page 24: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

24

13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell.

(1) OBSER. Yi - Dureza em Brinell

Xi - minutos de secagem

1 199 162 205 163 196 164 200 165 218 246 220 247 215 248 223 249 237 32

10 234 3211 235 3212 230 3213 250 4014 248 4015 253 4016 246 40

MÉDIA = 226 28

Tabela 13.6 – Dureza de Brinell e tempo de secagem. Fonte:Tabela 12.1

Page 25: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

25

ANOVA - Estatística F: a dureza de Brinell

ANOVA  gl SQ MQ F Valor P

Regressão 1 5297,513 5297,513 506,5062 2,16E-12Resíduo 14 146,425 10,45893Total 15 5443,938

Cálculos feitos e adaptados do Excel (2002).

Valor p é praticamente zero.

Rejeitar Ho de não relacionamento entre as variaveis Yt e Xt.

Page 26: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

26

13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.

Um teste de hipótese pode ser montada para cada coeficiente individualmente, no caso de regressão simples para a e b. A hipótese nula segue em geral o valor zero para o coeficiente sob investigação, por exemplo,

H0 : b = 0 A hipótese alternativa H1, para onde o pesquisador gostaria de apontar a verdade com suas conjecturas, muitas vezes é simplesmente:

H1: b ≠ 0

Dependendo do caso, H1 pode assumir outras formas como b > 0 ou b < 0. É importante na análise de regressão, e Estatística em geral, que as hipóteses nulas e alternativas sejam bem definidas, e em áreas de estudo como as engenharias ou as ciências exatas, que as hipóteses sejam colocadas nos relatórios e artigos explicitamente e em destaque.

Page 27: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

27

bb

s

b

bestatística t s

b

b 2s

O teste para coeficientes individuais depende do cálculo da estatística t de Gosset. No caso da estimativa para a inclinação da reta, a estatística t é uma relação entre a estimativa e a variabilidade da estimativa em termos do erro padrão

Estatística t calculada maior que 2 é forte indicação de relacionamento entre Yt e Xt.

Continuação: 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.

Page 28: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

28

Tabela 13.7 – Teste de hipótese para coeficientes individuais. Cálculos feitos e

adaptados do Excel (2002)

Voltando para o exemplo da demanda para camisetas e o PIB, calculamos os valores da estatística t na tabela 13.7.

Os valores da estatística t são relativamente baixos, e os valores-p são altos por padrões tradicionais.

Mais uma vez a análise converge para o resultado já visto acima; a equação não é adequada como representação de vendas de camisetas.

  Coeficientes Erro padrão estatística t valor-P

Interseção a = -220.156 126015 -1,747 0,094

PIB b = 2294 1180 1,944 0,064

Page 29: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

29

13.13 Não linearidade, e retornando ao exemplo do Boyle

Nesse exemplo, sabemos que há uma relação de causalidade entre pressão (P) e volume (V).

A causalidade pode ser verificada e quantificada com a estimação de regressão usando o procedimento de mínimos quadrados.

Adotamos então como primeira tentativa, a estimação da equação V = a + bP.

Os resultados preliminares são apresentados na tabela 13.8.

Page 30: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

30

Tabela 13.8 – Resultados da regressão de pressão sob volume, adaptados do Excel 2002.

RESUMO DOS RESULTADOS

Estatística de regressãoR-Quadrado 0,87Erro padrão 4,06Observações 25

ANOVA  gl SQ MQ F valor-p

Regressão 1 2627,43 2627,43 159,36 0,00Resíduo 23 379,21 16,49Total 24 3006,64      

 Coeficiente

sErro

padrão Stat t valor-pInterseção 51,95 2,13 24,41 0,00PRESSÃO -0,40 0,03 -12,62 0,00

Page 31: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

31

Aparentemente, os resultados comprovam uma forte relação inversa

O R2 é relativamente alto, mas talvez o pesquisador esperasse um valor até mesmo melhor pela natureza da experiência cientifica

O teste de F para a equação inteira oferece um valor-p de 0,00% indicando a rejeição da hipótese nula

O valor-p associado aos coeficientes leva a rejeição da hipótese nula de coeficientes zero.

Não é mostrado aqui, mas os erros residuais são normais, passando o teste de Bera-Jarque. Contudo, falta uma análise melhor dos erros, a sua independência e a aleatoriedade sugerida na seção 13.7 sobre o teste de hipótese da normalidade dos erros residuais.

Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle

Page 32: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

32

Figura 13.6 – Erros residuais como a diferença entre volume e a previsão

-10

0

10

20

30

40

50

60

20 100 120 140

VOLUMEPrevisto

Page 33: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

33

Na figura 13.6, nos primeiros valores do eixo horizontal de pressão, volume previsto é sempre menor que volume observado e, portanto o resíduo é sempre positivo.

Para valores de pressão intermediários a situação se inverte para proporcionar resíduos sempre negativos.

Finalmente, para valores de pressão altos, os resíduos voltam a ser positivos. Obviamente, os resíduos não são perfeitamente aleatórios. Conhecendo alguns erros em seqüência oferece condições para prever os próximos valores em função de um padrão reconhecível nos dados.

Assim, os dados dos resíduos não são aleatórios, mas sim previsíveis.

Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle

Page 34: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

34

Para resolver o problema da previsibilidade dos erros, podemos questionar em primeiro lugar a linearidade da equação estimada.

No capítulo 12 já vimos que a relação entre volume e pressão não é linear e essa condição deve ser levada em conta para regressão simples. Vamos estimar então a equação

1/V = a + bP,

explicitando que a pressão causa mais explicitamente a inversa de volume.

Veja os resultados em tabela 13.9.

Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle

Page 35: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

35

Tabela 13.9 – Resultados da regressão de pressão sob a inversa de volume, adaptados

do Excel 2002.Estatística de regressão

R-Quadrado 0,9999Erro padrão 0,0002Observações 25,0000

ANOVA  gl SQ MQ F valor-p

Regressão 1,0000 0,0081 0,0081 210329 0,0000Resíduo 23,0000 0,0000 0,0000Total 24,0000 0,0081      

  CoeficientesErro

padrão Stat t valor-pInterseção 0,0000 0,0001 -0,0163 0,9871PRESSÃO 0,0007 0,0000 459 0,0000

Page 36: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

36

Comparando os resultados das tabelas 13.8 e 13.9, a utilização da inversa de volume melhora os resultados em quase todas as categorias, principalmente na estatística F, de 159,36 para 210.329.

Pelo teste de hipótese nos coeficientes, a interseção a da equação é zero e o coeficiente b é 0,0007. A equação estimada então pode ser escrita como 1/V = 0,0007P.

É sempre importante considerar todos os procedimentos para detectar problemas nas estimativas. Na indústria, decisões que valem milhões são tomadas todos os dias na base de cálculos, e muitas vezes de cálculos mau feitos, e as repercussões são catastróficas.

Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle

Page 37: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

37

Com esse intuito, vamos ver a figura dos erros da regressão baseada na inversa de volume, figura 13.7 (próxima transparência).

Os pontos são bem mais espalhados aleatoriamente.

No entanto, veja que a variabilidade dos dados tende a aumentar com pouca variabilidade no inicio dos dados e mais variabilidade no final. A não constância da variância, e erro padrão, dos resíduos é chamada heterocedasticidade

Como foi mostrado nas equações para o erro padrão dos coeficientes e na estatística F, o erro padrão dos resíduos se

integram as expressões e se não for constante então a funcionalidade dos cálculos se complica.

Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle

Page 38: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

38

Figura 13.7 – Erros residuais para o modelo inversa de volume.

-0,0005

-0,0004

-0,0003

-0,0002

-0,0001

0

0,0001

0,0002

0,0003

0,0004

0,0005

0 5 10 15 20 25 30

1/V previsto

Resí

duos

Page 39: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

39

A questão agora é como resolver esse problema de heterocedasticidade.

Vamos procurar por alguma transformação das variáveis que elimina a tendência crescente do erro padrão.

As possibilidades são numerosas, mas uma das mais óbvias e fáceis de usar é a divisão de Yt e toda a equação por Xt, criando uma nova variável dependente Yt/Xt = 1/VP e uma nova variável independente 1/P.

Assim, a nova equação de regressão seria

1/VP = a(1/P) + b.

Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle

Page 40: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

40

Tabela 13.10 – Resultados da regressão 1/VP = a(1/P) + b, adaptados do Excel 2002.

Estatística de regressãoR-Quadrado 0,0059Erro padrão 3,187E-06Observações 25

ANOVA  gl SQ MQ F valor-p

Regressão 1 1,40E-12 1,4E-12 0,13756 0,71411Resíduo 23 2,34E-10 1,02E-11Total 24 2,35E-10      

  Coeficientes Erro padrão Stat t valor-PInterseção b = 0,0007 1,701E-06 419 3,7E-461/P a = -3,02E-05 8,168E-05 -0,371 0,714

Page 41: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

41

Figura 13.8 – Erros residuais para o modelo 1/VP = a(1/P) + b

-0,000006-0,000004-0,000002

00,0000020,0000040,000006

1/VP previsto

Res

íduo

s

Page 42: 1 Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo.

42

13.14 Conclusões

Este capítulo é essencialmente teórico no sentido de que a regressão linear simples é raramente utilizada na pratica, restrita a relações entre no máximo duas variáveis.

Infelizmente, o mundo real não funciona tão simples assim, pois as relações interessantes sempre dependem de muitas variáveis numa maneira mais complexa com interatividade e não linearidades desempenhado papeis relevantes.