Regressão Linear Simples

108
1 Regressão Linear Simples Introduçã o Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras. Exemplos: A população de bactérias pode ser predita a partir da relação entre população e o tempo de armazenamento. Concentrações de soluções de proteína de arroz integral e absorbâncias médias corrigidas. Relação entre textura e aparência. Temperatura usada num processo de desodorização de um produto e cor do produto final. A porcentagem de acerto ou, então, bytes

description

Regressão Linear Simples. Introdução. Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras. Exemplos: - PowerPoint PPT Presentation

Transcript of Regressão Linear Simples

Page 1: Regressão Linear Simples

1

Regressão Linear SimplesIntroduçãoAnálise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras. Exemplos:

A população de bactérias pode ser predita a partir da relação entre

população e o tempo de armazenamento.

Concentrações de soluções de proteína de arroz integral e absorbâncias

médias corrigidas.

Relação entre textura e aparência.

Temperatura usada num processo de desodorização de um produto e cor do

produto final.

A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pré-carregamento.

Page 2: Regressão Linear Simples

2

A análise de regressão, assim como a anova, também representa os dados através de um modelo linear aditivo, onde o modelo inclui um componente sistemático e um aleatório.

Número de acessos ao disco (disk I/O) e o tempo de processamento para

vários programas.

A performance de um procedimento remoto foi comparado em dois

sistemas operacionais: UNIX e ARGUS. A métrica utilizada foi o tempo

total transcorrido, o qual foi avaliado para vários tamanhos de arquivos de

dados.

(1) XfY )(

f descreve a relação entre X e Y. são os erros aleatórios. Y = variável resposta ou dependente; X = variável independente, concomitante, covariável ou variável preditora.

Page 3: Regressão Linear Simples

3

Cenário

Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y. Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los para dizer alguma coisa sobre a relação.

O caso mais simples de regressão é quando temos duas variáveis e a relação entre elas pode ser representada por uma linha reta Regressão linear simples.

Page 4: Regressão Linear Simples

4

Como sabemos os dados podem ser obtidos a partir de duas situações:

1) dados experimentais: as observações X e Y são planejadas como o resultado de um experimento, exemplo:

• X = tamanhos de cache e Y = porcentagem de acerto

• X= doses de starter (microorganismos [bactérias lácticas]) , Y= tempo de maturação do salame tipo italiano.

Nesse exemplo, os valores de X estão sob controle do pesquisador, ou seja, ele escolheu as doses e observou o resultado, Y.

2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo:

• população de coliformes e população de staphilococus;

• média das alturas de plantas numa área e produção.

• O tempo para criptografar um registro com k-byte usando uma técnica para este fim foi avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.

Page 5: Regressão Linear Simples

5

Problema prático: os valores observados de Y (e algumas vezes de X) não são exatos. Devido a variações biológicas, de amostragem e de precisão das medidas e outros fatores, só podemos observar valores de Y (e possivelmente de X) com algum erro. Assim, com base numa amostra de valores (X,Y) a exata relação entre X e Y é mascarada pelos erros aleatórios.

X Fixo vs Aleatório:

• Dados experimentais: Geralmente X (doses, tempo, tamanho da cache) é determinado pelo pesquisador X é fixo. Y está sujeito à variações físicas, biológicas, tipos de objetos numa página da Web, usuários, de amostragem, de medidas Y é uma variável aleatória.

• Dados observacionais: geralmente X e Y são variáveis aleatórias.

Page 6: Regressão Linear Simples

6

A distribuição normal bivariada

Com dados observacionais, geralmente X e Y são v. a. e, de alguma forma, relacionadas.

Lembrete: uma distribuição de probabilidades dá uma descrição formal (matemática) dos valores possíveis da população que podem ser observados para a variável. Quando temos duas variáveis a distribuição é denominada bivariada. A fXY(x,y) descreve como os valores de X e Y se comportam conjuntamente.

A distribuição normal é freqüentemente uma descrição razoável de uma população com medidas contínuas. Quando X e Y são v. a. contínuas, uma suposição razoável é que ambas sejam normalmente distribuídas. Entretanto, espera-se que elas se distribuam conjuntamente.

Page 7: Regressão Linear Simples

7

A distribuição normal bivariada é uma distribuição de probabilidades com uma função densidade de probabilidade f(x,y) para X e Y, tal que:

•X e Y apresentam, cada uma, distribuição normal com médias X e Y, e variâncias 2X e 2

Y, respectivamente;

• o relacionamento entre X e Y é medido pela quantidade XY tal que -1 XY 1.

• XY é o coeficiente de correlação entre as variáveis aleatórias X e Y e mede a associação linear entre elas.

nula correlação

perfeita negativa correlação

perfeita positiva correlação

XY

XY

XY

0

1

1

Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associação. Para isso estimamos XY.

Comparação entre os modelos de regressão e correlaçãoDois modelos:

• X fixo: ajusta-se um modelo para a média da v. aleatória Y como uma função de X fixo (linha reta). Estima-se os parâmetros do modelo para caracterizar o relacionamento.

• X aleatório: caracteriza-se o relacionamento (linear) entre X e Y através da correlação entre elas e estima-se o parâmetro de correlação.

Page 8: Regressão Linear Simples

8

Sutileza: em situações onde X é uma variável aleatória, muitos investigadores desejam ajustar um modelo de regressão tratando X como fixo. Isto porque, embora o coef. de correlação descreve o grau de associação entre X e Y, ele não caracteriza o relacionamento através de um modelo de regressão.

Exemplo: um pesquisador pode desejar estimar a produção com base na média de alturas de plantas da unidade experimental. O coef. de correlação não permite isso. Ele, então, prefere ajustar um modelo de regressão, mesmo X sendo aleatório.

Isso é legítimo? Se tomarmos cuidado na interpretação, sim.

Se X e Y são variáveis aleatórias, e nós ajustarmos um modelo de regressão para caracterizar o relacionamento, tecnicamente, todas as análises posteriores são consideradas como sendo condicionais aos valores de X presentes no estudo. Isto significa que nós consideramos X fixo, embora ele não seja. Entretanto, é válido fazer-se previsões. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produção. O pesquisador não está dizendo que ele pode controlar as alturas e, assim, influenciar as produções.

Vale para os dados da amostra.

Page 9: Regressão Linear Simples

9

Causalidade versos correlação

Pesquisadores freqüentemente são “tentados” a inferir uma relação de causa e efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Uma associação significativa entre X e Y em ambas as situações não necessariamente implica numa relação de causa e efeito.

Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a população de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele ano (X).

Interpretação: existe associação entre X e Y.

Freqüentemente, quando duas v. X e Y parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W. No exemplo, X e Y aumentam com W = tempo.

Correlação não necessariamente implica em causalidade

Page 10: Regressão Linear Simples

10

Construção de Modelos de Regressão

I. Seleção das variáveis preditoras

II. Escolha do modelo de regressão

III. Abrangência do modelo

i. O problema, em estudos observacionais, é escolher um conjunto de variáveis que podem ou devem ser incluídas no modelo;

ii. Pode-se usar um modelo teórico; Usar aproximações por modelos polinomiais;

iii. Geralmente é necessário restringir a abrangência do modelo para alguns valores ou região da(s) variável(is) preditora(s).

Page 11: Regressão Linear Simples

11

Modelo de regressão linear simples

(Sem especificação da distribuição de probabilidades para o erro)

Considere o modelo com uma variável preditora e que a função de regressão é linear. O modelo é dado por:

n1,2,...,i iii XY 10 (2)

Page 12: Regressão Linear Simples

12

Onde:

Yi é o i-ésimo valor da variável resposta;

0 e 1 são os parâmetros (coeficientes de regressão);

Xi é o i-ésimo valor da variável preditora (é uma constante conhecida, fixo).

i é o termo do erro aleatório com E(i)=0 e 2(i)= 2;

i e j não são correlacionados (i, j)=0 para todo i,j; i j; (covariância é nula).

i=1,2,...,n.

Os dados são usados para estimar 0 e 1, isto é, ajustar o modelo aos dados, para:

• quantificar a relação entre Y e X;

• usar a relação para predizer uma nova resposta Y0 para um dado valor de X0 (não incluído no estudo);

• calibração – ou capacidade de predição de novas observações, pode ser feita usando uma nova amostra e comparando os valores estimados com os observados.

- dado um valor de Y0, para o qual o correspondente valor de X0 é desconhecido, estimar o valor de X0.

Covariância (o resultado em qualquer experimento não tem efeito no termo do erro de qualquer outro experimento)

Page 13: Regressão Linear Simples

13

Características do modelo:

nadoscorrelacio sãonão Y e Y

constantevariância XY

XXEE(Y

Xv.a.(Yuma é Y

ji

iiii2

iiiii

iiii

.4

)()()()(.3

)().2

).1

2210

2

1010

10

aleatório

O modelo de regressão (2) mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média E(Yi) = 0 +1Xi e cujas variâncias são 2, a mesma para todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não são correlacionadas.

constante

Page 14: Regressão Linear Simples

14

A figura mostra a distribuição de Y para vários valores de X. Mostra onde cai a observação Y1. Mostra que o erro é a diferença entre Y1 e E(Y1). Observe que as distribuições de probabilidade apresentam a mesma variabilidade.

Page 15: Regressão Linear Simples

15

Resumo da situação: para qualquer valor Xi, a média de Yi é i = 0 + 1Xi. As médias estão sobre a linha reta para todos os valores de X. Devido aos erros aleatórios, os valores de Yi se distribuem ao redor da reta.

Page 16: Regressão Linear Simples

16

Outro exemplo.44,45

42,10

44,68

46,99

46,26

48,82

50,66

47,68

52,44

53,21

51,85

55,38

Porcentagem de acerto

Page 17: Regressão Linear Simples

17

E(Y)=27,836+0,00006423X

Média:

Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado é dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do termo do erro é i=46,26-47,11=-0,845.

Page 18: Regressão Linear Simples

18

Significado dos parâmetros do modelo de regressão linear simples

0

x x+1

x=1

yyi = 0 + 1xi

xy1

0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da média da distribuição de Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; 1 (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X.

Page 19: Regressão Linear Simples

19

Exemplo: os dados abaixo indicam o número de bytes transferidos (Y) e o tamanho da cache (X).

Equação de regressão:

x64927107634y 7 ,.,ˆ

Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?

Page 20: Regressão Linear Simples

20

y=4,763e7-27,649*x+eps

TAMANHO DA CACHE

BY

TE

S T

RA

NS

FE

RID

OS

3e7

3,2e7

3,4e7

3,6e7

3,8e7

4e7

4,2e7

4,4e7

4,6e7

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

O que significa o coeficiente angular neste caso? E o coeficiente linear?

Faça uma predição para o número de bytes transferidos para tamanho de cache igual a 270.000 bytes.

Page 21: Regressão Linear Simples

21

Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.

x 10 13 5 7 20y 4 3 6 5 2

Equação de regressão:xy 261,087,6ˆ

Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?

O que significa o coeficiente angular neste caso? E o coeficiente linear?

Faça uma previsão para o valor do aluguel para idade de 13 anos.

Page 22: Regressão Linear Simples

22

Observações:

• um modelo de regressão pode conter duas ou mais variáveis preditoras (X1, X2,...,Xp-1);

• o modelo de regressão não precisa ser uma linha reta:

2210 XXY

Chama-se modelo quadrático ou de 20 grau, cuja figura é uma parábola. Esse modelo, embora não seja uma linha reta, continua sendo um modelo linear nos parâmetros. O método que será discutido para o modelo de regressão linear simples aplica-se diretamente aos demais modelos lineares nos parâmetros.

Page 23: Regressão Linear Simples

23

Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.

Scatterplot (GARBAGE.STA 10v*10c)y=1321,483-2,208*x+0,001*x^2+eps

HEAP SIZES

GA

RB

AG

E C

OLL

EC

TIO

N T

IME

0

100

200

300

400

500

600

400 600 800 1000 1200 1400 1600

Page 24: Regressão Linear Simples

24

• Modelo não linear nos parâmetros. Exemplo: modelo de crescimento logístico, onde X é o tempo.

XeY

32

1

1

É necessário estudar métodos para modelos não lineares.

• Exemplo computação: modelo potência, y=bxa, onde X é a velocidade do processador e Y é a taxa I/O.

Page 25: Regressão Linear Simples

25

Modelos de regressão alternativos

As vezes torna-se conveniente (p.e. facilidade de cálculos) escrever o modelo de regressão linear (2) de forma diferente, embora equivalentes. Seja X0 uma variável dummy identicamente igual a 1. Então, temos o modelo que associa uma variável X a cada parâmetro do modelo:

11100 0ii X onde XXY Uma outra alternativa é usar para a v. preditora os desvios (Xi-Média(X)) ao invés de Xi. Para não modificarmos o modelo (2), escrevemos:

X

XXY

XXXY

100

ii10i

i1i10i

*

* )(

)(

Page 26: Regressão Linear Simples

26

Estimação da função de regressão

Denotamos as observações (Xi,Yi) para a primeira repetição como (X1,Y1), para a segunda como (X2,Y2), e para a i-ésima como (Xi,Yi), com i=1,2,..,n.

Exemplo: uma pesquisadora está estudando o comportamento de Staphilococcus aureus (Y) em frango, mantido sob condições de congelamento doméstico (-18oC) ao longo do tempo (X) (dias).

Tempo 0 7 14 21 28 35População 3,114 3,568 2,845 3,079 2,699 2,663

Notação: temos n=6 observações. O tamanho da população (ufc/cm2) é dado em log10.

Método dos mínimos quadradosPara observações (Xi,Yi) i=1,..,n, temos o modelo

n1,..,i XY iii 10

Desejamos ajustar o modelo, estimando os parâmetros 0 e 1.

O método de mínimos quadrados considera os desvios de Yi em relação ao seu valor esperado (E(Yi)): )( 10 ii XY

Page 27: Regressão Linear Simples

27

Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q

(10) XYQn

iii

1

210

De acordo com o método de mínimos quadrados, os estimadores de 0 e 1 são os valores b0 e b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).

IDADE

VA

LO

R

1,5

2,5

3,5

4,5

5,5

6,5

2 6 10 14 18 22

e5

e2

e1

e3

Page 28: Regressão Linear Simples

28

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de 0 e 1que minimizam Q.

n

iiii

Q

n

iii

Q

XYX

XY

110

110

)(2

)(2

1

0

Estimadores de mínimos quadrados

Os valores de 0 e 1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em relação a 0 e 1 , portanto, obtemos:

Page 29: Regressão Linear Simples

29

0

0

0)(

0)(

:obtemos ,expandindo e ndosimplifica

0)(2

0)(2

1

21

10

1

110

1

110

110

110

110

n

ii

n

ii

n

iii

n

ii

n

ii

n

iiii

n

iii

n

iiii

n

iii

XbXbYX

XbnbY

XbbYX

XbbY

XbbYX

XbbY

Daí, obtemos o sistema de equações normais, dado por:

n

ii

n

i

n

iiii

n

ii

n

ii

XbXbYX

XbnbY

1

2

11

10

1110

Fazendo-se as derivadas parciais de segunda ordem, indicará que um mínimo foi encontrado com os estimadores b0 e b1.

Page 30: Regressão Linear Simples

30

As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):

XbYXbYb

b

iin

XX

YYXX

i

ii

111

0

)(

))((

1 2

n

X2

n

YX

1 2

X

XYb

Outra forma de escrevermos:

Page 31: Regressão Linear Simples

31

Exemplo: a pesquisadora deseja encontrar o modelo de regressão da porcentagem de acertos sobre o tamanho da cache.

Tamanho dacache (X)

Porcentagemde acertos (Y)

)( XXi )( YYi ))(( YYXX ii 2)( XXi

2)( YYi

Total = 3900000 584,52 0 0 2408500 37500000000 181,438

Média = 325000 48,71

Page 32: Regressão Linear Simples

32

84527325000000064207148XbY

00006420b

1

037500000002408500

XX

YYXX

1 2i

ii

,))(,(,b

,

0

)(

))((

Assim, estimamos que a porcentagem de acerto da cache aumenta cerca de 0,00006 % para cada byte do tamanho da cache.

Page 33: Regressão Linear Simples

33

Page 34: Regressão Linear Simples

34

Saída do Statistica:

Page 35: Regressão Linear Simples

35

Tempo (X)População (Y) )(XXi )(YYi ))(( YYXXii 2)(XXi

2)(YYi

0 3,114 -17,5 0,119 -2,088 306,250 ,0147 3,568 -10,5 0,573 -6,020 110,250 ,32914 2,845 -3,5 -0,150 0,524 12,250 ,02221 3,079 3,5 0,084 0,295 12,250 ,00728 2,699 10,5 -0,296 -3,105 110,250 ,08735 2,663 17,5 -0,332 -5,805 306,250 ,110

Total = 10517,968 0 0 -16,199 857,5 0,569

Média = 17,52,9947

3,32545)5,17)(0189,0(9947,2b

-0,018890

10

5,857199,16

)(

))((

1 2

XbY

bXX

YYXX

i

ii

Assim, estimamos que o tamanho da população de bactérias diminui cerca de 0,0189 ufc/cm2 para cada dia.

Exemplo: a pesquisadora deseja encontrar o modelo de regressão do tempo sobre a população de bactérias.

Page 36: Regressão Linear Simples

36

Regression Summary for Dependent Variable: POPR= ,73274116 R²= ,53690961 Adjusted R²= ,42113702F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686

St. Err. St. Err. BETA of BETA B of B t(4) p-level

Intercpt 3,325238 ,185902 17,88708 ,000057TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596

Saída do STATISTICA:

Page 37: Regressão Linear Simples

37

Propriedades dos estimadores de mínimos quadrados

Teorema de Gauss-Markov: Se as pressuposições do modelo de regressão linear (2) forem atendidas, os estimadores de mínimos quadrados b0 e b1 são não tendenciosos (unbised) e com variância mínima, entre todos os estimadores lineares não tendenciosos. Primeiro, o teorema diz que:

E(b0)=0 e E(b1)=1.

Segundo, o teorema diz que os estimadores b0 e b1 são mais precisos (isto é, as suas distribuições amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe dos estimadores não tendenciosos que são funções lineares das observações Y1, Y2,...,Yn. Os estimadores b0 e b1 são tais funções lineares das observações. Considere, por exemplo, b1,

2

22

)(

)(

)(

)(

)(

))((

1

XX

XXi

iiXX

YXX

XX

YYXX

i

i

i

ii

i

ii

k

Ykb

Como ki são constantes (pois Xi são constantes conhecidas), b1 é uma combinação linear de Yi e, assim, é um estimador linear. Da mesma forma, b0 também é um estimador linear. Entre todos os estimadores lineares não tendenciosos, b0 e b1 tem menor variabilidade (demonstração adiante) em repetidas amostras nas quais os níveis de X são constante.

(Demonstração adiante)

Page 38: Regressão Linear Simples

38

Estimação pontual da resposta média

Estimação da função de regressão

A média do modelo de regressão linear é dada por:

XYE 10)(

Estima-se a função de regressão por:

XbbY 10ˆ

Onde Y (chapéu) é o valor estimado da função no nível X da variável preditora.

A resposta média (E(Y)), corresponde a média da distribuição de probabilidade de Y no nível X da variável preditora. Pode-se demonstrar, como uma extensão do teorema de Gauss-Markov que Y (chapéu) é um estimador não tendencioso de E(Y), com variância mínima dentro da classe dos estimadores lineares não tendenciosos. Temos:

n1,2,...,i XbbY ii 10ˆ

como sendo o valor ajustado para o i-ésimo caso.

Page 39: Regressão Linear Simples

39

Exemplo: para os dados de porcentagem de acerto na cache, os valores estimados da função de regressão são dados por:

X000064208363327Y ,,ˆ

Suponha que estejamos interessados na porcentagem média de acerto na cache para X=300.000 bytes (muitas amostras com 300.000 bytes sob as mesmas condições que a equação foi estimada); a estimativa pontual vale:

1047300000000064208363327y ,)(,,ˆ

Valores ajustados dos dados da amostra são obtidos substituindo-se os correspondentes valores da variável preditora X na função de regressão.

Page 40: Regressão Linear Simples

40

Saída do Statistica:

Page 41: Regressão Linear Simples

41

Suponha que estejamos interessados na população média (muitas amostras com 21 dias de armazenamento sob as mesmas condições que a equação foi estimada) de bactérias para X=21 dias de armazenamento; a estimativa pontual vale:c

92622101903253y ,)(,,ˆ Valores ajustados dos dados da amostra são obtidos substituindo-se os correspondentes valores da variável preditora X na função de regressão.

Saída do STATISTICA:

Predicted & Residual Values (staphilo.sta)Dependent variable: POP

Observed Predictd Standard Standard Std.Err. Mahalns. Cook's Value Value Residual Pred. v. Residual Pred.Val Distance Distance

1 3,114000 3,325238 -,211238 1,33631 -,822385 ,185902 1,785714 ,7811462 3,568000 3,193010 ,374990 ,80178 1,459902 ,139567 ,642857 ,6334393 2,845000 3,060781 -,215781 ,26726 -,840072 ,109264 ,071429 ,0951814 3,079000 2,928552 ,150448 -,26726 ,585718 ,109264 ,071429 ,0462695 2,699000 2,796324 -,097324 -,80178 -,378898 ,139567 ,642857 ,0426686 2,663000 2,664095 -,001095 -1,33631 -,004263 ,185902 1,785714 ,000021Minimum 2,663000 2,664095 -,215781 -1,33631 -,840072 ,109264 ,071429 ,000021Maximum 3,568000 3,325238 ,374990 1,33631 1,459902 ,185902 1,785714 ,781146Mean 2,994667 2,994667 ,000000 -,00000 ,000000 ,144911 ,833333 ,266454Median 2,962000 2,994667 -,049209 0,00000 -,191581 ,139567 ,642857 ,070725

XY 019,0325,3ˆ

Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da função de regressão são dados por:

Page 42: Regressão Linear Simples

42

Modelo alternativo

Quando o modelo utilizado é:

ii XXY )(1*0

O estimador b1 de 1 permanece o mesmo. O estimador de

YXbXbYXbbb

:por dado é X*0

1110

10*0

)(

Temos: )(ˆ1 XXbYY

Exemplo: para os dados de staphilococcus aureus em frango obter o valor ajustado para X1=0 dia de armazenamento..

Exemplo: obter o valor ajustado para X=300.000 bytes de cache..

Page 43: Regressão Linear Simples

43

Resíduos

O i-ésimo resíduo é a diferença entre o valor Yi e o correspondente valor ajustado Y (chapéu)i.

iii YYe ˆ

Vemos que o resíduo para o primeiro caso, exemplo de pop. de Staphilococcus, saída do statistica, é dado por:

-,211238 3,325238 - 3,114000YYe 111ˆ

Exemplo: para os dados de porcentagem de acerto na cache, o resíduo para o primeiro caso vale:

0,564 43,886- ,ˆ 4544YYe 111

Page 44: Regressão Linear Simples

44

)E(YY iii

Os resíduos são extremamente úteis para verificar se um determinado modelo de regressão é apropriado para os dados. Este assunto será tratado mais adiante neste curso.

Distinção:

é o desvio de Yi da verdadeira equação de regressão (desconhecida) e assim é desconhecido.

iii YYe ˆ é o desvio de Yi do valor ajustado Yi (chapéu) na equação de regressão estimada, portanto, é conhecido.

Regression95% confid.

TEMPO

Re

síd

uo

s

-0,30

-0,15

0,00

0,15

0,30

0,45

-5 0 5 10 15 20 25 30 35 40

para os dados de staphilococcus aureus em frango

Page 45: Regressão Linear Simples

45

Regression95% confid.

Raw residuals vs. TAMANHOC

Raw residuals = -,0000 + 0,0000 * TAMANHOC

Correlation: r = ,00000

TAMANHO DA CACHE

RE

SÍD

UO

S

-3

-2

-1

0

1

2

3

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

Page 46: Regressão Linear Simples

46

Propriedades do modelo ajustado:

) )Y;X( ponto pelopassa sempreregressão delinha (

)XX(para )()(bYY .

s)(ponderado Y .

s)(ponderado X .

A) STATISTICdoa (Veja saíd ˆY 3.

MQO) de método do (condiçãomínima é e .

A) STATISTICdoa (Veja said )normal equaçãoprimeira a devido(

)( .

1

n

1ii

n

1ii

n

1ii

n

1i

2i

a

YXXbYXX6

0e5

0e4

Y

2

0XbnbYXbbYe1

1

i

i

n

1ii

n

1ii10ii10ii

XbbY 10ˆ

Page 47: Regressão Linear Simples

47

Estimação da variância (2)A variância, 2, dos erros, i, no modelo de regressão (2) precisa ser estimado para obter uma indicação da variabilidade da distribuição de probabilidade de Y. Necessário para inferências.

Lembrete: a variância de cada observação Yi para o nosso modelo de regressão é 2, a mesma de cada i.

Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi veêm de diferentes distribuições de probabilidade com diferentes médias que dependem do nível de Xi; as médias são estimadas por Yi(chapéu). Assim os desvios são os resíduos:

iii YYe ˆ

A soma de quadrados do erro (resíduo), SQE, é dada por:

n

ii

n

iii eYYSQE

1

2

1

2)ˆ(

Dois graus de liberdade são perdidos para estimar os parâmetros 0 e 1. O quadrado médio do erro é dado por (QME):

2 nSQEQME

Temos que o QME é um estimador não tendencioso de 2 (prova adiante) pois2)( QMEE

Page 48: Regressão Linear Simples

48

Exemplo: para os dados de Staphilococcus aureus em frango, temos:

X)qualquer para Y de ãodistribuiçda padrão (Desvio

padrão) (desvio ufc ,,

variância)da a (Estimativ ,/,QME

assim liberdade, de graus 2-6

,

2567006590deEstimativa

06590426390

4com

26390SQE

Exemplo: para os dados de tamanho de cache, temos:

X)qualquer para Y de ãodistribuiç da padrão (Desvio

padrão) (desvio %6043,157385,2 é

57385,210/7385,25QME

assim liberdade, de graus 102-12

7385,25

deEstimativa

com

SQE

Page 49: Regressão Linear Simples

49

Modelo de regressão com erros normais

Para construir intervalos de confiança e fazer testes de hipóteses nós devemos considerar alguma distribuição de probabilidade para os i. Uma distribuição que tem um apelo prático e teórico bastante grande é a distribuição normal e que será utilizada neste curso.

O modelo de regressão é dado por:

n1,..,i XY iii 10

Yi é o i-ésimo valor observado da variável resposta;

0 e 1 são os parâmetros;

Xi é o i-ésimo valor da variável preditora (é uma constante conhecida, fixo).

i é o termo do erro aleatório, independentes com distribuição N(0, 2).

Page 50: Regressão Linear Simples

50

Como assumimos para o modelo de regressão que os erros são normalmente distribuídos, a suposição que os erros i não são correlacionados, feita no modelo inicial, transforma-se na suposição de independência no modelo com distribuição normal.

O modelo implica que Yi são variáveis aleatórias independentemente distribuídas segundo uma normal com média E(Yi)=0+ 1Xi e variância 2. Para cada valor Xi, podemos pensar em todos os valores possíveis de Yi e sobre a sua variabilidade. Esta suposição diz que, seja qual for o valor de Xi, a variabilidade nos possíveis valores de Y é a mesma.

Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem representados por uma distribuição normal.

Independentes: no sentido que eles não são relacionados de qualquer modo, por exemplo, são provenientes de diferentes cpu’s, diferentes indivíduos, diferentes animais, etc. Os registros num banco de dados são independentes.

Page 51: Regressão Linear Simples

51

Estimação dos parâmetros pelo método da máxima verossimilhança

Como foi especificado uma distribuição de probabilidades para os erros podemos obter estimadores para 0, 1 e 2 pelo MMV.

O método de máxima verossimilhança determina como estimativas de máxima verossimilhança, os valores de 0, 1 e 2 os quais produzem o maior valor para a verossimilhança.

Em geral, a densidade de uma observação Yi para o modelo de regressão com erros normais, utilizando o fato de que E(Yi)=0+ 1Xi e variância 2 é dada por :

2

21

2

1 10exp

ii XY

if

A função de verossimilhança para n observações Y1, Y2,...,Yn, é o produto das densidades individuais (é a conjunta). Como a variância 2 dos erros é desconhecida, a conjunta é uma função de três parâmetros, 0, 1 e 2 :

Page 52: Regressão Linear Simples

52

n

iiiσ)πσ(

ii

n

i

)Xββ(Y

XYL

n/

1

2102

12

1

2102

1

1)2(

1210

222

22/12

exp

)(exp),,(

Devemos encontrar valores de 0, 1 e 2 que maximizam a função de verossimilhança L, calculando-se as derivadas parciais de L com respeito a 0, 1 e 2 e igualando cada derivada parcial a zero e resolvendo o sistema de equações obtido. Podemos trabalhar com logeL ao invés de L, pois ambos são maximizadas para os mesmos valores de 0, 1 e 2 :

2102

1222 )(log2loglog 2 iien

en

e XYL

As derivadas parciais do logaritmo da função de verossimilhança, são dadas por:

210422

1021

1020

)(2

1

2

)(log

)(1)(log

)(1)(log

iie

iiie

iie

XYnL

XYXL

XYL

Page 53: Regressão Linear Simples

53

Agora, fazemos as derivadas parciais iguais a zero, substituindo 0, 1 e 2 pelos estimadores

210 ˆˆ,ˆ e

Obtemos:

2)ˆˆ(

10

10

ˆ

0)ˆˆ(

0)ˆˆ(

210

nXY

iii

ii

ii

XYX

XY

As duas primeiras equações são idênticas as equações normais encontradas pelo método de mínimos quadrados. O MMV produz um estimador viesado para 2.

Parâmetro Estimador de máxima verossimilhança

0 00 b1 11 b2

n

YY ii 2)ˆ(2

Os estimadores de 0, e 1 são os mesmos do método de mínimos quadrados. O estimador de máxima verossimilhança de 2 é viesado,ou seja,.

n

1nE

22 )(

)ˆ(

Page 54: Regressão Linear Simples

54

Comentários:

1) como os estimadores de máxima verossimilhança de 0,e 1 são os mesmos do método de mínimos quadrados, eles tem as mesmas propriedades de todos os estimadores de mínimos quadrados:

a) são não viesados;

b) tem variância mínima entre todos os estimadores lineares não tendenciosos;

além disso, os estimadores de máxima verossimilhança b0 e b1 para o modelo de regressão com erros normais tem outras propriedades desejáveis:

c) são consistentes;

d) são suficientes;

*** Fazer lista de exercícios número 1.

0 )|ˆ(|lim

0Pn

. de depende não)ˆ|(ˆ| yf

Y

Page 55: Regressão Linear Simples

55

Inferência na análise de regressão

Assumimos o modelo: n1,..,i XY iii 10

0 e 1 são os parâmetros;

Xi são constantes conhecidas, fixas.

i são independentes com distribuição N(0, 2).

(3)

Intervalos de confiança

Testes de hipóteses:

Page 56: Regressão Linear Simples

56

Inferências para 1

encontrar intervalos de confiança para 1

fazer testes de hipóteses com relação a 1, por exemplo:

0:

0:

1

10

aH

H Não há associação entre X e Y.

Para realizar inferências sobre 1, precisamos conhecer a distribuição amostral de b1, o estimador pontual de 1.

Distribuição amostral de b1

O estimador pontual é dado por:

2)(

))((

1 XX

YYXX

i

iib

A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com muitas amostras para um mesmo nível da variável preditora X (constante).

Page 57: Regressão Linear Simples

57

Normalidade: a normalidade da distribuição amostral de b1 segue do fato de que b1 é uma combinação linear dos Yi.Os Yi são independentes, com distribuição normal. Uma combinação linear de variáveis aleatórias independentes, com distribuição normal, também tem distribuição normal.

b1 como combinação linear de Yi.

2

2

2

2

2

)(

)(

1

)(

)(

1

)(

)()(

1

)(

)()(

1

)(

))((

1

XX

XXi

ii

XX

YXX

XX

XXYYXX

XX

YXXYXX

XX

YYXX

i

i

i

ii

i

iii

i

iii

i

ii

k

Ykb

b

b

b

b

Portanto, ki são funções de Xi que são valores fixos.

Média:

viesado) (não bE

XkkbE

XkkbE

XkbE

YEkYkEbE

iii

iii

ii

iiii

11

101

101

101

1

)(

)(

)(

)()(

)()(

Pois,

)(Demonstre Xk

k

ii

i

1

0

Page 58: Regressão Linear Simples

58

Variância:

22

2

22

2

2

22

1

1

XXk

XXXX

k

XX

XXk

i

i

i

i

i

i

ii

212

12

221

2

221

2

2221

2

)(

)(

)(

)()(

XX

i

i

iiii

i

b

kb

kb

YkYkb

Podemos estimar a variância da distribuição amostral de b1 substituindo 2 pelo quadrado médio residual (QME). O estimador s2(b1) é um estimador não tendencioso de 2 (b1).

2)( 12

XX

QME

i

bs

Page 59: Regressão Linear Simples

59

Na seção propriedades dos estimadores de mínimos quadrados dissemos que b1 tem a menor variância entre todos os estimadores lineares não tendenciosos da forma

iiYc1

:otendencios não é 1

110101 )()()()ˆ( iiiiiiiii XccXcYEcYcEE

Restrições: 10 iii Xc e c

:ˆ1 de Variância 222222

12 )()ˆ( iiii ccYc

Seja ci=ki + di, onde ki são como anteriormente e os di são constantes arbitrárias. Então: iiiiii dkdkdk 2)( 22222

Zero (Verifique)

)( 12 b

Nota:

ci são constantes arbitrárias11 b

Page 60: Regressão Linear Simples

60

Finalmente, temos: 221

21

2 )()ˆ( idb

Observamos que a menor variância do estimador ( ) é obtida quando .Isto ocorre quando todos os di=0, isto implica que ci ki. Assim, o estimador de mínimos quadrados b1 tem variância mínima entre todos os estimadores lineares não tendenciosos.

Distribuição amostral de (b1-1)/s(b1)Como b1 tem distribuição normal, sabemos que a estatística padronizada (b1-1)/(b1) é uma variável aleatória com distribuição normal padrão. Para estimar (b1) usamos s(b1) e, assim precisamos conhecer a distribuição da estatística (b1-1)/s(b1) [estatística studentizada].

Teorema: 2)-t(n~ bsb

)( 1

11

Demonstração:

Podemos escrever a estatística como:

)()(

)( 1

1

1

11

bbs

bb

O numerador é uma variável normal padrão z. Para o denominador, temos:

para o modelo (3)

1 02id

Page 61: Regressão Linear Simples

61

)2()2()(

)(2

)2(

222

2

2)(

2

2)(

12

12

~

nn

SQEQME

b

bs nnSQE

XiX

XiX

QME

Portanto,

)2()2(21

11 ~)(

nn

zbs

b

Como z e 2 são independentes pois z é uma função de b1 e b1 é independente de SQE/2 ~ 2. Assim (A definição está no apêndice):

).2(~)( 1

11 ntbsb

Teorema: para o modelo (3), SQE/2 é distribuído como 2 com n-2 gl e é independente de b0 e b1.

Agora podemos fazer inferências sobre 1.

Page 62: Regressão Linear Simples

62

/2=0,25/2=0,25 1-=0,50

t=1t=-1

Intervalo de confiança para 1

Desde que (b1-1)/s(b1) tem distribuição t,podemos fazer a seguinte afirmação probabilística:

1)}2;2/1()(/)()2;2/({ 111 ntbsbntP

Page 63: Regressão Linear Simples

63

•t(/2;n-2) representa o (/2)100 percentil da distribuição t com n-2 g.l.

• t(/2;n-2) = - t(1-/2;n-2) (devido a simetria da distribuição t)

Rearranjando as desigualdades obtemos:

.1))()2;2/1()()2;2/1(( 11111 bsntbbsntbP

O intervalo de confiança é dado por:

)()2;2/1( 11 bsntb

Exemplo: considere os dados de população de Staphilococcus aureus, a pesquisadora deseja encontrar o intervalo para 1 com confiança de 95%.

0623,00434,0

)008772,0(776,2019,0)008772,0(776,2019,0

776,2)4;975,0(

008772,0)(

0000769,0)(

1

1

1

5,8570659,0

)(12

2

t

bs

bsXX

QMR

Muito importante

Usar software

Interpretação: estimamos que a população de Staphilococcus “cresce” entre -0,0434 e 0,0623 unidade/dia.

Page 64: Regressão Linear Simples

64

Exemplo: considere os dados de porcentagem de acerto na cache, a pesquisadora deseja encontrar o intervalo para 1 com confiança de 95%.

0000827000004570

0000083022820000642000000830228200006420

2282109750t

00000830bs

6863500000000000bs

1

1

1

0375000000057382

XXQMR

12

2

,,

),(,,),(,,

,);,(

,)(

,)( ,

)(

Muito importante

Usar software

Interpretação: estimamos que a porcentagem de acertos aumenta entre 0,0000457 e 0,0000827 % por byte do tamanho da cache.

Page 65: Regressão Linear Simples

65

Teste de hipóteses para 1

Teste bilateral

0:

0:

1

10

aH

HHipóteses:

Vimos que (b1-1)/s(b1) tem distribuição t(n-2).O teste de hipótese sobre 1 pode ser feito de maneira padrão usando a distribuição de Student.

Page 66: Regressão Linear Simples

66

Exemplo: a pesquisadora deseja saber se existe regressão linear entre a porcentagem de acertos na cache e o tamanho da cache, ou seja, se 10 ou não.

[Como o intervalo de confiança construído anteriormente não inclui o valor 0 (o valor da hipótese nula), devemos rejeitar a hipótese nula (H0). Isto é válido quando o teste é bilateral].

Page 67: Regressão Linear Simples

670

*

0*

H se-rejeita ),2;2/1(||

H se-rejeita não ),2;2/1(||

nttSe

nttSe

Critério do teste: estamos controlando a probabilidade de erro tipo I ().

)(*

1

11

bsbt

Teste estatístico formal:

[Como o intervalo de confiança construído anteriormente inclui o valor 0 (o valor da hipótese nula), devemos aceitar a hipótese nula (H0)].

Exemplo: a pesquisadora deseja saber se existe regressão linear entre população de bactérias e o tempo de armazenamento, ou seja, se 10 ou não.

Page 68: Regressão Linear Simples

68

Exemplo: para os dados de porcentagem de acerto na cache, com =0,05, b1=0,0000642 e s(b1)=0,0000083, temos:

,735,,* 7t 00000830

000006420

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| é maior do que 2,228 rejeita-se a hipótese nula e concluímos que existe uma associação linear entre a porcentagem de acertos na cache e o tamanho da cache.

Page 69: Regressão Linear Simples

69

Exemplo: para os dados de população de Staphilococcus aureus, com =0,05, b1=-0,019 e s(b1)=0,008772, temos:

2,166t 008772,0

0019,0*

O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| é menor do que 2,776 aceita-se a hipótese nula e concluímos que não existe uma associação linear entre a população de Staphilococcus aureus e o tempo de armazenamento.

Valor p: é o menor valor de para o qual rejeitamos a hipótese nula. Se o pesquisador fixar =0,05, então, para um valor p 0,05 não rejeita-se H0, caso contrário, rejeita-se H0. Formalmente fica:

Valor p é também denominado de nível descritivo ou nível de significância observado.

pvalorttP )( *

Page 70: Regressão Linear Simples

70

Saída do Statistica: dados de porcentagem de acertos na cache. As diferenças verificadas são devidas às aproximações nos cálculos.

Page 71: Regressão Linear Simples

71

* * Com o uso do Statistica, para os dados de porcentagem de acerto na cache, encontrar a probabilidade de se rejeitar a hipótese nula, quando ela é verdadeira.

000016,0,0000080,0000080)7525,7()7525,7(

000015,0)7525,7|(|

tptP

tP

Atenção: verificar se o software dá o valor p para o teste uni ou bilateral

Page 72: Regressão Linear Simples

72

Saída do Statistica: dados de populações de Staphilococcus a diferença verificada entre -2,166 e -2,15351 é devido à aproximações nos cálculos.

* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hipótese nula, quando ela é

verdadeira.

09624,004812,004812,0)166,2()166,2(

0962,0)166,2|(|

tptP

tPAtenção: verificar se o software dá o valor p para o teste uni ou bilateral

Page 73: Regressão Linear Simples

73

Teste unilateral:

0:

0:

1

10

aH

H

O pesquisador deseja, por exemplo, testar se 1 é negativo, controlando o nível de significância =0,05.

Regra de decisão:

0*

0*

H se-rejeita t

H se-rejeita não t

),n;(tSe

),n;(tSe

2

2

Exemplo: para os dados de Staphilococcus temos, para =0,05, t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hipótese de nulidade, portanto 1 é negativo.

*ttPp Valor

Page 74: Regressão Linear Simples

74

Nas publicações, indicar o nível descritivo juntamente com o valor da estatística teste. Podemos realizar o teste estatístico para qualquer nível de significância , comparando o nível descritivo com o valor desejado de .

Comentário: pode-se testar as seguintes hipóteses:

101

1010

:

:

aH

H

Onde 10 é um valor diferente de zero.

Page 75: Regressão Linear Simples

75

A estatística teste é dada por:

1

101

bs

bt

Critério do teste:

Se |t*| t(1- /2;n-2) não se rejeita H0

Se |t*| > t(1- /2;n-2) rejeita-se H0

Page 76: Regressão Linear Simples

76

Inferências para 0

Só tem interesse quando os níveis de X incluem X=0 (o que é raro).

Distribuição amostral de b0

O estimador pontual b0 é dado por:XbYb 10

A distribuição amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com diferentes amostras para o mesmo valor de X (constante).

A distribuição amostral de b0 é normal

Média: 00 )( bE Variância:

2

2

)(12

02 )(

XXX

ni

b

A normalidade é verificada pois b0 é uma combinação linear das observações Yi.

Um estimador para 2(b0) é obtido substituindo-se 2 pelo seu estimador pontual, QME.

Distribuição amostral de (b0-0)/s(b0)Teorema:

)2(~)( 0

00 ntbsb

podemos usar a distribuição t para construir os IC e fazer os testes de hipóteses.

(Demonstração próxima página)

Page 77: Regressão Linear Simples

77

(cqd).

)(

)()()()(

0

1101

110

XXbEXY

XbEYEXbYEbE

Demonstração:

Page 78: Regressão Linear Simples

78

Intervalo de confiança para 0

)()2;2/1( 00 bsntb

Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar interessados em encontrar o IC para 0.

8410,38094,2

)1858,0(776,23252,3)1858,0(776,23252,3

776,2)4;975,0(

1858,0)(

0,03456

10659,0

)()(

0

0

0

5,8575,17

2

21

02 2

t

bs

XX

XQMEbs

in

Como o intervalo de confiança não inclui o valor zero (0), rejeitamos a hipótese:

0:

0:

0

00

aH

H

Page 79: Regressão Linear Simples

79

Estimação intervalar para E(Yh)Freqüentemente, numa análise de regressão, deseja-se estimar a média de uma ou mais distribuições de probabilidade de Y. Exemplo: No estudo da relação entre o tamanho da cache (X) e porcentagem de acerto (Y), a porcentagem média de acerto para tamanhos maiores de cache pode ser de interesse. Outro exemplo, um agrônomo pode estar interessado na produção média para diversas doses de um nutriente, com o objetivo de encontrar a dose ótima.

Xh representa o nível da variável preditora para a qual se deseja estimar a resposta média.A resposta média para X=Xh é representada por: E(Yh)

hh XbbY 10ˆ

Sabemos que o estimador pontual de E(Yh) é dado por:hY

Page 80: Regressão Linear Simples

80

• Distribuição normal: para o modelo de regressão com erros normais, a distribuição amostral de Y(chapéu)h é normal. A normalidade segue diretamente do fato que Y(chapéu)h , assim como b0 e b1, é uma combinação linear das observações Yi.

• Média

)()()()()ˆ( 101010 hhhhh YEXbEXbEXbbEYE

Distribuição amostral de Y(chapéu)h

Diferentes valores de Y(chapéu)h que seriam obtidos se repetidas amostras fossem selecionadas, para X constante, e calculando Y(chapéu)h para cada amostra.

Page 81: Regressão Linear Simples

81

• Variância

Para obter 2(Y(chapéu)h), primeiro mostraremos que b1 e não são correlacionados e sob o modelo de regressão com erros normais, independentes:

0);( 1 Yb

Definimos:

2)(

1

XX

XXiii1in

i

ik Ykb YY

Através do teorema A.32 (Neter et al., página 668, 1996) com ai=1/n e ci=ki e lembrando que Yi são variáveis aleatórias independentes:

0)()();(221

1 iniin kYkbY Para a demonstração da variância de Y(chapéu)h vamos utilizar o modelo:

iii XXY )(1*0

Y

Page 82: Regressão Linear Simples

82

2

2

2

22

22

2

2

)(

)(122

)(

22

)(2

)(12

n1

12222

122

)ˆ(

)()ˆ(

)( )(

)constantes X e X tes;independen são b e Y(

)()()()ˆ(

))(()ˆ(

XX

XXnh

XXhnh

nnY

XX

hh

hh

i

h

i

i

h

Y

XXY

Yb

bXXYY

XXbYY

Distribuição amostral de

)2(~)ˆ(

)(ˆ nt

h

hh

Ys

YEY

Intervalo de confiança para E(Yh)

)ˆ()2;2/1(ˆhh YsntY

)ˆ(/))(ˆ( hhh YsYEY

Page 83: Regressão Linear Simples

83

Exemplo: vamos encontrar um intervalo com confiança de 95% para E(Yh) para tamanho de cache X=300.000 bytes. Temos:

230348YE969745

5073263022821047YE5073263022821047

2282109750t

50732630Ys

25738057382Ys

1047300000000064208363327Y

300000

300000

h

03750000000325000300000

121

h

2

300000

2

,)(,

),(,,)(),(,,

,);,(

,)ˆ(

,,)ˆ(

,)(,,ˆ

)(

Interpretação: temos 95% de confiança que a porcentagem média de acertos, com 300.000 bytes de tamanho de cache, está entre 45,9697 e 48,2003%. Um intervalo com boa precisão.

Exercício: encontrar o intervalo com confiança de 95% para E(Yh) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.

Page 84: Regressão Linear Simples

84

Exemplo: para os dados de população de bactérias, vamos encontrar um intervalo com confiança de 95% para E(Yh) para tempo X=14 dias. Temos:

3619,3)(7561,2

)1091,0(776,2059,3)()1091,0(776,2059,3

776,2)4;975,0(

1091,0)ˆ(

0119,00659,0)ˆ(

0593)14(019,0325,3ˆ

14

14

5,857)5,1714(

612

14

2

YE

YE

t

Ys

Ys

,Y

h

h

Interpretação: temos 95% de confiança que a população média de bactérias, com 14 dias de armazenamento, está entre 2,7561 e 3,3619 ufc (em log base e).

Exercício: encontrar o intervalo com confiança de 95% para E(Yh) para tempo X=0. Compare as amplitudes dos intervalos.

Page 85: Regressão Linear Simples

85

Predição de uma nova observaçãoExemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos na cache para um tamanho de cache igual a 375.000 bytes; 2) a pesquisadora deseja predizer a população de bactérias para um tempo específico igual a 15 dias.

Portanto, desejamos predizer uma nova observação, Y, vista como resultado de um novo ensaio, independente dos ensaios nos quais análise de regressão foi feita.

Notação: denotamos o nível de X para o novo ensaio como Xh e a nova observação em Y como Yh(novo). Assumimos que o modelo de regressão continua válido para a nova observação.

A diferença entre estimar uma resposta média, E(Yh) e fazer a predição de uma nova observação, Yh(novo), é que no primeiro caso estimamos a média da distribuição de Y. Agora, vamos predizer uma resposta individual da distribuição de Y.

Page 86: Regressão Linear Simples

86

Intervalo de predição para Yh(novo)

Os limites de predição para uma nova observação Yh(nova) para um dado Xh são obtidos através do do seguinte teorema :

)2(~)(

ˆ)(

ntpreds

YY hnovoh

Isto para o modelo de regressão com erros normais.

Note que a estatística usa Y(chapéu)h no numerador ao invés de E(Yh). O desvio padrão estimado, s(pred), é obtido como segue:

A diferença no numerador, Yh(novo) - Y(chapéu)h, pode ser visto como um erro de predição, com Y(chapéu)h sendo a melhor estimativa pontual do valor da nova observação, Yh(novo) . A variância desse erro pode ser obtida considerando que a nova observação e as n observações, sobre as quais Y(chapéu)h está baseada, são independentes. Considerando o teorema A.31b (Neter et. Al., página 668, 1996), temos:

2

2

)(

)(1

22

222)(

2)(

22

1)(

)ˆ())(

)ˆ()ˆ()()ˆ()(

XX

XXn

2

h

hhnovohhnovoh

i

hQMEpreds

o)tendencios não (estimador YsQMEpreds

YYYYYpred

)()2;2/1(ˆ predsntYh O intervalo fica:

Page 87: Regressão Linear Simples

87

Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora deseja construir um intervalo de predição com 95% de confiança para Y375000(novo).

744555Y078248

720436122829113351Y720436122829113351

7204361preds

959923861057382preds

2282109750t

57382QME

3861057382Ys

9113351375000000064208363327Y

novo375000

novo375000

2

03750000000325000375000

121

3750002

375000

2

,,

),(,,),(,,

,)(

,,,)(

,);,(

,

,,)ˆ(

,)(,,ˆ

)(

)(

)(

Interpretação: podemos afirmar com 95% de confiança que o valor predito de porcentagem de acertos, para tamanho de cache igual a 375000 bytes, está entre 48,0782 e 55,7445%.

O intervalo de predição é similar ao intervalo de estimação, a diferença é conceitual. Um intervalo de estimação é uma inferência sobre um parâmetro e é um intervalo que procura conter o valor do parâmetro. O intervalo de predição, por outro lado, é um conhecimento formal sobre um valor de uma variável aleatória, a nova observação Yh(novo).

Page 88: Regressão Linear Simples

88

Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora deseja construir um intervalo de predição com 95% de confiança para Y15(novo).

8123,32677,2

)2782,0(776,2040,3)2782,0(776,2040,3

2782,0)(

0774,00115,00659,0)(

776,2)4;975,0(

0659,0

0115,00659,0)ˆ(

040,3)15(019,0325,3ˆ

)(15

)(15

2

5,857)5,1715(

61

152

15

2

novo

novo

Y

Y

preds

preds

t

QME

Ys

Y

Interpretação: podemos afirmar com 95% de confiança que o valor predito de população de bactérias, para tempo igual a 15 dias, está entre 2,2677 e 3,8123 ufc/cm2.

Page 89: Regressão Linear Simples

89

Faixa de confiança para a equação de regressãoÚtil para verificar o ajuste da equação de regressão.

A faixa de confiança (1-) para a equação da reta correspondente ao modelo de regressão com erros normais tem dois limites para qualquer nível de Xh, cujos valores são dados por:

2

2

)(

)(12

10

2

)ˆ(

ˆ

)2,2;1(2

)ˆ(ˆ

XX

XXnh

hh

hh

i

hQMEYs

XbbY

nFW

YWsY

Calcula-se os valores dos limites para diversos níveis de Xh e após faz-se o gráfico.

Distribuição de F, com 2 gl no numerador e n-2 no denominador, com grau de confiança 1-

Page 90: Regressão Linear Simples

90

Scatterplot (CACHE.STA 9v*12c)

y=27,836+6,423e-5*x+eps

TAMANHO DA CACHE

PO

RC

EN

TAG

EM

DE

AC

ER

TO

40

42

44

46

48

50

52

54

56

58

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

Percebe-se que os valores da linha de regressão são estimados com boa precisão.

Page 91: Regressão Linear Simples

91

Análise de variância da regressão

É importante para análise de regressão linear múltipla e outros modelos lineares. Para análise de regressão linear simples não traz nenhuma novidade.

Page 92: Regressão Linear Simples

92

Partição da soma de quadrados total

)ˆ()ˆ( iiii YYYYYY Desvio

total

Desvio da equação

ajustada em torno da média

Desvio em torno da equação ajustada

X

Y

Xi

Yi•

TR

E

Page 93: Regressão Linear Simples

93

Soma de quadrados total:

Soma de quadrados do erro (ou resíduo):

n

iii YYSQE

1

2)ˆ(

Soma de quadrados da regressão:

n

ii YYSQR

1

2)ˆ(

n

ii YYSQT

1

2)(

Demonstração:

n

i

n

iiii

n

i

n

i

n

iiiiii

n

iiii

n

i

n

i

n

iiiiiii

n

iiiiiii

n

iiii

n

i

YYYYYY

YYYYYYYYYY

YYYYYYYY

YYYYYYYY

YYYYYY

1 1

22

1

2

1 11

1 1 1

22

1

22

1

2

1

2

)ˆ()ˆ()(

0)ˆ(2)ˆ(ˆ2)ˆ)(ˆ(2

)ˆ)(ˆ(2)ˆ()ˆ(

)ˆ)(ˆ(2)ˆ()ˆ(

)ˆ()ˆ()(

(Parte da variabilidade de Yi que está associada com a regressão)

Page 94: Regressão Linear Simples

94

Graus de liberdade

A SQT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de que a soma dos desvios em torno da média é zero. De outra forma: um grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional.

A SQE tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois parâmetros são estimados para obter Y(chapéu)i.

A SQR tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2 parâmetros); um deles é perdido devido a restrição:

Os graus de liberdade são aditivos: (n-1)=1+(n-2)

Quadrados médios

A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado médio.

1SQRQMR )2( n

SQEQME )1( nSQTQMT

.0)ˆ( YYi

Page 95: Regressão Linear Simples

95

Tabela da análise de variância

Tabela da análise de variância para regressão linear simplesCausas de variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR 1 SQR/1Erro SQE n-2 SQE/(n-2)Total SQT n-1

Tabela modificada (soma de quadrados total não corrigida)

Baseado no fato de que:

2

222)(

i

ii

YSQTNC

YnYYYSQT

Tabela da análise de variância para regressão linear simplesCausas de variação Soma de quadrados Graus de liberdadeQuadrado médio

Regressão SQR 1 SQR/1Erro SQE n-2 SQE/(n-2)Total SQT n-1Correção para a média SQ(devido a média)= 2Yn 1Total não corrigido SQTNC=2

iY n

Page 96: Regressão Linear Simples

96

Exercício: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.

Esperanças dos quadrados médiosPara realizar inferências na análise de variância, precisamos conhecer as esperanças dos quadrados médios. Os valores esperados dos quadrados médios é a média de suas distribuições amostrais e nos mostram o que está sendo estimado pelo quadrado médio.

Teorema 2.11 (página 49, Neter et al., 1996) diz que: )2(~/ 22 nSQE

Das propriedades da distribuição de 2 (apêndice) temos:

imparcial)estimador é QME(O QMEEE

nE

nSQE

SQE

22 )()(

2)( 2

Para encontrar a E(QMR), partimos de:

22

1 )( XXbSQR i

Sabemos que a variância de uma variável aleatória é dada por:

(para o modelo com erros com distribuição normal).

Exercício: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.

Page 97: Regressão Linear Simples

97

2

i

2

1

2

1SQR

2

i

2

1

2

2

i

2

1XX

2

i

2

1

2

1XX

2

1

XX1

2

11

2

1

2

11

2

XXQMREE

XXSQRE

XXSQRE

XXbESQRE

bE

b

bE

bEbEb

2i

2

2i

2

2i

2

)()()(

)()(

)()(

)()()(

)(

)(

)(

))(()()(

Teste F para 1

Na análise de variância testa-se as seguintes hipóteses:0:

0:

1

10

aH

H

A estatística utilizada para testar essas hipóteses é dada por: QMEQMRF *

Para estabelecer uma regra de decisão do teste de hipóteses devemos conhecer a distribuição amostral de F*.

Valores altos de F* favorecem Ha; F*=1 favorece H0; é um teste unilateral.

Page 98: Regressão Linear Simples

98

Distribuição amostral de F*

Vamos considerar a distribuição amostral de F* quando a hipótese nula for verdadeira, isto é, sob H0.

Teorema de Cochran: se as n observações Yi são identicamente distribuídas de acordo com uma distribuição normal com média e variância 2 e a soma de quadrados total é decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, então, os termos SQr/ 2 , são variáveis independentemente distribuídas como 2 com glr graus de liberdade se:

k

ir ngl

1

1

Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os seus graus de liberdade são aditivos.

Sob H0, de modo que os Yi tem distribuição normal com a mesma média =0 e mesma variância 2 , SQE/2 e SQR/2 são variáveis independentemente distribuídas como 2.

Podemos escrever F* como:

)2()2(

1)1(

)2(1)2/(* 22221

nn

nnSQEQMEQMR

SQESQRSQR

F

Page 99: Regressão Linear Simples

99

Assim, sob H0, F* é o quociente entre duas variáveis independentes com distribuição de 2, portanto, a estatística F* é uma variável aleatória com distribuição F(1,n-2) (apêndice-distribuição F).

Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuição de F não central.

Regra de decisão do teste de hipóteses:

0

0

H

H reje

serejeita)n,;(FF

seitanão)n,;(FF*

*

211

211

Saída do STATISTICA: dados de porcentagem de acerto na cache.

F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hipótese nula.

Conclusão: existe uma associação linear entre porcentagem de acerto e o tamanho da cache. Mesmo resultado do teste t.

Page 100: Regressão Linear Simples

100

Saída do STATISTICA: dados de população de Staphilococcus.

F(95%;1,4)=7,71, portanto, F*< F e, assim, não rejeita-se a hipótese nula.

Conclusão: não existe uma associação linear entre pop. e o tempo de armazenamento. Mesmo resultado do teste t.

Page 101: Regressão Linear Simples

101

Teste geral para o modelo linearTrês etapas:

1) Modelo completo

Este modelo é considerado adequado para os dados e chama-se modelo completo ou sem restrição (superparametrizado). No caso de regressão linear simples temos:

iii XY 10 Modelo completo

A soma de quadrados do erro do modelo completo (SQE(C)), é dada por:

SQEYYXbbYCSQE iiii 22

10 )ˆ()()(

2) Modelo reduzido

Vamos considerar as hipóteses:

0:

0:

1

10

aH

HModelo reduzido:

iiY 0

Sob H0

Page 102: Regressão Linear Simples

102

A soma de quadrados do erro do modelo reduzido (SQE(R)), é dada por:

SQTotalYYbYRSQE ii 22

0 )()(

3) Teste estatísticoDevemos comparar as duas somas de quadrados dos erros.

)()( RSQECSQE Sempre

Mais parâmetros

Conclusão: se a SQE(C) não é muito menor do que a SQE(R), indica que o modelo reduzido é adequado, isto é, não rejeita-se H0.

Exercício: encontre o estimador de 0 pelo método de mínimos quadrados.

Page 103: Regressão Linear Simples

103

O teste estatístico é dado por:

),;1(~)()()(*ccrgl

CSQEglgl

CSQERSQE glglglFFccr

Decisão:

0ccr

0ccr

H serejeitaglglglFF

H seaceitaglglglFF

),;1(

),;1(*

*

Exercício: para os dados de porcentagem de acertos na cache, verifique a as hipóteses:

0:

0:

1

10

aH

H

., **,

,,,,* 1060F 5738526899154

10738525

10117385254284180

Page 104: Regressão Linear Simples

104

Exercício: para os dados de pop. de staphilococcus, verifique se as hipóteses:

0:

0:

1

10

aH

H

.,,,,,,* NS06597703059770

42639080

4526390805698850 644F

Page 105: Regressão Linear Simples

105

Medidas descritivas do grau de associação linear entre X e Y.

X

Coeficiente de determinação (r2)

10

12

2

r

r SQTSQE

SQTSQR

Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão. Quanto maior o r2 mais a variação total de Y é reduzida pela introdução da v. preditora X no modelo.

XbbY 10

ˆ r2=1

Y

X

Y

r2=0

YY ˆ

A variável preditora X é responsável por toda a variação nas observações Yi.

A v. X não ajuda na redução da variação de Yi com a Reg. Linear

Page 106: Regressão Linear Simples

106

Coeficiente de correlação (r)

11

2

r

rr

Exemplo: para os dados de população de Staphilococcus, temos:

Exemplo: para os dados de porcentagem de acertos na cache, temos:

Page 107: Regressão Linear Simples

107

Interpretações errôneas dos coeficientes de determinação e correlação:

1) Um alto coeficiente de correlação indica que predições úteis podem ser feitas. Isto não é necessariamente correto. Observe se as amplitudes dos intervalos de confiança são grandes, isto é, não são muito precisos.

2) Um alto coeficiente de correlação indica que a equação de regressão estimada está bem ajustada aos dados. Isto também não é necessariamente correto (veja figura a seguir).

3) Um coeficiente de correlação próximo de zero indica que X e Y não são correlacionadas. Idem (veja figura a seguir).

Page 108: Regressão Linear Simples

108

Tem um alto valor de r; o ajuste de uma equação de regressão linear não é adequada

Tem um baixo valor de r; porém existe uma forte relação entre X e Y.

*** Fazer lista de exercícios número 2.