apostila - regressão linear - maio-2012.pdf

33

Transcript of apostila - regressão linear - maio-2012.pdf

Page 1: apostila - regressão linear - maio-2012.pdf
Page 2: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

2222

Índice

1. Visão geral ................................................................................................................ 4

2. Correlações e associações ....................................................................................... 5

1. Introdução .............................................................................................................. 5

2. Definição ................................................................................................................ 5

3. Estudo de caso – parte I ........................................................................................ 5

4. Diagrama de dispersão .......................................................................................... 6

5. Estudo de caso – parte II ....................................................................................... 7

6. Observações sobre diagramas de dispersão ......................................................... 8

7. Coeficiente de Correlação de Pearson (r).............................................................. 9

8. Estudo de caso – parte III .................................................................................... 12

3. Modelo de Regressão Linear Simples ..................................................................... 14

1. introdução ............................................................................................................ 14

2. Método dos Mínimos Quadrados – conceitos gerais ........................................... 14

3. Método dos Mínimos Quadrados – formalizando um pouco ................................ 15

4. O Modelo de Regressão Linear ........................................................................... 16

5. Estudo de caso – parte IV .................................................................................... 17

6. Coeficiente de determinação (r2) ......................................................................... 18

7. Estudo de caso – parte V ..................................................................................... 18

8. Exemplo ............................................................................................................... 19

9. Estudo de caso – parte VI e conclusões gerais ................................................... 22

Conclusões gerais sobre nosso estudo e observações gerais importantes a respeito da Regressão Linear .............................................................................. 22

10. Exercícios .......................................................................................................... 22

4. Teste t para o coeficiente de correlação ................................................................. 27

1. Introdução ............................................................................................................ 27

2. Teste de hipótese para a correlação populacional .............................................. 27

2.1. As hipóteses do teste .................................................................................... 27

2.2. Graus de liberdade ........................................................................................ 28

2.3. A estatística do teste ..................................................................................... 28

2.4. Conclusão do teste........................................................................................ 28

3. Exemplo ............................................................................................................... 28

4.Correlação e casualidade ..................................................................................... 29

Page 3: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

3333

5. Exercícios ............................................................................................................ 30

Tabela t ....................................................................................................................... 32

Formulário ................................................................................................................... 33

Page 4: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

4444

1. 1. 1. 1. Visão geralVisão geralVisão geralVisão geral

Até o momento, a descrição e a inferência estatística foram tratadas em termos de uma variável somente. Assim, quando tínhamos uma amostra de empresas, considerávamos uma variável por vez, como, por exemplo, o faturamento. Entretanto, quando temos uma amostra de empresas, há várias variáveis que podem ser observadas em cada unidade amostrada: número de empregados, salários, área etc. No primeiro caso, cada unidade observada está associada com a medida de uma variável X; no segundo, cada unidade é associada com as medidas de várias variáveis, X, Y, W etc. No momento, vamos considerar o caso de duas variáveis (análise bivariada). Prioritariamente, a análise de regressão é usada com o propósito de previsão . Nosso objetivo é o de desenvolver um modelo estatístico que pode ser usado para prever valores de uma variável dependente (Y) em fu nção de valores de uma variável (X), ou mais variáveis independentes. Suponhamos dispor de uma amostra de n unidades, e, ainda, que, para cada unidade, temos um par de valores das variáveis X e Y (por exemplo, idade da casa e aluguel). O grupo pode ser descrito, separadamente, quanto à variável X ou quanto variável Y, através das medidas já discutidas, tais como, médias e desvios padrões. No entanto, agora temos interesse em estabelecer uma possível relação funcional (matemática) entre as duas variáveis e, se a relação for boa, usá-la para fazer previsões. No caso do exemplo, nosso interesse será estabelecer uma relação matemática (linear) entre as idades das casas (X) e os valores de aluguéis (Y), e dessa maneira prever valores de aluguéis em função das idades das casas.

Page 5: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

5555

2. Correlações e associações2. Correlações e associações2. Correlações e associações2. Correlações e associações

1. Introdução Suponha que o chefe de uma empresa queira determinar se existe uma relação entre o número de horas de treinamento dado a um funcionário e o número de acidentes envolvendo o mesmo funcionário. Ou ainda, que um psicólogo queira determinar se o número de horas que uma pessoa dorme a noite tem relação com o tempo de reação dessa mesma pessoa. Frequentemente estamos expostos a dados originários de pesquisas que informar existir relações entre duas coisas. Por exemplo: - as atividades sedentárias (como assistir TV) estão associadas ao aumento de obesidade e dos riscos de diabetes em mulheres; - beber moderadamente reduz os riscos de doenças cardíacas em homens; - o tratamento imediato ajuda a retardar o progresso do glaucoma. (Fonte: National Institutes of Health) Estudaremos, a seguir, que tipo de relação, ou correlação, existe entre duas variáveis quantitativas e como determinar se a correlação é significante.

2. Definição Uma correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x,y) , onde x é a variável independente e y é a variável dependente ou resposta.

3. Estudo de caso – parte I Um artigo publicado em uma revista chamada Garden Gate, havia uma notícia com o título: “Conte o cricrilar dos grilos e descubra a temperatu ra”. Segundo o artigo, você poderia contar quantas vezes um grilo cricrila em 15 segundos, somar 40 ao resultado e obteria a temperatura em graus Fahrenheit. Existem diversas pesquisas científicas que dizem existir, de fato, uma relação entre a frequência do cricrilar dos grilos e a temperatura ambiente. Para exemplificar, observemos a tabela a seguir, que nos mostra parte dos dados da pesquisa das duas variáveis dependentes em questão:

Page 6: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

6666

Número de vezes que o grilo cricrila

em 15 segundos

Temperatura (ºF)

18 57 20 60 21 64 23 65 27 68 30 71 34 74 39 77

Geralmente, esses dados, que são observados aos pares, são chamados de dados bivariados . Observação: a conversão entre a escala Fahrenheit e Celsius é dada pela fórmula

C=5�F-32�

9. Assim, por exemplo, 57ºF correspondem a 13,9ºC.

Se olharmos para um conjunto de dados bivariados, muitas vezes enormes, possivelmente teremos problemas para deduzir uma relação entre as variáveis envolvidas. Para os dados representados na tabela anterior, mesmo que consigamos enxergar um padrão de comportamento nos dados como, por exemplo, que a frequência do cricrilar aumenta conforme a temperatura aumenta, é muito difícil detectarmos a relação exata existente. Para chegarmos a algum tipo de conclusão, precisamos organizar os dados em tabelas ou gráficos. Quando os dados forem bivariados, uma alternativa inicial bastante eficaz é a construção de gráficos com duas dimensões, de modo que cada par de valor possa ser representado simultaneamente. Em outras palavras, o primeiro passo é a construção de um gráfico ou diagrama de dispersão .

4. Diagrama de dispersão O gráfico dos pares ordenados (x,y) é chamado de diagrama de dispersão. No diagrama de dispersão, os pares ordenados (x,y) são marcados no gráfico como pontos do plano cartesiano. A variável independente x deve ser marcada no eixo das abscissas (horizontal), enquanto que a variável explicativa (ou dependente) y é marcada no eixo das ordenadas (vertical). Um diagrama de dispersão pode ser usado para determinar se existe uma correlação linear (linha reta) entre duas variáveis. A seguir, vemos alguns diagramas de dispersão que nos mostram vários tipos de correlação.

Page 7: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

7777

5. Estudo de caso – parte II Voltando ao caso do cricrilar dos grilos, para a tabela apresentada anteriormente, obteríamos o seguinte gráfico de dispersão:

Page 8: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

8888

6. Observações sobre diagramas de dispersão Pelo gráfico anterior, podemos perceber que a escala adotada no eixo horizontal não é necessariamente a mesma escala que a adotada no eixo vertical. Antes de iniciar a marcação dos pontos, a partir da tabela, no gráfico, construa sempre as escalas nos dois eixos. Escalas incorretas (mal elaboradas) podem gerar conclusões falsas a respeito dos dados analisados! A interpretação inicial consiste em examinarmos a tendência dos dados, sempre olhando da esquerda para a direita: - se os dados se aproximam de uma reta crescente , dizemos que existe uma relação linear positiva . Neste caso, conforme o valor de x aumenta, o valor de y também aumenta; - se os dados se aproximam de uma reta decrescente , dizemos que existe uma relação linear negativa . Neste caso, conforme o valor de x aumenta, o valor de y diminui; - caso os dados não se aproximem de uma reta, isso indica que não existe uma relação linear entre as duas variáveis. Para análise de regressão linear simples, é desejável a construção de um gráfico bidimensional denominado diagrama de dispersão . Cada valor é marcado em função das coordenadas de X e Y. Os recursos visuais utilizados para exibir os dados mostram as possíveis associações ou relações entre duas variáveis. No entanto, apenas por que o gráfico está mostrando que algo está possivelmente acontecendo, isso não significa que exista uma relação de causa e efeito. Por exemplo, se olharmos o diagrama dispersivo do consumo de sorvete e das taxas de homicídio, veremos que essas duas variáveis também possuem uma relação linear positiva. No entanto, ninguém irá alegar que o consumo de sorvete causa homicídios ou que as taxas de homicídios afetam o consumo de sorvete. Se alguém estiver tentando mostrar uma relação de causa e efeito por meio de um gráfico ou tabela, procure saber como o estudo foi projetado e como os dados foram coletados e, só então, avalie se o estudo pode ser considerado como válido. Embora muitas relações sejam lineares positivas ou negativas, existem variáveis podem se relacionar através de, por exemplo, parábolas ou exponenciais, que não serão estudadas aqui. Exemplo: a tabela a seguir representa o número de anos de serviço e o correspondente número de clientes de 5 agentes de uma companhia de seguros em

Page 9: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

9999

um determinado mês. Construa o gráfico de dispersão e determine se parece existir uma correlação linear positiva, negativa ou se não existe correlação.

Agente Anos de Serviço Número de clientes A 2 48 B 4 56 C 5 64 D 6 60 E 8 72

Total 25 300 É razoável dizermos que o número de clientes depende da quantidade de anos trabalhadas, ou seja, a variável independente é X: anos de serviço e a variável dependente é Y: número de clientes . O gráfico de dispersão é:

Observando o gráfico, parece haver uma correlação linear positiva entre as variáveis.

7. Coeficiente de Correlação de Pearson (r) Após os dados bivariados terem sido organizados em uma tabela e ter construído um gráfico de dispersão, o próximo passo é obter alguma estatística que possa quantificar a dimensão e natureza da relação. Um indicador da força de uma relação linear entre duas variáveis intervalares é o Coeficiente de Correlação do Produto de Momentos de Pearson , ou simplesmente Coeficiente de Pearson . Trata-se de uma medida de associação que independe das unidades de medidas das variáveis. Varia entre –1 ou +1 ou, expresso em porcentagens, entre –100% e +100%. Quanto maior a qualidade do ajuste (ou associação linear), mais próximo de +1 ou –1 estará o valor do coeficiente r .

0

20

40

60

80

0 2 4 6 8 10

núm

ero

de c

lient

es

Anos de Serviço

Page 10: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

10101010

A interpretação do Coeficiente de Correlação como medida da intensidade da relação linear entre duas variáveis é puramente matemática e está completamente isenta de qualquer implicação de causa e efeito. O fato de duas variáveis aumentarem ou diminuírem juntas não implica que uma delas tenha algum efeito direto, ou indireto, sobre a outra. Ambas podem ser influenciadas por outras variáveis de maneira que dê origem a uma forte correlação entre elas. Na prática, se r > 70% ou r < –70%, diremos que há forte correlação linear entre as variáveis. Para ilustrar, vamos analisar alguns diagramas de dispersão com a respectiva reta de regressão ajustada:

Page 11: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

11111111

O cálculo do coeficiente de Pearson é dado pela fórmula:

( )( )( )[ ] ( )[ ]2

i2i

2

i2i

iiii

yynxxn

yxyxnr

∑∑∑∑

∑∑ ∑

−−

−=

onde n é o número de observações. Vejamos a figura a seguir que nos mostra os valores reais da correlação em um gráfico de dispersão:

r < 0

Page 12: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

12121212

8. Estudo de caso – parte III Vamos calcular, para o caso dos grilos, o coeficiente de correlação de Pearson. Para isso, trabalharemos com a tabela a seguir, onde X é a variável independente “número de vezes que o grilo cricrila em 15 segundo s” e Y é a variável explicativa “temperatura em ºF” .

x i yi x i. yi x i2 yi

2

18 57 1026 324 3249 20 60 1200 400 3600 21 64 1344 441 4096 23 65 1495 529 4225 27 68 1836 729 4624 30 71 2130 900 5041 34 74 2516 1156 5476 39 77 3003 1521 5929

∑ x i = 212 ∑ yi

= 536 ∑ x i. yi = 14550 ∑ x i

2 = 6000 ∑ yi2 = 36240

Substituindo os valores calculados na fórmula, sendo n=8 observações, temos:

Page 13: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

13131313

( )( )( )[ ] ( )[ ] ( )[ ] ( )[ ]

977,02624..3056

2768

53636240.82126000.8

536.21214550.8

yynxxn

yxyxnr

222

i2i

2

i2i

iiii

==

=−−

−=−−

−=

∑∑∑∑

∑∑ ∑

Ou seja, o coeficiente de correlação é, aproximadamente, 0,98, indicando uma forte correlação linear positiva entre o cricrilar e a temperatura.

Page 14: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

14141414

3333. . . . Modelo de Regressão Linear SimplesModelo de Regressão Linear SimplesModelo de Regressão Linear SimplesModelo de Regressão Linear Simples

1. introdução Observando o diagrama de dispersão, podemos ter uma idéia do tipo de relação entre as duas variáveis. A natureza da relação pode tomar várias formas, desde uma simples relação linear até uma complicada função matemática. O modelo de regressão linear simples pode ser representado como:

iii XY ε+β+α= onde: α é a inclinação da reta; β é o intercepto da reta no eixo das ordenadas;

iε é o erro aleatório de Y para a observação i. Assim, a inclinação α representa a mudança esperada de Y por unidade de X; isto é, representa a mudança de Y (tanto positiva quanto negativa) para uma particular unidade de X. Por outro lado, β representa o valor de Y quando X = 0, enquanto iε representa uma variável aleatória que descreve o erro de Y para cada observação i.

2. Método dos Mínimos Quadrados – conceitos gerais A partir de um diagrama de dispersão, devemos ajustar uma reta que melhor modele o conjunto de dados. Essa reta é chama de reta de regressão e sua equação pode ser usada para prever os valores de y para um dado valor de x (mas não o contrário!) . Embora muitas retas possam ser desenhadas a partir de um conjunto de pontos, existe “a melhor” reta. Tal reta é obtida a partir de critérios específicos, chamado de Método dos Mínimos Quadrados. Consideremos o diagrama a seguir. Para cada ponto do gráfico, d i representa a diferença entre o valor y observado e o valor y previsto pelo modelo para um determinado valor de x. Essas diferenças são chamadas de resíduos e podem ser positivas, negativas ou zero (quando um ponto do gráfico está sobre a reta ajustada). Dentre todas as retas que podem ser traçadas para certo conjunto de dados, a “melhor” é aquela que minimiza a soma de todos resíduos ao quadrado, ou seja, é a que minimiza ∑d i

2.

Page 15: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

15151515

3. Método dos Mínimos Quadrados – formalizando um p ouco Como já mencionamos, precisamos determinar, com base em uma amostra, a equação de regressão linear simples que melhor se ajuste aos dados amostrais. Isto é, encontrarmos os coeficientes da reta:

baxy ii +=

onde:

iy é o valor da previsão de y para uma observação xi; xi é o valor de x para a observação i; a é o estimador de α ; b é o estimador de β . O problema é determinar os valores dos parâmetros a e b, de modo que a reta se ajuste ao conjunto de pontos, isto é: estimar a e b de algum modo eficiente. Há vários métodos para encontrar as estimativas de tais parâmetros, sendo mais eficaz o Método dos Mínimos Quadrados . Como a reta desejada vai ser usada para fins de previsão, é razoável exigir que ela seja tal que torne pequenos os erros dessa previsão . Um erro de previsão significa a diferença entre um valor observado de y e o valor correspondente de y da reta. Isto é: tornar pequeno o erro: (y – y ). Veja a ilustração, para melhor compreender o que se busca:

Page 16: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

16161616

Desvio entre uma observação e a reta dos mínimos quadrados.

Os pontos acima da reta dão erros positivos, os situados abaixo da reta dão erros

negativos. Como a soma dos erros é zero, isto é, 0)yy(n

1iii =−∑

=

, o método utiliza a

soma dos quadrados dos erros, daí o nome Mínimos Quadrados. Assim, 2n

1iii )yy(∑

=

deverá ser minimizada. Como bxay ii += , devemos minimizar [ ]∑=

+−n

1i

2ii )bax(y para

obter os parâmetros a e b. Resolvendo–se essa expressão, teremos os parâmetros dados pelas fórmulas, conforme veremos a seguir.

4. O Modelo de Regressão Linear Nosso modelo é:

bx.ay i += onde:

( )∑ ∑

∑ ∑ ∑−

−=

2

i2i

iiii

xxn

yxyxna e x.ayb −=

com

Page 17: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

17171717

n

xx i∑= (média de X) e

n

yy i∑= (média de Y)

em que n é o número de observações.

5. Estudo de caso – parte IV Voltando aos nossos grilos, vamos determinar uma reta de regressão para o conjunto de dados. Lembrando que n=8, vamos inicialmente calcular as médias:

5,268

212n

xx i === ∑

678

536n

yy i === ∑

Agora, calcularemos o valor do coeficiente angular:

( ) ( )906,0

30562768

2126000.8

.536.21214550.8

xxn

yxyxna

22

i2i

iiii ==−

−=−

−=

∑ ∑

∑ ∑ ∑

Finalmente, calcularemos o coeficiente linear:

991,425,26.906,067x.ayb =−=−= Arredondando os resultados obtidos, temos: a=0,91 e b=43,0. O modelo de regressão é:

y�=0,91x+43,0

Cuidado!

∑x2 (∑x)2

Page 18: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

18181818

6. Coeficiente de determinação (r 2) O coeficiente de determinação (r2) corresponde ao quadrado do valor do coeficiente de correlação (r). O coeficiente de determinação é uma medida que nos indica qual a porcentagem da variação explicada pelo modelo em relação à variação total. A variação explicada é aquela que pode ser explicada pela relação entre x e y, ou seja, pelo modelo de regressão. A variação não explicada é aquela que não pode ser explicada pelo modelo, ou seja, por uma relação entre x e y e isto ocorre devido ao acaso ou à existência de outras variáveis não consideradas no modelo. Exemplo: suponhamos que o coeficiente de correlação entre duas variáveis seja r=0,90. Então, o coeficiente de determinação é r2 = 0,902 = 0,81. Isso significa que 81% da variação de y pode ser explicada pelo modelo de regressão ; os restante (19%) da variação é não explicada e ocorre em razão de outros fatores ou a erro na amostragem.

7. Estudo de caso – parte V Para concluir nosso estudo sobre o cricrilar dos grilos, vamos responder às seguintes questões: a) Se durante 15 segundos contarmos 25 cricrilares, qual deve ser a temperatura ambiente aproximada em graus Celsius? b) Durante 15 segundos, foram contados 39 cricrilares. Qual deve ser a temperatura ambiente? Compare o resultado com os dados coletados na amostragem do experimento. c) Qual o coeficiente de determinação? Interprete o seu valor. Resolução a) Utilizando o modelo obtido na parte IV, basta substituirmos x por 25: y�=0,91x+43,0 = 0,91 . 25 + 43,0 = 65,75ºF Utilizando a fórmula apresentada anteriormente, fazemos a conversão de ºF para ºC:

C=5�F-32�

9=5(65,75-32)

9=18,75ºC

Page 19: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

19191919

Logo, se 25 cricrilos foram ouvidos, espera-se que a temperatura ambiente seja de aproximadamente 19ºC. b) Novamente, a partir do modelo de regressão, temos: y�=0,91x+43,0 = 0,91 . 39 + 43,0 = 78,49ºF ~ 78ºF. A temperatura que foi obtida na coleta dos dados (apresentados na tabela da parte I) correspondente a 39 cricrilos foi de 77ºF, enquanto que através da equação da reta de regressão, obtivemos 78ºF, o que nos mostra que a aproximação obtida para o modelo é muito boa. Observação importante: se tivéssemos calculado o valor esperado pelo modelo para 34 cricrilos, obteríamos 74ºF, que é exatamente o mesmo valor obtido na amostragem. Porém, é importante ressaltar que isso é uma coincidência e que nem sempre os valos esperados e calculados através do modelo de regressão coincidirão com os valores apresentados na tabela de dados brutos. Porém, espera-se que o valor obtido pelo modelo seja relativamente próximo do valor obtido na amostragem (desde que a correlação entre as variáveis seja forte). c) Vimos que o coeficiente de correlação é r = 0,977. Logo, o coeficiente de determinação será: r2 = 0,9772 = 0,954529 ≈ 0,955. Logo, o modelo de regressão é capaz de explicar 95,5% da variabilidade da temperatura. Em outras palavras, 95,5% da variação da temperatura é explicada pela relação entre a frequência de cricrilos e a temperatura.

8. Exemplo A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura:

Temperatura (ºC) 10 15 20 25 30 Comprimento (mm) 1.003 1.005 1.010 1.011 1.014

Determine: a) o coeficiente de correlação e a interpretação do valor obtido; b) a reta ajustada através do Método dos Mínimos Quadrados; c) o gráfico de dispersão e da reta ajustada em um único par de eixos; d) o valor estimado do comprimento da barra para a temperatura de 18ºC; e) o valor estimado do comprimento da barra para a temperatura de 35ºC; f) o coeficiente de determinação e sua interpretação.

Page 20: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

20202020

Resolução Inicialmente, verificamos que a variável “controlada” é a temperatura, e que o comprimento varia em função da temperatura medida. Neste caso, a variável independente X é a temperatura ; a variável dependente Y é o comprimento . Vamos refazer a tabela dada verticalmente e calcularemos as medidas necessárias para utilizarmos as fórmulas:

Temperatura x i

Comprimento y i

x i.yi (x i)2 (yi)

2

10 1003 10030 100 1006009 15 1005 15075 225 1010025 20 1010 20200 400 1020100 25 1011 25275 625 1022121 30 1014 30420 900 1028196

100x i =∑ 5043y i =∑ 101000yx ii =∑ 2250x2i =∑ 5086451y2

i =∑

Observe a última linha da tabela: nela, já temos todos os elementos necessários para utilizarmos as fórmulas anteriormente apresentadas.

a) ( )( )

( )[ ] ( )[ ] =−−

−=

∑∑∑∑

∑∑ ∑2

i2i

2

i2i

iiii

yynxxn

yxyxnr

( )[ ] ( )[ ] 9826,0507500

700

406.1250

700

50435086451.51002250.5

)5043).(100(101000.522

≅==−−

−= .

Interpretação: a temperatura explica aproximadamente 98% da variabilidade do comprimento da barra de aço. b) Vamos calcular os coeficientes da reta:

( ) 56,01250700

)100(2250.55043.100101000.5

xxn

yxyxna

22

i2i

iiii ==−−=

−=

∑ ∑

∑ ∑ ∑ .

205

100n

xx i === ∑

6,10085

5043n

yy i === ∑

4,99720.56,06,1008x.ayb =−=−= .

Page 21: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

21212121

Logo, o nosso modelo é: 4,997x.56,0y += . c) O gráfico de dispersão com o ajuste da reta é:

d) A partir do modelo 4,997x.56,0y += , queremos estimar o valor do comprimento da barra de aço para x=18°C. Logo:

48,10074,99718.56,04,997x.56,0y =+=+= mm. e) Analogamente ao item anterior, agora temos x=35°C:

10174,99735.56,04,997x.56,0y =+=+= mm. f) Como r = 0,9826 então o coeficiente de determinação é r2 = 0,98262 ≈ 0,97. Interpretação: o modelo de regressão explica aproximadamente 97% da variabilidade do comprimento. Outo modo de interpretar: 97% da variação do comprimento pode ser explicada pela relação entre comprimento e temperatura. Os outros 3% devem-se a outros fatores não considerados ou erros na amostra.

Plotagem de ajuste de linha

1002

1004

1006

1008

1010

1012

1014

1016

0 10 20 30 40

temperatura

com

prim

ento

comprimento

Previsto(a)comprimento

Page 22: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

22222222

9. Estudo de caso – parte VI e conclusões gerais Conclusões gerais sobre nosso estudo e observações gerais importantes a respeito da Regressão Linear 1) o fato de termos um modelo não necessariamente significa que possamos atribuir qualquer valor até obter uma boa previsão para y. Pox exemplo, não faz sentido atribuirmos valores maiores do que 39 ou menores do que 18 para esse caso, visto que todos os nossos dados estão contidos dentro dessa variação. Não podemos garantir que a linha de regressão funcionará fora da área em que os dados foram coletados. Será que, realmente, conforme a temperatura aumenta, os grilos irão cricrilar cada vez mais rápido, sem nunca parar? É claro que não! Os grilos não sobreviveriam à exposição excessiva de calor ou de frio. Por isso, não podemos atribuir valores extremamente baixos ou extremamente altos para x ainda esperar que o modelo funcione... 2) Fazer previsões usando valores x que fiquem fora da variação dos dados é errado. Os estatísticos chamam essa prática de extrapolação ; fique atento com pesquisadores que tentam fazer alegações além da variação de seus resultados. 3) Uma vez que a linha de regressão é um modelo que descreve a relação geral entre x e y, nós não estamos realmente prevendo y, mas, sim, prevendo o valor esperado (ou a média) de y para um dado valor x .

10. Exercícios 1) Um grupo de pessoas fez uma avaliação do peso aparente de alguns objetos. Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a tabela:

Peso real (kg) 18 30 42 62 73 97 120 Peso aparente (kg) 10 23 33 60 91 98 159

Calcule o coeficiente de correlação de Pearson. 2) Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da escola A:

x i 11 14 19 19 22 28 30 31 34 37 yi 13 14 18 15 22 17 24 22 24 25

Calcule o coeficiente de correlação linear. Se houver correlação, indique se ela é positiva ou negativa; forte ou fraca.

Page 23: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

23232323

3) Os orçamentos (em milhões de dólares) e os ganhos brutos mundiais (em milhões de dólares) para os oito filmes longa metragem já produzidos são apresentados na tabela a seguir:

Orçamento (x) 207 204 200 200 180 175 175 170 Ganhos brutos (y) 553 391 1835 784 749 218 255 433

a) Construa um diagrama de dispersão para os dados. b) Calcule o coeficiente de correlação r. c) Diga como é o tipo de correlação. 4) Na tabela, são mostrados os ganhos por cota de mercado e os dividendos por cota de mercado para 10 empresas de serviços de telecomunicações em um determinado ano:

Ganhos por cota (x) 2,34 1,96 1,39 3,07 0,65 5,21 0,88 3,23 2,54 1,03 Dividendos por cota (y) 1,33 1,07 1,15 0,25 1,00 1,00 1,59 1,20 1,62 0,20

a) Construa um diagrama de dispersão para os dados. b) Calcule o coeficiente de correlação r. c) Diga como é o tipo de correlação. 5) A tabela abaixo apresenta a produção de uma indústria:

Anos 1980 1981 1982 1983 1984 1985 1986 1987 1988 Quantidades 34 36 36 38 41 42 43 44 46

Calcule: a) o coeficiente de correlação; Sugestão: para simplificar os cálculos, substitua os anos pela variável auxiliar, por exemplo: x’i = xi – 1984 ou ainda x’i = xi – 1980. b) a reta ajustada; c) a produção estimada para 1989; d) o coeficiente de determinação e uma interpretação. 6) A variação do valor da UPC, relativamente a alguns meses de 1995, deu origem à tabela:

Meses mai. jun. jul. ago. set. out. nov. Valores (R$) 10,32 10,32 11,34 11,34 11,34 12,22 12,22

a) Calcule o grau de correlação. b) Estabeleça a equação de regressão de Y em função de X. c) Estime o valor da UPC para o mês de dezembro. Dica: Substitua os meses, respectivamente, por 1, 2, ...., 7.

Page 24: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

24242424

7) Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela:

Preço (R$) 38 42 50 56 59 63 70 80 95 110 Demanda 350 325 297 270 256 246 238 223 215 208

a) Determine o coeficiente de correlação. b) Estabeleça a equação da reta ajustada. c) Estime o valor da demanda para um preço de R$ 60 e R$ 120. d) Determine o coeficiente de determinação e interprete. 8) Pretendendo-se estudar a relação entre as variáveis “consumo de energia elétrica” (xi) e “volume de produção nas empresas industriais” (yi), fez-se uma amostragem que inclui vinte empresas, computando-se os seguintes valores:

34,11x i =∑ , 72,20y i =∑ , 13,22y.x ii =∑ , 16,12x2i =∑ e 96,84y2

i =∑ .

Determine: a) o cálculo do coeficiente de correlação. b) a equação de regressão de Y em função de X. c) a equação de regressão de X em função de Y. 9) Um gerente de marketing conduziu um estudo para determinar se há uma relação entre o dinheiro gasto com a propaganda e as vendas da empresa (ambos em milhares de dólares). Os dados são mostrados na tabela a seguir:

Gastos com a propaganda 2,4 1,6 2,0 2,6 1,4 1,6 2,0 2,2 Vendas da empresa 225 184 220 240 180 184 186 215

a) qual é a variável dependente e independente? b) calcule o coeficiente de correlação e interprete. c) ajuste um modelo de regressão linear para os dados. d) estime as vendas para um gasto de $ 1800. e) estime as vendas para um gasto de $ 2500. f) construa um diagrama de dispersão e trace a reja ajustada sobre ele. Dados: ∑x = 15,8 ; ∑y = 1634 ; ∑xy = 3289,8 ; ∑x2 = 32,44 ; ∑y2 = 337558

Page 25: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

25252525

RespostasRespostasRespostasRespostas 1) r = 0,98 2) r = 0,89. Correlação linear positiva e forte. 3) a)

b) 0,427 c) Correlação linear positiva fraca. 4) a)

b) -0,030 c) Não há correlação linear.

5) a) r = 0,9891 b) y = 1,5x + 40 c) 47,5 d) r2 = 0,98. O modelo explica 98% da variabilidade da quantidade em função dos anos.

6) a) r = 0,94 b) y = 0,34x + 9,94 c) 12,66

7) a) r = -0,90 b) y = 1,87x + 386,78

c) Para x = 60, y = 275. Para x = 120, y = 162. d) r2 = 0,81. O modelo explica 81% da variabilidade do preço apenas em função da demanda.

8) a) r = 0,5443 b) y = 1,81x + 0,0097 c) x = 0,16y + 0,40 9) a) a variável independente (x) corresponde aos gastos com propaganda; a variável dependente ou variável resposta (y) corresponde às vendas da empresa. b) r=0,913; correlação linear positiva forte.

Page 26: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

26262626

c) �� = 50,729x + 104,061 d) 195,373 mil dólares em vendas. e) 230,884 mil dólares em vendas. f)

Page 27: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

27272727

4. Teste t para o coeficiente de correlação4. Teste t para o coeficiente de correlação4. Teste t para o coeficiente de correlação4. Teste t para o coeficiente de correlação

1. Introdução Uma vez calculado o coeficiente de correlação da amostra r, precisamos determinar se há evidência suficiente para decidir se o coeficiente de correlação populacional ρ (lê-se: “rô”) é significante. Em outras palavras, baseado em alguns poucos pares de dados, podemos fazer uma inferência sobre uma população de todos pares de dados? Lembre-se: estamos usando dados amostrais para tomar uma decisão sobre dados de uma população, então é sempre possível que a inferência esteja errada. Nos estudos de correlação, uma pequena porcentagem de vezes nas quais decidimos que a correlação é significativa, quando ela na verdade não é, é chamada de nível de significância, e geralmente vale α = 0,01 ou 0,05. Assim, quando α = 0,05, podemos dizer que o coeficiente de correlação da população é significante quando realmente não é em 5% das vezes (é claro, em 95% das vezes iremos determinar corretamente que o coeficiente de correlação é significativo). Quando α = 0,01, cometemos esse tipo de erro somente 1% das vezes. Para determinarmos se um coeficiente de correlação é significante, vamos utilizar um teste de hipóteses, conforme estudaremos a seguir.

2. Teste de hipótese para a correlação populacional Para aplicar o teste de hipótese para a existência de correlação linear, é necessário que as variáveis populacionais X e Y tenham distribuição normal bivariada. Quando as amostras forem superiores a 30, a hipótese de normalidade das duas variáveis é razoavelmente atendida. 2.1. As hipóteses do teste As hipóteses nula e alternativa para este tipo de teste são:

�H0:ρ=0Ha: ρ≠0

Se o teste indicar a rejeição da hipótese nula (H 0), então podemos concluir que existe correlação significativa entre as variáveis ao nível de significância α. Porém, se aceitarmos H 0, isso indica que não há correlação significativa entre X e Y. Logo, não faz sentido realizarmos o ajuste de uma reta de regressão para o conjunto de dados.

Page 28: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

28282828

2.2. Graus de liberdade Para este teste, trabalharemos com n–2 graus de liberdade:

g.l. = n – 2 . 2.3. A estatística do teste O valor observado deve ser calculado com a seguinte fórmula:

tobs=r.√n–2√1–r2

2.4. Conclusão do teste – se tobs ∈ região crítica então rejeitamos H0, ou seja, existe correlação significativa; – se tobs ∉ região crítica então aceitamos H0, ou seja, existe não há correlação significativa e, por isso, não devemos realizar o ajuste de reta.

3. Exemplo Uma amostra revelou que o coeficiente de correlação entre o salário e o número de anos de escolaridade para um grupo de 20 pessoas é de 0,78. Teste a hipótese de existência de correlação entre essas variáveis ao nível de 5%. Nossas hipóteses são:

�H0:ρ=0Ha: ρ≠0

A partir da tabela t–Student, considerando os graus de liberdade g.l=n–2=20–2= 18, temos que o valor crítico para o teste é igual a tc = ± 2,101. Calculando o valor observado através da fórmula vista anteriormente, temos: tobs=

r.√n–2√1–r2 =

0,78.√20–2�1–0,782

=5,288

Colocando os valores na curva t–Student, temos:

Page 29: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

29292929

Como tobs ∈ RC, então rejeitamos H0, ou seja, existe uma correlação entre as variáveis salário e número de anos, ao nível de 5% de significância.

4.Correlação e casualidade O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. Se houver correlação significante entre duas variáveis, o pesquisador deve considerar as possibilidades a seguir. 1) Há uma relação direta de causa e efeito entre as va riáveis? Ou seja, X causa y? Por exemplo, considere a relação entre os gastos com pro-paganda e as vendas da empresa, discutida durante essa seção. É razoável concluir que gastar mais com propaganda irá resultar em mais vendas. 2) Há uma relação de causa e efeito reversa entre as v ariáveis? Ou seja, y causa X? Por exemplo, uma pesquisa mostrou que conforme aumenta a duração das erupções de gêisers, maior é o intervalo de tempo até que uma nova erupção ocorra. Essas variáveis têm uma correlação linear positiva e é possível concluir que a duração de uma erupção afeta o tempo antes da próxima erupção. Entretanto, também é possível que o tempo entre as erupções afete a duração da próxima erupção. 3) É possível que a relação entre as variáveis possa s er causada por uma tercei-ra variável ou talvez pela combinação de diversas o utras variáveis? Por exemplo, considere os orçamentos e os ganhos brutos dos 25 filmes mais caros já produzidos pela Century Fox. Embora essas variáveis tenham uma correlação

RC RC

2,101 –2,101

0,025 0,025

tobs = 5,288

Page 30: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

30303030

linear positiva, podemos duvidar de que só porque os orçamentos decrescem, os ganhos mundiais também vão decrescer. A relação é provavelmente por causa de diversas outras variáveis, tais como propaganda, o ator ou atriz no filme e outros filmes que estavam nos cinemas na mesma época. 4) É possível que a relação entre duas variáveis seja uma coincidência? Por exemplo, embora seja possível encontrar uma correlação significante entre o número de espécies de animais que vivem em certas regiões e o número de pessoas que tem mais de dois carros nas mesmas regiões, é muito improvável que as variáveis sejam diretamente relacionadas. A relação ocorre provavelmente por causa da coincidência. Determinar quais dos casos acima é válido para o conjunto de dados pode ser difícil. Por exemplo, considere o seguinte: suponha que uma pessoa tenha erupções cutâneas cada vez que come camarão em certo restaurante. A conclusão natural é que a pessoa é alérgica a camarão. Entretanto, depois de um estudo mais completo de um alergista, descobre-se que essa pessoa não é alérgica a camarão, mas ao tipo de tempero usado pelo chef no camarão. (Texto adaptado de Farber e Larson, Estatística Aplicada, 4ªed. São Paulo: Pearson, 2010, p. 405).

5. Exercícios 1) Sessenta e quatro estudantes foram submetidos a dois testes: Raciocínio Lógico e Conhecimentos Gerais. Dos escores obtidos, foram calculadas as somas: ∑x = 169 ; ∑y = 327 ; ∑x2 = 1450 ; ∑y2 = 2304 ; ∑xy = 837. Teste, ao nível de 4% a existência de correlação. 2) Os pesos (em libras) de oito veículos e suas distâncias de frenagem (em pés), quando param em uma superfície seca, são apresentados na tabela a seguir. Para α = 5%, podemos concluir que há correlação linear significante entre o peso do veículo e a variabilidade da distância de frenagem em superfície seca? Use: α=0,01.

Peso 5940 5340 6500 5100 5850 4800 5600 5890 Distância 1,78 1,93 1,91 1,59 1,66 1,50 1,61 1,70

3) O número de horas que 13 alunos passam estudando para um teste e suas notas são apresentadas na tabela a seguir. Há evidência suficiente para concluir que há uma correlação linear significativa entre os dados? Use: α=0,01.

Horas gastas estudando 0 1 2 4 4 5 5 5 6 6 7 7 8 Nota no teste 40 41 51 48 64 69 73 75 68 93 84 90 95

Page 31: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

31313131

RespostasRespostasRespostasRespostas 1) r = 0,033; rejeito H0, ou seja, existe correlação. 2) Ao nível de 1%, não há evidências de que haja correlação significativa entre o peso do veículo e a variabilidade na distância de frenagem. 3) Ao nível de 1%, há evidências de que a correlação linear seja significante entre o número de horas estudados para um teste e a nota no teste.

Page 32: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

32323232

Tabela tTabela tTabela tTabela t

Page 33: apostila - regressão linear - maio-2012.pdf

R e g r e s s ã o L i n e a r S i m p l e s

33333333

FormulárioFormulárioFormulárioFormulário

Coeficiente de correlação de Pearson: ( )( )

( )[ ] ( )[ ]2

i2i

2

i2i

iiii

yynxxn

yxyxnr

∑∑∑∑

∑∑ ∑

−−

−=

Regressão linear:

y� i = a.x + b ( )∑ ∑

∑ ∑ ∑−

−=

2

i2i

iiii

xxn

yxyxna x.ayb −= n

xx i∑=

n

yy i∑=

Teste para a existência de correlação: tobs=r.�n–2

�1–r2 com g.l. = n–2