Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida...

37
Regressão Linear

Transcript of Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida...

Page 1: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Regressão Linear

Page 2: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Introdução

A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão linear.

Objectivos da regressão linear:

• Mostrar de que forma as variáveis independentes explicam as variáveis dependentes.

• Fazer previsões sobre as variáveis dependentes a partir dos valores das independentes.

Page 3: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Procedimentos

Deve construir-se um quadro – diagrama de dispersão – a partir dos pares de valores (X,Y) de variáveis independente e dependente.

Funções do diagrama de dispersão:

• Ajudar a determinar se existe relação entre as variáveis.• Permitir identificar a equação matemática mais apropriada para

descrever essa relação (linear, exponencial, logarítmica, potência, etc.).

Page 4: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Relação linear

A relação linear entre duas variáveis pode ser descrita através da equação:

Em que:

Y = variável dependenteX = variável independente = variável residual (inclui factores exteriores ao modelo e erros de

medição)

= parâmetro ordenada na origem = parâmetro declive

XY .

Page 5: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Relação linear

Cada valor observado para a variável dependente pode ser decomposto numa soma de três factores:

= um valor constante.

X = o efeito da variável independente.

= o efeito de uma variável residual, que impede uma relação linear perfeita entre X e Y.

Page 6: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Recta de regressão

O método dos mínimos quadrados permite o ajustamento de uma linha recta aos dados observados, de modo a minimizar os efeitos da variável residual.

A recta ajustada a um conjunto de valores amostrais terá a forma:

XY .ˆˆˆ

Onde os efeitos da variável residual foram anulados.

Page 7: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Parâmetros

são os estimadores dos parâmetros e .

Calculam-se do seguinte modo:

XY .ˆˆ

ˆ e ˆ

22ˆ

ii

iiii

XXn

YXYXn

Y. e X de médios

valoresos são e YX

Page 8: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Parâmetros

pode também calcular-se como:

Onde:

i

ii

x

yx

XXx ii YYy ii

Page 9: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Exemplo

Pretende ajustar-se um modelo de regressão linear simples aos dados observados para 10 consumidores do sexo masculino da cidade de Lisboa, referentes aos seus rendimentos médios mensais (variável independente) e às despesas mensais em bebidas alcoólicas (variável dependente).

ConsumidorRendimento mensal (X)

Despesas mensais em bebidas alcoólicas (Y) X.Y X2

1 750 85 63750 5625002 800 85 68000 6400003 600 65 39000 3600004 550 60 33000 3025005 850 80 68000 7225006 950 95 90250 9025007 700 60 42000 4900008 750 80 60000 5625009 800 80 64000 640000

10 650 60 39000 422500Total ( ) 7400 750 567000 5605000Média 740 75

Consulte esta tabela

Page 10: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Exemplo

Efectua-se o cálculo dos parâmetros:

222 7400560500010

750740056700010ˆ

ii

iiii

XXn

YXYXn

093,0ˆ

163,6740093,075.ˆˆ XY

Page 11: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Interpretação dos resultados

A estimativa encontrada para o parâmetro significa que, independentemente do rendimento mensal auferido, os consumidores masculinos da cidade de Lisboa gastam 6,16 € em bebidas alcoólicas mensalmente.

A estimativa de 0,093 para o parâmetro indica que, por cada 100€ de variação no rendimento dos consumidores, as despesas em bebidas alcoólicas variam 9,3€, estando as duas variáveis associadas positivamente, ou seja, um aumento no rendimento implica um aumento no consumo de bebidas alcoólicas.

Page 12: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Coeficiente de correlação

O coeficiente de correlação é uma medida do grau de associação linear entre as duas variáveis (dependente e independente). É obtido a partir da relação entre o desvio explicado e o desvio total.

Page 13: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Coeficiente de determinação

A relação directa entre o desvio explicado e o desvio total é o coeficiente de determinação, que indica o grau de aderência do ajustamento feito através do método de mínimos quadrados. Varia entre 0% (mínimo) e 100% (máximo).

2

2

Y de totalVariação

Y de explicada Variação

YY

YYR

i

i

Page 14: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Coeficiente de correlação de Pearson

O coeficiente de correlação linear r (raiz quadrada positiva do coeficiente de determinação) é uma medida do grau de associação linear entre variáveis. Toma valores entre –1 e +1.

2222 .

iiii

iiii

YYnXXn

YXYXnr

Page 15: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS

No SPSS, os dados deverão ser introduzidos da seguintes forma:

Depois, seleccionar nos menus:

Analyze Regression Linear

Consulte esta tabela

Page 16: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS

Seleccionar as variáveis dependente e independente:

Page 17: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS

Obtém-se o seguinte quadro de respostas:

Coefficientsa

6,163 13,463 ,458 ,659

,0930 ,018 ,877 5,173 ,001

(Constant)

Rendimento mensal

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: Despesas mensais em bebidas alcoólicasa.

De onde se extraem os valores de 6,163 e 0,093 para e , respectivamente.

Consulte esta tabela

Declive Ordenada na origem

Page 18: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS - Gráfico

       Na barra de menus escolher: 

Graphs Scatter…        Seleccionar Simple e premir Define.        Seleccionar a variável dependente para o eixo Y.        Seleccionar a variável independente para o eixo X.        Em Label Cases by colocar o nome da variável que vai

identificar os pontos nos gráficos.

Page 19: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS - Gráfico

A janela deverá ser preenchida da seguinte forma:

Page 20: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS - Gráfico

Para identificar os pontos, editar o gráfico e usar a opção Point ID.

O resultado é o seguinte:

Rendimento mensal

1000900800700600500

De

spe

sas

me

nsa

is e

m b

eb

ida

s a

lco

ólic

as

100

90

80

70

60

50

Rui

IvanSérgio

Gaspar

José

Pedro

João

Eusébio

ManuelAntónio

Page 21: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Regra de regressão

Para visualizar a recta de regressão, escolher na barra de menus: 

Chart Options… 

       Em Fit Line escolher Total. 

      Em Fit Options escolher Linear regression. Para visualizar o erro quadrático, escolher na barra de menus: 

Chart Options… 

       Em Fit Options escolher Display R-square in legend. 

Page 22: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Escala

Para alterar a gama de valores representados, escolher na barra de menus: 

Chart Axis…

• Para a gama do eixo X, escolher X scale. Modificar, então, os valores mínimo e máximo de Range.

• Para a gama do eixo Y, proceder do mesmo modo.

Page 23: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Gráfico

Rendimento mensal

10009008007006005004003002001000

De

spe

sas

me

nsa

is e

m b

eb

ida

s a

lco

ólic

as

100

90

80

70

60

50

40

30

20

10

0 Rsq = 0,7698

Rui

IvanSérgio

Gaspar

José

Pedro

JoãoEusébio

ManuelAntónio

Ordenada na origem

Page 24: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Os valores previstos pela recta são diferentes dos valores reais para cada caso. A diferença entre os dois constitui o valor residual. O SPSS calcula os valores previstos pelo modelo linear, assim como os valores residuais.

SPSS – Valores previstos e valores residuais

       Na caixa de diálogo Linear Regression escolher a opção Save.        Em Predicted Values e Residuals seleccionar as opções

Unstandardized.

Page 25: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Valores previstos e valores residuais

Premir, depois, o botão Continue.

Page 26: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Valores previstos e valores residuais

São geradas as variáveis pre_1 e res_1, respectivamente, com os valores previstos e residuais para cada caso. É possível visualizar os valores previstos junto dos valores reais.

       Na barra de menus escolher: 

Analyze Reports Case Summaries…        Seleccionar as variáveis a analisar e movê-las para a lista de

variáveis.

Page 27: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Case Summariesa

85 75,93023 9,06977

85 80,58140 4,41860

65 61,97674 3,02326

60 57,32558 2,67442

80 85,23256 -5,23256

95 94,53488 ,46512

60 71,27907 -11,27907

80 75,93023 4,06977

80 80,58140 -,58140

60 66,62791 -6,62791

10 10 10

1

2

3

4

5

6

7

8

9

10

NTotal

Despesas mensais embebidas alcoólicas

UnstandardizedPredicted Value

UnstandardizedResidual

Limited to first 100 cases.a.

SPSS – Valores previstos e valores residuais

Valores previstos pelo modelo

Valores residuais

Page 28: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Valores previstos e valores residuais

Neste caso, o modelo afirma que: 

alcool = 0,0930 rendim + 6,163 expressão a partir da qual se podem calcular os valores previstos pelo modelo e respectivos valores residuais.

Page 29: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

SPSS – Coeficiente de correlação

A tabela seguinte, apresentada como um dos resultados do cálculo de regressão linear, dá-nos o valor do coeficiente de correlação (R), assim como o seu quadrado (R Square).

Model Summary

,877a ,770 ,741 6,46Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Rendimento mensala.

Coeficiente de correlação

Proporção de variação explicada pelo modelo

Dois gráficos, para duas situações distintas, podem ter os mesmos valores de declive e ordenada na origem. No entanto, aquele que apresentar o maior coeficiente de correlação é o que melhor se adapta à realidade modelada.

Page 30: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Regressão linear múltipla

Tem como objectivo desenvolver um modelo de relações entre uma variável dependente e um conjunto de variáveis independentes, de tal modo que os valores da primeira possam ser explicados – e que previsões possam ser feitas – com base nos valores do segundo conjunto de variáveis.

...... 3322110 XXXY

Page 31: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Cálculo dos coeficientes de regressão

Para simplicidade de exposição, considere-se que Y depende apenas dos valores assumidos por duas variáveis X1 e X2.

2211 .. XXY

2211 .ˆ.ˆˆˆ XXY

Que dá origem a:

Page 32: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Método dos mínimos quadrados

O método dos mínimos quadrados permite-nos encontrar os estimadores pretendidos. A aplicação deste método fornece-nos três equações para a determinação de

2211 .ˆ.ˆˆ XXY

21ˆ e ˆ ,ˆ

2122

1111 .ˆ.ˆ.ˆ XXXXYX

22221122 .ˆ.ˆ.ˆ XXXXYX

(1)

(2)

(3)

Page 33: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Resolução

A primeira destas equações pode ser escrita como:

2211 .ˆ.ˆˆ XXY (4)

(5)2211 .ˆ.ˆˆ XXY

ou

Page 34: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Resolução

Substituindo (5) em (2), obtém-se:

(6)

2122

11221111 .ˆ.ˆ.ˆ.ˆ.. XXXXXYXnYX

Page 35: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Resolução

Torna-se necessário definir seis somas de quadrados (SS): 2

2222 .XnXSSX

21

211 .XnXSSX

212121 . XXnXXXSSX YXnYXYSSX 111 .YXnYXYSSX 222 .

22 .YnYSSY

Page 36: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Resolução

Usando a notação de soma de quadrados é possível rescrever as equações (6) e (3):

212111 .ˆ.ˆ XSSXSSXYSSX (7)

(8)222112 .ˆ.ˆ SSXXSSXYSSX

A resolução deste sistema de equações permite obter Depois, estima-se o valor de a partir da equação (5).

21ˆ e ˆ

Page 37: Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.

Resumo da resolução

Os passos necessários para encontrar os estimadores de mínimos quadrados, num modelo de regressão linear com duas variáveis independentes, podem ser resumidos do seguinte modo: