Tópicos Extras 2ª partemarcelo.menezes.reis/Aula12CPGCC2019.pdf · 2019. 3. 8. · Tópicos...

Post on 22-Aug-2020

3 views 0 download

Transcript of Tópicos Extras 2ª partemarcelo.menezes.reis/Aula12CPGCC2019.pdf · 2019. 3. 8. · Tópicos...

1

Tópicos Extras 2ª parte

Análise de Correlação e Regressão

2

Definições básicas

ANÁLISE DE CORRELAÇÃO

Mensurar a “força” da associação entre as variáveis (geralmente através do cálculo de algum coeficiente).

ANÁLISE DE REGRESSÃO

Modelo matemático (modelo de regressão): uma equação que mostre o relacionamento entre as variáveis.

Previsões.

3

Pressupostos básicos

Observações emparelhadas.

Há apenas UMA variável dependente (de resposta).

Y (Quantitativa) = f(X1, X2, ..., Xp) quantitativas/

qualitativas (dummies)

Amostra aleatória.

Quantidade suficiente de dados.

4

Classificação dos modelos

Análise de

Correlação

Análise de

Regressão

Regressão Linear

Simples

Regressão Linear

Múltipla

Regressão Não

Linear

Exponencial Logística

5

Diagrama de Dispersão

Apenas DUAS variáveis.

Diagrama cartesiano de pares (X-Y) de valores.

Identificar padrões:

Há evidência de correlação entre as variáveis?

Qual é a sua força e direção?

Possível ajustar um modelo de regressão?

6

Diagrama de Dispersão

Correlação Linear

Positiva

Correlação

Linear Negativa SEM correlação

7

Diagrama de Dispersão

0.000

20.000

40.000

60.000

80.000

100.000

120.000

140.000

0 500 1000 1500 2000 2500 3000

Peso (kg)

Te

mp

o d

e e

ntr

eg

a (

h)

Correlação NÃO LINEAR

8

Análise de Correlação

Apenas duas variáveis: correlação simples.

Coeficiente de correlação linear de Pearson: r

Mais de duas variáveis: correlação múltipla.

Análise da matriz de correlação entre as

variáveis.

Coeficiente de correlação múltipla: r múltiplo

9

Correlação linear simples

Diagrama de dispersão: correlação linear.

Coeficiente de correlação linear de Pearson (, r): medir a força e a direção do relacionamento LINEAR entre as duas variáveis:

𝑟 =𝐶𝑜𝑣(𝑋, 𝑌)

𝑠𝑋 × 𝑠𝑌=

𝑥𝑖 − 𝑥 × 𝑦𝑖 − 𝑦 𝑛𝑖=1

𝑛 − 1𝑠𝑋 × 𝑠𝑌

𝑟𝑖𝑗 =𝑠𝑖𝑗

𝑠𝑖𝑖 × 𝑠𝑗𝑗

10

Coeficiente de Correlação Linear de Pearson

r

-1 0 +1

Correlação

Linear

Negativa

Perfeita

Sem

Correlação

Linear

Correlação

Linear

Positiva

Perfeita

forte entoRelacionam 7,0r

11

Correlação linear simples

12

Teste de hipóteses sobre

Hipótese nula: = 0

Hipótese alternativa: > 0, < 0, 0

Estatística de teste:

22nr1

2nrt

Modelo de regressão

Y = β0 + β1 × X1 + β2 × X2 + ... + βp × Xp + ε

13

Pressupostos do modelo de regressão

14

Pressupostos Violações

1 Y é função linear de X1, ..., Xp e do erro Regressores inadequados, não linearidade

2 E(ε) = 0 Estimadores viesados

3 Erro tem distribuição normal, sem autocorrelação e sem correlação com X1, ..., Xp

Heterocedasticidade, autocorrelação dos resíduos

4 Observações das variáveis X1, ..., Xp

supostas sem erro. Erros de levantamento ou medida das variáveis

5 Variáveis X1, ..., Xp não têm relação linear entre si, n > p

Multicolinearidade

Etapas da Análise de Regressão

15

Identificar variáveis

independentes e a

dependente

Definir a forma da

linha de regressão

Encontrar

parâmetros da linha

de regressão com

base nos dados

Testes estatísticos:

há regressão? Quais

variáveis

independentes?

Análise de resíduos

do modelo Resíduos

OK?

SIM Previsões

NÃO

Revisar modelo Transformações

16

Regressão Linear Simples

Há apenas uma variável independente X.

Linear não significa apenas que a equação de regressão seja uma reta:

As variáveis podem sofrer transformação (logaritmos, inversão), de maneira a possibilitar um melhor ajuste ou satisfazer os pressupostos.

Transformação apenas de X, apenas de Y, ou de ambas.

O modelo é linear nos PARÂMETROS, que não podem sofrer transformação alguma.

17

Forma da linha de regressão

preta

y = b1x +b0

vermelha

y = b1Ln(x) +b0

azul

y = b2x2 + b1x + b0

verde

y = b1xb2

laranja

y = b1eb2x

-400.000

-200.000

0.000

200.000

400.000

600.000

800.000

1000.000

1200.000

1400.000

0 500 1000 1500 2000

Peso

Te

mp

o

Estimação dos coeficientes da reta

Método dos mínimos quadrados:

18

n

i

ii YY que tal bb1

2

01ˆmin,

2

11

2

1111

n

i

i

n

i

i

n

i

i

n

i

i

n

i

ii

XXn

YXYXn

bn

XbY

b

n

i

i

n

i

i

110

19

Erro padrão da estimativa

Erro padrão da estimativa: “desvio padrão da linha de regressão”.

2n

YY

s

n

1i

2

ii

YX

20

Soma dos quadrados

Necessário avaliar se o modelo é adequado:

n

i

YYSQT1

2)( Variabilidade total em torno da média de Y

n

i

REG YYSQ1

2)ˆ( Parcela da variabilidade em torno da média

de Y “explicada” pela regressão.

n

i

YYSQR1

2)ˆ( Parcela da variabilidade em torno da média de Y

“não explicada” pela regressão:variação residual.

n

1i

2n

1i

2n

1i

2 )YY()YY()YY(

21

Soma dos quadrados

22

Coeficiente de determinação (r2)

n

i

i

n

i

i

REG

YY

YY

SQT

SQr

1

2

1

2

2

)(

ˆ

r2descreve a proporção da variabilidade em torno da média de Y que é explicada pela variação de X através do modelo de regressão.

0 r2 1

)2n(

)1n(r11r 2

ajustado2

23

Tendência e r2 no Excel y = 0.4077x - 191.15

R2 = 0.63

y = 276.45Ln(x) - 1692.6

R2 = 0.4746

y = 0.0006x2 - 0.6035x + 225.25

R2 = 0.7791

y = 0.0002x1.9746

R2 = 0.415

y = 11.582e0.0027x

R2 = 0.4631

-600.000

-400.000

-200.000

0.000

200.000

400.000

600.000

800.000

1000.000

1200.000

1400.000

0 500 1000 1500 2000

Peso

Te

mp

o

Análise dos resíduos

24

iii YYResíduo ˆ

Padronização:

𝑅𝑒𝑠í𝑑𝑢𝑜 𝑃𝑎𝑑𝑟𝑜𝑛𝑖𝑧𝑎𝑑𝑜 = 𝑌𝑖 − 𝑌 𝑖

𝑠𝑅

Diagrama de Dispersão dos Resíduos

Sem padrão, variância constante, distribuição normal.

25

26

Análise dos Resíduos - Independência e Homocedasticidade

-12

-11

-10

-9

-8

-7

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

6

7

8

9

10

11

12

0 200 400 600 800 1000 1200 1400 1600 1800 2000

Re

síd

uo

s p

ad

ron

iza

do

s

Peso (kg)

Resíduos padronizados: reta

-4

-3

-2

-1

0

1

2

3

4

0 200 400 600 800 1000 1200 1400 1600 1800 2000R

esí

du

os

pa

dro

niz

ad

os

Peso (kg)

Resíduos padronizados: exponencial

27

Análise de Resíduos - Normalidade

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Pro

ba

bil

ida

de

ob

serv

ad

a

Probabilidade observada

Gráfico de probabilidade normal:resíduos padronizados reta

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Pro

ba

bil

ida

de

esp

era

da

Probabilidade observada

Gráfico de probabilidade normal: resíduos padronizados exponencial

28

ANOVA para regressão

Fonte gl Soma quadrados Quadradomédio

F

Regressão P

n

1i

2

i YYgReSQQMReg =SQReg/P QMR

gReQMF

Resíduo n-P-1

n

1i

2

ii YYSQRQMR =

SQR/(n-P-1)

Total n-1

n

1i

2

i YYSQT

29

Inferências sobre 1

Teste de hipóteses:

H0: 1 = 0 H1: 1 0

1b

12n

s

bt 2

n

1i

2

i

YXb

xnx

ss

1

Intervalo de confiança:

1b2n1 stb

30

Regressão Linear Múltipla

Método dos mínimos quadrados para encontrar os coeficientes da equação.

Utilização de programas computacionais.

PP3322110 Xb...XbXbXbbY

2n

YY

s

n

1i

2

ii

YX

31

Coeficiente de determinação múltiplo

Coeficiente de determinação múltiplo, r2Y.12P, é uma das

formas de avaliar a adequação do modelo de regressão aos dados:

𝑟2𝑌.12...𝑃 =

𝑆𝑄 Re 𝑔

𝑆𝑄𝑇=

𝑌 𝑖 − 𝑌 2𝑛

𝑖=1

(𝑌𝑖 − 𝑌 )2𝑛𝑖=1

r2Y.12...P

descreve a proporção da variabilidade média de Y que é explicada pela variação média das variáveis explicativas (1 a P) através do modelo de regressão (QUALQUER modelo).

0 r2Y.12...P 1

32

Coeficiente de determinação múltiplo

É preciso ajustar o coeficiente de determinação múltiplo, para refletir o tamanho da amostra e o número de variáveis explicativas:

)1Pn(

)1n(r11r P...12.Y

2ajustado

2

Planilhas eletrônicas e pacotes estatísticos calculam o coeficiente de determinação múltiplo e o ajustado.

33

Análise de Resíduos na Regressão Múltipla

É ainda mais importante do que na regressão simples: pois muitas vezes não é possível representar graficamente o relacionamento entre as variáveis.

Mesmas definições da regressão simples: previsão dos valores de Y com base nos valores de X1, X2, ..., XP através do modelo de regressão.

Cálculo dos resíduos (diferença entre Y e Y predito), e obtenção dos resíduos padronizados.

Diagramas de dispersão: em relação à cada variável explicativa, em relação aos valores preditos.

Análise semelhante ao caso de regressão simples.

34

ANOVA para regressão múltipla

ANOVA: Análise de Variância.

Hipótese nula: não há regressão.

1 = 2 = 3 = ...= P = 0

Hipótese alternativa: há regressão.

Pelo menos um dos k 0

A variância total do modelo é decomposta em duas partes: uma devida à regressão (as P variáveis), e outra devida aos erros aleatórios (resíduos), e faz-se o quociente de ambas.

35

ANOVA para regressão múltipla

Fonte gl Soma quadrados Quadradomédio

F

Regressão P

n

1i

2

i YYgReSQQMReg =SQReg/P QMR

gReQMF

Resíduo n-P-1

n

1i

2

ii YYSQRQMR =

SQR/(n-P-1)

Total n-1

n

1i

2

i YYSQT

Testes e Intervalos de Confiança para os coeficientes na regressão múltipla

36

Testes de Hipóteses Intervalos de confiança

H0: k = 0 Xk sem efeito em Y H1: k 0 Xk com efeito em Y

Para o coeficiente k: se NÃO incluir zero, variável Xk contribui

para a regressão

𝑡𝑛−𝑃−1 =𝑏𝑘

𝑠𝑏𝑘

𝑏𝑘 ± 𝑡𝑛−𝑃−1 × 𝑠𝑏𝑘

37

Variáveis simbólicas (“dummy”)

QUALITATIVAS incorporadas ao modelo de regressão.

Usualmente podem assumir apenas 2 valores: sim e não, tem e não tem.

Tais valores são transformados em 1 e 0.

Se elas puderem assumir mais de 2 valores: devem ser criadas g-1 variáveis simbólicas (onde g é o número de valores que a variável qualitativa original pode assumir).

Consideradas exatamente iguais às outras variáveis independentes.

38

Exemplo 1

Estamos querendo avaliar o relacionamento entre o consumo mensal de óleo para calefação (em galões) em casas e três outras variáveis:

quantidade de isolamento térmico no sótão das casas (em polegadas);

temperatura atmosférica média diária (em graus Fahrenheit).

Estilo da casa (colonial ou não)

Obtenha o modelo de regressão linear múltipla.

Exemplo 2

Há interesse em prever os lucros de empresas em função das variáveis (dados de 1999):

Ativos (em US$ bilhões).

Vendas anuais (em US$ bilhões).

Lucros anuais (em US$ bilhões).

Obtenha o modelo de regressão linear múltipla.

39