Modelos de Regressão E Séries Temporais. Obter um modelo que explique o comportamento dos exemplos...

Post on 22-Apr-2015

105 views 0 download

Transcript of Modelos de Regressão E Séries Temporais. Obter um modelo que explique o comportamento dos exemplos...

Modelos de RegressãoModelos de Regressão

EE

Séries TemporaisSéries Temporais

Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições

Objetivos

Planejamento

A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções

Amostra

Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados

Parte IParte I

Modelos de RegressãoModelos de Regressão

PrevisãoPrevisãoPrevisão é similar à Classificação

Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido

O método mais importante de previsão é a regressão

Regressão linear e múltipla Regressão não linear

Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categorica Na previsão, a variável a “explicar” é contínua

Sejam os valores de uma variável dependente (resposta) Yrelacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico

Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n

k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y

Regressão Linear Múltipla

Suposições para a análise do modelo de Regressão Linear

Resíduos homocedásticos, isto é, com variância constante, não correlacionados e média zero

Normalidade nos resíduos (não necessariamente)

Número de parâmetros menor que o número deobservações (problema de overfitting)

Métodos de Estimação dos Parâmetros

Mínimos Quadrados

Máxima Verossimilhança (suposição de Normalidade para os resíduos)

Y = X +

Y – vetor de respostas (n 1)X - matriz de observações independentes (n p) - vetor de parâmetros - vetor de erros (n 1)

Modelo

Métodos de Mínimos Quadrados com suposição de normalidade

A idéia é obter uma estimativa b para o vetor de parâmetros que minimize a soma de quadrados dos erros ’

Como E()=0 então o modelo é expresso por E(Y) = X

’ = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X

A soma de quadrados de resíduos

A solução do sistema é

Vetor de valores ajustados

XbY ˆ

0

β

εε'

Obtendo

Y'Xβ)XX('

Y)(ˆb '1XXXβ'

25 pares de observações onde Y =quantidade de vapor usado por mêse X = temperatura em graus Farenheit

Experimento 1

1 10.98 35.3 13 11.88 28.12 11.13 29.7 14 9.57 39.13 12.51 30.8 15 10.94 46.84 8.40 58.8 16 9.58 48.55 9.27 61.4 17 10.09 59.36 8.73 71.3 18 8.11 70.07 6.36 74.4 19 6.83 70.08 8.50 76.7 20 8.88 74.59 7.82 70.7 21 7.68 72.110 9.14 57.5 22 8.47 58.111 8.24 46.4 23 8.86 44.612 12.19 28.9

No obs. Y YNo obs.X X

24 10.36 33.425 11.08 28.6

Modelo: Yt = 0+ 1X1+ t t = 1,...,25

2i10

n

1ii

' )XY(S

0)XY(2S n

1ii10i

0

0)XY(X2S n

1ii10ii

1

n

ii10i 0)XbbY(

n

ii10ii 0)XbbY(X

As estimativas b0 e b1 são obtidas por

Então

XbYb 10

n

1i

22i

n

1i

22i

1

XnX

YnYb

)XX(bYY 1 Equação da regressão estimada:

432.11821YX 1315X 60.235Y iiii

Para n = 25 e

424.9Y60.52X42.76323 X 2i

079829.042.7154

128.571 b1

tt1t X080.0623.13)XX(bYY

Portanto e

30 40 50 60 70 80

6

7

8

9

10

11

12

13

X

Y

807060504030

11,5

10,5

9,5

8,5

7,5

ajustadosValores

X

Gráfico 2: Temperaturaversus valores ajustados

Gráfico 1: Temperatura versus Qtd de vapor

O gráfico 1 mostra que existe uma relação linear entre a qtdde vapor e a temperatura. O gráfico 2 ilustra a regressão linear.

Avaliação de desempenho do modelo de Regressão

R2 – mede a variabilidade de explicada pelo modelo de regressão

2

ti

t

2t

2

)YY(

)YY(R

Y

Exemplo: Para os dados do experimento 1

71.081.63

5924.45R 2

Estatística

Teste de aceitação do modelo

H0: = 0H1: 0

Tabela 1 : Análise de Variância

Regressão

Resíduo

VariaçãoGraus de Liberdade

p-1

n-p

n-1Total corretopor Y

Soma de Quadrados ( SS)

Soma de Quadrados média (MS)

2n

1ti )YY(

2i

n

1ti )YY(

2n

1ti YY )(

SSReg/(p-1)

s2 = SSRes/(n-p)

Estatística do teste (F)

)pn/(SS

)1p/(SS

sRe

gRe

F tem distribuição F-snedcor com p-1,n-p graus de liberdadee nível de significância

Teste de aceitação do modelo

Região de aceitação da hipótese H0

)(F)1pn/(SS

)1p/(SSF 1pn,1p

sRe

gRe

H0: Rejeita-se o modeloH1: Aceita-se o modelo

Regressão

Resíduo

VariaçãoGraus de Liberdade

1

23

24Total corretopor Y

Soma de Quadrados ( SS)

Soma de Quadrados média MS

45.59

0.79

Valor daEstatística do teste (F)

Tabela 1 : Análise de Variância

Exemplo: Considere o modelo do exemplo anterior

45.59

18.2257.54

63.81

Valor de F1,23(5%) = 4.28

Como a estatística F=57.54 > 4.28 rejeitamos H0

Teste de significância do vetor de parâmetros ()

Estatística do teste )b(Var

b

s)(diag

bT

i

i21

ésimoi

i XX'

H0: i = 0 (i = 1,...,p)

H1: i 0

Região de aceitação da hipótese H0

)2/(tT pn

T tem distribuição t-student com n-p graus de liberdade

Intervalo de confiança para o vetor b

)b(Var)2/(tb ipni

b tem distribuição t-student(n-p)

i = 1,...p

Exemplo: Continuando com o exemplo anterior

H0: 1 = 0 (i = 1,...,p)H1: 1 0

|T| =| -0.0798/0.0105| = 7.6 > t23(0.975)=2.069

Rejeita H0

Intervalo de confiança : -0.105 < 1< -0.0581

Regression Analysis: C1 versus C2

The regression equation is

C1 = 13,6 - 0,0798 C2

Predictor Coef SE Coef T P

Constant 13,6230 0,5815 23,43 0,000

C2 -0,07983 0,01052 -7,59 0,000

S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2%

Analysis of Variance

Source DF SS MS F P

Regression 1 45,592 45,592 57,54 0,000

Residual Error 23 18,223 0,792

Total 24 63,816

Outliers

São observações atípicas que podem ser relevantespara a construção do modelo

Considere uma matriz H=(hij)nn = X(XTX)-1XT

Um procedimento paramétrico: Teste de Cook

Propriedades

a) 1hn

1ii

b) 1h ii

Outliers

Medida de influência

p)h1(

htD

ii

ii2ii

iiY

iii

h1ˆ

ˆYt

Um ponto i é aberrante se |Di| > F(p,n-p)()

onde

D tem distribuição F(p,n-p)()

COOK

0,001875

0,001355

0,152326

0,008794

0,010710

0,043110

0,147386

0,098991

0,001640

0,000343

0,088566

0,073531

COOK

0,025487

0,041067

0,034274

0,000855

0,046296

0,000347

0,089565

0,122848

0,002509

0,008102

0,049389

0,024918

0,006641

Obs.

1

2

3

4

5

6

7

8

9

10

11

12

Obs.

13

14

15

16

17

18

19

20

21

22

23

24

25

Cook’s Distance

Diagnóstico da Regressão

Análise do modelo Exemplo 1

Os resultados do ajustamento revelam que :

a variável temperatura é significativa no modelo (|t|=2.069 > 2)

a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71)

o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%

o modelo proposto não apresenta outilier (Di > F2,23(5%) = 3.42, i = 1,...,23)

Diagnóstico da Regressão

Análise gráfica dos resíduos

1 – Normalidade da variável resposta

2 – Independência das observações

3 – Homocedasticidade

4 – Se uma variável explicativa não incluída no modelo é relevante

252015105

1

0

-1

-2

Observation Order

Re

sid

ual

Residuals Versus the Order of the Data(response is C1)

7,5 8,5 9,5 10,5 11,5

-2

-1

0

1

Fitted Value

Re

sid

ua

l

Residuals Versus the Fitted Values(response is C1)

Diagnóstico da Regressão

Os resíduos são aleatórios. Os valores ajustados não apresentam tendência

1,51,00,5-0,0-0,5-1,0-1,5

7

6

5

4

3

2

1

0

Residual

Fre

quen

cy

Histogram of the Residuals(response is C1)

-2 -1 0 1

-2

-1

0

1

2

No

rma

l Sco

re

Residual

Normal Probability Plot of the Residuals(response is C1)

Diagnóstico da Regressão

Os resíduos apresentam normalidade.

O modelo proposto se ajusta aos dados, pois as hipótesesbásicas da regressão clássica são satisfeitas.

Modelos de Regressão Não Linear

A não linearidade é dada pela função de regressão

Yt = 0+ 1X1+ X2 + t t = 1,...,n

Um método de estimação: Mínimos Quadrados não Lineares

Aplicável quando o valor da variável resposta é uma proporção

Modelo Logístico Linear

Suposição: A distribuição da variável dependente éuma Bernoulli (1,) onde é a proporção de sucesso

mm110 X...X1

log

onde = E(Y)

Método de estimação por Máxima Verossimilhança

Parte IIParte II

Mineração de Séries Mineração de Séries TemporaisTemporais

Mineração de Dados Mineração de Dados SeqüênciasSeqüências

Series temporaisSeries temporais• Consiste de sequencia de valores ou eventos Consiste de sequencia de valores ou eventos

que mudam com o tempoque mudam com o tempo

• Os dados são registrados em intervalos Os dados são registrados em intervalos regularesregulares

• Componetes característicos das séries Componetes característicos das séries temporaistemporais

– Tendencia, ciclo, sazonalidade, Tendencia, ciclo, sazonalidade, aleatóriedadealeatóriedade

AplicaçõesAplicações• Finanças: preço de ações, inflaçãoFinanças: preço de ações, inflação

• Biomedicina: presão sanguineaBiomedicina: presão sanguinea

• Metereologia: precipitaçãoMetereologia: precipitação

Uma série temporal pode ser ilustrada por um Uma série temporal pode ser ilustrada por um gráfico que descreve pontos que se movem ao gráfico que descreve pontos que se movem ao longo do tempolongo do tempo

Categorias de movimentos de séries Categorias de movimentos de séries temporaistemporais• Tendencia à longo termo (curva de tendencia)Tendencia à longo termo (curva de tendencia)

• Variações ciclicasVariações ciclicas

• Variações SazonaisVariações Sazonais

• Variações irregulares ou aleatóriasVariações irregulares ou aleatórias

Estimação da SérieEstimação da Série

Método manualMétodo manual• Ajustar a curva pela observação do gráficoAjustar a curva pela observação do gráfico• Impraticavel para a mineraçào em larga escalaImpraticavel para a mineraçào em larga escala

O método dos minimos quadradosO método dos minimos quadrados

Os métodos das médias móveisOs métodos das médias móveis• Eliminaçào de padrões ciclicos, sazonais e Eliminaçào de padrões ciclicos, sazonais e

irregularesirregulares• Sensivel a valores aberrrantesSensivel a valores aberrrantes

Descoberta de tendencias em series Descoberta de tendencias em series

temporaistemporais

Estimação de variações sazonaisEstimação de variações sazonais• Indice sazonalIndice sazonal

– Conjunto de valores que mostram os valores relativos Conjunto de valores que mostram os valores relativos de uma variável durante os meses do anode uma variável durante os meses do ano

– Ex, vendas em outubro, novembro e dezembro são Ex, vendas em outubro, novembro e dezembro são 80%, 120%, e 140% da média de vendas mensal do 80%, 120%, e 140% da média de vendas mensal do ano inteiro. Então 80, 120, e 140 são índices sazonais ano inteiro. Então 80, 120, e 140 são índices sazonais para esses mesespara esses meses

• Remoção da SazonalidadeRemoção da Sazonalidade– Dados ajustados com relação as variações sazonaisDados ajustados com relação as variações sazonais

– Ex., dividir os meses originais pelos indices sazonais Ex., dividir os meses originais pelos indices sazonais dos meses correspondentesdos meses correspondentes

Descoberta de tendencias em series Descoberta de tendencias em series temporaistemporais

Estimação das variações ciclicasEstimação das variações ciclicas• Se os ciclos ocorrem periodicamente Se os ciclos ocorrem periodicamente

(aproximadamente), pode ser introzido um (aproximadamente), pode ser introzido um índice de cilco como os indices sazonaisíndice de cilco como os indices sazonais

Estimação de variações irregularesEstimação de variações irregulares• Pelo ajustamento dos dados as variações de Pelo ajustamento dos dados as variações de

tendencia, ciclo e estaçãotendencia, ciclo e estação

Através da análise sistemática das Através da análise sistemática das tendencias, cilcos, estações e tendencias, cilcos, estações e componentes irregulares, é possivel componentes irregulares, é possivel realizar previzoões de curto e longo prazo realizar previzoões de curto e longo prazo de boa qualidadede boa qualidade

Busca por similaridade em series Busca por similaridade em series temporaistemporais

Busca por similaridade encontra sequencias Busca por similaridade encontra sequencias de dados que diferem apenas ligeiramente de dados que diferem apenas ligeiramente de uma dada sequenciade uma dada sequencia

Duas categorias de interrogações baseada Duas categorias de interrogações baseada em similaridadeem similaridade• Sequencia matching: encontrar uma sequencia Sequencia matching: encontrar uma sequencia

que é similar a sequencia de interrogaçãoque é similar a sequencia de interrogação• Subsequencia matchingSubsequencia matching: encontrar todos os : encontrar todos os

pares de sequencias similarespares de sequencias similares AplicaçõesAplicações

• Finanças Financial marketFinanças Financial market• Bases de dados cientificasBases de dados cientificas• Diagnostico médicoDiagnostico médico

Uma Série Temporal

Uma conjunto de observações ordenadas no tempo

Exemplos

Z(t1), Z(t2),...,Z(tn)

- os valores diários do preço das ações de uma empresa, na bolsa de valores (série econômica)

- os valores mensais de temperatura de uma cidade

- registro de eletrocardiograma de uma pessoa

Tratamento dos Dados

a) Estacionariedade: o desenvolvimento da série reflete alguma forma de equilíbrio estável

t

Zt

Série não estacionária

Tratamento dos Dados

b) Transformações

Diferenças sucessivas da série originalaté obter-se uma série estacionária

Zt=Zt – Zt-1

2 Zt= [ Zt]

Presença de não estacionariedade

Logarítmica

Estabilização da variância

logZt=logZt – logZt-1

A transformação logarítmica também remove a tendência.

Tratamento dos Dados

Componentes de uma Série Temporal

Zt = Tt + St + t t =1,...nModelo Clássico

Uma série Z1, Z2,...,Zn

Tt – tendência

t – erro aleatório

St – sazonalidade

1 - Têndencia

Aumento ou decremento gradual das observações

Componentes de uma Série Temporal

Componentes de uma Série Temporal

2 - Sazonalidade

Quando as observações são intra-anuais, isto é, registradas mensalmente, trimestralmente ou semanalmente

Exemplo de uma série com tendência e sazonalidade

Componentes de uma Série Temporal

Componentes de uma Série Temporal

Removendo as componentes Tt e St a série é explicadapor um componente aleatório, t. A suposição é que t

tem média zero e variância constante .

Se as amplitudes sazonais St variam com a tendência, então um modelo mais adequado é o multiplicativo

Zt = Tt St t t =1,...n

3 – Resíduo

Nota

Função Perda

Erro Quadrático Médio (EQM)

)h(Zt é a previsão de Z(t+h)

EQM 2t

2t )]h(e[E)]h(Z)ht(Z[E

Considere

Métodos de estimação da Tendência

Zt = Tt + t t =1,...n

Suponha que a componente sazonal St não está presente eque o modelo é aditivo

Existem vários métodos para estimar Tt

i) Ajustar os dados por uma função polinomial, uma exponencial ou outra função suave de t (Métodos paramétricos)

i) utilizar diferenças (Método não paramétrico)

Métodos de estimação da Tendência

i) suavizar ou filtrar os valores da série ao redor de um ponto para estimar a tendência . (Método não paramétrico)

Estimando a tendência através de , pode-se obter asérie livre de tendência

iT

tttt ˆTZY

A tendência pode ser observada através de uma inspeçãográfica ou através de testes de hipóteses que pode ser realizado de antes ou depois da estimação de Tt

Métodos de estimação da Tendência

As hipóteses são

H0: não existe tendênciaH1: existe tendência

Com base nas observações Zt (t=1,...,N)

Métodos de estimação da Sazonalidade

Zt = Tt + St + t t =1,...n

As flutuações sazonais presentes em uma série tendem a perturbar as outras componentes. Uma solução é remover a componente, facilitando assim a identificaçãoe interpretação dos outros fenômenos.

Considere um modelo aditivo

ou multiplicativo

Zt = Tt St t t =1,...n

Um procedimento de ajustamento sazonal

Métodos de estimação da Sazonalidade

a) obter estimativas e St

b) calcular a série sazonalmente ajustada tS

ttSAt SZZ modelo aditivo

t

tSAt

S

ZZ modelo multiplicativo

Existem vários métodos para estimar a sazonalidade

Métodos de estimação da Sazonalidade

a) Método de Regressão (método paramétrico) b) Método de Médias Móveis (método não paramétrico)c) Método de diferença sazonal

Métodos de estimação da Sazonalidade

Pode se testar a existência de sazonalidade antes e depoisde sua estimação

H0: não existe sazonalidade determinísticaH1: existe sazonalidade

a) Testes não paramétricos: Kruskal-Wallis, Friedmanb) Teste paramétrico: uma estatística F clássica tendo como hipóteses

H0: S1 = S2 = ... Ss H1: Si Sj para algum i e j

Zt = t + t t =1,...n

tt M)h(Z com h= 1,2,... (horizonte de previsão)

r

Z...ZZM 1rt1tt

t

r

ZZ)1h(Z)h(Z rtt

1tt

onde

E(t ) = 0, Var(t) = e t nível da série que varia com o tempo

Um método de Previsão de séries localmente constantes - Médias Móveis (MM)

O valor de r deve ser proporcional à aleatoriedadede t. Um procedimento é selecionar o valor de r que minimize

21t

N

1jtt ))r(ZZ(S

Vantagens do método MM:

Aplicável quando se tem poucas observações

Fácil aplicação

Um método de Previsão Médias Móveis (MM)

Desvantagens:

Aplicável apenas para séries estacionárias

Dificuldade em determinar r

Uma alternativa é usar os modelos de Box & Jenkins

Um método de Previsão Médias Móveis (MM)

Experimento 2

Consumo de energia (jan 68 – dez 69)

1 1.095,102 1.067,103 1.364,304 1.510,905 1.260,206 1.229,507 1.205,608 1.237,609 1.414,6010 1.299,3011 1.420,6012 1.360,30

t Z

1.304,40

1.360,60

1.431.60

1.429,00

1.506,50

1.650,50

t Z

1.213,20

1.587,60

1.267,50

1.517,00

1.627,30

1.606,00

13

15

17

19

21

23

14

16

18

20

22

24

57,597.14

ZZZZ)h(Z 24232221

24

Período Valor Real Zt

Previsão (h)Z24

25 1.696,4 1.597,5726 1.767,5 1.597,5727 1.554,8 1.597,5728 1.727,5 1.597,5729 2.231,8 1.597,5730 2.211,7 1.597,57

h =1,...,5 e r = 4

Previsão com origem na observação 24

05,645.14

ZZZZ)1(Z 25242322

25

Período Valor Real Zt

Previsão (h)Z24

25 1.696,4 1.597,5726 1.767,5 1.645,0527 1.554,8 1.680,1028 1.727,5 1.656,1729 2.231,8 1.686,5530 2.211,7 1.800,40

h =1,...,5 e r = 4

Previsão atualizada a cada observação

40,820.14

ZZZZ)1(Z 29282726

29

Actual

Predicted

Actual

Predicted

0 10 20

200

700

1200

1700

Tempo

Moving Average

Length:

MAPE:

MAD:

MSD:

4

59,3

191,4

96481,0

Moving Average

Valor real