Post on 22-Apr-2015
Modelos de RegressãoModelos de Regressão
EE
Séries TemporaisSéries Temporais
Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições
Objetivos
Planejamento
A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções
Amostra
Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados
Parte IParte I
Modelos de RegressãoModelos de Regressão
PrevisãoPrevisãoPrevisão é similar à Classificação
Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido
O método mais importante de previsão é a regressão
Regressão linear e múltipla Regressão não linear
Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categorica Na previsão, a variável a “explicar” é contínua
Sejam os valores de uma variável dependente (resposta) Yrelacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico
Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n
k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y
Regressão Linear Múltipla
Suposições para a análise do modelo de Regressão Linear
Resíduos homocedásticos, isto é, com variância constante, não correlacionados e média zero
Normalidade nos resíduos (não necessariamente)
Número de parâmetros menor que o número deobservações (problema de overfitting)
Métodos de Estimação dos Parâmetros
Mínimos Quadrados
Máxima Verossimilhança (suposição de Normalidade para os resíduos)
Y = X +
Y – vetor de respostas (n 1)X - matriz de observações independentes (n p) - vetor de parâmetros - vetor de erros (n 1)
Modelo
Métodos de Mínimos Quadrados com suposição de normalidade
A idéia é obter uma estimativa b para o vetor de parâmetros que minimize a soma de quadrados dos erros ’
Como E()=0 então o modelo é expresso por E(Y) = X
’ = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X
A soma de quadrados de resíduos
A solução do sistema é
Vetor de valores ajustados
XbY ˆ
0
β
εε'
Obtendo
Y'Xβ)XX('
Y)(ˆb '1XXXβ'
25 pares de observações onde Y =quantidade de vapor usado por mêse X = temperatura em graus Farenheit
Experimento 1
1 10.98 35.3 13 11.88 28.12 11.13 29.7 14 9.57 39.13 12.51 30.8 15 10.94 46.84 8.40 58.8 16 9.58 48.55 9.27 61.4 17 10.09 59.36 8.73 71.3 18 8.11 70.07 6.36 74.4 19 6.83 70.08 8.50 76.7 20 8.88 74.59 7.82 70.7 21 7.68 72.110 9.14 57.5 22 8.47 58.111 8.24 46.4 23 8.86 44.612 12.19 28.9
No obs. Y YNo obs.X X
24 10.36 33.425 11.08 28.6
Modelo: Yt = 0+ 1X1+ t t = 1,...,25
2i10
n
1ii
' )XY(S
0)XY(2S n
1ii10i
0
0)XY(X2S n
1ii10ii
1
n
ii10i 0)XbbY(
n
ii10ii 0)XbbY(X
As estimativas b0 e b1 são obtidas por
Então
XbYb 10
n
1i
22i
n
1i
22i
1
XnX
YnYb
)XX(bYY 1 Equação da regressão estimada:
432.11821YX 1315X 60.235Y iiii
Para n = 25 e
424.9Y60.52X42.76323 X 2i
079829.042.7154
128.571 b1
tt1t X080.0623.13)XX(bYY
Portanto e
30 40 50 60 70 80
6
7
8
9
10
11
12
13
X
Y
807060504030
11,5
10,5
9,5
8,5
7,5
ajustadosValores
X
Gráfico 2: Temperaturaversus valores ajustados
Gráfico 1: Temperatura versus Qtd de vapor
O gráfico 1 mostra que existe uma relação linear entre a qtdde vapor e a temperatura. O gráfico 2 ilustra a regressão linear.
Avaliação de desempenho do modelo de Regressão
R2 – mede a variabilidade de explicada pelo modelo de regressão
2
ti
t
2t
2
)YY(
)YY(R
Y
Exemplo: Para os dados do experimento 1
71.081.63
5924.45R 2
Estatística
Teste de aceitação do modelo
H0: = 0H1: 0
Tabela 1 : Análise de Variância
Regressão
Resíduo
VariaçãoGraus de Liberdade
p-1
n-p
n-1Total corretopor Y
Soma de Quadrados ( SS)
Soma de Quadrados média (MS)
2n
1ti )YY(
2i
n
1ti )YY(
2n
1ti YY )(
SSReg/(p-1)
s2 = SSRes/(n-p)
Estatística do teste (F)
)pn/(SS
)1p/(SS
sRe
gRe
F tem distribuição F-snedcor com p-1,n-p graus de liberdadee nível de significância
Teste de aceitação do modelo
Região de aceitação da hipótese H0
)(F)1pn/(SS
)1p/(SSF 1pn,1p
sRe
gRe
H0: Rejeita-se o modeloH1: Aceita-se o modelo
Regressão
Resíduo
VariaçãoGraus de Liberdade
1
23
24Total corretopor Y
Soma de Quadrados ( SS)
Soma de Quadrados média MS
45.59
0.79
Valor daEstatística do teste (F)
Tabela 1 : Análise de Variância
Exemplo: Considere o modelo do exemplo anterior
45.59
18.2257.54
63.81
Valor de F1,23(5%) = 4.28
Como a estatística F=57.54 > 4.28 rejeitamos H0
Teste de significância do vetor de parâmetros ()
Estatística do teste )b(Var
b
s)(diag
bT
i
i21
ésimoi
i XX'
H0: i = 0 (i = 1,...,p)
H1: i 0
Região de aceitação da hipótese H0
)2/(tT pn
T tem distribuição t-student com n-p graus de liberdade
Intervalo de confiança para o vetor b
)b(Var)2/(tb ipni
b tem distribuição t-student(n-p)
i = 1,...p
Exemplo: Continuando com o exemplo anterior
H0: 1 = 0 (i = 1,...,p)H1: 1 0
|T| =| -0.0798/0.0105| = 7.6 > t23(0.975)=2.069
Rejeita H0
Intervalo de confiança : -0.105 < 1< -0.0581
Regression Analysis: C1 versus C2
The regression equation is
C1 = 13,6 - 0,0798 C2
Predictor Coef SE Coef T P
Constant 13,6230 0,5815 23,43 0,000
C2 -0,07983 0,01052 -7,59 0,000
S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2%
Analysis of Variance
Source DF SS MS F P
Regression 1 45,592 45,592 57,54 0,000
Residual Error 23 18,223 0,792
Total 24 63,816
Outliers
São observações atípicas que podem ser relevantespara a construção do modelo
Considere uma matriz H=(hij)nn = X(XTX)-1XT
Um procedimento paramétrico: Teste de Cook
Propriedades
a) 1hn
1ii
b) 1h ii
Outliers
Medida de influência
p)h1(
htD
ii
ii2ii
iiY
iii
h1ˆ
ˆYt
Um ponto i é aberrante se |Di| > F(p,n-p)()
onde
D tem distribuição F(p,n-p)()
COOK
0,001875
0,001355
0,152326
0,008794
0,010710
0,043110
0,147386
0,098991
0,001640
0,000343
0,088566
0,073531
COOK
0,025487
0,041067
0,034274
0,000855
0,046296
0,000347
0,089565
0,122848
0,002509
0,008102
0,049389
0,024918
0,006641
Obs.
1
2
3
4
5
6
7
8
9
10
11
12
Obs.
13
14
15
16
17
18
19
20
21
22
23
24
25
Cook’s Distance
Diagnóstico da Regressão
Análise do modelo Exemplo 1
Os resultados do ajustamento revelam que :
a variável temperatura é significativa no modelo (|t|=2.069 > 2)
a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71)
o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%
o modelo proposto não apresenta outilier (Di > F2,23(5%) = 3.42, i = 1,...,23)
Diagnóstico da Regressão
Análise gráfica dos resíduos
1 – Normalidade da variável resposta
2 – Independência das observações
3 – Homocedasticidade
4 – Se uma variável explicativa não incluída no modelo é relevante
252015105
1
0
-1
-2
Observation Order
Re
sid
ual
Residuals Versus the Order of the Data(response is C1)
7,5 8,5 9,5 10,5 11,5
-2
-1
0
1
Fitted Value
Re
sid
ua
l
Residuals Versus the Fitted Values(response is C1)
Diagnóstico da Regressão
Os resíduos são aleatórios. Os valores ajustados não apresentam tendência
1,51,00,5-0,0-0,5-1,0-1,5
7
6
5
4
3
2
1
0
Residual
Fre
quen
cy
Histogram of the Residuals(response is C1)
-2 -1 0 1
-2
-1
0
1
2
No
rma
l Sco
re
Residual
Normal Probability Plot of the Residuals(response is C1)
Diagnóstico da Regressão
Os resíduos apresentam normalidade.
O modelo proposto se ajusta aos dados, pois as hipótesesbásicas da regressão clássica são satisfeitas.
Modelos de Regressão Não Linear
A não linearidade é dada pela função de regressão
Yt = 0+ 1X1+ X2 + t t = 1,...,n
Um método de estimação: Mínimos Quadrados não Lineares
Aplicável quando o valor da variável resposta é uma proporção
Modelo Logístico Linear
Suposição: A distribuição da variável dependente éuma Bernoulli (1,) onde é a proporção de sucesso
mm110 X...X1
log
onde = E(Y)
Método de estimação por Máxima Verossimilhança
Parte IIParte II
Mineração de Séries Mineração de Séries TemporaisTemporais
Mineração de Dados Mineração de Dados SeqüênciasSeqüências
Series temporaisSeries temporais• Consiste de sequencia de valores ou eventos Consiste de sequencia de valores ou eventos
que mudam com o tempoque mudam com o tempo
• Os dados são registrados em intervalos Os dados são registrados em intervalos regularesregulares
• Componetes característicos das séries Componetes característicos das séries temporaistemporais
– Tendencia, ciclo, sazonalidade, Tendencia, ciclo, sazonalidade, aleatóriedadealeatóriedade
AplicaçõesAplicações• Finanças: preço de ações, inflaçãoFinanças: preço de ações, inflação
• Biomedicina: presão sanguineaBiomedicina: presão sanguinea
• Metereologia: precipitaçãoMetereologia: precipitação
Uma série temporal pode ser ilustrada por um Uma série temporal pode ser ilustrada por um gráfico que descreve pontos que se movem ao gráfico que descreve pontos que se movem ao longo do tempolongo do tempo
Categorias de movimentos de séries Categorias de movimentos de séries temporaistemporais• Tendencia à longo termo (curva de tendencia)Tendencia à longo termo (curva de tendencia)
• Variações ciclicasVariações ciclicas
• Variações SazonaisVariações Sazonais
• Variações irregulares ou aleatóriasVariações irregulares ou aleatórias
Estimação da SérieEstimação da Série
Método manualMétodo manual• Ajustar a curva pela observação do gráficoAjustar a curva pela observação do gráfico• Impraticavel para a mineraçào em larga escalaImpraticavel para a mineraçào em larga escala
O método dos minimos quadradosO método dos minimos quadrados
Os métodos das médias móveisOs métodos das médias móveis• Eliminaçào de padrões ciclicos, sazonais e Eliminaçào de padrões ciclicos, sazonais e
irregularesirregulares• Sensivel a valores aberrrantesSensivel a valores aberrrantes
Descoberta de tendencias em series Descoberta de tendencias em series
temporaistemporais
Estimação de variações sazonaisEstimação de variações sazonais• Indice sazonalIndice sazonal
– Conjunto de valores que mostram os valores relativos Conjunto de valores que mostram os valores relativos de uma variável durante os meses do anode uma variável durante os meses do ano
– Ex, vendas em outubro, novembro e dezembro são Ex, vendas em outubro, novembro e dezembro são 80%, 120%, e 140% da média de vendas mensal do 80%, 120%, e 140% da média de vendas mensal do ano inteiro. Então 80, 120, e 140 são índices sazonais ano inteiro. Então 80, 120, e 140 são índices sazonais para esses mesespara esses meses
• Remoção da SazonalidadeRemoção da Sazonalidade– Dados ajustados com relação as variações sazonaisDados ajustados com relação as variações sazonais
– Ex., dividir os meses originais pelos indices sazonais Ex., dividir os meses originais pelos indices sazonais dos meses correspondentesdos meses correspondentes
Descoberta de tendencias em series Descoberta de tendencias em series temporaistemporais
Estimação das variações ciclicasEstimação das variações ciclicas• Se os ciclos ocorrem periodicamente Se os ciclos ocorrem periodicamente
(aproximadamente), pode ser introzido um (aproximadamente), pode ser introzido um índice de cilco como os indices sazonaisíndice de cilco como os indices sazonais
Estimação de variações irregularesEstimação de variações irregulares• Pelo ajustamento dos dados as variações de Pelo ajustamento dos dados as variações de
tendencia, ciclo e estaçãotendencia, ciclo e estação
Através da análise sistemática das Através da análise sistemática das tendencias, cilcos, estações e tendencias, cilcos, estações e componentes irregulares, é possivel componentes irregulares, é possivel realizar previzoões de curto e longo prazo realizar previzoões de curto e longo prazo de boa qualidadede boa qualidade
Busca por similaridade em series Busca por similaridade em series temporaistemporais
Busca por similaridade encontra sequencias Busca por similaridade encontra sequencias de dados que diferem apenas ligeiramente de dados que diferem apenas ligeiramente de uma dada sequenciade uma dada sequencia
Duas categorias de interrogações baseada Duas categorias de interrogações baseada em similaridadeem similaridade• Sequencia matching: encontrar uma sequencia Sequencia matching: encontrar uma sequencia
que é similar a sequencia de interrogaçãoque é similar a sequencia de interrogação• Subsequencia matchingSubsequencia matching: encontrar todos os : encontrar todos os
pares de sequencias similarespares de sequencias similares AplicaçõesAplicações
• Finanças Financial marketFinanças Financial market• Bases de dados cientificasBases de dados cientificas• Diagnostico médicoDiagnostico médico
Uma Série Temporal
Uma conjunto de observações ordenadas no tempo
Exemplos
Z(t1), Z(t2),...,Z(tn)
- os valores diários do preço das ações de uma empresa, na bolsa de valores (série econômica)
- os valores mensais de temperatura de uma cidade
- registro de eletrocardiograma de uma pessoa
Tratamento dos Dados
a) Estacionariedade: o desenvolvimento da série reflete alguma forma de equilíbrio estável
t
Zt
Série não estacionária
Tratamento dos Dados
b) Transformações
Diferenças sucessivas da série originalaté obter-se uma série estacionária
Zt=Zt – Zt-1
2 Zt= [ Zt]
Presença de não estacionariedade
Logarítmica
Estabilização da variância
logZt=logZt – logZt-1
A transformação logarítmica também remove a tendência.
Tratamento dos Dados
Componentes de uma Série Temporal
Zt = Tt + St + t t =1,...nModelo Clássico
Uma série Z1, Z2,...,Zn
Tt – tendência
t – erro aleatório
St – sazonalidade
1 - Têndencia
Aumento ou decremento gradual das observações
Componentes de uma Série Temporal
Componentes de uma Série Temporal
2 - Sazonalidade
Quando as observações são intra-anuais, isto é, registradas mensalmente, trimestralmente ou semanalmente
Exemplo de uma série com tendência e sazonalidade
Componentes de uma Série Temporal
Componentes de uma Série Temporal
Removendo as componentes Tt e St a série é explicadapor um componente aleatório, t. A suposição é que t
tem média zero e variância constante .
Se as amplitudes sazonais St variam com a tendência, então um modelo mais adequado é o multiplicativo
Zt = Tt St t t =1,...n
3 – Resíduo
Nota
Função Perda
Erro Quadrático Médio (EQM)
)h(Zt é a previsão de Z(t+h)
EQM 2t
2t )]h(e[E)]h(Z)ht(Z[E
Considere
Métodos de estimação da Tendência
Zt = Tt + t t =1,...n
Suponha que a componente sazonal St não está presente eque o modelo é aditivo
Existem vários métodos para estimar Tt
i) Ajustar os dados por uma função polinomial, uma exponencial ou outra função suave de t (Métodos paramétricos)
i) utilizar diferenças (Método não paramétrico)
Métodos de estimação da Tendência
i) suavizar ou filtrar os valores da série ao redor de um ponto para estimar a tendência . (Método não paramétrico)
Estimando a tendência através de , pode-se obter asérie livre de tendência
iT
tttt ˆTZY
A tendência pode ser observada através de uma inspeçãográfica ou através de testes de hipóteses que pode ser realizado de antes ou depois da estimação de Tt
Métodos de estimação da Tendência
As hipóteses são
H0: não existe tendênciaH1: existe tendência
Com base nas observações Zt (t=1,...,N)
Métodos de estimação da Sazonalidade
Zt = Tt + St + t t =1,...n
As flutuações sazonais presentes em uma série tendem a perturbar as outras componentes. Uma solução é remover a componente, facilitando assim a identificaçãoe interpretação dos outros fenômenos.
Considere um modelo aditivo
ou multiplicativo
Zt = Tt St t t =1,...n
Um procedimento de ajustamento sazonal
Métodos de estimação da Sazonalidade
a) obter estimativas e St
b) calcular a série sazonalmente ajustada tS
ttSAt SZZ modelo aditivo
t
tSAt
S
ZZ modelo multiplicativo
Existem vários métodos para estimar a sazonalidade
Métodos de estimação da Sazonalidade
a) Método de Regressão (método paramétrico) b) Método de Médias Móveis (método não paramétrico)c) Método de diferença sazonal
Métodos de estimação da Sazonalidade
Pode se testar a existência de sazonalidade antes e depoisde sua estimação
H0: não existe sazonalidade determinísticaH1: existe sazonalidade
a) Testes não paramétricos: Kruskal-Wallis, Friedmanb) Teste paramétrico: uma estatística F clássica tendo como hipóteses
H0: S1 = S2 = ... Ss H1: Si Sj para algum i e j
Zt = t + t t =1,...n
tt M)h(Z com h= 1,2,... (horizonte de previsão)
r
Z...ZZM 1rt1tt
t
r
ZZ)1h(Z)h(Z rtt
1tt
onde
E(t ) = 0, Var(t) = e t nível da série que varia com o tempo
Um método de Previsão de séries localmente constantes - Médias Móveis (MM)
O valor de r deve ser proporcional à aleatoriedadede t. Um procedimento é selecionar o valor de r que minimize
21t
N
1jtt ))r(ZZ(S
Vantagens do método MM:
Aplicável quando se tem poucas observações
Fácil aplicação
Um método de Previsão Médias Móveis (MM)
Desvantagens:
Aplicável apenas para séries estacionárias
Dificuldade em determinar r
Uma alternativa é usar os modelos de Box & Jenkins
Um método de Previsão Médias Móveis (MM)
Experimento 2
Consumo de energia (jan 68 – dez 69)
1 1.095,102 1.067,103 1.364,304 1.510,905 1.260,206 1.229,507 1.205,608 1.237,609 1.414,6010 1.299,3011 1.420,6012 1.360,30
t Z
1.304,40
1.360,60
1.431.60
1.429,00
1.506,50
1.650,50
t Z
1.213,20
1.587,60
1.267,50
1.517,00
1.627,30
1.606,00
13
15
17
19
21
23
14
16
18
20
22
24
57,597.14
ZZZZ)h(Z 24232221
24
Período Valor Real Zt
Previsão (h)Z24
25 1.696,4 1.597,5726 1.767,5 1.597,5727 1.554,8 1.597,5728 1.727,5 1.597,5729 2.231,8 1.597,5730 2.211,7 1.597,57
h =1,...,5 e r = 4
Previsão com origem na observação 24
05,645.14
ZZZZ)1(Z 25242322
25
Período Valor Real Zt
Previsão (h)Z24
25 1.696,4 1.597,5726 1.767,5 1.645,0527 1.554,8 1.680,1028 1.727,5 1.656,1729 2.231,8 1.686,5530 2.211,7 1.800,40
h =1,...,5 e r = 4
Previsão atualizada a cada observação
40,820.14
ZZZZ)1(Z 29282726
29
Actual
Predicted
Actual
Predicted
0 10 20
200
700
1200
1700
Tempo
Moving Average
Length:
MAPE:
MAD:
MSD:
4
59,3
191,4
96481,0
Moving Average
Valor real