Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa...

125
Modelos espaço-temporais para processos temporalmente agregados TESE DE DOUTORADO por Alexandre Sousa da Silva Orientadora: Alexandra Mello Schmidt Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2012

Transcript of Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa...

Page 1: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Modelos espaço-temporais

para processos temporalmente agregados

TESE DE DOUTORADO

por

Alexandre Sousa da Silva

Orientadora:

Alexandra Mello Schmidt

Universidade Federal do Rio de Janeiro

Instituto de Matemática

Departamento de Métodos Estatísticos

2012

Page 2: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Modelos espaço-temporaispara processos temporalmente agregados

Alexandre Sousa da Silva

Orientadora: Alexandra Mello Schmidt

Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de

Matemática, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários

à obtenção do grau de Doutor em Estatística.

Aprovada por:

————————————————

Profa Alexandra M. Schmidt, IM-UFRJ

————————————————

Profa Clarice G. B. Demétrio, ESALQ-USP

————————————————

Prof. Antônio Carlos M. P. de Leon, UERJ

————————————————

Profa Marina S. Paez, IM-UFRJ

————————————————

Prof. Dani Gamerman, IM - UFRJ

Rio de Janeiro, agosto de 2012

Page 3: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Agradecimentos

À minha orientadora, Alexandra Schmidt por me dar a oportunidade de entrar no doutorado

e por aceitar o desafio de percorrer comigo essa jornada. Grande parte dos seus ensinamentos

levarei para a vida toda.

Agradeço ao meu orientador de mestrado, Paulo Justiniano Ribeiro Júnior que além

de participar das discussões do tema da tese também proporcionou minha parceria com a

Alexandra.

Agradeço a minha professora na graduação, Aparecida Donizeti Pires de Souza, que além

de proporcionar os primeiros contatos com a inferência bayesiana me deu apoio incondicional

na escolha pelo doutorado na UFRJ.

À minha mãe Maria Teresa, meu pai Cícero, meus irmãos Fernando e Eduardo, minha

irmã Patricia e meus sobrinhos Vitória e Fernando. Mesmo de longe, vocês estiveram sempre

presentes.

Aos professores do IM-DME-UFRJ, Nei, Dani, Migon, Glauco, Marina. Só eu sei o quanto

aprendi com vocês. Um agradecimento também ao professor Carlos Abanto, por estar sempre

pronto a ajudar e tirar dúvidas na hora do cafezinho.

Aos amigos que fiz aqui no Rio e que se transformaram em uma grande família, Bonequinha,

Bonecão, Fidelito, Vini, Laninha, Cleide. Vocês não imaginam o quanto são importante para

mim.

Aos amigos da UFRJ, Valmária, Vinícios, Fernando, Fidel, Luzia, Joaquim, Josiane,

Patricia, Mariana, Vera, Targino, João. Obrigado pelas dúvidas tiradas e pelas trocas de

informação. Vou sentir muita falta do nosso cafezinhos.

Aos meus mais novos amigos da UNIRIO pelo apoio e incentivo nesta difícil reta final,

especialmente a Luciane Velasque, Maria Tereza Barbosa, Beatriz Cunha, Luzia Tonon e

Luciana Costa.

À CAPES e à Faperj, pelo apoio financeiro.

A todos aqueles que de alguma maneira contribuíram, ou estiveram na torcida pela

realização deste trabalho.

Page 4: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Resumo

Modelos espaço-temporaispara processos temporalmente agregados

Alexandre Sousa da Silva

Orientadora: Alexandra Mello Schmidt

Esta tese apresenta contribuições em duas direções. Em uma delas mostram-se as condições

necessárias para que processos multivariados, e temporalmente agregados apresentem as mesmas

estruturas dos processos desagregados. São consideradas classes particulares de modelos lineares

dinâmicos com estrutura de dependência espacial.

Uma outra contribuição segue no sentido do desenvolvimento de modelos espaço-temporais

considerando que a variável resposta é a realização parcial de um processo estocástico. São

implementados modelos para dados seguindo distribuição normal e de Poisson, com agregação

no tempo e desalinhamento no espaço. Estes modelos permitem a estimação de quantidades na

escala desagregada. O procedimento de inferência é baseado no paradigma de Bayes e dados

artificiais são utilizados para testar a aplicabilidade dos algoritmos de estimação.

Os modelos foram aplicados à contagem do número de ovos do mosquito Aedes aegypti.

Estes dados foram coletados, semanalmente, em armadilhas de oviposição espalhadas em 5

regiões da cidade de Recife-PE, no período de abril de 2004 a maio de 2006.

Palavras-Chave: Agregação temporal, desalinhamento espacial, modelos dinâmicos,

processo estocásticos.

Page 5: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Abstract

Spatio-temporal modelsfor temporally aggregated processes

Alexandre Sousa da Silva

Orientadora: Alexandra Mello Schmidt

This thesis presents contributions in two directions. In one of them, the necessary

conditions for multivariate processes and temporally aggregates to show the same structures of

disaggregated processes are exposed. These are considered particular classes of linear dynamic

models with spatial dependence structure.

Another contribution goes towards the development of space-time models considering that

the response variable is the partial realization of a stochastic process. Models are implemented

for data following the normal and the Poisson distributions, aggregated in time and in space

misalignment. These models allow the estimation of quantities in disaggregated scale. The

inference procedure is based on the Bayesian paradigm and artificial data are used to test the

applicability of estimation algorithms.

The models were applied to counting the number of eggs of the Aedes aegypti mosquito.

These data were collected weekly in oviposition traps spread across 5 regions of the city of

Recife-PE, from April 2004 to May 2006.

Key words: Temporal aggregation, spatial misalignment, dynamic models, stochastic

process.

Page 6: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Sumário

1 Introdução 1

1.1 Agregação temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Motivação do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Descrição da coleta de ovos de Aedes aegypti em bairros de Recife . . . . 6

1.2.2 Análise exploratória dos dados . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Contribuições e organização do trabalho . . . . . . . . . . . . . . . . . . . . . . 16

2 Agregação temporal em modelos lineares dinâmicos multivariados 17

2.1 Modelos lineares dinâmicos multivariados . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Agregação temporal em modelos lineares dinâmicos . . . . . . . . . . . . . . . . 19

2.2.1 MLD multivariado polinomial de primeira ordem - caso geral . . . . . . . 20

2.2.2 Modelo dinâmico polinomial de segunda ordem . . . . . . . . . . . . . . 25

2.2.3 Agregação temporal em MLD sazonais na forma livre . . . . . . . . . . . 31

2.2.4 Superposição em modelos dinâmicos . . . . . . . . . . . . . . . . . . . . 35

2.2.5 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3 Modelos para observações contínuas multivariadas e temporalmente

agregadas 39

3.1 Resposta normal para uma única região . . . . . . . . . . . . . . . . . . . . . . . 40

3.1.1 Procedimento de inferência . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.1.2 Desalinhamento espacial com resposta normal para uma única região . . 47

3.1.3 Análise dos dados artificiais com desalinhamento espacial . . . . . . . . . 49

i

Page 7: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

3.1.4 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Modelo hierárquico normal: considerando observações em diferentes sub-regiões 56

3.2.1 Procedimento de inferência . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.2.2 Desalinhamento espacial com resposta normal para diferentes sub-regiões 60

3.2.3 Análise dos dados artificiais com desalinhamento espacial . . . . . . . . . 60

4 Modelos para processos de contagens multivariadas e temporalmente

agregadas 66

4.1 Resposta Poisson para uma única região . . . . . . . . . . . . . . . . . . . . . . 67

4.1.1 Procedimento de inferência . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.1.2 Desalinhamento espacial com resposta Poisson para uma única região . . 71

4.1.3 Análise dos dados artificiais com desalinhamento espacial . . . . . . . . . 72

4.2 Modelo hierárquico Poisson: considerando observações em diferentes sub-regiões 76

4.2.1 Procedimento de inferência . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.2.2 Desalinhamento espacial com resposta Poisson para diferentes sub-regiões 79

4.2.3 Análise dos dados artificiais com desalinhamento espacial . . . . . . . . . 79

5 Análise da contagem de ovos de Aedes aegypti em bairros do Recife 84

5.1 Resposta normal para uma única região: aplicado à região DI . . . . . . . . . . 85

5.1.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.2 Modelo hierárquico normal: aplicado às regiões BT, CFP, DI, EM e MCP . 90

5.2.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.3 Resposta Poisson para uma única região: aplicado à região DI . . . . . . . . . . 95

5.3.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.4 Modelo hierárquico Poisson: aplicado às regiões BT, CFP, DI, EM e MCP . . 98

5.4.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.5 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6 Considerações finais e trabalhos futuros 103

6.1 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

ii

Page 8: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

6.2 Tópico para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Bibliografia 106

Apêndice A 108

Apêndice B 110

iii

Page 9: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Lista de Tabelas

1.1 Quantidade de armadilhas distribuídas em cada região. . . . . . . . . . . . . . . 8

1.2 Medidas resumo de cada região considerada no estudo. . . . . . . . . . . . . . . 10

3.1 Valores em que os hiperparâmetros do modelo hierárquico normal foram fixados

para a geração de dados artificiais. . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1 Valores em que os hiperparâmetros do modelo hierárquico Poisson foram fixados

para a geração de dados artificiais. . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.1 Resultados do modelo normal individual para a região DI. . . . . . . . . . . . . 87

5.2 Resultados para o modelo Poisson individual para a região DI. . . . . . . . . . . 95

iv

Page 10: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Lista de Figuras

1.1 Mapas do Brasil, do estado de Pernambuco e em destaque a cidade de Recife,

com as regiões consideradas no Projeto SAUDAVEL em destaque. . . . . . . . . 5

1.2 Disposição das armadilhas em cada região. . . . . . . . . . . . . . . . . . . . . . 9

1.3 Box-plot da contagem de ovos nas 5 regiões. . . . . . . . . . . . . . . . . . . . . 11

1.4 Box-plot da contagem semanal do número de ovos nas 5 regiões do estudo. . . . 12

1.5 Esquema das observações para a região BT, destacadas por grupo das observações. 13

1.6 Esquema das observações para a região CFP, destacadas por grupo das

observações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.7 Esquema das observações para a região DI, destacadas por grupo das observações. 14

1.8 Esquema das observações para a região EM, destacadas por grupo das observações. 14

1.9 Esquema das observações para a região MCP, destacadas por grupo das

observações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori

para os parâmetros τ 2, σ2, φ, W , λ0. A linha vertical tracejada representa o

valor verdadeiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2 Sumário da distribuição a posteriori de λt ao longo do tempo. A linha cheia

é a média a posteriori e a região sombreada representa o intervalo 95% de

credibilidade a posteriori. O verdadeiro valor de λt é representado pela linha

tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

v

Page 11: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

3.3 Sumário da distribuição a posteriori de θt, αt e Zt para as armadilhas 2, 30, 55

e 80. A linha cheia é a média a posteriori e a região sombreada representa o

intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado

pela linha tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.4 Intervalos 95% de credibilidade a posteriori de τ 2, σ2, φ, W e λ0, para os 30

conjuntos simulados. A linha tracejada horizontal representa o valor verdadeiro. 54

3.5 Sumário da distribuição a posteriori de λt ao longo do tempo, para os conjuntos

simulados 2, 3, 20 e 30. A linha cheia é a média a posteriori e a região sombreada

representa o intervalo 95% de credibilidade a posteriori. O verdadeiro valor de

λt é representado pela linha tracejada. . . . . . . . . . . . . . . . . . . . . . . . 55

3.6 Intervalo de 95% de credibilidade a posteriori para os parâmetros τ 2,σ2,φ, u. O

círculo fechado representa a média a posteriori. . . . . . . . . . . . . . . . . . . 62

3.7 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori

para os parâmetros δ0 eW . A linha vertical tracejada representa o valor verdadeiro. 63

3.8 Sumário da distribuição a posteriori de δt ao longo do tempo. A linha cheia

é a média a posteriori e a região sombreada representa o intervalo 95% de

credibilidade a posteriori. O verdadeiro valor de δt é representado pela linha

tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.9 Sumário da distribuição a posteriori de λt ao longo do tempo, para as 5 regiões.

A linha cheia é a média a posteriori e a região sombreada representa o intervalo

95% de credibilidade a posteriori. O verdadeiro valor de λt é representado pela

linha tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.10 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para

as armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região

sombreada representa o intervalo de 95% de credibilidade a posteriori. O

verdadeiro valor é representado pela linha tracejada. . . . . . . . . . . . . . . . . 65

vi

Page 12: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

4.1 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori

para os parâmetros σ2, φ, W , λ0. A linha vertical tracejada representa o valor

verdadeiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.2 Sumário da distribuição a posteriori de λt ao longo do tempo. A linha cheia

é a média a posteriori e a região sombreada representa o intervalo de 95% de

credibilidade a posteriori. O verdadeiro valor de λt é representado pela linha

tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.3 Sumário da distribuição a posteriori de de θt, αt e Zt para as armadilhas 2, 30,

55 e 80. A linha cheia é a média a posteriori e a região sombreada representa o

intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado

pela linha tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.4 Intervalo de 95% de credibilidade a posteriori para os parâmetros σ2,φ, u. O

círculo fechado representa a média a posteriori. . . . . . . . . . . . . . . . . . . 80

4.5 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori

para os parâmetros δ0 eW . A linha vertical tracejada representa o valor verdadeiro. 81

4.6 Sumário da distribuição a posteriori de δt ao longo do tempo. A linha cheia

é a média a posteriori e a região sombreada representa o intervalo de 95% de

credibilidade a posteriori. O verdadeiro valor de δt é representado pela linha

tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.7 Sumário da distribuição a posteriori de λ ao longo do tempo, nas 5 regiões. A

linha cheia é a média a posteriori e a região sombreada representa o intervalo de

95% de credibilidade a posteriori. O verdadeiro valor de λ é representado pela

linha tracejada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.8 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para

as armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região

sombreada representa o intervalo de 95% de credibilidade a posteriori. O

verdadeiro valor é representado pela linha tracejada. . . . . . . . . . . . . . . . . 83

5.1 Box-plot da raiz quadrada da contagem semanal do número de ovos na região DI. 86

vii

Page 13: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

5.2 Sumário da distribuição a posteriori de λt ao longo do tempo. A região

sombreada representa o intervalo de 95% de credibilidade a posteriori e a linha

cheia é a média a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.3 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% de

credibilidade a posteriori e a linha cheia é a média a posteriori. . . . . . . . . . . 89

5.4 Intervalo de 95% de credibilidade a posteriori para os parâmetros τ 2,σ2,φ,u

(linhas verticais representam). O ponto cheio corresponde à média a posteriori. . 91

5.5 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori

para os parâmetros δ0 e W . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.6 Sumário da distribuição a posteriori de δt e de λt, ao longo do tempo. A linha

cheia é a média a posteriori e a região sombreada representa o intervalo de 95%

de credibilidade a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.7 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80 da regiãoDI. A região sombreada representa o intervalo

de 95% de credibilidade a posteriori e a linha cheia é a média a posteriori. . . . 94

5.8 Sumário da distribuição a posteriori de λt ao longo do tempo. A região

sombreada representa o intervalo de 95% de credibilidade a posteriori e a linha

cheia é a média a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.9 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% de

credibilidade a posteriori e a linha cheia é a média a posteriori. . . . . . . . . . . 97

5.10 Intervalo de 95% de credibilidade a posteriori para os parâmetros σ2,φ,u. . . . 98

5.11 Histograma e intervalo de 95% de credibilidade (pontilhada) a posteriori para os

parâmetros δ0 e W . A linha vertical tracejada representa o valor verdadeiro. . . 99

5.12 Sumário da distribuição a posteriori de δt e de λt, ao longo do tempo. A linha

cheia é a média a posteriori e a região sombreada representa o intervalo de 95%

de credibilidade a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

viii

Page 14: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

5.13 Evolução temporal do intervalo de 95% de credibilidade a posteriori de θ, α e Y

para as armadilhas 2, 30, 55 e 80. A linha tracejada corresponde ao verdadeiro

valor e a cheia à média a posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.1 Série temporal das covariáveis precipitação, umidade relativa e temperatura . . . 111

ix

Page 15: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Capítulo 1

Introdução

Grande parte dos recursos financeiros de uma pesquisa é destinada à coleta das observações.A demanda por estes recursos aumenta proporcionalmente à quantidade de observação que sejulgue necessária para o estudo do fenômeno de interesse.

Em séries temporais o intervalo amostral precisa ser determinado de forma cuidadosa, poisobservações realizadas com alta frequência podem ocasionar problemas na modelagem, uma vezque os componentes de maior frequência podem dominar; já observações em períodos de tempomuito espaçados levam a uma perda do detalhamento de alguns níveis que podem influenciarnas previsões e, por consequência, na tomada de decisão (Schmidt e Gamerman, 1997).

No estudo de fenômenos com estrutura espaço-temporal, determinar o intervalo amostral éuma tarefa ainda mais complexa, pois o aumento de uma unidade de tempo acarretará na adiçãode N observações no banco de dados, sendo que N é a quantidade de estações monitoradorasdistribuídas na região de estudo. Quando as N estações monitoradoras são observadas emtodos os instantes de tempo diz-se que os dados são alinhados espacialmente. Define-se que odesalinhamento espacial ocorre quando apenas um grupo das N estações é observado em cadainstante de tempo.

Considere que as N estações monitoradoras são divididas em r grupos, com N = n1 + n2 +

· · · + nr, em que ni é o número total de estações monitoradoras do grupo i, i = 1, 2, · · · , r e,em cada instante de tempo, apenas um dos grupos é observado, mas em ciclos de r instantesde tempo o mesmo grupo volta a ser observado, isto é, em ciclos periódicos de r instantesde tempo, todas as N estações serão observadas. Esse tipo de planejamento reduz os custosda pesquisa, pois diminui drasticamente a quantidade de observações coletadas. Porém, pode

1

Page 16: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

2

ocorrer uma agregação temporal, ou seja, o que de fato é observado corresponde ao acumuladoem r instantes de tempo.

Neste trabalho, discute-se o problema da agregação temporal em modelos lineares dinâmicos(MLD’s) multivariados. Além disso, propõem-se modelos para variáveis respostas contínua ediscreta, com agregação no tempo e desalinhamento no espaço. Inicialmente, na Seção 1.1 éapresentada uma introdução geral sobre a agregação temporal, em seguida, uma discussão sobreagregação temporal em modelos espaço-temporais, que é o escopo deste trabalho. A Seção 1.2apresenta o problema real que motivou o desenvolvimento desta tese. Este problema consisteem um estudo sobre o mosquito transmissor da dengue, realizado na cidade de Recife-PE. Esseestudo teve como um de seus resultados uma base de dados referente à contagem de ovos domosquito Aedes aegypti, vetor transmissor da dengue. A coleta foi realizada em armadilhasde oviposição distribuídas em 5 regiões da cidade do Recife-PE. Finalmente, a última seçãoapresenta as contribuições do trabalho e a organização desta tese.

1.1 Agregação temporal

No contexto de séries temporais univariadas, considere que certa variável Yt possa ser observadaa cada t unidades de tempo e, por algum motivo, as observações sejam coletadas a cada r

unidades de tempo, com r sendo um valor fixo que corresponde à quantidade de unidades detempo t que serão agregadas. Desta forma, o novo processo agregado, será definido por

Zk =r∑i=1

Yrk+i = Yrk+1 + Yrk+2 + · · ·+ Yrk+r, k = 0, 1, 2, · · · .

Os fatores que determinam a variação de Yt são diferentes dos fatores que explicam a variaçãode Zk, e dependem da escolha do intervalo de agregação, isto é, da escolha de r.

Em West e Harrison (1997), é apresentado um exemplo simples que ilustra a ideia daagregação temporal. Esses autores consideram Yt uma série temporal decomposta em

Yt = ft +X + εt, t = 1, 2, · · · , 1000,

em que ft é o valor esperado de Yt, X é o fator comum independente, e os εt são variáveisaleatórias independentes e identicamente distribuídas. Se Var(X) = 1 e Var(εt) = 99, paratodo t, então o efeito de X na explicação da variabilidade de Yt é pequeno, se comparado aoefeito de εt.

Page 17: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

3

Considere agora, a série Z como sendo a agregação dos 1000 valores de Y , sendo assim

Z =1000∑t=1

Yt =1000∑t=1

(ft +X + εt) = f ∗ + 1000X + ε∗,

em que f ∗ =∑1000

t=1 ft e ε∗ =

∑1000t=1 εt.

Desta forma, Var(1000X) = 106 e Var(ε∗) = 99000, ou seja, para a série desagregada o fatorcomum X tem pouca influência na explicação de Yt, mas para a série agregada a combinaçãodeste fator é fundamental na explicação da variabilidade de Z.

Neste trabalho, são consideradas séries temporais com observações coletadas em locais fixosda região de estudo e vários instantes de tempo, resultando em processos espaço-temporais. Oobjetivo aqui é o estudo das estruturas espaciais e temporais que descrevem estes processos.Em especial, são explorados modelos lineares dinâmicos (MLD´s) multivariados, pois estes sãouma classe ampla e flexível de modelos, representados por um par de equações. O trabalho estádividido em duas partes principais: em uma delas são descritas as condições necessárias paraque processos espaço-temporais resultantes de agregação temporal de MLD´s multivariadostambém possam ser escritos como MLD´s multivariados; em uma segunda parte do trabalhopretende-se modelar processos espaço-temporais cuja variável resposta é agregada no tempo epode ser desalinhada no espaço. A principal diferença entre as duas partes é que, na primeira,parte-se de processos desagregados e se conclui sobre a agregação; já na segunda, parte-se deprocessos agregados e investigam-se características sobre o processo desagregado.

1.2 Motivação do trabalho

De acordo com a OMS - Organização Mundial de Saúde1, 2,5 bilhões de pessoas vivem em locaisonde o vírus da dengue pode ser transmitido. Isto significa que cerca de 35% da populaçãomundial corre o risco de contrair a doença. Ainda de acordo com a organização, estima-se queentre 50 e 100 milhões de pessoas são infectadas, por ano, com o vírus da dengue, em mais de100 países endêmicos.

O vírus da dengue é transmitido a humanos, principalmente, pelos mosquitos Aedes aegyptiLinnaeus e Aedes albopictus Skuse, que são também vetores de outras doenças como afebre amarela e países de clima tropical como o Brasil possuem condições favoráveis para aproliferação destes mosquitos.

1http://www.who.int/csr/disease/dengue/en/index.html, acessado em 03/01/2012

Page 18: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

4

Segundo Regis, Monteiro, Melo-Santos, Silveira, Furtado, Acioli, Santos, Nakazawa,Carvalho, Ribeiro Jr e Souza (2008), a combinação entre características biológicas do Aedesaegypti e a alta eficiência dos mecanismos de transmissão do vírus são fatores determinantesnos casos de epidemia de dengue. Esse mosquito tem a capacidade de aumentar rapidamentesua população devido à alta fecundidade, alta fertilidade e curto tempo de geração. Além disso,os ovos são muito resistentes e podem permanecer intactos em recipientes sem água por umperíodo próximo de um ano. Ainda segundo os autores, o que torna essa espécie mais eficientee mais difícil de ser controlada são suas características comportamentais como, por exemplo,depositar pequenas quantidades de ovos em um número grande de recipientes. Sendo assim, aforma de conter as epidemias tem relação com a condição de imunidade da população e controledo vetor.

A transmissão da dengue ocorre a partir da picada das fêmeas adultas do mosquito, poissomente elas são hematófogas. Após ter sugado o sangue de uma pessoa contaminada edecorrido o período de incubação do vírus (de 8 a 10 dias), a fêmea estará apta a transmitir adoença a indivíduos suscetíveis.

Como ainda não existe uma vacina contra o vírus, a forma mais eficiente de prevenir surtos dadoença é por meio do controle do vetor. Para que seja possível implementar medidas preventivaseficientes de combate ao vetor é necessário o conhecimento preciso dos locais e/ou períodos detempo em que se encontra uma maior densidade do vetor. Essa tarefa é, comumente, baseadano Índice Predial (IP) e Índice Breteau (IB), que são calculados com base na inspeção visual derecipientes, o que por si só, já justifica a falta de precisão do método. Além disso, é registradocomo positivo um recipiente com 1 ou 100 larvas do mosquito, o que, claramente, não forneceinformação sobre a densidade populacional do vetor.

Neste sentido, o Projeto SAUDAVEL (Sistema de Apoio Unificado para Detecção eAcompanhamento em Vigilância EpidemioLógica) tem como objetivo desenvolver novosinstrumentos para a prática da vigilância epidemiológica, incorporando aspectos ambientais,identificadores de riscos e métodos automáticos e semi-automáticos, que permitam a detecçãode surtos e o seu acompanhamento no espaço e no tempo (Bonat, Ribeiro, Dallazuanna, Regis,Pereira, Silveira, Acioli e Souza, 2009).

O Projeto SAUDAVEL é um trabalho de âmbito nacional e seu estudo piloto teve inícioem Recife-PE, onde 5 regiões foram monitoradas com o intuito de “mapear” o comportamentode ovos do mosquito causador da dengue. A Figura 1.1 apresenta as regiões estudadas, e estaspossuem características ambientais e sócio/culturais distintas.

Page 19: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

5

Figura 1.1: Mapas do Brasil, do estado de Pernambuco e em destaque a cidade de Recife, com

as regiões consideradas no Projeto SAUDAVEL em destaque.

Um dos resultados desse estudo foi uma base de dados referente à contagem do número deovos do mosquito Aedes aegypti. Os ovos foram coletados em armadilhas de oviposição, tambémconhecidas como "ovitrampa", que são confeccionadas com um recipiente de cor escura, onde seadere um material áspero que permite a fixação dos ovos depositados. Esse material áspero foi,periodicamente, substituído e levado ao laboratório para a contagem manual dos ovos fixados.

Page 20: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

6

1.2.1 Descrição da coleta de ovos de Aedes aegypti em bairros de

Recife

O agente causador da dengue é um vírus e seus principais transmissores são mosquitos do gêneroAedes, popularmente conhecidos no Brasil como “mosquito da dengue”. O desenvolvimento ea proliferação do mosquito Aedes aegypti são favorecidos pelas condições do meio-ambiente(Tauil, 2002). De acordo com Bonat et al. (2009), nos programas de controle da dengue,a vigilância entomológica (presença do vetor, índices de infestação, características biológicas,etc.) é realizada, principalmente, por inspeção visual de larvas, o que não é um bom indicadorpara medir a abundância de adultos e é ineficaz para estimar o risco de transmissão.

As armadilhas de oviposição visam estimar a atividade de postura do mosquito Aedesaegypti. Fay e Eliason (1965) demonstram a superioridade dessas em relação à pesquisa larváriapara a verificação da ocorrência do vetor, pois elas são ferramentas eficazes no estudo docomportamento espaço-temporal dos ovos do mosquito. Bonat et al. (2009) citam algunstrabalhos que apresentam metodologias que visam investigar a dinâmica de infestação domosquito.

Neste estudo serão analisadas as 464 armadilhas de oviposição distribuídas em 5 regiões dacidade do Recife-PE, que é a segunda cidade em número de casos de dengue no Brasil. Recife,capital do Estado de Pernambuco, situa-se no litoral nordeste, possui área de 219,493 km2,clima quente e úmido, com temperatura média de 25,20C e umidade relativa do ar variando de70 a 90% ao longo do ano. De janeiro a abril apresenta altas temperaturas com chuvas esparsas,seguida por fortes chuvas de maio a agosto, por fim, períodos de seca de setembro a dezembro.Estas são condições climática favorávies à proliferação do mosquito.

As 5 regiões estudadas correspondem a 7 dos 94 bairros da cidade do Recife. Na seleção foiconsiderado o risco de transmissão da doença e a qualidade de vida em cada região, resultandoem cenários bastante distintos para a proliferação do mosquito. A seguir, são descritas algumascaracterísticas de cada região e as siglas em negrito serão utilizadas, ao longo do texto, pararepresentá-las.

• Região 1 (BT) - Bairro: Brasília Teimosa, classificada como sendo de alto risco e baixaqualidade de vida, é localizada na parte litorânea da cidade. Possui área de 0,62 km2 edensidade populacional de 30,895 habitantes/km2, com população de classe baixa.

• Região 2 (CFP) - Bairros: Casa Forte e Parnamirim - com área de 1,17 km2, densidadepopulacional de 21,386 habitantes/ km2, vivendo predominantemente em prédios altos -

Page 21: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

7

possui baixo risco e alta qualidade de vida, com população de classe média a alta.

• Região 3 (DI) - Bairros: Dois Irmãos e Sítio dos Pintos - existe a presença de vegetaçãoabundante, identificada por resquícios de Mata Atlântica, com densidade populacionalde 3,737 habitantes/km2 em uma área total de 1,16 km2. Possui estrutura fundiáriacaracterizada por pequenas propriedades. É classificada como sendo região de alto riscoe baixa qualidade de vida.

• Região 4 (EM) - Bairro: Engenho do Meio - com 0,89 km2 de área e densidadepopulacional de 11,865 habitantes/km2, distribuídos em um relevo plano. Esta regiãoé bastante heterogênea com relação à classe social da população e o risco de transmissãovaria de baixo a médio.

• Região 5 (MCP) - Bairros: Morro da Conceição e Alto José do Pinho - área de 0,79 km2

possui relevo fortemente ondulado. Densidade populacional de 10,560 habitantes/km2,com população de classe baixa, apresenta médio risco de transmissão.

Em cada uma das 5 regiões foram instaladas e georeferenciadas de 80 a 100 armadilhas,em um total de 464 que permaneceram fixas durante todo o estudo. Essas armadilhas foramdistribuídas de modo a cobrir toda a extensão da região analisada e, de acordo com relatóriosdisponíveis no sítio do Projeto SAUDAVEL2, o planejamento de instalação das armadilhas foirealizado da seguinte forma:

• Geração de uma grade com células de 40 x 40 m na região estudada;

• Exclusão das células incompletas (de borda), ou seja, com área inferior a 1600 m2;

• Identificação de todas as células com números sequenciais, dispostos da esquerda para adireita e de cima para baixo;

• Seleção aleatória das células (onde deveriam ser instaladas as armadilhas) de forma queas mesmas ocupassem toda a região de interesse;

• Divisão das células sorteadas em quatro lotes (grupos).

Aqui serão consideradas as observações realizadas de 04/01/2005 a 16/05/2006, totalizando72 semanas de observação. A coleta das armadilhas e contagem dos ovos foi realizada

2http://www.saudavel.dpi.inpe.br, acessado em 05/12/2011

Page 22: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

8

Tabela 1.1: Quantidade de armadilhas distribuídas em cada região.

Grupo 1 Grupo 2 Grupo 3 Grupo 4 Total

BT 20 20 20 20 80

CFP 25 25 25 25 100

DI 24 20 22 18 84

EM 25 25 25 25 100

MCP 25 25 25 25 100

semanalmente por rodízio. De tal forma que, em cada semana, cerca de 1/4 das armadilhaseram observadas, mas em ciclos de 4 semanas todas as armadilhas eram monitoradas. Cadaarmadilha continha uma lâmina produzida com um material áspero, onde os ovos depositadospelas fêmeas do mosquito ficavam grudados. Estas lâminas eram substituídas e levadas paracontagem dos ovos em laboratório especializado. Desta forma, o que era efetivamente observadoa cada semana correspondia à quantidade de ovos acumulados nas 4 semanas anteriores.

Como a primeira observação foi realizada em 04/01/2005, o experimento teve início em07/12/2004, data em que foram instaladas as armadilhas de um dos grupos. O mesmoprocedimento foi considerado para os demais grupos.

Como, em cada semana, apenas um dos 4 grupos de armadilhas era efetivamente observadotem-se, para cada uma, um total de 18 coletas. A Figura 1.2 apresenta a distribuição espacialdas armadilhas em cada região. Em destaque, para cada região, encontra-se a localizaçãode 4 armadilhas, cada uma delas pertencente a um grupo diferente. Algumas dessas serãomencionadas ao longo do texto.

Cada um dos cinco grupos possui de 18 a 25 armadilhas, distribuídas de forma aleatóriana região e a Tabela 1.1 apresenta a quantidade considerada em cada região e por grupo. Asarmadilhas do primeiro grupo eram observadas nas 5 regiões em cada semana. Na Figura 1.2os símbolos diferenciam os grupos e sua posição permaneceu fixa no decorrer do estudo.

1.2.2 Análise exploratória dos dados

Nesta seção, é apresentada uma análise exploratória inicial obtida para a coleta dos ovos domosquito Aedes aegypti observados nas 5 regiões da cidade de Recife consideradas neste estudo.A Tabela 1.2 descreve o valor mínimo, a mediana, a média, o máximo, a quantidade de valores

Page 23: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

9

292.4 292.6 292.8 293.0 293.2 293.4

9105

.591

06.0

9106

.591

07.0

BT

●●

●●

● ● ●

●●

●●

●● ●

●●

2

27

5476

● Grupo 1 2 3 4

288.0 288.5 289.0 289.5

9111

.291

11.4

9111

.691

11.8

9112

.0

CFP

●●

●●

●● ●

●●

23

38

63

88

283.5 284.0 284.5 285.0 285.5

9113

.091

13.5

9114

.091

14.5

9115

.0

DI

●●

● ●

●●

● ●●

● ●

2

3055

80

285.6 285.8 286.0 286.2 286.4

9108

.591

09.0

9109

.5

EM

● ●●

●●

●●

●●

●●

● ●

●●

19

32

75

90

289.0 289.5 290.0

9112

.491

12.6

9112

.891

13.0

9113

.291

13.4

MCP

● ●

●●●

●●

●● ●

●●

●●

1

32

75

94

Figura 1.2: Disposição das armadilhas em cada região.

ausentes e na última coluna a porcentagem de valores faltantes. Estes foram causados porproblemas técnicos ocorridos na coleta, na contagem ou na tabulação dos resultados.

Page 24: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

10

Tabela 1.2: Medidas resumo de cada região considerada no estudo.

Mínimo Mediana Média Máximo Desvio No Obs. % Obs.

padrão faltantes faltantes

BT 0 1002 1467 10010 1417,05 130 9,03

CFP 0 611 867,6 24420 1021,6 298 16,56

DI 0 268 469,8 6828 605,61 119 7,87

EM 0 578 1002 8925 1177,22 317 17,61

MCP 0 683 1008 27816 1227,53 361 20,05

Como neste estudo foram consideradas 18 semanas de observações, o produto entre 18e a quantidade de armadilhas de cada região fornece a quantidade total de observações. Arazão entre a quantidade de dados faltantes e este produto resulta em uma proporção quemultiplicado por 100 informa a porcentagem de dados faltantes, como apresentados na últimacoluna da Tabela 1.2.

Percebe-se que existe uma grande variabilidade em todas as regiões. DI apresenta a menorvariabilidade, além de possuir a menor quantidade de valores faltantes. MCP possui a maioramplitude e ainda a maior quantidade de valores faltantes.

A Figura 1.3 apresenta o box-plot da contagem total observada em cada região e nota-seque em todas as regiões a quantidade de ovos apresenta uma distribuição assimétrica à direitae com muitos valores discrepantes.

A Figura 1.4 apresenta o box-plot da contagem dos ovos na escala semanal para cadaregião. Nesta figura foi considerado um corte em 10 mil ovos. As diferentes cores correspondema cada grupo, como descrito na Figura 1.2. Percebe-se que a média de contagem dos ovos variano decorrer das semanas, além disso, quando a média de contagem aumenta a variabilidadetambém aumenta.

De forma geral, as semanas que correspondem ao verão do ano de 2005 iniciam comcontagens baixas com uma tendência de aumento que ocorre e mantém-se no outono destemesmo ano. Com exceção de BT as maiores observações de contagem ocorrem no outono de2005; para BT este máximo acontece no inverno do mesmo ano. As observações seguintes aosperíodos de máximo apresentam tendência de diminuição até o outono de 2006, período em quevoltam a ser observadas contagens altas.

As Figuras 1.5, 1.6, 1.7, 1.8 e 1.9 apresentam, para cada região, um esquema gráfico que

Page 25: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

11

●●

●●

●●●●

●●

●●●

●●

●●

●●●●●

●●●

●●●●

●●●●●●●●●●●

●●

●●●●

●●

●●●

●●●●

●●●

●●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●●●●●

●●

●●

●●

●●●●●

●●●●●

●●

●●

●●●●●

●●●●

●●

●●●●●

●●●●

●●●●

●●●●●●●

●●●●●●●●

●●

●●

●●●●

●●

●●●●●●●●●●

●●

●●●●●

●●●●●●●●●●●

●●

●●●●●

●●●●

●●

●●●●●

●●●●

●●

●●

●●

●●●

●●

●●

●●●●

●●●●●

●●

●●

●●

●●

●●

●●

●●●●●

●●●

●●●●●●●●

●●●

●●●●

●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●●●●

●●●●●●●

●●●●

●●●

●●●

●●●●●

●●

●●●●

●●●

●●

●●●

●●

●●●

●●●●●

●●●●●●

●●●●

●●●●

●●

●●●

●●

Núm

ero

de o

vos

BT CFP DI EM MCP

050

0010

000

2000

0

050

0010

000

2000

0

Figura 1.3: Box-plot da contagem de ovos nas 5 regiões.

descreve o desalinhamento espacial decorrente do planejamento amostral, bem como pontuaqual semana não há observação de uma determinada armadilha, caracterizando um dadofaltante. No eixo das abscissas encontram-se as datas semanais em que houve observaçãode cada grupo e no eixo das ordenadas o número das armadilhas consideradas em cada região.As cores diferenciam os grupos como na Figura 1.4 e os retângulos em branco representam uma“não observação”. Por exemplo, em todas as regiões o grupo 1 teve sua primeira observaçãoem 04/01/2005. Para BT nesta data todas as armadilhas do grupo 1 foram observadas; jána semana de 29/03/2005 a armadilha 1 do grupo 1 não é observada, caracterizando um dadofaltante.

Page 26: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

12

BT

●●

●●

●●

●●

14/1

2/20

04

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

020

0040

0060

0080

0010

000

Grupo 1

2

3

4

CFP

●●●

●●●

●●

● ●

●● ●

●●●

●● ●

●●

●●

●●

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

020

0040

0060

0080

0010

000

DI

● ●

●●

●●

●●

●●● ●

●●

●●

●●●

●●

●●

●●

●● ●

●●

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

020

0040

0060

0080

0010

000

EM

●●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●

●●

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

020

0040

0060

0080

0010

000

MCP

●●●

● ●

●●

●●

● ●

●●

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

020

0040

0060

0080

0010

000

Figura 1.4: Box-plot da contagem semanal do número de ovos nas 5 regiões do estudo.

Page 27: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

13

BT

Arm

adilh

a

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

17

1523

3139

4755

6371

79

Figura 1.5: Esquema das observações para a região BT, destacadas por grupo das observações.

CFP

Arm

adilh

a

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

19

1727

3747

5767

7787

97

Figura 1.6: Esquema das observações para a regiãoCFP, destacadas por grupo das observações.

Page 28: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

14

DI

Arm

adilh

a

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

17

1523

3139

4755

6371

79

Figura 1.7: Esquema das observações para a região DI, destacadas por grupo das observações.

EM

Arm

adilh

a

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

19

1727

3747

5767

7787

97

Figura 1.8: Esquema das observações para a região EM, destacadas por grupo das observações.

Page 29: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

15

MCP

Arm

adilh

a

04/0

1/20

05

25/0

1/20

05

15/0

2/20

05

08/0

3/20

05

29/0

3/20

05

19/0

4/20

05

10/0

5/20

05

31/0

5/20

05

21/0

6/20

05

12/0

7/20

05

02/0

8/20

05

23/0

8/20

05

13/0

9/20

05

04/1

0/20

05

25/1

0/20

05

15/1

1/20

05

06/1

2/20

05

27/1

2/20

05

17/0

1/20

06

07/0

2/20

06

28/0

2/20

06

21/0

3/20

06

11/0

4/20

06

02/0

5/20

06

19

1727

3747

5767

7787

97

Figura 1.9: Esquema das observações para a região MCP, destacadas por grupo das

observações.

Page 30: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

16

1.3 Contribuições e organização do trabalho

Tendo em vista o desafio em analisar um conjunto de dados reais, com um planejamentoexperimental muito particular, o presente trabalho apresenta contribuições em algumasdireções. A primeira delas refere-se à caracterização de processos espaciais com agregaçãotemporal. A inovação está em apresentar as condições necessárias para que um MLDmultivariado e temporalmente agregado apresente a mesma estrutura do MLD do processodesagregado.

Uma outra contribuição segue no sentido da análise de um conjunto de dados reais comagregação no tempo e desalinhamento no espaço. A motivação desta análise veio a partir dosdados descritos na Seção 1.2. Discutem-se modelos tanto para resposta contínua, como pararesposta discreta. A inferência é realizada sob o enfoque bayesiano usando-se de Métodos deMonte Carlo via Cadeias de Markov (MCMC). Os programas foram todos implementados emOX versão 6 (Doornik, 2002) e as figuras executadas no programa R.

A estrutura do texto está organizada de forma que, no Capítulo 2 apresentam-se quais são ascondições necessárias para que um processo multivariado com agregação temporal siga a mesmaestrutura do MLD multivariado desagregado. Esse capítulo considera classes particulares deMLD´s, como MLD polinomial de primeira e segunda ordens, de regressão passando pelaorigem, MLD sazonal na forma livre e superposição em modelos dinâmicos.

De posse dos resultados encontrados no Capítulo 2, são propostos, no Capítulo 3, modelospara dados espaço-temporais com resposta contínua, considerando que as observações sãorealizadas em pontos fixos do espaço e em vários instantes de tempo. Nesse capítulo, éconsiderado que estes pontos fixos podem ser observados em várias regiões. Para variávelresposta normalmente distribuída é, primeiramente, proposto um modelo para uma regiãoindividual e na sequência um modelo hierárquico considerando várias regiões. Nesse capítulo,também, será apresentado um estudo de simulação com 30 conjuntos de dados sintéticosdiferentes, que visa testar o algoritmo de estimação.

No Capítulo 4, é proposto um modelo para variável resposta discreta, considerando-se dadosartificiais com resposta seguindo uma distribuição Poisson. Como no Capítulo 3, será propostoum modelo para uma região e um modelo hierárquico para várias regiões. O Capítulo 5 éreservado para a análise dos dados reais e os modelos propostos nos Capítulos 3 e 4 serãoajustados aos dados reais apresentados no Capítulo 1. Por fim, o Capítulo 6 apresenta asconclusões e possíveis trabalhos futuros.

Page 31: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Capítulo 2

Agregação temporal em modelos lineares

dinâmicos multivariados

Neste capítulo, é formulado um modelo linear dinâmico (MLD) com resposta multivariada eagregação no tempo. O objetivo é mostrar as condições necessárias para que a agregação deum vetor resposta, que segue a estrutura de um MLD, também resulte em um MLD. Schmidt eGamerman (1997) apresentam resultados para a agregação em MLD com resposta univariada.Aqui, pretende-se discutir esses resultados para o caso multivariado, em que a variável respostadeixa de ser um escalar e passa a ser um vetor coluna ao longo do tempo.

Inicialmente, é realizada uma breve revisão de alguns conceitos que são utilizados nasespecificações dos modelos propostos. Mais especificamente, é apresentada uma revisão sobre osMLD´s multivariados (Seção 2.1). Além disso, estendem-se as ideias apresentadas em Schmidte Gamerman (1997) (Seção 2.2) para o caso de uma série temporal observada em pontos fixosde uma região geográfica.

2.1 Modelos lineares dinâmicos multivariados

Os MLD’s (West e Harrison, 1997) são uma classe ampla de modelos representados por umpar de equações denominadas equação de observação e equação de evolução ou do sistema.A primeira descreve a distribuição das observações e a segunda, a forma de evolução dosparâmetros ao longo do tempo. Mais especificamente, suponha que Yt seja um vetor colunacom N observações no instante de tempo t, com t = 1, 2, · · · , T ; o modelo é definido pela

17

Page 32: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

18

quádrupla {Ft,Gt,Vt,Wt}. Para cada instante de tempo t, as matrizes que compõem estaquádrupla são consideradas conhecidas com as seguintes dimensões:

• Ft é uma matriz de regressão dinâmica (m×N) ;

• Gt é uma matriz de evolução dos estados (m×m) ;

• Vt é uma matriz de variância observacional (N ×N) ;

• Wt é uma matriz de variância de evolução (m×m).

As equações de observação e do sistema correspondentes ao MLD multivariado são:

Yt = F′tµt + νt, νt ∼ N(0,Vt) (2.1)

µt = Gtµt−1 + ωt ωt ∼ N(0,Wt),

com νt e ωt independentes, e mutuamente independentes, e µt um vetor de estados m-dimensional.

As estruturas do MLD podem ser generalizadas ao considerar a quádrupla {Ft,Gt,Vt,Wt}desconhecida e incorporar estruturas nas equações de observação e/ou de evolução pararepresentar estruturas mais complexas, tais como sazonalidade, presença de níveis, dependênciade covariáveis explicativas, dependência espacial, dentre outras.

De acordo com West e Harrison (1997), na prática, supor desconhecidos os componentes daquádrupla poderá ser um fator limitante e introduzir complicações nas estimações, já que iráinfluenciar diretamente o tamanho do vetor paramétrico a ser estimado.

Uma das possibilidades de contornar essas complicações é assumir estruturas em Vt deforma a reduzir a quantidade de parâmetros. Por exemplo, considerar Vt = σ2I, assumindodesta forma independência nas observações ou Vt = Σ, constante ao longo do tempo.

No contexto espacial, assume-se que Yt é observado em N pontos do espaço s1, s2, · · · , sN .Supondo um processo gaussiano homogêneo (Schmidt e Sansó (2006), Diggle e Ribeiro Jr(2007)), pode-se escrever a função de covariância de Yt como V = σ2R sendo Rjj′ = ρ(djj′ ,φ)

e djj′ a distância euclidiana entre as localizações sj e sj′ , isto é, djj′ = ||sj − sj′ ||. Sendo ρuma função de correlação válida (positiva definida), resulta em R uma matriz simétrica comdiagonal igual a 1 e os demais valores positivos. Desta forma, a dimensão do espaço paramétricode V é reduzido significativamente, já que basta estimar σ2 e φ para obter V.

Existem na literatura diversas famílias de função de correlação válidas. A famíliaexponencial potência e a família Matérn, são os principais exemplos. Neste trabalho, seráconsiderada a função de correlação exponencial, de modo que ρ(d, φ) = exp

{−dφ

}.

Page 33: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

19

Nas próximas seções, são apresentados os resultados para a agregação em MLD multivariadopolinomial de primeira e segunda ordens, de regressão com a reta passando pela origem e MLDsazonal na forma livre. Para finalizar, é utilizado o teorema da superposição para mostrar quediferentes estruturas podem ser capturadas nessa classe de modelos.

2.2 Agregação temporal em modelos lineares dinâmicos

Em modelos nos quais a variável de interesse é indexada no tempo, a amplitude do intervalo detempo entre as observações é de suma importância. Quando dados são amostrados em períodosde tempo muito longos, a informação pode ser agregada. Caso o nível de agregação seja grande,perdem-se detalhes importantes do processo estudado mas, por outro lado, a alta frequênciadas observações amostradas pode levar a problemas de modelagem e aumento nos custos deestimação. Logo, o período de agregação deve ser escolhido de forma cuidadosa.

Schmidt e Gamerman (1997) estudam a agregação temporal em MLD univariado e discutemas suposições necessárias para a agregação temporal em MLD polinomial de primeira e segundaordens, modelos de regressão, modelo sazonal de forma livre e casos de superposição de MLD´s.Para provar que a série agregada segue o mesmo MLD da série desagregada, esses autoressupõem que a variância da equação do sistema é muito menor do que a variância da equaçãodas observações, hipótese comumente adotada em tais modelos.

Aqui, é considerada agregação temporal em MLD multivariado. Desta forma, supondo oMLD como apresentado na Equação (2.1), seja Zk a agregação de r unidades de tempo, definidade modo que

Zk =r∑i=1

Yrk+i = Yrk+1 + Yrk+2 + · · ·+ Yrk+r. k = 0, 1, 2, · · · (2.2)

De forma geral, e assim como apresentado em Schmidt e Gamerman (1997), pode-se obtercada componente de Zk, escrevendo-se, inicialmente,

Yrk+i = F′rk+i

[i∏

j=2

Grk+j

]µrk+1 + F′rk+i

i∑j=2

[i∏

l=j+1

Grk+l

]ωrk+j + νrk+i i = 1, 2, · · · , k,

que corresponde a Yt escrito de forma recursiva, em que∏i

j=2 Grk+j = Grk+iGrk+i−1 · · ·Grk+2.

Substituindo cada componente da soma da Equação (2.2), tem-se:

Zk =r∑i=1

F′rk+i

{[i∏

j=2

Grk+j

]µrk+1 +

i∑j=2

[i∏

l=j+1

Grk+l

]ωrk+j

}+

r∑i=1

νrk+i

Page 34: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

20

=r∑i=1

F′rk+i

[i∏

j=2

Grk+j

]µrk+1 + ν∗k,

em que ν∗k =∑r

i=1 F′rk+i∑i

j=2

[∏il=j+1 Grk+l

]ωrk+j +

∑ri=1 νrk+j.

Como resultado da agregação em Zk, tem-se uma nova especificação da quádrupla e, sendoassim, não será, analiticamente, possível encontrar uma forma geral para o MLD em Zk. Logo,classes particulares de MLD serão consideradas. Além disso, é importante ressaltar que oscomponentes de ruído definidos na equação de observação e do sistema, para o MLD agregado,violam a suposição de independência e algumas condições particulares devem ser consideradas,como pode ser visto nas seções seguintes.

2.2.1 MLD multivariado polinomial de primeira ordem - caso geral

Neste modelo, a série resposta Yt é um vetor coluna N × 1 para todo t = 1, 2 . . . , T , descritapor um nível Ftµt, mais um termo de distúrbio. O nível da evolução é um passeio aleatóriocom erro de evolução dado por ωt. Sendo Ft um vetor coluna de dimensão N × 1, é assumidoque µt é comum para toda localização no espaço.

Assim, o modelo é definido pela quádrupla M = {Ft, 1,V,W}, de modo que

Yt = Ftµt + νt, νt ∼ N(0,V) (2.3)

µt = µt−1 + ωt, ωt ∼ N(0,W ).

De forma análoga, e introduzindo a notação elemento a elemento, tem-se Yt(s) = Ft(s)µt+νt(s).

Suponha, agora, que as observações do processo Yt sejam agregadas em r unidades detempo, o que resulta em um novo processo, definido como Zk =

∑ri=1 Yrk+i = Yrk+1 +Yrk+2 +

· · ·+ Yrk+r, k = 0, 1, 2, · · · a soma de vetores coluna N × 1, resultando em um vetor coluna demesma dimensão. O interesse agora é determinar a quádrupla que define o novo MLD resultanteda agregação temporal. Para tanto, cada termo da equação de Zk será recursivamente obtidopela substituição de Yrk+i na equação de observação do modelo resultante, levando a

Yrk+i = Frk+iµrk+1 + Frk+i

i∑j=2

ωrk+j + νrk+i i = 1, 2, · · · , r.

Assim,

Zk =r∑i=1

Yrk+i

Page 35: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

21

= µrk+1

r∑i=1

Frk+i +r∑i=2

(r∑j=i

Frk+j

)ωrk+i +

r∑i=1

νrk+i

= F∗kαk + ν∗k,

com αk = µrk+1, F∗k =∑r

i=1 Frk+i e ν∗k =∑r

i=2

(∑rj=i Frk+j

)ωrk+i +

∑ri=1 νrk+i.

Para provar que Zk segue um MLD é necessário verificar se αk pode ser escrito comouma função linear de αk−1 mais um termo de distúrbio independente no tempo. Substituindorecursivamente o valor µrk+1 na equação do sistema, tem-se que µrk+1 = µrk−r+1+

∑r+1j=2 ωrk−r+j,

resultando em

αk = µrk+1

= µrk−r+1 +r+1∑j=2

ωrk−r+j

= αk−1 + ω∗k,

em que ω∗k é normalmente distribuído com média zero, pois resulta da soma de variáveisaleatórias normalmente distribuídas com média zero, e com variância

W ∗k = Var(ω∗k)

= Var

(r+1∑j=2

ωrk−r+j

)= rW,

pois assume-se que ωt e ωt′ são independentes, ∀ t, t′.A matriz de variância da perturbação da série resposta agregada é dada por:

V∗k = Var(ν∗k)

= Var

(r∑i=2

(i∑

j=2

Frk+j

)ωrk+i +

r∑i=1

νrk+i

)

= Wr∑i=2

(i∑

j=2

Frk+jF′rk+j

)+ rV.

Desta forma, o modelo para a série agregada é definido pela quádrupla {F∗k, 1,V∗k,W ∗k }.

É importante observar que, condicional a αk−1, Zk−1 e αk não são independentes, poisdependem de ωrk−r+i, para i = 2, 3, · · · , r, assim, deve-se considerar a covariância condicionalentre as duas quantidades. Para o cálculo desta covariância será utilizado o artifício de

Page 36: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

22

considerar cada elemento do vetor, em que C(s) = Cov(αk, Zk−1(s)|αk−1), sendo Zk−1(s) oelemento na posição s = 1, 2, · · · , N . Logo

C(s) = Cov(αk, Zk−1(s)|αk−1)

= Cov(αk−1 + ω∗k, F∗k−1(s)αk−1 + ν∗k−1(s)|αk−1)

= Cov(ν∗k−1(s), ω∗k|αk−1)

= Cov

(r∑i=2

(i∑

j=1

Frk−r+j(s)

)ωrk−r+i +

r∑i=1

νrk−r+i,

r∑i=1

ωrk−r+i+1

)

= Wr∑i=2

(r − i+ 1)Frk−r+i(s).

Usando propriedades da distribuição normal multivariada pode-se escrever Zk−1

αk|αk−1

∼ N

F∗k−1αk−1

αk−1

,

V∗k C

C′ W ∗k

,

em que C é o vetor contendoW∑r

i=2(r−i+1)Frk−r+i(s). Então, (αk|Zk−1, αk−1) ∼ N(m1, C1),com C1 = W ∗

k −C′V∗−1k C e m1 = αk−1+C′V∗−1k (Zk−1−F∗k−1αk−1). Logo a evolução de αk seráfeita por αk = αk−1 + C′V∗−1k (Zk−1 − F∗k−1αk−1) + ω∗∗, em que ω∗∗ ∼ N

(0,W ∗

k −C′V∗−1k C).

Agora o distúrbio do sistema ω∗∗ é independente de ν∗k e, também, mutuamenteindependente. O modelo, então, está de acordo com a estrutura usual de um MLD, entretanto,nota-se que o distúrbio do sistema possui média diferente de zero.

Na prática, em MLD a variância da equação do sistema é, usualmente, menor do que avariância das observações. No contexto espacial a matriz de covariância das observações é,usualmente, modelada com V = σ2R, que é dominada por σ2. Então, para valores pequenosde r, W

σ2 é aproximadamente igual a zero, logo

C′V∗−1k =

(W

r∑i=2

(r − i+ 1)Frk−r+i

)′(W

r∑i=2

(i∑

j=2

Frk+jF′rk+j

)+ rV

)−1

=

(W

r∑i=2

(r − i+ 1)Frk−r+i

)′{(1

rσ2R−1

)−[I +

W

rσ2R−1

r∑i=2

(i∑

j=2

Frk+jF′rk+j

)]−11

rσ2R−1W

r∑i=2

(i∑

j=2

Frk+jF′rk+j

)1

rσ2R−1

},

de forma que C′V∗−1k → 0, quando Wσ2 → 0. Foi utilizada a propriedade II apresentada na

Equação (6.2) do Apêndice 6.2.

Page 37: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

23

Então, sob essas condições, a estrutura do modelo se mantém representada pelo MLD daseguinte forma:

Zk = F∗kαk + ν∗k ν∗k ∼ N(0,V∗k) (2.4)

αk = αk−1 + ω∗k ω∗k ∼ N(0,W ∗k ).

Usando-se a Equação (2.4) conclui-se que o processo resultante da agregação segue,aproximadamente, a mesma estrutura do processo desagregado. A Equação (2.3) apresentaum caso geral do modelo com nível e, desta forma, podem-se considerar diferentes estruturaspara o vetor Ft. Por exemplo, um caso mais geral assume que Ft é um vetor de variáveisregressoras para cada tempo, com valores diferentes em cada localização.

A seguir, são apresentados os resultados para os casos particulares. No primeiro caso, Ft

é assumido um vetor de uns e, sendo assim, a média das observações é µt para todo Yt. Nosegundo caso, é considerado que a covariável é comum a todo vetor Yt. Os resultados paracada um dos casos particulares são apresentados a seguir:

Caso1 - Modelo com nível variando no tempo:

O processo desagregado é dado pelo seguinte modelo:

Yt = Ftµt + νt, νt ∼ N(0,V)

µt = µt−1 + ωt, ωt ∼ N(0,W ),

em que o vetor Ft é N × 1 com elementos iguais a 1 para todo tempo t. Logo o valor µt seráo mesmo para todo Yt(s), t = 1, 2 · · · , T e s = 1, 2, · · · , N . O processo resultante da agregaçãoem r unidades de tempo é:

Zk = 1rµrk+1 + 1r∑i=2

(r − i+ 1)ωrk+i +r∑i=1

νrk+i

= 1αk + ν∗k ,

em que ν∗k = 1∑r

i=2(r − i+ 1)ωrk+i +∑r

i=1 νrk+i.

Seguindo os argumentos do caso geral de MLD de primeira ordem prova-se que a sérieagregada resulta em um MLD de primeira ordem definido pela quádrupla {1, 1,V∗k,W ∗

k }, como seguinte modelo :

Zk = 1αk + ν∗k, ν∗k ∼ N(0,V∗k) (2.5)

αk = αk−1 + ω∗k, ω∗k ∼ N(0,W ∗k ),

Page 38: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

24

em que

αk = rµrk+1

W ∗k = Var(ω∗) = Var

(rr+1∑j=2

ωrk−r+j

)= r3W

V∗k = Var(ν∗k) = Var

(1

r∑i=2

(r − i+ 1)ωrk+i +r∑i=1

νrk+i

)= 1W

(1

3r3 − 1

2r2 +

1

6r

)1′ + rV

C = 1r2(r − 1)W

2.

Caso 2 - Modelo com uma variável regressora passando pela origem:

Neste caso, a covariável possui uma observação comum para toda localização s e para cadatempo t, ou seja, Xt(s) = Xt para todo s. Desta forma, define-se o modelo por:

Yt = 1Xtµt + νt, νt ∼ N(0,V)

µt = µt−1 + ωt, ωt ∼ N(0,W ),

em que Xt é o valor da covariável no tempo t. Este modelo também é conhecido como MLD deregressão através da origem com resposta multivariada, definido pela quádrupla {1Xt, 1,V,W}.

O interesse, novamente, é verificar se a série agregada em r unidades de tempo segue umMLD e quais as condições para que isso aconteça. O processo resultante da agregação é:

Zk = 1rµrk+1

r∑i=1

Xrk+i + 1r∑i=2

(r∑i=1

Xrk+i

)ωrk+i +

r∑i=1

νrk+i

= 1αkX∗k + ν∗k

O novo MLD de regressão através da origem é definido pela quádrupla {1X∗k , 1,V∗k,W ∗k }, logo

Zk = 1αkX∗k + ν∗k , ν∗k ∼ N(0,V∗k)

αk = αk−1 + ω∗k, ω∗k ∼ N(0,W ∗k ),

em que

αk = rµrk+1

X∗k =r∑i=1

Xrk+i

W ∗k = Var(ω∗) = Var

(r+1∑j=2

ωrk−r+j

)= rW

Page 39: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

25

V∗k = Var(ν∗k) = Var

(1

r∑i=2

(r∑i=1

Xrk+i

)ωrk+i +

r∑i=1

νrk+i

)

= 1W

(r∑i=2

r∑i=1

Xrk+i

)2

1′ + rV

C = 1Wr∑i=2

Xrk−r+i.

2.2.2 Modelo dinâmico polinomial de segunda ordem

O modelo é definido pela seguinte quádrupla M = {1⊗ E′2,G2,V,W}, com

E2 =

1

0

G2 =

1 1

0 1

W =

W1 +W2 W2

W2 W2

.

A equação de observação e do sistema são dadas por

Yt = (1⊗ E′2)θt + νt νt ∼ N(0,V) (2.6)

θt = G2θt−1 + ωt ωt ∼ N(0,W),

em que 1 é um vetor de uns de dimensão N e θt = (µt, βt)′. Este modelo é usado quando a série

resposta Yt apresenta alguma tendência linear. O parâmetro adicional quantifica a mudançano nível.

A Equação (2.6) pode ser escrita da seguinte forma:

Yt = 1µt + νt νt ∼ N(0,V)

µt = µt−1 + βt + ωt,1 ωt = (ωt,1, ωt,2)′ ∼ N(0,W)

βt = βt−1 + ωt,2.

O nível da série é descrito por µt, e βt representa a taxa corrente da mudança donível. É assumida independência dos termos de distúrbio, ou seja, νt e ωt são mutuamenteindependentes para todo t, e ωt,1 e ωt,2 são independentes para todo t.

Se as observações do processo forem coletadas a cada r unidades do tempo, Zk será oprocesso resultante dessa agregação. Como antes, o interesse é verificar se Zk segue um MLDe qual a quádrupla que o define. Novamente, obtém-se cada termo da equação das observaçõespela substituição recursiva de Yrk+i, i = 1, 2, · · · , r na equação das observações, resultando em

Yrk+i = 1µrk+1 + 1(i− 1)βrk+1 + 1i−1∑j=1

(i− j)ωrk+i+1,2 + 1i∑

j=2

ωrk+j,1 + νrk+i (2.7)

Page 40: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

26

Cada parcela de Zk é obtida somando a Equação (2.7) em i. Dessa forma

Zk = 1

[rµrk+1 +

r

2

βrk+1 +r∑i=2

(r − i+ 2)(r − i+ 1)

2ωrk+i,2 + (2.8)

r∑i=2

(r − i+ 1)ωrk+i,1

]+

r∑i=1

νrk+i.

É necessário definir parâmetros que descrevam a ligação da série entre os tempos k e k− 1,definindo assim um MLD para Zk. Para isso, inicialmente, é definida uma matriz A, tal que

A =

r

r

2

0 r2

. (2.9)

A matriz em 2.9 fornece a ligação entre os parâmetros de Yt e Zk. Define-se, agora, o vetorψk = Aθrk+1, sendo θrk+1 = (µrk+1, βrk+1)

′ e ψk = (αk, γk)′. Observe que

Zk(s) = ( 1 0 )Aθrk+1 + ν∗k(s)

= ( 1 0 )

r

r

2

0 r2

µrk+1

βrk+1

+ ν∗k(s)

= rµrk+1 +

r

2

βrk+1 + ν∗k(s)

= E′2ψk + ν∗k(s),

como na Equação (2.8), e

ν∗k(s) =r∑i=2

(r − i+ 2)(r − i+ 1)

2ωrk+i,2 +

r∑i=2

(r − i+ 1)ωrk+i,1 +r∑i=1

νrk+i(s).

Equivalentemente, Zk = 1⊗ E′2ψk + ν∗k, com

ν∗k = 1

[r∑i=2

(r − i+ 2)(r − i+ 1)

2ωrk+i,2 +

r∑i=2

(r − i+ 1)ωrk+i,1

]+

r∑i=1

νrk+i.

A série agregada no tempo k − 1, é Zk−1 = 1⊗ E′2ψk−1 + ν∗k−1.

Page 41: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

27

Pela substituição recursiva de θrk+1, na equação de evolução

ψk = Aθrk+1

= A(G2θrk + ωrk+1)

= · · ·

= AGr2θrk−r+1 +

r∑j=2

AGr−j+12 ωrk−r+j + Aωrk+1.

em que,

Gr2 =

1 r

0 1

.

A matriz A é definida de forma a satisfazer a igualdade AGr2 = G2A, logo r

r

2

0 x

1 r

0 1

=

1 r

0 1

r

r

2

0 x

r r2 +

r

2

0 x

=

r x+

r

2

0 x

o que justifica o valor r2 na matriz A. Desta forma, pode-se escrever ψk como ψk = G2ψk−1 +

ω∗k, com

ω∗k = (ω∗k,1, ω∗k,2)′ =

r∑j=2

AGr−j+12 ωrk−r+j + Aωrk+1.

A expressão de cada elemento do vetor ψk é dada por:

ψk =

αk

βk

= AGr2θrk−r+1 +

r∑j=2

AGr−j+12 ωrk−r+j + Aωrk+1

=

r r2 + r(r−1)2

0 r2

µrk−k+1

βrk−r+1

+

r r(r − 1) + r(r−1)2

0 r2

ωrk−k+2,1 + ωrk−k+2,2

ωrk−k+2,2

+ · · ·+

r r(r−1)2

0 r2

ωrk+1,1 + ωrk+1,2

ωrk+1,2

.

Page 42: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

28

Logo,

αk = rµrk−r+1 +2r2 + r(r − 1)

2βrk−r+1 + r

r+1∑i=2

ωrk−r+i,1 +

rr+1∑j=2

3− 3r − 2j

2ωrk−r+j,2

γk = r2βrk−r+1 + r2

(r+1∑i=2

ωrk−r+i,2

)

Como as equações de Zk eψk apresentam termos em comum no que se refere às perturbações,a covariância entre os elementos de ν∗k−1 e ω∗k não é igual a zero, violando a suposição usualde independência entre as perturbações. Assim, é necessário considerar um componente decovariância entre ν∗k−1 e ω∗k,1, assim como, ν∗k−1 e ω∗k,2. Desta forma, tem-se que:

V ∗k = Var(ν∗k) = Var(

1

(r∑i=2

(r − i+ 1)ωrk+i,1 +r∑i=2

(r − i+ 2)(r − i+ 1)

2ωrk+i,2

)+

r∑i=1

νrk+i

)= 1W1

r∑i=2

(r − i+ 1)21′ + 1W2

r∑i=2

(r − i+ 2)2(r − i+ 1)2

41′ + rV

= 1W1

(r3

3− r2

2+r

6

)1′ + 1

W2

4

(2r

15− r3

3+r5

5

)1′ + rV.

Pela equação de αk e reproduzindo os cálculos apresentados em Schmidt (1996) (p. 40),tem-se que:

ω∗k,1 + ω∗k,2 = r

r+1∑i=2

ωrk−r+i,1 + r

r+1∑j=2

3 + 3r − 2j

2ωrk−r+j,2,

assim

Var(ω∗k,1 + ω∗k,2) = r3W1 + r2W2

r+1∑j=2

(3 + 3r − 2j

2

)2

= r3W1 +r2

12W2(−r + 13r2).

Logo, pode-se obter a variância de ω∗k,1, isto é,

W ∗1 = Var((ω∗k,1 + ω∗k,2)− ω∗k,2)

Page 43: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

29

= Var(ω∗k,1 + ω∗k,2) + Var(−ω∗k,2)− 2Cov(ω∗k,1 + ω∗k,2,−ω∗k,2)

= r3W1 +r2

12W2(−r + 13r2) + r5W2

−2Cov

(r+1∑j=2

r

(3 + 3r − 2j

2

)ωrk−r+j,2, r

2

r+1∑j=2

ωrk−r+j,2

)

= r3W1 +r2

12W2(−r + 13r3) + r5W2 − 2W2

r+1∑j=2

r3(

3 + 3r − 2j

2

)= r3W1 +

r2

12W2(−r + 13r3) + r5W2 − 2r5W2

= r3W1 + (r5 − r3)W2

12.

A variância da perturbação do componente da tendência é

W ∗2 = Var(ω∗k,2)

= Var(r2r+1∑i=2

ωrk−r+i,2)

= r5W2.

O componente de covariância entre o nível αk e a observação agregada Zk(s) é dado por

C1(s) = Cov

Zk−1(s), αk| αk−1

γk−1

= Cov

( r∑i=2

(r − i+ 1)ωrk−r+i,1 +r∑i=2

(r − i+ 2)(r − i+ 1)

2ωrk−r+i,2,

rr+1∑i=2

ωrk−r+i,1 + r

r+1∑j=2

ωrk−r+j,2|

αk−1

γk−1

)

= r

r∑i=2

(r − i+ 1)Var(ωrk−r+i,1) + r

r∑i=2

(r − i+ 2)(r − i+ 1)(3 + 3r − 2i)

2Var(ωrk−r+i,2)

=r2(r − 1)

2(W1 +W2) +

5rW2

12(r4 − r2),

e desta forma C1 = 1C1(s) é um vetor de dimensão N .

Analogamente, para a covariância entre o componente de tendência, γk e Zk(s) é dado por

C2(s) = Cov

Zk−1(s), γk| αk−1

γk−1

Page 44: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

30

= Cov( r∑

i=2

(r − i+ 1)ωrk−r+i,1 +r∑i=2

(r − i+ 2)(r − i+ 1)

2ωrk−r+i,2,

r2r+1∑i=2

ωrk−r+i,2|

αk−1

γk−1

)

=r2

2W2

r∑i=2

(r − i+ 2)(r − i+ 1)

=r5 − r3

6W2,

e assim, C2 = 1C2(s) é um vetor de dimensão N .

A covariância entre ω∗k,1 e ω∗k,2 é igual a zero, o que confirma a hipótese de independênciaentre as pertubações da equação do sistema, pois

Cov(ω∗k,1, ω∗k,2) = Cov(r

k+1∑i=2

ωrk−r+i,1 + rr+1∑j=2

3 + r − 2j

2ωrk−r+j,2, r

2

r+1∑i=2

ωrk−r+i,2)

= r3W

[(3 + r

2

)r −

(r(r + 3)

2

)]= 0.

Usando a teoria da distribuição normal multivariada, pode-se escrever:Zk−1

αk

γk

1(αk−1 + γk−1)

αk−1 + γk−1

γk−1

,

V ∗k C1 C2

C′1 W ∗1 +W ∗

2 W ∗2

C′2 W ∗2 W ∗

2

,

e assim a evolução do vetor ψt pode ser representada por meio da seguinte equação

αk

γk

=

αk−1 + γk−1

γk−1

+(

C1 C2

)′V∗−1k (Zk−1 − 1(αk−1 + γk−1)) + ω∗∗k ,

em que ω∗∗k ∼ N(0,W∗∗), com

W∗∗ =

W ∗1 +W ∗

2 W ∗2

W ∗2 W ∗

2

− ( C1 C2

)′V∗−1

(C1 C2

).

Como antes, será considerado V = σ2R e, sob a suposição de W1

σ2 e W2

σ2 tenderem a zero,(C1 C2

)′V∗−1k tenderá a zero, para valores pequenos da agregação temporal. Então, o

Page 45: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

31

processo agregado será definido pela quádrupla {1 ⊗ E′2,G2,V∗k,W

∗k}, com Zk representado

pelas seguintes equações:

Zk = (1⊗ E′2)ψk + ν∗k ν∗k ∼ N(0,V∗k) (2.10)

ψk = G2ψk−1 + ω∗k ω∗k ∼ N(0,W∗k)

2.2.3 Agregação temporal em MLD sazonais na forma livre

O modelo sazonal na forma livre, com ciclo de tamanho p, é definido pela quádrupla: {1 ⊗Ep,Pp,V,W}, com

Ep =

1

0...

0

Pp =

0 1 0 · · · 0

0 0 1 · · · 0...

...... . . . ...

0 0 0 · · · 1

1 0 0 · · · 0

=

0p−1 Ip−1

1 0′p−1

,

em que Ep é um vetor coluna de dimensão p, Pp é uma matriz p× p, Ip−1 é a matriz identidade(p − 1) × (p − 1) e 0p−1 é um vetor coluna de zeros de dimensão p − 1. Logo, as equações deobservação e do sistema são dadas por

Yt = 1⊗ E′pφt + νt νt ∼ N(0,V)

φt = Ppφt−1 + ωt ωt ∼ N(0,W),

em que 1 é um vetor de dimensão N , φ′t = (φt,0, φt,1, · · · , φt,p−1) e com a restrição adicional deque 1′pφt = 0.

Com o processo sendo observado a cada r unidades de tempo, o interesse, assim como noscasos anteriores, é verificar se a série agregada Zk segue um MLD e qual a quádrupla definidoradesse novo modelo. Como foi feito para os modelos anteriores, substituindo recursivamenteYrk+i, tem-se

Yrk+i = 1(φrk+r−1,1 + ωrk+r,0) + νrk+i

= 1(φrk+r−2,2 + ωrk+r−1,1 + ωrk+r,0) + νrk+i

= · · ·

= 1(φrk+1,i +r∑j=0

ωrk+i−j,j) + νrk+i.

Page 46: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

32

Dessa forma, Zk é escrito como:

Zk = 1r−1∑i=0

φrk+1,i + 1r∑i=2

1′p,r−i+1ωrk+i + νrk+i

= 1ψk0 + ν∗k,

em que ψk0 =∑r−1

i=0 φrk+1,i, ν∗k = 1∑r

i=2 1′p,r−i+1ωrk+i + νrk+i e 1p,h é um vetor coluna dedimensão p com 1 nas primeiras h posições e zero nas demais. Por definição, 1p,0 = 0p.

Assuma que q = p/r é um inteiro, e defina um vetor ψk, de dimensão q, tal que

ψk =

ψk,0

ψk,1

· · ·

ψk,q−1

,

em que ψk,j =∑jr−1

i=(j−1)r φrk+1,i, j = 1, · · · , q, que define o vetor de efeitos sazonais para asérie agregada, e que também satisfaz a restrição de soma zero dos efeitos sazonais, ou seja,1′ψk = 0. Agora, a matriz A é definida como

A = Iq ⊗ 1′r,r,

de dimensão (q × p). Esta matriz é a ligação entre os parâmetros de Yt e Zk, ou seja, ψk =

Aφrk+1. Dessa forma, pode-se escrever Zk como

Zk = 1E′qAφrk+1 + ν∗k

= 1r−1∑i=0

φrk+1,i + 1r∑i=2

1′p,r−i+1ωrk+i +r∑i=1

νrk+i.

Substituindo recursivamente φrk+1, obtém-se:

ψk = A(Ppφrk + ωrk+1)

= A(Pp(Ppφrk−1 + ωrk) + ωrk+1)

= · · ·

= APrpφrk−r+1 +

r∑j=2

APr−j+1p ωrk−r+j + Aωrk+1.

Para mostrar que a série agregada segue um MLD é necessário provar que o vetor deparâmetros ψk pode ser escrito da seguinte forma

APrp = PqA, (2.11)

Page 47: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

33

pois dessa forma segue, diretamente, que

ψk = Pqψk−1 + ω∗k,

em que ω∗k =∑r

j=2 APr−jp ωrk−r+j+Aωrk+1. Como apresentado em Schmidt (1996), para prova

da Equação (2.11) é preciso inicialmente observar que

Prp =

0 Ir(q−1)

Ir 0

= Pq ⊗ Ir.

Este resultado vem de uma propriedade do produto de Kronecker apresentada na Equação (6.7)do Apêndice 6.2. Dessa forma,

APrp = (Iq ⊗ 1′1,1)(Pq ⊗ Ir)

= Pq ⊗ 1′r,r.

Para provar a segunda parte da igualdade, nota-se que

PqA =

0 Iq−1

1 0

1 · · · 1

0 1 · · · 1 0. . .

1 · · · 1

= (Pq ⊗ 1)(Iq ⊗ 1′r,r)

= Pq ⊗ 1′r,r,

e dessa forma prova-se a igualdade na Equação (2.11).

Então, está provado que Zk também segue um MLD com efeito sazonal com o novo ciclodado por q = p/r e, com as seguintes equações de observação e do sistema:

Zk = 1ψk,0 + ν∗k, ν∗k ∼ N(0,V∗k)

ψk = Pqψk−1 + ω∗k, ω∗k ∼ N(0,W∗k),

em que

V ∗k = Var(ν∗k)

= Var

(1

r∑i=2

1′p,r−i+1ωrk+i + νrk+i(s)

)

= 1

(r∑i=2

1′p,r−i+1W1p,r−i+1

)1′ + rV,

Page 48: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

34

e

W ∗k = Var(ω∗k)

= Var(r∑j=2

APr−jp ωrk−r+j + Aωrk+1)

=r∑j=2

APr−j+1p W(APr−j+1

p )′ + AWA′.

Como visto nos casos anteriores, deve ser notado que Zk−1 e ψk apresentam termos emcomum, violando assim a hipótese usual de independência. Isso implica que condicional aψk−1, Zk−1 e ψk, não são independentes, e dessa forma tem-se que

C(s) = Cov(Zk−1(s), ψk|ψk−1)

= Cov( r−1∑

i=0

φrk−r+1,i +r∑i=2

1′p,r−i+1ωrk−r+i +r∑i=1

νrk−r+i(s),

r∑j=2

APr−jp ωrk−r+j + Aωrk+1|ψk−1

)

= Cov(r∑i=2

1′p,r−i+1ωrk−r+i,r−1∑i=1

APi−1p ωrk−i+1|ψk−1)

= (r−1∑i=1

1′p,r−i+1W(Pip)′)A′.

Logo C = 1(∑r−1

i=1 1′p,r−i+1W(Pip)′)A′.

De acordo com a teoria da distribuição normal multivariada, tem-se que Zk−1

ψk

|ψk−1

∼ N

1Eqψk−1

Pqψk−1

,

V∗k C

C′ W∗

.Dessa forma a evolução de ψk é feita seguindo a teoria normal, da seguinte maneira

ψk = Pqψk−1 + C′V∗−1(Zk−1 − 1ωk−1,0) + ω∗∗k ,

sendo o ruído ω∗∗k−1 independente de ν∗k e ω∗∗k ∼ N(0,W∗∗) com W∗∗ = W∗ −C′V∗−1C.

Como antes, é suposto um período de agregação pequeno e os valores que compõem a matrizW são muito menores do que σ2. Assumindo estas suposições, pode-se considerar a quádrupladefinidora do modelo agregado como {1⊗ E′q,Pq,V

∗k,W

∗}. Logo as equações de observação e

Page 49: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

35

do sistema serão dadas por:

Zk = 1⊗ Eqψk + ν∗k, ν∗k ∼ N(0,V∗k) (2.12)

ψk = Pqψk−1 + ω∗k, ω∗k ∼ N(0,W∗)

2.2.4 Superposição em modelos dinâmicos

Nas seções anteriores, foram apresentados os resultados de agregação temporal em classesespecíficas de modelos. Aqui é tratada a superposição dos modelos citados anteriormente e,dessa forma, será possível flexibilizar ainda mais os MLD´s resultando em modelos que podemcapturar estruturas mais gerais.

A flexibilidade da superposição em MLD multivariados está em permitir que um vetor possaser dividido em blocos e para cada um desses blocos pode-se atribuir um MLD multivariadodiferente. Para tanto, considere o vetor de observações Yt dividido em H blocos e seja Yt(Gh),em que Gh corresponde a um conjunto de índices com h = 1, 2, · · · , H. Assim, cada Yt(Gh)

será definido pela quádrupla

Mh : {Fh,Gh,Vh,Wh}t.

Assuma também, para cada bloco Gh, que a série agregada

Zk(Gh) =r∑i=1

Yrk+i(Gh) = Yrk+1(Gh) + Yrk+2(Gh) + · · ·+ Yrk+r(Gh)

segue um MLD definido pela quádrupla M∗h : {F∗h,G∗h,V∗h,W∗

h}k. Então a série Zk =

(Yrk+1(G1),Yrk+1(G2), · · · ,Yrk+1(GH))′, definida por Zk =∑r

i=1 Yrk+i, segue o MLD definidopor {F∗,G∗,V∗,W∗}k, em que

F∗ = (F∗1k,F∗2k, · · · ,F∗Hk)′;

G∗ = diag[G∗1k,G∗2k, · · · ,G∗Hk];

V∗ =H∑h=1

V∗hk;

W∗ = diag[W∗1k,W

∗2k, · · · ,W∗

Hk].

É importante ressaltar que este resultado é uma aproximação para superposição dos modelosdas observações agregadas. Como visto nas seções anteriores, para que a série agregada Zk sigaum MLD com quádrupla igual à série original, é necessário supor que os elementos da matriz

Page 50: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

36

de covariância dos erros de evolução W são bem menores do que V, a variância do erro deobservação. Além disso, também supõe-se que o período de agregação r é pequeno, de modoque, para a série agregada, o termo de covariância entre ν∗k−1 e ω∗k, respectivamente, os erros deobservação e de evolução, seja aproximadamente zero. No contexto espacial e assumindo umafunção de correlação exponencial, a relação entre W e V será simplificada, pois V é dominadapor σ2, como discutido nas seções anteriores.

Nas subseções que se seguem, serão apresentados alguns exemplos obtidos por superposiçãodos modelos discutidos nas seções anteriores.

Modelo Sazonal com p fatores sazonais e tendência de primeira ordem

Na obtenção do modelo que descreve o nível da série agregada com q fatores sazonais é necessáriosuperpor os componentes dos respectivos modelos agregados obtidos na seções anteriores. SejaM∗

1 denotado para o modelo polinomial de primeira ordem e M∗2 aquele com q fatores sazonas.

Então, pelos resultados das seções anteriores, têm-se as seguintes quádruplas:

M∗1 : {1, 1,V∗k(G1),W

∗1 }

M∗2 : {1⊗ E′q,Pq,V

∗k(G2),W

∗2},

sendo estas quádruplas originárias das Equações (2.5) aplicada em Zk(G1) e da Equação (2.12)aplicada em Zk(G2), em que Zk = (Zk(G1), Zk(G2))′.

Assim, a superposição destes modelos resulta na quádrupla {F∗′ ,G∗,V∗k,W∗}, em que

F∗′

= (1,1⊗ E′q)′;

G∗ = diag[1,Pq];

V∗k = diag[V∗k(G1),V∗k(G2)];

W∗k = diag[W ∗

1 ,W∗2].

Modelo sazonal com p fatores sazonais e tendência de segunda ordem

Considere as quádruplas:

M∗1 : {1⊗ E′2,G2,V

∗k(G1),W

∗1 }

M∗2 : {1⊗ E′q,Pq,V

∗k(G2),W

∗2},

Page 51: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

37

estas são correspondentes à agregação temporal de MLD’s com tendência de segunda ordem(M∗

1 ) e com p fatores sazonais (M∗2 ), como pode ser visto nas Equações (2.10) e (2.12),

respectivamente.

A superposição destes modelos resulta na quádrupla {F∗′ ,G∗,V∗k,W∗}, em que

F∗′

= (1⊗ E′2,1⊗ E′q)′;

G∗ = diag[G2,Pq];

V∗k = diag[V∗k(G1),V∗k(G2)];

W∗k = diag[W ∗

1 ,W∗2].

Modelo Sazonal com nível, p fatores sazonais e componente regressora

Pretende-se aqui modelar uma série com nível, q fatores sazonais e variáveis regressoras, sendocada uma das quádruplas dos componentes, separadamente:

M∗1 : {1, 1,V∗k(G1),W

∗1 }

M∗2 : {1⊗ E′p,Pq,V

∗k(G2),W

∗2}

M∗3 : {F(G3), I(G3),V

∗k(G3),W

∗3},

em que F(G3) carrega as informações das variáveis regressoras. A superposição destes modelosresulta na quádrupla {F∗′ ,G∗,V∗k,W∗}, em que

F∗′

= (1,1⊗ E′q,F(G3))′;

G∗ = diag[1,Pq, I(G3)];

V∗k = diag[V∗k(G1),V∗k(G2),V

∗k(G3)];

W∗k = diag[W ∗

1 ,W∗2,W

∗3].

2.2.5 Discussão

Este capítulo foi fortemente baseado em Schmidt (1996) e Schmidt e Gamerman (1997). Estestrabalhos tiveram entre seus objetivos verificar a quádrupla definidora de um MLD quandoa série original univariada Yt, é temporalmente agregada em r unidades de tempo, definindoassim uma nova série, Zk.

Neste capítulo, foi considerada a agregação temporal com a série original seguindo um MLDmultivariado. Inicialmente, apresentou-se a estrutura da série original e considerou-se aqui o

Page 52: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

38

caso particular em que a variância da equação das observações é descrita por uma função dedependência espacial. Para todos os modelos considerados neste capítulo, foi utilizada a funçãode covariância exponencial para descrever a dependência espacial. Esta função depende dadistância euclidiana entre os pontos observados e de dois parâmetros, um que mede o alcance(φ) e outro a variância (σ2) da dependência espacial. Desta forma, a variância da equação dasobservações é dominada por σ2.

Foram considerados MLD multivariado polinomial de primeira e segunda ordens, deregressão, com estruturas sazonais de forma livre e modelos de superposição. Em todos estescasos, para a série agregada Zk, surge um termo de covariância entre os ruídos das equaçõesde observação e do sistema, que viola a suposição usual de independência entre esses termos.Essa covariância foi calculada para cada modelo e usando a suposição prática da variânciadas observações ser muito maior do que a variância da equação do sistema, para período deagregação r pequeno, foi possível obter a quádrupla definidora da série agregada. Assim, a sérieagregada Zk terá, aproximadamente, a mesma quádrupla que a série original, desagregada, Yt.

Page 53: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Capítulo 3

Modelos para observações contínuas

multivariadas e temporalmente agregadas

Modelos espaço-temporais vêm recebendo especial atenção da comunidade científica nos últimosanos. Isto se deve, em grande parte, ao aparecimento de ferramentas computacionais eficientesque permitem a modelagem de estruturas mais complexas e o manuseio de grandes bancos dedados. Exemplos comuns de aplicações desses modelos surgem, principalmente, nas ciênciasda saúde e ambientais, já que, nessas áreas, encontram-se frequentemente estudos com dadosobservados em pontos distintos da região de interesse e em diferentes instantes de tempo.

Neste capítulo, são propostos modelos para descrever observações realizadas em localizaçõesfixas de uma região de interesse ao longo de diferentes instantes de tempo. O objetivo damodelagem é estimar as estruturas espacial e temporal presentes neste tipo de observação.

A inovação dos modelos propostos está em assumir a variável resposta agregada no tempoe desalinhada no espaço, ou seja, as observações realizadas em cada instante de tempocorrespondem a um valor acumulado, além disso, considera-se o caso particular em que apenasparte das localizações são observadas em cada instante de tempo.

A Seção 1.2 do Capítulo 1 descreveu um exemplo em que o planejamento do experimento,por razões econômicas, foi tal que a coleta dos ovos do mosquito Aedes aegypti era realizadasemanalmente e, em cada semana, aproximadamente, apenas 1/4 do total de armadilhas eramobservadas. Assim, todas as armadilhas foram observadas em ciclos de 4 semanas. Portanto, ovalor observado em cada armadilha corresponde, de fato, ao acumulado (agregado) nas últimas4 semanas.

39

Page 54: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

40

O Capítulo 2 mostra que sob certas condições, um processo multivariado com agregaçãotemporal segue a mesma estrutura do MLD multivariado desagregado. Visando a modelagemdo problema real apresentado no Capítulo 1 e baseado nos resultados apresentados no Capítulo2, este capítulo propõe modelos espaço-temporais para processos temporalmente agregados. Deforma geral, nos modelos propostos aqui, é atribuído à média do processo uma estrutura deMLD multivariado, resultante da agregação temporal.

Para variável resposta, seguindo uma distribuição normal multivariada, são propostos doismodelos: um deles considera que as observações são realizadas em uma única região e no outro asobservações são realizadas em várias regiões. Nestes dois casos, é apresentado, primeiramente,o modelo na sua forma mais geral e, para os dados artificiais, considera-se o desalinhamentoespacial como particularidade do modelo geral.

Os dados artificiais são gerados com estrutura espaço-temporal de tal forma que, em cadainstante de tempo, a variável resposta seguirá uma distribuição normal multivariada. O objetivoaqui é ilustrar a aplicabilidade dos modelos propostos. Para estes dados artificiais ainda sãoconsiderados agregação temporal e desalinhamento espacial. Na estimação dos parâmetros,é utilizada a abordagem bayesiana e aqui apresentam-se os detalhes do procedimento deinferência.

Na Seção 3.1, é detalhada a implementação de um modelo espaço-temporal com o objetivode se estudar uma única região, considerando a variável resposta agregada temporalmente enormalmente distribuída. A Seção 3.1.2 apresenta um caso particular do modelo apresentadona Seção 3.1 e, ainda nesta seção são apresentados os resultados para dados artificiais criadoscom desalinhamento espacial. Por fim, a Seção 3.1.4 apresenta um estudo de simulação. NaSeção 3.2 é apresentado um modelo hierárquico para o qual estudam-se várias regiões. Dadosartificiais são criados com desalinhamento espacial e a Seção 3.2.2 apresenta um caso particulardo modelo e os resultados da aplicação.

3.1 Resposta normal para uma única região

Considere que {Zt(s), s ∈ S ⊂ R2, t = 1, 2, · · ·} é um processo estocástico, sendo que s

representa as localizações onde as observações são realizadas dentro da região S e os instantesde tempo são denotados por t (Schmidt e Sansó, 2006). Desta forma, {Zt(s)} representa umprocesso contínuo observado em locais fixos do espaço e em tempos discretos.

O objetivo desta seção é apresentar um modelo espaço-temporal para o estudo de uma única

Page 55: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

41

região, com a variável de interesse agregada temporalmente e seguindo uma distribuição normalmultivariada em cada instante de tempo. Neste contexto, {Zt(s)} representa um processogaussiano resultado de agregação temporal. Sendo assim, considera-se que a variável resposta émedida em N pontos do espaço s1, s2, · · · , sN e em t = r, r+1, · · · , T instantes de tempo, em quer é o período de agregação no tempo. Assim, a variável resposta Zt(sj) (j = 1, 2, · · · , N), medidano local sj e no tempo t, é uma observação univariada com Zt = (Zt(s1), Zt(s2), · · · , Zt(sN))′

representando as medidas em todos os locais considerados e, Z = (Zr,Zr+1, · · · ,ZT ) será umamatriz de dimensão N × (T − r + 1), com cada coluna modelada por meio, de:

Zt = αt + εt, εt ∼ N(0, τ 2I), (3.1)

αt =r−1∑i=0

θt−i

θt−i = F′t−iλt−i + νt−i νt−i ∼ N(0,Σ), com Σ(sj, sj′) = σ2 exp

{−djj

φ

}λt−i = Gt−iλt−i−1 + wt−i, wt−i ∼ N(0; W).

O modelo em (

Então, no tempo t e localização s, pode-se escrever

Zt(s) =r−1∑i=0

θt−i(s) + εt(s)

=r−1∑i=0

[Ft−i(s)′λt−i + νt−i(s)] + εt(s),

em que Ft−i(s)′λt−i captura a estrutura temporal, νt−i(s) captura a estrutura local, ambos na

escala de tempo desagregada. Por fim, εt(s) é um erro de medida independente na escala detempo agregada.

Nota-se que o nível médio do processo é dado por αt(s), que é definido como sendo aagregação de r valores de θt(s), ou seja, αt(s) = θt(s) + θt−1(s) + · · · + θt−r+1(s). Comoapresentado em Gamerman e Migon (1993) θt corresponde à equação estrutural e λt à equaçãodo sistema. Sendo assim, Gt−i e F′t−i de dimensões m ×m e N ×m respectivamente, podemassumir estruturas como nível, tendência e sazonalidade. Além disso, o vetor θt incorpora aestrutura de dependência espacial através de uma função de covariância exponencial, sendo djj′

a distância euclidiana entre as localizações sj e sj′ , isto é, djj′ = ||sj − sj′ ||.

Page 56: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

42

Função de verossimilhança

Define-se aqui o vetor paramétrico Θ = (θ,λ, τ 2, σ2, φ,W,λ0)′, onde θ = (θ1,θ2, · · · ,θT ) com

θt = (θt(s1),θt(s2), · · · ,θt(sN))′ λ = (λ1,λ2, · · · ,λT )′, em que λt = (λ1, λ2, · · · , λm)′. Assim,da Equação 3.1, tem-se que a função de verossimilhança de Θ é dada por:

L(z|Θ) =T∏t=r

p(zt|αt, τ 2I) (3.2)

∝T∏t=r

|τ 2I|−12 exp

{− 1

2(zt −αt)′(τ 2I)−1(zt −αt)

},

3.1.1 Procedimento de inferência

Nesta seção, um procedimento de inferência baseado na abordagem bayesiana é proposto.Inicialmente, discute-se a especificação da distribuição a priori do vetor paramétrico θ. Emseguida, o algoritmo Monte Carlo via Cadeias de Markov (MCMC) é utilizado para obteramostras da distribuição a posteriori de todos os parâmetros do modelo.

O objetivo desse procedimento de inferência é obter a distribuição a posteriori do vetorparamétrico Θ, que é proporcional ao produto entre a função de verrossimilhança e adistribuição a priori de Θ. Dada a dificuldade prática em atribuir distribuições a prioripróprias para um vetor de parâmetros, distribuições independentes para cada parâmetrosão consideradas, resultando em uma distribuição a posteriori própria, mas, analiticamenteintratável. Para gerar amostras dessa distribuição é utilizado o método MCMC, maisespecificamente o amostrador de Gibbs com passos de Metropolis-Hastings (Gamerman e Lopes,2006). É importante ressaltar que parâmetros com variação no tempo podem apresentar altaautocorrelação e métodos eficientes devem ser utilizados. Neste trabalho, em particular, éutilizado o Forward Filtering Backward Sampling (FFBS)(Fruhwirth-Schnatter (1994) e Cartee Kohn (1994)).

Distribuição a priori

De acordo com Migon e Gamerman (1999), a distribuição a priori deve ser determinada deforma subjetiva, embora não seja proibitiva a utilização de dados de experimentos anteriorespara defini-la. O único requisito é que esta distribuição deve representar o conhecimento sobreo parâmetro antes de serem observados os resultados do novo experimento.

Page 57: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

43

Considerando independência entre os componentes do vetor paramétrico Θ, são atribuídasdistribuições a priori para cada parâmetro. Aos parâmetros de variância são atribuídasdistribuições gama invertida (GI) com hiperparâmetros conhecidos, logo assume-se que τ 2 ∼GI(aτ2 , bτ2), σ2 ∼ GI(aσ2 , bσ2) e φ ∼ GI(aφ, bφ). A distribuição a priori de φ é determinadade tal forma que bφ = max(d)/ − 2 log(0.05), sendo max(d) o valor máximo da matriz dedistâncias euclidiana. Sendo W uma matriz diagonal m ×m, cada elemento da diagonal temprioriW ∼ GI(aW , bW ). Já, λ0 representa o valor inicial da equação do sistema e pode assumirvalores positivos e negativos. Portanto é atribuído como priori uma distribuição normal comhiperparâmetros conhecidos, de modo que λ0 ∼ N(mλ0

,Cλ0). Com exceção do parâmetro

φ, a propriedade de conjugação é verificada, ou seja, o núcleo da distribuição a posteriori é omesmo da distribuição a priori.

Distribuição a posteriori

Assumindo independência a priori para os parâmetros e usando o teorema de Bayes, pode-se determinar o núcleo da distribuição a posteriori usando-se o produto entre a função deverossimilhança e a distribuição a priori atribuída ao vetor paramétrico. Assim, a distribuiçãoa posteriori conjunta será proporcional a

p(Θ|z) ∝ L(z|Θ)p(Θ)

∝T∏t=r

{p(zt|αt, τ 2I)

} T∏t=1

[p(θt|F′tλt,Σ)p(λt|Gλt−1,W)

] m∏p=1

p(Wp)

p(τ 2)p(σ2)p(φ)p(λ0)

∝T∏t=r

|τ 2I|−12 exp

{− 1

2(zt −αt)′(τ 2I)−1(zt −αt)

}T∏t=1

|Σ|−12 exp

{− 1

2(θt − F′tλt)

′Σ−1(θt − F′tλt)}

T∏t=1

|W|−12 exp

{− 1

2(λt −Gtλt−1)

′W−1(λt −Gtλt−1)}

m∏p=1

(Wp)−(aWp+1) exp

{−bWp

Wp

}(τ 2)−(aτ2+1) exp

{− bτ2

τ 2

}(σ2)−(aσ2+1) exp

{− bσ2

σ2

}(φ)−(aφ+1) exp

{− bφφ

}exp

{− 1

2(λ0 −mλ0)

′C−1λ0 (λ0 −mλ0)}.

Page 58: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

44

A distribuição a posteriori resultante é analiticamente intratável, portanto, é necessárioutilizar métodos de simulação estocástica para obter amostras desta distribuição desconhecida.Optou-se aqui pelo o método MCMC, mais especificamente é utilizado o amostrador de Gibbscom passos do algoritmo Metropolis-Hastings. Este algoritmo híbrido é executado de forma que,para os parâmetros cuja condicional completa tenha forma conhecida, amostra-se diretamentedela; quando a condicional completa não tiver forma conhecida amostra-se da mesma usandopassos do algoritmo Metropolis-Hastings. As distribuições condicionais completas para osparâmetros são:

1. Condicional completa de τ 2:

p(τ 2|.) ∝T∏t=r

p(zt|αt, τ 2I)p(τ 2)

∝T∏t=r

|τ 2I|−12 exp

{−1

2(zt −αt)′(τ 2I)−1(zt −αt)

}(τ 2)−(aτ2+1) exp

{−bτ

2

τ 2

}

∝ (τ 2)(−N(T−r+1)

2+aτ2+1) exp

{− 1

τ 2

[T∑t=r

(zt −αt)′(zt −αt)2

+ bτ2

]}

(τ 2t |.) ∼ GI(N(T − r + 1)

2+ aτ2 ,

T∑t=r

(zt −αt)′(zt −αt)2

+ bτ2).

2. Condicional completa de σ2:

p(σ2|.) ∝T∏t=1

p(θt|F′tλt,Σ)p(σ2)

∝T∏t=1

|Σ|−12 exp

{−1

2(θt − F′tλt)

′Σ−1(θt − F′tλt)

}(σ2)−(aσ2+1) exp

{−bσ

2

σ2

}

∝T∏t=1

|σ2R|−12 exp

{−1

2(θt − F′tλt)

′(σ2R)−1(θt − F′tλt)

}(σ2)−(aσ2+1) exp

{−bσ

2

σ2

}

∝ (σ2)−(NT2

+aσ2+1) exp

{− 1

σ2

(T∑t=1

(θt − F′tλt)′(R)−1(θt − F′tλt)

2+ bσ2

)}

(σ2|.) ∼ GI

(NT

2+ aσ2 ,

T∑t=1

(θt − F′tλt)′(R)−1(θt − F′tλt)

2+ bσ2

).

3. Condicional completa de φ:

p(φ|.) ∝T∏t=1

p(θt|F ′tλt,Σ)p(φ)

Page 59: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

45

∝T∏t=1

|Σ|−12 exp

{−1

2(θt − F′tλt)

′Σ−1(θt − F′tλt)

}φ−(aφ+1) exp{−bφ

φ}.

Como a condicional completa do parâmetro φ não tem forma analítica conhecida, oalgoritmo Metropolis-Hastings é utilizado. Para tanto, utiliza-se como densidade propostauma distribuição lognormal (LN) centrada no logaritmo do valor corrente de φ e comvariância u fixada, logo φp ∼ LN(log(φc), u). Para evitar problemas numéricos a razãode Metropolis-Hastings envolvida na probabilidade de transição é calculada na escalalogarítmica.

4. Condicional completa de Wp, p = 1, 2, · · · ,m:

p(Wp|.) ∝T∏t=1

{p(λt|λt−1,Wp)} p(Wp)

∝T∏t=1

(Wp)− 1

2 exp

{− 1

2Wp

(λt − λt−1)2}W−(aW+1)p exp

{− bWWp

}

∝ W−(T

2+aWp+1)

p exp

{− 1

Wp

(T∑t=1

(λt − λt−1)2

2+ bWp

)}

(Wp|.) ∼ GI(T

2+ aWp ,

T∑t=1

(λt − λt−1)2

2+ bWp

).

5. Condicional completa de λ0:

p(λ0|.) ∝ p(λ1|G1λ0,W)p(λ0)

∝ exp

{−1

2(λ1 −G1λ0)

′W−1(λ1 −G1λ0)

}exp

{−1

2(λ0 −mλ0)

′C−1λ0 (λ0 −mλ0)

}(λ0|.) ∼ N

((G′1W

−1G1 + C−1λ0 )−1(G′−10 λ1 + C−1λ0 mλ0), (G′1W

−1G1 + C−1λ0 )−1).

Amostrando λ

Considere θt = (θ1,θ2, · · · ,θt) toda a informação contida no vetor θ até o tempo t. Para obteramostras da distribuição a posteriori de λ, será utilizado o algoritmo FFBS descrito a seguir:

1. Amostrar λt da distribuição (λt|θt) ∼ N(mt,Ct) com mt = at+Atet e Ct = Rt−AtQtA′t,

sendo At = RtFtQ−1t , et = (θt − ft), at = mt−1, Rt = Ct−1 + W, ft = F′tat e Qt =

F′tRtFt + Σt;

Page 60: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

46

2. Gerar recursivamente λT−j da distribuição p(λT−j|λT−j+1,θt), j = 1, ..., T − 1

Assim, cada λt gerado é condicionado ao conjunto completo de θ. O FFBS é um algoritmoeficiente, pois leva em consideração a estrutura de correlação entre os parâmetros e, além disso,é de simples implementação computacional.

Amostrando θ

Para explicitar a condicional completa do vetor θt é necessário considerar um caso particular.Aqui optou-se por considerar r = 4 para que seja feito um paralelo com a aplicação realapresentada no Capítulo 1. Assim, tem-se que Zt ∼ N(αt, τ

2I), com t = 4, 5, · · · , T , com cadaαt dado por:

α4 = θ4 + θ3 + θ2 + θ1

α5 = θ5 + θ4 + θ3 + θ2

α6 = θ6 + θ5 + θ4 + θ3

α7 = θ7 + θ6 + θ5 + θ4

· · ·

αT−3 = θT−3 + θT−4 + θT−5 + θT−6

αT−2 = θT−2 + θT−3 + θT−4 + θT−5

αT−1 = θT−1 + θT−2 + θT−3 + θT−4

αT = θT + θT−1 + θT−2 + θT−3.

Sendo assim, a condicional completa de θt, para t = 4, · · · , T − 3, é:

p(θt|.) ∝ p(zt|αt, τ 2I)p(zt+1|αt+1, τ2I)p(zt+2|αt+2, τ

2I)p(zt+3|αt+3, τ2I)p(θt|F′tλt,Σ)

(θt|.) ∼ N(mt, Ct)

Ct =(4(τ 2I)−1 + Σ−1

)−1mt = Ct

{(τ 2I)−1

[(zt − (θt−1 + θt−2 + θt−3)) + (zt+1 − (θt+1 + θt−1 + θt−2)) +

(zt+2 − (θt+2 + θt+1 + θt−1)) + (zt+3 − (θt+3 + θt+2 + θt+1))]

+ Σ−1F′tλt

}.

Para os instantes de tempo dos extremos, t = 1, 2, 3, t = T − 2, T − 1, T , θt também temcondicionais completas com distribuição normal, mas a contribuição da verossimilhança serácorrespondente à quantidade de vezes que θt aparece na construção de αt. Por exemplo, θ1

Page 61: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

47

aparece apenas na média de Y4, logo terá condicional completa dada por:

p(θ1|.) ∝ p(z4|α4, τ2I)p(θ1|F ′tλt,Σ)

(θ1|.) ∼ N(m1,C1)

C1 =((τ 2I)−1 + Σ−1

)−1m1 = C1

{(τ 2I)−1

[(z4 − (θ4 + θ3 + θ2))

]+ Σ−1F′4λ4

}.

3.1.2 Desalinhamento espacial com resposta normal para uma única

região

Nesta seção, apresenta-se um caso particular do modelo proposto na Equação (3.1),considerando o desalinhamento espacial. Aqui, F′t é definido como sendo um vetor de uns dedimensão N e Gt = 1. Dados artificiais são criados e os resultados do ajuste são apresentados.

Considere que os N pontos no espaço são divididos em H grupos, de forma que, em cadainstante de tempo, apenas um dos grupos é observado, mas em ciclos de r instantes de tempotodos os N pontos são observados. Esse tipo de planejamento causa o desalinhamento espacial.Desta forma, a matriz de observações Z terá valores observados e não observados em cadainstantes de tempo.

Como a função de verossimilhança depende apenas dos valores efetivamente observados eo modelo proposto considera o desalinhamento espacial, há a necessidade de especificar umanova função. Para tanto, é necessário utilizar uma matriz que informa quais as localizações

são efetivamente observadas em cada instante de tempo. Logo, seja Jt =

Xt

X̄t

uma matriz

N ×N com as primeiras nh, linhas contendo 1 nas posições onde houve observação e as N −nhlinhas seguintes as localizações onde não houve observação, com h = 1, 2, · · · , H. No tempo t,Xt é uma matriz de dimensão nh ×N que informa as localizações observadas em cada tempo,enquanto que X̄t é uma matriz de dimensão (N − nh) × N que informa as localizações nãoobservadas em cada instante de tempo, e N = n1 + n2 + · · ·+ nH .

Para ilustrar o uso dessas matrizes que carregam a informação das localizações observadase não observadas em cada instante de tempo, considere o caso em que o estudo é realizado em6 pontos do espaço e no tempo t apenas parte destes pontos são observados, por exemplo, ospontos 2,3,5,6. Então, na verossimilhança apenas essas observações serão consideradas, logo Xt

Page 62: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

48

será um matriz com 4 linhas e 6 colunas e X̄t terá 2 linhas e 6 colunas, da seguinte forma:

Xt =

0 1 0 0 0 0

0 0 1 0 0 0

0 0 0 0 1 0

0 0 0 0 0 1

; X̄t =

1 0 0 0 0 0

0 0 0 1 0 0

.

Com Zt = (zt(s1), zt(s2), · · · , zt(s6))′, então, XtZt = ((zt(s2), zt(s3), zt(s5), zt(s6))′ e X̄tZt =

((zt(s1), zt(s4))′.

Função de verossimilhança

Utilizando a matriz X, a função de verossimilhança de Θ é dada por:

L(Θ|z) =T∏t=r

p(Xtzt|Xtαt,Xtτ2IX′t) (3.3)

∝T∏t=r

|Xtτ2IX′t|−

12 exp

{− 1

2(Xtzt −Xtαt)

′(Xtτ2IX′t)

−1(Xtzt −Xtαt)

}.

O vetor paramétrico a ser estimado é Θ = (X̄tZt,θ,λ, τ2, σ2, φ,W, λ0)

′, sendo θ =

(θ1,θ2, · · · ,θT ) com θt = (θt(s1),θt(s2), · · · ,θt(sN))′ λ = (λ1, λ2, · · · , λT )′ .

É importante ressaltar que os vetores X̄tZt, que correspondem aos valores de Zt nãoobservados nos tempos t = r, r + 1, · · · , T , são estimados e, também, considerados parâmetrosdo modelo.

Amostrando as observações faltantes

Considere como antes, JtZt =(XtZt, X̄tZt

)′ a partição do vetor Zt em cada instante de tempo t,sendo XtZt um vetor coluna de dimensão nh que contém as observações efetivamente realizadasno tempo t e X̄tZt um vetor coluna de dimensão N − nh que contém as observações faltantesno tempo t, com h = 1, 2, · · · , H e N = n1 + n2 + · · ·+ nH . Logo:

JtZt =

XtZt

X̄tZt

∼ N

Xtαt

X̄tαt

;

Xtτ2IX′t Xtτ

2IX̄′t

X̄tτ2IX′t X̄tτ

2IX̄′t

,em que Xtαt e X̄tαt denotam as médias dos vetores XtZt, X̄tZt, respectivamente. A matrizde covariância Xtτ

2IX′t representa as covariâncias entre os elementos observados, definidos por

Page 63: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

49

XtZt; X̄tτ2IX̄′t a covariância entre os elementos não observados X̄tZt. Por fim, Xtτ

2IX̄′t é amatriz de covariância entre os dados observados e não observados, e X̄tτ

2IX′t sua transposta.A partir da partição da normal multivariada (Anderson, 1994), tem-se:

(X̄tZt|XtZt) ∼ N [X̄tαt + X̄tτ2IX′t(Xtτ

2IX′t)−1(XtZt −Xtαt);

X̄tτ2IX̄′t − (X̄tτ

2IX′t(Xtτ2IX̄′t)

−1(Xtτ2IX̄′t))].

No caso particular em que XtZt e X̄tZt, condicionados em Jtαt e Jtτ2IJ′t, são independentes,

para t = r, · · · , T , tem-se que os dados faltantes podem ser amostrados diretamente da equação:

(X̄tZt|XtZt) ∼ N[X̄tαt; X̄tτ

2IX̄′t]. (3.4)

É importante observar que X̄tIX̄′t resultará em uma matriz identidade de dimensão igual à

dimensão de X̄tX̄′t.

3.1.3 Análise dos dados artificiais com desalinhamento espacial

O conjunto de dados artificiais foi criado considerando τ 2 = 10, σ2 = 20, φ = 0.29,W =

0.1 e λ0 = 1. A disposição espacial destes dados artificiais é como para a região DI apresentadana Figura 1.2, em destaque encontram-se as armadilhas 2, 30, 55 e 80. Considera-se um totalde N = 84 pontos no espaço e T = 72 instantes de tempo. Os 84 pontos são divididos em 4grupos, sendo que os primeiros 24 pontos pertencem ao grupo1, 20 ao grupo2, 22 ao grupo3 e18 ao grupo4. Os dados são gerados de forma que, em cada instante de tempo, apenas um dosgrupos tem seus pontos observados, mas em ciclos de 4 instantes de tempo todos os 84 pontossão observados, o que causa o desalinhamento no espaço.

Na estimação dos parâmetros considerados no modelo é utilizada a abordagem bayesianae, para tanto, distribuições a priori são atribuídas da seguinte forma: τ 2 ∼ GI(2; 10), σ2 ∼GI(2; 20), φ ∼ GI(2; 0, 29), W ∼ GI(2; 0, 1) e λ0 ∼ N(1; 100). Todas estas distribuiçõesapresentam média igual ao valor verdadeiro com variância grande.

Para obter amostras a posteriori de todos os parâmetros envolvidos no modelo, o algoritmoMCMC foi implementado. Foram consideradas duas cadeias partindo de valores iniciaisdiferentes. Em cada uma delas, 100 mil iterações e dessas, as 20 mil primeiras foramconsideradas como aquecimento das cadeias e descartadas, armazenando-se uma a cada 80iterações, resultando em uma amostra a posteriori de tamanho 1000 para cada um dosparâmetros. Os resultados aqui apresentados correspondem à concatenação dos resultadosobtidos para as duas amostras.

Page 64: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

50

A Figura 3.1 apresenta o histograma e o intervalo de 95% de credibilidade a posterioripara os parâmetros τ 2, σ2, φ,W, λ0, a linha vertical tracejada corresponde ao valor verdadeiroutilizado na simulação e as linhas pontilhadas aos quantis 2,5% e 97,5%. Percebe-se que, emtodos os casos, o verdadeiro valor do parâmetro pertence ao intervalo de credibilidade.

τ2

2 4 6 8 10 12 14 16

0.00

0.05

0.10

0.15

σ2

20 25 30

0.00

0.05

0.10

0.15

0.20

φ

0.20 0.30 0.40 0.50

02

46

810

W

0.0 0.1 0.2 0.3 0.4 0.5

02

46

8

λ0

1 2 3 4 5 6 7

0.0

0.1

0.2

0.3

0.4

0.5

Figura 3.1: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori para

os parâmetros τ 2, σ2, φ, W , λ0. A linha vertical tracejada representa o valor verdadeiro.

A Figura 3.2 apresenta o sumário da distribuição a posteriori de λt ao longo do tempo.A linha cheia é a média a posteriori e a região sombreada representa o intervalo 95% decredibilidade a posteriori. O verdadeiro valor de λt é representado pela linha tracejada. Pode-se notar que a estimativa do vetor λ é bastante suavizada, apesar disto os valores verdadeirospertencem ao intervalo.

A Figura 3.3 apresenta o sumário da distribuição a posteriori de θt, αt e Zt para asarmadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região sombreada representao intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado pela linhatracejada. Os resultados a posteriori de Z correspondem à replicação (quando existe observação)e estimação (quando não existe observação). Em todos os casos o verdadeiro valor está contidono intervalo de credibilidade. As estimativas de αt apresentam menor incerteza se comparadas

Page 65: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

51

t

λ

0 20 40 60

23

45

67

8

Mean

IC 95%

Verdadeiro

Figura 3.2: Sumário da distribuição a posteriori de λt ao longo do tempo. A linha cheia é a

média a posteriori e a região sombreada representa o intervalo 95% de credibilidade a posteriori.

O verdadeiro valor de λt é representado pela linha tracejada.

com as de θt. Este comportamento era esperado já que αt corresponde a uma soma.

É importante ressaltar que as estimativas dos valores não observados poderiam ter sidorealizadas depois da obtenção das amostras a posteriori. A opção por estimá-los dentro doMCMC não adicionou incerteza nas estimativas dos demais parâmetros.

Page 66: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

52

θ

Arm

adilh

a 2

0 20 40 60

−5

05

1015

20 MédiaIC 95%Verdadeiro

α

0 20 40 60

−10

010

2030

4050

Z

0 20 40 60

−10

010

2030

4050

Arm

adilh

a 30

0 20 40 60

−5

05

1015

20

MédiaIC 95%Verdadeiro

0 20 40 60

−10

010

2030

4050

MédiaIC 95%Verdadeiro

0 20 40 60

−10

010

2030

4050

Arm

adilh

a 55

0 20 40 60

−5

05

1015

20

MédiaIC 95%Verdadeiro

0 20 40 60

−10

010

2030

4050

MédiaIC 95%Verdadeiro

0 20 40 60

−10

010

2030

4050

Arm

adilh

a 80

0 20 40 60

−5

05

1015

20

MédiaIC 95%Verdadeiro t

0 20 40 60

−10

010

2030

4050

MédiaIC 95%Verdadeiro

t

0 20 40 60

−10

010

2030

4050

t

Figura 3.3: Sumário da distribuição a posteriori de θt, αt e Zt para as armadilhas 2, 30, 55 e

80. A linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95% de

credibilidade a posteriori. O verdadeiro valor é representado pela linha tracejada.

Page 67: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

53

3.1.4 Estudo de simulação

Esta seção apresenta os resultados para um estudo de simulação, em que 30 conjuntos dedados foram gerados de acordo com a estrutura do modelo em (3.1). A estrutura espacialcontinua sendo como na região DI com N = 84 pontos no espaço, mas agora com T = 108

instantes de tempo e r = 4. Os valores verdadeiros dos parâmetros utilizados para criar as30 amostras estão representados na Figura 3.4 como uma linha sólida horizontal, ou seja,τ 2 = 0.1, σ2 = 1, φ = 0.29,W = 0.01 e λ0 = 1. Em todos os conjuntos simulados a distribuiçãoa priori para λ0 é uma normal com média 1 e variância 100, para os demais parâmetros sãoatribuídas prioris gama invertida com parâmetro de forma 2 e parâmetro de escala igual aoverdadeiro valor.

O objetivo desta seção é verificar o comportamento das estimativas em diferentes conjuntosde dados, além de confirmar a eficiência do procedimento de inferência utilizado. Aqui sãoreportados os resultados encontrados para os parâmetros τ 2, σ2, φ,W, λ0 e, para 4 amostras,são apresentados os intervalos de 95% de credibilidade a posteriori de λt.

Para cada uma das amostras, consideraram-se 100 mil iterações, com aquecimento de 20mil, e espaçamento de 80, resultando em uma amostra de tamanho 1000 para cada parâmetro.A Figura 3.4 apresenta o intervalo de 95% de credibilidade a posteriori, obtido para cadaconjunto simulado. A linha tracejada horizontal corresponde aos valores utilizados na obtençãodos dados.

Como era de se esperar, para alguns casos, o verdadeiro valor do parâmetro não pertenceao intervalo de credibilidade. Em todos os casos houve convergência das cadeias, inclusive paraos parâmetros θ e λ. Com esses resultados, pode-se afirmar que o procedimento de inferênciaconsegue recuperar os valores dos parâmetros utilizados na simulação.

A Figura 3.5 apresenta sumário da distribuição a posteriori de λt ao longo do tempo paraos conjuntos simulados 2, 3, 20 e 30. A linha cheia é a média a posteriori e a região sombreadarepresenta o intervalo 95% de credibilidade a posteriori. O verdadeiro valor de λt é representadopela linha tracejada. Percebe-se que é possível recuperar a estrutura verdadeira, já que noscasos considerados os verdadeiros valores pertencem ao intervalo.

Page 68: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

54

τ2

1 4 7 11 15 19 23 27

0.00

0.10

0.20

0.30

●●

●●

●●

●●●●

●●●●●●

●●

●●

σ2

1 4 7 11 15 19 23 27

0.7

0.8

0.9

1.0

1.1

1.2

1.3

●●

●●

●●●

●●●

●●

φ

1 4 7 11 15 19 23 27

0.20

0.25

0.30

0.35

0.40

0.45

●●

●●●●

●●

●●

●●

W

1 4 7 11 15 19 23 27

0.00

0.01

0.02

0.03

0.04

0.05

●●

●●

●●

●●●

●●

●●

●●

●●

λ0

1 4 7 11 15 19 23 27

0.0

0.5

1.0

1.5

2.0

●●

●●

●●

●●

●●

●●

●●

●●

Figura 3.4: Intervalos 95% de credibilidade a posteriori de τ 2, σ2, φ, W e λ0, para os 30

conjuntos simulados. A linha tracejada horizontal representa o valor verdadeiro.

Page 69: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

55

Conjunto 2

λ

0 20 40 60 80 100

01

23

MédiaIC 95%Verdadeiro

t

Conjunto 3

λ0 20 40 60 80 100

01

23

t

Conjunto 20

λ

0 20 40 60 80 100

01

23

t

Conjunto 30

λ

0 20 40 60 80 100

01

23

t

Figura 3.5: Sumário da distribuição a posteriori de λt ao longo do tempo, para os conjuntos

simulados 2, 3, 20 e 30. A linha cheia é a média a posteriori e a região sombreada representa o

intervalo 95% de credibilidade a posteriori. O verdadeiro valor de λt é representado pela linha

tracejada.

Page 70: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

56

3.2 Modelo hierárquico normal: considerando observações

em diferentes sub-regiões

Nesta seção, é proposto um modelo hierárquico espaço-temporal para o estudo de váriasregiões, com a variável de interesse agregada temporalmente e seguindo uma distribuição normalmultivariada em cada instante de tempo. Como apresentado na Seção 3.1, aqui, a variável deinteresse também é a realização parcial de um processo estocástico.

Desta forma, são consideradas G regiões, g = 1, 2, · · · , G e em cada uma delas a variávelresposta é medida em Ng pontos no espaço s1, s2, · · · , sNg , e em T instantes de tempo. Assim,a variável resposta Ztg(si) (i = 1, 2, · · · , Ng) medida no local si, no tempo t e na região g é umaobservação univariada com Ztg = (Ztg(s1), Ztg(s2), · · · , Ztg(sNg))′ representando as medidas emtodos os locais considerados na região g e, Z = (Zr,Zr+1, · · · ,ZT ) será uma matriz de dimensãoN×(T−r+1), com Zt = (Z1,Z2, · · · ,ZG)′ e N = N1+N2+ · · ·+NG. Logo, Ztg, será modeladapor meio, de:

Ztg = αtg + εtg, εtg ∼ N(0; τ 2g INg) (3.5)

αtg =r−1∑i=0

θt−i,g

θt−i,g = F1tλt−i,g + νt−i,g νt−i,g ∼ N(0; Σg) com Σg(sj, sj′) = σ2g exp

{−djj

φg

}λt−i,g = F2tδt−i + Ut−i, Ut−i ∼ N(0; ug),

δt−i = Gt−iδt−i−1 + ωt−i, ωt−i ∼ N(0; W),

onde INg é uma matriz identidade Ng × Ng, r é o período de agregação no tempo t, t =

r, r + 1, · · · , T .De acordo com o modelo apresentado em Gamerman e Migon (1993), θt e λt correspondem

às equações estruturais, enquanto que δt corresponde à equação do sistema.

No tempo t, localização s e região g, o nível médio do processo Ztg(s) é dado por αtg(s),que é definido como sendo a agregação de r valores de θtg(s), ou seja, αtg(s) = θt,g(s) +

θt1,g(s) + · · · + θt−r+1,g(s) e, cada θt = (θ1,θ2, · · · ,θg)′, representa o efeito individual local notempo desagregado. Para este efeito, é incorporada uma dependência espacial por meio de umafunção de correlação exponencial. Além disso, a média para esse efeito regional é descrita porF1tλt, que mede a estrutura temporal em cada região, enquanto que δt representa a estruturatemporal comum a todas as regiões. Sendo assim, para cada região g, tem-se que F1t é um

Page 71: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

57

vetor de dimensão Ng × n, F2t um vetor n×m e Gt uma matriz m×m.

Com o modelo estruturado dessa forma, é considerada independência espacial entre asregiões e cada uma delas assume um valor de σ2 e φ, e a matriz de correlação espacialresultante Σ, é uma matriz bloco diagonal de dimensão N × N . Além disto, cada regiãotem sua estrutura temporal média descrita por λg e é assumido também um efeito temporaldesagregado temporalmente comum a todas as regiões descrito por δ.

Função de verossimilhança

Para o vetor paramétrico Θ = (θ,λ, δ, τ 2,σ2,φ,W,u, δ0)′, e considerando o modelo (3.5),

tem-se que a função de verossimilhança de Θ é dada por:

L(z|Θ) =T∏t=r

G∏g=1

p(ztg|αtg, τ 2g INg) (3.6)

∝T∏t=r

G∏g=1

|τ 2g INg |−12 exp

{− 1

2(ztg −αtg)′(τ 2g INg)

−1(ztg −αtg)}.

3.2.1 Procedimento de inferência

Como já mencionado, o procedimento de inferência é baseado na abordagem bayesiana.Inicialmente, são propostas distribuições a priori para os parâmetros, em seguida, é utilizado oalgoritmo MCMC para obter amostras a posteriori de todos os parâmetros do modelo.

Distribuição a priori

Considerando independência entre os componentes do vetor paramétrico Θ, são atribuídasdistribuições a priori para cada parâmetro. Desta forma, aos parâmetros de variânciasão atribuídas distribuições gama invertida (GI) com hiperparâmetros conhecidos, pois sãoparâmetros estritamente positivos. Logo, τ 2g ∼ GI(aτ2g , bτ2g ), σ2

g ∼ GI(aσ2g, bσ2

g), φg ∼

GI(aφg , bφg), g = 1, 2 · · · , G. Tanto o parâmetro W quanto ug são matrizes diagonais dedimensões m × m e n × n, respectivamente, e, a cada elemento da digonal, é atribuída adistribuição GI como priori. Já δ0 pode assumir valores positivos e negativos, portanto, éatribuída, como priori, uma distribuição normal com hiperparâmetros conhecidos, de modo queδ0 ∼ N(mδ0 ,Cδ0). Com exceção do parâmetro φ, a propriedade de conjugação é verificada.

Page 72: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

58

Distribuição a posteriori

Como para o modelo de uma única região descrito na Seção 3.1, aqui também é assumidaindependência a priori para os parâmetros e usado o teorema de Bayes para obtenção dadistribuição a posteriori resultante. O núcleo da posteriori corresponde ao produto entre afunção verossimilhança e a distribuição a priori atribuída ao vetor paramétrico. Assim,

p(Θ|z) ∝ L(z|Θ)p(Θ)

∝T∏t=r

G∏g=1

{p(ztg|αtg, τ 2g INg)

}T∏t=1

G∏g=1

[p(θtg|F1tλtg,Σg)p(λtg|F2tδt,ug)

]T∏t=1

[p(δt|Gtαt−1,W)

] G∏g=1

[(τ 2g )p(σ2

g)p(φg)]

m∏p=1

[p(Wp)

] n∏l=1

[p(ul)

]p(α0)

∝T∏t=r

G∏g=1

|τ 2g INg |−12 exp

{− 1

2(ztg −αtg)′(τ 2g INg)

−1(ztg −αtg)}

T∏t=1

G∏g=1

|Σg|−12 exp

{− 1

2(θtg − F1tλtg)

′Σ−1g (θtg − F1tλtg)}

T∏t=1

G∏g=1

|ug|−12 exp

{− 1

2(λtg − F2tδt)

′(ug)−1(λtg − F2tδt)

}T∏t=1

|W|−12 exp

{− 1

2(δt −Gtδt−1)

′W−1(δt −Gtδt−1)}

G∏g=1

[(τ 2g )

−(aτ2g

+1)exp

{−bτ2gτ 2g

}(σ2

g)−(a

σ2g+1)

exp{−bσ2

g

σ2g

}(φ)−(aφg+1) exp

{−bφgφg

}]m∏p=1

(Wp)−(aWp+1) exp

{−bWp

Wp

} n∏l=1

(ul)−(aul+1) exp

{− bulul

}exp

{− 1

2(δ0 −mδ0)

′C−1δ0 (δ0 −mδ0)}.

A distribuição a posteriori resultante é analiticamente intratável, portanto, aqui

Page 73: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

59

também é necessário utilizar métodos de simulação estocástica para obter amostras destadistribuição desconhecida. O método de MCMC é utilizado e, para tanto, é necessárioo cálculo das condicionais completas para as componentes do vetor paramétrico Θ =

(θ,λ, δ, τ 2,σ2,φ,W,u, δ0)′.

As condicionais completas de δ0, W, σ2g , τ 2g e φg são muito similares às encontradas para

o modelo que considera uma única região. Para obter amostras da distribuição a posteriori dovetor δ é utilizado o algoritmo FFBS, como descrito na Seção 3.1.1. Assim, cada δt gerado sãocondicionado ao conjunto completo de λ. A estimação do vetor θt é feita como descrita naSeção 3.1.1.

As condicionais completas de ug e λt são dadas por:

1. Condicional completa de ug:Sendo ug uma matriz diagonal n× n, com n elementos ug, então,

p(ug|.) ∝T∏t=1

p(λtg|F′2δt(s), ug)p(ug)

∝T∏t=1

(ug)− 1

2 exp

{− 1

2ug(λtg − F′2δt)

2

}(ug)

−(aug+1) exp

{−bugug

}

∝ (u)−(T2+aug+1) exp

{− 1

ug

(T∑t=1

(λtg − F′2δt)2

2+ bug

)}

(ug|.) ∼ GI

(T

2+ aug ,

T∑t=1

(λtg − F′2δt)2

2+ bug

);

2. Condicional completa de λt:

p(λt|.) ∝ p(θt|F1tλt,Σ)p(λt|F2tδt,u)

∝ exp

{−1

2(θt − F1tλt)

′Σ−1(θt − F1tλ)

}exp

{−1

2(λt − F2tδt)

′(u)−1(λt − F2tδt)

}(λt|.) ∼ N(m1,C1)

C1 =(F′1tΣ

−1F1t + (u)−1)−1

m1 = C1

(F′1tΣ

−1θt + (u)−1F2tδt

).

Page 74: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

60

3.2.2 Desalinhamento espacial com resposta normal para diferentes

sub-regiões

Nesta seção, é considerado um caso particular do modelo apresentado na Equação (3.5). Nestecaso, é considerado F1t como sendo um vetor de uns de dimensão Ng, já F2t e Gt são iguaisa 1. Este modelo é ajustado a dados artificiais criados com desalinhamento espacial. Dessaforma, são considerados G regiões e em cada uma delas observam-se Ng pontos no espaço, comg = 1, 2, · · · , G. Em cada uma os Ng pontos são divididos em Hg grupos, de forma que, emcada instante de tempo apenas um dos grupos da região g é observada, mas em ciclos de rinstantes de tempo todas os Ng pontos são observados. Sendo assim, Z apresenta observaçõesfaltantes em cada instante de tempo.

Função de verossimilhança

É importante ressaltar que o primeiro grupo é observado em todas as regiões no mesmo instantede tempo e o mesmo acontece para os demais grupos. Dessa forma, a matriz X, definida eilustrada na Seção 3.1.2, é de suma importância na definição da função de verossimilhança deΘ que é dada por:

L(Θ|z) =T∏t=r

G∏g=1

p(Xtgztg|Xtgαtg,Xtgτ2g INgX

′tg) (3.7)

∝T∏t=r

G∏g=1

|Xtgτ2g INgX

′tg|−

12 exp

{− 1

2(Xtgztg −Xtgαtg)

′(Xtgτ2g INgX

′tg)−1(Xtgztg −Xtgαtg)

}.

O vetor paramétrico a ser estimado é Θ = (X̄Z,θ,λ, δ, τ 2,σ2,φ,W, u, δ0)′. A estimação

das observações faltantes é feita como descrita na Seção 3.1.2.

3.2.3 Análise dos dados artificiais com desalinhamento espacial

Os resultados aqui apresentados são referentes a um conjunto de dados artificiais, considerando5 regiões. A disposição espacial dessas regiões são como apresentadas na Figura 1.2. Assim, asregiões R1, R2, R3, R4 e R5 correspondem, respectivamente, às regiões BT, CFP, DI, EMe MCP, da Figura 1.2.

Foram considerados T = 72 instantes de tempo e um total de N = 464 armadilhas, sendoque 80 pertencem a R1, 100 a R2, 84 a R3, 100 a R4 e 100 a R5.

Page 75: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

61

Tabela 3.1: Valores em que os hiperparâmetros do modelo hierárquico normal foram fixados

para a geração de dados artificiais.

R1 R2 R3 R4 R5

τ 2 3 5 2 6 4

σ2 8 5 10 6 12

φ 0,218 0,307 0,297 0,248 0,262

u 0.8 0.5 0.1 0.3 0.7

O conjunto de dados artificial foi criado assumindo δ0 = 2, W = 0.01 e os demais valoresutilizados na simulação são apresentados na Tabela 3.1.

Distribuições a priori são atribuídas aos parâmetros, de forma que aos parâmetrosτ 2g , σ

2g , φg, ug e W , g = 1, 2, · · · 5, atribuem-se distribuições gama invertida com parâmetros

de forma igual a 2 e parâmetros de escala igual ao valor utilizado na criação dos dados, já paraδ0 atribui-se como priori uma distribuição normal com média zero e variância 100.

Duas cadeias, partindo de valores iniciais diferentes foram, consideradas. Os resultadosapresentados correspondem à concatenação dessas duas cadeias, sendo que em cada uma delas100 mil iterações foram executadas e dessas, 20 mil foram consideradas como aquecimento dascadeias e descartadas, guardando-se uma a cada 80 iterações, resultando em uma amostra dadistribuição a posteriori de tamanho 1000, para cada um dos parâmetros.

A Figura 3.6 apresenta o intervalo de 95% de credibilidade a posteriori para os parâmetrosτ 2,σ2,φ,u, em destaque encontram-se os valores utilizados na simulação e a média a posteriori.Percebe-se que apenas o parâmetro u, da região 2 (R2) não pertence ao intervalo de 95% decredibilidade. Além disso, observa-se uma subestimação do parâmetro u para a maioria dasregiões.

Para os parâmetros δ0 e W são apresentados, na Figura 3.7, os histogramas e os intervalosde 95% de credibilidade a posteriori. Em ambos os casos os valores verdadeiros estão contidosnos intervalos. Apesar disso, assim como observado para o vetor paramétrico u, W também ésubestimado.

A Figura 3.8 apresenta o intervalo de 95% de credibilidade a posteriori para o parâmetroδt, a linha tracejada representa o valor verdadeiro e a cheia a média a posteriori. Pode-senotar que a estimativa do vetor δ é bastante suavizada, apesar disto, de forma geral, os valoresverdadeiros pertencem ao intervalo.

Page 76: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

62

τ2

R1 R2 R3 R4 R5

02

46

8

● MédiaVerdadeiro

σ2

R1 R2 R3 R4 R5

46

810

1214

φ

R1 R2 R3 R4 R5

0.10

0.20

0.30

0.40

● ●● ●

u

R1 R2 R3 R4 R5

0.0

0.2

0.4

0.6

0.8

1.0

Figura 3.6: Intervalo de 95% de credibilidade a posteriori para os parâmetros τ 2,σ2,φ, u. O

círculo fechado representa a média a posteriori.

A Figura 3.9 apresenta o intervalo de 95% de credibilidade a posteriori para o vetor λt decada região, a linha tracejada representa o valor verdadeiro e a cheia a média a posteriori. Comoera esperado, a região 3 apresenta a menor amplitude dos intervalos, pois possui o menor valorde u (0.1), enquanto que a região 1 apresenta a maior amplitude (u = 0.8). Assim como para ovetor δ as estimativas de λ são bastante suavizadas, o que é justificado pela subestimação deW e u.

A Figura 3.10 apresenta o sumário da distribuição a posteriori de θt, αt e Zt para asarmadilhas 2, 30, 55 e 80 de R3. De forma geral, para todos esses parâmetros, os verdadeirosvalores (linhas tracejadas) pertencem aos intervalos (região sombreada). As estimativas de αtapresentam menor incerteza se comparadas com os θt. Este comportamento era esperado já

Page 77: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

63

δ0

1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

W

0.000 0.010 0.020

050

100

150

200

Figura 3.7: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori para

os parâmetros δ0 e W . A linha vertical tracejada representa o valor verdadeiro.

δ

0 20 40 60

1.5

2.0

2.5

3.0

MédiaIC 95%Verdadeiro

t

Figura 3.8: Sumário da distribuição a posteriori de δt ao longo do tempo. A linha cheia é a

média a posteriori e a região sombreada representa o intervalo 95% de credibilidade a posteriori.

O verdadeiro valor de δt é representado pela linha tracejada.

que αt corresponde a uma soma.

Assim como comentado na Seção 3.1, as estimativas dos valores não observados poderiamter sido realizadas depois da obtenção das amostras a posteriori.

Page 78: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

64

R1

λ

0 20 40 60

01

23

45

MédiaIC 95%Verdadeiro

t

R2

λ

0 20 40 60

01

23

45

MédiaIC 95%Verdadeiro

t

R3

λ

0 20 40 60

01

23

45

MédiaIC 95%Verdadeiro

t

R4

λ

0 20 40 60

01

23

45

MédiaIC 95%Verdadeiro

t

R5

λ

0 20 40 60

01

23

45

MédiaIC 95%Verdadeiro

t

Figura 3.9: Sumário da distribuição a posteriori de λt ao longo do tempo, para as 5 regiões.

A linha cheia é a média a posteriori e a região sombreada representa o intervalo 95% de

credibilidade a posteriori. O verdadeiro valor de λt é representado pela linha tracejada.

Page 79: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

65

θ

Arm

adilh

a 2

− R

3

0 20 40 60

−10

−5

05

1015

MédiaIC 95%Verdadeiro

α

0 20 40 60

−10

010

2030

Z

0 20 40 60

−10

010

2030

Arm

adilh

a 30

− R

3

0 20 40 60

−10

−5

05

1015

MédiaIC 95%Verdadeiro

0 20 40 60

−10

010

2030

0 20 40 60

−10

010

2030

Arm

adilh

a 55

− R

3

0 20 40 60

−10

−5

05

1015

MédiaIC 95%Verdadeiro

0 20 40 60

−10

010

2030

0 20 40 60

−10

010

2030

Arm

adilh

a 80

− R

3

0 20 40 60

−10

−5

05

1015

MédiaIC 95%Verdadeiro

t

0 20 40 60

−10

010

2030

t

0 20 40 60

−10

010

2030

t

Figura 3.10: Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região sombreada representa

o intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado pela linha

tracejada.

Page 80: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Capítulo 4

Modelos para processos de contagens

multivariadas e temporalmente agregadas

Neste capítulo, são propostos modelos para descrever estruturas espaço-temporais, com variávelresposta seguindo uma distribuição de Poisson. A inovação deste capítulo está em considerar asobservações discretas, agregadas no tempo, e desalinhadas no espaço. Os valores observados sãoresultados de uma contagem acumulada no tempo. Além disso, considera-se o caso particularem que apenas parte das localizações são observadas em cada instante de tempo.

Além de apresentar os modelos na forma geral, neste capítulo, são apresentados e discutidosresultados para dados artificiais. Será reproduzida a estrutura dos dados descritos na seção 1.2do Capítulo 1, em que a contagem de ovos do mosquito Aedes aegypti é agregada no tempo edesalinhada no espaço. Assim como os dados apresentados no Capítulo 1, os dados artificiaisconsideram que as observações são realizadas em pontos fixos espalhados em diferentes regiões.

Os modelos propostos neste capítulo estendem a modelagem para os dados normais. Aestrutura descrita para a média do processo com distribuição normal é adaptada para a funçãode ligação da distribuição de Poisson.

A implementação de um modelo, com o objetivo de se estudar uma única região éapresentada na Seção 4.1, na sequência apresentam-se os resultados da aplicação a dadosartificiais (Seção 4.1.3). Já na Seção 4.2, é apresentado um modelo hierárquico para o qualestudam-se várias regiões. Por fim, a Seção 4.2.2 apresenta os resultados da aplicação adados artificiais, do modelo hierárquico. É utilizada a abordagem bayesiana na estimaçãodos parâmetros dos dois modelos e todo o procedimento de inferência é descrito neste capítulo.

66

Page 81: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

67

4.1 Resposta Poisson para uma única região

Nesta seção, é apresentado um modelo para o estudo de uma única região, com a variável deinteresse discreta e agregada temporalmente. Neste caso, a variável de interesse é a realizaçãoparcial de um processo estocástico, como apresentado na Seção 3.1.

Na modelagem deste tipo de processo é considerado que a variável resposta é medida emN pontos do espaço s1, s2, · · · , sN e, em T instantes de tempo, t = r, r + 1, · · · , T , em que r éo período de agregação no tempo. Assim, a variável resposta Zt(sj) (j = 1, 2, · · · , N) medidano local sj e no tempo t é uma observação univariada com Zt = (Zt(s1), Zt(s2), · · · , Zt(sN))′

representando as medidas em todos os locais considerados e, Z = (Zr,Zr+1, · · · ,ZT ) é umamatriz de dimensão N × (T − r + 1).

Neste modelo, considera-se que o valor observado, corresponde à contagem acumulada em r

instantes de tempo, ou seja, Zt(s) =∑r−1

i=0 Yt−i(s) é a contagem acumulada e Yt−i(s) é contagemna localização s e no tempo t−i. Assumindo que Yt−i(s)|θt−i(s) ∼ Poisson (θt−i(s)), e sabendo-se que a soma de variáveis aleatórias condicionalmente independentes, que seguem distribuiçõesde Poisson, resulta também em distribuição de Poisson, tem-se que

Zt(s) ∼ Poisson(αt(s)), (4.1)

αt(s) =r−1∑i=0

θt−i(s) e

µt−i(s) = log(θt−i(s)) = F′t−iλt−i + νt−i(s)

λt−i = Gt−iλt−i−1 + wt−i, wt−i ∼ N(0; W),

é a especificação do modelo para o tempo t e localização s. Considerando o caso vetorial,este modelo segue as especificações apresentadas em Gamerman e Migon (1993), com µ

correspondendo às equações estruturais e λ às equações do sistema.

O nível médio do processo é dado por αt(s), que é definido como sendo a agregação de rvalores de θt(s), ou seja, αt(s) = θt(s)+θt−1(s)+ · · ·+θt−r+1(s) = exp {µt(s)}+exp {µt−1(s)}+

· · ·+ exp {µt−r+1(s)}.Os componentes F′t−i e Gt−i, de dimensões 1×m e m×m, respectivamente, podem assumir

estruturas como, nível, tendência e sazonalidade, o que torna o modelo proposto bastanteflexível. A estrutura temporal é descrita por F′t−iλt−i e νt−i ∼ N(0,Σ), com Σ(sj, sj′) =

σ2 exp{−djj′

φ

}, captura a estrutura local por meio da dependência espacial descrita pela função

de covariância exponencial, sendo djj′ a distância euclidiana entre as localizações sj e, sj′ , istoé djj′ = ||sj − sj′ ||.

Page 82: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

68

Função de verossimilhança

A função de verossimilhança de Θ é dada por:

L(z|Θ) =T∏t=r

N∏j=1

p(zt(sj)|αt(sj)) (4.2)

∝T∏t=r

N∏j=1

exp {αt(sj)} [αt(sj)]zt(sj) ,

∝T∏t=r

N∏j=1

exp

{(r−1∑i=0

θt−i(sj))

}[(r−1∑i=0

θt−i(sj))

]zt(sj),

em que o vetor paramétrico a ser estimado será Θ = (θ,λ, σ2, φ,W,λ0)′, sendo θ =

(θ1,θ2, · · · ,θT ) com θt = (θt(s1),θt(s2), · · · ,θt(sN))′ λ = (λ1, λ2, · · · , λT )′, λ0 é um vetorde dimensão m, W uma matriz m×m e σ2 e φ são escalares.

4.1.1 Procedimento de inferência

Nesta seção, um procedimento de inferência baseado no abordagem bayesiana é proposto.Inicialmente, discute-se a especificação da distribuição a priori do vetor paramétrico Θ. Emseguida, o algoritmo MCMC é utilizado para obter amostras da distribuição a posteriori detodos os parâmetros do modelo.

Distribuição a priori

Considerando independência entre os componentes do vetor paramétrico Θ, são atribuídasdistribuições a priori para cada parâmetro. Assim como no Capítulo 3, aos parâmetros devariância são atribuídas distribuições gama invertida (GI) com hiperparâmetros conhecidos,isto é, σ2 ∼ GI(aσ2 , bσ2) e φ ∼ GI(aφ, bφ). W é definido como uma matriz bloco diagonal e acada elemento atribui-se como priori, distribuição gama invertida com hiperparâmetros aW ebW . Já λ0 pode assumir valores positivos e negativos, portanto, é atribuída como priori umadistribuição normal com hiperparâmetros conhecidos, de modo que λ0 ∼ N(mλ0

, Cλ0). Com

exceção do parâmetro φ, a propriedade de conjugação é verificada.

Page 83: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

69

Distribuição a posteriori

Usando o teorema de Bayes, pode-se determinar o núcleo da distribuição a posteriori usando-se oproduto da função de verossimilhança pela distribuição a priori atribuída ao vetor paramétrico.Assim, a distribuição a posteriori conjunta será proporcional a

p(Θ|z) ∝ L(z|Θ)p(Θ)

∝T∏t=r

N∏j=1

p(zt(sj)|αt(sj))T∏t=1

[p(µt|F′tλt,Σ)p(λt|Gtλt−1,W)

]m∏p=1

p(Wp)p(σ2)p(φ)p(λ0)

∝T∏t=r

N∏j=1

exp

{r−1∑i=0

θt−i(sj)

}[r−1∑i=0

θt−i(sj)

]zt(sj)T∏t=1

|Σ|−12 exp

{− 1

2(µt − F′tλt)

′Σ−1(µt − F′tλt)}

T∏t=1

|W|−12 exp

{− 1

2(λt −Gtλt−1)

′W−1(λt −Gtλt−1)}

m∏p=1

(Wp)−(aWp+1) exp

{−bWp

Wp

}(σ2)−(aσ2+1) exp

{− bσ2

σ2

}(φ)−(aφ+1) exp

{− bφφ

}exp

{− 1

2(λ0 −mλ0

)′C−1λ0 (λ0 −mλ0)},

resultando em uma distribuição a posteriori analiticamente intratável. Portanto, para obteramostras dessa distribuição desconhecida são utilizados métodos de simulação estocástica. Éconsiderado aqui, o método de MCMC, mais especificamente o amostrador de Gibbs com passosdo algoritmo Metropolis-Hastings. Para os parâmetros, cuja condicional completa tenha formaconhecida, amostra-se diretamente dela (amostrador de Gibbs); quando a condicional completanão possuir forma conhecida, amostra-se da mesma usando passos do algoritmo Metropolis-Hastings.

As distribuições condicionais completas para os parâmetros σ2, φ, Wp e λ0, são semelhantesàs condicionais apresentadas para o modelo com resposta normal (Seção 3.1.1). Na estimaçãodo vetor λ será utilizado o algoritmo FFBS como descrito na Seção 3.1.1.

Page 84: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

70

Amostrando θ

Sendo µt(s) = log(θt(s)), optou-se por obter amostras para os elementos da matriz µ. Estatransformação facilita os cálculos, já que µt ∼ N(F′tλt,Σ), com t = 1, 2, · · · , T . Para explicitara condicional completa do vetor µt é necessário considerar um caso particular. É considerador = 4 para que seja feito um paralelo com a aplicação real apresentada no Capítulo 1 e queserá analisada no Capítulo 5. Assim, cada αt(s) é dado por:

α4(s) = exp(µ4(s)) + exp(µ3(s)) + exp(µ2(s)) + exp(µ1(s))

α5(s) = exp(µ5(s)) + exp(µ4(s)) + exp(µ3(s)) + exp(µ2(s))

α6(s) = exp(µ6(s)) + exp(µ5(s)) + exp(µ4(s)) + exp(µ3(s))

α7(s) = exp(µ7(s)) + exp(µ6(s)) + exp(µ5(s)) + exp(µ4(s))...

αT−3(s) = exp(µT−3(s)) + exp(µT−4(s)) + exp(µT−5(s)) + exp(µT−6(s))

αT−2(s) = exp(µT−2(s)) + exp(µT−3(s)) + exp(µT−4(s)) + exp(µT−5(s))

αT−1(s) = exp(µT−1(s)) + exp(µT−2(s)) + exp(µT−3(s)) + exp(µT−4(s))

αT (s)(s) = exp(µT (s)) + exp(µT−1(s)) + exp(µT−2(s)) + exp(µT−3(s)).

Sendo assim, a condicional completa de µt(s), para os instantes de tempo t = 4, 5, · · · , T −3

será:

p(µt(s)|.) ∝ p(zt(s)|αt(s))p(zt+1(s)|αt+1(s))p(zt+2(s)|αt+2(s))p(zt+3(s)|αt+3(s))p(µt|F′tλt,Σ)

∝ exp {− (exp(µt(s)) + exp(µt−1(s)) + exp(µt−2(s)) + exp(µt−3(s)))}

[exp(µt(s)) + exp(µt−1(s)) + exp(µt−2(s)) + exp(µt−3(s))]zt(s)

exp {− (exp(µt+1(s)) + exp(µt(s)) + exp(µt−1(s)) + exp(µt−2(s)))}

[exp(µt+1(s)) + exp(µt(s)) + exp(µt−1(s)) + exp(µt−2(s))]zt+1(s)

exp {− (exp(µt+2(s)) + exp(µt+1(s)) + exp(µt(s)) + exp(µt−1(s)))}

[exp(µt+2(s)) + exp(µt+1(s)) + exp(µt(s)) + exp(µt−1(s))]zt+2(s)

exp {− (exp(µt+3(s)) + exp(µt+2(s)) + exp(µt+1(s)) + exp(µt(s)))}

[exp(µt+3(s)) + exp(µt+2(s)) + exp(µt+1(s)) + exp(µt(s))]zt+3(s)

exp

{1

2(µt − F′tλ)′Σ−1(µt − F′tλ)

}.

Esta distribuição não possui forma analítica conhecida e o algoritmo Metropolis-Hastings

Page 85: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

71

é utilizado. Para tanto, é considerada, como densidade proposta uma distribuição normalcentrada no valor corrente de µt(s) e com variância v fixada, isto é, µt(s)p ∼ N(µt(s), v).

É importante notar que, na condicional completa de µt(s), a distribuição a priori condicional,p(µt|F′tλt,Σ), está escrita na forma matricial. Em função disso, no algoritmo, é proposto umvalor apenas para µt(s) enquanto os demais valores do vetor µt permanecem fixos nos respectivosvalores correntes. Este artifício é utilizado para evitar a partição da matriz Σ.

Os instantes de tempo dos extremos, t = 1, 2, 3, t = T − 2, T − 1, T , têm distribuiçõescondicionais completas semelhantes, embora a contribuição da verossimilhança é correspondenteà quantidade de vezes que µt(s) aparece na construção de αt(s). Por exemplo, µ1(s) apareceapenas na média de z4(s), logo tem condicional completa dada por:

p(µ1(s)|.) ∝ p(z4(s)|α4(s))p(µ1|F′1λ1,Σ)

∝ exp {− (exp(µ4(s)) + exp(µ3(s)) + exp(µ2(s)) + exp(µ1(s)))}

[(exp(µ4(s)) + exp(µ3(s)) + exp(µ2(s)) + exp(µ1(s)))]z4(s)

exp

{1

2(µ1 − F′1)

′Σ−1(µ1 − F′1)

}.

4.1.2 Desalinhamento espacial com resposta Poisson para uma única

região

Nesta seção, é considerado um caso particular do modelo apresentado em (4.1). Considera-seo desalinhamento espacial, logo, em cada instante de tempo, apenas parte das N localizaçõessão observadas, mas em ciclos de r instantes de tempo todas as N localizações são observadas.

Considerando o desalinhamento espacial, o vetor Zt apresenta nht localizações observadas eN −nht não observadas, t = r, r+ 1, · · · , T e h = 1, 2, · · ·H. Logo, a função de verossimilhançaé dada por

L(z|Θ) =T∏t=r

nht∏j=1

p(zt(sj)|αt(sj)) (4.3)

∝T∏t=r

nht∏j=1

exp {αt(sj)} [αt(sj)]zt(sj) ,

∝T∏t=r

nht∏j=1

exp

{(r−1∑i=0

θt−i(sj))

}[(r−1∑i=0

θt−i(sj))

]zt(sj),

sendo Ft(s)′ e Gt iguais a 1 e o vetor paramétrico a ser estimado é Θ = (θ,λ, σ2, φ,W, λ0)

′.

Page 86: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

72

As N − nht observações faltantes são amostradas diretamente da equação:

(Zt(sj)) ∼ Poisson(αt(sj)).

4.1.3 Análise dos dados artificiais com desalinhamento espacial

A disposição espacial desses dados artificiais é como em DI apresentada na Figura 1.2, emdestaque encontram-se as armadilhas 2, 30, 55 e 80. Foi considerado um total de N = 84

pontos no espaço e T = 72 instantes de tempo.

O conjunto de dados artificiais foi criado considerando σ2 = 2, φ = 0.29,W = 0.01 e λ0 = 3.Na estimação dos parâmetros do modelo em (4.1) é utilizada a abordagem bayesiana e paratanto, distribuições a priori não informativas são atribuídas da seguinte forma: σ2 ∼ GI(2; 2),φ ∼ GI(2; 0, 29), W ∼ GI(2; 0, 01) e λ0 ∼ N(3; 100).

Inicialmente, foram consideradas 50 mil iterações com o objetivo de sintonizar a variânciada proposta de µ. Para esta tarefa, foi utilizado o método de sintonia apresentado em Roberts eRosenthal (2006). Este método procura manter a taxa de aceitação em torno de 0,44 , usando-sesoma ou subtração de quantidades na variância da proposta.

De posse dos resultados da sintonia, foram consideradas duas cadeias partindo de valoresiniciais diferentes. Em cada uma delas, 100 mil iterações foram executadas e destas, 20 milforam consideradas como aquecimento das cadeias e descartadas, armazenando uma a cada 80iterações. Obteve-se uma amostra a posteriori de tamanho 1000 para cada um dos parâmetros.Os resultados aqui apresentados correspondem à concatenação dos resultados obtidos para asduas amostras.

A Figura 4.1 apresenta o histograma e o intervalo de 95% de credibilidade a posteriori paraos parâmetros σ2, φ,W, λ0, a linha vertical tracejada corresponde ao valor verdadeiro utilizadona simulação e as linhas pontilhadas aos quantis 2,5% e 97,5%. Percebe-se que em todos oscasos, o verdadeiro valor do parâmetro está contido no intervalo de credibilidade.

A Figura 4.2 apresenta o intervalo de 95% de credibilidade a posteriori para o nível λt, alinha tracejada representa o valor verdadeiro e a cheia a média a posteriori. Pode-se notar quea estimativa do vetor λ é bastante suavizada, apesar disto os valores verdadeiros pertencem aointervalo.

A Figura 4.3 apresenta o sumário da distribuição a posteriori de θt, αt e Zt para asarmadilhas 2, 30, 55 e 80. A linha cheia corresponde à média a posteriori, a região sombreadarepresenta o intervalo de 95% de credibilidade a posteriori e a linha tracejada é o valor

Page 87: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

73

σ2

1.6 1.8 2.0 2.2 2.4 2.6

0.0

0.5

1.0

1.5

2.0

2.5

φ

0.20 0.25 0.30 0.35 0.40

02

46

810

12

W

0.00 0.02 0.04 0.06 0.08

010

2030

4050

6070

λ0

2.5 3.0 3.5 4.0

0.0

0.5

1.0

1.5

Figura 4.1: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori para

os parâmetros σ2, φ, W , λ0. A linha vertical tracejada representa o valor verdadeiro.

λ

0 20 40 60

2.0

2.5

3.0

3.5

4.0 Média

IC 95%Verdadeiro

t

Figura 4.2: Sumário da distribuição a posteriori de λt ao longo do tempo. A linha cheia é

a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade a

posteriori. O verdadeiro valor de λt é representado pela linha tracejada.

Page 88: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

74

verdadeiro. O sumário de Zt corresponde à replicação (quando existe observação) e estimação(quando não existe observação). Em todos os casos o verdadeiro valor está contido no intervalo.Percebe-se que o sumário de αt e Zt são semelhantes e este fato é uma característica dadistribuição de Poisson, já que αt é a média e a variância de Zt. Além disto, para as estimativasde αt e Zt percebe-se diminuição da incerteza nos instantes de tempo em que há observação eaumento desta incerteza quando existe observação faltante.

Page 89: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

75

θ

Arm

adilh

a 2

0 20 40 60

020

040

060

080

010

00MédiaIC 95%Verdadeiro

α

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

Z

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

Arm

adilh

a 30

0 20 40 60

020

040

060

080

010

00

MédiaIC 95%Verdadeiro

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

Arm

adilh

a 55

0 20 40 60

020

040

060

080

010

00

MédiaIC 95%Verdadeiro

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

Arm

adilh

a 80

0 20 40 60

020

040

060

080

010

00

MédiaIC 95%Verdadeiro

t

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

t

0 20 40 60

050

010

0015

00

MédiaIC 95%Verdadeiro

t

Figura 4.3: Sumário da distribuição a posteriori de de θt, αt e Zt para as armadilhas 2, 30, 55

e 80. A linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95%

de credibilidade a posteriori. O verdadeiro valor é representado pela linha tracejada.

Page 90: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

76

4.2 Modelo hierárquico Poisson: considerando observações

em diferentes sub-regiões

Nesta seção, é proposto um modelo hierárquico espaço-temporal para o estudo de várias regiões,com a variável de interesse discreta e agregada temporalmente.

Considere G regiões, g = 1, 2, · · · , G e, em cada uma delas, a variável resposta é medidaem Ng pontos no espaço s1, s2, · · · , sNg , e em T instantes de tempo. Desta forma, a variávelresposta Ztg(sj) (j = 1, 2, · · · , Ng) medida no tempo t, na região g e local sj, é uma observaçãounivariada com Ztg = (Ztg(s1), Ztg(s2), · · · , Ztg(sNg))′ representando as medidas em todos oslocais considerados na região g e, Z = (Zr,Zr+1, · · · ,ZT ) é uma matriz de dimensão N × (T −r + 1), com Zt = (Z1,Z2, · · · ,ZG)′, t = r, r + 1, · · · , T e N = N1 +N2 + · · ·+NG.

Este modelo considera Zt uma realização parcial de um processo estocástico, sendo o valorobservado no tempo t, região g e localização s, Zt,g(s), a contagem acumulada em r instantesde tempo, ou seja, Zt,g(s) =

∑r−1i=0 Yt−i,g(s) é a contagem acumulada e Yt−i,g(s) é contagem no

tempo t− i, região g e na localização s. Assumindo que Yt−i,g(s)|θt−i,g(s) ∼ Poisson (θt−i,g(s)),e sabendo-se que a soma de variáveis aleatórias condicionalmente independentes, que seguemdistribuições de Poisson, resulta também em distribuição de Poisson, tem-se que,

Zt,g(s) ∼ Poisson(αt,g(s)), (4.4)

αt,g(s) =r−1∑i=0

θt−i,g(s) e

µt−i,g(s) = log(θt−i,g(s)) = F′1,t−1λt−i,g + νt−i,g(s)

λt−ig = F′2,t−iδt−i + Ut−i,g, Ut−i,g ∼ N(0; ug),

δt−i = Gt−iδt−i−1 + ωt−i, ωt−i ∼ N(0; W).

De acordo com especificações do modelo apresentado em Gamerman e Migon (1993), µt eλt correspondem às equações estruturais, enquanto que δt à equação do sistema.

No tempo t, localização s e região g, o nível médio do processo é dado por αt,g(s) =

θt,g(s) + θt1,g(s) + · · ·+ θt−r+1,g(s) = exp {µt,g(s)}+ exp {µt−1,g(s)}+ · · ·+ exp {µt−r+1,g(s)} e,cada µt = (µ1,µ2, · · · ,µG)′, representa o efeito individual local na escala temporal desagregada.Para este efeito, é incorporada uma dependência espacial usando-se uma função de correlaçãoexponencial. Dessa forma, νt−i,g ∼ N(0,Σg) , com Σg(sj, sj′) = σ2

g exp{−djj′

φg

}. A média deste

efeito local é descrita por F′1,tλt,g, que mede a estrutura temporal em cada região g, enquantoque δt representa a estrutura temporal comum a todas as regiões. Sendo assim, para cada

Page 91: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

77

região g, tem-se que F′1,t é um vetor de dimensão 1 × n, F′2,t e Gt são matrizes de dimensõesn×m e m×m, respectivamente.

É considerada independência entre as regiões e cada cada uma delas assume um valordiferente de σ2 e φ. Desta forma, a matriz de correlação espacial resultante Σ =

diag(Σ1,Σ2, · · ·ΣG) de dimensão N ×N , com diag denotando a matriz bloco diagonal.

Função de verossimilhança

Para o vetor paramétrico Θ = (θ,λ, δ, τ 2,σ2,φ,W,u, δ0)′, a função de verossimilhança é dada

por:

L(z|Θ) =T∏t=r

N∏j=1

p(zt(sj)|αt(sj)) (4.5)

∝T∏t=r

N∏j=1

exp {αt(sj)} [αt(sj)]zt(sj) ,

∝T∏t=r

N∏j=1

exp

{(r−1∑i=0

θt−i(sj))

}[(r−1∑i=0

θt−i(sj))

]zt(sj).

4.2.1 Procedimento de inferência

O procedimento de inferência também é baseado na abordagem bayesiana. Inicialmente, serãoespecificadas distribuições a priori para os parâmetros. Em seguida, será utilizado o algoritmoMCMC para obter amostras a posteriori de todos os parâmetros do modelo.

Distribuição a priori

Considerando independência entre os componentes do vetor paramétrico Θ, são atribuídasdistribuições a priori para cada parâmetro. Desta forma, aos parâmetros de variância sãoatribuídas distribuições gama invertida (GI) com hiperparâmetros conhecidos, já que estesparâmetros são estritamente positivos, isto é, σ2

g ∼ GI(aσ2g, bσ2

g) e φg ∼ GI(aφg , bφg), W e ug

são matrizes diagonais, logo, a cada elemento da diagonal é atribuída a distribuição GI comopriori. Para δ0 é atribuída distribuição a priori normal com vetor de média mδ0

e matriz decovariâncias Cδ0

.

Page 92: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

78

Distribuição a posteriori

Como para o modelo de uma única região descrito na Seção 4.1, aqui também será utilizado oteorema de Bayes na obtenção da distribuição a posteriori resultante. O núcleo da distribuiçãoa posteriori corresponde ao produto entre a função verossimilhança e a distribuição a prioriatribuída ao vetor paramétrico. Assim,

p(Θ|z) ∝ L(z|Θ)p(Θ)

∝T∏t=r

N∏j=1

p(zt(sj)|αt(sj))T∏t=1

G∏g=1

[p(µt,g|F′1,tλtg,Σg)p(λt,g|F′2,tδt,ug)p(δt|Gtδt−1,W)

]G∏g=1

[p(σ2

g)p(φg)] m∏p=1

[Wp]n∏l=1

[ug,l] p(λ0)

∝T∏t=r

N∏j=1

exp

{r−1∑i=0

θt−i(sj)

}[r−1∑i=0

θt−i(sj)

]zt(sj)T∏t=1

G∏g=1

|Σg|−12 exp

{− 1

2(µt,g − F′1,tλt)

′Σ−1g (µt,g − F′1λt)}

T∏t=1

G∏g=1

|ug|−12 exp

{− 1

2(λt,g − F′2,tδt, g)′u−1g (λt,g − F′2,tδt, g)

}T∏t=1

|W|−12 exp

{− 1

2(δt −Gtδt−1)

′W−1(δt −Gtδt−1)}

G∏g=1

[(σ2

g)−(a

σ2g+1)

exp{−bσ2

g

σ2g

}(φg)

−(aφg+1) exp{−bφgφg

}}]G∏g=1

m∏p=1

[W−(aWp+1)p exp

{−bWp

Wp

}] G∏g=1

n∏l=1

[u−(aul+1)

l exp{− bulul

}]exp

{− 1

2(λ0 −mλ0

)′C−1λ0 (λ0 −mλ0)}.

A distribuição a posteriori resultante é analiticamente intratável, portanto, aqui tambémserá necessário utilizar métodos de simulação estocástica para obter amostras desta distribuiçãodesconhecida. O método de MCMC será utilizado e, para tanto, será necessário o cálculo dascondicionais completas para os componentes do vetor paramétrico Θ.

As distribuições condicionais completas de δ0, W, σ2g e φg são muito similares às

encontradas para o modelo que considera uma única região. Para amostrar do vetor δ, seráutilizado o algoritmo FFBS, como descrito na Seção 3.1.1. A estimação do vetor θt está descrita

Page 93: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

79

na Seção 4.1.1.

4.2.2 Desalinhamento espacial com resposta Poisson para diferentes

sub-regiões

Nesta seção, apresentam-se os resultados da aplicação de um caso particular do modelohierárquico com resposta Poisson apresentado em (4.4). Neste caso particular, considera-seF1t um vetor de uns de dimensão Ng, já F2,t e Gt são iguais a 1, para t = 1, 2, · · · , T .

Os dados artificiais são criados com agregação temporal e desalinhamento espacial, de formaque, em cada região g, apenas parte de todas as localizações são observadas. Esses dadossimulam um planejamento amostral realizado em forma de rodízio.

Sendo assim, em cada instante de tempo, o vetor de contagens agregadas Zt apresenta nhtlocalizações observadas e N − nht não observadas. Assim, a função de verossimilhança é dadacomo na Equação (4.5), substituindo o valor N por nht.

4.2.3 Análise dos dados artificiais com desalinhamento espacial

Os resultados aqui apresentados são referentes a um conjunto de dados artificiais considerando5 regiões. A disposição espacial destas regiões são como apresentadas na Figura 1.2. Destaforma, as regiões R1, R2, R3, R4 e R5 correspondem, respectivamente, às regiões BT, CFP,DI, EM e MCP da Figura 1.2.

Foram considerados T = 72 instantes de tempo e um total de N = 464 armadilhas, dasquais 80 pertencem a R1, 100 a R2, 84 a R3, 100 a R4 e 100 a R5.

O conjunto de dados artificial foi criado, assumindo δ0 = 1, W = 0.01 e os demais valoresutilizados na simulação são apresentado na Tabela 4.1

Tabela 4.1: Valores em que os hiperparâmetros do modelo hierárquico Poisson foram fixados

para a geração de dados artificiais.

R1 R2 R3 R4 R5

σ2 2,4 1 2 1,6 1,4

φ 0,218 0,307 0,297 0,248 0,262

u 0,8 0,5 0,1 0,3 0,7

Page 94: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

80

Distribuições a priori foram atribuídas aos parâmetros. Desta forma, aos parâmetrosσ2g , φg, ug e W , g = 1, 2, · · · 5 atribuíram-se distribuições gama invertida com parâmetros de

forma igual a 2 e parâmetros de escala igual ao valor utilizado na criação dos dados, já para δ0atribuiu-se como priori uma distribuição normal com média zero e variância 100.

Após efetuar 50 mil iterações para a sintonia da variância da proposta de µ, duascadeias partindo de valores iniciais diferentes foram consideradas. Os resultados apresentadoscorrespondem à concatenação destas duas cadeias e, para cada uma delas, consideraram-se 100mil iterações e destas, 20 mil foram consideradas como aquecimento das cadeias e descartadas.Guardou-se uma a cada 80 iterações, o que resultou em uma amostra da distribuição a posterioride tamanho 1000, para cada um dos parâmetros.

A Figura 4.4 apresenta o intervalo de 95% de credibilidade a posteriori para os parâmetrosσ2,φ, u. Em destaque, encontram-se os valores utilizados na simulação e as médias a posteriori.Percebe-se que em todos os casos os valores verdadeiros pertencem aos seus intervalos de 95%de credibilidade correspondente.

σ2

R1 R2 R3 R4 R5

0.5

1.0

1.5

2.0

2.5

3.0

3.5

●●

● MédiaVerdadeiro

φ

R1 R2 R3 R4 R5

0.1

0.2

0.3

0.4

0.5

● ●●

u

R1 R2 R3 R4 R5

0.0

0.5

1.0

1.5

2.0

●●

Figura 4.4: Intervalo de 95% de credibilidade a posteriori para os parâmetros σ2,φ, u. O círculo

fechado representa a média a posteriori.

Para os parâmetros δ0 e W são apresentados na Figura 4.5, os histogramas e os intervalosde 95% de credibilidade a posteriori. Em ambos os casos, os valores verdadeiros pertencem aosintervalos.

A Figura 4.6 apresenta o intervalo de 95% de credibilidade a posteriori para o parâmetroδ, a linha tracejada representa o valor verdadeiro e a cheia a média a posteriori. Pode-se notarque a estimativa do vetor δ é suavizada, mas apesar disto, de forma geral os valores verdadeirospertencem ao intervalo.

A Figura 4.7 apresenta o intervalo de 95% de credibilidade a posteriori para o vetor λ de

Page 95: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

81

δ0

0.5 1.0 1.5

0.0

0.5

1.0

1.5

2.0

W

0.00 0.02 0.04 0.06

020

4060

80

Figura 4.5: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori para

os parâmetros δ0 e W . A linha vertical tracejada representa o valor verdadeiro.

δ

0 20 40 60

0.5

1.0

1.5

2.0

MédiaIC 95%Verdadeiro

t

Figura 4.6: Sumário da distribuição a posteriori de δt ao longo do tempo. A linha cheia é

a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade a

posteriori. O verdadeiro valor de δt é representado pela linha tracejada.

cada região, a linha tracejada representa o valor verdadeiro e a cheia a média a posteriori.Como era esperado, a região 3 apresenta a menor amplitude dos intervalos, pois possui o menorvalor de u (0.1), se comparada com as demais regiões.

A Figura 4.8 apresenta os intervalos de 95% de credibilidades a posteriori de θt, αt eZt para as armadilhas 2, 30, 55 e 80 de R3. De forma geral, para todos estes parâmetros,os verdadeiros valores pertencem aos intervalos. As estimativas dos α´s apresentam menorincerteza se comparadas com as dos θ’s, este comportamento era esperado já que α correspondea uma soma. Os intervalos de 95% de credibilidade a posteriori de Zt correspondem à replicação

Page 96: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

82

R1

λ

0 20 40 60

−2

−1

01

23

45

MédiaIC 95%Verdadeiro

t

R2

λ

0 20 40 60

−2

−1

01

23

45

t

R3

λ

0 20 40 60

−2

−1

01

23

45

t

R4

λ

0 20 40 60

−2

−1

01

23

45

t

R5

λ

0 20 40 60

−2

−1

01

23

45

t

Figura 4.7: Sumário da distribuição a posteriori de λ ao longo do tempo, nas 5 regiões. A linha

cheia é a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade

a posteriori. O verdadeiro valor de λ é representado pela linha tracejada.

(quando existe observação) e estimação (quando não existe observação).

Page 97: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

83

θ

Arm

adilh

a 2

− R

3

0 20 40 60

050

100

150

MédiaIC 95%Verdadeiro

α

0 20 40 60

050

100

150

200

MédiaIC 95%Verdadeiro

Z

0 20 40 60

050

100

150

200

Arm

adilh

a 30

− R

3

0 20 40 60

050

100

150

MédiaIC 95%Verdadeiro

0 20 40 60

050

100

150

200

MédiaIC 95%Verdadeiro

0 20 40 60

050

100

150

200

Arm

adilh

a 55

− R

3

0 20 40 60

050

100

150

MédiaIC 95%Verdadeiro

0 20 40 60

050

100

150

200

MédiaIC 95%Verdadeiro

0 20 40 60

050

100

150

200

Arm

adilh

a 80

− R

3

0 20 40 60

050

100

150

MédiaIC 95%Verdadeiro

t

0 20 40 60

050

100

150

200

MédiaIC 95%Verdadeiro

t

0 20 40 60

050

100

150

200

t

Figura 4.8: Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região sombreada representa

o intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado pela linha

tracejada.

Page 98: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Capítulo 5

Análise da contagem de ovos de Aedes

aegypti em bairros do Recife

Este capítulo é reservado para a apresentação dos resultados da aplicação dos modelos propostosnos Capítulos 3 e 4. Estes modelos foram aplicados aos dados de contagem de ovos do mosquitoAedes aegypti, coletados em de armadilhas de oviposição distribuídas em 5 regiões da cidadede Recife/PE, apresentados na Seção 1.2 do Capítulo 1. As armadilhas permaneceram fixasdurante todo o estudo, e os resultados aqui apresentados são referentes às coletas realizadasde 04/01/2005 a 16/05/2006, totalizando 72 semanas. Com esta aplicação, espera-se encontrarpadrões espaciais e/ou temporais que indiquem, por exemplo, regiões e/ou períodos de tempocom mais ou menos quantidade de ovos do mosquito em cada bairro de Recife.

A cidade de Recife/PE ocupa o segundo lugar no número de casos de dengue no Brasil.Esta doença é causada por um vírus, transmitida a humanos pelo mosquito Aedes aegypti, logoo conhecimento da dinâmica da postura de ovos pode auxiliar no combate à doença.

Os resultados apresentados neste capítulo podem ser utilizados, pelo poder público, paraintensificar as políticas de combate à doença. Por exemplo, identificar as melhores datasou regiões para investir em campanhas de combate ao mosquito, ou ainda, aumentar osinvestimentos em hospitais localizados em regiões com maior proliferação do mosquito.

Na Seção 5.1, são apresentados os resultados para o modelo com resposta normalconsiderando uma única região. Optou-se por apresentar os resultados encontrados para aregião DI, por se tratar da região com menor quantidade de valores faltantes, além da menorvariabilidade observada. Na Seção 5.2, apresentam-se alguns resultados do modelo hierárquico

84

Page 99: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

85

com resposta normal. Na aplicação destes dois modelos é necessária a transformação da variávelresposta. Os resultados apresentados aqui são referentes à transformação raiz quadrada, já queesta mostrou ser uma boa aproximação da distribuição dos dados à distribuição normal.

A Seção 5.3 é reservada para a apresentação dos resultados do modelo com resposta Poisson,considerando uma única região. Novamente, são apresentados resultados encontrados para DI.Já na Seção 5.4, apresentam-se alguns resultados para o modelo hierárquico com respostaPoisson. Nota-se que para os modelos com resposta Poisson, não é necessário nenhumatransformação na variável resposta.

Para obter amostras a posteriori de todos os parâmetros dos modelos considerados é utilizadoo algoritmo MCMC. Para tanto, são geradas duas cadeias partindo de valores iniciais diferentese em cada uma delas 100 mil iterações e destas, 20 mil são consideradas como aquecimento dascadeias e descartadas, guardando-se uma a cada 80 iterações, resultando em uma amostraa posteriori de tamanho 1000 para cada um dos parâmetros. Os resultados apresentadoscorrespondem à concatenação dos resultados obtidos para as duas amostras.

5.1 Resposta normal para uma única região: aplicado à

região DI

Nesta seção, são apresentados os resultados do modelo apresentado em (3.1.2), que é um casoparticular do modelo apresentado na Equação (3.1). O modelo considera que a variável resposta,normalmente distribuída, é observada em uma única região e, foi aplicado à contagem de ovosdo mosquito obtida na região Dois Irmãos. Como descrito na Seção 1.2 do Capítulo 1, em DIforam distribuídas 84 armadilhas e estas divididas, de forma aleatória, em 4 grupos, o grupo1possui 24 armadilhas, o grupo2 20, o grupo3 22 e o grupo4 18, como apresentado na Tabela1.1. A disposição espacial destas armadilhas pode ser verificada na Figura 1.2.

As observações foram realizadas semanalmente em esquema de rodízio, de tal forma que,em cada semana, apenas um dos grupos tinham suas armadilhas observadas. O experimentoteve início, de fato, em 14/12/2004, data em que foram instaladas as armadilhas do primeirogrupo. Desta forma, a contagem observada corresponde ao agregado em 4 semanas. O mesmoesquema de amostragem foi considerado para os demais grupos.

Como os dados observados correspondem à contagem do número de ovos, foi considerada atransformação raiz quadrada na variável resposta. A Figura 5.1 apresenta o box-plot da raiz

Page 100: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

86

quadrada da contagem dos ovos na escala semanal para DI. As diferentes cores correspondemaos diferentes grupos. Percebe-se que a média da raiz quadrada da contagem dos ovos varia nodecorrer das semanas e, além disso, o aumento do valor médio é acompanhado pelo aumentoda variância da raiz quadrada do número de ovos.

●●

●●

●●

●●

●●●

● ●

04/0

1/20

05

08/0

2/20

05

15/0

3/20

05

19/0

4/20

05

24/0

5/20

05

28/0

6/20

05

02/0

8/20

05

06/0

9/20

05

11/1

0/20

05

15/1

1/20

05

20/1

2/20

05

24/0

1/20

06

28/0

2/20

06

04/0

4/20

06

09/0

5/20

06

020

4060

8010

0

Grupo 1

2

3

4

Figura 5.1: Box-plot da raiz quadrada da contagem semanal do número de ovos na região DI.

5.1.1 Resultados

Supondo independência ao vetor paramétrico e, com o objetivo de atribuir pouca informação apriori, as distribuições pouco informativas foram atribuídas da seguinte forma: τ 2 ∼ GI(2; 25),σ2 ∼ GI(2; 50), W ∼ GI(0, 1; 0, 1) e λ0 ∼ N(0; 100), φ ∼ GI(2; b), onde b = max(d)/ −2 log(0.05), sendo max(d) o valor máximo da matriz de distâncias euclidiana. Para a regiãoDI a distância máxima entre os pontos é de 1,78 quilômetros, logo, φ ∼ GI(2; 0, 29).

A Tabela 5.1 apresenta a média, desvio padrão e intervalo de 95% de credibilidade dasamostras a posteriori dos parâmetros τ 2, σ2, φ, W e λ0. Para os parâmetros τ 2 e σ2, os valoresda média a posteriori são, respectivamente, 67,22 e 10,13. Estes resultados indicam que a maiorparte da variação dos dados é explicada pelo erro de medida e não pela dependência espacial.O parâmetro φ representa o alcance prático e a média a posteriori deste parâmetro ser 0,32significa que para distância maiores do que 320 metros não existe mais qualquer dependênciaespacial.

Page 101: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

87

Tabela 5.1: Resultados do modelo normal individual para a região DI.

Média Desvio padrão IC

τ 2 67,22 4.31 (58,68;75,85)

σ2 10,13 1.37 (7,76; 13,03)

φ 0,32 0.07 (0,19; 0,48)

W 0,27 0,16 (0,07; 0,70)

λ0 2,87 1.02 (0,87; 4,97)

É importante notar que está sendo considerada uma transformação raiz quadrada navariável resposta, sendo assim, as interpretações dos resultados ficam prejudicadas e devemser analisadas com muito cuidado. Por exemplo, sabe-se que o mosquito Aedes aegypti costumacircular poucos centímetros ao redor de sua moradia, o que torna o valor 320 metros para oalcance prático bastante irreal. Estas dificuldades nas interpretações são causadas por assumir,implicitamente, que as quantidades desagregadas também estão na escala da raiz quadrada.

A Figura 5.2 apresenta sumário da distribuição a posteriori de λt ao longo do tempo. Aregião sombreada representa o intervalo de 95% de credibilidade a posteriori e a linha cheia é amédia a posteriori. Este parâmetro representa a média semanal da raiz quadrada da contagemde ovos do mosquito para cada semana. Aparentemente, a estrutura da média do número deovos por semana parece capturar bem a estrutura temporal presente nos dados (Figuras 5.2 e5.1).

A Figura 5.3 apresenta o sumário da distribuição a posteriori de θt, αt e Zt ao longodo tempo, para as armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de95% de credibilidade a posteriori e a linha cheia é a média a posteriori. Os resultados aposteriori do intervalo de 95% de credibilidade de Zt correspondem à replicação (quando existeobservação) e interpolação (quando não existe observação). Percebe-se que as estimativas dosαt apresentam menor incerteza se comparado com os θt, este comportamento era esperado jáque αt corresponde a uma soma, além disto, as estimativas dos θt estão bastante suaviadas.Nas estimativas de Zt, percebe-se que a média a posteriori, de forma geral, não está próximados valores observados e, provavelmente, isto se deve ao fato do erro de medida ser estimadocomo um valor alto.

Page 102: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

88

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

8

MédiaIC 95%

Figura 5.2: Sumário da distribuição a posteriori de λt ao longo do tempo. A região sombreada

representa o intervalo de 95% de credibilidade a posteriori e a linha cheia é a média a posteriori.

Page 103: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

89

θ

Arm

adilh

a 2

50

510

15

α

0

1020

3040

50

Z

100

1020

3040

5060

MédiaIC 95%Observado

● ●

●●

●● ●

● ●●

Arm

adilh

a 30

50

510

15

Média

0

1020

3040

50

100

1020

3040

5060

●●

●●

Arm

adilh

a 55

50

510

15

Média

0

1020

3040

50

100

1020

3040

5060

● ●

Arm

adilh

a 80

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

−5

05

1015

Média

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

010

2030

4050

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

−10

010

2030

4050

60

●●

●●

Figura 5.3: Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% de credibilidade

a posteriori e a linha cheia é a média a posteriori.

Page 104: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

90

5.2 Modelo hierárquico normal: aplicado às regiões BT,

CFP, DI, EM e MCP

Os resultados da aplicação do modelo normal hierárquico apresentado na Equação (3.2.2)são apresentados nesta seção. Este modelo é aplicado aos dados de contagem de ovos domosquito coletados na cidade de Recife/PE. São consideradas as 72 semanas de observações, de04/01/2005 a 16/05/2006, em um total de 464 armadilhas, estas permaneceram fixas durantetodo o estudo. A disposição espacial destas armadilhas nas respectivas regiões pode serobservada na Figura 1.2. A Tabela 1.1 apresenta a quantidade de armadilhas em cada grupo,ressalta-se que os grupos, de cada região, eram observados na mesma data, ou seja, o grupo 1de todas as regiões tiveram suas armadilhas coletadas no dia 04/01/2005. Como na Seção 5.1,aqui também foi utilizada a transformação raiz quadrada na contagem dos ovos do mosquitoAedes aegypti.

5.2.1 Resultados

Como na Seção 5.1, é suposta independência entre os componentes do vetor paramétrico, e asdistribuições a priori são consideradas de forma a atribuírem pouca informação a priori. Paraos parâmetros de variância foram consideradas distribuição gama invertida e para o parâmetroδ0 foi atribuída distribuição normal com média 0 e variância 100.

A Figura 5.4 apresenta o intervalo de 95% de credibilidade a posteriori para os parâmetrosτ 2, σ2 , φ, u, em destaque encontra-se a média a posteriori. Já a Figura 5.5 apresenta ohistograma e intervalo de 95% de credibilidade a posteriori para os parâmetros δ0 e W . DIapresenta o menor erro de medida, estimado em 67,11, enquanto que, para BT a estimativapontual do erro de medida é 202,26. A Figura 5.4 deixa evidente que BT é a região com a maiorvariância do erro de medida, DI o menor valor desta variância e as demais regiões apresentamestimativas em torno de 150. Para σ2, BT continua apresentando a maior estimativa e estasituação se repete para o parâmetro φ. Nota-se que em BT, além da estimaivas pontuais deσ2 e φ serem altas, a variabilidade destas também são altas. Este resultado reflete a poucaprecisão nas estimativas dos parâmetros desta região.

Em todas as regiões as estimativas da variância do erro de medida são maiores do queos valores estimados para a variância do processo espacial. Isto indica que a maior parte davariabilidade das observações é explicada pelo erro de medida e não pela dependência espacial.

Page 105: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

91

τ2

BT CFP DI EM MCP

5010

015

020

025

0●

●●

σ2

BT CFP DI EM MCP

510

1520

2530

35

●●

φ

BT CFP DI EM MCP

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

u

BT CFP DI EM MCP

01

23

45

Figura 5.4: Intervalo de 95% de credibilidade a posteriori para os parâmetros τ 2,σ2,φ,u (linhas

verticais representam). O ponto cheio corresponde à média a posteriori.

A Figura 5.6 apresenta o sumário da distribuição a posteriori δt e de λt ao longo do tempo.A linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95% decredibilidade a posteriori. O parâmetro δt representa uma quantidade média na escala de temposemanal e comum a todas as regiões. Esta mesma quantidade é representada pelo parâmetroλt, mas separado por região. Percebe-se um comportamento temporal bastante semelhante,aumentando e diminuindo nos mesmos intervalos de tempo. Por δt ser um valor médio comuma todas as regiões sua incerteza é reduzida, pois leva em consideração a informação de todas asregiões, enquanto que δt considera a informação apenas da região correspondente.

A Figura 5.7 apresenta o sumário da distribuição a posteriori de θt, αt e Zt ao longo dotempo, para as armadilhas 2, 30, 55 e 80 de DI. A região sombreada representa o intervalo

Page 106: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

92

δ0

2 3 4 5 6

0.0

0.1

0.2

0.3

0.4

0.5

W

0.0 0.1 0.2 0.3 0.4

02

46

8

Figura 5.5: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori para

os parâmetros δ0 e W

de 95% de credibilidade a posteriori e a linha cheia é a média a posteriori. Percebe-se que asestimativas de Zt para DI considerando o modelo normal hierárquico são bastante semelhantesàs estimativas encontradas na Seção 5.1, onde considera-se um modelo com reposta normalpara uma região individual.

Page 107: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

93

δ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

810

MédiaIC 95%Observado

BT

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

810

CFP

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

810

MédiaIC 95%Observado

DI

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

810

MédiaIC 95%Observado

EM

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

810

MédiaIC 95%Observado

MCP

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

02

46

810

MédiaIC 95%Observado

Figura 5.6: Sumário da distribuição a posteriori de δt e de λt, ao longo do tempo. A linha cheia

é a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade a

posteriori.

Page 108: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

94

θ

Arm

adilh

a 2

− D

I −

50

510

1520

α

0

1020

3040

5060

Z

0

2040

60 ●

MédiaIC 95%Observado

● ●

●●

● ● ●●

●●

● ●●

Arm

adilh

a 30

− D

I −

50

510

1520

0

1020

3040

5060

0

2040

60

●●

●●

Arm

adilh

a 55

− D

I −

50

510

1520

0

1020

3040

5060

0

2040

60

● ●

Arm

adilh

a 80

− D

I

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

−5

05

1015

20

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

010

2030

4050

60

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

020

4060

●●

●●

Figura 5.7: Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80 da região DI. A região sombreada representa o intervalo de 95% de

credibilidade a posteriori e a linha cheia é a média a posteriori.

Page 109: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

95

5.3 Resposta Poisson para uma única região: aplicado à

região DI

Nesta seção, são apresentados resultados da aplicação do modelo espaço-temporal para respostaPoisson para uma única região. Foi considerado o modelo apresentado na Equação (4.1.2), umcaso particular do modelo apresentado na Equação (4.1).

Assim como na Seção 5.1, os resultados apresentados serão referentes à contagem de ovos domosquito obtidos em DI. A Figura 1.4 apresenta o box-plot das observações na escala original.Diferentemente das Seções 5.1 e 5.2, aqui não é necessário utilizar qualquer transformação navariável resposta, já que o modelo considera uma distribuição de Poisson para as observações.

5.3.1 Resultados

Foram atribuídas, aos parâmetros, prioris não informativas da seguinte forma: σ2 ∼ GI(2; 200),φ ∼ GI(2; 0, 29), W ∼ GI(0, 1; 0, 1) e λ0 ∼ N(0; 100).

A Tabela 5.2 apresenta a média, desvio padrão e intervalo de 95% credibilidade das amostrasa posteriori dos parâmetros σ2, φ, W e λ0. Para o parâmetro σ2 a estimativa pontual é 4,71,já para φ a média a posteriori de 0,07 significa que para distância maiores que 70 metros nãoexiste mais qualquer dependência espacial.

Tabela 5.2: Resultados para o modelo Poisson individual para a região DI.

Média Desvio padrão IC

σ2 4,71 0.18 (4,36; 5,07)

φ 0,07 0.01 (0,05; 0,09)

W 0,08 0,03 (0,03; 0,17)

λ0 2,09 0.49 (1,06; 3,04)

A Figura 5.8 apresenta o sumário da distribuição a posteriori de λt ao longo do tempo. Aregião sombreada representa o intervalo de 95% de credibilidade a posteriori e a linha cheia éa média a posteriori. Esta medida representa o logaritmo da média da contagem de ovos domosquito em uma escala de tempo desagregada (semanal). Quanto à estrutura temporal desteparâmetro percebe-se muitas semelhanças com a estrutura apresentada na Figura 1.4 para DI,com diferenças significativas nos períodos de tempo em que há aumento ou diminuição das

Page 110: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

96

estimativas deste vetor paramétrico.

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5 Média

IC 95%

Figura 5.8: Sumário da distribuição a posteriori de λt ao longo do tempo. A região sombreada

representa o intervalo de 95% de credibilidade a posteriori e a linha cheia é a média a posteriori.

A Figura 5.9 apresenta o sumário da distribuição a posteriori de θt, αt e Zt ao longo dotempo, para as armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% decredibilidade a posteriori e a linha cheia é a média a posteriori. Percebe-se grande semelhançaentre as estimativas dos αt e de Zt, esta é uma característica da distribuição de Poisson. Nota-se nas estimativas de Zt um comportamento cíclico no intervalo de credibilidade. Isto se devepelo fato da diminuição da incerteza nos instantes de tempo em que há observação e aumentodesta incerteza quando existe observação faltante. Este mesmo comportamente periódico éencontrado nas estimavas de αt.

Page 111: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

97

θ

Ara

mdi

lha

20

500

1500

2500

MédiaIC 95%

α

0

1000

2000

3000

4000

5000

MédiaIC 95%

Z

0

1000

2000

3000

4000

5000

MédiaIC 95%Observado

●●

● ●

●●

● ● ● ●●

● ● ● ● ●

Arm

adilh

a 30

0

500

1500

2500

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%Observado

● ● ●

● ●●

●●

Ara

mdi

lha

55

050

015

0025

00

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%Observado

●●

●●

● ●● ●

●●

Arm

adilh

a 80

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

050

015

0025

00

MédiaIC 95%

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

010

0020

0030

0040

0050

00

MédiaIC 95%

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

010

0020

0030

0040

0050

00

MédiaIC 95%Observado

●●

●●

●●

● ●●

● ●

Figura 5.9: Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as

armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% de credibilidade

a posteriori e a linha cheia é a média a posteriori.

Page 112: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

98

5.4 Modelo hierárquico Poisson: aplicado às regiões BT,

CFP, DI, EM e MCP

São apresentados nesta seção resultados do modelo hierárquico Poisson, considerandoobservações em diferentes regiões, como apresentado na Equação (4.2.2). Nesta aplicação,as observações da contagem dos ovos do mosquito são consideradas na escala original. As 5regiões da cidade de Recife são consideradas, a Figura 1.4 apresenta o box-plot da contagempara cada uma delas.

5.4.1 Resultados

Foram atribuídas, aos parâmetros, prioris não informativas da seguinte forma: σ2g ∼ GI(2; 25),

ug ∼ GI(0.1; 0, 1), φg teve como distribuição a priori uma gama invertida com parâmetro deforma igual a 2 e parâmetro de escala igual a 0, 22, 0.31, 0.3, 0.25 e 0.26, respectivamente parag = 1, 2, · · · , 5. O índice g = 1, 2, · · · , 5 corresponde respectivamente às regiões BT, CFP, DI,EM e MCP. As prioris para os demais parâmetros são: W ∼ GI(0, 1; 0, 1) e λ0 ∼ N(0; 100).

A Figura 5.10 apresenta o intervalo de 95% de credibilidade a posteriori para os parâmetrosσ2, φ, u e, em destaque, encontra-se a média a posteriori. Já a Figura 5.11 apresenta ohistograma e intervalo de 95% de credibilidade a posteriori para os parâmetros δ0 e W . Aincerteza associada às estimativas de σ2 é muito parecida para todas as regiões, mas BT eDI apresentam as maiores estimativas pontuais para estes parâmetros. Para φ e u, DI possuios maiores valores para as estimativas pontuais e também a maior incerteza associada a essasestimativas.

σ2

BT CFP DI EM MCP

3.0

3.5

4.0

4.5

φ

BT CFP DI EM MCP

0.01

0.03

0.05

0.07

u

BT CFP DI EM MCP

0.0

0.5

1.0

1.5

2.0

2.5

●●

Figura 5.10: Intervalo de 95% de credibilidade a posteriori para os parâmetros σ2,φ,u.

Page 113: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

99

δ0

1.5 2.0 2.5 3.0 3.5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

W

0.02 0.06 0.10 0.14

05

1015

2025

30

Figura 5.11: Histograma e intervalo de 95% de credibilidade (pontilhada) a posteriori para os

parâmetros δ0 e W . A linha vertical tracejada representa o valor verdadeiro.

A Figura 5.12 mostra o sumário da distribuição a posteriori δt e de λt, ao longo do tempo.A linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95% decredibilidade a posteriori. O parâmetro δt representa um valor médio, na escala logarítmica,da contagem do número de ovos no tempo desagregada (semanal) e comum a todas as regiões.O parâmetro λ representa também uma média, do logaritmo da contagem de ovos na escalateporal semanal, mas diferente por região. Desta forma, λ recebe contribuição apenas da regiãocorrespondente, enquanto que δ recebe contribuição de todas as regiões. Pela Figura 5.12, pode-se perceber comportamento temporal bastante semelhante entre os vetores paramétricos δ e deλ, aumentando e diminuindo nos mesmos intervalos de tempo.

A Figura 5.13 apresenta o sumário da distribuição a posteriori de θt, αt e Zt ao longo dotempo, para as armadilhas 2, 30, 55 e 80 de DI. A região sombreada representa o intervalode 95% de credibilidade a posteriori e a linha cheia é a média a posteriori. Percebe-se que asestimativas de Zt para DI considerando o modelo hierárquico Poisson são bastante semelhantesàs estimativas encontradas na Seção 5.3, em que se considera um modelo com reposta normalpara uma região individual.

Page 114: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

100

δ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

01

23

45

6

MédiaIC 95%

BT

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

01

23

45

6

CFP

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

01

23

45

6

DI

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

01

23

45

6

EM

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

01

23

45

6

MCP

λ

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

01

23

45

6

Figura 5.12: Sumário da distribuição a posteriori de δt e de λt, ao longo do tempo. A linha

cheia é a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade

a posteriori.

Page 115: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

101

θ

Arm

adilh

a 2

− D

I 0

500

1500

2500

α

0

1000

2000

3000

4000

5000

Z

0

1000

2000

3000

4000

5000

MédiaIC 95%Observado

●●

● ●

●●

● ● ● ●●

● ● ● ● ●

Arm

adilh

a 30

− D

I 0

500

1500

2500

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%Observado

● ● ●

● ●●

●●

Arm

adilh

a 55

− D

I 0

500

1500

2500

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%

0

1000

2000

3000

4000

5000

MédiaIC 95%Observado

●●

●●

● ●● ●

●●

Arm

adilh

a 80

− D

I

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

050

015

0025

00

MédiaIC 95%

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

010

0020

0030

0040

0050

00

MédiaIC 95%

14/1

2/20

04

25/0

1/20

05

08/0

3/20

05

19/0

4/20

05

31/0

5/20

05

12/0

7/20

05

23/0

8/20

05

04/1

0/20

05

15/1

1/20

05

27/1

2/20

05

07/0

2/20

06

21/0

3/20

06

02/0

5/20

06

010

0020

0030

0040

0050

00

MédiaIC 95%Observado

●●

●●

●●

● ●●

● ●

Figura 5.13: Evolução temporal do intervalo de 95% de credibilidade a posteriori de θ, α e Y

para as armadilhas 2, 30, 55 e 80. A linha tracejada corresponde ao verdadeiro valor e a cheia

à média a posteriori.

Page 116: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

102

5.5 Discussão

Neste capítulo, foram apresentados os resultados da aplicação dos modelos propostos nosCapítulos 3 e 4. Estes modelos foram aplicados aos dados de contagem do número de ovosdo mosquito Aedes aegypti, coletados em de armadilhas de oviposição distribuídas em 5 regiõesda cidade de Recife/PE.

Foram considerados modelos com variável resposta normal e Poisson. Como os dadosobservados tratam de contagem, na aplicação dos modelos com resposta normal foi utilizadaa transformação raiz quadrada como aproximação da distribuição normal. Com estatransformação as interpretações dos resultados são prejudicadas. Já nos modelos com respostaPoisson os dados observados são considerados na escala original o que facilita as interpretaçõesdos parâmetros.

De forma geral, estes resultados mostram que pouco se pode falar em uma escala local. Paratodos os modelos os parâmetros que representam a estrutura local foram pouco significativos.Isto é causado, principalmente, pela pouca dependência espacial presente nos dados, além daalta variabilidade encontrada para as observações. Apesar disto, os padrões temporais damédia permanecem basicamente os mesmos em todos os modelos, e os períodos de aumentoe/ou diminuição destas estruturas médias mostraram-se significativos.

Page 117: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Capítulo 6

Considerações finais e trabalhos futuros

6.1 Considerações finais

Esta tese trata de processos espaço-temporais temporalmente agregados e apresentacontribuições em duas principais direções. Em uma delas mostram-se as condições necessáriaspara que processos multivariados, e temporalmente agregados apresentem a mesma estrutura doprocesso desagregado. São consideradas classes particulares de MLD´s, como MLD polinomialde primeira e segunda ordens, de regressão passando pela origem, MLD sazonal na formalivre e superposição em modelos dinâmicos. De forma geral, provou-se que, considerando avariância da equação do sistema muito menor que a variância da equação das observações, asérie agregada segue o mesmo MLD da série desagregada. Nota-se que esta é uma hipótesecomumente adotada em tais modelos.

Uma outra contribuição segue no sentido do desenvolvimento de modelos espaço-temporaispara dados observados em pontos fixos do espaço e agregados temporalmente. Nesses modelos,considera-se que a variável resposta é a realização parcial de um processo estocástico. Forampropostos modelos para dados seguindo distribuição normal e de Poisson. A modelagemproposta se mostra flexível e incorpora diversas estruturas.

O desenvolvimento destes modelos teve como motivação um estudo realizado na cidade deRecife/PE. Nesse estudo, foram coletados ovos do mosquito Aedes aegypti em de armadilhas deoviposição espalhadas em 5 regiões da cidade. As coletas eram realizadas semanalmente em umesquema de rodízio, de forma que, a cada semana, apenas parte das armadilhas eram coletadas,mas em ciclos de 4 semanas todas as armadilhas eram observadas.

103

Page 118: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

104

Inicialmente foi proposto um modelo para dados normais, levando em conta uma únicaregião. Uma extensão natural desta abordagem foi considerar um modelo hierárquico, no qualincorporam-se estruturas locais, estruturas temporais para as regiões individuais e estruturascomuns a todas as regiões. Em seguida, a modelagem para dados normais foi estendidapermitindo a modelagem de processos de contagem seguindo uma distribuição de Poisson.Assim, a estrutura descrita para o caso normal é adaptada para a função de ligação dadistribuição de Poisson.

O procedimento de inferência, em todos os modelos, foi baseado na abordagem bayesiana.Foi inicialmente, discutida a especificação da distribuição a priori. Em seguida, o algoritmoMCMC foi utilizado para obter amostras, a posteriori, de todos os parâmetros.

Tanto para os modelos normais quanto para os modelos Poisson, foram gerados dadosartificiais e apresentados resultados das aplicações. Os algoritmos de inferência mostraram-se eficientes e conseguiram recuperar as estruturas dos dados artificiais.

Por fim, apresentaram-se, no Capítulo 5, os resultados obtidos com a aplicação dos dadosreais, apresentados no Capítulo 1 como motivação. Como os dados observados tratam decontagens, na aplicação dos modelos com resposta normal foi utilizada a transformação raizquadrada como aproximação da distribuição normal. Já os modelos com resposta Poisson osdados observados são considerados na escala original. De forma geral, os resultados de todos osmodelos apontaram para a pouca dependência espacial, mas apesar disto, os padrões temporaisdesagregados parecem capturar bem a estrutura presente nos dados.

6.2 Tópico para trabalhos futuros

No estudo do Projeto SAUDAVEL apresentado no Capítulo 1, foram coletadas informaçõesmeteorológicas. Estas informações estão apresentadas no Apêndice 6.2.

Considerando a flexibilidade do modelo proposto e, na tentativa de capturar melhora variabilidade dos dados reais considerados na aplicação, pretende-se utilizar informaçõesmeteorológicas por meio de funções de transferência.

Sabe-se que o ciclo de vida do mosquito Aedes aegypti pode ser influenciado pelas condiçõesmeteorológicas e, sendo assim, uma extensão natural será considerar covariáveis climáticas taiscomo: precipitação, umidade relativa, temperatura, etc.

Ao se especificar, em uma análise temporal, efeito de covariáveis, pode-se assumir quevariações destas não tenham impacto apenas imediato sobre a resposta esperada, mas que seu

Page 119: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

105

efeito pode ser defasado (Alves, 2006). Estas estruturas para covariáveis podem ser incorporadasao modelo, usando-se de função de transferência, como segue:

Zt = αt + εt, εt ∼ N(0, τ 2I) t = r, r + 1, · · · , T

αt =r−1∑i=0

θt−i

θt−i = F′t−iλt−i + Ut−i + νt−i νt−i N(0; Σ)

Ut−i = ρUt−i−1 + γXt−i + ξt−i ξt−i ∼ N(0, ι)

λt−i = Gtλt−i−1 + wt−i, wt−i ∼ N(0; W)

em que Ut é uma função de transferência e Xt a matriz de covariáveis.

Page 120: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Referências Bibliográficas

Alves, M. (2006) Funções de transferência em modelos dinâmicos lineares generalizados. Tesede Doutorado, Instituto de Matemática, Universidade Federal do Rio de Janeiro.

Anderson, T. (1994) An Introduction to Multivariate Statistical Analysis. John Wiley & Sons,Inc.

Bonat, W. H., Ribeiro, P. J., Dallazuanna, H. S., Regis, L. N., Pereira, J. C., Silveira, J. C.,Acioli, R. V. e Souza, W. V. (2009) Investigando fatores associados a contagens de ovos deAedes aegypti coletados em ovitrampas em recife/pe. Cadernos de Saúde Pública, 27-4, 519– 537.

Carte, C. K. e Kohn, R. (1994) On gibbs sampling for state space models. Biometrika, 11, 541– 553.

Diggle, P. J. e Ribeiro Jr, P. J. (2007) Model-Based Geostatistics. Springer.

Doornik, J. A. (2002) Object-Oriented Matrix Programming Using Ox. London: TimberlakeConsultants Press and Oxford.

Fay, R. W. e Eliason, D. A. (1965) Laboratory studies of ovipositional preferences of aedesaegypti. Mosquito News, 25, 270 – 281.

Fruhwirth-Schnatter, S. (1994) Data augmentation and dynamic linear models. Journal ofTime Series Analysis, 15, 183 – 202.

Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo: Stochastic Simulation forBayesian Inference. New York: Chapman & Hall / CRC.

Gamerman, D. e Migon, H. D. (1993) Dynamic hierarchical models. Journal of the RoyalStatistical Society. Series B, 55, 629 – 642.

106

Page 121: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

107

Migon, H. e Gamerman, D. (1999) Statistical Inference: an Integrated Approach. London:Arnold.

Regis, L., Monteiro, A. M., Melo-Santos, M. A. V., Silveira, J. C., Furtado, F. A., Acioli, R. V.,Santos, G. M., Nakazawa, M., Carvalho, M. S., Ribeiro Jr, P. J. e Souza, W. V. (2008)Developing new approaches for detecting and preventing Aedes aegyptipopulation outbreaks:basis for surveillance, alert and control system. Memórias Instituto Oswaldo Cruz, 103,50–59.

Roberts, G. O. e Rosenthal, J. S. (2006) Examples of adaptive mcmc. Relatório técnico,Lancaster University.

Schmidt, A. (1996) Agregação Temporal em Modelos Lineares Dinâmicos Bayesianos.Dissertação de Mestrado, Instituto de Matemática, Universidade Federal do Rio de Janeiro.

Schmidt, A. e Gamerman, D. (1997) Temporal aggregation in dynamic linear models. Journalof Forecasting, 16, 293 – 310.

Schmidt, A. e Sansó, B. (2006) Modelagem Bayesiana da Estrutura de Covariância deProcessos Espaciais e Espaço-Temporais. Minicurso 17o Simpósio Nacional de Probabilidadee Estatística, ABE. Caxambu, MG, Brasil.

Tauil, O. (2002) Aspectos críticos do controle do dengue no brasil. Cadernos de Saúde Pública,18, 867 – 871.

West, H. e Harrison, J. (1997) Bayesian Forecasting and Dynamic Models. New York: Springer-Verlag, 2nd edn.

Page 122: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Apêndice A

Inversa da soma de matrizes

Dedinição1: A inversa de A é uma matriz única A−1 satisfazendo AA−1 = A−1A = I. Ainversa existe se e somente se A é não-singular, ou seja, o determinante de A é diferente dezero.

• (I) Se P é uma matriz quadrada e I a identidade de mesma dimensão,

(I + P)−1 = (I + P)−1(I + P−P) = I− (I + P)−1P, (6.1)

• (II) Sejam A e B matrizes quadradas e A não-singular,

(A + B)−1 = A−1 − (I + A−1B)−1A−1BA−1 (6.2)

= A−1 −A−1BA−1(I + BA−1)−1 (6.3)

• (III) Sejam A e B matrizes quadradas e ambas inversíveis,

(A + B)−1 = A−1 −A−1(A−1 + B−1)−1A−1 (6.4)

• (IV) Sejam A(p× p)e a e b, vetores p× 1,

(A + ab′)−1 = A−1 − [(A−1a)(b′A−1)(1 + b′A−1a)−1] (6.5)

• (V) Se toda as inversas necessárias existirem, então para A(p× p), B(p× n), C(n× n) eD(n× p),

(A + BCD)−1 = A−1 −A−1B(C−1 + DA−1B)−1DA−1 (6.6)

108

Page 123: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

109

Propriedade do produto de Kronecker

Se A,B,C e D são matrizes de dimensões m× n, l × k, n× h e k × j, respectivamente, então

(A⊗B)(C⊗D) = (AC)⊗ (BD) (6.7)

Page 124: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

Apêndice B

Informações meteorológicas

Informações meteorológicas foram coletadas, tais como precipitação, umidade relativa,temperatura média e temperatura máxima. Apenas a precipitação foi observada em cadauma das 5 regiões, as demais correspondem ao observado na cidade de Recife e são comuns atodas as regiões. Estas informações foram coletadas diariamente.

Como 04/01/2005 corresponde a uma terça-feira e a contagem dos ovos foi realizada nestedia da semana, a covariável precipitação considerada será a média observada de quarta à terça-feira. A umidade relativa seguiu o mesmo esquema; já a temperatura foi dada pela média diáriaentre a temperatura máxima e mínima e a média semanal foi calculada com base nos resultadosdas médias diárias de temperatura.

A Figura 6.1 apresenta a série temporal de cada uma desta covariáveis. Percebe-se que aprecipitação não difere entre as regiões e que no período que corresponde ao outono de 2005existe a observação de valores altos para a precipitação, um pico alto no inverno e uma tendênciade alta no outono de 2006.

Nota-se a forte relação entre a precipitação e a umidade relativa do ar. Para o períodoconsiderado observou-se 75,28 como sendo a média da umidade relativa do ar com desviopadrão de 7,09, isto comprova que a cidade permaneceu bastante úmida no período analisado.Quanto à temperatura percebe-se uma relação inversa com a umidade relativa. Além disso,observa-se que existe pouca variabilidade desta covariável, com média de temperatura 26,4 edesvio padrão de 1,29 a cidade permaneceu quente durante o período do estudo.

110

Page 125: Modelos espaço-temporais para processos temporalmente ...Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de ... 1 Introdução 1 ... todo

111

Precipitação

14/1

2/20

0404

/01/

2005

25/0

1/20

0515

/02/

2005

08/0

3/20

0529

/03/

2005

19/0

4/20

0510

/05/

2005

31/0

5/20

0521

/06/

2005

12/0

7/20

0502

/08/

2005

23/0

8/20

0513

/09/

2005

04/1

0/20

0525

/10/

2005

15/1

1/20

0506

/12/

2005

27/1

2/20

0517

/01/

2006

07/0

2/20

0628

/02/

2006

21/0

3/20

0611

/04/

2006

02/0

5/20

06

010

2030

40

CFP

EM

EM

MCP

DI

Umidade Relativa

14/1

2/20

0404

/01/

2005

25/0

1/20

0515

/02/

2005

08/0

3/20

0529

/03/

2005

19/0

4/20

0510

/05/

2005

31/0

5/20

0521

/06/

2005

12/0

7/20

0502

/08/

2005

23/0

8/20

0513

/09/

2005

04/1

0/20

0525

/10/

2005

15/1

1/20

0506

/12/

2005

27/1

2/20

0517

/01/

2006

07/0

2/20

0628

/02/

2006

21/0

3/20

0611

/04/

2006

02/0

5/20

06

7075

8085

90

Temperatura

14/1

2/20

0404

/01/

2005

25/0

1/20

0515

/02/

2005

08/0

3/20

0529

/03/

2005

19/0

4/20

0510

/05/

2005

31/0

5/20

0521

/06/

2005

12/0

7/20

0502

/08/

2005

23/0

8/20

0513

/09/

2005

04/1

0/20

0525

/10/

2005

15/1

1/20

0506

/12/

2005

27/1

2/20

0517

/01/

2006

07/0

2/20

0628

/02/

2006

21/0

3/20

0611

/04/

2006

02/0

5/20

06

2425

2627

28

Figura 6.1: Série temporal das covariáveis precipitação, umidade relativa e temperatura