Modelos para s eries temporais de dados circulares · 2016. 10. 24. · natureza, este trabalho se...

Modelos para series temporais de dados

circulares

Mariana Raniere Neves

Universidade Federal do Rio de Janeiro

Instituto de Matematica

Departamento de Metodos Estatısticos

2015

Modelos para series temporais de dados

circulares

Mariana Raniere Neves

Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica

do Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como

parte dos requisitos necessarios a obtencao do tıtulo de Mestre em Estatıstica.

Aprovada por:

Profa Mariane Branco Alves

D.Sc - IM - UFRJ - Orientadora.

Dani Gamerman

PhD - IM - UFRJ.

Antonio Carlos Monteiro Ponce de Leon

D.Sc - IME - UERJ.

Rio de Janeiro, RJ - Brasil

2015

ii

A minha mae, irmaos amigos e amigos irmaos.

iii

“Nada do que foi sera

De novo do jeito que ja foi um dia

Tudo passa

Tudo sempre passara

A vida vem em ondas

Como um mar

Num indo e vindo infinito

Tudo que se ve nao e

Igual ao que a gente

Viu ha um segundo

Tudo muda o tempo todo

No mundo

Nao adianta fugir

Nem mentir

Pra si mesmo agora

Ha tanta vida la fora

Aqui dentro sempre

Como uma onda no mar ”

Como uma onda - Lulu Santos

iv

Agradecimentos

Pela ajuda na conclusao deste trabalho, nao poderia deixar de agradecer a algumas

pessoas que foram essenciais para que eu conseguisse concluir mais esta etapa da minha

vida. O termino deste mestrado significa para mim nao somente a conclusao de mais

uma etapa da minha vida academica, mas tambem mais uma vitoria pessoal. O caminho

ate aqui foi arduo, mas o retorno e gratificante. Acredito hoje que posso tudo que quero,

nao por acreditar em forcas sobrenaturais ou mısticas, mas sim por saber que a maioria

das coisas depende de esforco e forca de vontade. Esta dissertacao e motivo de muito

orgulho para mim e espero que ela faca jus a todo incentivo que me foi dado.

Em primeiro lugar, agradeco a minha mae que, apesar das diferencas, sempre me

garantiu uma educacao de qualidade e que se preocupou em me incentivar a fazer uma

pos-graduacao ja que segundo ela, graduacao nao e mais diferencial. Nao foi preciso pagar

para que eu tivesse acesso a um ensino medio, superior e a um mestrado de qualidade, mas

sei que se necessario, eu teria incentivos e apoio financeiro, mesmo a grana sendo curta e

compartilhada por cinco filhos. Mae, esse trabalho e seu e e fruto de tudo que investiu em

mim. Nao ha palavras para agradecer, mas retribuirei tudo com todo amor que puder dar.

Alem da minha mae, devo agradecer tambem aos meus irmaos e melhores amigos.

Sou uma pessoa de muita sorte por possuir os lacos mais fortes com essas pessoas que

amo tanto. Filipe, Gustavo, Miguel e Pedro muito obrigada por caminharem comigo

nesta jornada, nada que eu disser sera suficiente para expressar o meu amor por voces.

Agradeco tambem ao meu pai e meus avos por me abrigarem enquanto eu estava

estudando e nao podia pagar por um lugar para mim.

v

Gostaria de agradecer tambem ao meu amigo Carlos pela maravilhosa companhia em

todas horas nesta jornada e por toda ajuda com revisoes, duvidas, por estar sempre dis-

ponıvel quando precisei. Ganhei o melhor presente no dia que por acaso me colocaram

para trabalhar em conjunto com voce. Devo agradecer tambem ao meu amigo Rafael

pelas incontaveis revisoes dos meus programas no R e por todo o incentivo que sempre

me deu. Nao posso esquecer de agradecer a Ingrid pela ajuda, incentivo e por me fazer

companhia em todas as horas.

A minha amiga Lorena, agradeco pela revisao do texto, alem de todo apoio e com-

preensao sempre.

Agradeco muitıssimo a Michelle, que apesar de ter um ritmo de vida muito diferente

do meu, compreende as minhas necessidades e me da apoio incondicional.

Agradeco a Juliana, que um dia agradeci por ser minha melhor companhia, hoje

agradeco por me ensinar de forma contraditoria e empırica que nada precisa ser na dor,

tudo pode ser no amor.

Agradeco a Mariane por me orientar por tantos anos e por investir tempo em mim e

no meu trabalho. Devo agradecer tambem pela paciencia, incentivo, pelos conselhos na

minha vida profissional e pessoal. Nao posso deixar de dizer que te admiro e me sinto

uma pessoa de sorte por ter um referencial de que tipo de professora quero ser.

A professora Alexandra, nunca posso deixar de agradecer por abrir tantas portas no

meu caminho, pelas otimas aulas de inferencia na graduacao e no mestrado.

Aos professores Antonio Carlos Monteiro Ponce de Leon, Dani Gamerman e Thaıs

Cristina Oliveira da Fonseca, agradeco por aceitarem fazer parte da banca.

vi

Resumo

Muitas vezes deseja-se trabalhar com observacoes cujas medidas sao expressas em

angulos. Para este tipo de dado, uma representacao natural e o cırculo. Ademais,

obervacoes periodicas tambem podem ser representadas no cırculo, onde a circunferencia

representa o perıodo . Para estes conjuntos de dados, a metodologia usual utilizada para

se trabalhar com dados na reta leva a resultados erroneos. Pode-se ter interesse, ainda,

em observar essse tipo de dado temporalmente. A metodologia para analises estatısticas

nestes casos deve diferir daquelas usualmente utilizada para se trabalhar com dados na

reta, levando-se em conta as particularidades inerentes a esse tipo de observacao.

Dadas as limitacoes dos metodos para analise de dados com representacao no cırculo e

a enxuta literatura a respeito de esquemas para estimacao em modelos para dados desta

natureza, este trabalho se propoe a estudar diferentes modelos e metodos de estimacao

para series temporais de dados circulares. Os modelos abordados no presente trabalho

tratam de problemas de diferentes naturezas. Os modelos dinamicos abordados, por

exemplo, se encarregam de tratar da autocorrelacao temporal de forma mais intuitiva,

atraves da equacao de evolucao, e de possıveis associacoes entre a variavel resposta e ou-

tras variaveis. Ja os modelos de mistura, fazem o papel de aumentar a gama de aplicacoes

possıveis, pois os mesmos podem ser assimetricos e multimodais. Por fim, os modelos

de misturas markovianas abordados sao utilizados para se ober estruturas flexıveis sem

prescindir do tratamento de autocorrelacao temporal advinda da observacao de variaveis

temporalmente. Para se trabalhar com tais modelos, utilizam-se extensoes de metodos

com teoria ja bem estabelecida.

vii

A metodologia proposta neste trabalho e avaliada a partir de estudos simulados para

cada um dos modelos abordados, por fim, atraves de uma aplicacao a dados reais.

Palavras-Chaves: modelos dinamicos, series temporais, modelos de misturas, modelos

de misturas markovianos, dados circulares e modelos circulares.

viii

Abstract

It is known that observations which are depicted in angles are very often accom-

plished. For this kind of data, the circle is a natural representation. Moreover, periodical

observations can also be represented on the circle where the circumference corresponds

to this period. The usual methodology used in the work with such data in the straight

line can lead to misguided results. It is also possible to observe data of this nature in a

time perspective. The methodology used in analytical statistics in these instances must

differ from the ones usually found, taking into account the intrinsic singularities in this

kind of observation.

Considering the limitation of methods of analysis of data in the representation on

the circle, and also the bated literature on estimation schemes in models of data of this

nature, the present paper aims at studying different models and methods of estimation

for the time series of circular data.

The approached dynamic models, for instance are responsible for establishing tempo-

ral autocorrelation in a more intuitive way through the evolution equation and through

possible associations with the response variable and other variables. Meanwhile, the mix-

ture models are responsible for enlarging the range of possible applications, for the former

could be asymmetric and multimodal. Finally, the approached Markovs mixture models

are used to obtain flexible structures without dispensing the temporal autocorrelation

original from the observation of time variables.

In order to work with such models, there have been used extension methods with solid

theoretical foundations. The proposed methodology is here tested through simulated

ix

studies for each one of the models approached and, finally, through the application of

actual data.

Keywords: dynamic models,temporal series, mixture models, markov mixture models,

circular data, circular models.

x

Sumario

1 Introducao 1

2 Estatısticas Descritivas Circulares 8

2.1 Medidas de Posicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Direcao Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2 Direcao Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 Medidas de Concentracao e Dispersao . . . . . . . . . . . . . . . . . . . . 13

2.2.1 Variancia Circular . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.2 Desvio Padrao Circular . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Modelos Circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 Uniforme Circular . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3.2 Distribuicao Cardioide . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3.3 Von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.4 Wrapped Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4.1 Wrapped Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Metodos de Inferencia Bayesiana e Modelos Dinamicos 22

3.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.2 Estimacao Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.3 Estimacao Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.4 Distribuicao Preditiva . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Procedimento de inferencia via MCMC . . . . . . . . . . . . . . . . . . . 28

xi

3.2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2.2 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2.3 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2.4 Resumo das etapas para implementacao dos metodos MCMC . . . 32

3.3 Modelos Dinamicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3.1 Modelos Lineares Dinamicos (MLD) . . . . . . . . . . . . . . . . 34

3.4 Esquemas de Amostragem em Modelos Dinamicos . . . . . . . . . . . . . 35

3.4.1 Foward Filtering Backward Sampling . . . . . . . . . . . . . . . . 35

4 Modelos Dinamicos para Dados Circulares 40

4.1 Modelo Von Mises Estatico e Dinamico . . . . . . . . . . . . . . . . . . . 42

4.2 Modelo Wrapped Normal Dinamico . . . . . . . . . . . . . . . . . . . . . 45

4.2.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Distribuicoes Circulares a partir de Misturas 55

5.1 Misturas de Distribuicoes: Fundamentos . . . . . . . . . . . . . . . . . . 56

5.2 Estimacao Bayesiana para modelos de mistura utilizando o MCMC . . . 58

5.3 Wrapped Misturas de Normais . . . . . . . . . . . . . . . . . . . . . . . . 61

5.3.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.4 Modelos de Misturas Markovianas . . . . . . . . . . . . . . . . . . . . . . 67

5.4.1 Estimacao Bayesiana para modelos de misturas markovianas utili-

zando o MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.5 Wrapped Misturas Markovianas de Distribuicoes Normais . . . . . . . . . 77

5.5.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6 Aplicacao a dados reais 83

7 Conclusoes e trabalhos futuros 90

A Metodo Bayessiano de Estimacao para Modelos Von Mises 94

A.1 Modelo Von Mises Estatico . . . . . . . . . . . . . . . . . . . . . . . . . . 94

A.2 Modelo Von Mises Dinamico . . . . . . . . . . . . . . . . . . . . . . . . . 97

xii

A.2.1 Condicionais Completas . . . . . . . . . . . . . . . . . . . . . . . 97

A.2.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

xiii

Lista de Figuras

2.1 Representacao grafica da utilizacao da media aritmetica em dados circulares . 9

2.2 Representacao grafica da utilizacao da direcao media circular . . . . . . . . . 12

4.1 Traco da cadeia de σ2 e valor verdadeiro (vermelho) . . . . . . . . . . . . . . 53

4.2 Dados × µ estimado (cinza) . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.1 Traco das cadeias de µ = (µ1, µ2) . . . . . . . . . . . . . . . . . . . . . . . 64

5.2 Traco das cadeias de σ2 = (σ21, σ

22) . . . . . . . . . . . . . . . . . . . . . . . 65

5.3 Media geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.4 Variancia geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.5 Media das medias da mistura em cada replica e valor real da media da mistura

(vermelho) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.6 Histograma da media das variancias da mistura em cada replica e valor real da

variancia da mistura (vermelho) . . . . . . . . . . . . . . . . . . . . . . . . 67

5.7 Traco das cadeias de µ = (µ1, µ2) . . . . . . . . . . . . . . . . . . . . . . . 79

5.8 Traco das cadeias de σ2 = (σ21, σ

22) . . . . . . . . . . . . . . . . . . . . . . . 80

5.9 Media geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.10 Variancia geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.11 Media das medias da mistura em cada replica e valor real da media da mistura

(vermelho) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.12 Histograma da media das variancias da mistura em cada replica e valor real da

variancia da mistura (vermelho) . . . . . . . . . . . . . . . . . . . . . . . . 82

6.1 Conjunto de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

xiv

6.2 Diagrama de rosas com a direcao media de cada mes em 2012, 2013 e 2014. . . 85

6.3 Histograma circular das direcoes dos ventos em cada mes de 2012, 2013 e 2014 86

6.4 Serie de direcao dos ventos observada e resposta media (vermelho) . . . . . . 89

A.1 Tracos da cadeia de µ utilizando o metodo encontrado em Damien and Walker

(1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

A.2 Tracos da cadeia de κ utilizando o metodo encontrado em Damien and Walker

(1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

A.3 Estimacao dos parametros do modelo Von Mises em uma das replicas

utilizando o algoritmo proposto por Damien e Walker (1999). . . . . . . . 96

A.4 Estimacao dos parametros do modelo Von Mises utilizando o metodo

MCMC programado de forma independente. . . . . . . . . . . . . . . . . 97

A.5 Cadeias de µt, para t = 25, 50, 75, 100 . . . . . . . . . . . . . . . . . . . . . 100

A.6 Cadeia de κ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

A.7 Dados gerados(preto) × µ estimado . . . . . . . . . . . . . . . . . . . . . . 101

xv

Capıtulo 1

Introducao

Muitas vezes deseja-se trabalhar com medidas que sao direcoes. Um biologo, por

exemplo, pode ter interesse em analisar a direcao do voo de um passaro, enquanto que

um meteorologista em estudar a direcao dos ventos numa certa regiao. Um conjunto

onde as observacoes sao direcoes e chamado conjunto de dados direcionais.

Direcoes bidimensionais podem ser representadas como angulos com respeito a uma

direcao zero e um sentido de rotacao. Como uma direcao nao tem magnitude, ela pode

ser representada como um ponto na circunferencia de um cırculo unitario centrado na

origem ou como vetores unitarios. Devido a essa representacao circular, observacoes deste

tipo sao chamadas de dados circulares. De forma similar, observacoes tridimensionais sao

tambem chamadas de dados esfericos.

Alem de dados direcionais, que parecem se adequar naturalmente a uma representacao

na circunferencia, fenomenos periodicos, com perıodo conhecido, tambem podem ser

representados em um cırculo, onde o comprimento da circunferencia corresponde ao

perıodo. Pode-se ter interesse em estudar, por exemplo, a criminalidade em certa ci-

dade ao longo de um dia ou a chegada de pacientes com ataque cardıaco em um hospital

em certo perıodo de tempo. Outro exemplo seria utilizar o cırculo para representar os

365 dias do ano e fazer uma analise da ocorrencia de acidentes de aviao para avaliar

1

se os acidentes sao uniformemente distribuıdos ao longo das estacoes do ano. Devido a

possıvel representacao destes dados em uma circunferencia, esses dados tambem podem

ser chamados de dados circulares.

Para trabalhar com dados circulares, deve-se ter em mente que estes apresentam ca-

racterısticas proprias, tanto em termos de modelagem quanto em termos de tratamento

estatıstico descritivo. A representacao numerica de um angulo, por exemplo, pode nao

ser unica, ja que este valor depende tanto da escolha da origem quanto do sentido da

rotacao. Logo, e importante assegurar que as conclusoes obtidas atraves da analise destes

tipos de dados levem em consideracao essas particularidades, ou seja, deve-se chegar a

conclusoes que nao dependam da escolha da origem e do sentido de rotacao. Nota-se,

tambem, que a comparacao da grandeza de duas observacoes tambem depende da escolha

da origem e do sentido de rotacao. Alem das particularidades apontadas anteriormente,

deve-se observar que 0 e 2π representam o mesmo ponto no cırculo e a medida e periodica.

As caracterısticas desses tipos de observacoes fazem com que a metodologia necessaria

para a analise de dados direcionais seja bem diferente da metodologia usual, utilizada

para analise de dados lineares. A necessidade de metodos estatısticos e medidas invarian-

tes com respeito ao sentido de rotacao e a escolha da origem fazem com que a aplicacao

de metodos usuais para a analise de dados leve a resultados sem sentido.

E possıvel encontrar na literatura diferentes abordagens para se trabalhar com da-

dos circulares. Em Mardia (1975) sao apresentadas algumas distribuicoes para dados

circulares, por exemplo, sugere-se a Von Mises-Fisher, uma das distribuicoes circulares

mais utilizadas, caracterizada por dois parametros que descrevem direcao media e con-

centracao. Detalhes sobre a analise de dados circulares podem ser vistos em Mardia

(1975) e Jammalamadaka e Sengupta (2001). Para o caso em que se deseja trabalhar

com dados bivariados onde uma componente e um angulo e a outra um numero real,

Johnson e Wehrly (1978) sugerem algumas distribuicoes e modelos de regressao. Em

Fisher e Lee (1994) e sugerida uma distribuicao Von Mises para se trabalhar com mode-

2

los de regressao para respostas angulares. No contexto da Inferencia Bayesiana, Guttorp

e Lockhart (1988) fornecem um metodo para se fazer inferencia Bayesiana utilizando

a distribuicao Von Mises. A proposta em Guttorp e Lockhart (1988) e elicitar prioris

conjugadas para a estimacao dos parametros da Von Mises nos caso em que se tem um

ou ambos os parametros desconhecidos. Damien e Walker (1999) fornecem uma analise

bayesiana completa para os casos em que se trabalha com a distribuicao Von Mises e

os parametros sao supostos desconhecidos. O metodo sugerido se baseia nas prioris su-

geridas por Guttorp e Lockhart (1988) e a ideia principal constitui-se na introducao de

variaveis latentes, fazendo com que as condicionais completas dos parametros de interesse

sejam conhecidas, facilitando o esquema de inferencia no contexto de inferencia bayesiana

para dados circulares. Ao mesmo tempo que este artigo se destaca por fazer inferencia

Bayesiana completa, nota-se algumas limitacoes, como descrito no presente trabalho: di-

ficuldade computacional para tratamento de series temporais longas foram observadas ao

se aplicar o algoritmo proposto. Do ponto de vista do modelo propriamente dito, tem-se

unimodalidade e simetria na distribuicao circular proposta, bem como pressuposto de

independencia entre observacoes. Ainda se tratando da distribuicao Von Mises, Gill e

Hangartner (2010) apresentam um procedimento para regressao Bayesiana utilizando os

metodos de Monte Carlo via cadeias de Markov (MCMC) para os casos em que supoe-se

que a distribuicao da variavel resposta e Von Mises e deseja-se estimar os parametros

desta distribuicao, bem como os efeitos das covariaveis na variavel resposta. Nestes casos,

as variaveis explicativas sao introduzidas no modelo atraves da direcao media, o primeiro

parametro da Von Mises. Como este parametro tem suporte no cırculo, e necessario que

se utilize uma funcao de ligacao, ja que as regressoras tem suporte na reta real. Uma

das desvantagens do metodo de estimacao sugerido no artigo, e que a estimacao de κ,

o parametro de concentracao da Von Mises, e feita atraves do metodo de maxima ve-

rossimilhanca, com estimativa pontual para tal parametro “plugada”a outras etapas do

algoritmo, em que a estimacao dos demais parametros e tratada. Para a estimacao desses

outros parametros do modelo, e utilizado o algoritmo de Metropolis-Hastings. Nos casos

em que se tem uma serie circular observada temporalmente, Lan et al. (2013) sugerem o

uso de filtro de partıculas na estimacao do parametro de centralidade da distribuicao Von

3

Mises, , que supoe-se variar no tempo, mas ao mesmo tempo que e possıvel estimar de

forma Bayesiana este parametro, o autor nao considera fazer a estimacao das variancias

de evolucao e observacao e esses ultimos parametros sao supostos conhecidos. A contri-

buicao do presente trabalho neste contexto, consiste na elaboracao de um metodo que

possibilite a estimacao de todos os parametros de um modelo Von Mises dinamico.

Uma outra abordagem possıvel para se trabalhar com dados circulares e utilizar os

chamados Wrapped Models. Tais modelos sao construıdos a partir de distribuicoes com

suporte na reta por meio de uma transformacao que leva os valores da reta ao cırculo. A

vantagem na utilizacao desse tipo de abordagem provem do fato de ser possıvel utilizar

modelos com suporte que originalmente nao seja no cırculo, proporcionando uma maior

flexibilidade. Jona-Lasinio et al. (2012) constroem um modelo hierarquico para lidar

com dados circulares quando supoe-se que a variavel resposta tem distribuicao Wrapped

Normal, e mostram que e possıvel se fazer inferencia Bayesiana nesses casos utilizando

metodos de Monte Carlo via Cadeias de Markov (MCMC). A ideia consiste em estimar

“k”, o numero de voltas dadas no cırculo quando se faz a transformacao de valores da

reta para o cırculo. Condicionalmente a “k”, as distribuicoes condicionais completas para

os parametros da Wrapped Normal sao conhecidos, o que faz com que esquemas MCMC

funcionem de forma mais pratica e eficiente. A ideia de introducao de “k”como uma

variavel latente a ser estimada sera utilizada em todas as aplicacoes de modelos ”wrap-

ped”no presente trabalho. Neste artigo, os autores trabalham com uma componente que

trata da autocorrelacao espacial, ja que o conjunto de dados e observado no espaco, mas

nao sao considerados casos em que uma serie temporal e observada e deseja-se trabalhar

com modelos que tratem de autocorrelacao temporal.

Holzmann et al. (2006) propoe modelos para series temporais circulares. Tanto em

um modelo Von Mises quanto em um modelo Wrapped Normal, o autor assume que

os parametros variem num espaco discreto e finito, com uma estrutura Markoviana,

responsavel pela autocorrelacao temporal, dando conta da transicao entre estados. A

estimacao e feita por maxima verossimilhanca. Hughes (2007) considera, entre outras

4

propostas, versoes “wrapped”de modelos classicos para series temporais como mode-

los autoregressivos. Mais recentemente, Mastrantonio et al. (2015) propoem proces-

sos “wrapped”gaussianos espaco-temporais, especificando uma estrutura de covariancia

espaco-temporal nao separavel, mas preservam a direcao media constante. Ainda com

foco na estrutura de covariancia,Wang e Gelfand (2014) trata, num contexto espaco-

temporal, tambem com media fixa, a modelagem conjunta de uma variavel circular e

uma variavel linear (como direcao de ventos e altura de ondas). Admitimos, no presente

trabalho, observacoes circulares em um contexto puramente temporal, em que a direcao

media evolua. A estrutura especificada para evolucao da direcao media induz, simulta-

neamente, o tratamento de autocorrelacao temporal.

Nota-se que tanto a Von Mises quanto a Wrapped Normal sao modelos unimodais e

simetricos e que existe interesse em estruturas mais flexıveis que contemplem, por exem-

plo, multimodalidade e assimetria no cırculo. Neste sentido, modelos de mistura sao

muito uteis, ja que possibilitam a construcao de estruturas que podem se adequar bem

a conjuntos e dados assimetricos ou multimodais. Lan et al. (2013) consideram a mis-

tura de distribuicoes Von Mises, em um modelo estatico e que pressupoe independencia

entre as observacoes. O procedimento de estimacao e feito por meio do algoritmo EM

(Expectation-Maximization).

Nao encontramos, na literatura, nenhum artigo de referencia para os casos em que se

deseja trabalhar com modelos wrapped mistura de normais utilizando inferencia Bayesi-

ana. Portanto, na elaboracao deste trabalho, foi necessario desenvolver uma metologia

para esses casos. O metodo desenvolvido consiste na juncao de ideias do artigo de Jona-

Lasinio et al. (2012) e dos metodos de estimacao bayesianos para modelos de mistura

encontrados em Fruhwirth-Schnatter (2006). Temos interesse em estruturas flexıveis

sem, contanto, prescindir do tratamento da autocorrelacao para dados observados tem-

poralmente. Uma outra contribuicao desta dissertacao e fornecer um metodo de es-

timacao bayesiano para modelos de mistura markovianos, mais especificamente, misturas

de Wrapped Normal. A metodologia desenvolvida foi, mais uma vez, baseada na juncao

5

das ideias encontradas em Jona-Lasinio et al. (2012) e Fruhwirth-Schnatter (2006).

Este trabalho tem como objetivo, portanto, propor modelos dinamicos e modelos de

misturas para dados circulares observados temporalmente, considerando-se formalmente

tanto a autocorrelacao inerente a esse tipo de dado, quanto a possibilidade de distribuicao

multimodal ou assimetrica no cırculo. O trabalho esta estruturado como segue.

Nos capıtulo 2 serao apresentadas estatısticas descritivas utilizadas para a analise de

dados circulares, ja que pela natureza deste tipo de dado, as estatısticas descritivas usuais

nao podem ser aplicadas, pois levam a resultados muitas vezes incoerentes e erroneos.

Serao apresentadas medidas circulares equivalentes a media, mediana e variancia na reta.

Serao apresentados tambem, modelos usuais para dados circulares, sendo estes os mode-

los com suporte natural no cırculo e os “Wraped Models”, que sao obtidos a partir de

um modelo com suporte na reta via uma operacao matematica que leva os valores da

reta ao cırculo.

O capıtulo 3 abordara conceitos e metodos de estimacao utilizados no contexto de

inferencia Bayesiana, em particular sao apresentados, sumariamente, elementos sobre o

metodo de Monte Carlo via cadeias de Markov(MCMC). Sera feita uma breve revisao

sobre modelos dinamicos e metodos para estimacao de parametros nestes modelos, par-

tircularmente, o Forward Filter Bacward Sampling (FFBS).

No capıtulo 4, serao apresentados modelos dinamicos para dados circulares, como

o modelo Von Mises dinamico e o modelo Wrapped Normal dinamico. Tais modelos

naturalmente acomodam autocorrelacao em series temporais circulares. Apresenta-se,

tambem, a metodologia desenvolvida para se trabalhar com estes modelos e os resultados

obtidos em simulacoes com dados artificiais para cada modelo utilizado.

No capıtulo 5, serao abordados modelos de mistura e modelos de misturas Marko-

vianas para dados circulares. Ademais, serao apresentados os metodos de estimacao

6

desenvolvidos para se trabalhar com estes modelos e os resultados obtidos a partir de

exercıcios simulados.

Uma aplicacao dos modelos e metodos a dados reais de direcao dos ventos sera apre-

sentada no capıtulo 6.

Por fim, no Capıtulo 7, serao apresentadas as conclusoes e possıveis extensoes deste

trabalho.

7

Capıtulo 2

Estatısticas Descritivas Circulares

Como foi observado anteriormente, a analise estatıstica e medidas descritivas usuais

nao sao adequadas para se trabalhar com dados circulares. Nesta secao serao apresenta-

das medidas que se adequam melhor ao estudo de dados desta natureza.

Dados circulares podem ser representados como angulos ou como pontos na circun-

ferencia de raio unitario, portanto, pode-se utilizar a representacao em coordenadas pola-

res ou retangulares. Dado que se tem a representacao em uma das duas formas, e possıvel

converter a medida para outra forma equivalente.

Na analise de dados direcionais, usualmente se tem interessse na direcao e nao na

magnitude do vetor, logo, a fim de facilitar a analise, esses vetores serao representados

como vetores com comprimento unitario.

8

2.1 Medidas de Posicao

2.1.1 Direcao Media

Em conjuntos de dados circulares unimodais, muitas vezes deseja-se definir uma

direcao media. Para calcular a direcao media, seria natural pensar na media aritimetica

das observacoes. Supondo, por exemplo, que se tem duas medidas, 15o e 345o, para

direcao dos ventos em um certo dia em uma certa estacao de medicao no nordeste do

Brasil e deseja-se calcular a direcao media deste dia nesta estacao, a media aritmetica

destes angulos e 180o. Como se pode perceber pela figura 2.1, a medida encontrada leva a

uma conclusao totalmente equivocada sobre a direcao media dos ventos, pois esta medida

aponta para a direcao errada.

Figura 2.1: Representacao grafica da utilizacao da media aritmetica em dados circulares

9

O exemplo dado e apenas uma situacao entre varias que podem ocorrer, onde a uti-

lizacao da media aritmetica para este tipo de dado pode levar a conclusoes erradas. Uma

medida apropriada da direcao media para um conjunto de dados unimodal pode ser ob-

tida considerando as observacoes como vetores unitarios e calculando a direcao do vetor

resultante.

Sejam a1, a2, a3, . . . , an um conjunto de observacoes de angulos dados em coordenadas

polares, e considere a transformacao polar para retangular para cada observacao:

(cos ai, sen ai), i = 1, . . . , n.

O vetor resultante R dos n vetores unitarios e obtido da seguinte forma:

R = (n∑i=1

cos ai,n∑i=1

sen ai) = (C, S).

O tamanho do vetor resultante e determinado por:

R = ‖R‖ =√C2 + S2

.

Propoe-se que a direcao media circular, que sera denotada por α, seja dada pela

direcao do vetor resultante R. Pode-se definir a direcao do vetor resultante pelas seguin-

tes equacoes:

cosα = CR

, senα = SR.

Sendo assim, pode-se calcular α por:

10

α = arctan∗(S

C

)

onde;

α = arctan∗(S

C

)=

arctan(SC

), se C > 0, S ≥ 0;

π2, se C = 0, S > 0;

arctan(SC

)+ π, se C < 0;

arctan(SC

)+ 2π, se C ≥ 0, S < 0;

indefinido, se C = 0, S = 0.

α e o centro do conjunto de dados e nao depende do sentido de rotacao ou da escolha

da origem (proposicao 1.1, Jammalamadaka e Sengupta (2001, pagina 14)).

Voltando ao exemplo dado, calculando a direcao media circular obtem-se o valor 0o.

Pela figura 2.2, pode-se notar que este valor parece ser coerente com a interpretacao

intuitiva e levar a conclusoes razoaveis sobre o problema.

11

Figura 2.2: Representacao grafica da utilizacao da direcao media circular

2.1.2 Direcao Mediana

Para se fazer uma estimacao robusta da mediana populacional, e util obter uma versao

circular da mediana. A direcao mediana α dos angulos a1, a2, a3, . . . , an pode ser definida

como um angulo φ, tal que:

• Metade das observacoes esteja no arco [φ, φ+ π)

• A maioria das observacoes esteja mais perto de φ do que de φ+ π

12

Quando o tamanho amostral n e ımpar, a direcao mediana e uma das observacoes,

mais especificamente a n+12

-esima observacao, sendo a primeira, a mais distante de φ

pertencente a qualquer um dos dois arcos ([φ, φ+ π) ou [φ− π, π)) . Quando n e par, e

usual tomar a direcao media como ponto medio das duas observacoes apropriadas.

2.2 Medidas de Concentracao e Dispersao

2.2.1 Variancia Circular

O tamanho do vetor resultante R foi definido anteriormente por:

R =√

(C2 + S2)

.

Pode-se definir R, o tamanho medio do vetor resultante, como:

R =√

(C2 + S2)

,

onde;

C =1

n

n∑i=1

cosai

13

S =1

n

n∑i=1

senai.

Dado que as observacoes a1, a2, a3, . . . , an sao vetores unitarios, tem-se que:

0 ≤ R ≤ 1.

Se as direcoes a1, a2, a3, . . . , an estao muito concentradas em uma certa parte da cir-

cunferencia, R sera proximo de 1. Por outro lado, se as observacoes estiverem dispersas,

R sera proximo de 0. Logo, R e uma medida de concentracao do conjunto de dados.

Note que para qualquer conjunto de dados da forma a1, a2, a3, . . . , an, a1 + π, a2 + π, a3 +

π, . . . , an +π, R = 0. Logo, se R ≈ 0 nao necessariamente as observacoes estao dispersas

ao redor da circunferencia. Ainda, R e invariante sob rotacao.

Na maior parte dos casos, o tamanho do vetor medio resultante R e a medida de

concentracao mais importante. Entretanto, por analogia a medidas para dados na reta,

e util considerar medidas de dispersao circulares. Uma medida de dispersao circular e a

variancia circular amostral, definida como:

V = 1− R.

2.2.2 Desvio Padrao Circular

Alem da variancia circular, pode ser util definir uma medida analoga ao desvio padrao

usual. Uma maneira de obter essa medida e fazendo uma transformacao da variancia

amostral V. Define-se o desvio padrao circular v como:

14

v={−2log(1− V )}12 =

{−2logR

} 12

2.3 Modelos Circulares

Uma distribuicao circular e uma distribuicao de probabilidade na qual a probabilidade

total esta concentrada na circunferencia de raio unitario. Ha algumas maneiras de definir

essas distribuicoes, mas deve-se atentar para algumas caracterısticas peculiares. E im-

portante, por exemplo, que o suporte da distribuicao volte ao ponto inicial, a medida que

os valores aumentam. O suporte de uma variavel aleatoria circular θ, medida em radia-

nos, pode ser qualquer intervalo de comprimento 2π, geralmente sendo [0, 2π) ou [−π, π).

Distribuicoes circulares podem ser essencialmente de dois tipos: discretas ou contınuas.

No caso contınuo, a funcao densidade de probabilidade satisfaz as seguintes propriedades:

• f(θ) ≥ 0;

•∫ 2π

0f(θ)dθ = 1;

• f(θ) = f(θ + k × 2π), para qualquer inteiro k.

Muitas distribuicoes circulares uteis podem ser geradas a partir de distribuicoes de

probabilidade conhecidas atraves de uma serie de mecanismos. Dois exemplos bastante

interessantes de tipos de distribicoes obtidas desta forma sao as “wrapped distributions”,

que sao obtidas “enrolando-se uma distribuicao linear ao redor de um cırculo unitario

e as “offset distributions”, que sao obtidas atraves da tranformacao de uma variavel

15

aleatoria bivariada linear para seu componente direcional. A seguir, sao apresentadas

sucintamente algumas distribuicoes circulares usuais.

16

2.3.1 Uniforme Circular

Se a probabilidade total esta espalhada uniformemente sobre a circunferencia, temos

uma distribuicao Uniforme Circular:

f(θ) =1

2π, 0 ≤ θ ≤ 2π.

Todas as direcoes tem igual densidade e por isso esta distribuicao e comumente co-

nhecida como distribuicao isotropica ou aleatoria. Esta distribuicao nao tem media bem

definida e tem maxima entropia. Ela e muito importante na analise de dados circulares,

pois representa a falta de “direcao preferencial”.

Quando a distribuicao nao e uniforme, espera-se uma concentracao ao redor de uma

ou mais direcoes. Usualmente, tem-se uma concentracao maior ao redor de uma unica

direcao e a distribuicao e unimodal. As distribuicoes abordadas nos proximos topicos sao

algumas das importantes distribuicoes circulares unimodais.

2.3.2 Distribuicao Cardioide

Se θ tem distribuicao cardioide, a sua funcao densidade de probabilidade e dada por:

f(θ | µ, ρ) =1

2π{1 + 2ρcos(θ − µ)}, 0 ≤ µ < 2π,−1

2< ρ <

1

2,

17

em que µ e a direcao media e ρ e parametro de concentracao. Essa distribuicao e

umimodal e simetrica ao redor de µ.

2.3.3 Von Mises

Essa distribuicao foi introduzida como um modelo estatıstico por Von Mises (1918).

Em Gumbel et al. (1953), a Von Mises e tambem chamada de distribuicao “Normal Cir-

cular”para enfatizar sua importancia e semelhanca com a distribuicao normal na reta

real. Esta e a distribuicao circular mais comumente utilizada. Se θ e variavel aleatoria

com distribuicao Von Mises (denota-se vM(µ, k)), θ tem suporte em qualquer intervalo

de comprimento 2π e a sua funcao de densidade e da forma:

f(θ | µ, k) =1

2πI0(k)ek(cos(θ−µ)),

onde µ e a direcao media, 0 ≤ µ < 2π e k e parametro de concentracao k ≥ 0. Aqui

I0(k) na constante normalizadora representa a funcao Bessel Modificada de primeiro tipo

e ordem zero, dada por:

I0(k) =1

2π

∫ 2π

0

ekcosθdθ =∞∑0

(k

2

)2r (1

r!

)2

. (2.2)

A densidade e unimodal e simetrica em torno da direcao media µ (0 ≤ µ < 2π) e

k ≥ 0 e um parametro de concentracao. Para fins computacionais, aproxima-se o so-

matorio infinito em (2.2), de acordo com um numero de termos conveniente.

18

2.4 Wrapped Models

Outra alternativa para modelagem de dados circulares sao os Wrapped Models, obti-

dos ”enrolando-se”uma distribuicao originalmente definida na reta sobre a circunferencia

de raio unitario. De acordo com Mardia e Jupp (2009), se X e uma variavel aleatoria

definida na reta, obtem-se uma variavel circular Y ao definir-se Y = X(mod 2π). Se X

tem funcao de distribuicao acumulada F , entao Y tera funcao de distribuicao:

FY (y) =∞∑

k=−∞

{F (y + 2πk)− F (2πk)}, 0 ≤ y < 2π. (2.3)

Em particular, se X tem funcao densidade de probabilidade f , entao Y tera densidade:

fY (y) =∞∑

k=−∞

f(y + 2πk), 0 ≤ y < 2π. (2.4)

E possıvel, portanto, contruir um “Wrapped Model” a partir de qualquer modelo que

se queira.

De acordo com Jona-Lasinio et al. (2012), da equacao (2.4), pode-se perceber que a

distribuicao conjunta de (Y,K) e f(y + 2πk) com y ∈ [0, 2π) e K ∈ Z. Note que X

determina (Y,K) e vice-versa e a marginalizacao com respeito a K produz (2.4). Da

distribuicao conjunta, a distribuicao marginal de K e P (K = k) =∫ 2π

0f(y + 2πk)dy.

Alem disso, K | Y = y e tal que P (K = k | Y = y) = f(y+2πk)∑∞j=−∞ f(y+2πj)

enquanto que

a condicional de Y | K = k e f(y+2πk)∫ 2π0 f(y+2πk)dy

. Logo, e facil trabalhar com distribuicoes

enroladas, tratando K como variavel latente.

2.4.1 Wrapped Normal

19

Um Wrapped Model bastante utilizado e a distribuicao Wrapped Normal(µ, σ2),que e

obtida “enrolando-se”a distribuicao Normal(µ, σ2) no cırculo. Se Y∼Wrapped Normal(µ, σ2),

entao a densidade de Y e dada por:

f(y | µ, σ2) =1

σ√

2π

∞∑k=−∞

exp

[−(y − µ+ 2πk)2

2σ2

]. (2.5)

Outra representacao possıvel para esta densidade e dada por:

f(y | µ, σ2) =1

2π

{1 + 2

∞∑p=1

ρp2

cos p(y − µ)

}, 0 ≤ ρ ≤ 1, (2.6)

onde p = exp{−1

2σ2}

. A distribuicao e unimodal e simetrica em torno da direcao media

µ (mod 2π). Quando ρ→ 0, a densidade aproxima-se da Uniforme no cırculo, enquanto

quando ρ→ 1, a densidade tende a degeneracao com massa concentrada em µ.

Seguindo Jona-Lasinio et al. (2012), a expressao (2.5), que envolve uma soma infinita,

pode ser bem aproximada utilizando-se poucos termos, sem que seja necessario explorar

todo o suporte da quantidade latente k, {0,±1,±2, . . .}.

Em Mardia e Jupp (2009), para fins praticos, a densidade pode ser aproximada atraves

do truncamento de k ∈ {−1, 0, 1} quando σ2 ≥ 2π, enquanto que para σ2 < 2π considerar

apenas ”k=0”ja gera uma aproximacao razoavel. Segundo Jona-Lasinio et al. (2012), e

possıvel ser mais preciso. Suponha que translademos X para X ′ = (X + π) mod 2π− π,

resultando em um suporte simetrico [−π, π) , com a translacao correspondente de µ para

µ′. Se ϕ denota a funcao de densidade da normal padrao, pode-se escrever:

∫ π

−π

∞∑−∞

1

σϕ

(x+ 2kπ − µ

σ

)dx =

∞∑−∞

∫ π

−π

1

σϕ

(x+ 2kπ − µ

σ

)dx =

∞∑−∞

∫ (2k+1)π−µσ

(2k−1)π−µσ

ϕ(z)dz.

20

Calculos revelam que, se kU = 1 +⌊

3σ2π

⌋= −kL, (onde bac denota a parte inteira de

a), entao (2kU + 1)π − µ > 3π e (2kU − 1)π − µ < 3π. Como resultado,

∞∑−∞

∫ (2k+1)π−µσ

(2k−1)π−µσ

ϕ(z)dz >

kU∑k=kL

∫ (2k+1)π−µσ

(2k−1)π−µσ

ϕ(z)dz >

∫ 3

−3

ϕ(z)dz = 0.997 (2.7)

A expressao (2.7) permite determinar o numero necessario de termos para uma boa

aproximacao em funcao de σ, por exemplo, se σ < 2π3

, entao k ∈ {−1, 0, 1}; se 2π3σ < 4π

3

entao k ∈ {−2,−1, 0, 1, 2}. Entao K pode ser grande se e somente se σ2 puder ser grande.

21

Capıtulo 3

Metodos de Inferencia Bayesiana e

Modelos Dinamicos

3.1 Inferencia Bayesiana

3.1.1 Teorema de Bayes

Em problemas de inferencia parametrica, tem-se interesse na estimacao ou tomada

de decisao sobre quantidades nao observaveis θ, ditas parametros, que indexam um mo-

delo probabilıstico p(y|θ) subjacente ao comportamento de uma variavel aleatoria Y sob

observacao. Os procedimentos Bayesianos de inferencia parametrica caracterizam-se por

utilizar, como fonte de informacao para estimacao ou tomada de decisao sobre θ, nao

somente observacoes y1, . . . , yn de Y | θ (como nos metodos cassicos de inferencia), mas

tambem informacao externa ao conjunto de dados observados, referentes a crencas sub-

jetivas sobre θ e refletindo a incerteza inicial do tomador de decisao.

A informacao proveniente dos dados e traduzida pela funcao de verossimilhanca, de-

notada por l(θ; y), em que y representa o conjunto de dados observado e θ os parametros

a serem estimados. A funcao de verossimilhanca tem a mesma expressao que define o

22

modelo probabilıstico p(y | θ), porem sao objetos matematicos distintos. Do ponto de

vista de estimacao ou tomada de decisoes sobre θ passa-se a considerar p(y | θ) como

funcao de θ, desconhecido, condicional a um vetor de observacoes y e essa funcao, cujo

argumento agora e o vetor parametrico, e denominada verossimilhanca. A informacao

subjetiva, por sua vez, e incorporada ao modelo supondo uma distribuicao (ou densi-

dade) de probabilidade denotada por π(θ) a priori para o vetor de parametros θ. O grau

de incerteza sobre cada parametro esta relacionado a variabilidade da respectiva priori:

quanto maior a variabilidade, maior e a incerteza a priori (e consequentemente, menor o

grau de subjetividade incorporado ao modelo).

O Teorema de Bayes, enunciado a seguir, estabelece a relacao entre priori e verossi-

milhanca na composicao da incerteza acerca dos parametros. Essa incerteza se traduz

em termos probabilısticos atraves da distribuicao a posteriori, denotada por π(θ | y). A

partir da posteriori sao calculadas as estimativas dos parametros, as medidas de incer-

teza, como por exemplo variancia, entre outras.

Teorema 3.1. (Teorema de Bayes): Sejam θ o vetor de parametros com suporte Θ e

distribuicao a priori π(θ), e y o vetor de observacoes com verossimilhanca p(y | θ). Entao

a distribuicao a posteriori e dada por:

π(θ | y) =p(y | θ)π(θ)∫p(y | θ)π(θ)dθ

∝ p(y | θ)π(θ), (3.1)

em que o produto p(y | θ)π(θ) e chamado nucleo da distribuicao a posteriori.

De fato, qualquer funcao obtida de p(y | θ)π(θ) atraves da multiplicacao de uma

constante que nao dependa de θ, mas que ocasionalmente dependa do vetor de dados y,

pode ser chamada de nucleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na

23

atualizacao da incerteza associada ao parametro θ via Teorema de Bayes, as observacoes

y sao consideradas valores numericos conhecidos.

O Teorema de Bayes tambem pode ser visto sob o aspecto sequencial, segundo o

qual cada observacao e incorporada em sequencia a informacao a priori para compor

a incerteza a posteriori. Mais especificamente, denotando o vetor de observacoes por

y = (y1, y2, ..., yn), temos no instante zero a distribuicao a priori π(θ). Incorporada a

primeira observacao y1 a informacao a priori, atualiza-se a incerteza a respeito de θ

atraves do Teorema de Bayes, obtendo assim a distribuicao a posteriori no tempo 1:

π(θ | y1) ∝ p(y1 | θ)π(θ).

Agora, no instante 2, toda a informacao previa a respeito de θ (traduzida pela poste-

riori no instante 1: π(θ | y1)) e considerada informacao a priori e, ao ser combinada com

a observacao no tempo corrente, resulta na posteriori no instante 2:

π(θ | y1, y2) ∝ p(y2 | θ, y1)π(θ | y1) = p(y2 | θ)π(θ | y1),

onde a igualdade ocorre quando se supoe independencia entre as observacoes, dado o

conhecimento do vetor parametrico, o que significa assumir que o vetor parametrico sin-

tetiza toda a informacao necessaria para determinacao do comportamento probabilıstico

do vetor y antes de se observar os dados.

Analogamente, no tempo n tem-se a relacao de recorrencia:

π(θ | y1, ..., yn) ∝ p(yn | θ)π(θ | yn−1, ..., y1).

Atraves dessa relacao, e possıvel chegar a formula enunciada no Teorema de Bayes:

π(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)π(θ)

= p(y | θ)π(θ), (3.2)

24

onde a igualdade novamente ocorre quando se supoe independecia entre as observacoes

condicionadas ao vetor parametrico, e que toda informacao subjetiva sobre θ esteja re-

sumida em π(θ) no instante 0.

Portanto, admitindo ausencia de informacao externa aos dados alem da priori ini-

cial, a distribuicao a posteriori obtida sequencialmente e a mesma obtida em uma unica

aplicacao do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn) (Neves e

Zanini (2013)).

3.1.2 Estimacao Pontual

Um dos maiores problemas de inferencia estatıstica consiste na estimacao dos parame-

tros. A densidade a posteriori obtida via teorema de Bayes contem toda descricao pro-

babilıstica da informacao disponıvel a respeito da quantidade de interesse. O grafico da

densidade a posteriori (ou sua expressao analıtica) e a mais completa descricao do pro-

cesso inferencial. Entretanto, pode ser util sumarizar a informacao contida na posteriori,

mas esse processo deve ser feito com cuidado.

A forma mais simples de sumarizar a informacao e utilizar a estimacao pontual, e,

neste caso, toda informacao contida na distribuicao a posteriori e resumida em um unico

valor sobre a quantidade de interesse θ. A estimacao pontual consiste em calcular uma

estimativa θ para o parametro θ a partir de valores da amostra y e fontes adicionais

de informacao sobre θ. Geralmente, adota-se uma regra de decisao δ para calcular esta

estimativa do parametro: escolhe-se um estimador δ(Y ) que minimiza uma funcao perda

L(δ(Y ), θ). Suponha que existe uma perda L(d, θ) para cada valor de θ e cada possıvel

estimativa d pentencente ao espaco parametrico Θ. Desta forma, a perda esperada a

posteriori ou risco a posteriori e calculado por:

r(d | y) = E[L(δ(Y ), θ)] =

∫Θ

L(δ(Y ), θ)p(θ | y)dθ.

25

Segundo Migon et al. (2014), uma regra de decisao δ∗ e otima se tiver risco mınimo,

ou seja, R(δ∗) < R(δ),∀δ. Essa regra e chamada de regra de Bayes e seu risco e chamado

de risco de Bayes. Os estimadores δ(Y ) obtidos minimizando-se o risco esperado a pos-

teriori sao chamados estimadores de Bayes.

As funcoes de perda mais comumente utilizadas e seus respectivos estimadores de

Bayes sao:

• Funcao perda quadratica: L(δ(Y ), θ) = (θ − δ(Y ))′(θ − δ(Y ));

Media a posteriori: θ = E(θ | y);

• Funcao perda absoluta: L(δ(Y ), θ) = ‖(θ − δ(Y ))‖;

Mediana a posteriori: θ tal que∫ θ−∞ p(θ | y)dθ = 0.5;

• Funcao perda 0-1: L(δ(Y ), θ) =

k, se‖(θ − δ(Y ))‖ > ε

0, se‖(θ − δ(Y ))‖ ≤ ε;

Moda a posteriori: θ tal que p(θ | y) = supθ∈Θp(θ | y);

3.1.3 Estimacao Intervalar

Como obsevado anteriormente, deve-se ter cautela ao tentar sumarizar a informacao

contida na distribuicao a posteriori, ja que a forma mais adequada de expressar essa in-

formacao e atraves desta distribuicao. Ao se fazer uma estimacao pontual, a informacao

esta sendo resumida em um unico valor, o que muitas vezes pode nao ser adequado. Alem

de calcular uma estimativa para o parametro, pode ser bastante util estimar o quao pre-

cisa e esta estimativa. Uma possibilidade e associar estimativas pontuais a medidas de

incerteza sobre elas. Pode-se, por exemplo, atraves da distribuicao a posteriori, encontrar

um intervalo para θ onde esta concentrada a maior massa de probabilidade. Idealmente,

26

este intervalo deve ser o menor possıvel, mas que contenha muita massa de probabili-

dade. O tamanho deste intervalo informa a dispersao dos valores de θ. Assim, quanto

menor comprimento do intervalo, mais concentrada esta a distribuicao deste parametro

e, quanto menor, mais dispersa esta a distribuicao. Este intervalo e chamado intervalo

de credibilidade.

Definicao: Seja θ uma quantidade desconhecida definida em Θ. Um intervalo C ∈ Θ

e um intervalo 100(1− α)% de credibilidade para θ se P (θ ∈ C | y) ≥ 1− α. Nesse caso,

1− α e chamado nıvel de credibilidade.

Uma caracterıstica importante dos intervalos de credibilidade e que eles sao invari-

antes a transformacoes 1-a-1 do parametro, ou seja, se C e um intervalo de credibilidade

100(1−α)% para θ e φ = φ(θ) e uma transformacao 1-a-1 de θ, entao φ(C) e um intervalo

de credibilidade 100(1− α)% para φ.

3.1.4 Distribuicao Preditiva

E interessante notar que o processo sequencial de inferencia esta intimamente ligado a

distribuicao preditiva, a partir da qual sao realizadas as previsoes sob o enfoque inferen-

cial bayesiano, no caso em que os dados constituem uma serie temporal. A distribuicao

preditiva e de grande importancia nao so pela sua capacidade de fazer previsoes, como

tambem para a avaliacao da adequacao do modelo teorico formulado pelo estatıstico aos

dados reais.

A distribuicao preditiva para uma observacao futura yn+k, k ∈ N a partir do con-

junto de observacoes y1, . . . , yn e a distribuicao de probabilidade (ou funcao densidade)

dada por

27

p(yn+k | yn, ..., y1) =

∫Θ

l(θ; yn+k)π(θ | yn, ..., y1)dθ = Eθ|y1,...,yn(l(θ; yn+k)).

Assim, o inverso da constante de proporcionalidade em (3.1) e justamente p(yn|y1, . . . , yn−1),

isto e, a distribuicao preditiva 1 passo a frente, condicional a (y1, . . . , yn−1).

A distribuicao preditiva para yn+k pode ser interpretada como uma media dos valores

de l(θ; yn+k) ponderados pela posteriori de θ | (yn, ..., y1). Neste ponto, e importante

observar que a predicao sob o enfoque Bayesiano e condicionada apenas a observacao do

vetor de observacoes, sem nenhuma dependencia do vetor parametrico.

3.2 Procedimento de inferencia via MCMC

3.2.1 Introducao

Nem sempre e possıvel obter a distribuicao a posteriori de forma analıtica, devido a

integral presente no denominador de (3.1). Nesse caso, a posteriori deve ser aproximada

computacionalmente. Uma possibilidade e o uso de Metodos de Monte Carlo Via Cadeias

de Markov.

Os metodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia

de Markov irredutıvel, recorrente positiva e aperiodica cujo espaco de estados Θ seja o

suporte do vetor parametrico θ, de modo que esta cadeia convirja em distribuicao para

a densidade a posteriori π(θ | y), dado qualquer estado inicial em Θ da cadeia.

O que se faz e simular uma ou mais realizacoes dessa cadeia e tomar os valores obser-

vados apos um determinado numero de iteracoes m a partir do qual seja possıvel assumir

28

que a distribuicao estacionaria, ou seja, a densidade a posteriori, tenha sido alcancada.

Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribuicao a

posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (media, variancia,

quantis, enre outras) da posteriori atraves das respectivas medidas observadas na amos-

tra obtida.

Uma forma empırica de verificar a convergencia para a distribuicao a posteriori de

interesse e simular multiplas cadeias independentemente, cada uma delas inicializada

num ponto distinto no espaco parametrico. Como a convergencia e garantida para qual-

quer estado inicial, a partir do momento em que as cadeias se encontram e passam a

apresentar um mesmo comportamento ao longo do tempo, tem-se um forte indıcio de

que a distribuicao estacionaria foi alcancada. Denomina-se perıodo de aquecimento da

cadeia o intervalo de tempo discreto transcorrido ate se observar indıcios da convergencia.

Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa

ter boas estimativas das caracterısticas de interesse a posteriori. Porem, tambem e de-

sejavel que os valores simulados nao apresentem redundancia, isto e, que nao sejam muito

autocorrelacionados. Do contrario, uma analise precipitada levando em conta apenas o

tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com

uma precisao maior do que a realidade. O que se costuma fazer e, apos o perıodo de

aquecimento, tomar apenas os valores espacados de k unidades no tempo, de forma que

as autocorrelacoes sejam proximas de zero.

A seguir, sao descritos os dois metodos MCMC que foram implementados neste tra-

balho: Metropolis-Hastings e o Amostrador de Gibbs.

3.2.2 Metropolis-Hastings

Sejam Θ o suporte do vetor parametrico θ e {Xt} uma cadeia de Markov (C.M.)

irredutıvel e aperiodica com funcao de transicao q : Θ→ Θ. Costuma-se fazer referencia

29

a funcao de transicao q como densidade proposta.

Considere a distribuicao a posteriori π?(θ) = π(θ | y) com nucleo n?(θ) e a C.M. com

funcao de transicao p : Θ→ Θ dada por:

p(θ1, θ2) = q(θ1, θ2)α(θ1, θ2),

α(θ1, θ2) = min

{1,π?(θ2)q(θ2, θ1)

π?(θ1)q(θ1, θ2)

}= min

{1,n?(θ2)q(θ2, θ1)

n?(θ1)q(θ1, θ2)

}.

A funcao α garante que p e π? satisfacam a condicao de reversibilidade

π?(θ1)p(θ1, θ2) = π?(θ2)p(θ2, θ1), ∀θ1, θ2 ∈ Θ.

Essa condicao implica π? ser distribuicao invariante da cadeia com funcao de transicao

p.

Portanto, fornecida a densidade proposta q, prossegue-se com a simulacao da cadeia

com funcao de transicao p da seguinte da forma:

1. Escolhe-se um valor inicial θ(0) ∈ Θ (i=0);

2. Dado θ(i), amostra-se um valor θ? de q(θ(i), •);

3. Com probabilidade α(θ(i), θ?), fazemos θ(i+1) = θ? e com probabilidade 1−α(θ(i), θ?)

fazemos θ(i+1) = θ(i).

4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3.

A teoria subjacente garante que a cadeia de Markov com funcao de transicao p con-

verge para a distribuicao π(θ | y) para qualquer densidade proposta q escolhida e qualquer

valor inicial θ(0). Cabe ressaltar, porem, que a escolha de q afeta bastante o tempo de con-

vergencia da cadeia e, portanto, deve-se estudar boas propostas antes da implementacao

dos metodos MCMC. Gamerman (1998) e Migon et al. (2013), por exemplo, tratam de

30

duas formas de especificar a proposta q visando justamente diminuir o tempo computa-

cional necessario a convergencia das cadeias.

3.2.3 Amostrador de Gibbs

O amostrador de Gibbs e um caso particular do algoritmo de Metropolis-Hastings em

que a probabilidade de aceitacao de cada valor gerado e sempre 1. Portanto, os argu-

mentos que justificam a convergencia do metodo sao os mesmos exibidos na secao anterior.

Seja θ = (θ1, . . . , θn) o vetor de parametros e, inicialmente, suponha conhecidas as n

condicionais completas (θ1 | θ2, . . . , θn, y), . . . , (θn | θ1, . . . , θn−1, y). A seguir, descreve-se

as etapas do algoritmo do amostrador de Gibbs:

1. Escolha n valores iniciais θ(0)1 , . . . , θ

(0)n (i=0)

2. Sorteia-se um valor θ(i+1)1 de θ1 | θ(i)

2 , . . . , θ(i)n ;

Sorteia-se um valor θ(i+1)2 de θ2 | θ(i+1)

1 , θ(i)3 , . . . , θ

(i)n ;

...

Sorteia-se um valor θ(i+1)n de θn | θ(i+1)

1 , . . . , θ(i+1)n−1 ;

3. Repete-se a etapa anterior para as iteracoes seguintes (i=1,2,3,..).

A suposicao inicial de que as condicionais completas sao conhecidas nao e estrita-

mente necessaria. Uma vez que o nucelo dessas distibuicoes e sempre conhecido, pode-se

utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa

cuja forma analıtica seja desconhecida durante a etapa 2 do algoritmo.

31

3.2.4 Resumo das etapas para implementacao dos metodos MCMC

1. Estipula-se a funcao de verossimilhanca l(y | θ) e especifica-se distribuicao a priori

para o vetor de parametros θ;

2. Obtem-se o nucleo da posteriori π(θ | y) atraves do teorema de Bayes;

3. Obtida a densidade conjunta a posteriori, deve-se encontrar o nucleo de cada uma

das condicionais completas e identificar quais correspondem a distribuicoes conhe-

cidas;

4. Escolhe-se os valores iniciais no suporte do vetor parametrico e a proposta q;

5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que

se fizer necessario amostrar de uma distribuicao condicional completa cuja forma

analıtica seja desconhecida, convenciona-se utilizar um passo do algoritmo geral de

Metropolis-Hastings;

6. Apos diagnosticar indıcios de que a convergencia da cadeia foi alcancada, considera-

se os valores obtidos posteriormente pelo algoritmo como amostra da distribuicao

a posteriori;

7. Atraves da amostra final obtida apos escolher um espacamento adequado, estima-se

as caracterısticas de interesse referentes a distribuicao a posteriori.

32

3.3 Modelos Dinamicos

Nao raramente, dados circulares sao observados no tempo. Por exemplo, e tıpico ter-

se estacoes monitorando a direcao dos ventos ao longo do tempo. Extensoes dinamicas

de modelos para dados circulares sao muito uteis a medida que possibilitam a modelagem

de padroes que evoluem no tempo e levam em conta a autocorrelacao existente em uma

serie temporal.

Considere uma serie temporal (Yt, t = 1, 2, 3, . . .), onde Yt e um vetor aleatorio ob-

servavel (m× 1). Para se fazer inferencia em series temporais, em particular para prever

o valor de Yt+1 dadas as observacoes passadas (Y1, . . . , Yt), e preciso especificar a lei de

probabilidade do processo {Yt}, ou seja, e preciso especificar a estrutura de dependencia

entre as variaveis Y ′t s (Petris et al. (2009)). Assuma-se que a lei de probabilidade asso-

ciada a Yt dependa de um processo latente {θt}.

A.1 (θt, t = 0, 1, . . .) e uma cadeia de Markov, isto e, θt depende dos valores passados

(θ0, θ1, . . . , θt−1) somente atraves de θt−1. Portanto, a lei de probabilidade do processo

(θt, t = 0, 1, . . .) e especificada, atribuindo-se a densidade inicial p0(θ0) de θ0 e as densi-

dades de transicao p(θt | θt−1) de θt condicionalmente a θt−1.

A.2 Condicionalmente a (θt, t = 0, 1, . . .) os Y ′t s sao independentes e Yt depende

somente de θt. Entao, para qualquer n ≥ 1, (Y1, . . . , Yn) | (θ1, . . . , θn) tem densidade

conjunta condicional∏n

t=1 f(yt | θt).

A dependencia entre as variaveis pode ser deduzida a partir da lei de probabilidade do

processo aleatorio conjunto((θt, Yt), t = 1, 2, . . .) que e escrita a partir das suposicoes (A1)-

(A2). E importante ressaltar que Yt e condicionalmente independente das informacoes

passadas (Y1, . . . , Yt−1) dado o valor de θt, o que leva a uma outra interpretacao para θt:

tal quantidade representa uma informacao quantitativa que sumariza o historico passado

33

do processo observado e ajuda a prever o comportamento deste processo no futuro.

Uma classe muito importante de modelos de espaco de estados e dada pelos mode-

los de espaco de estados lineares Gausssianos, tambem chamados de Modelos Lineares

Dinamicos(MLD). Esta classe de modelos contempla os casos em que a resposta tem dis-

tribuicao normal. Para esses modelos em particular, o procedimento de inferencia pode

ser encontrado em West e Harrison (1999, capıtulo 4). Ha uma classe mais abrangente

de modelos onde a resposta pertence a famılia exponencial e esta classe e chamada de

modelos lineares dinamicos generalizados(MLDG). Esta classe engloba os modelos linea-

res dinamicos, ja que a distribuicao normal pertence a famılia exponencial. Um possıvel

esquema de inferencia neste contexto pode ser encontrado em West e Harrison (1999,

capıtulo 14).

3.3.1 Modelos Lineares Dinamicos (MLD)

A classe de Modelos Lineares Dinamicos (MLD) se aplica nos casos em que a distri-

buicao da variavel resposta e normal. Esses modelos permitem explicar de forma dinamica

a variavel resposta a partir de covariaveis, blocos representando tendencia e sazonalidade

e qualquer outra estrutura que possa ser util no estudo desta variavel dependente por

meio de um preditor linear, quando se acredita que a relacao entre a resposta e as variaveis

explicativas muda com o passar do tempo.

O MLD em sua forma geral e descrito por duas equacoes, sendo elas a equacao de

observacao, que descreve a relacao entre variaveis explicativas e a variavel resposta, e

a equacao de evolucao, que descreve a forma com que os parametros do modelo variam

conforme o tempo. Para cada t, um modelo linear dinamico univariado, representado

pela quadrupla Ft, Gt, Vt,Wt e definido por:

34

Equacao de Observacao: Yt = Ftθt + νt, νt ∼ N [0, Vt]

Equacao de Evolucao: θt = Gtθt−1 + wt, wt ∼ N [0,Wt]

Informacao Inical: (µ0 | D0) ∼ N [m0, C0]

onde as sequencias vt e wt sao independentes e mutualmente independentes, alem de

serem independentes de (µ0 | D0). Para que se possa obter distribuicao conjunta a pos-

teriori de forma analıtica, por meio do Filtro de Kalman, os valores de Vt e Wt podem

ser desconhecidos, mas os valores de Gt e Ft sao conhecidos.

Para os casos em que a distribuicao da variavel resposta pertence a famılia exponen-

cial, e possıvel encontrar metodos para se fazer Inferencia Bayesiana em West e Harrison

(1999).

3.4 Esquemas de Amostragem em Modelos Dinamicos

Ao se trabalhar com modelos dinamicos em que a distribuicao a posteriori nao esteja

disponıvel analiticamente, e usual que se utilize os metodos MCMC decompondo o es-

quema em amostragem dos estados condicional aos parametros estaticos e amostragem

dos parametros estaticos condicional ao vetor de estados. No caso particular de mo-

delos lineares dinamicos, os estados podem ser amostrados conjuntamente utilizando-se

um tipo de amostrador de Gibbs chamado Foward Filtering Backward Sampling (FFBS)

(Fruhwirth-Schnatter, 1994; Carter e Kohn, 1994).

3.4.1 Foward Filtering Backward Sampling

O esquema FFBS foi proposto em Fruhwirth-Schnatter(1994) e Carter and Kohn

(1994) com o objetivo de se obter amostras do vetor de estados em um Modelo Linear

Dinamico(MLD) de forma eficiente. O algoritmo consiste em amostrar o vetor de estados

conjuntamente utilizando as distribuicoes filtradas e suavizadas destes parametros. Para

um MLD da forma:

35

Yt = F′

t θt + vt, vt N [0, Vt]

θt = Gtθt−1 + wt, wt N [0,Wt],

a amostragem do vetor de estados pode ser decomposta em dois passos e funciona da

seguinte maneira:

Foward Filtering

Este passo consiste na obtencao do vetor de medias mt e matriz de covariancias

Ct atraves das equacoes do filtro de Kalman(1960). O esquema para obtencao destas

quantidades se da da seguinte forma:

1. Posteriori em t-1:

θt−1 | Dt−1 ∼ N [mt−1, Ct−1]

2. Priori em t:

θt | Dt−1 ∼ N [at, Rt]

onde:

at = Gtmt−1

e Rt = GtCtG′t +Wt

36

3. Preditiva:

Yt | Dt−1 ∼ N [ft, Qt]

onde:

ft = F′

tat−1

e Rt = FtRtF′t + Vt

4. Posteriori em t:

θt | Dt ∼ N [mt, Ct]

sendo:

mt = at + Atet

e Ct = Rt − AtQtA′t

onde:

At = RtFtQ−1t

e et = Yt − ft

37

Backward Sampling

O passo Backward Sampling do algoritmo e baseado na decomposicao da distribuicao

a posteriori conjunta dos parametros de estado da forma

p(θ1, ..., θT | DT ) = p(θT | DT )T−1∏t=1

p(θt | θt+1, Dt)

Pelo teorema de Bayes, para t=T-1,...,1,

p(θt | θt+1, Dt) ∝ p(θt+1 | θt, Dt)p(θt | Dt)

representa a densidade de uma distribuicao normal com media

mst = mt + CtG

′t+1(Gt+1CtG

′t+1 +Wt+1)−1(θt+1 −Gt+1mt)

e variancia

Cst = Ct − CtG′t+1(Gt+1CtG

′t+1 +Wt+1)−1Gt+1Ct

em que mt e Ct sao o primeiro e segundo momentos obtidos atraves do Foward Filtering

e mst e Cs

t sao chamados momentos suavizados.

Algoritmo 3.1: Foward Filtering Backward Sampling

Usando o FFBS, a obtencao de uma amostra do vetor parametrico de estados na

iteracao i do algoritmo se da da seguinte forma:

38

1. Utiliza-se o Foward Filtering para calcular m(i)t e C

(i)t , t=1,...,T, onde m

(i)t e C

(i)t

sao o primeiro e segundo momentos da distribuicao filtrada no tempo t.

2. Sorteia-se θ(i)T da distribuicao normal com vetor de medias m

(i)T e matriz de co-

variancia C(i)T , onde θ

(i)T e o vetor de estados no tempo T.

3. Sorteia-se θ(i)t da distribuicao normal com media suavizada m

s(i)t e variancia suavi-

zada Cs(i)t , onde θ

(i)t e o vetor de estados no tempo t e m

s(i)t e C

s(i)t sao o primeiro

e segundo momentos da distribuicao suavizada no tempo t.

39

Capıtulo 4

Modelos Dinamicos para Dados

Circulares

No capıtulo 3, foram abordados modelos e metodos de estimacao usualmente utili-

zados para se trabalhar com dados que assumam valores na reta. Por vezes, pode-se

ter interesse em dados que sejam observados temporalmente e que possam assumir va-

lores em um intervalo de comprimento 2π. Pode-se querer observar, por exemplo, como

a direcao dos ventos muda ao longo de um dia em uma cidade, ou como o numero de

pacientes que dao entrada em certo hospital muda ao longo da semana. Para esses tipos

de dados, os modelos e metodos de estimacao estudados anteriormente podem nao ser

adequados.

O objetivo, neste capıtulo, e trabalhar com modelos circulares sem prescindir do tra-

tamento de autocorrelacao temporal inerente a dados observados no tempo. Para isso,

no presente trabalho, utilizou-se dois modelos base.

40

Modelo Von Mises Dinamico

Yt ∼ υM(µt, κ)

µt = g(αt + F ′tθt)

αt ∼ υM(αt−1, κα)

θt = Gtθt−1 + ωt, ωt ∼ N(0,Wt)

Onde:

• θt e um vetor parametrico associado a covariaveis lineares;

• αt e um nıvel com evolucao dinamica;

• κ, κα e Wt sao repectivamente parametros de concentracao observacional, concen-

tracao da evolucao do nıvel e matriz de covariancia de evolucao;

• g(•) e uma funcao de ligacao que mapeia valores da reta ao cırculo;

• Ft e um vetor de regressoras definidas na reta e supostas conhecidas;

• Gt e a matriz de evolucao, cujas componentes sao supostas conhecidas.

Uma extensao natural para esse modelo seria considerar, ao inves de apenas um nıvel

dinamico, um grupo de regressoras circulares com dinamica associada e fazer com que

a evolucao do vetor de estados atrelado as variaveis circulares tivesse uma distribuicao

Von Mises multivariada, como a proposta por Mardia et al. (2008). Uma dificuldade

no uso dessa distribuicao e o fato de que, para dimensoes superiores a 2, sua constante

normalizadora nao tem expressao analıtica fechada.

Modelo Wrapped Normal Dinamico

41

Yt ∼ WN(F ′tθt, σ2)

θt = Gtθt−1 + ωt,

ωt ∼ N(0,Wt)

onde:

• θt e o vetor de estados no tempo t;

• Ft e um vetor de regressoras definidas e/ou componentes sazonais, estruturais de

tendencia e com todos os elementos supostos conhecidos;

• Gt e a matriz de evolucao suposta conhecida.

4.1 Modelo Von Mises Estatico e Dinamico

O modelo Von Mises e um dos modelos mais utilizados ao se trabalhar com dados

univariados de natureza circular. No contexto de inferencia Bayesiana, para um modelo

estatico da forma:

Yt ∼ vM(µ, κ)

onde µ e estatico, Guttorp e Lockhart (1988) sugerem prioris conjugadas para os casos

em que um dos parametros da distribuicao ou ambos sao considerados desconhecidos.

42

Ainda se tratando de um modelo Von Mises estatico, Damien e Walker (1999) for-

necem um esquema completo de inferencia bayesiana, baseado nas prioris sugeridas em

Guttorp e Lockhart (1988) para simplicar o uso do MCMC quando a resposta e Von Mi-

ses e µ e estatico, mas restringem-se a obtencao da moda a posteriori para o parametro

de concentracao. Utilizando as prioris sugeridas e a partir da introducao de variaveis

latentes convenientes, tem-se condicionais completas conhecidas para os parametros de

interesse, evitando-se, assim, a complicacao gerada no processo de escolhas de propostas

para a utilizacao eventual de um algoritmo de Metropolis-Hastings.

Fez-se um estudo simulado utilizando o esquema proposto cujos resultados encontram-

se no Apendice A e, atraves deste estudo, foi possıvel perceber algumas limitacoes: pro-

blemas numericos surgiram quando se tentou trabalhar com series temporais longas (as

aplicacoes do artigo se baseiam em series de tamanho em torno de 10) e a extensao para

o caso em que a direcao media µ e dinamica nao parece trivial.

Alem do estudo simulado utilizando o metodo sugerido por Damien e Walker (1999),

fez-se um estudo a partir da aplicacao do metodo MCMC programado de forma indepen-

dente. O algoritmo MCMC aplicado nesse caso consistiu na utilizacao da priori sugerida

em Guttorp e Lockhart (1988), fazendo com que a condicional completa para o parametro

µ seja conhecida e na aplicacao de uma transformacao ψ = log(κ) para o parametro de

concentracao κ. Os resultados para este estudo simulado podem ser encontrados ainda

no Apendice A. A comparacao entre os resultados obtidos via MCMC programado de

forma independente e metodo proposto por Damien e Walker (1999), parecem levar a

conclusao de que a utilizacao do esquema MCMC sugerido baseado na transformacao

do parametro κ e na utilizacao de prioris convenientes leva a resultados melhores e mais

acurados do que a utilizacao do esquema de introducao de variaveis latentes proposto em

Damien e Walker (1999).

Gill e Hangartner (2010) tambem trabalham com resposta Von Mises, explicada por

um preditor que compreende um intercepto e regressoras. No esquema sugerido no ar-

43

tigo, a estimacao do intercepto e coeficientes das regressoras e feita utilizando MCMC,

ja o parametro de concentracao κ e estimado a partir de seu estimador de maxima veros-

similhanca, encontrado em Downs e Mardia (2002). A utilizacao do esquema proposto

por Gill e Hangartner (2010) em um conjunto de dados simulado a partir de covariaveis

disponıveis nao gerou bons resultados.

O foco desta dissertacao consiste em se trabalhar com modelos flexiveıs para dados

circulares temporais utilizando inferencia Bayesiana. Neste contexto, Lan et al. (2013)

sugere um esquema de filtro de partıculas para a estimacao de um nıvel dinamico, em

um modelo onde a resposta e Von Mises e a variancia de observacao e de evolucao sao

supostas conhecidas. A partir das referencias encontradas que trabalham com a Von Mi-

ses como distribuicao para a variavel resposta, nota-se que ha dificuldade na estimacao

do parametro de concentracao desta distribuicao.

Para o caso em que se deseja trabalhar com variaveis que eventualmente possam ser

utilizadas como explicativas para a variavel resposta, e as variancias tanto de observacao

quanto de evolucao sejam estimadas, nao se conhece nenhum trabalho de referencia. O

modelo de interesse e da seguinte forma:

Yt ∼ vM(µt, k), k desconhecido

µt ∼ vM(µt−1, ck)

µ0 ∼ vM(m0, ck)

Apesar de nao ter sido possıvel encontrar artigos que trabalhem com um modelo Von

Mises dinamico onde a variancia de observacao seja estimada de forma bayesiana, foi

possıvel utilizar as prioris sugeridas em Guttorp e Lockhart (1988) para se obter um es-

quema MCMC para a estimacao dos parametros µt, t = 1 . . . T e κ no modelo Von Mises

dinamico. Observou-se que utilizando a priori sugerida no artigo citado, pode-se obter

condicionais completas conhecidas para µt e, assim, pode-se utilizar um esquema Gibbs

para esses parametros de estado. Ja para o parametro de concentracao κ, trabalhou-se

44

com o algoritmo de Metropolis-Hastings a partir do uso da transformacao ψ = log(κ)

Fez-se um estudo simulado utilizando este esquema MCMC e os resultados podem

ser vistos no Apendice A. A partir desse estudo simulado, notou-se que ha dificuldade

na estimacao do parametro de concetracao κ e a incerteza associada a estimacao deste

parametro e grande. Deve-se ressaltar que a estimacao deste parametro parece complexa,

mesmo para modelos estaticos, conforme sugerem as discussoes em Damien e Walker

(1999) e Gill e Hangartner (2010).

A partir deste estudo, observou-se que os metodos propostos na literatura para se tra-

balhar com um modelo Von Mises parecem ser limitados. Apesar de ter sido possıvel fazer

uma extensao dos metodos ja estabelecidos para modelos estaticos, conseguindo aplica-

los em modelos dinamicos, chegando inclusive a resultados satisfatorios para estimacao

do parametro dinamico de posicao, foi possıvel peceber que extensoes que possibilitem o

uso de modelos assimetricos, multivariados e ate mesmo modelos dinamicos que incluam

um preditor linear compreendendo regressoras e sazonalidade podem nao ser triviais sob

adocao da distribuicao Von Mises.

Logo, passamos a adotar os os modelos ”Wrapped”, em que tais extensoes podem ser

mais naturalmente acomodadas.

4.2 Modelo Wrapped Normal Dinamico

Na classe dos modelos ”Wrapped”, o modelo wraped normal se destaca por ser uma

transformacao do modelo normal. Por ser um modelo comumente utilizado no estudo de

variaveis circulares e pelo fato de ser intuitivo pensar em extensoes dinamicas baseadas

45

em versoes “wrapped”de modelos de espaco de estados, que eventualmente incluam um

preditor compreendendo covariaveis e sazonalidade, blocos para tratamento de tendencia,

decidiu-se dar maior enfase, no desenvolvimento deste trabalho, a esse tipo de modelo.

No contexto de inferencia bayesiana, Jona-Lasinio et al. (2012) sugerem um metodo

para a estimacao dos parametros µ e σ2 de um modelo Wrapped Normal estatico. O

artigo trabalha com dados direcionais espaciais e um dos modelos utilizados no artigo,

para o caso particular em que se considera apenas uma localizacao, e da seguinte forma:

Yt ∼ WN(µ, σ2)

O metodo sugerido consiste em fazer uso da forma de construcao do modelo Wrapped

Normal. Como visto no capıtulo 2, se X ∼ N(µ, σ2) entao Y = X mod 2 π∼ WN(µ, σ2).

Pode-se escrever X em funcao de Y, ou seja, X = 2π ∗ k+Y , onde k e o numero de ”vol-

tas”dadas no cırculo, por vezes chamado de ”spinning number”. A partir daı, pode-se

pensar em um esquema que gere k, construa X em funcao de Y, e utilizar a metodologia

usual para a estimacao de µ e σ2 considerando que X tem distribuicao normal. Nota-se

que o papel da introducao da variavel latente k neste caso, e diferente daquele desempe-

nhado no artigo de Damien e Walker (1999), onde as variaveis introduzidas facilitam o

uso do MCMC, ja que a introducao de tais variaveis faz com que a distribuicao condi-

cional completa para os parametros de interesse seja conhecida. Em Jona-Lasinio et al.

(2012), a introducao da variavel latente k e utilizada como artifıcio para possibilitar o

uso de metodos de estimacao ja conhecidos.

Jona-Lasinio et al. (2012) sugerem que o modelo para os dados y1, y2, . . . , yn seja es-

crito em termos da distribuicao conjunta (Yi, Ki), i = 1, . . . , n, ou seja:

∏i

p(yi, ki) =∏i

1√2πσ2

exp

{−(yi + 2kiπ − µ)2

2σ2

}(4.1)

46

A introducao de k como variavel latente faz com que a implementacao do MCMC seja

mais facil, ja que dado k, elicitando-se prioris convenientes, tem-se condicionais comple-

tas para os outros parametros com forma analıtica fechada . No artigo, os valores de

k sao amostrados para cada localizacao e a cada iteracao. Sabe-se que e dificil amos-

trar no suporte 0,±1,±2, . . . de k. Para fins praticos, Mardia e Jupp (2009) sugerem

que a densidade em (4.1) seja aproximada atraves da truncagem de k. Jona-Lasinio

et al. (2012) chegam a conclusao de que o suporte de k pode ser bem aproximado por

−m, . . . , 0, . . . ,m, onde m = 1+⌊

3σ2π

⌋e bcc e o menor inteiro proximo a c. Tal reducao no

suporte de k e justificada pela discussao ao termino da subsecao 2.4.1, onde se observa, na

equacao (2.7), que a adocao desse truncamento da conta de praticamente toda a massa

da funcao densidade de interesse.

Baseando-se em ajustes de modelos para dados simulados sabe-se que o par {K, σ2}

nao sera bem identificado a menos que seja elicitada uma priori informativa para σ2.

Alem disso, quando o parametro de concentracao c da Wrapped Normal e pequeno (σ2

grande), e difıcil distinguir a distribuicao Wrapped Normal da distribuicao uniforme no

cırculo. A partir de experimentos simulados, onde foram geradas 1000 amostras da dis-

tribuicao Wrapped Normal e foram utilizados diferentes tamanhos amostrais e valores

diferentes para as variancias, Jona-Lasinio et al. (2012) reportam que testes de uniformi-

dade como Rayleigh, Kuiper-Watson e Rao falharam em distinguir a Wrapped Normal

e uniforme circular para σ2 = 3.252 com tamanhos de amostra pequenos (n = 30), para

σ2 = 4.02 quando n = 100 e para σ2 = 7.01 quando n = 1000. Segundo Jona-Lasinio

et al. (2012), e valido fazer uma analise exploratoria para obter os estimadores de mo-

mentos para µ e σ2 e verificar quando e adequado utilizar a distribuicao Wrapped Normal.

Fica claro que ha dificuldade na identificacao do par {σ2, K} e do ponto de vista

bayesiano, faz-se necessaria, portanto, a introducao de informacao a priori para identi-

ficacao do par.

No contexto de inferencia bayesiana, a atualizacao de Ki dados µ e σ2 pode ser feita

47

utilizando expressao em (2.7) para implementar um truncamento, ou seja, pode-se fazer

m = 1 +⌊

3σ2π

⌋e k ∈ {−m, . . . ,−1, 0, 1, . . . ,m}. Entao,

P (Ki = ki | µ, σ, xi) ≈ϕ( (xi+2kiπ−µ)

σ)∑m

ki=−m ϕ( (xi+2kiπ−µ)σ

)(4.2)

onde

ki = {−m, . . . ,−1, 0, 1, . . . ,m}.

A discussao acima serve de base para a escolha das especificacoes das prioris. Primeiro,

e usual assumir que µ e σ2 sao independentes. Para µ se pode adotar uma distribuicao

normal a priori da forma N(µ0, σ20). Lembrando que µ = µ + Kµ, entao implicitamente

diz-se que a priori para µ e uma Wrapped Normal e fica evidente que nao se pode apren-

der sobre µ atraves dos Xi, ou seja, em (4.2) nao se pode identificar os ki’s e kµ nem

os ki’s e µ. Alem disso, por causa da conjugacao, obtem-se a distribuicao condicional

completa de µ que sera N(σ20

∑i(xi+2πki)+σ

2µ0nσ2

0+σ2 ,σ2σ2

0

σ2+nσ20). Para σ2, Jona-Lasinio et al. (2012)

sugerem uma distribuicao Gama Inversa truncada a direita com parametros α0 e β0 e o

truncamento definido de acordo com σ2 e n, considerando as observacoes feitas anteri-

ormente. Por exemplo, se o tamanho da amostra for n = 30, a Gama Inversa pode ser

truncada a direita em π. Logo, a condicional completa para σ2 sera uma Gama Inversa

truncada com parametro de forma α0+n2

e parametro de escala β0+ 12

∑ni=1(xi+2kiπ−µ)2.

No artigo, o esquema MCMC funciona a partir da atualizacao de k, que acontece

atraves de probabilidades calculadas por meio da aproximacao para o suporte desta

variavel. A atualizacao de µ (que neste caso e estatico) e feita elicitando-se uma priori nor-

mal resultando em uma condicional completa normal para este parametro e, escolhendo-se

uma priori gama inversa para σ2, a condicional completa deste parametro tambem e co-

nhecida.

Como o foco deste estudo e trabalhar com modelos dinamicos, a partir das ideias

48

sugeridas em Jona-Lasinio et al. (2012), criou-se um metodo de estimacao para o caso

em que os parametros variam no tempo, para um modelo da forma:


θt = Gtθt−1 + ωt, ωt ∼ N(0,W ),

onde:

• θt e o vetor de estados no tempo t;

• Ft e um vetor de regressoras e/ou componentes para representacao de tendencia e

sazonalidade, com todas as componentes supostas conhecidas;

• Gt e a matriz de evolucao, suposta conhecida.

Condicionalmente a k, X = 2π ∗ k + Y tem distribuicao normal, e, portanto pode-se

pensar na utilizacao de metodos usuais de estimacao em MLD. Dos metodos disponıveis

neste caso, optou-se por utilizar o FFBS para a estimacao dos parametros do vetor de

estados. Se a priori elicitada para σ2 for inversa gama, a condicional completa deste

parametro sera conhecida. Do mesmo modo, se forem elicitadas prioris gama inversa

para wjj, j = 1, . . . , C, elementos da diagonal da matriz W, as condicionais completas

destes parametros tambem serao conhecidas. O esquema MCMC para este caso e dado

pelo seguinte algoritmo:

49

Algoritmo 4.1: MCMC para um modelo Wrapped Normal Dinamico

Inicia-se o algoritmo com valores iniciais µ0, σ20 e na iteracao i, executa-se os seguintes

passos:

1. Calcula-se m(i)t = 1 +

⌊3σ2(i−1)

2π

⌋, t = 1, . . . , T ;

2. Sorteia-se k(i)t ∈

{−m(i)

t , . . . , 0, . . . ,m(i)t

}, t = 1, . . . , T de acordo com as probabili-

dades dadas por:

P (K(i)t = k

(i)t | µ

(i−1)t , σ(i−1), xt) ≈

ϕ((xt + 2k(i)t π − µ

(i−1)t )/σ(i−1))∑m

(i)t

k(i)t =−m(i)

t

ϕ((xt + 2k(i)t π − µ

(i−1)t )/σ(i−1))

onde µ(i−1)t = F ′tθ

(i−1)t ;

3. Calcula-se y(i)t = 2k

(i)t π + xt.

4. Utiliza-se o Algoritmo 3.1 para gerar o vetor de estados θ(i)t para t = 1 . . . , T ;

5. Gera-se σ2(i) da condicional completa deste parametro. Se σ2 ∼ IG(α0, β0), a

condicional completa para este parametro sera uma gama inversa com parametros

α0 + n2

e β0 + 12

[∑Tt=1

(xt + 2k

(i)t π − F ′tθ

(i)t

)2].

6. Gera-se cada elemento w(i)jj da diagonal da matriz W, para j = 1, . . . , C e sendo

C o tamanho do vetor de estados, da condicional completa deste parametro. Se

wjj ∼ IG(ϕ0, δ0) para j = 1, . . . , C, a condicional completa para este parametro

sera uma gama inversa com parametros ϕ0 + n2

e δ0 + 12

[∑Tt=1

(µ

(i)t − µ

(i)t−1

)2].

50

4.2.1 Estudo Simulado

Em um primeiro momento, estudou-se o processo de estimacao em um modelo Wrap-

ped Normal estatico, como descrito em Jona-Lasinio et al. (2012). Ja o foco da dis-

sertacao consiste em trabalhar com modelos flexıveis especificamente para dados circu-

lares, pensou-se em um modelo Wrapped Normal dinamico como uma extensao de um

modelo Wrapped Normal. O processo de estimacao dos parametros de um Wrapped

Normal dinamico se deu a partir da aplicacao do Algoritmo 4.1.

Utilizou-se o Algoritmo 4.1 na estimacao dos parametros do seguinte modelo base:

Modelo Base:


θt = Gtθt−1 + ωt, ωt ∼ N(0,W ) (4.4)

Foram testados diferentes modelos, incluindo sazonalidade, regressoras, modelo de

tendencia polinomial de primeira e de segunda ordem e combinacoes dessas configuracoes.

Decidiu-se por reportar os ressultados somente de um modelo considerado mais completo,

com os seguintes parametros:

θt = (θ1t θ2t θ3t θ4t θ5t)

Ft = (1 Pt V Vt 1 0)

onde:

51

VVt = velocidade dos ventos no tempo t

Pt = pressao no tempo t

Gt =

1 0 0 0 0

0 1 0 0 0

0 0 1 0 0

0 0 0 −sen(2πt12

) cos(2πt12

)

0 0 0 cos(2πt12

) sen(2πt12

)

Utilizou-se as seguintes prioris:

θ11 ∼ N(2, 0.05)

θ21 ∼ N(0.001, 0.005)

θ31 ∼ N(−0.003, 0.005)

θ41 ∼ N(0.075, 0.005)

θ51 ∼ N(−0.05, 0.005)

wjj ∼ IG(2, 0.01), para j = 1, . . . , 5

Sendo:

wjj elemento j da diagonal da matriz W.

Foram geradas 100 replicas de series temporais de comprimento T=100 deste modelo.

Reportamos a saıda de uma unica replica, cujos resultados sao tıpicos daquilo que foi ob-

servado nas 100 replicacoes. Foram feitas 100000 iteracoes e os resultados foram obtidos

52

via Algoritmo 4.1.

O traco da cadeia gerada para σ2, via Algoritmo 4.1, e exibido na figura 4.2.1. A

figura 4.2.1 exibe a evolucao temporal da media a posteriori do preditor linear, junto aos

dados gerados na reta (esquerda) e aos dados no cırculo (direita).

Figura 4.1: Traco da cadeia de σ2 e valor verdadeiro (vermelho)

Figura 4.2: Dados × µ estimado (cinza)

53

Nota-se que parece ter sido possıvel fazer uma boa estimacao de σ2. Alem disso,

parece ter sido possıvel recuperar de forma satisfatoria as direcoes medias da serie tem-

poral gerada. Observa-se que em um grafico de serie temporal com suporte na reta, a

primeira impressao pode ser que o ajuste da direcao media nao tenha sido razoavel. Ao

se posicionar esses pontos (media a posteriori e observada), a cada tempo no cırculo,

ve-se que as direcoes ajustadas sao compatıveis com aquelas efetivamente observadas.

54

Capıtulo 5

Distribuicoes Circulares a partir de

Misturas

No capıtulo 4, tratamos de dois modelos dinamicos para dados circulares. Os modelos

adotados acomodam naturalmente a autocorrelacao de dados temporalmente observados,

bem como eventual nao estacionariedade nos processos geradores desses dados. Ainda

assim, tanto o modelo Von Mises quanto o Wrapped Normal pressupoem unimodalidade

no cırculo, a cada tempo, e distribuicao simetrica em torno da direcao media. Podem

existir situacoes em que haja multimodalidade de direcoes, em certo perıodo de tempo,

ou, ainda, assimetria da distribuicao circular. Distribuicoes de mistura podem acomodar

essas caracterısticas. Iniciamos este capıtulo com uma revisao sobre a teoria de distri-

buicoes de misturas, propondo uma versao circular desse tipo de modelo. Em seguida,

de forma a preservar o tratamento de autocorrelacao temporal, admitimos a existencia

de uma estrutura markoviana subjacente aos pesos das componentes da mistura. Sao

descritos os esquemas adotados para realizacao de inferencia bayesiana sobre os modelos

propostos e tais esquemas sao testados a partir de exercıcios com dados simulados.

55

5.1 Misturas de Distribuicoes: Fundamentos

Modelos de misturas sao, atualmente, aplicados em areas diversas como biometria,

genetica, medicina, marketing entre outras. Existem varias caracterısticas de distri-

buicoes de misturas que as fazem muito uteis na modelagem estatıstica.

Modelos estatısticos baseados em distribuicoes de misturas podem capturar muitas

caracterısticas especıficas de dados reais, como a multimodalidade, assimetria, curtose e

heterogeneidade. Sua extensao para modelos de mistura Markovianos e capaz de lidar

com muitas caracterısticas de series temporais reais como, por exemplo, dependencia de

longa duracao e heterocedasticidade condicional. Os modelos de misturas oferecem uma

extensao simples, mas muito flexıvel e util, de modelos estatısticos usuais. O preco pago

por essa flexibilidade e que a inferencia para estes modelos e mais complexa.

Muitos modelos estatısticos envolvem misturas de distribuicoes de alguma maneira.

O primeiro caso ja estudado que envolve, naturalmente, uma distribuicao de misturas,

pode ser encontrado em Feller (1943). Considere uma populacao constituida por L sub-

grupos, misturados aleatoriamente em proporcao aos seus tamanhos relativos η1, . . . , ηL.

Assume-se que o interesse esteja em alguma caracterıstica aleatoria Y que e heterogenea

entre os grupos e homogenea dentro de cada grupo. Dada a heterogeneidade entre os

grupos, Y tem uma distribuicao de probabilidade diferente em cada grupo, usualmente

assumida vinda de uma mesma famılia parametrica p(y|θ) com vetor parametrico θ di-

ferindo entre os grupos. Os grupos sao rotulados atraves de uma variavel indicadora

discreta S, que assume valores no conjunto 1, . . . , L. Quando amostra-se aleatoriamente

desta populacao, deve-se documentar nao so a variavel de interesse Y, mas tambem a

variavel indicadora de grupo S que denota de qual grupo veio esta observacao. A pro-

babilidade de amostrar do grupo S e denotada por ηS, e condicionalmente a S, Y e uma

variavel aleatoria com distribuicao p(y|θS), sendo θS o parametro referente ao grupo S.

A densidade conjunta p(y, S) e dada por:

56

p(y, S) = p(y | S)p(S) = p(y | θS)ηS.

Uma distribuicao de misturas finitas surge quando so se consegue observar a resposta

Y mas nao e possıvel obter o indicador de grupo S. A densidade marginal p(y) e dada

pela distribuicao de mistura a seguir:

p(y) =L∑S=1

p(y, S) = η1p(y | θ1) + . . .+ ηLp(y | θL).

Para esse modelo, tem-se:

µ = E(Y | υ) =L∑k=1

µkηk, (5.1)

σ2 = V (Y | υ) =L∑k=1

(µk + σ2k)ηk − µ2, (5.2)

onde µk = E[y | θk], σ2k = V [y | θk] e υ = (θ1, . . . , θL, η1, . . . , ηL).

A teoria para misturas de distribuicoes na reta descrita neste capıtulo baseia-se for-

temente em Fruhwirth-Schnatter (2006). Aliou-se a essa teoria o tratamento para dados

circulares advindos de uma mistura.

57

5.2 Estimacao Bayesiana para modelos de mistura

utilizando o MCMC

Uma distribuicao de misturas surge quando nao se sabe a qual grupo cada observacao

y pertence, ou seja, nao se sabe quais valores assumem as variaveis que denotam as

alocacoes S1, . . . , SN . Neste caso, pode-se pensar em um modelo de mistura como um

problema com dados incompletos introduzindo-se as alocacoes S como dados faltantes.

Para misturas de modelos pertencentes a famılia exponencial e possıvel fazer uma analise

conjugada quando as alocacoes S = (S1, . . . , SN) sao observadas (Fruhwirth-Schnatter

(2006)). A vantagem da introducao de S como dado faltante quando se trabalha com

misturas na famılia exponencial, e que condicionalmente a S, pode-se fazer uso de analise

conjugada e a estimacao dos parametros pode ser feita utilizando-se, por exemplo, o al-

goritmo MCMC.

A inferencia bayesiana para um modelo geral de mistura se baseia na estimacao do

vetor parametrico aumentado (S, υ), atraves da amostragem da distribuicao a poste-

riori p(S, υ | y), onde υ = (θ1, . . . , θL, η1, . . . , ηL) e assume-se que θi,∀i = 1, . . . , L sao

paramtros das distribuicoes pertencentes a famılia exponencial. A posteriori e encontrada

atraves do teorema de Bayes,

p(S, υ | y) ∝ p(y | S, υ)p(S | υ)p(υ). (5.3)

A amostragem da posteriori em (5.3) geralmente e feita atraves de metodos MCMC,

onde amostra-se υ condicionalmente a S e S e amostrado condionalmente a υ. As-

sim sendo, adotando-se distribuicoes a priori adequadas, as condicionais completas dos

parametros θi,∀i = 1, . . . , L sao conhecidas. A estrutura da condicional completa p(θ1, . . . ,

θL | S, y) depende da famılia de distribuicoes dos componentes da mistura e das dis-

58

tribuicoes a priori arbitradas. Se as componentes pertencem a famılia exponencial,

elicitando-se prioris convenientes, pode-se fazer uso de uma analise conjugada. Os

parametros θ1, . . . , θL sao independentes, dado S, e podem ser amostrados da condi-

cional completa p(θk | S, y), k = 1, . . . , L. Ademais, assumindo-se uma distribuicao a

priori Dirichlet D(e0, . . . , e0) para os pesos η, a distribuicao a posteriori de η dado S e

D(e1, . . . , eL), onde:

ek = e0 +Nk(S), k = 1, . . . , L, (5.4)

onde Nk(S) = # {Si = k} = # {i ∈ {1, . . . , L} | Si = k}.

O algoritmo a seguir resume o esquema de atualizacao.

Algoritmo 5.1: MCMC para um Modelo de Mistura

Para a estimacao dos parametros de um modelo de mistura, inicia-se o algoritmo com

valores iniciais S(0) e tem-se os seguintes passos:

1. Simulacao dos parametros condicional as alocacoes S(i):

• Amostra-se o vetor η(i) da distribuicao Dirichlet D(e1(S(i−1)), . . . , eL(S(i−1))),

onde ek(S(i−1)), k = 1, . . . , L e dado por (5.4).

• Amostra-se θ(i)1 , . . . , θ

(i)L da condicional completa p(θ1, . . . , θL | S(i−1), y).

59

2. Classifica-se cada observacao yj condicionalmente ao conhecimento de υ(i) = (θ(i)1 , . . . , θ

(i)L , η

(i)):

amostra-se Si de forma independente para j = 1, . . . , N , onde N e o numero de ob-

servacoes, da condicional completa p(Sj | υ(i), yj) dada por:

p(Sj | υ(i), yj) ∝ p(yj | θ(i)k )η

(i)k .

O Algoritmo 5.1 nao garante que a distribuicao a posteriori seja bem explorada e

deve-se ter cautela na utilizacao dos resultados obtidos via aplicacao do algoritmo expli-

citado. O comportamento das cadeias pode ser bastante imprevisıvel por consequencia

de um problema de identificacao de rotulos. Para ilustracoes do problema, Fruhwirth-

Schnatter (2006) fornece um exemplo com conjuntos de dados artificiais onde o Algoritmo

5.1 e aplicado e os resultados sao comparados a fim de ilustrar as consequencias deste

problema. Um algoritmo simples, mas eficiente para obter um amostrador que explora

a todo o espaco da distribuicao a posteriori, consiste em selecionar aleatoriamente uma

permutacao de rotulos ao final de cada iteracao do MCMC.

Algoritmo 5.2: MCMC com permutacao para estimacao em modelos de

misturas

1. Segue-se todos os passos do Algoritmo 5.1

2. Seleciona-se aleatoriamente uma das L! permutacoes ρs(1), . . . , ρs(L) dos rotulos.

Essa permutacao e aplicada a η(i), aos parametros de estados θ(i)1 , . . . , θ

(i)L e as

alocacoes S(i)

• Os pesos η(i)1 , . . . , η

(i)L sao substituıdos por η

(i)ρs(1), . . . , η

(i)ρs(L).

• Os parametros θ(i)k sao substituıdos por θ

(i)ρs(k) para k = 1, . . . , K

60

• As alocacoes S(i)j sao substituıdos por ρs(S

(i)j ), para j = 0, . . . , N .

5.3 Wrapped Misturas de Normais

Um modelo wrapped misturas de normais pode surgir, por exemplo, da necessidade

de se trabalhar com dados multimodais ou assimetricos situados no cırculo. Alguns con-

juntos de dados circulares multimodais interessantes podem ser encontrados em Fisher

e Lee (1994), que apresentam, por exemplo, um conjunto de dados referente aos tem-

pos de chegada de 254 pacientes em uma unidade de tratamento intensivo em 12 meses.

Alem da multimodalidade, tambem pode haver situacoes em que o conjunto de dados e

assimetrico. Para os casos em que se deseja modelar dados considerando uma possıvel

assimetria, distribuicoes de misturas tambem se mostram adequadas.

Para conjuntos de dados bimodais, Ravindran e Ghosh (2001) sugerem o uso de uma

distribuicao “wrapped”Beta. Wu et al. (2012) fazem uso de metodos bayesianos variaci-

onais para estimacao dos parametros de um modelo de mistura de normais. O metodo

utilizado tem a desvantagem de resultar em diferentes estimativas para os parametros do

modelo para diferentes valores iniciais arbitrados.

Utilizamos, para geracao de modelos de mistura no cırculo, um modelo de misturas

na reta que, por meio de uma variavel latente (spinning number), e transposto para o

cırculo. Tal quantidade denota o numero de voltas ao se mapear o modelo da reta ao

cırculo. A ideia, ja mencionada no capıtulo 4, e adotada em Jona-Lasinio et al. (2012).

Na elaboracao deste trabalho, a introducao da variavel latente k desempenhou um papel

61

crucial no processo de estimacao dos parametros do modelo wrapped misturas de dis-

tribuicoes normais, ja que dado k, tem-se uma mistura de distribuicoes normais e neste

caso, pode-se utilizar os esquemas de estimacao usuais para os parametros de um modelo

de misturas.

Denotando por y = (y1, . . . , yN) o conjunto de dados circulares observados, pode-se

utilizar o seguinte algoritmo para estimacao dos parametros de um modelo Wrapped

Misturas de Distribuicoes Normais:

Algoritmo 5.3: MCMC para Wrapped Misturas de Distribuicoes Nor-

mais

Inicia-se o algoritmo com vetores iniciais L-dimensionais µ0, σ20, η0 e S0 e na iteracao

i, executa-se os seguintes passos:

1. Calcula-se m(i)j = 1 +

⌊3σ

2(i−1)l

2π

⌋, j = 1, . . . , N e l ∈ {1, . . . , L} e o ındice que indica

a alocacao da variavel yj e bcc e o menor inteiro proximo a c.

2. Sorteia-se kj,i ∈{−m(i)

j , . . . , 0, . . . ,m(i)j

}, j = 1, . . . , N de acordo com as probabi-

lidades dadas por:

P (Kj,i = kj,i | µS, σS, xj, Sj,i) ≈ϕ((yi + 2kj,iπ − µS)/σS))∑m

kj,i=−m ϕ((yi + 2kj,iπ − µS)/σS))

3. Calcula-se xj,i = 2kj,iπ + yj,

62

4. Segue-se todos os passos do Algoritmo 5.2, considerando que θ(i)l = (µ

(i)l , σ

2(i)l ), l =

1, . . . , L.


Em um primeiro momento, estudou-se um modelo de misturas de normais com L = 2.

Como o foco da dissertacao consiste em trabalhar com modelos especificamente para da-

dos circulares, pensou-se em wrapped mistura de normais como uma extensao de modelos

de misturas de normais, ja que a distribuicao Wrapped Normal e obtida “enrolando-

se”uma distribuicao normal no cırculo. Para estimacao dos parametros de um “Wrap-

ped”Misturas de Normais, foi utilizado o Algoritmo 5.3.

Foram feitas 100 simulacoes de 100 conjuntos de dados artificiais a partir do seguinte

modelo:

Xi | µ1, µ2, σ21, σ

22, η1, η2 ∼ η1N(µ1, σ

21) + η2N(µ2, σ

22), i = 1, . . . , 100

Yi = Ximod(2π)

onde:

µ1 = 2;

µ2 = 4;

σ1 = 0.01;

σ1 = 0.25;

η1 = 0.3;

63

η2 = 0.7.

Utilizou-se as seguintes prioris para os parametros de interesse:

µ1 ∼ N(3, 1)

µ2 ∼ N(3, 1)

σ21 ∼ IG(2.0225, 0.153375)

σ22 ∼ IG(2.0225, 0.153375)

η1 ∼ β(1.5, 1)

Como e necessario impor priori informativa para σ2, a escolha das prioris para σ21

e σ22 foi feita de forma a preservar a relacao entre os parametros α e β da distribuicao

IG(α, β) utilizada em uma das aplicacoes de Jona-Lasinio et al. (2012), onde a moda e

a variancia de σ2 sao respectivamente 0.4 e 0.04.

Os resultados obtidos via Algoritmo 5.3 para uma das replicas de conjuntos de dados

artificiais estao representados a seguir.

Figura 5.1: Traco das cadeias de µ = (µ1, µ2)

64

Figura 5.2: Traco das cadeias de σ2 = (σ21, σ

22)

Pode-se notar que os tracos das cadeias de µ e σ2 parecem assumir os mesmos valores,

ou seja, parece que se conseguiu explorar o espaco da posteriori de forma balanceada.

Isto se deve a permutacao aleatoria de rotulos descrita no Algoritmo 5.2.

Figura 5.3: Media geral da mistura

65

Figura 5.4: Variancia geral da mistura

Nota-se tambem, que se conseguiu estimar bem a media geral da mistura, apesar do

mesmo nao ter acontecido com a variancia.

Calculou-se a media das medias a posteriori da mistura considerando-se cada replica

deste modelo, conforme exibe a figura 5.5.

Figura 5.5: Media das medias da mistura em cada replica e valor real da media da mistura

(vermelho)

Nota-se que foi possıvel estimar de forma satisfatoria o verdadeiro valor da media da

mistura (µ = 3.4) em todas as replicas. Alem disso, calculou-se a media das variancias

da mistura considerando todas as iteracoes em cada replica deste modelo.

66

Figura 5.6: Histograma da media das variancias da mistura em cada replica e valor real da

variancia da mistura (vermelho)

Pode-se perceber que apesar de aparentemente nao ter sido possıvel recuperar o ver-

dadeiro valor da variancia (σ2 = 0.38), houve alguma concentracao de massa na regiao

proxima ao valor verdadeiro. Deve-se ressaltar que a estimacao desse parametro pa-

rece ser complexa, ha dificuldade na identificacao de σ2 e do “spinning number”k como

observado em Jona-Lasinio et al. (2012).

5.4 Modelos de Misturas Markovianas

Nesta secao, a ideia e estender os modelos de misturas para o caso em que se de-

seja trabalhar com series temporais, ou seja, deseja-se tratar formalmente autocorrelacao

temporal. A extensao para casos em que os dados sao observados temporalmente e feita

a partir da substituicao do indicador latente discreto Si, introduzido como uma variavel

indicadora de alocacao para modelos de misturas, por uma cadeia de Markov escondida.

67

Essa solucao leva a uma classe de modelos nao lineares para series temporais que resolve

uma grande variedade de problemas em analises de series temporais.

Seja Yt, t = 1, . . . , T uma serie temporal de observacoes univariadas assumindo valores

no espaco amostral que deve ser discreto ou contınuo. Uma serie temporal usual pode

ser considerada como uma realizacao de um processo estocastico {Yt}Tt=1. Assume-se

que a distribuicao de probabilidade do processo estocastico Yt dependa da realizacao de

um processo estocastico discreto escondido St. O processo estocastico Yt e diretamente

observavel enquanto que St e um processo aleatorio latente que e observavel somente

indiretamente atraves do efeito que causa nas realizacoes Yt.

O processo escondido {St}Tt=0 e um processo a tempo discreto com espaco de estados

finito {1, . . . , L} que atende a seguinte condicao:

C1 St e uma cadeia de Markov irredutıvel e aperiodica, comecando da distribuicao

ergodica η = (η1, . . . , ηL):

P (S0 = k | ξ) = ηK .

As propriedades estocasticas de St sao suficientemente descritas por uma matriz de

transicao ξ com dimensao (L × L), onde cada elemento ξjk e igual a probabilidade de

transicao do estado j para o estado k:

ξjk = P (St = k | St−1 = j),∀j, k ∈ {1, . . . , L}

Para St, uma cadeia de Markov de primeira ordem homogenea com matriz de transicao

ξ, qualquer distribuicao de probabilidade η = (η1, . . . , ηL) que atende a propriedade de

68

invariancia

ξ′η = η (5.5)

e chamada distribuicao invariante de St.

No caso em que L=2, a resolucao de 5.5 leva as seguintes probabilidades invariantes,

η1 =ξ21

ξ21 + ξ12

, (5.6)

η2 =ξ12

ξ21 + ξ12

. (5.7)

A importancia pratica da distribuicao invariante para a cadeia de markov St e que se

no tempo t-1 os estados St−1 sao advindos de uma distribuicao invariante η de ξ, entao

os estados de St sao mais uma vez advindos de η.

Seja τ(θ) uma famılia de distribuicoes parametricas, definida no espaco γ que pode

ser discreto ou contınuo, com densidade p(y | θ), indexada por um parametro θ ∈ Θ.

Seja {Yt}Tt=1 uma sequencia de variaveis aleatorias que depende de {St}Tt=0 da seguinte

forma:

C2 Condicionalmente ao conhecimento de S = (S0, . . . , ST ), as variaveis aleatorias

Y1, . . . , YT sao estocasticamente independentes. Para cada t ≥ 1, a distribuicao de Yt e

uma das L distribuicoes τ(θ1), . . . , τ(θL), dependendo do estado de St:

69

Yt | St = k ∼ τ(θk).

Para um processo estocastico {St, Yt}Tt=1 atendendo as condicoes C1 e C2, a distri-

buicao marginal de Yt e:

p(yt | υ) =L∑k=1

P (yt | St = k, υ)P (St = k | υ)

Como a cadeia de Markov St e estacionaria e a variavel aleatoria Yt | St = k tem

densidade p(yt | θk), obtem-se que a distribuicao de Yt e uma mistura finita de τ(θk) com

as probabilidades ergodicas η = (η1, . . . , ηL) sendo os pesos da mistura:

p(yt | υ) =L∑k=1

p(yt | θk)ηk,

e a media e a variancia sao dadas pelas equacoes (5.1) e (5.2).

Assim, o processo Yt e dito gerado de uma mistura de Markov finita das distribuicoes

τ(θ). Yt e estacionario e o processo e autocorrelacionado, uma diferenca importante do

modelo de misturas usual, ja que o mesmo produz sequencias de variaveis aleatorias in-

dependentes.

Para um modelo de misturas markovianas de dois estados, a funcao de autocorrelacao

e dada por:

ρYt(h | υ) =η1η2(µ1 − µ2)2

σ2λh, h = 1, 2, ...

onde λ = ξ11 − ξ21 e o segundo autovalor da matriz de transicao ξ.

70

O modelo de mistura markoviana pode ser aplicado em diversas areas, incluindo biolo-

gia, economia, financas entre outras. Diferentes terminologias sao artribuıdas a modelos

baseados em cadeias de Markov escondidas. Sao usados, por exemplo, os termos ”Markov

Switching Model”e Modelos de Markov Escondidos.

5.4.1 Estimacao Bayesiana para modelos de misturas markovi-

anas utilizando o MCMC

A inferencia sobre St, dadas as informacoes yT = (y1, ., ., .yT ) a respeito do processo

Yt observavel para todo t ≤ T , e expressa em termos da distribuicao de probabilidade

P (St = l | yt, ), l = 1, . . . , L. O significado preciso destas probabilidades depende da

relacao entre t e T. As probabilidades P (St = l | yt, ) com t > T sao as preditivas, ja

as probabilidades P (St = l | yt, ) com t = T sao as probabilidades filtradas. As proba-

bilidades P (St = l | yt, ), com t < T sao as probabilidades suavizadas. Problemas de

estimacao conhecidos como o filtro de Kalman e suavizador ocorrem para modelos com

espaco de estados contınuo. Os metodos de filtragem e suavizacao desenvolvidos para

cadeias de Markov escondidas devem ser vistos como uma versao discreta do filtro de

Kalman, pois uma cadeia de Markov escondida pode ser pensada como um modelo de

espaco de estados com espaco de estados discreto (Hamilton (1994)).

Algoritmo 5.4: Filtragem dos estados

Para um modelo de espaco de estados, o problema de filtragem consiste em se fazer

71

inferencia sobre os estados, dadas as observacoes ate o tempo t. Devido ao suporte dis-

creto da variavel St, e possıvel encontrar a distribuicao filtrada completa P (St = l | yt, υ)

para todas as realizacoes possıveis l ∈ {1, . . . , L} de St, para t = 1, . . . , T , da seguinte

forma:

Previsao um passo a frente para St

P (St = l | yt−1, υ) =K∑k=1

ξ∗kl(t− 1)P (St−1 = k | yt−1, υ), para l = 1, . . . , L

onde ξ∗kl(t − 1) = P (St = l|St−1 = k, yt−1, υ e reduz-se a probabilidade de transicao

ξkl no caso de cadeias de Markov homogeneas.

Filtragem para St

P(St = l | yt, υ) = p(yt|St=l,yt−1,υ)P (St=l|yt−1,υ)p(yt|yt−1,υ)

,

onde

p(yt | yt−1, υ) =K∑k=1

p(yt | St = l, yt−1, υ)P (St = k | yt, υ).

Quando t=1, inicia-se o filtro com a distribuicao P (S0 = k | ξ). Algumas distribuicoes

iniciais sao sugeridas em Fruhwirth-Schnatter (2006). Para t=1:

72

P (S1 = l | y0, υ) =K∑k=1

ξ∗kl(0)P (S0 = k | ξ),

onde ξ∗kl(0) = P (S1 = l | S0 = k, υ) reduz-se a probabilidade de transicao ξkl para

cadeias de Markov homogeneas.

Algoritmo 5.5: Suavizacao dos estados

O Algoritmo 5.4 leva a distribuicao de probabilidade de St dada a informacao yt ate

o tempo t. Quando se trabalha com series temporais, calculos para as probabilidades

de St que incorporem toda a informacao y = (y1, . . . , yT ) devem ser preferidos quando

possıvel. Tais calculos das probabilidades sao realizados atraves das probabilidades sua-

vizadas com base em toda amostra P (St = l | y, υ).

O Algoritmo 5.5 funciona como uma suavizacao depois da utilizacao do Algoritmo

5.4. Esse processo e analogo ao utilizado no FFBS e tem as seguintes etapas:

1. O Algoritmo 5.4 deve ser utilizado para a obtencao das probabilidades filtradas

P (St = l | yt, υ), l = 1, . . . , L para cada t = 1, . . . , T .

2. Inicia-se o processo de suavizacao a partir de T=t, sendo a distribuicao P (ST | y, υ)

igual a distribuicao filtrada em t=T.

3. Para cada t = T − 1, . . . , t0 as probabilidades suavizadas P (St = l | y, υ), l =

1, . . . , L sao calculadas da seguinte maneira:

73

P (St = l | y, υ) =K∑k=1

ξ∗lk(t)P (St = l | yt, υ)P (St+1 = k | y, υ)∑Kj=1 ξ

∗kl(t)P (St = j | yt, υ)

, (5.10)

onde ξ∗lk(t) = P (St+1 = k | St = l, yt, υ) sao simplificadas para a probabilidade de

transicao ξlk no caso de cadeias de Markov homogeneas.

A suavizacao termina no tempo t=1 se S0 for determinıstico. Para um valor inicial

aleatorio de S0, a suavizacao termina em t0 = 0 e a probabilidade P (S0 = l | y, υ)

sobre o valor inicial e atualizada com base na serie temporal observada. Neste

ultimo passo, (5.10) se reduz a

P (S0 = l | y, υ) =K∑k=1

ξ∗lk(0)P (S0 = l | ξ)∑Kj=1 ξ

∗lk(0)P (S0 = j | ξ))

,

onde P (S0 = l | ξ) e a distribuicao inicial e ξ∗lk(0) = P (S1 = k | S0 = l, υ) e a

probabilidadede transicao ξlk para cadeias de Markov homogeneas. Para sugestoes

de distribuicoes iniciais, Fruhwirth-Schnatter (2006) lista algumas possibilidades.

Amostragem da matriz de transicao ξ

O algoritmo para amostragem da matriz de transicao ξ da condicional completa de

p(ξ | S) para determinada trajetoria de S depende das suposicoes feitas a respeito

da distribuicao p0 para o valor inicial S0. Assumindo que S0 e ξ sao independentes

e que as linhas da matriz ξ sao independentes a priori e tem distribuicao Dirichlet,

ξj ∼ D(ej1, . . . , ejL), j = 1, . . . , L, entao as linhas ξj permanecem independentes a poste-

riori, cada uma com distribuicao Dirichlet:

74

ξj ∼ D(ej1 +Nj1(S), . . . ,jL +NjL(S)), j = 1, . . . , L,

onde Njk(S) e o numero de transicoes de j para k.

Algoritmo 5.6: MCMC para modelos de misturas markovianas

Para a estimacao dos parametros em um modelo de misturas markovianas, inicia-se

o processo em algum estado inicial S(0) e itera-se os seguintes passos:

1. Simulacao dos parametros condicional aos estados Si−1:

• Amostra-se a matriz de transicao ξ da condicional completa p(ξ | S(i−1))

• Amostram-se os parametros do modelo θ1, . . . , θL da condicional completa

p(θ1, . . . , θL | y, S(i−1))

2. Amostram-se os estados condicionalmente a υ(i), amostrando-se S da condicional

completa p(S | υ(i), y), da seguinte forma:

• Utiliza-se o Algoritmo 5.4 para encontrar as probabilidades filtradas condici-

onal a υ.

• Amostra-se S(i)T da distribuicao de probabilidade filtrada P (ST | yT , υ).

• Para T − 1, . . . , 0, amostra-se S(i)t da distribuicao condicional P (St = j |

S(i)t+1, y

t, υ) dada por:

P (St = j | S(i)t+1, y

t, υ) =ξ∗j,lm(t)P (St = j | yt, υ)∑Kk=1 ξ

∗k,lm

(t)P (St = k | yt, υ)

75

onde ξ∗j,lm(t) = P (St+1 = lm | St = j, υ, yt) e ξ∗j,lm para cadeias de Markov

homogeneas St e lm e o estado de S(i)t+1.

O desempenho do Algoritmo 5.6 e de certa forma imprevisıvel e pode se prender a

unica regiao modal da distribuicao de mistura markoviana a posteriori, ou pode alternar

aleatoriamente entre diferentes regioes modais causando um problema de identificacao de

rotulos. Na maioria dos casos, o algoritmo utilizado nao explora bem a distribuicao de

mistura markoviana a posteriori, algo essencial ao se amostrar quando estima-se as poste-

rioris marginais. Um algoritmo simples, mas eficiente, sugerido em Fruhwirth-Schnatter

(2001) pode ser utilizado para resolver tal problema.

Algoritmo 5.7: MCMC com permutacao para estimacao em modelos de

misturas markovianas

1. Segue-se todos os passos do Algoritmo 5.6

2. Seleciona-se aleatoriamente uma das L! permutacoes ρs(1), . . . , ρs(L) dos rotulos.

Essa permutacao e aplicada a ξ(i), aos parametros de estados θ(i)1 , . . . , θ

(i)L e aos

estados S(i)

• Cada elemento ξ(m)jk da matriz de transicao simulada e substituıdo por ξ

(m)ρs(j),ρs(k),

para j, k = 1, . . . , L.

• Os parametros θ(i)k sao substituıdos por θ

(i)ρs(k) para k = 1, . . . , K

• Os estados Sit sao substituıdos por ρs(S(i)t ), para t = 0, . . . , T .

76

5.5 Wrapped Misturas Markovianas de Distribuicoes

Normais

Denotando por y = (y1, . . . , yN) o conjunto de dados circulares observados, pode-se

utilizar o seguinte algoritmo para estimacao dos parametros de um modelo Wrapped

Misturas Markovianas de Distribuicoes Normais:

Algoritmo 5.8: MCMC para estimacao dos parametros de Wrapped Mis-

turas Markovianas de Distribuicoes Normais

Inicia-se o algoritmo com valores µ0, σ20, e S0 e na iteracao i, executa-se os seguintes

passos:

1. Calcula-se m(i)j = 1 +

⌊3σ

2(i−1)l

2π

⌋, j = 1, . . . , N e l ∈ {1, . . . , L} e o ındice que indica

a alocacao da variavel yj.

2. Calcula-se kj,i ∈{−m(i)

j , . . . , 0, . . . ,m(i)j

}, j = 1, . . . , N de acordo com as probabi-

lidades dadas por:

P (Kj,i = kj,i | µS, σS, yj, Sj,i) ≈ϕ((yi + 2kj,iπ − µS)/σS))∑m

kj,i=−m ϕ((yi + 2kj,iπ − µS)/σS))

3. Calcula-se xj,i = 2kj,iπ + yj.

4. Segue-se todos os passos do Algoritmo 5.7, considerando que θ(i)l = (µ

(i)l , σ

2(i)l ), l = 1, . . . , L

77


O estudo deste tipo de modelo em particular iniciou-se atraves da aplicacao direta

da metodologia descrita em Fruhwirth-Schnatter (2001). Como se tem interesse em tra-

balhar com series temporais cuja variavel resposta assuma valores em um intervalo de

comprimento 2π, mais uma vez foi necessario adaptar a teoria existente para se traba-

lhar com dados circulares. A adaptacao consistiu em aplicar conjuntamente as ideias

encontradas em Jona-Lasinio et al. (2012) e em Fruhwirth-Schnatter (2006). O metodo

desenvolvido para a estimacao dos parametros neste modelo deu origem ao Algoritmo 5.8,

algoritmo que foi utilizado na estimacao dos parametros do modelo Wrapped Misturas

Markovianas de Distribuicoes Normais.

Foram feitas 100 simulacoes do seguinte modelo:

Xt | St ∼ N(µSt , σ2St), t = 1, . . . , 100;

Yt = Xtmod(2pi)

onde:

(µSt | St = 1) = 2;

(µSt | St = 2) = 4;

(σSt | St = 1) = 0.01;

(σSt | St = 2) = 0.25;

Utilizou-se as seguintes prioris para os parametros de interesse:

µ1 ∼ N(3, 1)

µ2 ∼ N(3, 1)

σ21 ∼ IG(2.0225, 0.153375)

78

σ22 ∼ IG(2.0225, 0.153375)

ξ,1 ∼ β(1.5, 1)

ξ,2 ∼ β(1.5, 1)

Como e necessario impor priori informativa para σ2, a escolha das prioris para σ21 e

σ22, mais uma vez, foi feita de forma a preservar a relacao entre os parametros α e β da

distribuicao IG(α, β) utilizada em uma das aplicacoes de Jona-Lasinio et al. (2012), onde

a moda e a variancia de σ2 sao respectivamente 0.4 e 0.04.

Os resultados obtidos via Algoritmo 5.8 para uma das replicas de conjuntos de dados

artificiais estao representados a seguir.

Figura 5.7: Traco das cadeias de µ = (µ1, µ2)

79

Figura 5.8: Traco das cadeias de σ2 = (σ21, σ

22)

Pode-se notar que os tracos das cadeias de µ e σ2 parecem percorrer os mesmos va-

lores, ou seja, parece que conseguiu-se passear pela posteriori de forma balanceada. Isto

se deve a permutacao aleatoria de rotulos descrita no Algoritmo 5.7.

Figura 5.9: Media geral da mistura

80

Figura 5.10: Variancia geral da mistura

Nota-se tambem, que conseguiu-se estimar bem a media geral da mistura, apesar do

mesmo nao ter acontecido com a variancia.

Calculou-se a media das medias a posteriori da mistura considerando-se todas as

replicas deste modelo:

Figura 5.11: Media das medias da mistura em cada replica e valor real da media da mistura

(vermelho)

Nota-se que foi possıvel estimar de forma satisfatoria o verdadeiro valor da media da

mistura (µ = 3.4) considerando-se todas as replicas. Alem disso, calculou-se a media das

variancias da mistura considerando todas as iteracoes em cada replica deste modelo.

Observou-se grande incerteza associada a estimacao da variancia da mistura, conforme

81

Figura 5.12: Histograma da media das variancias da mistura em cada replica e valor real da

variancia da mistura (vermelho)

ja esperado, de cordo com relato em Jona-Lasinio et al. (2012), sobre a dificuldade para

estimacao desse parametro.

82

Capıtulo 6

Aplicacao a dados reais

A fim de ilustrar os metodos desenvolvidos no presente trabalho, fez-se uma aplicacao

destes metodos a um conjunto de dados reais utilizando os modelos abordados. O con-

junto de dados consite em series temporais com 1126 observacoes referentes a direcao dos

ventos, velocidade dos ventos, temperatura umidade e pressao em diversas estacoes da

Catalunha de 1 de agosto de 2012 a 1 de agosto de 2015. Mais especificamente, foram

utilizados somente as observacoes de uma estacao em particular situada a 650 metros de

altitude em L’Ametlla del Valles, um municıpio da Espanha na provıncia de Barcelona.

As series observadas estao representadas graficamente na figura 6.1.

83

Figura 6.1: Conjunto de dados reais

84

O estudo da direcao dos ventos e importante para diversas areas, por exemplo, pode-

se querer saber o efeito da direcao dos ventos na dispersao de poluentes nas cidades, ou

estudar o clima atraves da direcao dos ventos. Alguns estudos relacionam direcao dos

ventos e temperatura, umidade, pressao e a velocidade dos ventos. Como dispoe-se de

um conjunto de dados onde essas variaveis estao presentes, fez-se uso das mesmas como

variaveis explicativas para a direcao media dos ventos.

A utilizacao de componentes sazonais nos modelos aplicados foi motivada pela ob-

servacao do grafico da direcao media em cada mes (considerando uma serie temporal de

36 meses), que parece evidenciar a existencia de um ciclo anual. Pode-se perceber, por

exemplo, que as direcoes medias de agosto de 2012, 2013 e 2014 parecem apontar para

uma mesma direcao. Alem disso, nota-se que ao longo do ano a direcao media a cada mes

passa de sudoeste a sudeste, e em julho a direcao media volta a apontar para a direcao

sudoeste completando assim, um ciclo anual de sazonalidade.

Figura 6.2: Diagrama de rosas com a direcao media de cada mes em 2012, 2013 e 2014.

Observando-se um histograma circular das direcoes dos ventos em um determinado

mes em certo ano, percebe-se que parece haver nao uma, mas possivelmente duas ou mais

direcoes preferenciais, justificando assim, o uso de um modelo wrapped de misturas de

distribuicoes normais.

85

Figura 6.3: Histograma circular das direcoes dos ventos em cada mes de 2012, 2013 e 2014

Trabalhou-se com os seguintes modelos:

Modelo 1: Wrapped Normal estatico

Yt ∼ WN(µ, σ2)

Nota-se que este modelo prescinde do tratamento da autocorrelacao temporal e supoe

que a distribuicao da direcao dos ventos e unimodal e simetrica em relacao a media.

Modelo 2: Wrapped Normal dinamico

Yt ∼ WN(Ftθt, σ2)

86

θt = Gtθt−1 + wt, wt ∼ N(0,W )

θt = (θ1t θ2t θ3t θ4t θ5t θ6t θ7t)

Ft = (1 1 0 Tt Ut Pt V Vt )

onde:

Tt = temperatura no tempo t

Ut = umidade no tempo t

V Vt = velocidade dos ventos no tempo t

Pt = pressao no tempo t

Gt =

1 0 0 0 0 0 0

0 −sen( 2πt365

) cos( 2πt365

) 0 0 0 0

0 cos( 2πt365

) sen( 2πt365

) 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 1 0 0

0 0 0 0 0 1 0

0 0 0 0 0 0 1

Este modelo trata da autocorrelacao inerente a series temporais e supoe que distri-

buicao da direcao dos ventos e simetrica e unimodal ao redor da media a cada tempo t.

87

Modelo 3: Wrapped Misturas de Distribuicoes Normais

Xi | µ1, µ2, σ21, σ

22, η1, η2 ∼ η1N(µ1, σ

21) + η2N(µ2, σ

22), i = 1, . . . , 100

Yi = Ximod(2pi)

Esse modelo captura eventual assimetria e multimodalidade no cırculo mas nao trata

a autocorrelacao inerente a series temporais.

Modelo 4: Wrapped Misturas Markovianas de Distribuicoes Normais

Yt | St ∼ N(µSt , σ2St), t = 1, . . . , 100;

onde:

St = 1 ou St = 2, ou seja, L=2.

Esse modelo captura assimetria e multimodalidade no cırculo alem de tratar da au-

tocorrelacao temporal.

Fez-se no mınimo 100000 iteracoes para cada modelo e, apos convergencia, calculou-se

o erro absoluto medio em cada uma das aplicacoes, com tal erro dado pelo comprimento

de arco entre direcao media estimada a posteriori e direcao observada. Obteve-se os

seguintes valores:

88

Erro Absoluto Medio

WN estatico WN dinamico WMM WMMM

1.009541 0.5134178 1.479098 0.980327

O menor erro absoluto medio foi obtido para o modelo 2. Para esse modelo, obteve-se

seguinte o grafico da resposta media versus a serie observada:

Figura 6.4: Serie de direcao dos ventos observada e resposta media (vermelho)

Nota-se que, levando-se em consideracao o posicionamento desses pontos no cırculo

unitario, parece ter sido possıvel acompanhar a trajetoria da serie observada.

89

Capıtulo 7

Conclusoes e trabalhos futuros

A proposta deste trabalho e apresentar, criar e analisar modelos e metologias para

se trabalhar com dados circulares. Os modelos apresentados sao os modelos mais co-

mumente utilizados na analise de dados desta natureza. Por este motivo, ressalta-se a

importancia de se ter metodos disponıveis para a estimacao dos parametros destes mo-

delos. O artigo Jona-Lasinio et al. (2012) forneceu a ideia central para a obtencao de

metodos bayesianos de estimacao para se trabalhar com inferencia bayesiana em modelos

circulares baseados em versoes “wrapped”de modelos definidos na reta. Apesar da ideia

de introducao da variavel auxiliar k (“Sppinning Number”) ja ter sido abordada ante-

riormente, como por exemplo, em Fisher e Lee (1994) e Coles (1998), a introducao de

k como meio de possibilitar a utilizacao de metodos de estimacao bayesiana com teoria

ja bem estabelecida abordada em Jona-Lasinio et al. (2012), consistiu na principal ideia

utilizada na elaboracao deste estudo.

Notou-se que as metodologias ja disponıveis na literatura para estimacao bayesiana

em modelos para dados circulares temporalmente observados parecem limitadas. Por isso,

acredita-se ter sido importante desenvolver, com base nos metodos e modelos disponıveis,

alternativas para analise de dados desta natureza. Os metodos e modelos abordados sao

flexıveis e permitem a modelagem e estimacao em modelos que compreendam regresso-

ras, efeitos sazonais, modelos com tratamento de autocorrelacao temporal, assimetria e

90

multimodalidade.

Inicialmente, estudou-se o modelo Von Mises bem como a estimacao dos parametros

deste modelo. Para se trabalhar com series temporalmente observadas, utilizou-se as

prioris sugeridas em Guttorp e Lockhart (1988) obtendo-se, assim, condicionais com-

pletas conhecidas para a direcao media µt, t = 1, . . . , T . Alem disso, para a estimacao

do parametro de concentracao κ (trabalhou-se com a transformacao ψ = log(κ)e com

o algoritmo de Metropolis-Hastings). A partir de um estudo simulado, notou-se que a

estimacao de κ e complexa e que extensoes do modelo Von mises que possibilitem uma

maior flexibilidade nao sao triviais.

Passou-se a adotar os chamados Wrapped Models. Por ser um modelo bastante utili-

zado, trabalhou-se com o moodelo Wrapped Normal, a partir da utilizacao de uma ideia

abordada em Jona-Lasinio et al. (2012). A ideia central consiste em fazer uso de uma

variavel auxiliar e, a partir disso, utilizar toda a teoria disponıvel ja bem estabelecida

para fazer estimacao dos parametros de um modelo normal. Desevolveu-se um metodo

para estimacao em modelos Wrapped Normal a partir da utilizacao do esquema de in-

troducao de vaiaveis latentes abordados em Jona-Lasinio et al. (2012). Conseguiu-se

obter bons resultados a partir da utilizacao do metodo desenvolvido, tendo sido possıvel

trabalhar com modelos que incluam sazonalidade e regressoras.

Ate este momento, havia-se trabalhado com o modelo Von Mises e Wrapped Normal.

Tais modelos sao simetricos e, portanto, nao sao adequados para se trabalhar com deter-

minados conjuntos de dados. Buscando uma maior flexibilidade, comecou-se a estudar

modelos de misturas. Esses modelos tem a vantagem de serem flexıveis podendo ser apli-

cados a conjuntos de dados que parecam apresentar assimetria ou multimodalidade. Para

aplicacao desses modelos a dados circulares, a ideia da introducao da variavel latente k,

mais uma vez, se mostrou necessaria, uma vez que nao se conhece teoria bayesiana para

estimacao de parametros em modelos wrapped misturas de normais. Com a introducao

de k no problema,pode-se utilizar os metodos usuais de estimacao para os parametros de

91

um modelo de misturas. Neste contexto, a contribuicao deste trabalho foi o desenvolvi-

mento de um metodo de estimacao em modelos wrapped misturas de normais, baseado

na introducao da variavel auxiliar k e nos metodos de estimacao para os parametros

de misturas de normais, encontrados em Jona-Lasinio et al. (2012). Fez-se um estudo

simulado e o esquema de estimacao bayesiano em modelos wrapped misturas de normais

desenvolvido se mostrou eficiente na estimacao dos parametros de um wrapped misturas

de normais.

Visando uma maior flexibilidade sem prescindir do tratamento de autocorrelacao tem-

poral, decidiu-se estudar os modelos de misturas Markovianas. Estes modelos tratam da

autocorrelacao presente em series temporais atraves da inclusao de uma estrutura Marko-

viana em St, as alocacoes em cada tempo t. Para estes modelos, assim como para modelos

de misturas, estao disponıveis metodos de estimacao bayesianos em Fruhwirth-Schnatter

(2006). No caso em que se deseja trabalhar com observacoes circulares utilizando modelos

de misturas markovianas, foi necessara, mais uma vez, a utilizacao da variavel auxiliar

k, como forma de possibilitar o uso de esquemas de estimacao bayesianos ja conhecidos

para a estimacao dos parametros dos modelos que chamamos neste trabalho de wrapped

misturas markovianas. O metodo desenvolvido no presente trabalho se mostrou eficiente

para estimacao dos parametros do modelo proposto, e a partir da utilizacao do mesmo,

foi possıvel obter bons resultados.

Por fim, aplicou-se toda metodologia estudada e desenvolvida em um conjunto de

dados reais referente a direcao dos ventos em estacoes de medicao na Catalunha. Tal

aplicacao visa ilustrar o uso dos metodos e modelos aqui desenvolvidos para estimacao

dos parametros nos casos abordados.

Como possıveis continuacoes deste trabalho, pode-se adicionar uma componente espa-

cial nos modelos estudados. Com isso, pode-se modelar, por exemplo, todas as estacoes

obersavadas na Catalunha, considerando alem do tempo, cada localizacao no espaco.

Ademais, alem dos modelos abordados neste estudo, pode-se trabalhar tambem com

92

modelos discretos, como wrapped poisson ou versoes wrapped de outros modelos na

famılia exponencial, e possıveis extensoes dinamicas para estes modelos. Pode-se tambem

estudar outros metodos de estimacao, como por exemplo, filtro de partıculas. Ou-

tras aplicacoes tambem sao passıveis de serem abordadas, por exemplo, aplicacoes a

obervacoes periodicas como no estudo de criminalidade em certa cidade ou entrada de

pacientes em uma emergencia de um hospital.

93

Apendice A

Metodo Bayessiano de Estimacao

para Modelos Von Mises

A.1 Modelo Von Mises Estatico

Para a aplicacao do metodo sugerido em Damien and Walker (1999), fez-se um

exercıcio simulado gerando 100 replicas de conjuntos de dados com 100 observacoes do

seguinte modelo:

Yt ∼ vM(0, 3).

Utilizou-se a priori sugerida em Guttorp and Lockhart(1988):

f(µ, κ) ∝ {I0 (k)}−c exp {kR0cos (µ− µ0)}

com µ0 = 0, κ = 5 e R0 = 5. Os resultados obtidos para algumas das replicas estao

listados abaixo:

94

Figura A.1: Tracos da cadeia de µ utilizando o metodo encontrado em Damien and Walker

(1999)

Figura A.2: Tracos da cadeia de κ utilizando o metodo encontrado em Damien and Walker

(1999)

95

(a) Histograma de µ estimado e µ

real(vermelho)

(b) Histograma de κ estimado e κ

real(verde)

Figura A.3: Estimacao dos parametros do modelo Von Mises em uma das replicas utili-

zando o algoritmo proposto por Damien e Walker (1999).

Ja na aplicacao do metodo MCMC programado de forma independente e aplicado a

um conjunto de dados com 100 observacoes artificiais geradas do mesmo modelo::

Yt ∼ vM(0, 3)

utilizou-se as seguintes prioris:

µ ∼ υM(2, 1);

κ ∼ Gama(6, 0.5).

Obteve-se os seguintes resultados:

96

(a) Histograma de µ estimado e µ

real(vermelho)

(b) Histograma de κ estimado e κ

real(verde)

Figura A.4: Estimacao dos parametros do modelo Von Mises utilizando o metodo

MCMC programado de forma independente.

Pode-se notar que parece ter sido possıvel obter melhores estimativas, principalmente

para o parametro de concentracao κ, utilizando o MCMC programado de forma indepen-

dente. Porem, deve-se ressaltar que e indispensavel fazer um estudo mais profundo para

que essas afirmacoes sejam validadas.

A.2 Modelo Von Mises Dinamico

A.2.1 Condicionais Completas

O modelo de interesse e da seguinte forma:

Yt ∼ vM(µt, k), k desconhecido

µt ∼ vM(µt−1, ck)

µ0 ∼ vM(m0, ck)

Para este modelo, foi usada uma extensao das ideias encontradas em Guttorp and

Lockhart [1988]. As condicionais completas dos parametros do vetor de estados po-

97

dem ser encontradas da seguinte forma:

• µ = (µ0, . . . , µT ):

p(µ0, µ1, . . . , µT | y1, . . . , yT , k) ∝∏T

t=1 f(Yt | µt, k)∏T

i=1 p(µi | µt−1)p(µ0) ∝

exp{k∑T

t=1 cos(Yt − µt) + c× k∑T

i=1 cos(µt − µt−1) + c× k × cos(µ0 −m0))} =

exp{k[∑T

t=1(cos(Yt)cos(µt) + sen(Yt)sen(µt)) + c∑T

i=1(cos(µi)cos(µi−1) +

sen(µi)sen(µi−1)) + c(cos(µ0)cos(m0) + sen(µ0)sen(m0))]} =

exp{k[∑T

t=1(cos(µt)(cos(Yt) + c(µt−1)) + sen(µt)(sen(Yt)− c× sen(µt−1))) +

c(cos(µ0)cos(m0) + sen(µ0)sen(m0))]}

(A.1)

• µ0:

p(µ0 | µ1, . . . , µT , y1, . . . , yT , k) ∝

exp{c× k[cos(µ0)(cos(m0) + cos(µ1)) + sen(µ0)(sen(m0) + sen(µ1))]} (A.2)

• µt, t = 1, . . . T − 1:

p(µt | µ0, . . . , µt−1, µt+1, . . . , µT , y1, . . . , yT , k) ∝ exp{k[cos(µt)(cos(Yt) + c(cos(µt−1) +

cos(µt+1)))]}+ sen(µt)(sen(Yt) + c(sen(µt−1)sen(µt+1))), t = 1, . . . , T − 1 (A.3)

• µT :98

p(µT | µ0, . . . , µT−1, y1, . . . , yT , k) ∝

exp{k[cos(µT )(cos(yT ) + c× cos(µT−1)) + sen(µT )(sen(yT ) + c× sen(µT−1))]} (A.4)

Definindo:

ctcos(ψt) =

c(cos(m0) + cos(µ1)), t=0

cos(Yt) + c(cos(µt−1) + cos(µt+1)), t=1, . . . , T-1

cos(yT ) + c× cos(µT−1), t=T

ctsen(ψt) =

c(sen(m0) + sen(µ1)), t=0

sen(Yt) + c(sen(µt−1) + sen(µt+1)), t=1, . . . , T-1

sen(yT ) + c× sen(µT−1), t=T

Tem-se:

p(µ0, µ1, . . . , µT | y1, . . . , yT , k) ∝T∏t=0

exp{ctk[cos(µt)cos(ψt) + sen(µt)sen(ψt)]}

=T∏t=0

exp{ct × k[cos(µt − cosψt)]}

onde tg(ψt) = btat⇒ ψt = arctan( bt

at) e ct =

√a1t + b2

t

Esquema gibbs para estimacao dos parametros

Em cada iteracao i gera-se:

99

µ(i)0 | µ

(i−1)1 , . . . , µ

(i−1)T , y1, . . . , yT , k ∼ VM(ψ0, k × c0)

...

µ(i)T | µ

(i)0 , . . . , µ

(i)T−1, y1, . . . , yT , k ∼ VM(ψT , k × cT )

A.2.2 Resultados

Gerou-se 200 observacoes do modelo:

Yt ∼ vM(µt, 5)

µt ∼ vM(µt−1, 2)

µ0 ∼ vM(3, 2)

As prioris utilizadas foram:

µ0 ∼ VM(0, 2)

κ ∼ G(3, 0.5)

Os resultados obtidos foram:

Figura A.5: Cadeias de µt, para t = 25, 50, 75, 100

100

Figura A.6: Cadeia de κ

Nota-se que o parametro κ da Von Mises e parametro de concentracao, logo, pelo

traco das cadeiasde κ, pode-se dizer que o algoritmo utilizado no processo de estimacao

superestima a dispersao dos dados gerados. Deve-se ressaltar que a estimacao de κ parece

complicada, e as complicacoes na estimacao deste parametro podem ser encontrada em

Damien e Walker (1999) e Gill e Hangartner (2010).

Figura A.7: Dados gerados(preto) × µ estimado

101

Apesar de nao ter sido possıvel estimar bem o parametro de concentracao κ, nota-se

que µ estimado parece acompanhar a trajetoria da serie gerada.

102

Referencias Bibliograficas

Coles, S. (1998) Inference for circular distributions and processes. Statistics and Compu-

ting, 8, 105–113.

Damien, P. e Walker, S. (1999) A full bayesian analysis of circular data using the von

mises distribution. Canadian Journal of Statistics, 27, 291–298.

Downs, T. D. e Mardia, K. (2002) Circular regression. Biometrika, 89, 683–698.

Feller, W. (1943) On a general class of”contagious”distributions. The Annals of mathe-

matical statistics, 14, 389–400.

Fisher, N. e Lee, A. (1994) Time series analysis of circular data. Journal of the Royal

Statistical Society. Series B (Methodological), 327–339.

Fruhwirth-Schnatter, S. (2001) Markov chain monte carlo estimation of classical and dy-

namic switching and mixture models. Journal of the American Statistical Association,

96, 194–209.

Fruhwirth-Schnatter, S. (2006) Finite mixture and Markov switching models. Springer

Science & Business Media.

Gamerman, D. (1998) Markov chain monte carlo for dynamic generalised linear models.

Biometrika, 85, 215–227.

Gill, J. e Hangartner, D. (2010) Circular data in political science and how to handle it.

Political Analysis, mpq009.

103

Gumbel, E., Greenwood, J. A. e Durand, D. (1953) The circular normal distribution:

Theory and tables. Journal of the American Statistical Association, 48, 131–152.

Guttorp, P. e Lockhart, R. A. (1988) Finding the location of a signal: A bayesian analysis.

Journal of the American Statistical Association, 83, 322–330.

Hamilton, J. D. (1994) Time series analysis, vol. 2. Princeton university press Princeton.

Holzmann, H., Munk, A., Suster, M. e Zucchini, W. (2006) Hidden markov models for

circular and linear-circular time series. Environmental and Ecological Statistics, 13,

325–347.

Hughes, G. (2007) Multivariate and time series models for circular data with applications

to protein conformational angles. Tese de Doutorado, University of Leeds.

Jammalamadaka, S. R. e Sengupta, A. (2001) Topics in circular statistics, vol. 5. World

Scientific.

Johnson, R. A. e Wehrly, T. E. (1978) Some angular-linear distributions and related

regression models. Journal of the American Statistical Association, 73, 602–606.

Jona-Lasinio, G., Gelfand, A., Jona-Lasinio, M. et al. (2012) Spatial analysis of wave

direction data using wrapped gaussian processes. The Annals of Applied Statistics, 6,

1478–1498.

Lan, T. et al. (2013) Analysis of circular data in the dynamic model and mixture of von

mises distributions.

Mardia, K. V. (1975) Statistics of directional data. Journal of the Royal Statistical

Society. Series B (Methodological), 349–393.

Mardia, K. V., Hughes, G., Taylor, C. C. e Singh, H. (2008) A multivariate von mises

distribution with applications to bioinformatics. Canadian Journal of Statistics, 36,

99–109.

Mardia, K. V. e Jupp, P. E. (2009) Directional statistics, vol. 494. John Wiley & Sons.

104

Mastrantonio, G., Lasinio, G. J. e Gelfand, A. E. (2015) Spatio-temporal circular models

with non-separable covariance structure. TEST, 1–20.

Migon, H. S., Gamerman, D. e Louzada, F. (2014) Statistical inference: an integrated

approach. CRC press.

Migon, H. S., Schmidt, A. M., Ravines, R. E. e Pereira, J. B. (2013) An efficient sampling

scheme for dynamic generalized models. Computational Statistics, 28, 2267–2293.

Neves, M. R. e Zanini, C. T. P. (2013) Metodos computacionais para realizacao de in-

ferencia bayesiana em modelos dinamicos lineares generalizados.

Petris, G., Petrone, S. e Campagnoli, P. (2009) Dynamic linear models with R. Springer

Science & Business Media.

Ravindran, P. e Ghosh, S. K. (2001) Bayesian analysis of circular data using wrapped

distributions. 2001 Proceedings of the American Statistical Association, Statistical

Computing Section [CD-ROM], Alexandria, VA: American Statistical Association.

Von Mises, R. (1918) Uber die aganzzahligkeita der atomgewichte und verwandte fragen.

Phys. z, 19, 490–500.

Wang, F. e Gelfand, A. E. (2014) Modeling space and space-time directional data using

projected gaussian processes. Journal of the American Statistical Association, 109,

1565–1580.

West, M. e Harrison, J. (1999) Bayesian Forecasting & Dynamic Models. Springer.

Wu, B., McGrory, C. A. e Pettitt, A. N. (2012) The variational bayesian approach to

fitting mixture models to circular wave direction data. Journal of Applied Meteorology

and Climatology, 51, 1750–1762.

105

Modelos para s eries temporais de dados circulares · 2016. 10. 24. · natureza, este trabalho se...

Documents

Transcript of Modelos para s eries temporais de dados circulares · 2016. 10. 24. · natureza, este trabalho se...