Modelos para s eries temporais de dados circulares · 2016. 10. 24. · natureza, este trabalho se...
Transcript of Modelos para s eries temporais de dados circulares · 2016. 10. 24. · natureza, este trabalho se...
Modelos para series temporais de dados
circulares
Mariana Raniere Neves
Universidade Federal do Rio de Janeiro
Instituto de Matematica
Departamento de Metodos Estatısticos
2015
Modelos para series temporais de dados
circulares
Mariana Raniere Neves
Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica
do Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como
parte dos requisitos necessarios a obtencao do tıtulo de Mestre em Estatıstica.
Aprovada por:
Profa Mariane Branco Alves
D.Sc - IM - UFRJ - Orientadora.
Dani Gamerman
PhD - IM - UFRJ.
Antonio Carlos Monteiro Ponce de Leon
D.Sc - IME - UERJ.
Rio de Janeiro, RJ - Brasil
2015
ii
A minha mae, irmaos amigos e amigos irmaos.
iii
“Nada do que foi sera
De novo do jeito que ja foi um dia
Tudo passa
Tudo sempre passara
A vida vem em ondas
Como um mar
Num indo e vindo infinito
Tudo que se ve nao e
Igual ao que a gente
Viu ha um segundo
Tudo muda o tempo todo
No mundo
Nao adianta fugir
Nem mentir
Pra si mesmo agora
Ha tanta vida la fora
Aqui dentro sempre
Como uma onda no mar ”
Como uma onda - Lulu Santos
iv
Agradecimentos
Pela ajuda na conclusao deste trabalho, nao poderia deixar de agradecer a algumas
pessoas que foram essenciais para que eu conseguisse concluir mais esta etapa da minha
vida. O termino deste mestrado significa para mim nao somente a conclusao de mais
uma etapa da minha vida academica, mas tambem mais uma vitoria pessoal. O caminho
ate aqui foi arduo, mas o retorno e gratificante. Acredito hoje que posso tudo que quero,
nao por acreditar em forcas sobrenaturais ou mısticas, mas sim por saber que a maioria
das coisas depende de esforco e forca de vontade. Esta dissertacao e motivo de muito
orgulho para mim e espero que ela faca jus a todo incentivo que me foi dado.
Em primeiro lugar, agradeco a minha mae que, apesar das diferencas, sempre me
garantiu uma educacao de qualidade e que se preocupou em me incentivar a fazer uma
pos-graduacao ja que segundo ela, graduacao nao e mais diferencial. Nao foi preciso pagar
para que eu tivesse acesso a um ensino medio, superior e a um mestrado de qualidade, mas
sei que se necessario, eu teria incentivos e apoio financeiro, mesmo a grana sendo curta e
compartilhada por cinco filhos. Mae, esse trabalho e seu e e fruto de tudo que investiu em
mim. Nao ha palavras para agradecer, mas retribuirei tudo com todo amor que puder dar.
Alem da minha mae, devo agradecer tambem aos meus irmaos e melhores amigos.
Sou uma pessoa de muita sorte por possuir os lacos mais fortes com essas pessoas que
amo tanto. Filipe, Gustavo, Miguel e Pedro muito obrigada por caminharem comigo
nesta jornada, nada que eu disser sera suficiente para expressar o meu amor por voces.
Agradeco tambem ao meu pai e meus avos por me abrigarem enquanto eu estava
estudando e nao podia pagar por um lugar para mim.
v
Gostaria de agradecer tambem ao meu amigo Carlos pela maravilhosa companhia em
todas horas nesta jornada e por toda ajuda com revisoes, duvidas, por estar sempre dis-
ponıvel quando precisei. Ganhei o melhor presente no dia que por acaso me colocaram
para trabalhar em conjunto com voce. Devo agradecer tambem ao meu amigo Rafael
pelas incontaveis revisoes dos meus programas no R e por todo o incentivo que sempre
me deu. Nao posso esquecer de agradecer a Ingrid pela ajuda, incentivo e por me fazer
companhia em todas as horas.
A minha amiga Lorena, agradeco pela revisao do texto, alem de todo apoio e com-
preensao sempre.
Agradeco muitıssimo a Michelle, que apesar de ter um ritmo de vida muito diferente
do meu, compreende as minhas necessidades e me da apoio incondicional.
Agradeco a Juliana, que um dia agradeci por ser minha melhor companhia, hoje
agradeco por me ensinar de forma contraditoria e empırica que nada precisa ser na dor,
tudo pode ser no amor.
Agradeco a Mariane por me orientar por tantos anos e por investir tempo em mim e
no meu trabalho. Devo agradecer tambem pela paciencia, incentivo, pelos conselhos na
minha vida profissional e pessoal. Nao posso deixar de dizer que te admiro e me sinto
uma pessoa de sorte por ter um referencial de que tipo de professora quero ser.
A professora Alexandra, nunca posso deixar de agradecer por abrir tantas portas no
meu caminho, pelas otimas aulas de inferencia na graduacao e no mestrado.
Aos professores Antonio Carlos Monteiro Ponce de Leon, Dani Gamerman e Thaıs
Cristina Oliveira da Fonseca, agradeco por aceitarem fazer parte da banca.
vi
Resumo
Muitas vezes deseja-se trabalhar com observacoes cujas medidas sao expressas em
angulos. Para este tipo de dado, uma representacao natural e o cırculo. Ademais,
obervacoes periodicas tambem podem ser representadas no cırculo, onde a circunferencia
representa o perıodo . Para estes conjuntos de dados, a metodologia usual utilizada para
se trabalhar com dados na reta leva a resultados erroneos. Pode-se ter interesse, ainda,
em observar essse tipo de dado temporalmente. A metodologia para analises estatısticas
nestes casos deve diferir daquelas usualmente utilizada para se trabalhar com dados na
reta, levando-se em conta as particularidades inerentes a esse tipo de observacao.
Dadas as limitacoes dos metodos para analise de dados com representacao no cırculo e
a enxuta literatura a respeito de esquemas para estimacao em modelos para dados desta
natureza, este trabalho se propoe a estudar diferentes modelos e metodos de estimacao
para series temporais de dados circulares. Os modelos abordados no presente trabalho
tratam de problemas de diferentes naturezas. Os modelos dinamicos abordados, por
exemplo, se encarregam de tratar da autocorrelacao temporal de forma mais intuitiva,
atraves da equacao de evolucao, e de possıveis associacoes entre a variavel resposta e ou-
tras variaveis. Ja os modelos de mistura, fazem o papel de aumentar a gama de aplicacoes
possıveis, pois os mesmos podem ser assimetricos e multimodais. Por fim, os modelos
de misturas markovianas abordados sao utilizados para se ober estruturas flexıveis sem
prescindir do tratamento de autocorrelacao temporal advinda da observacao de variaveis
temporalmente. Para se trabalhar com tais modelos, utilizam-se extensoes de metodos
com teoria ja bem estabelecida.
vii
A metodologia proposta neste trabalho e avaliada a partir de estudos simulados para
cada um dos modelos abordados, por fim, atraves de uma aplicacao a dados reais.
Palavras-Chaves: modelos dinamicos, series temporais, modelos de misturas, modelos
de misturas markovianos, dados circulares e modelos circulares.
viii
Abstract
It is known that observations which are depicted in angles are very often accom-
plished. For this kind of data, the circle is a natural representation. Moreover, periodical
observations can also be represented on the circle where the circumference corresponds
to this period. The usual methodology used in the work with such data in the straight
line can lead to misguided results. It is also possible to observe data of this nature in a
time perspective. The methodology used in analytical statistics in these instances must
differ from the ones usually found, taking into account the intrinsic singularities in this
kind of observation.
Considering the limitation of methods of analysis of data in the representation on
the circle, and also the bated literature on estimation schemes in models of data of this
nature, the present paper aims at studying different models and methods of estimation
for the time series of circular data.
The approached dynamic models, for instance are responsible for establishing tempo-
ral autocorrelation in a more intuitive way through the evolution equation and through
possible associations with the response variable and other variables. Meanwhile, the mix-
ture models are responsible for enlarging the range of possible applications, for the former
could be asymmetric and multimodal. Finally, the approached Markovs mixture models
are used to obtain flexible structures without dispensing the temporal autocorrelation
original from the observation of time variables.
In order to work with such models, there have been used extension methods with solid
theoretical foundations. The proposed methodology is here tested through simulated
ix
studies for each one of the models approached and, finally, through the application of
actual data.
Keywords: dynamic models,temporal series, mixture models, markov mixture models,
circular data, circular models.
x
Sumario
1 Introducao 1
2 Estatısticas Descritivas Circulares 8
2.1 Medidas de Posicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Direcao Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Direcao Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Medidas de Concentracao e Dispersao . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Variancia Circular . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Desvio Padrao Circular . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Modelos Circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Uniforme Circular . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.2 Distribuicao Cardioide . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.3 Von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Wrapped Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Wrapped Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Metodos de Inferencia Bayesiana e Modelos Dinamicos 22
3.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.2 Estimacao Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.3 Estimacao Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1.4 Distribuicao Preditiva . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Procedimento de inferencia via MCMC . . . . . . . . . . . . . . . . . . . 28
xi
3.2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.2 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.4 Resumo das etapas para implementacao dos metodos MCMC . . . 32
3.3 Modelos Dinamicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.1 Modelos Lineares Dinamicos (MLD) . . . . . . . . . . . . . . . . 34
3.4 Esquemas de Amostragem em Modelos Dinamicos . . . . . . . . . . . . . 35
3.4.1 Foward Filtering Backward Sampling . . . . . . . . . . . . . . . . 35
4 Modelos Dinamicos para Dados Circulares 40
4.1 Modelo Von Mises Estatico e Dinamico . . . . . . . . . . . . . . . . . . . 42
4.2 Modelo Wrapped Normal Dinamico . . . . . . . . . . . . . . . . . . . . . 45
4.2.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Distribuicoes Circulares a partir de Misturas 55
5.1 Misturas de Distribuicoes: Fundamentos . . . . . . . . . . . . . . . . . . 56
5.2 Estimacao Bayesiana para modelos de mistura utilizando o MCMC . . . 58
5.3 Wrapped Misturas de Normais . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Modelos de Misturas Markovianas . . . . . . . . . . . . . . . . . . . . . . 67
5.4.1 Estimacao Bayesiana para modelos de misturas markovianas utili-
zando o MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.5 Wrapped Misturas Markovianas de Distribuicoes Normais . . . . . . . . . 77
5.5.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6 Aplicacao a dados reais 83
7 Conclusoes e trabalhos futuros 90
A Metodo Bayessiano de Estimacao para Modelos Von Mises 94
A.1 Modelo Von Mises Estatico . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.2 Modelo Von Mises Dinamico . . . . . . . . . . . . . . . . . . . . . . . . . 97
xii
A.2.1 Condicionais Completas . . . . . . . . . . . . . . . . . . . . . . . 97
A.2.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
xiii
Lista de Figuras
2.1 Representacao grafica da utilizacao da media aritmetica em dados circulares . 9
2.2 Representacao grafica da utilizacao da direcao media circular . . . . . . . . . 12
4.1 Traco da cadeia de σ2 e valor verdadeiro (vermelho) . . . . . . . . . . . . . . 53
4.2 Dados × µ estimado (cinza) . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1 Traco das cadeias de µ = (µ1, µ2) . . . . . . . . . . . . . . . . . . . . . . . 64
5.2 Traco das cadeias de σ2 = (σ21, σ
22) . . . . . . . . . . . . . . . . . . . . . . . 65
5.3 Media geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.4 Variancia geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.5 Media das medias da mistura em cada replica e valor real da media da mistura
(vermelho) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.6 Histograma da media das variancias da mistura em cada replica e valor real da
variancia da mistura (vermelho) . . . . . . . . . . . . . . . . . . . . . . . . 67
5.7 Traco das cadeias de µ = (µ1, µ2) . . . . . . . . . . . . . . . . . . . . . . . 79
5.8 Traco das cadeias de σ2 = (σ21, σ
22) . . . . . . . . . . . . . . . . . . . . . . . 80
5.9 Media geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.10 Variancia geral da mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.11 Media das medias da mistura em cada replica e valor real da media da mistura
(vermelho) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.12 Histograma da media das variancias da mistura em cada replica e valor real da
variancia da mistura (vermelho) . . . . . . . . . . . . . . . . . . . . . . . . 82
6.1 Conjunto de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
xiv
6.2 Diagrama de rosas com a direcao media de cada mes em 2012, 2013 e 2014. . . 85
6.3 Histograma circular das direcoes dos ventos em cada mes de 2012, 2013 e 2014 86
6.4 Serie de direcao dos ventos observada e resposta media (vermelho) . . . . . . 89
A.1 Tracos da cadeia de µ utilizando o metodo encontrado em Damien and Walker
(1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
A.2 Tracos da cadeia de κ utilizando o metodo encontrado em Damien and Walker
(1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
A.3 Estimacao dos parametros do modelo Von Mises em uma das replicas
utilizando o algoritmo proposto por Damien e Walker (1999). . . . . . . . 96
A.4 Estimacao dos parametros do modelo Von Mises utilizando o metodo
MCMC programado de forma independente. . . . . . . . . . . . . . . . . 97
A.5 Cadeias de µt, para t = 25, 50, 75, 100 . . . . . . . . . . . . . . . . . . . . . 100
A.6 Cadeia de κ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.7 Dados gerados(preto) × µ estimado . . . . . . . . . . . . . . . . . . . . . . 101
xv
Capıtulo 1
Introducao
Muitas vezes deseja-se trabalhar com medidas que sao direcoes. Um biologo, por
exemplo, pode ter interesse em analisar a direcao do voo de um passaro, enquanto que
um meteorologista em estudar a direcao dos ventos numa certa regiao. Um conjunto
onde as observacoes sao direcoes e chamado conjunto de dados direcionais.
Direcoes bidimensionais podem ser representadas como angulos com respeito a uma
direcao zero e um sentido de rotacao. Como uma direcao nao tem magnitude, ela pode
ser representada como um ponto na circunferencia de um cırculo unitario centrado na
origem ou como vetores unitarios. Devido a essa representacao circular, observacoes deste
tipo sao chamadas de dados circulares. De forma similar, observacoes tridimensionais sao
tambem chamadas de dados esfericos.
Alem de dados direcionais, que parecem se adequar naturalmente a uma representacao
na circunferencia, fenomenos periodicos, com perıodo conhecido, tambem podem ser
representados em um cırculo, onde o comprimento da circunferencia corresponde ao
perıodo. Pode-se ter interesse em estudar, por exemplo, a criminalidade em certa ci-
dade ao longo de um dia ou a chegada de pacientes com ataque cardıaco em um hospital
em certo perıodo de tempo. Outro exemplo seria utilizar o cırculo para representar os
365 dias do ano e fazer uma analise da ocorrencia de acidentes de aviao para avaliar
1
se os acidentes sao uniformemente distribuıdos ao longo das estacoes do ano. Devido a
possıvel representacao destes dados em uma circunferencia, esses dados tambem podem
ser chamados de dados circulares.
Para trabalhar com dados circulares, deve-se ter em mente que estes apresentam ca-
racterısticas proprias, tanto em termos de modelagem quanto em termos de tratamento
estatıstico descritivo. A representacao numerica de um angulo, por exemplo, pode nao
ser unica, ja que este valor depende tanto da escolha da origem quanto do sentido da
rotacao. Logo, e importante assegurar que as conclusoes obtidas atraves da analise destes
tipos de dados levem em consideracao essas particularidades, ou seja, deve-se chegar a
conclusoes que nao dependam da escolha da origem e do sentido de rotacao. Nota-se,
tambem, que a comparacao da grandeza de duas observacoes tambem depende da escolha
da origem e do sentido de rotacao. Alem das particularidades apontadas anteriormente,
deve-se observar que 0 e 2π representam o mesmo ponto no cırculo e a medida e periodica.
As caracterısticas desses tipos de observacoes fazem com que a metodologia necessaria
para a analise de dados direcionais seja bem diferente da metodologia usual, utilizada
para analise de dados lineares. A necessidade de metodos estatısticos e medidas invarian-
tes com respeito ao sentido de rotacao e a escolha da origem fazem com que a aplicacao
de metodos usuais para a analise de dados leve a resultados sem sentido.
E possıvel encontrar na literatura diferentes abordagens para se trabalhar com da-
dos circulares. Em Mardia (1975) sao apresentadas algumas distribuicoes para dados
circulares, por exemplo, sugere-se a Von Mises-Fisher, uma das distribuicoes circulares
mais utilizadas, caracterizada por dois parametros que descrevem direcao media e con-
centracao. Detalhes sobre a analise de dados circulares podem ser vistos em Mardia
(1975) e Jammalamadaka e Sengupta (2001). Para o caso em que se deseja trabalhar
com dados bivariados onde uma componente e um angulo e a outra um numero real,
Johnson e Wehrly (1978) sugerem algumas distribuicoes e modelos de regressao. Em
Fisher e Lee (1994) e sugerida uma distribuicao Von Mises para se trabalhar com mode-
2
los de regressao para respostas angulares. No contexto da Inferencia Bayesiana, Guttorp
e Lockhart (1988) fornecem um metodo para se fazer inferencia Bayesiana utilizando
a distribuicao Von Mises. A proposta em Guttorp e Lockhart (1988) e elicitar prioris
conjugadas para a estimacao dos parametros da Von Mises nos caso em que se tem um
ou ambos os parametros desconhecidos. Damien e Walker (1999) fornecem uma analise
bayesiana completa para os casos em que se trabalha com a distribuicao Von Mises e
os parametros sao supostos desconhecidos. O metodo sugerido se baseia nas prioris su-
geridas por Guttorp e Lockhart (1988) e a ideia principal constitui-se na introducao de
variaveis latentes, fazendo com que as condicionais completas dos parametros de interesse
sejam conhecidas, facilitando o esquema de inferencia no contexto de inferencia bayesiana
para dados circulares. Ao mesmo tempo que este artigo se destaca por fazer inferencia
Bayesiana completa, nota-se algumas limitacoes, como descrito no presente trabalho: di-
ficuldade computacional para tratamento de series temporais longas foram observadas ao
se aplicar o algoritmo proposto. Do ponto de vista do modelo propriamente dito, tem-se
unimodalidade e simetria na distribuicao circular proposta, bem como pressuposto de
independencia entre observacoes. Ainda se tratando da distribuicao Von Mises, Gill e
Hangartner (2010) apresentam um procedimento para regressao Bayesiana utilizando os
metodos de Monte Carlo via cadeias de Markov (MCMC) para os casos em que supoe-se
que a distribuicao da variavel resposta e Von Mises e deseja-se estimar os parametros
desta distribuicao, bem como os efeitos das covariaveis na variavel resposta. Nestes casos,
as variaveis explicativas sao introduzidas no modelo atraves da direcao media, o primeiro
parametro da Von Mises. Como este parametro tem suporte no cırculo, e necessario que
se utilize uma funcao de ligacao, ja que as regressoras tem suporte na reta real. Uma
das desvantagens do metodo de estimacao sugerido no artigo, e que a estimacao de κ,
o parametro de concentracao da Von Mises, e feita atraves do metodo de maxima ve-
rossimilhanca, com estimativa pontual para tal parametro “plugada”a outras etapas do
algoritmo, em que a estimacao dos demais parametros e tratada. Para a estimacao desses
outros parametros do modelo, e utilizado o algoritmo de Metropolis-Hastings. Nos casos
em que se tem uma serie circular observada temporalmente, Lan et al. (2013) sugerem o
uso de filtro de partıculas na estimacao do parametro de centralidade da distribuicao Von
3
Mises, , que supoe-se variar no tempo, mas ao mesmo tempo que e possıvel estimar de
forma Bayesiana este parametro, o autor nao considera fazer a estimacao das variancias
de evolucao e observacao e esses ultimos parametros sao supostos conhecidos. A contri-
buicao do presente trabalho neste contexto, consiste na elaboracao de um metodo que
possibilite a estimacao de todos os parametros de um modelo Von Mises dinamico.
Uma outra abordagem possıvel para se trabalhar com dados circulares e utilizar os
chamados Wrapped Models. Tais modelos sao construıdos a partir de distribuicoes com
suporte na reta por meio de uma transformacao que leva os valores da reta ao cırculo. A
vantagem na utilizacao desse tipo de abordagem provem do fato de ser possıvel utilizar
modelos com suporte que originalmente nao seja no cırculo, proporcionando uma maior
flexibilidade. Jona-Lasinio et al. (2012) constroem um modelo hierarquico para lidar
com dados circulares quando supoe-se que a variavel resposta tem distribuicao Wrapped
Normal, e mostram que e possıvel se fazer inferencia Bayesiana nesses casos utilizando
metodos de Monte Carlo via Cadeias de Markov (MCMC). A ideia consiste em estimar
“k”, o numero de voltas dadas no cırculo quando se faz a transformacao de valores da
reta para o cırculo. Condicionalmente a “k”, as distribuicoes condicionais completas para
os parametros da Wrapped Normal sao conhecidos, o que faz com que esquemas MCMC
funcionem de forma mais pratica e eficiente. A ideia de introducao de “k”como uma
variavel latente a ser estimada sera utilizada em todas as aplicacoes de modelos ”wrap-
ped”no presente trabalho. Neste artigo, os autores trabalham com uma componente que
trata da autocorrelacao espacial, ja que o conjunto de dados e observado no espaco, mas
nao sao considerados casos em que uma serie temporal e observada e deseja-se trabalhar
com modelos que tratem de autocorrelacao temporal.
Holzmann et al. (2006) propoe modelos para series temporais circulares. Tanto em
um modelo Von Mises quanto em um modelo Wrapped Normal, o autor assume que
os parametros variem num espaco discreto e finito, com uma estrutura Markoviana,
responsavel pela autocorrelacao temporal, dando conta da transicao entre estados. A
estimacao e feita por maxima verossimilhanca. Hughes (2007) considera, entre outras
4
propostas, versoes “wrapped”de modelos classicos para series temporais como mode-
los autoregressivos. Mais recentemente, Mastrantonio et al. (2015) propoem proces-
sos “wrapped”gaussianos espaco-temporais, especificando uma estrutura de covariancia
espaco-temporal nao separavel, mas preservam a direcao media constante. Ainda com
foco na estrutura de covariancia,Wang e Gelfand (2014) trata, num contexto espaco-
temporal, tambem com media fixa, a modelagem conjunta de uma variavel circular e
uma variavel linear (como direcao de ventos e altura de ondas). Admitimos, no presente
trabalho, observacoes circulares em um contexto puramente temporal, em que a direcao
media evolua. A estrutura especificada para evolucao da direcao media induz, simulta-
neamente, o tratamento de autocorrelacao temporal.
Nota-se que tanto a Von Mises quanto a Wrapped Normal sao modelos unimodais e
simetricos e que existe interesse em estruturas mais flexıveis que contemplem, por exem-
plo, multimodalidade e assimetria no cırculo. Neste sentido, modelos de mistura sao
muito uteis, ja que possibilitam a construcao de estruturas que podem se adequar bem
a conjuntos e dados assimetricos ou multimodais. Lan et al. (2013) consideram a mis-
tura de distribuicoes Von Mises, em um modelo estatico e que pressupoe independencia
entre as observacoes. O procedimento de estimacao e feito por meio do algoritmo EM
(Expectation-Maximization).
Nao encontramos, na literatura, nenhum artigo de referencia para os casos em que se
deseja trabalhar com modelos wrapped mistura de normais utilizando inferencia Bayesi-
ana. Portanto, na elaboracao deste trabalho, foi necessario desenvolver uma metologia
para esses casos. O metodo desenvolvido consiste na juncao de ideias do artigo de Jona-
Lasinio et al. (2012) e dos metodos de estimacao bayesianos para modelos de mistura
encontrados em Fruhwirth-Schnatter (2006). Temos interesse em estruturas flexıveis
sem, contanto, prescindir do tratamento da autocorrelacao para dados observados tem-
poralmente. Uma outra contribuicao desta dissertacao e fornecer um metodo de es-
timacao bayesiano para modelos de mistura markovianos, mais especificamente, misturas
de Wrapped Normal. A metodologia desenvolvida foi, mais uma vez, baseada na juncao
5
das ideias encontradas em Jona-Lasinio et al. (2012) e Fruhwirth-Schnatter (2006).
Este trabalho tem como objetivo, portanto, propor modelos dinamicos e modelos de
misturas para dados circulares observados temporalmente, considerando-se formalmente
tanto a autocorrelacao inerente a esse tipo de dado, quanto a possibilidade de distribuicao
multimodal ou assimetrica no cırculo. O trabalho esta estruturado como segue.
Nos capıtulo 2 serao apresentadas estatısticas descritivas utilizadas para a analise de
dados circulares, ja que pela natureza deste tipo de dado, as estatısticas descritivas usuais
nao podem ser aplicadas, pois levam a resultados muitas vezes incoerentes e erroneos.
Serao apresentadas medidas circulares equivalentes a media, mediana e variancia na reta.
Serao apresentados tambem, modelos usuais para dados circulares, sendo estes os mode-
los com suporte natural no cırculo e os “Wraped Models”, que sao obtidos a partir de
um modelo com suporte na reta via uma operacao matematica que leva os valores da
reta ao cırculo.
O capıtulo 3 abordara conceitos e metodos de estimacao utilizados no contexto de
inferencia Bayesiana, em particular sao apresentados, sumariamente, elementos sobre o
metodo de Monte Carlo via cadeias de Markov(MCMC). Sera feita uma breve revisao
sobre modelos dinamicos e metodos para estimacao de parametros nestes modelos, par-
tircularmente, o Forward Filter Bacward Sampling (FFBS).
No capıtulo 4, serao apresentados modelos dinamicos para dados circulares, como
o modelo Von Mises dinamico e o modelo Wrapped Normal dinamico. Tais modelos
naturalmente acomodam autocorrelacao em series temporais circulares. Apresenta-se,
tambem, a metodologia desenvolvida para se trabalhar com estes modelos e os resultados
obtidos em simulacoes com dados artificiais para cada modelo utilizado.
No capıtulo 5, serao abordados modelos de mistura e modelos de misturas Marko-
vianas para dados circulares. Ademais, serao apresentados os metodos de estimacao
6
desenvolvidos para se trabalhar com estes modelos e os resultados obtidos a partir de
exercıcios simulados.
Uma aplicacao dos modelos e metodos a dados reais de direcao dos ventos sera apre-
sentada no capıtulo 6.
Por fim, no Capıtulo 7, serao apresentadas as conclusoes e possıveis extensoes deste
trabalho.
7
Capıtulo 2
Estatısticas Descritivas Circulares
Como foi observado anteriormente, a analise estatıstica e medidas descritivas usuais
nao sao adequadas para se trabalhar com dados circulares. Nesta secao serao apresenta-
das medidas que se adequam melhor ao estudo de dados desta natureza.
Dados circulares podem ser representados como angulos ou como pontos na circun-
ferencia de raio unitario, portanto, pode-se utilizar a representacao em coordenadas pola-
res ou retangulares. Dado que se tem a representacao em uma das duas formas, e possıvel
converter a medida para outra forma equivalente.
Na analise de dados direcionais, usualmente se tem interessse na direcao e nao na
magnitude do vetor, logo, a fim de facilitar a analise, esses vetores serao representados
como vetores com comprimento unitario.
8
2.1 Medidas de Posicao
2.1.1 Direcao Media
Em conjuntos de dados circulares unimodais, muitas vezes deseja-se definir uma
direcao media. Para calcular a direcao media, seria natural pensar na media aritimetica
das observacoes. Supondo, por exemplo, que se tem duas medidas, 15o e 345o, para
direcao dos ventos em um certo dia em uma certa estacao de medicao no nordeste do
Brasil e deseja-se calcular a direcao media deste dia nesta estacao, a media aritmetica
destes angulos e 180o. Como se pode perceber pela figura 2.1, a medida encontrada leva a
uma conclusao totalmente equivocada sobre a direcao media dos ventos, pois esta medida
aponta para a direcao errada.
Figura 2.1: Representacao grafica da utilizacao da media aritmetica em dados circulares
9
O exemplo dado e apenas uma situacao entre varias que podem ocorrer, onde a uti-
lizacao da media aritmetica para este tipo de dado pode levar a conclusoes erradas. Uma
medida apropriada da direcao media para um conjunto de dados unimodal pode ser ob-
tida considerando as observacoes como vetores unitarios e calculando a direcao do vetor
resultante.
Sejam a1, a2, a3, . . . , an um conjunto de observacoes de angulos dados em coordenadas
polares, e considere a transformacao polar para retangular para cada observacao:
(cos ai, sen ai), i = 1, . . . , n.
O vetor resultante R dos n vetores unitarios e obtido da seguinte forma:
R = (n∑i=1
cos ai,n∑i=1
sen ai) = (C, S).
O tamanho do vetor resultante e determinado por:
R = ‖R‖ =√C2 + S2
.
Propoe-se que a direcao media circular, que sera denotada por α, seja dada pela
direcao do vetor resultante R. Pode-se definir a direcao do vetor resultante pelas seguin-
tes equacoes:
cosα = CR
, senα = SR.
Sendo assim, pode-se calcular α por:
10
α = arctan∗(S
C
)
onde;
α = arctan∗(S
C
)=
arctan(SC
), se C > 0, S ≥ 0;
π2, se C = 0, S > 0;
arctan(SC
)+ π, se C < 0;
arctan(SC
)+ 2π, se C ≥ 0, S < 0;
indefinido, se C = 0, S = 0.
α e o centro do conjunto de dados e nao depende do sentido de rotacao ou da escolha
da origem (proposicao 1.1, Jammalamadaka e Sengupta (2001, pagina 14)).
Voltando ao exemplo dado, calculando a direcao media circular obtem-se o valor 0o.
Pela figura 2.2, pode-se notar que este valor parece ser coerente com a interpretacao
intuitiva e levar a conclusoes razoaveis sobre o problema.
11
Figura 2.2: Representacao grafica da utilizacao da direcao media circular
2.1.2 Direcao Mediana
Para se fazer uma estimacao robusta da mediana populacional, e util obter uma versao
circular da mediana. A direcao mediana α dos angulos a1, a2, a3, . . . , an pode ser definida
como um angulo φ, tal que:
• Metade das observacoes esteja no arco [φ, φ+ π)
• A maioria das observacoes esteja mais perto de φ do que de φ+ π
12
Quando o tamanho amostral n e ımpar, a direcao mediana e uma das observacoes,
mais especificamente a n+12
-esima observacao, sendo a primeira, a mais distante de φ
pertencente a qualquer um dos dois arcos ([φ, φ+ π) ou [φ− π, π)) . Quando n e par, e
usual tomar a direcao media como ponto medio das duas observacoes apropriadas.
2.2 Medidas de Concentracao e Dispersao
2.2.1 Variancia Circular
O tamanho do vetor resultante R foi definido anteriormente por:
R =√
(C2 + S2)
.
Pode-se definir R, o tamanho medio do vetor resultante, como:
R =√
(C2 + S2)
,
onde;
C =1
n
n∑i=1
cosai
13
S =1
n
n∑i=1
senai.
Dado que as observacoes a1, a2, a3, . . . , an sao vetores unitarios, tem-se que:
0 ≤ R ≤ 1.
Se as direcoes a1, a2, a3, . . . , an estao muito concentradas em uma certa parte da cir-
cunferencia, R sera proximo de 1. Por outro lado, se as observacoes estiverem dispersas,
R sera proximo de 0. Logo, R e uma medida de concentracao do conjunto de dados.
Note que para qualquer conjunto de dados da forma a1, a2, a3, . . . , an, a1 + π, a2 + π, a3 +
π, . . . , an +π, R = 0. Logo, se R ≈ 0 nao necessariamente as observacoes estao dispersas
ao redor da circunferencia. Ainda, R e invariante sob rotacao.
Na maior parte dos casos, o tamanho do vetor medio resultante R e a medida de
concentracao mais importante. Entretanto, por analogia a medidas para dados na reta,
e util considerar medidas de dispersao circulares. Uma medida de dispersao circular e a
variancia circular amostral, definida como:
V = 1− R.
2.2.2 Desvio Padrao Circular
Alem da variancia circular, pode ser util definir uma medida analoga ao desvio padrao
usual. Uma maneira de obter essa medida e fazendo uma transformacao da variancia
amostral V. Define-se o desvio padrao circular v como:
14
v={−2log(1− V )}12 =
{−2logR
} 12
2.3 Modelos Circulares
Uma distribuicao circular e uma distribuicao de probabilidade na qual a probabilidade
total esta concentrada na circunferencia de raio unitario. Ha algumas maneiras de definir
essas distribuicoes, mas deve-se atentar para algumas caracterısticas peculiares. E im-
portante, por exemplo, que o suporte da distribuicao volte ao ponto inicial, a medida que
os valores aumentam. O suporte de uma variavel aleatoria circular θ, medida em radia-
nos, pode ser qualquer intervalo de comprimento 2π, geralmente sendo [0, 2π) ou [−π, π).
Distribuicoes circulares podem ser essencialmente de dois tipos: discretas ou contınuas.
No caso contınuo, a funcao densidade de probabilidade satisfaz as seguintes propriedades:
• f(θ) ≥ 0;
•∫ 2π
0f(θ)dθ = 1;
• f(θ) = f(θ + k × 2π), para qualquer inteiro k.
Muitas distribuicoes circulares uteis podem ser geradas a partir de distribuicoes de
probabilidade conhecidas atraves de uma serie de mecanismos. Dois exemplos bastante
interessantes de tipos de distribicoes obtidas desta forma sao as “wrapped distributions”,
que sao obtidas “enrolando-se uma distribuicao linear ao redor de um cırculo unitario
e as “offset distributions”, que sao obtidas atraves da tranformacao de uma variavel
15
aleatoria bivariada linear para seu componente direcional. A seguir, sao apresentadas
sucintamente algumas distribuicoes circulares usuais.
16
2.3.1 Uniforme Circular
Se a probabilidade total esta espalhada uniformemente sobre a circunferencia, temos
uma distribuicao Uniforme Circular:
f(θ) =1
2π, 0 ≤ θ ≤ 2π.
Todas as direcoes tem igual densidade e por isso esta distribuicao e comumente co-
nhecida como distribuicao isotropica ou aleatoria. Esta distribuicao nao tem media bem
definida e tem maxima entropia. Ela e muito importante na analise de dados circulares,
pois representa a falta de “direcao preferencial”.
Quando a distribuicao nao e uniforme, espera-se uma concentracao ao redor de uma
ou mais direcoes. Usualmente, tem-se uma concentracao maior ao redor de uma unica
direcao e a distribuicao e unimodal. As distribuicoes abordadas nos proximos topicos sao
algumas das importantes distribuicoes circulares unimodais.
2.3.2 Distribuicao Cardioide
Se θ tem distribuicao cardioide, a sua funcao densidade de probabilidade e dada por:
f(θ | µ, ρ) =1
2π{1 + 2ρcos(θ − µ)}, 0 ≤ µ < 2π,−1
2< ρ <
1
2,
17
em que µ e a direcao media e ρ e parametro de concentracao. Essa distribuicao e
umimodal e simetrica ao redor de µ.
2.3.3 Von Mises
Essa distribuicao foi introduzida como um modelo estatıstico por Von Mises (1918).
Em Gumbel et al. (1953), a Von Mises e tambem chamada de distribuicao “Normal Cir-
cular”para enfatizar sua importancia e semelhanca com a distribuicao normal na reta
real. Esta e a distribuicao circular mais comumente utilizada. Se θ e variavel aleatoria
com distribuicao Von Mises (denota-se vM(µ, k)), θ tem suporte em qualquer intervalo
de comprimento 2π e a sua funcao de densidade e da forma:
f(θ | µ, k) =1
2πI0(k)ek(cos(θ−µ)),
onde µ e a direcao media, 0 ≤ µ < 2π e k e parametro de concentracao k ≥ 0. Aqui
I0(k) na constante normalizadora representa a funcao Bessel Modificada de primeiro tipo
e ordem zero, dada por:
I0(k) =1
2π
∫ 2π
0
ekcosθdθ =∞∑0
(k
2
)2r (1
r!
)2
. (2.2)
A densidade e unimodal e simetrica em torno da direcao media µ (0 ≤ µ < 2π) e
k ≥ 0 e um parametro de concentracao. Para fins computacionais, aproxima-se o so-
matorio infinito em (2.2), de acordo com um numero de termos conveniente.
18
2.4 Wrapped Models
Outra alternativa para modelagem de dados circulares sao os Wrapped Models, obti-
dos ”enrolando-se”uma distribuicao originalmente definida na reta sobre a circunferencia
de raio unitario. De acordo com Mardia e Jupp (2009), se X e uma variavel aleatoria
definida na reta, obtem-se uma variavel circular Y ao definir-se Y = X(mod 2π). Se X
tem funcao de distribuicao acumulada F , entao Y tera funcao de distribuicao:
FY (y) =∞∑
k=−∞
{F (y + 2πk)− F (2πk)}, 0 ≤ y < 2π. (2.3)
Em particular, se X tem funcao densidade de probabilidade f , entao Y tera densidade:
fY (y) =∞∑
k=−∞
f(y + 2πk), 0 ≤ y < 2π. (2.4)
E possıvel, portanto, contruir um “Wrapped Model” a partir de qualquer modelo que
se queira.
De acordo com Jona-Lasinio et al. (2012), da equacao (2.4), pode-se perceber que a
distribuicao conjunta de (Y,K) e f(y + 2πk) com y ∈ [0, 2π) e K ∈ Z. Note que X
determina (Y,K) e vice-versa e a marginalizacao com respeito a K produz (2.4). Da
distribuicao conjunta, a distribuicao marginal de K e P (K = k) =∫ 2π
0f(y + 2πk)dy.
Alem disso, K | Y = y e tal que P (K = k | Y = y) = f(y+2πk)∑∞j=−∞ f(y+2πj)
enquanto que
a condicional de Y | K = k e f(y+2πk)∫ 2π0 f(y+2πk)dy
. Logo, e facil trabalhar com distribuicoes
enroladas, tratando K como variavel latente.
2.4.1 Wrapped Normal
19
Um Wrapped Model bastante utilizado e a distribuicao Wrapped Normal(µ, σ2),que e
obtida “enrolando-se”a distribuicao Normal(µ, σ2) no cırculo. Se Y∼Wrapped Normal(µ, σ2),
entao a densidade de Y e dada por:
f(y | µ, σ2) =1
σ√
2π
∞∑k=−∞
exp
[−(y − µ+ 2πk)2
2σ2
]. (2.5)
Outra representacao possıvel para esta densidade e dada por:
f(y | µ, σ2) =1
2π
{1 + 2
∞∑p=1
ρp2
cos p(y − µ)
}, 0 ≤ ρ ≤ 1, (2.6)
onde p = exp{−1
2σ2}
. A distribuicao e unimodal e simetrica em torno da direcao media
µ (mod 2π). Quando ρ→ 0, a densidade aproxima-se da Uniforme no cırculo, enquanto
quando ρ→ 1, a densidade tende a degeneracao com massa concentrada em µ.
Seguindo Jona-Lasinio et al. (2012), a expressao (2.5), que envolve uma soma infinita,
pode ser bem aproximada utilizando-se poucos termos, sem que seja necessario explorar
todo o suporte da quantidade latente k, {0,±1,±2, . . .}.
Em Mardia e Jupp (2009), para fins praticos, a densidade pode ser aproximada atraves
do truncamento de k ∈ {−1, 0, 1} quando σ2 ≥ 2π, enquanto que para σ2 < 2π considerar
apenas ”k=0”ja gera uma aproximacao razoavel. Segundo Jona-Lasinio et al. (2012), e
possıvel ser mais preciso. Suponha que translademos X para X ′ = (X + π) mod 2π− π,
resultando em um suporte simetrico [−π, π) , com a translacao correspondente de µ para
µ′. Se ϕ denota a funcao de densidade da normal padrao, pode-se escrever:
∫ π
−π
∞∑−∞
1
σϕ
(x+ 2kπ − µ
σ
)dx =
∞∑−∞
∫ π
−π
1
σϕ
(x+ 2kπ − µ
σ
)dx =
∞∑−∞
∫ (2k+1)π−µσ
(2k−1)π−µσ
ϕ(z)dz.
20
Calculos revelam que, se kU = 1 +⌊
3σ2π
⌋= −kL, (onde bac denota a parte inteira de
a), entao (2kU + 1)π − µ > 3π e (2kU − 1)π − µ < 3π. Como resultado,
∞∑−∞
∫ (2k+1)π−µσ
(2k−1)π−µσ
ϕ(z)dz >
kU∑k=kL
∫ (2k+1)π−µσ
(2k−1)π−µσ
ϕ(z)dz >
∫ 3
−3
ϕ(z)dz = 0.997 (2.7)
A expressao (2.7) permite determinar o numero necessario de termos para uma boa
aproximacao em funcao de σ, por exemplo, se σ < 2π3
, entao k ∈ {−1, 0, 1}; se 2π3σ < 4π
3
entao k ∈ {−2,−1, 0, 1, 2}. Entao K pode ser grande se e somente se σ2 puder ser grande.
21
Capıtulo 3
Metodos de Inferencia Bayesiana e
Modelos Dinamicos
3.1 Inferencia Bayesiana
3.1.1 Teorema de Bayes
Em problemas de inferencia parametrica, tem-se interesse na estimacao ou tomada
de decisao sobre quantidades nao observaveis θ, ditas parametros, que indexam um mo-
delo probabilıstico p(y|θ) subjacente ao comportamento de uma variavel aleatoria Y sob
observacao. Os procedimentos Bayesianos de inferencia parametrica caracterizam-se por
utilizar, como fonte de informacao para estimacao ou tomada de decisao sobre θ, nao
somente observacoes y1, . . . , yn de Y | θ (como nos metodos cassicos de inferencia), mas
tambem informacao externa ao conjunto de dados observados, referentes a crencas sub-
jetivas sobre θ e refletindo a incerteza inicial do tomador de decisao.
A informacao proveniente dos dados e traduzida pela funcao de verossimilhanca, de-
notada por l(θ; y), em que y representa o conjunto de dados observado e θ os parametros
a serem estimados. A funcao de verossimilhanca tem a mesma expressao que define o
22
modelo probabilıstico p(y | θ), porem sao objetos matematicos distintos. Do ponto de
vista de estimacao ou tomada de decisoes sobre θ passa-se a considerar p(y | θ) como
funcao de θ, desconhecido, condicional a um vetor de observacoes y e essa funcao, cujo
argumento agora e o vetor parametrico, e denominada verossimilhanca. A informacao
subjetiva, por sua vez, e incorporada ao modelo supondo uma distribuicao (ou densi-
dade) de probabilidade denotada por π(θ) a priori para o vetor de parametros θ. O grau
de incerteza sobre cada parametro esta relacionado a variabilidade da respectiva priori:
quanto maior a variabilidade, maior e a incerteza a priori (e consequentemente, menor o
grau de subjetividade incorporado ao modelo).
O Teorema de Bayes, enunciado a seguir, estabelece a relacao entre priori e verossi-
milhanca na composicao da incerteza acerca dos parametros. Essa incerteza se traduz
em termos probabilısticos atraves da distribuicao a posteriori, denotada por π(θ | y). A
partir da posteriori sao calculadas as estimativas dos parametros, as medidas de incer-
teza, como por exemplo variancia, entre outras.
Teorema 3.1. (Teorema de Bayes): Sejam θ o vetor de parametros com suporte Θ e
distribuicao a priori π(θ), e y o vetor de observacoes com verossimilhanca p(y | θ). Entao
a distribuicao a posteriori e dada por:
π(θ | y) =p(y | θ)π(θ)∫p(y | θ)π(θ)dθ
∝ p(y | θ)π(θ), (3.1)
em que o produto p(y | θ)π(θ) e chamado nucleo da distribuicao a posteriori.
De fato, qualquer funcao obtida de p(y | θ)π(θ) atraves da multiplicacao de uma
constante que nao dependa de θ, mas que ocasionalmente dependa do vetor de dados y,
pode ser chamada de nucleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na
23
atualizacao da incerteza associada ao parametro θ via Teorema de Bayes, as observacoes
y sao consideradas valores numericos conhecidos.
O Teorema de Bayes tambem pode ser visto sob o aspecto sequencial, segundo o
qual cada observacao e incorporada em sequencia a informacao a priori para compor
a incerteza a posteriori. Mais especificamente, denotando o vetor de observacoes por
y = (y1, y2, ..., yn), temos no instante zero a distribuicao a priori π(θ). Incorporada a
primeira observacao y1 a informacao a priori, atualiza-se a incerteza a respeito de θ
atraves do Teorema de Bayes, obtendo assim a distribuicao a posteriori no tempo 1:
π(θ | y1) ∝ p(y1 | θ)π(θ).
Agora, no instante 2, toda a informacao previa a respeito de θ (traduzida pela poste-
riori no instante 1: π(θ | y1)) e considerada informacao a priori e, ao ser combinada com
a observacao no tempo corrente, resulta na posteriori no instante 2:
π(θ | y1, y2) ∝ p(y2 | θ, y1)π(θ | y1) = p(y2 | θ)π(θ | y1),
onde a igualdade ocorre quando se supoe independencia entre as observacoes, dado o
conhecimento do vetor parametrico, o que significa assumir que o vetor parametrico sin-
tetiza toda a informacao necessaria para determinacao do comportamento probabilıstico
do vetor y antes de se observar os dados.
Analogamente, no tempo n tem-se a relacao de recorrencia:
π(θ | y1, ..., yn) ∝ p(yn | θ)π(θ | yn−1, ..., y1).
Atraves dessa relacao, e possıvel chegar a formula enunciada no Teorema de Bayes:
π(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)π(θ)
= p(y | θ)π(θ), (3.2)
24
onde a igualdade novamente ocorre quando se supoe independecia entre as observacoes
condicionadas ao vetor parametrico, e que toda informacao subjetiva sobre θ esteja re-
sumida em π(θ) no instante 0.
Portanto, admitindo ausencia de informacao externa aos dados alem da priori ini-
cial, a distribuicao a posteriori obtida sequencialmente e a mesma obtida em uma unica
aplicacao do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn) (Neves e
Zanini (2013)).
3.1.2 Estimacao Pontual
Um dos maiores problemas de inferencia estatıstica consiste na estimacao dos parame-
tros. A densidade a posteriori obtida via teorema de Bayes contem toda descricao pro-
babilıstica da informacao disponıvel a respeito da quantidade de interesse. O grafico da
densidade a posteriori (ou sua expressao analıtica) e a mais completa descricao do pro-
cesso inferencial. Entretanto, pode ser util sumarizar a informacao contida na posteriori,
mas esse processo deve ser feito com cuidado.
A forma mais simples de sumarizar a informacao e utilizar a estimacao pontual, e,
neste caso, toda informacao contida na distribuicao a posteriori e resumida em um unico
valor sobre a quantidade de interesse θ. A estimacao pontual consiste em calcular uma
estimativa θ para o parametro θ a partir de valores da amostra y e fontes adicionais
de informacao sobre θ. Geralmente, adota-se uma regra de decisao δ para calcular esta
estimativa do parametro: escolhe-se um estimador δ(Y ) que minimiza uma funcao perda
L(δ(Y ), θ). Suponha que existe uma perda L(d, θ) para cada valor de θ e cada possıvel
estimativa d pentencente ao espaco parametrico Θ. Desta forma, a perda esperada a
posteriori ou risco a posteriori e calculado por:
r(d | y) = E[L(δ(Y ), θ)] =
∫Θ
L(δ(Y ), θ)p(θ | y)dθ.
25
Segundo Migon et al. (2014), uma regra de decisao δ∗ e otima se tiver risco mınimo,
ou seja, R(δ∗) < R(δ),∀δ. Essa regra e chamada de regra de Bayes e seu risco e chamado
de risco de Bayes. Os estimadores δ(Y ) obtidos minimizando-se o risco esperado a pos-
teriori sao chamados estimadores de Bayes.
As funcoes de perda mais comumente utilizadas e seus respectivos estimadores de
Bayes sao:
• Funcao perda quadratica: L(δ(Y ), θ) = (θ − δ(Y ))′(θ − δ(Y ));
Media a posteriori: θ = E(θ | y);
• Funcao perda absoluta: L(δ(Y ), θ) = ‖(θ − δ(Y ))‖;
Mediana a posteriori: θ tal que∫ θ−∞ p(θ | y)dθ = 0.5;
• Funcao perda 0-1: L(δ(Y ), θ) =
k, se‖(θ − δ(Y ))‖ > ε
0, se‖(θ − δ(Y ))‖ ≤ ε;
Moda a posteriori: θ tal que p(θ | y) = supθ∈Θp(θ | y);
3.1.3 Estimacao Intervalar
Como obsevado anteriormente, deve-se ter cautela ao tentar sumarizar a informacao
contida na distribuicao a posteriori, ja que a forma mais adequada de expressar essa in-
formacao e atraves desta distribuicao. Ao se fazer uma estimacao pontual, a informacao
esta sendo resumida em um unico valor, o que muitas vezes pode nao ser adequado. Alem
de calcular uma estimativa para o parametro, pode ser bastante util estimar o quao pre-
cisa e esta estimativa. Uma possibilidade e associar estimativas pontuais a medidas de
incerteza sobre elas. Pode-se, por exemplo, atraves da distribuicao a posteriori, encontrar
um intervalo para θ onde esta concentrada a maior massa de probabilidade. Idealmente,
26
este intervalo deve ser o menor possıvel, mas que contenha muita massa de probabili-
dade. O tamanho deste intervalo informa a dispersao dos valores de θ. Assim, quanto
menor comprimento do intervalo, mais concentrada esta a distribuicao deste parametro
e, quanto menor, mais dispersa esta a distribuicao. Este intervalo e chamado intervalo
de credibilidade.
Definicao: Seja θ uma quantidade desconhecida definida em Θ. Um intervalo C ∈ Θ
e um intervalo 100(1− α)% de credibilidade para θ se P (θ ∈ C | y) ≥ 1− α. Nesse caso,
1− α e chamado nıvel de credibilidade.
Uma caracterıstica importante dos intervalos de credibilidade e que eles sao invari-
antes a transformacoes 1-a-1 do parametro, ou seja, se C e um intervalo de credibilidade
100(1−α)% para θ e φ = φ(θ) e uma transformacao 1-a-1 de θ, entao φ(C) e um intervalo
de credibilidade 100(1− α)% para φ.
3.1.4 Distribuicao Preditiva
E interessante notar que o processo sequencial de inferencia esta intimamente ligado a
distribuicao preditiva, a partir da qual sao realizadas as previsoes sob o enfoque inferen-
cial bayesiano, no caso em que os dados constituem uma serie temporal. A distribuicao
preditiva e de grande importancia nao so pela sua capacidade de fazer previsoes, como
tambem para a avaliacao da adequacao do modelo teorico formulado pelo estatıstico aos
dados reais.
A distribuicao preditiva para uma observacao futura yn+k, k ∈ N a partir do con-
junto de observacoes y1, . . . , yn e a distribuicao de probabilidade (ou funcao densidade)
dada por
27
p(yn+k | yn, ..., y1) =
∫Θ
l(θ; yn+k)π(θ | yn, ..., y1)dθ = Eθ|y1,...,yn(l(θ; yn+k)).
Assim, o inverso da constante de proporcionalidade em (3.1) e justamente p(yn|y1, . . . , yn−1),
isto e, a distribuicao preditiva 1 passo a frente, condicional a (y1, . . . , yn−1).
A distribuicao preditiva para yn+k pode ser interpretada como uma media dos valores
de l(θ; yn+k) ponderados pela posteriori de θ | (yn, ..., y1). Neste ponto, e importante
observar que a predicao sob o enfoque Bayesiano e condicionada apenas a observacao do
vetor de observacoes, sem nenhuma dependencia do vetor parametrico.
3.2 Procedimento de inferencia via MCMC
3.2.1 Introducao
Nem sempre e possıvel obter a distribuicao a posteriori de forma analıtica, devido a
integral presente no denominador de (3.1). Nesse caso, a posteriori deve ser aproximada
computacionalmente. Uma possibilidade e o uso de Metodos de Monte Carlo Via Cadeias
de Markov.
Os metodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia
de Markov irredutıvel, recorrente positiva e aperiodica cujo espaco de estados Θ seja o
suporte do vetor parametrico θ, de modo que esta cadeia convirja em distribuicao para
a densidade a posteriori π(θ | y), dado qualquer estado inicial em Θ da cadeia.
O que se faz e simular uma ou mais realizacoes dessa cadeia e tomar os valores obser-
vados apos um determinado numero de iteracoes m a partir do qual seja possıvel assumir
28
que a distribuicao estacionaria, ou seja, a densidade a posteriori, tenha sido alcancada.
Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribuicao a
posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (media, variancia,
quantis, enre outras) da posteriori atraves das respectivas medidas observadas na amos-
tra obtida.
Uma forma empırica de verificar a convergencia para a distribuicao a posteriori de
interesse e simular multiplas cadeias independentemente, cada uma delas inicializada
num ponto distinto no espaco parametrico. Como a convergencia e garantida para qual-
quer estado inicial, a partir do momento em que as cadeias se encontram e passam a
apresentar um mesmo comportamento ao longo do tempo, tem-se um forte indıcio de
que a distribuicao estacionaria foi alcancada. Denomina-se perıodo de aquecimento da
cadeia o intervalo de tempo discreto transcorrido ate se observar indıcios da convergencia.
Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa
ter boas estimativas das caracterısticas de interesse a posteriori. Porem, tambem e de-
sejavel que os valores simulados nao apresentem redundancia, isto e, que nao sejam muito
autocorrelacionados. Do contrario, uma analise precipitada levando em conta apenas o
tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com
uma precisao maior do que a realidade. O que se costuma fazer e, apos o perıodo de
aquecimento, tomar apenas os valores espacados de k unidades no tempo, de forma que
as autocorrelacoes sejam proximas de zero.
A seguir, sao descritos os dois metodos MCMC que foram implementados neste tra-
balho: Metropolis-Hastings e o Amostrador de Gibbs.
3.2.2 Metropolis-Hastings
Sejam Θ o suporte do vetor parametrico θ e {Xt} uma cadeia de Markov (C.M.)
irredutıvel e aperiodica com funcao de transicao q : Θ→ Θ. Costuma-se fazer referencia
29
a funcao de transicao q como densidade proposta.
Considere a distribuicao a posteriori π?(θ) = π(θ | y) com nucleo n?(θ) e a C.M. com
funcao de transicao p : Θ→ Θ dada por:
p(θ1, θ2) = q(θ1, θ2)α(θ1, θ2),
α(θ1, θ2) = min
{1,π?(θ2)q(θ2, θ1)
π?(θ1)q(θ1, θ2)
}= min
{1,n?(θ2)q(θ2, θ1)
n?(θ1)q(θ1, θ2)
}.
A funcao α garante que p e π? satisfacam a condicao de reversibilidade
π?(θ1)p(θ1, θ2) = π?(θ2)p(θ2, θ1), ∀θ1, θ2 ∈ Θ.
Essa condicao implica π? ser distribuicao invariante da cadeia com funcao de transicao
p.
Portanto, fornecida a densidade proposta q, prossegue-se com a simulacao da cadeia
com funcao de transicao p da seguinte da forma:
1. Escolhe-se um valor inicial θ(0) ∈ Θ (i=0);
2. Dado θ(i), amostra-se um valor θ? de q(θ(i), •);
3. Com probabilidade α(θ(i), θ?), fazemos θ(i+1) = θ? e com probabilidade 1−α(θ(i), θ?)
fazemos θ(i+1) = θ(i).
4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3.
A teoria subjacente garante que a cadeia de Markov com funcao de transicao p con-
verge para a distribuicao π(θ | y) para qualquer densidade proposta q escolhida e qualquer
valor inicial θ(0). Cabe ressaltar, porem, que a escolha de q afeta bastante o tempo de con-
vergencia da cadeia e, portanto, deve-se estudar boas propostas antes da implementacao
dos metodos MCMC. Gamerman (1998) e Migon et al. (2013), por exemplo, tratam de
30
duas formas de especificar a proposta q visando justamente diminuir o tempo computa-
cional necessario a convergencia das cadeias.
3.2.3 Amostrador de Gibbs
O amostrador de Gibbs e um caso particular do algoritmo de Metropolis-Hastings em
que a probabilidade de aceitacao de cada valor gerado e sempre 1. Portanto, os argu-
mentos que justificam a convergencia do metodo sao os mesmos exibidos na secao anterior.
Seja θ = (θ1, . . . , θn) o vetor de parametros e, inicialmente, suponha conhecidas as n
condicionais completas (θ1 | θ2, . . . , θn, y), . . . , (θn | θ1, . . . , θn−1, y). A seguir, descreve-se
as etapas do algoritmo do amostrador de Gibbs:
1. Escolha n valores iniciais θ(0)1 , . . . , θ
(0)n (i=0)
2. Sorteia-se um valor θ(i+1)1 de θ1 | θ(i)
2 , . . . , θ(i)n ;
Sorteia-se um valor θ(i+1)2 de θ2 | θ(i+1)
1 , θ(i)3 , . . . , θ
(i)n ;
...
Sorteia-se um valor θ(i+1)n de θn | θ(i+1)
1 , . . . , θ(i+1)n−1 ;
3. Repete-se a etapa anterior para as iteracoes seguintes (i=1,2,3,..).
A suposicao inicial de que as condicionais completas sao conhecidas nao e estrita-
mente necessaria. Uma vez que o nucelo dessas distibuicoes e sempre conhecido, pode-se
utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa
cuja forma analıtica seja desconhecida durante a etapa 2 do algoritmo.
31
3.2.4 Resumo das etapas para implementacao dos metodos MCMC
1. Estipula-se a funcao de verossimilhanca l(y | θ) e especifica-se distribuicao a priori
para o vetor de parametros θ;
2. Obtem-se o nucleo da posteriori π(θ | y) atraves do teorema de Bayes;
3. Obtida a densidade conjunta a posteriori, deve-se encontrar o nucleo de cada uma
das condicionais completas e identificar quais correspondem a distribuicoes conhe-
cidas;
4. Escolhe-se os valores iniciais no suporte do vetor parametrico e a proposta q;
5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que
se fizer necessario amostrar de uma distribuicao condicional completa cuja forma
analıtica seja desconhecida, convenciona-se utilizar um passo do algoritmo geral de
Metropolis-Hastings;
6. Apos diagnosticar indıcios de que a convergencia da cadeia foi alcancada, considera-
se os valores obtidos posteriormente pelo algoritmo como amostra da distribuicao
a posteriori;
7. Atraves da amostra final obtida apos escolher um espacamento adequado, estima-se
as caracterısticas de interesse referentes a distribuicao a posteriori.
32
3.3 Modelos Dinamicos
Nao raramente, dados circulares sao observados no tempo. Por exemplo, e tıpico ter-
se estacoes monitorando a direcao dos ventos ao longo do tempo. Extensoes dinamicas
de modelos para dados circulares sao muito uteis a medida que possibilitam a modelagem
de padroes que evoluem no tempo e levam em conta a autocorrelacao existente em uma
serie temporal.
Considere uma serie temporal (Yt, t = 1, 2, 3, . . .), onde Yt e um vetor aleatorio ob-
servavel (m× 1). Para se fazer inferencia em series temporais, em particular para prever
o valor de Yt+1 dadas as observacoes passadas (Y1, . . . , Yt), e preciso especificar a lei de
probabilidade do processo {Yt}, ou seja, e preciso especificar a estrutura de dependencia
entre as variaveis Y ′t s (Petris et al. (2009)). Assuma-se que a lei de probabilidade asso-
ciada a Yt dependa de um processo latente {θt}.
A.1 (θt, t = 0, 1, . . .) e uma cadeia de Markov, isto e, θt depende dos valores passados
(θ0, θ1, . . . , θt−1) somente atraves de θt−1. Portanto, a lei de probabilidade do processo
(θt, t = 0, 1, . . .) e especificada, atribuindo-se a densidade inicial p0(θ0) de θ0 e as densi-
dades de transicao p(θt | θt−1) de θt condicionalmente a θt−1.
A.2 Condicionalmente a (θt, t = 0, 1, . . .) os Y ′t s sao independentes e Yt depende
somente de θt. Entao, para qualquer n ≥ 1, (Y1, . . . , Yn) | (θ1, . . . , θn) tem densidade
conjunta condicional∏n
t=1 f(yt | θt).
A dependencia entre as variaveis pode ser deduzida a partir da lei de probabilidade do
processo aleatorio conjunto((θt, Yt), t = 1, 2, . . .) que e escrita a partir das suposicoes (A1)-
(A2). E importante ressaltar que Yt e condicionalmente independente das informacoes
passadas (Y1, . . . , Yt−1) dado o valor de θt, o que leva a uma outra interpretacao para θt:
tal quantidade representa uma informacao quantitativa que sumariza o historico passado
33
do processo observado e ajuda a prever o comportamento deste processo no futuro.
Uma classe muito importante de modelos de espaco de estados e dada pelos mode-
los de espaco de estados lineares Gausssianos, tambem chamados de Modelos Lineares
Dinamicos(MLD). Esta classe de modelos contempla os casos em que a resposta tem dis-
tribuicao normal. Para esses modelos em particular, o procedimento de inferencia pode
ser encontrado em West e Harrison (1999, capıtulo 4). Ha uma classe mais abrangente
de modelos onde a resposta pertence a famılia exponencial e esta classe e chamada de
modelos lineares dinamicos generalizados(MLDG). Esta classe engloba os modelos linea-
res dinamicos, ja que a distribuicao normal pertence a famılia exponencial. Um possıvel
esquema de inferencia neste contexto pode ser encontrado em West e Harrison (1999,
capıtulo 14).
3.3.1 Modelos Lineares Dinamicos (MLD)
A classe de Modelos Lineares Dinamicos (MLD) se aplica nos casos em que a distri-
buicao da variavel resposta e normal. Esses modelos permitem explicar de forma dinamica
a variavel resposta a partir de covariaveis, blocos representando tendencia e sazonalidade
e qualquer outra estrutura que possa ser util no estudo desta variavel dependente por
meio de um preditor linear, quando se acredita que a relacao entre a resposta e as variaveis
explicativas muda com o passar do tempo.
O MLD em sua forma geral e descrito por duas equacoes, sendo elas a equacao de
observacao, que descreve a relacao entre variaveis explicativas e a variavel resposta, e
a equacao de evolucao, que descreve a forma com que os parametros do modelo variam
conforme o tempo. Para cada t, um modelo linear dinamico univariado, representado
pela quadrupla Ft, Gt, Vt,Wt e definido por:
34
Equacao de Observacao: Yt = Ftθt + νt, νt ∼ N [0, Vt]
Equacao de Evolucao: θt = Gtθt−1 + wt, wt ∼ N [0,Wt]
Informacao Inical: (µ0 | D0) ∼ N [m0, C0]
onde as sequencias vt e wt sao independentes e mutualmente independentes, alem de
serem independentes de (µ0 | D0). Para que se possa obter distribuicao conjunta a pos-
teriori de forma analıtica, por meio do Filtro de Kalman, os valores de Vt e Wt podem
ser desconhecidos, mas os valores de Gt e Ft sao conhecidos.
Para os casos em que a distribuicao da variavel resposta pertence a famılia exponen-
cial, e possıvel encontrar metodos para se fazer Inferencia Bayesiana em West e Harrison
(1999).
3.4 Esquemas de Amostragem em Modelos Dinamicos
Ao se trabalhar com modelos dinamicos em que a distribuicao a posteriori nao esteja
disponıvel analiticamente, e usual que se utilize os metodos MCMC decompondo o es-
quema em amostragem dos estados condicional aos parametros estaticos e amostragem
dos parametros estaticos condicional ao vetor de estados. No caso particular de mo-
delos lineares dinamicos, os estados podem ser amostrados conjuntamente utilizando-se
um tipo de amostrador de Gibbs chamado Foward Filtering Backward Sampling (FFBS)
(Fruhwirth-Schnatter, 1994; Carter e Kohn, 1994).
3.4.1 Foward Filtering Backward Sampling
O esquema FFBS foi proposto em Fruhwirth-Schnatter(1994) e Carter and Kohn
(1994) com o objetivo de se obter amostras do vetor de estados em um Modelo Linear
Dinamico(MLD) de forma eficiente. O algoritmo consiste em amostrar o vetor de estados
conjuntamente utilizando as distribuicoes filtradas e suavizadas destes parametros. Para
um MLD da forma:
35
Yt = F′
t θt + vt, vt N [0, Vt]
θt = Gtθt−1 + wt, wt N [0,Wt],
a amostragem do vetor de estados pode ser decomposta em dois passos e funciona da
seguinte maneira:
Foward Filtering
Este passo consiste na obtencao do vetor de medias mt e matriz de covariancias
Ct atraves das equacoes do filtro de Kalman(1960). O esquema para obtencao destas
quantidades se da da seguinte forma:
1. Posteriori em t-1:
θt−1 | Dt−1 ∼ N [mt−1, Ct−1]
2. Priori em t:
θt | Dt−1 ∼ N [at, Rt]
onde:
at = Gtmt−1
e Rt = GtCtG′t +Wt
36
3. Preditiva:
Yt | Dt−1 ∼ N [ft, Qt]
onde:
ft = F′
tat−1
e Rt = FtRtF′t + Vt
4. Posteriori em t:
θt | Dt ∼ N [mt, Ct]
sendo:
mt = at + Atet
e Ct = Rt − AtQtA′t
onde:
At = RtFtQ−1t
e et = Yt − ft
37
Backward Sampling
O passo Backward Sampling do algoritmo e baseado na decomposicao da distribuicao
a posteriori conjunta dos parametros de estado da forma
p(θ1, ..., θT | DT ) = p(θT | DT )T−1∏t=1
p(θt | θt+1, Dt)
Pelo teorema de Bayes, para t=T-1,...,1,
p(θt | θt+1, Dt) ∝ p(θt+1 | θt, Dt)p(θt | Dt)
representa a densidade de uma distribuicao normal com media
mst = mt + CtG
′t+1(Gt+1CtG
′t+1 +Wt+1)−1(θt+1 −Gt+1mt)
e variancia
Cst = Ct − CtG′t+1(Gt+1CtG
′t+1 +Wt+1)−1Gt+1Ct
em que mt e Ct sao o primeiro e segundo momentos obtidos atraves do Foward Filtering
e mst e Cs
t sao chamados momentos suavizados.
Algoritmo 3.1: Foward Filtering Backward Sampling
Usando o FFBS, a obtencao de uma amostra do vetor parametrico de estados na
iteracao i do algoritmo se da da seguinte forma:
38
1. Utiliza-se o Foward Filtering para calcular m(i)t e C
(i)t , t=1,...,T, onde m
(i)t e C
(i)t
sao o primeiro e segundo momentos da distribuicao filtrada no tempo t.
2. Sorteia-se θ(i)T da distribuicao normal com vetor de medias m
(i)T e matriz de co-
variancia C(i)T , onde θ
(i)T e o vetor de estados no tempo T.
3. Sorteia-se θ(i)t da distribuicao normal com media suavizada m
s(i)t e variancia suavi-
zada Cs(i)t , onde θ
(i)t e o vetor de estados no tempo t e m
s(i)t e C
s(i)t sao o primeiro
e segundo momentos da distribuicao suavizada no tempo t.
39
Capıtulo 4
Modelos Dinamicos para Dados
Circulares
No capıtulo 3, foram abordados modelos e metodos de estimacao usualmente utili-
zados para se trabalhar com dados que assumam valores na reta. Por vezes, pode-se
ter interesse em dados que sejam observados temporalmente e que possam assumir va-
lores em um intervalo de comprimento 2π. Pode-se querer observar, por exemplo, como
a direcao dos ventos muda ao longo de um dia em uma cidade, ou como o numero de
pacientes que dao entrada em certo hospital muda ao longo da semana. Para esses tipos
de dados, os modelos e metodos de estimacao estudados anteriormente podem nao ser
adequados.
O objetivo, neste capıtulo, e trabalhar com modelos circulares sem prescindir do tra-
tamento de autocorrelacao temporal inerente a dados observados no tempo. Para isso,
no presente trabalho, utilizou-se dois modelos base.
40
Modelo Von Mises Dinamico
Yt ∼ υM(µt, κ)
µt = g(αt + F ′tθt)
αt ∼ υM(αt−1, κα)
θt = Gtθt−1 + ωt, ωt ∼ N(0,Wt)
Onde:
• θt e um vetor parametrico associado a covariaveis lineares;
• αt e um nıvel com evolucao dinamica;
• κ, κα e Wt sao repectivamente parametros de concentracao observacional, concen-
tracao da evolucao do nıvel e matriz de covariancia de evolucao;
• g(•) e uma funcao de ligacao que mapeia valores da reta ao cırculo;
• Ft e um vetor de regressoras definidas na reta e supostas conhecidas;
• Gt e a matriz de evolucao, cujas componentes sao supostas conhecidas.
Uma extensao natural para esse modelo seria considerar, ao inves de apenas um nıvel
dinamico, um grupo de regressoras circulares com dinamica associada e fazer com que
a evolucao do vetor de estados atrelado as variaveis circulares tivesse uma distribuicao
Von Mises multivariada, como a proposta por Mardia et al. (2008). Uma dificuldade
no uso dessa distribuicao e o fato de que, para dimensoes superiores a 2, sua constante
normalizadora nao tem expressao analıtica fechada.
Modelo Wrapped Normal Dinamico
41
Yt ∼ WN(F ′tθt, σ2)
θt = Gtθt−1 + ωt,
ωt ∼ N(0,Wt)
onde:
• θt e o vetor de estados no tempo t;
• Ft e um vetor de regressoras definidas e/ou componentes sazonais, estruturais de
tendencia e com todos os elementos supostos conhecidos;
• Gt e a matriz de evolucao suposta conhecida.
4.1 Modelo Von Mises Estatico e Dinamico
O modelo Von Mises e um dos modelos mais utilizados ao se trabalhar com dados
univariados de natureza circular. No contexto de inferencia Bayesiana, para um modelo
estatico da forma:
Yt ∼ vM(µ, κ)
onde µ e estatico, Guttorp e Lockhart (1988) sugerem prioris conjugadas para os casos
em que um dos parametros da distribuicao ou ambos sao considerados desconhecidos.
42
Ainda se tratando de um modelo Von Mises estatico, Damien e Walker (1999) for-
necem um esquema completo de inferencia bayesiana, baseado nas prioris sugeridas em
Guttorp e Lockhart (1988) para simplicar o uso do MCMC quando a resposta e Von Mi-
ses e µ e estatico, mas restringem-se a obtencao da moda a posteriori para o parametro
de concentracao. Utilizando as prioris sugeridas e a partir da introducao de variaveis
latentes convenientes, tem-se condicionais completas conhecidas para os parametros de
interesse, evitando-se, assim, a complicacao gerada no processo de escolhas de propostas
para a utilizacao eventual de um algoritmo de Metropolis-Hastings.
Fez-se um estudo simulado utilizando o esquema proposto cujos resultados encontram-
se no Apendice A e, atraves deste estudo, foi possıvel perceber algumas limitacoes: pro-
blemas numericos surgiram quando se tentou trabalhar com series temporais longas (as
aplicacoes do artigo se baseiam em series de tamanho em torno de 10) e a extensao para
o caso em que a direcao media µ e dinamica nao parece trivial.
Alem do estudo simulado utilizando o metodo sugerido por Damien e Walker (1999),
fez-se um estudo a partir da aplicacao do metodo MCMC programado de forma indepen-
dente. O algoritmo MCMC aplicado nesse caso consistiu na utilizacao da priori sugerida
em Guttorp e Lockhart (1988), fazendo com que a condicional completa para o parametro
µ seja conhecida e na aplicacao de uma transformacao ψ = log(κ) para o parametro de
concentracao κ. Os resultados para este estudo simulado podem ser encontrados ainda
no Apendice A. A comparacao entre os resultados obtidos via MCMC programado de
forma independente e metodo proposto por Damien e Walker (1999), parecem levar a
conclusao de que a utilizacao do esquema MCMC sugerido baseado na transformacao
do parametro κ e na utilizacao de prioris convenientes leva a resultados melhores e mais
acurados do que a utilizacao do esquema de introducao de variaveis latentes proposto em
Damien e Walker (1999).
Gill e Hangartner (2010) tambem trabalham com resposta Von Mises, explicada por
um preditor que compreende um intercepto e regressoras. No esquema sugerido no ar-
43
tigo, a estimacao do intercepto e coeficientes das regressoras e feita utilizando MCMC,
ja o parametro de concentracao κ e estimado a partir de seu estimador de maxima veros-
similhanca, encontrado em Downs e Mardia (2002). A utilizacao do esquema proposto
por Gill e Hangartner (2010) em um conjunto de dados simulado a partir de covariaveis
disponıveis nao gerou bons resultados.
O foco desta dissertacao consiste em se trabalhar com modelos flexiveıs para dados
circulares temporais utilizando inferencia Bayesiana. Neste contexto, Lan et al. (2013)
sugere um esquema de filtro de partıculas para a estimacao de um nıvel dinamico, em
um modelo onde a resposta e Von Mises e a variancia de observacao e de evolucao sao
supostas conhecidas. A partir das referencias encontradas que trabalham com a Von Mi-
ses como distribuicao para a variavel resposta, nota-se que ha dificuldade na estimacao
do parametro de concentracao desta distribuicao.
Para o caso em que se deseja trabalhar com variaveis que eventualmente possam ser
utilizadas como explicativas para a variavel resposta, e as variancias tanto de observacao
quanto de evolucao sejam estimadas, nao se conhece nenhum trabalho de referencia. O
modelo de interesse e da seguinte forma:
Yt ∼ vM(µt, k), k desconhecido
µt ∼ vM(µt−1, ck)
µ0 ∼ vM(m0, ck)
Apesar de nao ter sido possıvel encontrar artigos que trabalhem com um modelo Von
Mises dinamico onde a variancia de observacao seja estimada de forma bayesiana, foi
possıvel utilizar as prioris sugeridas em Guttorp e Lockhart (1988) para se obter um es-
quema MCMC para a estimacao dos parametros µt, t = 1 . . . T e κ no modelo Von Mises
dinamico. Observou-se que utilizando a priori sugerida no artigo citado, pode-se obter
condicionais completas conhecidas para µt e, assim, pode-se utilizar um esquema Gibbs
para esses parametros de estado. Ja para o parametro de concentracao κ, trabalhou-se
44
com o algoritmo de Metropolis-Hastings a partir do uso da transformacao ψ = log(κ)
Fez-se um estudo simulado utilizando este esquema MCMC e os resultados podem
ser vistos no Apendice A. A partir desse estudo simulado, notou-se que ha dificuldade
na estimacao do parametro de concetracao κ e a incerteza associada a estimacao deste
parametro e grande. Deve-se ressaltar que a estimacao deste parametro parece complexa,
mesmo para modelos estaticos, conforme sugerem as discussoes em Damien e Walker
(1999) e Gill e Hangartner (2010).
A partir deste estudo, observou-se que os metodos propostos na literatura para se tra-
balhar com um modelo Von Mises parecem ser limitados. Apesar de ter sido possıvel fazer
uma extensao dos metodos ja estabelecidos para modelos estaticos, conseguindo aplica-
los em modelos dinamicos, chegando inclusive a resultados satisfatorios para estimacao
do parametro dinamico de posicao, foi possıvel peceber que extensoes que possibilitem o
uso de modelos assimetricos, multivariados e ate mesmo modelos dinamicos que incluam
um preditor linear compreendendo regressoras e sazonalidade podem nao ser triviais sob
adocao da distribuicao Von Mises.
Logo, passamos a adotar os os modelos ”Wrapped”, em que tais extensoes podem ser
mais naturalmente acomodadas.
4.2 Modelo Wrapped Normal Dinamico
Na classe dos modelos ”Wrapped”, o modelo wraped normal se destaca por ser uma
transformacao do modelo normal. Por ser um modelo comumente utilizado no estudo de
variaveis circulares e pelo fato de ser intuitivo pensar em extensoes dinamicas baseadas
45
em versoes “wrapped”de modelos de espaco de estados, que eventualmente incluam um
preditor compreendendo covariaveis e sazonalidade, blocos para tratamento de tendencia,
decidiu-se dar maior enfase, no desenvolvimento deste trabalho, a esse tipo de modelo.
No contexto de inferencia bayesiana, Jona-Lasinio et al. (2012) sugerem um metodo
para a estimacao dos parametros µ e σ2 de um modelo Wrapped Normal estatico. O
artigo trabalha com dados direcionais espaciais e um dos modelos utilizados no artigo,
para o caso particular em que se considera apenas uma localizacao, e da seguinte forma:
Yt ∼ WN(µ, σ2)
O metodo sugerido consiste em fazer uso da forma de construcao do modelo Wrapped
Normal. Como visto no capıtulo 2, se X ∼ N(µ, σ2) entao Y = X mod 2 π∼ WN(µ, σ2).
Pode-se escrever X em funcao de Y, ou seja, X = 2π ∗ k+Y , onde k e o numero de ”vol-
tas”dadas no cırculo, por vezes chamado de ”spinning number”. A partir daı, pode-se
pensar em um esquema que gere k, construa X em funcao de Y, e utilizar a metodologia
usual para a estimacao de µ e σ2 considerando que X tem distribuicao normal. Nota-se
que o papel da introducao da variavel latente k neste caso, e diferente daquele desempe-
nhado no artigo de Damien e Walker (1999), onde as variaveis introduzidas facilitam o
uso do MCMC, ja que a introducao de tais variaveis faz com que a distribuicao condi-
cional completa para os parametros de interesse seja conhecida. Em Jona-Lasinio et al.
(2012), a introducao da variavel latente k e utilizada como artifıcio para possibilitar o
uso de metodos de estimacao ja conhecidos.
Jona-Lasinio et al. (2012) sugerem que o modelo para os dados y1, y2, . . . , yn seja es-
crito em termos da distribuicao conjunta (Yi, Ki), i = 1, . . . , n, ou seja:
∏i
p(yi, ki) =∏i
1√2πσ2
exp
{−(yi + 2kiπ − µ)2
2σ2
}(4.1)
46
A introducao de k como variavel latente faz com que a implementacao do MCMC seja
mais facil, ja que dado k, elicitando-se prioris convenientes, tem-se condicionais comple-
tas para os outros parametros com forma analıtica fechada . No artigo, os valores de
k sao amostrados para cada localizacao e a cada iteracao. Sabe-se que e dificil amos-
trar no suporte 0,±1,±2, . . . de k. Para fins praticos, Mardia e Jupp (2009) sugerem
que a densidade em (4.1) seja aproximada atraves da truncagem de k. Jona-Lasinio
et al. (2012) chegam a conclusao de que o suporte de k pode ser bem aproximado por
−m, . . . , 0, . . . ,m, onde m = 1+⌊
3σ2π
⌋e bcc e o menor inteiro proximo a c. Tal reducao no
suporte de k e justificada pela discussao ao termino da subsecao 2.4.1, onde se observa, na
equacao (2.7), que a adocao desse truncamento da conta de praticamente toda a massa
da funcao densidade de interesse.
Baseando-se em ajustes de modelos para dados simulados sabe-se que o par {K, σ2}
nao sera bem identificado a menos que seja elicitada uma priori informativa para σ2.
Alem disso, quando o parametro de concentracao c da Wrapped Normal e pequeno (σ2
grande), e difıcil distinguir a distribuicao Wrapped Normal da distribuicao uniforme no
cırculo. A partir de experimentos simulados, onde foram geradas 1000 amostras da dis-
tribuicao Wrapped Normal e foram utilizados diferentes tamanhos amostrais e valores
diferentes para as variancias, Jona-Lasinio et al. (2012) reportam que testes de uniformi-
dade como Rayleigh, Kuiper-Watson e Rao falharam em distinguir a Wrapped Normal
e uniforme circular para σ2 = 3.252 com tamanhos de amostra pequenos (n = 30), para
σ2 = 4.02 quando n = 100 e para σ2 = 7.01 quando n = 1000. Segundo Jona-Lasinio
et al. (2012), e valido fazer uma analise exploratoria para obter os estimadores de mo-
mentos para µ e σ2 e verificar quando e adequado utilizar a distribuicao Wrapped Normal.
Fica claro que ha dificuldade na identificacao do par {σ2, K} e do ponto de vista
bayesiano, faz-se necessaria, portanto, a introducao de informacao a priori para identi-
ficacao do par.
No contexto de inferencia bayesiana, a atualizacao de Ki dados µ e σ2 pode ser feita
47
utilizando expressao em (2.7) para implementar um truncamento, ou seja, pode-se fazer
m = 1 +⌊
3σ2π
⌋e k ∈ {−m, . . . ,−1, 0, 1, . . . ,m}. Entao,
P (Ki = ki | µ, σ, xi) ≈ϕ( (xi+2kiπ−µ)
σ)∑m
ki=−m ϕ( (xi+2kiπ−µ)σ
)(4.2)
onde
ki = {−m, . . . ,−1, 0, 1, . . . ,m}.
A discussao acima serve de base para a escolha das especificacoes das prioris. Primeiro,
e usual assumir que µ e σ2 sao independentes. Para µ se pode adotar uma distribuicao
normal a priori da forma N(µ0, σ20). Lembrando que µ = µ + Kµ, entao implicitamente
diz-se que a priori para µ e uma Wrapped Normal e fica evidente que nao se pode apren-
der sobre µ atraves dos Xi, ou seja, em (4.2) nao se pode identificar os ki’s e kµ nem
os ki’s e µ. Alem disso, por causa da conjugacao, obtem-se a distribuicao condicional
completa de µ que sera N(σ20
∑i(xi+2πki)+σ
2µ0nσ2
0+σ2 ,σ2σ2
0
σ2+nσ20). Para σ2, Jona-Lasinio et al. (2012)
sugerem uma distribuicao Gama Inversa truncada a direita com parametros α0 e β0 e o
truncamento definido de acordo com σ2 e n, considerando as observacoes feitas anteri-
ormente. Por exemplo, se o tamanho da amostra for n = 30, a Gama Inversa pode ser
truncada a direita em π. Logo, a condicional completa para σ2 sera uma Gama Inversa
truncada com parametro de forma α0+n2
e parametro de escala β0+ 12
∑ni=1(xi+2kiπ−µ)2.
No artigo, o esquema MCMC funciona a partir da atualizacao de k, que acontece
atraves de probabilidades calculadas por meio da aproximacao para o suporte desta
variavel. A atualizacao de µ (que neste caso e estatico) e feita elicitando-se uma priori nor-
mal resultando em uma condicional completa normal para este parametro e, escolhendo-se
uma priori gama inversa para σ2, a condicional completa deste parametro tambem e co-
nhecida.
Como o foco deste estudo e trabalhar com modelos dinamicos, a partir das ideias
48
sugeridas em Jona-Lasinio et al. (2012), criou-se um metodo de estimacao para o caso
em que os parametros variam no tempo, para um modelo da forma:
Yt ∼ WN(F ′tθt, σ2)
θt = Gtθt−1 + ωt, ωt ∼ N(0,W ),
onde:
• θt e o vetor de estados no tempo t;
• Ft e um vetor de regressoras e/ou componentes para representacao de tendencia e
sazonalidade, com todas as componentes supostas conhecidas;
• Gt e a matriz de evolucao, suposta conhecida.
Condicionalmente a k, X = 2π ∗ k + Y tem distribuicao normal, e, portanto pode-se
pensar na utilizacao de metodos usuais de estimacao em MLD. Dos metodos disponıveis
neste caso, optou-se por utilizar o FFBS para a estimacao dos parametros do vetor de
estados. Se a priori elicitada para σ2 for inversa gama, a condicional completa deste
parametro sera conhecida. Do mesmo modo, se forem elicitadas prioris gama inversa
para wjj, j = 1, . . . , C, elementos da diagonal da matriz W, as condicionais completas
destes parametros tambem serao conhecidas. O esquema MCMC para este caso e dado
pelo seguinte algoritmo:
49
Algoritmo 4.1: MCMC para um modelo Wrapped Normal Dinamico
Inicia-se o algoritmo com valores iniciais µ0, σ20 e na iteracao i, executa-se os seguintes
passos:
1. Calcula-se m(i)t = 1 +
⌊3σ2(i−1)
2π
⌋, t = 1, . . . , T ;
2. Sorteia-se k(i)t ∈
{−m(i)
t , . . . , 0, . . . ,m(i)t
}, t = 1, . . . , T de acordo com as probabili-
dades dadas por:
P (K(i)t = k
(i)t | µ
(i−1)t , σ(i−1), xt) ≈
ϕ((xt + 2k(i)t π − µ
(i−1)t )/σ(i−1))∑m
(i)t
k(i)t =−m(i)
t
ϕ((xt + 2k(i)t π − µ
(i−1)t )/σ(i−1))
onde µ(i−1)t = F ′tθ
(i−1)t ;
3. Calcula-se y(i)t = 2k
(i)t π + xt.
4. Utiliza-se o Algoritmo 3.1 para gerar o vetor de estados θ(i)t para t = 1 . . . , T ;
5. Gera-se σ2(i) da condicional completa deste parametro. Se σ2 ∼ IG(α0, β0), a
condicional completa para este parametro sera uma gama inversa com parametros
α0 + n2
e β0 + 12
[∑Tt=1
(xt + 2k
(i)t π − F ′tθ
(i)t
)2].
6. Gera-se cada elemento w(i)jj da diagonal da matriz W, para j = 1, . . . , C e sendo
C o tamanho do vetor de estados, da condicional completa deste parametro. Se
wjj ∼ IG(ϕ0, δ0) para j = 1, . . . , C, a condicional completa para este parametro
sera uma gama inversa com parametros ϕ0 + n2
e δ0 + 12
[∑Tt=1
(µ
(i)t − µ
(i)t−1
)2].
50
4.2.1 Estudo Simulado
Em um primeiro momento, estudou-se o processo de estimacao em um modelo Wrap-
ped Normal estatico, como descrito em Jona-Lasinio et al. (2012). Ja o foco da dis-
sertacao consiste em trabalhar com modelos flexıveis especificamente para dados circu-
lares, pensou-se em um modelo Wrapped Normal dinamico como uma extensao de um
modelo Wrapped Normal. O processo de estimacao dos parametros de um Wrapped
Normal dinamico se deu a partir da aplicacao do Algoritmo 4.1.
Utilizou-se o Algoritmo 4.1 na estimacao dos parametros do seguinte modelo base:
Modelo Base:
Yt ∼ WN(F ′tθt, σ2)
θt = Gtθt−1 + ωt, ωt ∼ N(0,W ) (4.4)
Foram testados diferentes modelos, incluindo sazonalidade, regressoras, modelo de
tendencia polinomial de primeira e de segunda ordem e combinacoes dessas configuracoes.
Decidiu-se por reportar os ressultados somente de um modelo considerado mais completo,
com os seguintes parametros:
θt = (θ1t θ2t θ3t θ4t θ5t)
Ft = (1 Pt V Vt 1 0)
onde:
51
VVt = velocidade dos ventos no tempo t
Pt = pressao no tempo t
Gt =
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 −sen(2πt12
) cos(2πt12
)
0 0 0 cos(2πt12
) sen(2πt12
)
Utilizou-se as seguintes prioris:
θ11 ∼ N(2, 0.05)
θ21 ∼ N(0.001, 0.005)
θ31 ∼ N(−0.003, 0.005)
θ41 ∼ N(0.075, 0.005)
θ51 ∼ N(−0.05, 0.005)
wjj ∼ IG(2, 0.01), para j = 1, . . . , 5
Sendo:
wjj elemento j da diagonal da matriz W.
Foram geradas 100 replicas de series temporais de comprimento T=100 deste modelo.
Reportamos a saıda de uma unica replica, cujos resultados sao tıpicos daquilo que foi ob-
servado nas 100 replicacoes. Foram feitas 100000 iteracoes e os resultados foram obtidos
52
via Algoritmo 4.1.
O traco da cadeia gerada para σ2, via Algoritmo 4.1, e exibido na figura 4.2.1. A
figura 4.2.1 exibe a evolucao temporal da media a posteriori do preditor linear, junto aos
dados gerados na reta (esquerda) e aos dados no cırculo (direita).
Figura 4.1: Traco da cadeia de σ2 e valor verdadeiro (vermelho)
Figura 4.2: Dados × µ estimado (cinza)
53
Nota-se que parece ter sido possıvel fazer uma boa estimacao de σ2. Alem disso,
parece ter sido possıvel recuperar de forma satisfatoria as direcoes medias da serie tem-
poral gerada. Observa-se que em um grafico de serie temporal com suporte na reta, a
primeira impressao pode ser que o ajuste da direcao media nao tenha sido razoavel. Ao
se posicionar esses pontos (media a posteriori e observada), a cada tempo no cırculo,
ve-se que as direcoes ajustadas sao compatıveis com aquelas efetivamente observadas.
54
Capıtulo 5
Distribuicoes Circulares a partir de
Misturas
No capıtulo 4, tratamos de dois modelos dinamicos para dados circulares. Os modelos
adotados acomodam naturalmente a autocorrelacao de dados temporalmente observados,
bem como eventual nao estacionariedade nos processos geradores desses dados. Ainda
assim, tanto o modelo Von Mises quanto o Wrapped Normal pressupoem unimodalidade
no cırculo, a cada tempo, e distribuicao simetrica em torno da direcao media. Podem
existir situacoes em que haja multimodalidade de direcoes, em certo perıodo de tempo,
ou, ainda, assimetria da distribuicao circular. Distribuicoes de mistura podem acomodar
essas caracterısticas. Iniciamos este capıtulo com uma revisao sobre a teoria de distri-
buicoes de misturas, propondo uma versao circular desse tipo de modelo. Em seguida,
de forma a preservar o tratamento de autocorrelacao temporal, admitimos a existencia
de uma estrutura markoviana subjacente aos pesos das componentes da mistura. Sao
descritos os esquemas adotados para realizacao de inferencia bayesiana sobre os modelos
propostos e tais esquemas sao testados a partir de exercıcios com dados simulados.
55
5.1 Misturas de Distribuicoes: Fundamentos
Modelos de misturas sao, atualmente, aplicados em areas diversas como biometria,
genetica, medicina, marketing entre outras. Existem varias caracterısticas de distri-
buicoes de misturas que as fazem muito uteis na modelagem estatıstica.
Modelos estatısticos baseados em distribuicoes de misturas podem capturar muitas
caracterısticas especıficas de dados reais, como a multimodalidade, assimetria, curtose e
heterogeneidade. Sua extensao para modelos de mistura Markovianos e capaz de lidar
com muitas caracterısticas de series temporais reais como, por exemplo, dependencia de
longa duracao e heterocedasticidade condicional. Os modelos de misturas oferecem uma
extensao simples, mas muito flexıvel e util, de modelos estatısticos usuais. O preco pago
por essa flexibilidade e que a inferencia para estes modelos e mais complexa.
Muitos modelos estatısticos envolvem misturas de distribuicoes de alguma maneira.
O primeiro caso ja estudado que envolve, naturalmente, uma distribuicao de misturas,
pode ser encontrado em Feller (1943). Considere uma populacao constituida por L sub-
grupos, misturados aleatoriamente em proporcao aos seus tamanhos relativos η1, . . . , ηL.
Assume-se que o interesse esteja em alguma caracterıstica aleatoria Y que e heterogenea
entre os grupos e homogenea dentro de cada grupo. Dada a heterogeneidade entre os
grupos, Y tem uma distribuicao de probabilidade diferente em cada grupo, usualmente
assumida vinda de uma mesma famılia parametrica p(y|θ) com vetor parametrico θ di-
ferindo entre os grupos. Os grupos sao rotulados atraves de uma variavel indicadora
discreta S, que assume valores no conjunto 1, . . . , L. Quando amostra-se aleatoriamente
desta populacao, deve-se documentar nao so a variavel de interesse Y, mas tambem a
variavel indicadora de grupo S que denota de qual grupo veio esta observacao. A pro-
babilidade de amostrar do grupo S e denotada por ηS, e condicionalmente a S, Y e uma
variavel aleatoria com distribuicao p(y|θS), sendo θS o parametro referente ao grupo S.
A densidade conjunta p(y, S) e dada por:
56
p(y, S) = p(y | S)p(S) = p(y | θS)ηS.
Uma distribuicao de misturas finitas surge quando so se consegue observar a resposta
Y mas nao e possıvel obter o indicador de grupo S. A densidade marginal p(y) e dada
pela distribuicao de mistura a seguir:
p(y) =L∑S=1
p(y, S) = η1p(y | θ1) + . . .+ ηLp(y | θL).
Para esse modelo, tem-se:
µ = E(Y | υ) =L∑k=1
µkηk, (5.1)
σ2 = V (Y | υ) =L∑k=1
(µk + σ2k)ηk − µ2, (5.2)
onde µk = E[y | θk], σ2k = V [y | θk] e υ = (θ1, . . . , θL, η1, . . . , ηL).
A teoria para misturas de distribuicoes na reta descrita neste capıtulo baseia-se for-
temente em Fruhwirth-Schnatter (2006). Aliou-se a essa teoria o tratamento para dados
circulares advindos de uma mistura.
57
5.2 Estimacao Bayesiana para modelos de mistura
utilizando o MCMC
Uma distribuicao de misturas surge quando nao se sabe a qual grupo cada observacao
y pertence, ou seja, nao se sabe quais valores assumem as variaveis que denotam as
alocacoes S1, . . . , SN . Neste caso, pode-se pensar em um modelo de mistura como um
problema com dados incompletos introduzindo-se as alocacoes S como dados faltantes.
Para misturas de modelos pertencentes a famılia exponencial e possıvel fazer uma analise
conjugada quando as alocacoes S = (S1, . . . , SN) sao observadas (Fruhwirth-Schnatter
(2006)). A vantagem da introducao de S como dado faltante quando se trabalha com
misturas na famılia exponencial, e que condicionalmente a S, pode-se fazer uso de analise
conjugada e a estimacao dos parametros pode ser feita utilizando-se, por exemplo, o al-
goritmo MCMC.
A inferencia bayesiana para um modelo geral de mistura se baseia na estimacao do
vetor parametrico aumentado (S, υ), atraves da amostragem da distribuicao a poste-
riori p(S, υ | y), onde υ = (θ1, . . . , θL, η1, . . . , ηL) e assume-se que θi,∀i = 1, . . . , L sao
paramtros das distribuicoes pertencentes a famılia exponencial. A posteriori e encontrada
atraves do teorema de Bayes,
p(S, υ | y) ∝ p(y | S, υ)p(S | υ)p(υ). (5.3)
A amostragem da posteriori em (5.3) geralmente e feita atraves de metodos MCMC,
onde amostra-se υ condicionalmente a S e S e amostrado condionalmente a υ. As-
sim sendo, adotando-se distribuicoes a priori adequadas, as condicionais completas dos
parametros θi,∀i = 1, . . . , L sao conhecidas. A estrutura da condicional completa p(θ1, . . . ,
θL | S, y) depende da famılia de distribuicoes dos componentes da mistura e das dis-
58
tribuicoes a priori arbitradas. Se as componentes pertencem a famılia exponencial,
elicitando-se prioris convenientes, pode-se fazer uso de uma analise conjugada. Os
parametros θ1, . . . , θL sao independentes, dado S, e podem ser amostrados da condi-
cional completa p(θk | S, y), k = 1, . . . , L. Ademais, assumindo-se uma distribuicao a
priori Dirichlet D(e0, . . . , e0) para os pesos η, a distribuicao a posteriori de η dado S e
D(e1, . . . , eL), onde:
ek = e0 +Nk(S), k = 1, . . . , L, (5.4)
onde Nk(S) = # {Si = k} = # {i ∈ {1, . . . , L} | Si = k}.
O algoritmo a seguir resume o esquema de atualizacao.
Algoritmo 5.1: MCMC para um Modelo de Mistura
Para a estimacao dos parametros de um modelo de mistura, inicia-se o algoritmo com
valores iniciais S(0) e tem-se os seguintes passos:
1. Simulacao dos parametros condicional as alocacoes S(i):
• Amostra-se o vetor η(i) da distribuicao Dirichlet D(e1(S(i−1)), . . . , eL(S(i−1))),
onde ek(S(i−1)), k = 1, . . . , L e dado por (5.4).
• Amostra-se θ(i)1 , . . . , θ
(i)L da condicional completa p(θ1, . . . , θL | S(i−1), y).
59
2. Classifica-se cada observacao yj condicionalmente ao conhecimento de υ(i) = (θ(i)1 , . . . , θ
(i)L , η
(i)):
amostra-se Si de forma independente para j = 1, . . . , N , onde N e o numero de ob-
servacoes, da condicional completa p(Sj | υ(i), yj) dada por:
p(Sj | υ(i), yj) ∝ p(yj | θ(i)k )η
(i)k .
O Algoritmo 5.1 nao garante que a distribuicao a posteriori seja bem explorada e
deve-se ter cautela na utilizacao dos resultados obtidos via aplicacao do algoritmo expli-
citado. O comportamento das cadeias pode ser bastante imprevisıvel por consequencia
de um problema de identificacao de rotulos. Para ilustracoes do problema, Fruhwirth-
Schnatter (2006) fornece um exemplo com conjuntos de dados artificiais onde o Algoritmo
5.1 e aplicado e os resultados sao comparados a fim de ilustrar as consequencias deste
problema. Um algoritmo simples, mas eficiente para obter um amostrador que explora
a todo o espaco da distribuicao a posteriori, consiste em selecionar aleatoriamente uma
permutacao de rotulos ao final de cada iteracao do MCMC.
Algoritmo 5.2: MCMC com permutacao para estimacao em modelos de
misturas
1. Segue-se todos os passos do Algoritmo 5.1
2. Seleciona-se aleatoriamente uma das L! permutacoes ρs(1), . . . , ρs(L) dos rotulos.
Essa permutacao e aplicada a η(i), aos parametros de estados θ(i)1 , . . . , θ
(i)L e as
alocacoes S(i)
• Os pesos η(i)1 , . . . , η
(i)L sao substituıdos por η
(i)ρs(1), . . . , η
(i)ρs(L).
• Os parametros θ(i)k sao substituıdos por θ
(i)ρs(k) para k = 1, . . . , K
60
• As alocacoes S(i)j sao substituıdos por ρs(S
(i)j ), para j = 0, . . . , N .
5.3 Wrapped Misturas de Normais
Um modelo wrapped misturas de normais pode surgir, por exemplo, da necessidade
de se trabalhar com dados multimodais ou assimetricos situados no cırculo. Alguns con-
juntos de dados circulares multimodais interessantes podem ser encontrados em Fisher
e Lee (1994), que apresentam, por exemplo, um conjunto de dados referente aos tem-
pos de chegada de 254 pacientes em uma unidade de tratamento intensivo em 12 meses.
Alem da multimodalidade, tambem pode haver situacoes em que o conjunto de dados e
assimetrico. Para os casos em que se deseja modelar dados considerando uma possıvel
assimetria, distribuicoes de misturas tambem se mostram adequadas.
Para conjuntos de dados bimodais, Ravindran e Ghosh (2001) sugerem o uso de uma
distribuicao “wrapped”Beta. Wu et al. (2012) fazem uso de metodos bayesianos variaci-
onais para estimacao dos parametros de um modelo de mistura de normais. O metodo
utilizado tem a desvantagem de resultar em diferentes estimativas para os parametros do
modelo para diferentes valores iniciais arbitrados.
Utilizamos, para geracao de modelos de mistura no cırculo, um modelo de misturas
na reta que, por meio de uma variavel latente (spinning number), e transposto para o
cırculo. Tal quantidade denota o numero de voltas ao se mapear o modelo da reta ao
cırculo. A ideia, ja mencionada no capıtulo 4, e adotada em Jona-Lasinio et al. (2012).
Na elaboracao deste trabalho, a introducao da variavel latente k desempenhou um papel
61
crucial no processo de estimacao dos parametros do modelo wrapped misturas de dis-
tribuicoes normais, ja que dado k, tem-se uma mistura de distribuicoes normais e neste
caso, pode-se utilizar os esquemas de estimacao usuais para os parametros de um modelo
de misturas.
Denotando por y = (y1, . . . , yN) o conjunto de dados circulares observados, pode-se
utilizar o seguinte algoritmo para estimacao dos parametros de um modelo Wrapped
Misturas de Distribuicoes Normais:
Algoritmo 5.3: MCMC para Wrapped Misturas de Distribuicoes Nor-
mais
Inicia-se o algoritmo com vetores iniciais L-dimensionais µ0, σ20, η0 e S0 e na iteracao
i, executa-se os seguintes passos:
1. Calcula-se m(i)j = 1 +
⌊3σ
2(i−1)l
2π
⌋, j = 1, . . . , N e l ∈ {1, . . . , L} e o ındice que indica
a alocacao da variavel yj e bcc e o menor inteiro proximo a c.
2. Sorteia-se kj,i ∈{−m(i)
j , . . . , 0, . . . ,m(i)j
}, j = 1, . . . , N de acordo com as probabi-
lidades dadas por:
P (Kj,i = kj,i | µS, σS, xj, Sj,i) ≈ϕ((yi + 2kj,iπ − µS)/σS))∑m
kj,i=−m ϕ((yi + 2kj,iπ − µS)/σS))
3. Calcula-se xj,i = 2kj,iπ + yj,
62
4. Segue-se todos os passos do Algoritmo 5.2, considerando que θ(i)l = (µ
(i)l , σ
2(i)l ), l =
1, . . . , L.
5.3.1 Estudo Simulado
Em um primeiro momento, estudou-se um modelo de misturas de normais com L = 2.
Como o foco da dissertacao consiste em trabalhar com modelos especificamente para da-
dos circulares, pensou-se em wrapped mistura de normais como uma extensao de modelos
de misturas de normais, ja que a distribuicao Wrapped Normal e obtida “enrolando-
se”uma distribuicao normal no cırculo. Para estimacao dos parametros de um “Wrap-
ped”Misturas de Normais, foi utilizado o Algoritmo 5.3.
Foram feitas 100 simulacoes de 100 conjuntos de dados artificiais a partir do seguinte
modelo:
Xi | µ1, µ2, σ21, σ
22, η1, η2 ∼ η1N(µ1, σ
21) + η2N(µ2, σ
22), i = 1, . . . , 100
Yi = Ximod(2π)
onde:
µ1 = 2;
µ2 = 4;
σ1 = 0.01;
σ1 = 0.25;
η1 = 0.3;
63
η2 = 0.7.
Utilizou-se as seguintes prioris para os parametros de interesse:
µ1 ∼ N(3, 1)
µ2 ∼ N(3, 1)
σ21 ∼ IG(2.0225, 0.153375)
σ22 ∼ IG(2.0225, 0.153375)
η1 ∼ β(1.5, 1)
Como e necessario impor priori informativa para σ2, a escolha das prioris para σ21
e σ22 foi feita de forma a preservar a relacao entre os parametros α e β da distribuicao
IG(α, β) utilizada em uma das aplicacoes de Jona-Lasinio et al. (2012), onde a moda e
a variancia de σ2 sao respectivamente 0.4 e 0.04.
Os resultados obtidos via Algoritmo 5.3 para uma das replicas de conjuntos de dados
artificiais estao representados a seguir.
Figura 5.1: Traco das cadeias de µ = (µ1, µ2)
64
Figura 5.2: Traco das cadeias de σ2 = (σ21, σ
22)
Pode-se notar que os tracos das cadeias de µ e σ2 parecem assumir os mesmos valores,
ou seja, parece que se conseguiu explorar o espaco da posteriori de forma balanceada.
Isto se deve a permutacao aleatoria de rotulos descrita no Algoritmo 5.2.
Figura 5.3: Media geral da mistura
65
Figura 5.4: Variancia geral da mistura
Nota-se tambem, que se conseguiu estimar bem a media geral da mistura, apesar do
mesmo nao ter acontecido com a variancia.
Calculou-se a media das medias a posteriori da mistura considerando-se cada replica
deste modelo, conforme exibe a figura 5.5.
Figura 5.5: Media das medias da mistura em cada replica e valor real da media da mistura
(vermelho)
Nota-se que foi possıvel estimar de forma satisfatoria o verdadeiro valor da media da
mistura (µ = 3.4) em todas as replicas. Alem disso, calculou-se a media das variancias
da mistura considerando todas as iteracoes em cada replica deste modelo.
66
Figura 5.6: Histograma da media das variancias da mistura em cada replica e valor real da
variancia da mistura (vermelho)
Pode-se perceber que apesar de aparentemente nao ter sido possıvel recuperar o ver-
dadeiro valor da variancia (σ2 = 0.38), houve alguma concentracao de massa na regiao
proxima ao valor verdadeiro. Deve-se ressaltar que a estimacao desse parametro pa-
rece ser complexa, ha dificuldade na identificacao de σ2 e do “spinning number”k como
observado em Jona-Lasinio et al. (2012).
5.4 Modelos de Misturas Markovianas
Nesta secao, a ideia e estender os modelos de misturas para o caso em que se de-
seja trabalhar com series temporais, ou seja, deseja-se tratar formalmente autocorrelacao
temporal. A extensao para casos em que os dados sao observados temporalmente e feita
a partir da substituicao do indicador latente discreto Si, introduzido como uma variavel
indicadora de alocacao para modelos de misturas, por uma cadeia de Markov escondida.
67
Essa solucao leva a uma classe de modelos nao lineares para series temporais que resolve
uma grande variedade de problemas em analises de series temporais.
Seja Yt, t = 1, . . . , T uma serie temporal de observacoes univariadas assumindo valores
no espaco amostral que deve ser discreto ou contınuo. Uma serie temporal usual pode
ser considerada como uma realizacao de um processo estocastico {Yt}Tt=1. Assume-se
que a distribuicao de probabilidade do processo estocastico Yt dependa da realizacao de
um processo estocastico discreto escondido St. O processo estocastico Yt e diretamente
observavel enquanto que St e um processo aleatorio latente que e observavel somente
indiretamente atraves do efeito que causa nas realizacoes Yt.
O processo escondido {St}Tt=0 e um processo a tempo discreto com espaco de estados
finito {1, . . . , L} que atende a seguinte condicao:
C1 St e uma cadeia de Markov irredutıvel e aperiodica, comecando da distribuicao
ergodica η = (η1, . . . , ηL):
P (S0 = k | ξ) = ηK .
As propriedades estocasticas de St sao suficientemente descritas por uma matriz de
transicao ξ com dimensao (L × L), onde cada elemento ξjk e igual a probabilidade de
transicao do estado j para o estado k:
ξjk = P (St = k | St−1 = j),∀j, k ∈ {1, . . . , L}
Para St, uma cadeia de Markov de primeira ordem homogenea com matriz de transicao
ξ, qualquer distribuicao de probabilidade η = (η1, . . . , ηL) que atende a propriedade de
68
invariancia
ξ′η = η (5.5)
e chamada distribuicao invariante de St.
No caso em que L=2, a resolucao de 5.5 leva as seguintes probabilidades invariantes,
η1 =ξ21
ξ21 + ξ12
, (5.6)
η2 =ξ12
ξ21 + ξ12
. (5.7)
A importancia pratica da distribuicao invariante para a cadeia de markov St e que se
no tempo t-1 os estados St−1 sao advindos de uma distribuicao invariante η de ξ, entao
os estados de St sao mais uma vez advindos de η.
Seja τ(θ) uma famılia de distribuicoes parametricas, definida no espaco γ que pode
ser discreto ou contınuo, com densidade p(y | θ), indexada por um parametro θ ∈ Θ.
Seja {Yt}Tt=1 uma sequencia de variaveis aleatorias que depende de {St}Tt=0 da seguinte
forma:
C2 Condicionalmente ao conhecimento de S = (S0, . . . , ST ), as variaveis aleatorias
Y1, . . . , YT sao estocasticamente independentes. Para cada t ≥ 1, a distribuicao de Yt e
uma das L distribuicoes τ(θ1), . . . , τ(θL), dependendo do estado de St:
69
Yt | St = k ∼ τ(θk).
Para um processo estocastico {St, Yt}Tt=1 atendendo as condicoes C1 e C2, a distri-
buicao marginal de Yt e:
p(yt | υ) =L∑k=1
P (yt | St = k, υ)P (St = k | υ)
Como a cadeia de Markov St e estacionaria e a variavel aleatoria Yt | St = k tem
densidade p(yt | θk), obtem-se que a distribuicao de Yt e uma mistura finita de τ(θk) com
as probabilidades ergodicas η = (η1, . . . , ηL) sendo os pesos da mistura:
p(yt | υ) =L∑k=1
p(yt | θk)ηk,
e a media e a variancia sao dadas pelas equacoes (5.1) e (5.2).
Assim, o processo Yt e dito gerado de uma mistura de Markov finita das distribuicoes
τ(θ). Yt e estacionario e o processo e autocorrelacionado, uma diferenca importante do
modelo de misturas usual, ja que o mesmo produz sequencias de variaveis aleatorias in-
dependentes.
Para um modelo de misturas markovianas de dois estados, a funcao de autocorrelacao
e dada por:
ρYt(h | υ) =η1η2(µ1 − µ2)2
σ2λh, h = 1, 2, ...
onde λ = ξ11 − ξ21 e o segundo autovalor da matriz de transicao ξ.
70
O modelo de mistura markoviana pode ser aplicado em diversas areas, incluindo biolo-
gia, economia, financas entre outras. Diferentes terminologias sao artribuıdas a modelos
baseados em cadeias de Markov escondidas. Sao usados, por exemplo, os termos ”Markov
Switching Model”e Modelos de Markov Escondidos.
5.4.1 Estimacao Bayesiana para modelos de misturas markovi-
anas utilizando o MCMC
A inferencia sobre St, dadas as informacoes yT = (y1, ., ., .yT ) a respeito do processo
Yt observavel para todo t ≤ T , e expressa em termos da distribuicao de probabilidade
P (St = l | yt, ), l = 1, . . . , L. O significado preciso destas probabilidades depende da
relacao entre t e T. As probabilidades P (St = l | yt, ) com t > T sao as preditivas, ja
as probabilidades P (St = l | yt, ) com t = T sao as probabilidades filtradas. As proba-
bilidades P (St = l | yt, ), com t < T sao as probabilidades suavizadas. Problemas de
estimacao conhecidos como o filtro de Kalman e suavizador ocorrem para modelos com
espaco de estados contınuo. Os metodos de filtragem e suavizacao desenvolvidos para
cadeias de Markov escondidas devem ser vistos como uma versao discreta do filtro de
Kalman, pois uma cadeia de Markov escondida pode ser pensada como um modelo de
espaco de estados com espaco de estados discreto (Hamilton (1994)).
Algoritmo 5.4: Filtragem dos estados
Para um modelo de espaco de estados, o problema de filtragem consiste em se fazer
71
inferencia sobre os estados, dadas as observacoes ate o tempo t. Devido ao suporte dis-
creto da variavel St, e possıvel encontrar a distribuicao filtrada completa P (St = l | yt, υ)
para todas as realizacoes possıveis l ∈ {1, . . . , L} de St, para t = 1, . . . , T , da seguinte
forma:
Previsao um passo a frente para St
P (St = l | yt−1, υ) =K∑k=1
ξ∗kl(t− 1)P (St−1 = k | yt−1, υ), para l = 1, . . . , L
onde ξ∗kl(t − 1) = P (St = l|St−1 = k, yt−1, υ e reduz-se a probabilidade de transicao
ξkl no caso de cadeias de Markov homogeneas.
Filtragem para St
P(St = l | yt, υ) = p(yt|St=l,yt−1,υ)P (St=l|yt−1,υ)p(yt|yt−1,υ)
,
onde
p(yt | yt−1, υ) =K∑k=1
p(yt | St = l, yt−1, υ)P (St = k | yt, υ).
Quando t=1, inicia-se o filtro com a distribuicao P (S0 = k | ξ). Algumas distribuicoes
iniciais sao sugeridas em Fruhwirth-Schnatter (2006). Para t=1:
72
P (S1 = l | y0, υ) =K∑k=1
ξ∗kl(0)P (S0 = k | ξ),
onde ξ∗kl(0) = P (S1 = l | S0 = k, υ) reduz-se a probabilidade de transicao ξkl para
cadeias de Markov homogeneas.
Algoritmo 5.5: Suavizacao dos estados
O Algoritmo 5.4 leva a distribuicao de probabilidade de St dada a informacao yt ate
o tempo t. Quando se trabalha com series temporais, calculos para as probabilidades
de St que incorporem toda a informacao y = (y1, . . . , yT ) devem ser preferidos quando
possıvel. Tais calculos das probabilidades sao realizados atraves das probabilidades sua-
vizadas com base em toda amostra P (St = l | y, υ).
O Algoritmo 5.5 funciona como uma suavizacao depois da utilizacao do Algoritmo
5.4. Esse processo e analogo ao utilizado no FFBS e tem as seguintes etapas:
1. O Algoritmo 5.4 deve ser utilizado para a obtencao das probabilidades filtradas
P (St = l | yt, υ), l = 1, . . . , L para cada t = 1, . . . , T .
2. Inicia-se o processo de suavizacao a partir de T=t, sendo a distribuicao P (ST | y, υ)
igual a distribuicao filtrada em t=T.
3. Para cada t = T − 1, . . . , t0 as probabilidades suavizadas P (St = l | y, υ), l =
1, . . . , L sao calculadas da seguinte maneira:
73
P (St = l | y, υ) =K∑k=1
ξ∗lk(t)P (St = l | yt, υ)P (St+1 = k | y, υ)∑Kj=1 ξ
∗kl(t)P (St = j | yt, υ)
, (5.10)
onde ξ∗lk(t) = P (St+1 = k | St = l, yt, υ) sao simplificadas para a probabilidade de
transicao ξlk no caso de cadeias de Markov homogeneas.
A suavizacao termina no tempo t=1 se S0 for determinıstico. Para um valor inicial
aleatorio de S0, a suavizacao termina em t0 = 0 e a probabilidade P (S0 = l | y, υ)
sobre o valor inicial e atualizada com base na serie temporal observada. Neste
ultimo passo, (5.10) se reduz a
P (S0 = l | y, υ) =K∑k=1
ξ∗lk(0)P (S0 = l | ξ)∑Kj=1 ξ
∗lk(0)P (S0 = j | ξ))
,
onde P (S0 = l | ξ) e a distribuicao inicial e ξ∗lk(0) = P (S1 = k | S0 = l, υ) e a
probabilidadede transicao ξlk para cadeias de Markov homogeneas. Para sugestoes
de distribuicoes iniciais, Fruhwirth-Schnatter (2006) lista algumas possibilidades.
Amostragem da matriz de transicao ξ
O algoritmo para amostragem da matriz de transicao ξ da condicional completa de
p(ξ | S) para determinada trajetoria de S depende das suposicoes feitas a respeito
da distribuicao p0 para o valor inicial S0. Assumindo que S0 e ξ sao independentes
e que as linhas da matriz ξ sao independentes a priori e tem distribuicao Dirichlet,
ξj ∼ D(ej1, . . . , ejL), j = 1, . . . , L, entao as linhas ξj permanecem independentes a poste-
riori, cada uma com distribuicao Dirichlet:
74
ξj ∼ D(ej1 +Nj1(S), . . . ,jL +NjL(S)), j = 1, . . . , L,
onde Njk(S) e o numero de transicoes de j para k.
Algoritmo 5.6: MCMC para modelos de misturas markovianas
Para a estimacao dos parametros em um modelo de misturas markovianas, inicia-se
o processo em algum estado inicial S(0) e itera-se os seguintes passos:
1. Simulacao dos parametros condicional aos estados Si−1:
• Amostra-se a matriz de transicao ξ da condicional completa p(ξ | S(i−1))
• Amostram-se os parametros do modelo θ1, . . . , θL da condicional completa
p(θ1, . . . , θL | y, S(i−1))
2. Amostram-se os estados condicionalmente a υ(i), amostrando-se S da condicional
completa p(S | υ(i), y), da seguinte forma:
• Utiliza-se o Algoritmo 5.4 para encontrar as probabilidades filtradas condici-
onal a υ.
• Amostra-se S(i)T da distribuicao de probabilidade filtrada P (ST | yT , υ).
• Para T − 1, . . . , 0, amostra-se S(i)t da distribuicao condicional P (St = j |
S(i)t+1, y
t, υ) dada por:
P (St = j | S(i)t+1, y
t, υ) =ξ∗j,lm(t)P (St = j | yt, υ)∑Kk=1 ξ
∗k,lm
(t)P (St = k | yt, υ)
75
onde ξ∗j,lm(t) = P (St+1 = lm | St = j, υ, yt) e ξ∗j,lm para cadeias de Markov
homogeneas St e lm e o estado de S(i)t+1.
O desempenho do Algoritmo 5.6 e de certa forma imprevisıvel e pode se prender a
unica regiao modal da distribuicao de mistura markoviana a posteriori, ou pode alternar
aleatoriamente entre diferentes regioes modais causando um problema de identificacao de
rotulos. Na maioria dos casos, o algoritmo utilizado nao explora bem a distribuicao de
mistura markoviana a posteriori, algo essencial ao se amostrar quando estima-se as poste-
rioris marginais. Um algoritmo simples, mas eficiente, sugerido em Fruhwirth-Schnatter
(2001) pode ser utilizado para resolver tal problema.
Algoritmo 5.7: MCMC com permutacao para estimacao em modelos de
misturas markovianas
1. Segue-se todos os passos do Algoritmo 5.6
2. Seleciona-se aleatoriamente uma das L! permutacoes ρs(1), . . . , ρs(L) dos rotulos.
Essa permutacao e aplicada a ξ(i), aos parametros de estados θ(i)1 , . . . , θ
(i)L e aos
estados S(i)
• Cada elemento ξ(m)jk da matriz de transicao simulada e substituıdo por ξ
(m)ρs(j),ρs(k),
para j, k = 1, . . . , L.
• Os parametros θ(i)k sao substituıdos por θ
(i)ρs(k) para k = 1, . . . , K
• Os estados Sit sao substituıdos por ρs(S(i)t ), para t = 0, . . . , T .
76
5.5 Wrapped Misturas Markovianas de Distribuicoes
Normais
Denotando por y = (y1, . . . , yN) o conjunto de dados circulares observados, pode-se
utilizar o seguinte algoritmo para estimacao dos parametros de um modelo Wrapped
Misturas Markovianas de Distribuicoes Normais:
Algoritmo 5.8: MCMC para estimacao dos parametros de Wrapped Mis-
turas Markovianas de Distribuicoes Normais
Inicia-se o algoritmo com valores µ0, σ20, e S0 e na iteracao i, executa-se os seguintes
passos:
1. Calcula-se m(i)j = 1 +
⌊3σ
2(i−1)l
2π
⌋, j = 1, . . . , N e l ∈ {1, . . . , L} e o ındice que indica
a alocacao da variavel yj.
2. Calcula-se kj,i ∈{−m(i)
j , . . . , 0, . . . ,m(i)j
}, j = 1, . . . , N de acordo com as probabi-
lidades dadas por:
P (Kj,i = kj,i | µS, σS, yj, Sj,i) ≈ϕ((yi + 2kj,iπ − µS)/σS))∑m
kj,i=−m ϕ((yi + 2kj,iπ − µS)/σS))
3. Calcula-se xj,i = 2kj,iπ + yj.
4. Segue-se todos os passos do Algoritmo 5.7, considerando que θ(i)l = (µ
(i)l , σ
2(i)l ), l = 1, . . . , L
77
5.5.1 Estudo Simulado
O estudo deste tipo de modelo em particular iniciou-se atraves da aplicacao direta
da metodologia descrita em Fruhwirth-Schnatter (2001). Como se tem interesse em tra-
balhar com series temporais cuja variavel resposta assuma valores em um intervalo de
comprimento 2π, mais uma vez foi necessario adaptar a teoria existente para se traba-
lhar com dados circulares. A adaptacao consistiu em aplicar conjuntamente as ideias
encontradas em Jona-Lasinio et al. (2012) e em Fruhwirth-Schnatter (2006). O metodo
desenvolvido para a estimacao dos parametros neste modelo deu origem ao Algoritmo 5.8,
algoritmo que foi utilizado na estimacao dos parametros do modelo Wrapped Misturas
Markovianas de Distribuicoes Normais.
Foram feitas 100 simulacoes do seguinte modelo:
Xt | St ∼ N(µSt , σ2St), t = 1, . . . , 100;
Yt = Xtmod(2pi)
onde:
(µSt | St = 1) = 2;
(µSt | St = 2) = 4;
(σSt | St = 1) = 0.01;
(σSt | St = 2) = 0.25;
Utilizou-se as seguintes prioris para os parametros de interesse:
µ1 ∼ N(3, 1)
µ2 ∼ N(3, 1)
σ21 ∼ IG(2.0225, 0.153375)
78
σ22 ∼ IG(2.0225, 0.153375)
ξ,1 ∼ β(1.5, 1)
ξ,2 ∼ β(1.5, 1)
Como e necessario impor priori informativa para σ2, a escolha das prioris para σ21 e
σ22, mais uma vez, foi feita de forma a preservar a relacao entre os parametros α e β da
distribuicao IG(α, β) utilizada em uma das aplicacoes de Jona-Lasinio et al. (2012), onde
a moda e a variancia de σ2 sao respectivamente 0.4 e 0.04.
Os resultados obtidos via Algoritmo 5.8 para uma das replicas de conjuntos de dados
artificiais estao representados a seguir.
Figura 5.7: Traco das cadeias de µ = (µ1, µ2)
79
Figura 5.8: Traco das cadeias de σ2 = (σ21, σ
22)
Pode-se notar que os tracos das cadeias de µ e σ2 parecem percorrer os mesmos va-
lores, ou seja, parece que conseguiu-se passear pela posteriori de forma balanceada. Isto
se deve a permutacao aleatoria de rotulos descrita no Algoritmo 5.7.
Figura 5.9: Media geral da mistura
80
Figura 5.10: Variancia geral da mistura
Nota-se tambem, que conseguiu-se estimar bem a media geral da mistura, apesar do
mesmo nao ter acontecido com a variancia.
Calculou-se a media das medias a posteriori da mistura considerando-se todas as
replicas deste modelo:
Figura 5.11: Media das medias da mistura em cada replica e valor real da media da mistura
(vermelho)
Nota-se que foi possıvel estimar de forma satisfatoria o verdadeiro valor da media da
mistura (µ = 3.4) considerando-se todas as replicas. Alem disso, calculou-se a media das
variancias da mistura considerando todas as iteracoes em cada replica deste modelo.
Observou-se grande incerteza associada a estimacao da variancia da mistura, conforme
81
Figura 5.12: Histograma da media das variancias da mistura em cada replica e valor real da
variancia da mistura (vermelho)
ja esperado, de cordo com relato em Jona-Lasinio et al. (2012), sobre a dificuldade para
estimacao desse parametro.
82
Capıtulo 6
Aplicacao a dados reais
A fim de ilustrar os metodos desenvolvidos no presente trabalho, fez-se uma aplicacao
destes metodos a um conjunto de dados reais utilizando os modelos abordados. O con-
junto de dados consite em series temporais com 1126 observacoes referentes a direcao dos
ventos, velocidade dos ventos, temperatura umidade e pressao em diversas estacoes da
Catalunha de 1 de agosto de 2012 a 1 de agosto de 2015. Mais especificamente, foram
utilizados somente as observacoes de uma estacao em particular situada a 650 metros de
altitude em L’Ametlla del Valles, um municıpio da Espanha na provıncia de Barcelona.
As series observadas estao representadas graficamente na figura 6.1.
83
Figura 6.1: Conjunto de dados reais
84
O estudo da direcao dos ventos e importante para diversas areas, por exemplo, pode-
se querer saber o efeito da direcao dos ventos na dispersao de poluentes nas cidades, ou
estudar o clima atraves da direcao dos ventos. Alguns estudos relacionam direcao dos
ventos e temperatura, umidade, pressao e a velocidade dos ventos. Como dispoe-se de
um conjunto de dados onde essas variaveis estao presentes, fez-se uso das mesmas como
variaveis explicativas para a direcao media dos ventos.
A utilizacao de componentes sazonais nos modelos aplicados foi motivada pela ob-
servacao do grafico da direcao media em cada mes (considerando uma serie temporal de
36 meses), que parece evidenciar a existencia de um ciclo anual. Pode-se perceber, por
exemplo, que as direcoes medias de agosto de 2012, 2013 e 2014 parecem apontar para
uma mesma direcao. Alem disso, nota-se que ao longo do ano a direcao media a cada mes
passa de sudoeste a sudeste, e em julho a direcao media volta a apontar para a direcao
sudoeste completando assim, um ciclo anual de sazonalidade.
Figura 6.2: Diagrama de rosas com a direcao media de cada mes em 2012, 2013 e 2014.
Observando-se um histograma circular das direcoes dos ventos em um determinado
mes em certo ano, percebe-se que parece haver nao uma, mas possivelmente duas ou mais
direcoes preferenciais, justificando assim, o uso de um modelo wrapped de misturas de
distribuicoes normais.
85
Figura 6.3: Histograma circular das direcoes dos ventos em cada mes de 2012, 2013 e 2014
Trabalhou-se com os seguintes modelos:
Modelo 1: Wrapped Normal estatico
Yt ∼ WN(µ, σ2)
Nota-se que este modelo prescinde do tratamento da autocorrelacao temporal e supoe
que a distribuicao da direcao dos ventos e unimodal e simetrica em relacao a media.
Modelo 2: Wrapped Normal dinamico
Yt ∼ WN(Ftθt, σ2)
86
θt = Gtθt−1 + wt, wt ∼ N(0,W )
θt = (θ1t θ2t θ3t θ4t θ5t θ6t θ7t)
Ft = (1 1 0 Tt Ut Pt V Vt )
onde:
Tt = temperatura no tempo t
Ut = umidade no tempo t
V Vt = velocidade dos ventos no tempo t
Pt = pressao no tempo t
Gt =
1 0 0 0 0 0 0
0 −sen( 2πt365
) cos( 2πt365
) 0 0 0 0
0 cos( 2πt365
) sen( 2πt365
) 0 0 0 0
0 0 0 1 0 0 0
0 0 0 0 1 0 0
0 0 0 0 0 1 0
0 0 0 0 0 0 1
Este modelo trata da autocorrelacao inerente a series temporais e supoe que distri-
buicao da direcao dos ventos e simetrica e unimodal ao redor da media a cada tempo t.
87
Modelo 3: Wrapped Misturas de Distribuicoes Normais
Xi | µ1, µ2, σ21, σ
22, η1, η2 ∼ η1N(µ1, σ
21) + η2N(µ2, σ
22), i = 1, . . . , 100
Yi = Ximod(2pi)
Esse modelo captura eventual assimetria e multimodalidade no cırculo mas nao trata
a autocorrelacao inerente a series temporais.
Modelo 4: Wrapped Misturas Markovianas de Distribuicoes Normais
Yt | St ∼ N(µSt , σ2St), t = 1, . . . , 100;
onde:
St = 1 ou St = 2, ou seja, L=2.
Esse modelo captura assimetria e multimodalidade no cırculo alem de tratar da au-
tocorrelacao temporal.
Fez-se no mınimo 100000 iteracoes para cada modelo e, apos convergencia, calculou-se
o erro absoluto medio em cada uma das aplicacoes, com tal erro dado pelo comprimento
de arco entre direcao media estimada a posteriori e direcao observada. Obteve-se os
seguintes valores:
88
Erro Absoluto Medio
WN estatico WN dinamico WMM WMMM
1.009541 0.5134178 1.479098 0.980327
O menor erro absoluto medio foi obtido para o modelo 2. Para esse modelo, obteve-se
seguinte o grafico da resposta media versus a serie observada:
Figura 6.4: Serie de direcao dos ventos observada e resposta media (vermelho)
Nota-se que, levando-se em consideracao o posicionamento desses pontos no cırculo
unitario, parece ter sido possıvel acompanhar a trajetoria da serie observada.
89
Capıtulo 7
Conclusoes e trabalhos futuros
A proposta deste trabalho e apresentar, criar e analisar modelos e metologias para
se trabalhar com dados circulares. Os modelos apresentados sao os modelos mais co-
mumente utilizados na analise de dados desta natureza. Por este motivo, ressalta-se a
importancia de se ter metodos disponıveis para a estimacao dos parametros destes mo-
delos. O artigo Jona-Lasinio et al. (2012) forneceu a ideia central para a obtencao de
metodos bayesianos de estimacao para se trabalhar com inferencia bayesiana em modelos
circulares baseados em versoes “wrapped”de modelos definidos na reta. Apesar da ideia
de introducao da variavel auxiliar k (“Sppinning Number”) ja ter sido abordada ante-
riormente, como por exemplo, em Fisher e Lee (1994) e Coles (1998), a introducao de
k como meio de possibilitar a utilizacao de metodos de estimacao bayesiana com teoria
ja bem estabelecida abordada em Jona-Lasinio et al. (2012), consistiu na principal ideia
utilizada na elaboracao deste estudo.
Notou-se que as metodologias ja disponıveis na literatura para estimacao bayesiana
em modelos para dados circulares temporalmente observados parecem limitadas. Por isso,
acredita-se ter sido importante desenvolver, com base nos metodos e modelos disponıveis,
alternativas para analise de dados desta natureza. Os metodos e modelos abordados sao
flexıveis e permitem a modelagem e estimacao em modelos que compreendam regresso-
ras, efeitos sazonais, modelos com tratamento de autocorrelacao temporal, assimetria e
90
multimodalidade.
Inicialmente, estudou-se o modelo Von Mises bem como a estimacao dos parametros
deste modelo. Para se trabalhar com series temporalmente observadas, utilizou-se as
prioris sugeridas em Guttorp e Lockhart (1988) obtendo-se, assim, condicionais com-
pletas conhecidas para a direcao media µt, t = 1, . . . , T . Alem disso, para a estimacao
do parametro de concentracao κ (trabalhou-se com a transformacao ψ = log(κ)e com
o algoritmo de Metropolis-Hastings). A partir de um estudo simulado, notou-se que a
estimacao de κ e complexa e que extensoes do modelo Von mises que possibilitem uma
maior flexibilidade nao sao triviais.
Passou-se a adotar os chamados Wrapped Models. Por ser um modelo bastante utili-
zado, trabalhou-se com o moodelo Wrapped Normal, a partir da utilizacao de uma ideia
abordada em Jona-Lasinio et al. (2012). A ideia central consiste em fazer uso de uma
variavel auxiliar e, a partir disso, utilizar toda a teoria disponıvel ja bem estabelecida
para fazer estimacao dos parametros de um modelo normal. Desevolveu-se um metodo
para estimacao em modelos Wrapped Normal a partir da utilizacao do esquema de in-
troducao de vaiaveis latentes abordados em Jona-Lasinio et al. (2012). Conseguiu-se
obter bons resultados a partir da utilizacao do metodo desenvolvido, tendo sido possıvel
trabalhar com modelos que incluam sazonalidade e regressoras.
Ate este momento, havia-se trabalhado com o modelo Von Mises e Wrapped Normal.
Tais modelos sao simetricos e, portanto, nao sao adequados para se trabalhar com deter-
minados conjuntos de dados. Buscando uma maior flexibilidade, comecou-se a estudar
modelos de misturas. Esses modelos tem a vantagem de serem flexıveis podendo ser apli-
cados a conjuntos de dados que parecam apresentar assimetria ou multimodalidade. Para
aplicacao desses modelos a dados circulares, a ideia da introducao da variavel latente k,
mais uma vez, se mostrou necessaria, uma vez que nao se conhece teoria bayesiana para
estimacao de parametros em modelos wrapped misturas de normais. Com a introducao
de k no problema,pode-se utilizar os metodos usuais de estimacao para os parametros de
91
um modelo de misturas. Neste contexto, a contribuicao deste trabalho foi o desenvolvi-
mento de um metodo de estimacao em modelos wrapped misturas de normais, baseado
na introducao da variavel auxiliar k e nos metodos de estimacao para os parametros
de misturas de normais, encontrados em Jona-Lasinio et al. (2012). Fez-se um estudo
simulado e o esquema de estimacao bayesiano em modelos wrapped misturas de normais
desenvolvido se mostrou eficiente na estimacao dos parametros de um wrapped misturas
de normais.
Visando uma maior flexibilidade sem prescindir do tratamento de autocorrelacao tem-
poral, decidiu-se estudar os modelos de misturas Markovianas. Estes modelos tratam da
autocorrelacao presente em series temporais atraves da inclusao de uma estrutura Marko-
viana em St, as alocacoes em cada tempo t. Para estes modelos, assim como para modelos
de misturas, estao disponıveis metodos de estimacao bayesianos em Fruhwirth-Schnatter
(2006). No caso em que se deseja trabalhar com observacoes circulares utilizando modelos
de misturas markovianas, foi necessara, mais uma vez, a utilizacao da variavel auxiliar
k, como forma de possibilitar o uso de esquemas de estimacao bayesianos ja conhecidos
para a estimacao dos parametros dos modelos que chamamos neste trabalho de wrapped
misturas markovianas. O metodo desenvolvido no presente trabalho se mostrou eficiente
para estimacao dos parametros do modelo proposto, e a partir da utilizacao do mesmo,
foi possıvel obter bons resultados.
Por fim, aplicou-se toda metodologia estudada e desenvolvida em um conjunto de
dados reais referente a direcao dos ventos em estacoes de medicao na Catalunha. Tal
aplicacao visa ilustrar o uso dos metodos e modelos aqui desenvolvidos para estimacao
dos parametros nos casos abordados.
Como possıveis continuacoes deste trabalho, pode-se adicionar uma componente espa-
cial nos modelos estudados. Com isso, pode-se modelar, por exemplo, todas as estacoes
obersavadas na Catalunha, considerando alem do tempo, cada localizacao no espaco.
Ademais, alem dos modelos abordados neste estudo, pode-se trabalhar tambem com
92
modelos discretos, como wrapped poisson ou versoes wrapped de outros modelos na
famılia exponencial, e possıveis extensoes dinamicas para estes modelos. Pode-se tambem
estudar outros metodos de estimacao, como por exemplo, filtro de partıculas. Ou-
tras aplicacoes tambem sao passıveis de serem abordadas, por exemplo, aplicacoes a
obervacoes periodicas como no estudo de criminalidade em certa cidade ou entrada de
pacientes em uma emergencia de um hospital.
93
Apendice A
Metodo Bayessiano de Estimacao
para Modelos Von Mises
A.1 Modelo Von Mises Estatico
Para a aplicacao do metodo sugerido em Damien and Walker (1999), fez-se um
exercıcio simulado gerando 100 replicas de conjuntos de dados com 100 observacoes do
seguinte modelo:
Yt ∼ vM(0, 3).
Utilizou-se a priori sugerida em Guttorp and Lockhart(1988):
f(µ, κ) ∝ {I0 (k)}−c exp {kR0cos (µ− µ0)}
com µ0 = 0, κ = 5 e R0 = 5. Os resultados obtidos para algumas das replicas estao
listados abaixo:
94
Figura A.1: Tracos da cadeia de µ utilizando o metodo encontrado em Damien and Walker
(1999)
Figura A.2: Tracos da cadeia de κ utilizando o metodo encontrado em Damien and Walker
(1999)
95
(a) Histograma de µ estimado e µ
real(vermelho)
(b) Histograma de κ estimado e κ
real(verde)
Figura A.3: Estimacao dos parametros do modelo Von Mises em uma das replicas utili-
zando o algoritmo proposto por Damien e Walker (1999).
Ja na aplicacao do metodo MCMC programado de forma independente e aplicado a
um conjunto de dados com 100 observacoes artificiais geradas do mesmo modelo::
Yt ∼ vM(0, 3)
utilizou-se as seguintes prioris:
µ ∼ υM(2, 1);
κ ∼ Gama(6, 0.5).
Obteve-se os seguintes resultados:
96
(a) Histograma de µ estimado e µ
real(vermelho)
(b) Histograma de κ estimado e κ
real(verde)
Figura A.4: Estimacao dos parametros do modelo Von Mises utilizando o metodo
MCMC programado de forma independente.
Pode-se notar que parece ter sido possıvel obter melhores estimativas, principalmente
para o parametro de concentracao κ, utilizando o MCMC programado de forma indepen-
dente. Porem, deve-se ressaltar que e indispensavel fazer um estudo mais profundo para
que essas afirmacoes sejam validadas.
A.2 Modelo Von Mises Dinamico
A.2.1 Condicionais Completas
O modelo de interesse e da seguinte forma:
Yt ∼ vM(µt, k), k desconhecido
µt ∼ vM(µt−1, ck)
µ0 ∼ vM(m0, ck)
Para este modelo, foi usada uma extensao das ideias encontradas em Guttorp and
Lockhart [1988]. As condicionais completas dos parametros do vetor de estados po-
97
dem ser encontradas da seguinte forma:
• µ = (µ0, . . . , µT ):
p(µ0, µ1, . . . , µT | y1, . . . , yT , k) ∝∏T
t=1 f(Yt | µt, k)∏T
i=1 p(µi | µt−1)p(µ0) ∝
exp{k∑T
t=1 cos(Yt − µt) + c× k∑T
i=1 cos(µt − µt−1) + c× k × cos(µ0 −m0))} =
exp{k[∑T
t=1(cos(Yt)cos(µt) + sen(Yt)sen(µt)) + c∑T
i=1(cos(µi)cos(µi−1) +
sen(µi)sen(µi−1)) + c(cos(µ0)cos(m0) + sen(µ0)sen(m0))]} =
exp{k[∑T
t=1(cos(µt)(cos(Yt) + c(µt−1)) + sen(µt)(sen(Yt)− c× sen(µt−1))) +
c(cos(µ0)cos(m0) + sen(µ0)sen(m0))]}
(A.1)
• µ0:
p(µ0 | µ1, . . . , µT , y1, . . . , yT , k) ∝
exp{c× k[cos(µ0)(cos(m0) + cos(µ1)) + sen(µ0)(sen(m0) + sen(µ1))]} (A.2)
• µt, t = 1, . . . T − 1:
p(µt | µ0, . . . , µt−1, µt+1, . . . , µT , y1, . . . , yT , k) ∝ exp{k[cos(µt)(cos(Yt) + c(cos(µt−1) +
cos(µt+1)))]}+ sen(µt)(sen(Yt) + c(sen(µt−1)sen(µt+1))), t = 1, . . . , T − 1 (A.3)
• µT :98
p(µT | µ0, . . . , µT−1, y1, . . . , yT , k) ∝
exp{k[cos(µT )(cos(yT ) + c× cos(µT−1)) + sen(µT )(sen(yT ) + c× sen(µT−1))]} (A.4)
Definindo:
ctcos(ψt) =
c(cos(m0) + cos(µ1)), t=0
cos(Yt) + c(cos(µt−1) + cos(µt+1)), t=1, . . . , T-1
cos(yT ) + c× cos(µT−1), t=T
ctsen(ψt) =
c(sen(m0) + sen(µ1)), t=0
sen(Yt) + c(sen(µt−1) + sen(µt+1)), t=1, . . . , T-1
sen(yT ) + c× sen(µT−1), t=T
Tem-se:
p(µ0, µ1, . . . , µT | y1, . . . , yT , k) ∝T∏t=0
exp{ctk[cos(µt)cos(ψt) + sen(µt)sen(ψt)]}
=T∏t=0
exp{ct × k[cos(µt − cosψt)]}
onde tg(ψt) = btat⇒ ψt = arctan( bt
at) e ct =
√a1t + b2
t
Esquema gibbs para estimacao dos parametros
Em cada iteracao i gera-se:
99
µ(i)0 | µ
(i−1)1 , . . . , µ
(i−1)T , y1, . . . , yT , k ∼ VM(ψ0, k × c0)
...
µ(i)T | µ
(i)0 , . . . , µ
(i)T−1, y1, . . . , yT , k ∼ VM(ψT , k × cT )
A.2.2 Resultados
Gerou-se 200 observacoes do modelo:
Yt ∼ vM(µt, 5)
µt ∼ vM(µt−1, 2)
µ0 ∼ vM(3, 2)
As prioris utilizadas foram:
µ0 ∼ VM(0, 2)
κ ∼ G(3, 0.5)
Os resultados obtidos foram:
Figura A.5: Cadeias de µt, para t = 25, 50, 75, 100
100
Figura A.6: Cadeia de κ
Nota-se que o parametro κ da Von Mises e parametro de concentracao, logo, pelo
traco das cadeiasde κ, pode-se dizer que o algoritmo utilizado no processo de estimacao
superestima a dispersao dos dados gerados. Deve-se ressaltar que a estimacao de κ parece
complicada, e as complicacoes na estimacao deste parametro podem ser encontrada em
Damien e Walker (1999) e Gill e Hangartner (2010).
Figura A.7: Dados gerados(preto) × µ estimado
101
Apesar de nao ter sido possıvel estimar bem o parametro de concentracao κ, nota-se
que µ estimado parece acompanhar a trajetoria da serie gerada.
102
Referencias Bibliograficas
Coles, S. (1998) Inference for circular distributions and processes. Statistics and Compu-
ting, 8, 105–113.
Damien, P. e Walker, S. (1999) A full bayesian analysis of circular data using the von
mises distribution. Canadian Journal of Statistics, 27, 291–298.
Downs, T. D. e Mardia, K. (2002) Circular regression. Biometrika, 89, 683–698.
Feller, W. (1943) On a general class of”contagious”distributions. The Annals of mathe-
matical statistics, 14, 389–400.
Fisher, N. e Lee, A. (1994) Time series analysis of circular data. Journal of the Royal
Statistical Society. Series B (Methodological), 327–339.
Fruhwirth-Schnatter, S. (2001) Markov chain monte carlo estimation of classical and dy-
namic switching and mixture models. Journal of the American Statistical Association,
96, 194–209.
Fruhwirth-Schnatter, S. (2006) Finite mixture and Markov switching models. Springer
Science & Business Media.
Gamerman, D. (1998) Markov chain monte carlo for dynamic generalised linear models.
Biometrika, 85, 215–227.
Gill, J. e Hangartner, D. (2010) Circular data in political science and how to handle it.
Political Analysis, mpq009.
103
Gumbel, E., Greenwood, J. A. e Durand, D. (1953) The circular normal distribution:
Theory and tables. Journal of the American Statistical Association, 48, 131–152.
Guttorp, P. e Lockhart, R. A. (1988) Finding the location of a signal: A bayesian analysis.
Journal of the American Statistical Association, 83, 322–330.
Hamilton, J. D. (1994) Time series analysis, vol. 2. Princeton university press Princeton.
Holzmann, H., Munk, A., Suster, M. e Zucchini, W. (2006) Hidden markov models for
circular and linear-circular time series. Environmental and Ecological Statistics, 13,
325–347.
Hughes, G. (2007) Multivariate and time series models for circular data with applications
to protein conformational angles. Tese de Doutorado, University of Leeds.
Jammalamadaka, S. R. e Sengupta, A. (2001) Topics in circular statistics, vol. 5. World
Scientific.
Johnson, R. A. e Wehrly, T. E. (1978) Some angular-linear distributions and related
regression models. Journal of the American Statistical Association, 73, 602–606.
Jona-Lasinio, G., Gelfand, A., Jona-Lasinio, M. et al. (2012) Spatial analysis of wave
direction data using wrapped gaussian processes. The Annals of Applied Statistics, 6,
1478–1498.
Lan, T. et al. (2013) Analysis of circular data in the dynamic model and mixture of von
mises distributions.
Mardia, K. V. (1975) Statistics of directional data. Journal of the Royal Statistical
Society. Series B (Methodological), 349–393.
Mardia, K. V., Hughes, G., Taylor, C. C. e Singh, H. (2008) A multivariate von mises
distribution with applications to bioinformatics. Canadian Journal of Statistics, 36,
99–109.
Mardia, K. V. e Jupp, P. E. (2009) Directional statistics, vol. 494. John Wiley & Sons.
104
Mastrantonio, G., Lasinio, G. J. e Gelfand, A. E. (2015) Spatio-temporal circular models
with non-separable covariance structure. TEST, 1–20.
Migon, H. S., Gamerman, D. e Louzada, F. (2014) Statistical inference: an integrated
approach. CRC press.
Migon, H. S., Schmidt, A. M., Ravines, R. E. e Pereira, J. B. (2013) An efficient sampling
scheme for dynamic generalized models. Computational Statistics, 28, 2267–2293.
Neves, M. R. e Zanini, C. T. P. (2013) Metodos computacionais para realizacao de in-
ferencia bayesiana em modelos dinamicos lineares generalizados.
Petris, G., Petrone, S. e Campagnoli, P. (2009) Dynamic linear models with R. Springer
Science & Business Media.
Ravindran, P. e Ghosh, S. K. (2001) Bayesian analysis of circular data using wrapped
distributions. 2001 Proceedings of the American Statistical Association, Statistical
Computing Section [CD-ROM], Alexandria, VA: American Statistical Association.
Von Mises, R. (1918) Uber die aganzzahligkeita der atomgewichte und verwandte fragen.
Phys. z, 19, 490–500.
Wang, F. e Gelfand, A. E. (2014) Modeling space and space-time directional data using
projected gaussian processes. Journal of the American Statistical Association, 109,
1565–1580.
West, M. e Harrison, J. (1999) Bayesian Forecasting & Dynamic Models. Springer.
Wu, B., McGrory, C. A. e Pettitt, A. N. (2012) The variational bayesian approach to
fitting mixture models to circular wave direction data. Journal of Applied Meteorology
and Climatology, 51, 1750–1762.
105