Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

120
etodos Bayesianos para Modelos Ocultos de Markov en series de tiempo con conteo Rafael Eduardo D´ ıaz Bonilla Universidad Nacional de Colombia Facultad de Ciencias, Departamento de Estad´ ıstica Bogot´ a D.C., Colombia 2019

Transcript of Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Page 1: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Metodos Bayesianos para ModelosOcultos de Markov en series de tiempo

con conteo

Rafael Eduardo Dıaz Bonilla

Universidad Nacional de Colombia

Facultad de Ciencias, Departamento de Estadıstica

Bogota D.C., Colombia

2019

Page 2: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...
Page 3: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Metodos Bayesianos para ModelosOcultos de Markov en series de tiempo

con conteo

Rafael Eduardo Dıaz Bonilla

Tesis presentada como requisito parcial para optar al tıtulo de:

Magister en Estadıstica

Director:

Carlos Eduardo Alonso-Malaver

Ph.D., en Ciencias - Estadıstica

Lınea de Investigacion:

Estadıstica Bayesiana y Procesos Estocasticos

Grupo de Investigacion:

Procesos Estocasticos

Universidad Nacional de Colombia

Facultad de Ciencias, Departamento de Estadıstica

Bogota D.C., Colombia

2019

Page 4: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...
Page 5: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Dedicatoria

A mis padres

Rafael Dıaz Gutierrez y Lilia del Rocio Bonilla, por

educarme con valores para ser una persona de bien,

ıntegra y honesta. Ademas de apoyarme de manera

incondicional en la parte moral y economica.

A mi hermano Andres Felipe Dıaz y demas familia

en general por el apoyo brindado en el transcurso

de esta maestrıa.

“Los errores suelen ser el puente que media entre lainexperiencia y la sabidurıa.”

- Phyllis eroux

Page 6: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...
Page 7: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

AgradecimientosEn primer lugar quiero agradecer al Dios de Israel, por brindarme la oportunidad de cursar esta

maestrıa en la mejor universidad del paıs.

En segundo lugar quiero agradecer a mi director de tesis el profesor Carlos Eduardo Alonso por

la paciencia, esfuerzo y dedicacion en la revision de este documento.

Ademas agradezco al Profesor Wilmer Pineda, por su ayuda incondicional desde el primer mo-

mento que ingrese a la maestrıa y ser mi apoyo en la mayorıa de materias cursadas en el posgrado

ya que sin el no hubiera sido posible aprobar satisfactoriamente estos curso y por el tiempo de-

dicado en la revision de este documento.

Finalmente quiero agradecer a la Facultad de Ciencias y en especial al Departamento de Estadısti-

ca por darme la formacion necesaria para culminar a cabalidad con la maestrıa, y a todos los do-

centes con los cuales tuve clase, que de alguna forma aportaron en mi formacion como profesional

y como profesional.

Page 8: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...
Page 9: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

ix

ResumenEsta investigacion se dedica a dos tipos especiales de Modelos Ocultos de Markov (HMM), el

primero dedicado a Procesos de Poisson (PHMM) y el segundo dedicado a Procesos de Poisson

Cero-Inados (ZIP-HMM), el enfoque se hace desde la perspectiva Bayesiana, desde la cual se

construye un paquete Bayeshmmcts con el n de ajustar los modelos planteados mediante Meto-

dos de Montecarlo MCMC, Monte Carlo Hamiltoniano y NUTS; unido a lo anterior se utiliza “el

muestreador por puente” para resolver el problema no resuelto de la seleccion del mejor mode-

lo desde el enfoque bayesiano. Finalmente se presentan dos aplicaciones con datos reales de los

modelos desarrollados, en los que se sugiere el uso del PHMM para la serie del numero de homici-

dios en Colombia para los anos 1960 a 2018, y el ZIP-HMM para modelar la serie mensual numero

de Grandes Incendios Forestales (GIF) en Colombia en el perıodo enero del 2002 a diciembre del

2016.

Palabras clave: Modelos ocultos de Markov, PHMM, ZIP HMM, metodos Bayesianos, Monte CarloHamiltoniano, Muestreador por Puente.

Abstractis research is dedicated to two special types of Hidden Markov Models (HMM), the rst-one

dedicated to Poisson Processes (PHMM) and the second-one dedicated to Zero-Inated Poisson

Processes (ZIP-HMM). e two proposed models are Bayesian models for which a package is de-

veloped Bayeshmmcts. e estimation process is done using MCMC, Hamiltonian Monte Carlo,

NUTS and a new methodology called “ the bridge sampler”which is used to solve the unresolved

problem of selecting the best model from the Bayesian approach. Finally, we present two appli-

cations, the premier we use PHMM for the number of homicides in Colombia-Southamerica and

the ZIP-HMM to model the monthly number of Large wildres (GIF) in Colombia in the period

from January 2002 to December 2016.

Keywords: Hidden Markov models, PHMM, ZIP HMM, Bayesian methods, Hamiltonian MonteCarlo, Bridge Sampling.

Page 10: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Contenido

Agradecimientos vii

Resumen ix

Lista de figuras xiii

Lista de tablas xv

Lista de sımbolos xvi

1. Introduccion 1

1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Contribucion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Modelos Ocultos de Markov 5

2.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1. Ecuaciones de Chapman - Kolmogorov . . . . . . . . . . . . . . . . . . . . 6

2.1.2. Distribucion Estacionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. El algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.1. Esperanza Maximizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.2. Por que el algoritmo EM funciona . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.3. Extensiones del algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3. HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.1. Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3.2. Distribucion Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4. Los tres problemas fundamentales en los HMM . . . . . . . . . . . . . . . . . . . . 16

2.4.1. Problema 1: Encontrando la verosimilitud de una secuencia de observa-

ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.2. Problema 2: Encontrando la secuencia mas probable de estados . . . . . . 21

2.4.3. Problema 3: Estimacion de los parametros . . . . . . . . . . . . . . . . . . 23

3. PHMM y ZIP-HMM 25

3.1. Modelo Oculto de Markov - Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.1. Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . . . . . . 27

Page 11: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Contenido xi

3.2. Modelo Oculto de Markov - Poisson Cero Inado . . . . . . . . . . . . . . . . . . 30

3.2.1. Estimacion de los parametros para el algoritmo BW . . . . . . . . . . . . . 31

3.3. Seleccion y vericacion de los HMM . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3.1. Seleccion de modelos mediante criterios de informacion . . . . . . . . . . 36

3.3.2. Comprobacion del modelo con pseudo-residuales . . . . . . . . . . . . . . 37

3.3.3. Introduccion a los pseudo-residuales . . . . . . . . . . . . . . . . . . . . . 38

3.3.4. Pseudo-residuales Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3.5. Pesudo-residuales de pronostico . . . . . . . . . . . . . . . . . . . . . . . . 42

4. Metodos Bayesianos para los HMM 44

4.1. Estadıstica Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2.1. Generando muestras de las trayectorias para la cadena de Markov. . . . . 48

4.2.2. La descomposicion de las observaciones en contribuciones del regimen. . 49

4.2.3. Actualizando los parametros . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3. Estimacion Bayesiana para el numero de estados . . . . . . . . . . . . . . . . . . . 50

4.3.1. Uso de la verosimilitud integrada . . . . . . . . . . . . . . . . . . . . . . . 50

4.3.2. Seleccion de modelos por muestreo paralelo . . . . . . . . . . . . . . . . . 51

4.4. Metodo Monte Carlo Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.4.1. Descripcion del metodo Monte Carlo Hamiltoniano . . . . . . . . . . . . . 53

4.4.2. No-U-Turn Sampler (NUTS) . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.5. Verosimilitud Marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.5.1. El estimador ingenuo de Monte Carlo de la Verosimilitud Marginal . . . . 58

4.5.2. El Estimador de Muestreo por Importancia de la Verosimilitud Marginal . 59

4.5.3. El Estimador de muestreo por puente de la verosimilitud marginal . . . . 60

5. Resultados 62

5.1. Aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.1. Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.2. PHMM enfoque frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.1.3. Modelo Oculto de Markov - Poisson Cero inado . . . . . . . . . . . . . . 83

6. Conclusiones y futuras investigaciones 96

6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.2. Futuras Investigaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

A. Anexos 98

A.1. Codigos utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

A.2. Paquete elaborado para esta tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

Bibliografıa 99

Page 12: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...
Page 13: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Lista de Figuras

2-1. Grafo dirigido de una Cadena de Markov. . . . . . . . . . . . . . . . . . . . . . . . 5

2-2. Grafo dirigido de un HMM basico. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3-1. Construccion de pseudo-residuos normales en el caso continuo. Fuente: (MacDo-

nald & Zucchini 2009), donde Xt es una variable aleatoria discreta. . . . . . . . . . 39

3-2. Construccion de pseudo-residuos normales en el caso discreto. Fuente (MacDo-

nald & Zucchini 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4-1. Ejemplo de construccion de un arbol binario mediante duplicacion repetida. Ca-

da duplicacion procede eligiendo una direccion (hacia adelante o hacia atras en el

tiempo) uniformemente al azar, luego simulando la dinamica hamiltoniana para

2j paso leapfrog en esa direccion, donde j es el numero de duplicaciones pre-

vias (y la altura del arbol binario). Las guras en la parte superior muestran una

trayectoria en dos dimensiones (con el arbol binario correspondiente en lıneas

discontinuas) a medida que evoluciona a lo largo de cuatro duplicaciones, y las

siguientes guras muestran la evolucion del arbol binario. En este ejemplo, las di-

recciones elegidas fueron hacia adelante (nodo naranja claro), hacia atras (nodos

amarillos), hacia atras (nodos azules) y hacia adelante (nodos verdes). Tomado de

Homan & Gelman (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5-1. Serie de tiempo homicidios en Colombia desde el ano 1960 hasta el ano 2018 . . . 64

5-2. Funcion de autocorrelacion muetral, y densidad para la serie homicidios en Co-

lombia (1960-2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5-3. Serie homicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5-4. Datos homicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5-5. Graco pseudo-residuales ordinarios para el PHMM de 2 estados . . . . . . . . . . 69

5-6. Algoritmo Viterbi aplicado a un PHMM de dos estados . . . . . . . . . . . . . . . 71

5-7. Pronostico de la distribucion para los anos 2019 a 2034 . . . . . . . . . . . . . . . 72

5-8. Algoritmo Viterbi aplicado a un PHMM de dos estados . . . . . . . . . . . . . . . 75

5-9. Graco de trazas de las cadenas, para cada iteracion y por cadena . . . . . . . . . 78

5-10. Intervalos de credibilidad al 0.95 PHMM . . . . . . . . . . . . . . . . . . . . . . . 79

5-11. Graco de dispersion para las muestras MCMC . . . . . . . . . . . . . . . . . . . 80

5-12. Serie de tiempo Grandes Incendios Forestales en Colombia desde el ano 2002 hasta

el ano 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

Page 14: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

xiv Lista de Figuras

5-13. Funcion de autocorrelacion muestral, y kernel de densidad para la serie Grandes

Incendios Forestales en Colombia (2002-2016) . . . . . . . . . . . . . . . . . . . . 84

5-14. Serie incendios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5-15. Algoritmo Viterbi aplicado al ZIP-HMM de cuatro estados . . . . . . . . . . . . . 87

5-16. Graco de trazas de las cadenas, para cada iteracion y por cadena . . . . . . . . . 90

5-17. Intervalos de credibilidad al 0.95 ZIP-HMM . . . . . . . . . . . . . . . . . . . . . . 91

5-18. Graco de dispersion para las muestras MCMC del ZIP-HMM . . . . . . . . . . . 92

Page 15: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Lista de Tablas

5-1. Numero de homicidios por cada 100.000 habitantes en Colombia, 1960 - 2018.

Fuente: Departamento Nacional de Planeacion (DNP), policıa Nacional y medicina

legal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5-2. Numero de Grandes Incendios Forestales (GIF) en Colombia, 2002 - 2016. Fuente:

IDEAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5-3. Estadısticas de Resumen serie homicidios en Colombia. . . . . . . . . . . . . . . . 64

5-4. Criterio de informacion Bayesiano y Akaike, para los modelos PHMM y mixturas

independientes ajustados a la Tasa de homicidios Colombia. . . . . . . . . . . . . 66

5-5. ACF para los datos de homicidios y ACF de los PHMM hasta el rezago 12. . . . . . 68

5-6. Resultados de la decodicacion global con el algoritmo Viterbi. . . . . . . . . . . . 70

5-7. Prediccion para las probabilidades de los estados hasta un rezago h = 16. . . . . . 71

5-8. Interpretacion del factor de Bayes, Lee y Wagenmakers (2013). . . . . . . . . . . . 73

5-9. Comparacion resultados Factor de Bayes para los PHMM. . . . . . . . . . . . . . . 74

5-10. Estimacion bayesiana de los parametros para un PHMM. . . . . . . . . . . . . . . 74

5-11. Resultados de la decodicacion global bayesiana para el PHMM de orden 2, con

el algoritmo Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5-12. Prediccion bayesiana para las probabilidades de los estados hasta un rezago h = 16. 76

5-13. Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la

convergencia de la cadena y prueba de medio ancho para la media calculando el

intervalo de conanza al 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5-14. Intervalos de Credibilidad y Conanza para el PHMM de 2 estados. . . . . . . . . 81

5-15. Datos incendios: comparacion de modelos ocultos de Markov (Cero inados) por

AIC y BIC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5-16. Resultados de la decodicacion global con el algoritmo Viterbi, para el ZIP HMM. 87

5-17. Comparacion resultados Factor de Bayes para los ZIP HMM. . . . . . . . . . . . . 88

5-18. Estimacion bayesiana de los parametros para un ZIPH-MM de 4 estados. . . . . . 89

5-19. Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la

convergencia de la cadena y prueba de medio ancho para la media calculando el

intervalo de conanza al 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5-20. Intervalos de Credibilidad y Conanza para el ZIP HMM de orden 4. . . . . . . . . 94

Page 16: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Notacion y Abreviaciones

En esta seccion se muestran la notacion y abreviaciones que se utilizaran en esta tesis.

Notacion

Aunque la notacion se dene a medida que se introduce, tambien puede ser util enumerar aquı los

signicados mas comunes de los sımbolos y las paginas en las que se presentan. Las matrices y los

vectores estan denotados en negrita. La transposicion de matrices y vectores se indica mediante

el sımbolo principal:′. Todos los vectores son vectores la, a menos que se indique lo contrario.

Sımbolo TerminoE Valor Esperado del proceso estocastico.

N Conjunto de todos los numeros enteros positivos.

R Conjunto de todos los numeros reales.

Ct Estado Ocupado por la Cadena de Markov al tiempo t.

C1:t (C1, C2, ..., Ct).

l log-verosimilitud (log-likelihood)

L o LT verosimilitud (likelihood)

log logartimo en base e.

D Numero de componentes en la mixtura de un HMM (incluyendo Dirac)

K Numero de estados en la Cadena de Markov

ot Observacion al tiempo t.

O1:t (O1, O2, ..., Ot).

O¬t (O1, O2, ..., Ot−1, Ot+1, ..., OT )

pi funcion masa de probabilidad o de densidad en el estado i

P (o) matriz diagonal con i-esimo elemento en la diagonal pi(o)

T Longitud de una serie

αt(i) Variable forward

βt(i) Vector backward

A Matriz transicion de probabilidades de la Cadena de Markov

aij (i, j) elementos de A; probabilidad de transicion del estado i al estado j en una CM

π distribucion estacionaria de la Cadena de Markov

1 vector la de unos

Page 17: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Lista de Tablas xvii

Abreviaturas

Abreviatura TerminoACF Funcion de autocorrelacion muestral

AIC Criterio de informacion de Akaike

BIC Criterio de informacion Bayesiano

BW Baum Welch

CM Cadena de Markov

EMV Estimador Maxima Verosimilitud

FB Forward-Backward (algoritmo)

HM Hamiltonian Monte Carlo

HMM Hidden Markov Model - Modelo Oculto de Markov

KB Kullback-Leibler

m.t.p. Matriz transicion de probabilidad

MCMC Los metodos de montecarlo para cadenas de Markov

MV Maxima Verosimilitud

NUTS e No-U-Turn Sampler

p.d.f. Funcion densidad de probabilidad (siglas en ingles)

p.m.f. Funcion masa de probabilidad (siglas en ingles)

PHMM Poisson Hidden Markov Model - Modelo Poisson Oculto de Markov

ZIP-HMM Zero Inated Poisson Hiden Markov Model

Page 18: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

1. Introduccion

Un modelo oculto de Markov (HMM) es un proceso doblemente estocastico en el que la distri-

bucion que genera una observacion depende del estado de un proceso de Markov subyacente no

observado.

El uso de los Modelos Ocultos de Markov (HMM) se remonta a nales de la decada de 1960, perıodo

en el cual fue introducido por Baum et al. (1970). A mediados de los anos de 1970 aparecen las

primeras aplicaciones en reconocimiento de la voz. Mas tarde en los 80′s los HMMs son utilizados

para el analisis de secuencias geneticas Churchill (1989), y en aplicaciones relacionadas con la

bioinformatica, a partir de los desarrollos computacionales recientes, en los ultimos 30 anos se ha

masicado su uso en otras areas tales como la economıa (Hamilton 1989), el analisis de imagenes

(Romberg et al. 2001) y en general en el reconocimiento de patrones. Una revision profunda de

esta aplicaciones de HMM puede ser consultada en MacDonald & Zucchini (2009).

Las caracterısticas atractivas de HMM incluyen su simplicidad, su manejabilidad matematica, y

el hecho de que la verosimilitud es relativamente simple de calcular. Los HMM proporcionan mo-

delos exibles de uso general para series temporales univariadas y multivariadas, especialmente

para series de valores discretos, que incluyen series categoricas y series de conteos. Un ejemplo

es el numero de clientes que llegan a un banco por hora o dıa de la semana, situaciones en las

que es inapropiado usar los modelos autorregresivos de promedios moviles (ARMA) que asumen

de distribucion normal en las observaciones. Voliendo al proceso anterior, conteo del numero de

clientes, un modelo plausible para el mismo es el modelo de Poisson, cuya distribucion depende

de un solo parametro λ, que es la tasa de ocurrencia por evento, la media y la varianza de esta

distribucion. Esta distribucion solo es aplicable cuando los sucesos son independientes, en caso

contrario las estimaciones podrıan ser erroneas.

Algunas generalizaciones de la distribucion Poisson han sido propuestas en la literatura para

superar dicultades tales como sobre-dispersion y tasa de incidencia no homogenea. Consul &

Jain (1973) sugieren la distribucion Poisson generalizada (GPD); la cual consta de dos parametros,

λ y w, que generaliza la distribucion habitual de Poisson de una manera exible, cambiando w,

es posible cambiar la tasa de ocurrencia del proceso.

Para series de conteos que muestran una sobredispersion considerable, MacDonald & Zucchini

(2009) mostraron que es inapropiado utilizar, un modelo que consta de variables aleatorias Poisson

Page 19: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2 1 Introduccion

independientes, ya que puede existir una fuerte correlacion serial. Por otra parte para el caso en

el que los incrementos del proceso Poisson no son constantes a traves del tiempo; pero tiene

una distribucion de probabilidad dada, el proceso se puede ajustar utilizando modelos mixtos de

Poisson, suponiendo tanto observaciones independientes como mixtura de modelos dependientes

de Markov, es decir, modelos Ocultos de Markov-Poisson (PHMM), donde la Cadena de Markov se

utiliza para modelar los estados ocultos y la distribucion Poisson se ajusta al proceso observado.

Otra caracterıstica que se puede observar en una serie de datos de conteos, es el exceso de ceros.

Esto ocurre, por ejemplo, al tratar de modelar el numero de cigarrillos fumados por cada uno

de los integrantes de un grupo de personas: puede que algunos de ellos, simplemente, no sean

fumadores. Ademas, la teorıa sugiere que el exceso de ceros se generan mediante un proceso

separado de los valores de recuento y estos pueden ser modelados de forma independiente. De lo

anterior el modelo ZIP (Zero-Inated Poisson) tiene dos partes, un modelo de conteo de Poisson y

un modelo logit para predecir exceso de ceros. Sin embargo no es posible ajustar correctamente el

ZIP para series de datos con exceso de ceros y sobre dispersion. Como alternativa surge el Modelo

Poisson Oculto de Markov cero-inado (ZIP-HMM), originalmente desarrollado y utilizado en el

campo de biometrica, (ver Albert & Chib (1993) y Leroux & Puterman (1992)), que permite modelar

adecuadamente ambos fenomenos.

Una herramienta fundamental en los modelos anteriores es el Metodo de Montecarlo para Cade-

nas de Markov (MCMC) que se pueden utilizar para simular valores para los parametros desde

la distribucion aposteriori. Al contrario de la percepcion, los metodos MCMC tienen interpreta-

ciones probabilısticas intuitivas y pueden mejorar muchos metodos, Sco (2002) demostro ma-

tematicamente, y empıricamente mediante el uso de computacion recursiva, que el muestreador

de Gibbs, permite mezclas mas rapidas por iteracion, estimando de manera mas eciente la cade-

na oculta en los HMM, ademas de proveer diagnosticos de convergencia que no estan disponibles

mediante otros metodos.

Por lo anterior esta tesis se centra en el desarrollo de la teorıa para la modelacion de los PHMM

y ZIP-HMM desde la perspectiva bayesiana, utilizan el metodo de MCMC en el momento de

estimar los parametros del modelo y en el momento de seleccionar el modelo mas apropiado. A

continuacion se muestran los objetivos, contribucion y organizacion de esta tesis.

1.1. Objetivos

Formular una metodologıa bayesiana para estimar los parametros y evaluar los modelos PHMM

y ZIP - HMM. Como segundo objetivo, se busca determinar la estimacion bayesiana del numero

de estados en el PHMM y ZIP-HMM. Finalmente realizar una aplicacion de las metodologıas

propuestas al numero de homicidios para el perıodo 1960 a 2018 en Colombia y a la serie de datos

Grandes Incendios Forestales (GIF) en Colombia, para el perıodo enero - 2002 a diciembre - 2016.

Page 20: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

1.2 Contribucion de la Tesis 3

1.2. Contribucion de la Tesis

El trabajo presentado es resultado de combinar desarrollos de varias disciplinas, se combina in-

formatica, teorıa de procesos estocasticos y estadıstica Bayesiana. Las principales contribuciones

son:

1. Esta es una de las primeras aplicaciones a gran escala para series de tiempo, secuencias

dependientes en el tiempo de datos, de los modelos PHMM y ZIP-HMMdel.

2. Se propone un enfoque Bayesiano que permite sortear las limitaciones de la metodologıa

clasica en los HMM, en los que generalmente se utiliza el algoritmo EM para realizar la

estimacion de los parametros.

3. Se utilizo un enfoque novedoso, el No-U-Turn Sampler (NUTS) que es una extension del

Metodo de Monte Carlo Hamiltoniano (HMC), para la estimacion bayesiana de los parame-

tros en los PHMM y ZIP-HMM; camina que es signicativamente mas eciente que los

metodos usualmente empleados como el muestreador de Gibbs y el algoritmo de Metropo-

lis Hasting.

4. Los algoritmos propios-desarrollados para la estimacion Bayesiana en el ZIP-HMM, permi-

ten sortear los inconvenientes que presenta el algoritmo EM tradicional, como la conver-

gencia a maximos locales.

5. Se construyo un paquete propio en R disponible en el repositorio de github Bayeshmmcts,

contraccion de la plabra Bayes Hidden Markov Models for count time series. El paquete

cuenta con las funciones propias para ajustar el PHMM tanto desde el enfoque clasico como

bayesiano mientras que para el ZIP-PHMM solo se dispone el enfoque bayesiano, bajo el

enfoque frecuentista puede ajustarse dicho modelo usando el paquete ziphsmm .

6. Se plantea el uso del muestreador por puente (bridge sampler) para resolver el problema de

la estimacion Bayesiana del numero de estados en los HMM. A diferencia de las metodo-

logıas propuestas por Newton & Raery (1994) y Congdon (2006), el muestreador de Gibbs

No funciona en espacios altamente dimensionales.

7. Los resultados experimentales muestran que las metodologıas propuestas, se comportan de

manera consistente, ya que dan estimaciones cercanas al algoritmo Baum Welch.

1.3. Organizacion de la Tesis

Posterior a la introduccion anterior se introduce la teorıa general de los modelos Ocultos de

Markov, sus componentes y los tres problemas fundamentales de los HMM . Se describen las

recursiones forward-backward, la decodicacion global de los estados mas probables utilizando

Page 21: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4 1 Introduccion

el algoritmo Viterbi; ademas se describe el algoritmo Baum Welch utilizado para la estimacion de

los parametros en los HMM - Capıtulo 2 -.

El capitulo 3 se dedica a presentar la teorıa clasica del PHMM y ZIP-HMM, incluyendo los criterios

de informacion AIC y BIC para la eleccion del mejor modelo. Vericacion de los supuestos a partir

de los pseudo-residuales, capıtulo al que le sigue el desarrollo de la metodologıa bayesiana para el

PHMM y ZIP-HMM - Capitulo 4 -, introduciendo un esquema general del Metodo de Monte Carlo

Hamiltoniano y del No-U-Turn Sampler. Se responde al problema no resuelto sobre la seleccion del

modelo mas apropiado desde el enfoque bayesiano, para lo cual se utilizo metodologıa inovadora

muestreador por Puente (Bridge Samplper), el cual permite estimar la verosimilitud marginal

a partir de la distribucion posterior, y realizar el factor de Bayes para comparar estos modelos.

En el Capıtulo 5 se presenta la aplicacion de los HMM a dos conjuntos de datos reales, la serie

anual del numero de homicidios desde el ano 1960 al ano 2018 para la cual se sugirio el ajuste de

un PHMM, y la serie mensual Grandes Incendios Forestales (GIF) en Colombia para el perıodo

enero del 2002 hasta diciembre del 2016, la cual fue modelada con un ZIP HMM. Para ambas series

se incluyen gracos y tablas relevantes de los valores calculados, como las estimaciones de los

parametros, la decodicacion global de los estados y el calculo de los intervalos de conanza y de

credibilidad. Ofreciendo una discusion exhaustiva de los resultados frecuentistas vs los bayesia-

nos, ademas del impacto de las suposiciones hechas y la idoneidad de los metodos elegidos para

el problema en estudio.

Finalmente se presentas las conclusiones y las sugerencias para futuras investigaciones.

Page 22: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2. Modelos Ocultos de Markov

En esta seccion, se denen formalmente los HMM1

y se explican sus propiedades. La seccion

comienza con una descripcion de las cadenas de Markov, ya que son esenciales para la teorıa

de los HMM. El material en las secciones a continuacion se deriva de muchas fuentes diferen-

tes. La teorıa y notacion sigue principalmente estos tres autores Zhang (2004), Berhane (2018) y

MacDonald & Zucchini (2009).

2.1. Cadenas de Markov

Denicion 1 (Cadenas de Markov). Una secuencia de variables alteatorias discretas Ctt∈N,

se dice que es una Cadena de Markov (C.M) a (tiempo-discreto) si, para todo t ∈ N, satisface la

siguiente propiedad de Markov

P (Ct+1|C1:t) = P (Ct+1|Ct) (2-1)

Esto es la condicion sobre toda la “historia”del proceso al tiempo t es equivalente a condicionar

solo sobre el valor mas reciente Ct. La propiedad de Markov indica un supuesto de dependen-

cia entre las variables aleatorias Ct, mas especıcamente como se muestra en el siguiente grafo

dirigido en el que el futuro depende solo del presente.

Estados C1 C2 C3 Ct Ct+1. . .. . .

Figura 2-1.: Grafo dirigido de una Cadena de Markov.

En una cadena de Markov las probabilidades condicionales, comunmente llamadas, probabili-dades de transicion en un paso del estado i al estado j en el instante t+ 1 se denen como:

aij(t) = P (Ct+1 = j|Ct = i) (2-2)

Denicion 2 (Cadenas de Markov Homogenea). La Cadena de Markov a tiempo discreto se

denomina homogenea si aij(t) no depende del momento del tiempo en el cual se evalua, es decir

si se que:

P (Ct+1 = j|Ct = i) = P (Ct+h+1 = j|Ct+h = i) para h ∈ N (2-3)

1Los modelos Ocultos de Markov o Hidden Markov Model se denotan por sus siglas en ingles como HMM.

Page 23: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

6 2 Modelos Ocultos de Markov

lo que signica que las probabilidades de transicion de la CM no cambia con el tiempo. Una CM de

estado nito homogeneo en el tiempo, donde Ct solo puede tomar valores en un conjunto nito

K , se puede caracterizar por una matriz de transicion, de dimension K ×K , i.e..

A =

a11 · · · a1K

.

.

....

.

.

.

aK1 · · · aKK

,

donde S = 1, .., K, denota el conjunto de estados en la cadena de Markov. Nos referiremos a

A como la matriz probabilidad de transicion (m.p.t).

Asumiendo que la cadena esta en el estado i, entonces, permanecera en el estado i en el proximo

paso con probabilidad aii y dejara el estado i con probabilidad 1 − aii. Suponga que una cadena

comienza en el estado i, la probabilidad de que la cadena permanezca en ese estado en exacta-

mente h pasos es igual ahii(1 − aii). Se concluye que el tiempo de permanencia en el estado i se

distribuye geometricamente. Las probabilidades de transicion en t pasos son las probabilidades

de transicion del estado i al estado j en t pasos y se denotan como

a(t)ij = P (Ct = j|C0 = i) = P (Ct+h = j|Ch = i) (2-4)

Por lo tanto, se cumple que a(1)ij = aij .

2.1.1. Ecuaciones de Chapman - Kolmogorov

Teorema 1 (Chapman - Kolmogorov). Sea A(t)como la matriz de transicion en t pasos con

(i, j) elementos a(t)ij . Una importante propiedad de todas las Cadenas de Markov con espacio de

estados nitos, es que satisfacen la ecuacion de Chapman-Kolmogorov; esto es

A(t+s) = A(t)A(s)(2-5)

Las ecuaciones de Chapman-Kolmogorov implican que, para todo t ∈ N; A(t) = At, esto es que

la matriz de transicion de probabilidades del t-esimo paso, es la t-esima potencia de A en el paso

uno, la cual ademas cumple con la propiedad que suma de sus las igual a 1, esta propiedad se

puede escribir comoA1′ = 1′.

Existen varias propiedades importantes de la CM, que pueden ser explicados en terminos de la

matriz de transicion A. Se dice que una CM es irreducible si, en terminos generales, es posible

llegar a todos los estados desde cualquier estado. El signicado de irreducible puede denirse

formalmente utilizando la teorıa de conjuntos, pero aquı es suciente observar que una CM con

una matriz de transicion donde todos los elementos son positivos es irreducible. Cada estado en el

conjunto K para la CM tiene un perıodo, que se dene como sigue para cualquier estado i ∈ K .

k = mcdn ≥ 1 : P (Ct = i|C0 = i) > 0. (2-6)

Page 24: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.1 Cadenas de Markov 7

Dondemcd, denota el maximo comun divisor. Si k = 1 para todos los estados enM , se dice que la

CM es aperiodico. Por lo tanto, una CM con una matriz de transicion donde todos los elementos

son positivos, es aperiodico.

Denicion 3 (Distribucion marginal). Las probabilidades no condicionales P (Ct = j), indican

que una cadena de Markov este en un estado determinado j en un momento dado t son a menudo

de interes. Lo denotamos como el vector la

u(t) = (P (Ct = 1), ..., P (Ct = K)), t ∈ N (2-7)

denotamos a u(1) como la distribucion inicial de la Cadena de Markov. Para deducir la distribucion

en el tiempo t+ 1 a partir de la t post multiplicamos por la m.t.pA; entonces u(t+ 1) = u(t)A.

2.1.2. Distribucion Estacionaria

Denicion 4 (Distribucion Estacionaria). SeaA la matriz de transicion de una CM irreducible

con estado nito y homogenea en el tiempo con dimension K . Se dice que una distribucion π 2

es una distribucion estacionaria si cumple las siguientes condiciones:

0 ≤ πi ≤ 1∑i∈K

πi = 1

πA = π

(2-8)

La segunda lınea de la ecuacion 2-8, indica que π es una distribucion de probabilidad, la terce-

ra lınea expresa su estacionariedad y deja claro el valor propio de la matriz de transicion es 1

con vector propio π, este es el teorema de Perron-Frobenius aplicado a matrices estocasticas Ber-

hane (2018). El teorema tambien establece que todos los demas valores propios de la matriz de

transicion son menores que 1.

Sea A una m.t.p de una cadena de Markov, la distribucion estacionaria π con vector de elementos

no negativos puede calcularse a partir de la siguiente igualdad, π(IK−A−U) = 1, donde 1 es un

vector la de unos, IK es la matriz de identidad de tamano K ×K , y U es una matriz K ×K de

unos. Si A es nito e irreducible, entonces la distribucion estacionaria π es unica (MacDonald &

Zucchini 2009, pag. 17). Cuando la distribucion estacionaria existe y es unica, el siguiente teorema

de convergencia es valido para la CM.

Teorema 3 (Teorema de la convergencia). Sea que Ctt∈T denota una CM irreducible, ho-mogenea y con estados nito, con matriz de transicion A y espacio de estado K . Si esta CM es ape-riodica y existe una distribucion estacionaria π, entonces, ∀ ∈ K

lımt→∞

a(t)ij = πj (2-9)

2La distribucion estacionaria es una distribucion de probabilidad sobre el espacio de estados de la CM.

Page 25: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

8 2 Modelos Ocultos de Markov

donde aij(t) denota la siguiente probabilidad de transicion P (Ct = j|C0 = i).

En otras palabras, este teorema establece que la probabilidad a largo plazo en la CM que este en

un estado j viene dada por la probabilidad del estado, πj , en la distribucion estacionaria π. La

distribucion estacionaria se puede encontrar al resolver la ecuacion 2-7, junto con la restriccion

de que la suma da uno.

Para matrices de transicion diagonalizables, A puede descomponerse en la forma A = V DV −1,

donde D es una matriz diagonal que contiene todos los valores propios de A y V es la matriz que

contiene los vectores propios correspondientes como columnas. La convergencia de la matriz de

transicion se puede caracterizar utilizando los valores propios de la siguiente manera:

At = (V DV −1)t

= V DV −1V DV −1 · · ·V DV −1

= V DtV −1.

(2-10)

Dado que D es una matriz diagonal, Dtse puede calcular simplemente tomando a t: como la

t-esima potencia de los valores propios. Volviendo al teorema de Perron-Frobenius anterior, a

continuacion se sigue que, usando el teorema de la convergencia,

lımt→∞

At = lımt→∞

V DtV −1

= lımt→∞

V

1 0 · · · 0

0 λt1 · · · 0...

...

.

.

.

.

.

.

0 · · · 0 λtn

V −1

= V

1 0 · · · 0

0 0 · · · 0...

...

.

.

.

.

.

.

0 · · · 0 0

V −1

=

π

π...

π

.

(2-11)

El error cometido al aproximar At con la distribucion estacionaria se determina por el mayor

valor propio de la matriz de transicion.

2.2. El algoritmo EM

El algoritmo de Esperanza-Maximizacion es uno de los metodos mas utilizados en estadıstica y

aprendizaje automatico para estimar parametros en modelos de variables latentes. El algoritmo

Page 26: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.2 El algoritmo EM 9

alterna entre dos pasos, el paso de Esperanza y el paso de Maximizacion, para calcular las estima-

ciones de maxima verosimilitud de los parametros. Una debilidad de este algoritmo es la posibi-

lidad, que las estimaciones no sean maximos globales, ya que solo se garantiza que el algoritmo

converja a los maximos locales de la funcion de probabilidad.

EL algoritmo EM adquiere cierta relevancia a partir del artıculo publicado por Dempster et al.

(1977), pero diferentes versiones del algoritmo se habıan descubierto en investigaciones previas

(ver, por ejemplo, las notas de (Sundberg 1974)). En Wu et al. (1983) se establecen los resultados

de convergencia del algoritmo para una clase mas grande de distribuciones de probabilidad que

la familia exponencial. A continuacion se presenta una breve explicacion del algoritmo.

2.2.1. Esperanza Maximizacion

Considere un modelo parametrico donde O1:t constituye las variables observadas y C1:t son las

correspondientes variables ocultas o latentes. Su distribucion conjunta se denota P (O1:t, C1:t|Θ),

donde Θ denota un conjunto de parametros. En lo que sigue, se suprimira el subındice 1:t para

mejorar la legibilidad. Se debe entender que todas las letras mayusculas representan secuencias,

a menos que se indique lo contrario. El objetivo inicial es maximizar la verosimilitud

P (O|Θ) =∑C

P (O,C|Θ), (2-12)

donde se supone que C1:t es discreto, sin perdida de generalidad. La maximizacion de la vero-

similitud es bastante difıcil, generalmente compleja incluso para modelos simples. La dicultad

surge debido a la suma que aparece en la funcion de verosimilitud, sin embargo podemos aplicar

logaritmo como se muestra a continuacion

logP (O|Θ) = log

(∑C

P (O,C|Θ)

). (2-13)

Ahora suponga que tambien se observan las variables ocultas denotadas por C , de modo que los

datos completos constan de la parejaO,C . La funcion log-verosimilitud para los datos completos

toma la forma

logP (O,C|Θ), (2-14)

que generalmente es una expresion menos complicada al momento de maximizar, ya que las va-

riables ocultas generalmente proporcionan mas informacion sobre las observaciones. Por lo tanto,

la expresion en 2-14 es deseable. Sin embargo en la practica, las variables ocultas no se observan

y el conocimiento de ellas solo se llega a traves de la distribucion a posteriori P (C|O,Θ). La

solucion, es considerar el valor esperado de la log-verosimilitud de los datos completos bajo la

distribucion posterior de las variables latentes. Sea Θ′ un conjunto de valores para los parame-

tros jos. Suponiendo que las variables ocultas C son discretas, la log-verosimilitud de los datos

Page 27: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

10 2 Modelos Ocultos de Markov

completos se proporciona de la siguiente manera

Q(Θ,Θ′) = EΘ′ [logP (O,C|Θ)|O]

=∑C

P (C|O,Θ′) logP (O,C|Θ), (2-15)

donde EΘ′ denota la esperanza de la log-verosimilitud de los datos completos bajo las distribucio-

nes posteriores. La evaluacion de esta expresion es el paso de Esperanza del algoritmo EM. Esta

funcion se conoce a menudo como la funcion auxiliar Q de Baum, ver Baum & Petrie (1966).

El lado derecho de la ecuacion 2-15, es una funcion de dos conjuntos de valores de parametros,

Θ y Θ′. El siguiente paso del algoritmo es maximizar Q(Θ,Θ′) con respecto al parametro Θ. Es

decir, la esperanza de la log-verosimilitud de los datos completos se maximiza con respecto a los

parametros de la distribucion conjunta, que se puede escribir de la siguiente manera

Θnew = arg maxΘQ(Θ,Θ′) (2-16)

Esto constituye el paso de maximizacion del algoritmo EM. Una vez que se ha evaluado el paso M,

los nuevos valores de los parametros se utilizan para volver a calcular la distribucion posterior de

los datos ocultos. Los nuevos valores de los parametros para la distribucion posterior se utilizan

para evaluar la funcionQ de nuevo. De esta manera, el algoritmo EM alterna entre el paso E y el

paso M para producir estimaciones de parametros. El algoritmo puede ser resumido como sigue.

Algoritmo 1: El algoritmo-EM

Initialization: Θ0, Ot

Looping:

for l = 1, . . . , lmax do1. E-step: Q(Θ,Θl−1) = EΘt−1

[logP (O,Q|Θ)

∣∣∣O]2. M-step: Θl = arg max

ΘQ(Θ,Θl−1)

endResult: Θllmax

l=0

Las estimaciones iniciales para el algoritmo EM se pueden obtener simplemente muestreando

valores de parametros al azar. Sin embargo, se sabe que el algoritmo es sensible, con respecto a

la tasa de convergencia y a los valores iniciales dados.

2.2.2. Por que el algoritmo EM funciona

El algoritmo EM se explico en la seccion anterior, pero no se dieron indicaciones sobre la conver-

gencia del algoritmo. Ese es el enfoque de esta seccion. Como primer paso, se debe observar que

la log-verosimilitud de los datos completos se puede reescribir de la siguiente manera

logP (O,C|Θ) = logP (C|O,Θ) + logP (O|Θ), (2-17)

Page 28: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.2 El algoritmo EM 11

En las siguientes expresiones, q(·) denota una distribucion de probabilidad sobre las variables

ocultas. Siguiendo lo planteado en Berhane (2018, pag. 11), la log-verosimilitud3

de los datos

observados se puede expandir de la siguiente manera

logP (O|Θ) = logP (O|Θ)∑C

q(C)

=∑C

q(C)

[logP (O,C|Θ)− logP (C|O,Θ) + log

q(C)

q(C)

]=∑C

q(C) logP (O,C|Θ)

q(C)−∑C

q(C) logP (C|O,Θ)

q(C)

= L(q,Θ) +KL(q, P ).

(2-18)

El termino KL es la divergencia Kullback-Leibler entre las dos distribuciones de probabilidad

P (·|O,Θ) y q(·) y el primer termino es funcional sobre q(·) y una funcion de Θ. De la desigualdad

de Gibbs, se deduce que la divergencia de KL no es negativa, es decir,KL(q, P ) ≥ 0, con igualdad

si y solo si P (·) = q(·) en casi todas partes. Por lo tanto, la siguiente desigualdad se mantiene

logP (O|Θ) ≥ L(q,Θ). (2-19)

El algoritmo-EM ahora se puede describir a traves de la funcion L En el paso E, L(q,Θ′) se

maximiza con respecto a q(Θ), mientras se mantienen jos los valores de parametro conocidos

(o antiguos) de Θ′. Al senalar que el lado izquierdo de la ecuacion 2-18, logP (O|Θ), no depende

de q(·), y por lo tanto debe ser constante con respecto a q(·), se deduce que L(q,Θ′) se maximiza

cuando KL(q, P ) = 0. Por lo tanto, el lımite inferior para la log-verosimilitud en la ecuacion

2-19 se maximiza cuando q(·) se establece como la distribucion posterior de las variables ocultas,

P (·|O,Θ).

En el paso M, L(q,Θ) se maximiza con respecto a los valores del parametro Θ, mientras q(·) se

mantiene jo. Denotamos estos nuevos valores del parametro con Θ y los valores antiguos del

parametro con θ′. A menos que L(q,Θ) este en un maximo, aumentara con el nuevo valor del

parametro y, en consecuencia, tambien lo hara la log-verosimilitud, segun la ecuacion 2-19 q(·)se determina utilizando los valores de los parametros antiguos, es decir, q(·) = P (·|O,Θ′) en casi

todas partes. Esto implica que la divergencia KL,

KL(P (·|O,Θ′)

∣∣∣∣∣∣P (·|O,Θ),)

ahora no es cero. El aumento total en la probabilidad logarıtmica en la ecuacion 2-18 es, por lo

tanto, mayor que el aumento en el lımite inferior en la ecuacion 2-19.

La importancia de la ultima oracion en el parrafo anterior se puede entender al escribir la funcion

3Nota: El resultado de la expansion de la 2-18 es tomado de (Berhane 2018, pag. 1).

Page 29: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

12 2 Modelos Ocultos de Markov

L de la siguiente manera

L(P (C|O,Θ′),Θ) =∑C

P (C|O,Θ′) logP (O,C|Θ)−∑C

P (C|O,Θ′) logP (C|O,Θ′)

= Q(Θ,Θ′) +H(Θ′),

(2-20)

donde el primer termino es la log-verosmilitud de los datos completos Ecuacion 2-15 yH(Θ′) es la

entropıa negativa. El segundo termino es una constante con respecto a Θ. Por lo tanto, maximizar

L(q,Θ) en el paso M en realidad esta maximizando la log-verosimilitud de los datos completos.

Como ultimo paso, se puede demostrar que el algoritmo EM es un algoritmo iterativo no decre-

ciente. Sea Θ y Θ′ los valores de los parametros nuevos y antiguos, respectivamente, y PΘ denota

P (C|O,Θ). Luego sigue que

logP (O|Θ) ≥ logP (O|Θ′),

con igualdad si y solo si la log-verosimilitud esta en un maximo. Esto demuestra que la log-

verosimilitud es no decreciente en el algoritmo EM.

2.2.3. Extensiones del algoritmo EM

El algoritmo EM que se presenta aquı es la version estandar, que es util cuando todas las cantidades

involucradas pueden escribirse explıcitamente. Este es el caso cuando el espacio de estados para

la cadena subyacente de Markov es nito. Cuando este no es el caso, el paso E del algoritmo se

vuelve intratable. Los metodos secuenciales de Monte Carlo son una gran clase de metodos para

resolver problemas de ltrado cuando no se pueden usar los algoritmos EM.

Tambien es posible que la derivada en la etapa M produzca una expresion compleja o intratable.

Existen varias extensiones del algoritmo EM donde se utilizan diferentes metodos para maximizar

de alguna manera la funcion Q con respecto a algunos de los parametros.

2.3. HMM

Los HMM nos permiten modelar la dinamica de un sistema (oculto), al cual no podemos acceder

(observar) de forma directa; por el contrario de forma indirecta mediante la observacion de even-

tos externos, suponemos que estan correlacionados con dicho sistema y su estado. En las cadenas

de Markov, las senales observadas corresponden a los estados del modelo, mientras que en en

los modelos ocultos de Markov no se conoce la secuencia de estados por la que pasa el modelo,

sino una funcion probabilıstica de ella. Existen diversas razones por los cuales el sistema no es

accesible de forma directa, como la imposibilidad fısica o la presencia de ruido en la medicion.

(Rabiner 1990).

Page 30: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.3 HMM 13

2.3.1. Modelos Ocultos de Markov

De forma general denimos un HMM, como un modelo probabilıstico, utilizado para representar

la probabilidad conjunta de un conjunto de variables aleatorias (Ct, Ot)Tt>0. En este conjunto de

variables aleatorias distinguimos dos tipos. Bilmes et al. (1998). El primero corresponde al estado

en el cual se encuentra el sistema oculto CtTt>0 durante una observacion y satisface la propiedad

de Markov. El segundo corresponde a los posibles eventos o sımbolos observables OtTt>0, que

pueden presentarse al realizar una observacion indirecta del sistema oculto. Ademas la distribu-

cion de Ot depende solo del estado actual Ct y no de los estados u observaciones anteriores. Esta

estructura se representa en la Figura 2-2.

P (Ct|C1:t−1) = P (Ct|Ct−1), t = 2, 3, ... (2-21)

P (Ot|Ot−1, Ct) = P (Ot|Ct), t ∈ N (2-22)

Estados C1 C2 C3 Ct Ct+1

O1 O2 O3 Ot Ot+1Observado

. . .. . .

Figura 2-2.: Grafo dirigido de un HMM basico.

Los Modelos Ocultos satisfacen la siguiente propiedad de independencia4

Ct:T , Ot:T ⊥ C1:t−2, O1:t−1|Ct−1,

Ot ⊥ C¬t, O¬t|Ct,(2-23)

para todo t = 1, ..., T . Varias propiedades de independencia condicional se inducen a partir de las

dos ecuaciones anteriores. El primero arma que el futuro y el pasado son condicionalmente in-

dependientes, dado el presente. Esto a su vez implica queCt ⊥ C1:t−2|Ct−1, e implica que CtTt≥0

forma una CM discreta, que en realidad no es necesario incluir en la denicion del HMM. La se-

gunda ecuacion establece que las observaciones OtTt≥0 son condicionalmente independientes,

dado los estados correspondientes. Las propiedades de independencia condicional de un HMM

sugieren que la probabilidad conjunta sobre las variables ocultas y observadas (en conjunto, se

denominan datos completos) se puede factorizar. Tomado de (Berhane 2018).

P (O1:T , C1:T ) = P (OT , CT |O1:T−1, C1:T−1)P (O1:T−1, C1:T−1)

= P (OT |CT , O1:T−1, C1:T−1)P (CT |O1:T−1, C1:T−1)P (O1:T−1, C1:T−1),(2-24)

4Donde el sımbolo ¬ en logica matematica negacion, y ⊥ es sinonimo de ortogonal. Ver tabla de notacion.

Page 31: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

14 2 Modelos Ocultos de Markov

donde los signos de igualdad se derivan de la denicion de una distribucion condicional. A partir

de las propiedades de independencia condicional de la HMM, se deduce que

P (O1:T , C1:T ) = P (OT |Ct)P (CT |CT−1)P (O1:T−1, C1:T−1). (2-25)

El primer factor se deriva de la segunda propiedad en la ecuacion 2-23, mientras que la segunda

igualdad es la propiedad de Markov de las variables ocultas. Repitiendo este procedimiento para

el ultimo factor en el producto, P (O1:T−1, C1:T−1), se obtiene la siguiente factorizacion de la

distribucion conjunta

P (O1:T , C1:T ) = P (C1)T∏t=2

P (Ct|Ct−1)T∏t=1

P (Ot|Ct). (2-26)

Esta factorizacion es conveniente, ya que demuestra los componentes del HMM. El primer factor

representa la distribucion inicial sobre los estados ocultos. El segundo factor representa las pro-

babilidades de transicion de la CM subyacente y el ultimo factor representa las distribuciones de

observacion (o emision). Juntas, estas distribuciones determinan el HMM.

Se puede obtener cierta intuicion sobre la exibilidad al usar variables latentes a traves de un

ejemplo de un HMM. Supongamos que los rendimientos de un activo nanciero siguen una distri-

bucion t. Es plausible que los mercados nancieros puedan mostrar un comportamiento diferente

en diferentes momentos. Especıcamente, es posible que el mercado tenga diferentes estados en

los que los participantes del mercado, y en consecuencia los retornos, muestren tendencias y vo-

latilidades similares. Por ejemplo, el mercado puede tener un “estado positivo” con rendimientos

abrumadoramente positivos, un “estado estancado” donde los rendimientos no parecen mostrar

ninguna tendencia y tienen una gran variacion y un “estado inactivo”, donde los rendimientos

son principalmente negativos. Cada uno de estos estados podrıa aparecer en un orden arbitrario

y existir durante diferentes perıodos de tiempo. Si bien se podrıa usar una distribucion mixta para

modelar la salida total de los datos, no puede modelar las propiedades temporales de los datos,

que forman una serie de tiempo.

En un HMM, los diferentes estados del mercado podrıan representarse por diferentes estados de

las variables ocultas. La matriz de transicion del HMM subyacente capturarıa entonces como el

mercado cambia entre estados. El comportamiento de los retornos se describe a continuacion me-

diante los parametros de las distribuciones de observacion en cada estado. Es decir, los diferentes

valores para los parametros de las distribuciones de observacion permiten diferentes medios y

variaciones de los rendimientos en cada estado.

2.3.2. Distribucion Predictiva

Para generar predicciones a partir de los HMM, primero se debe derivar la distribucion predic-

tiva, ver (Berhane 2018, p. 14). Para una secuencia de observacion O1:t y un tiempo s ≥ 1, la

distribucion predictiva P (Ot+s|O1:t) se puede derivar como sigue,

Page 32: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.3 HMM 15

P (Ot+s|O1:t) =∑Ct+s

∑Ct

P (Ot+s, Ct+s, Ct|O1:t)

=∑Ct+s

∑Ct

P (Ot+s|Ct+s, Ct, O1:t)P (Ct+s, Ct|O1:t)

=∑Ct+s

∑Ct

P (Ot+s|Ct+s)P (Ct+s|Ct, O1:t)P (Ct|O1:t)

=∑Ct+s

P (Ot+s|Ct+s)∑Ct

P (Ct+s|Ct)P (Ct|O1:t).

(2-27)

La segunda igualdad es simplemente la denicion de una distribucion condicional. La tercera

igualdad se deriva de la propiedad de independencia condicional de los HMM. La expresion nal

se obtiene mediante el uso de la propiedad Markov de la CM y la recopilacion de terminos. El

primer termino en esta expresion es la densidad de emision para el estadoCt+s. El primer termino

en la segunda suma es la probabilidad de pasar del estado Ct al Ct+s en los s pasos en la CM

subyacente.

La expresion en la ecuacion 2-27 se puede simplicar deniendo la siguiente funcion

V (Ct+s) ,∑Ct

P (Ct+s|Ct)P (Ct|O1:t) (2-28)

Reemplazando en la ecuacion 2-27, se obtiene la distribucion predictiva

P (Ot+s|O1:t) =∑Ct+s

P (Ct+s|Ct+s) · V (Ct+s) (2-29)

En esta forma, es evidente que la distribucion predictiva es una mezcal de distribuciones, con

pesos V (Ct+s) y mixtura de las componentes P (Ot+s|Ct+s), que son distribuciones de la mixtura

en sı mismas. El esquema de muestreo se vuelve identico al de la mixtura de distribuciones, con

la adicion de un segundo nivel debido a que las distribuciones de emision tambien son mixturas.

Para vericar que 2-27 (o 2-29) es una distribucion de probabilidad adecuada, se debe observar

que

∑Ct+s

V (Ct+s) =∑Ct+s

∑Ct

P (Ct+s|Ct)P (Ct|O1:t)

=∑Ct

P (Ct|O1:t)∑Ct+s

P (Ct+s|Ct)

= 1.

Cabe destacar algunos puntos con respecto a la V (Ct+s). En el primer termino en 2-28, utilizando

la ecuacion de Chapman-Kolmogorov, se deduce que P (Ct+s|Ct) se obtiene al tomar la s-esima

Page 33: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

16 2 Modelos Ocultos de Markov

potencia de la matriz de transicion y elegir el elemento apropiado en la matriz resultante. El

segundo factor puede reescribirse como sigue:

P (Ct|O1:t) =P (Ct, O1:t)

P (O1:1)=

αt(Ct)∑Ctαt(Ct)

. (2-30)

Entonces, V (Ct+s), puede ser expresado como sigue:

V (Ct+s) =∑Ct

AsCt,Ct+sαt(Ct)∑r αt(Cr)

(2-31)

Si la CM subyacente tiene una distribucion estacionaria δ, entonces la matriz de transicion con-

vergera a δ a medida que s crezca. Esto produce una ligera simplicacion de V (Ct+s), para valores

de s sucientemente grandes se tiene:

V (Ct+s) =∑Ct

AsCt,Ct+sαt(Ct)∑Crαt(Cr)

≈∑Ct

δ(Ct+s)αt(Ct)∑Crαt(Cr)

= δ(Ct+s).

En consecuencia, cuando la CM oculta ha convergido a su distribucion estacionaria, la distribu-

cion predictiva es identica para todos los horizontes de prediccion futuros y se pierde la depen-

dencia de la distribucion posterior del estado oculto actual.

2.4. Los tres problemas fundamentales en los HMM

La distribucion de probabilidad conjunta desensamblada en la ecuacion 2-26 resalta las diferentes

partes de un HMM necesarias para las aplicaciones. El primer factor es la distribucion inicial,

generalmente denotada por π, del HMM sobre los estados posibles para la distribucion oculta, de

manera que

0 ≤ πi ≤ 1,K∑i=1

πi = 1,

donde K es el numero de estados, o equivalentemente, la dimension del HMM. El segundo fac-

tor representa las transiciones de la CM y esta determinado por los elementos de la matriz de

transicion A. El ultimo factor representa las distribuciones de emision de las variables observa-

das, denotadas por B. Estas se suelen elegir para ser distribuciones de familias parametricas o

mezcla de distribuciones , en cuyo caso se indexan por parametros. Junto con K y D (el numero

de componentes de la mixtura), estos factores forman el HMM y se indican con Θ , (π,A,B).

Estos son los parametros que se requieren para una especicacion completa del HMM.

Page 34: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.4 Los tres problemas fundamentales en los HMM 17

Dada la especicacion del HMM descrito anteriormente, algunas preguntas surgen naturalmente.

Los tres problemas principales para los HMM, tal como se presentan en Rabiner (1990), son los

siguientes:

1. Dada una secuencia de observaciones O1:T y un modelo Θ = (π,A,B), ¿cual es la verosi-

militud de la secuencia de observacion bajo Θ, es decir, P (O|Θ) =?

2. Dada una secuencia de observacionesO1:T y un modelo Θ = (π,A,B), ¿Como se encuentra

la secuencia oculta correspondiente?

3. Dada una secuencia de observaciones O1:T , ¿Como se ajustan los parametros en Θ para

maximizar P (O1:T |Θ)?

Estas tres preguntas se abordaran en este mismo orden en las siguientes secciones.

2.4.1. Problema 1: Encontrando la verosimilitud de una secuencia de

observaciones

Dada una secuencia de observaciones O = O1:T y un HMM Θ = (A,B, π), queremos calcular

la verosimilitud de esta secuencia P (O|Θ). Este proceso tambien se conoce como decodicacion.

Como las observaciones son independientes entre sı al momento t, la verosimilitud de que una

secuencia de estados C = C1:T que genere la secuencia de observaciones se puede calcular como:

P (O|C,Θ) y la probabilidad de transicion entre estados como P (C1:T |Θ), ademas la probabilidad

conjunta de O y C es,P (O,C|Θ) = P (O|C,Θ)P (C|Θ), por lo tanto

P (O|Θ) =∑C

P (O|C,Θ)P (C|Θ)

El calculo de la verosimilitud de manera directa es bastante sencillo, solo se debe sumar la proba-

bilidad de cada observacion dada cada una de las posibles secuencias de estados. Sin embargo el

enumerar todas las posibles secuencias de estados requiere calculos del orden de KT, que crecen

de manera exponencial incluso para secuencias pequenas, un ejemplo es para K = 5, T = 100

se produce 5100 ≈ 1072.

Para resolver este problema, fue desarrollado un algoritmo utilizando tecnicas de programacion

dinamica y publicado por Rabiner & Juang (1986), el denominado algoritmo forward backwardque reduce la complejidad computacional a una forma lineal de orden T .

El algoritmo Forward Backward - FB

El algoritmo FB es un metodo para evaluar de manera eciente la verosimilitud de un HMM, utili-

zando las propiedades de independencia condicional del modelo. El funcionamiento del algoritmo

Page 35: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

18 2 Modelos Ocultos de Markov

Forward se puede demostrar con la ayuda de dos cantidades. Primero, la distribucion conjunta

P (O1:t, Ct, Ct−1) se puede expandir de la siguiente manera

P (O1:t, Ct, Ct−1) = P (O1:t−1, Ot, Ct, Ct−1)

= P (Ot, Ct|O1:t−1, Ct−1)P (O1:t−1, Ct−1)

= P (Ot|Ct, O1:t−1, Ct−1)P (Ct|O1:t−1, Ct−1)P (O1:t−1, Ct−1)

= P (Ot|Ct)P (Ct|Ct−1)P (O1:t−1, Ct−1)

La segunda y tercera igualdad se derivan de la denicion de una distribucion condicional. La

ultima igualdad se deriva de la propiedad de independencia condicional del HMM y la propiedad

de Markov para el proceso de estado no observado. Segundo, el ultimo factor en la ecuacion 2-32

se puede descomponer de la siguiente manera

P (O1:t, Ct) =∑Ct−1

P (O1:t, Ct, Ct−1)

=∑Ct−1

P (Ot|Ct)P (Ct|Ct−1)P (O1:t−1, Ct−1)(2-32)

Variable Forward

Introduciendo la variable α como αCt(t) , P (O1:t, Ct). Donde α almacena la probabilidad total

de terminar en el estado Ct al momento t, dada la secuencia de observaciones O1:t−1. Se calcu-

la sumando las probabilidades entrantes en cada uno de los nodos. La segunda igualdad de la

ecuacion 2-32 sugiere la recursion,

αCt(t) =

∑Ct−1

P (Ct|Ct−1)αCt−1(t− 1)

P (Ot|Ct). (2-33)

Esta es la recursion forward (recursion hacia adelante) y se encuentra resumida en el algoritmo 1.

La verosimilitud ahora se puede obtener facilmente sumando la variable αCT (T ) sobre los estados

ocultos, es decir,

P (O1:t) =∑Ct

αCt(t)

Este calculo es mucho mas eciente que simplemente enumerar todos los estados posibles. El

algortimo forward utiliza la estructura mas na del HMM, por lo tanto el orden de los calculos

requeridos es de K2T .

Page 36: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.4 Los tres problemas fundamentales en los HMM 19

Algoritmo 2: El algoritmo Forward

Initialization:

α1(i) = πibi(O1), 1 ≤ i ≤ K

Recursion:

for t = 1, ..., T − 1 dofor j = 1, ..., K do

αt+1(j) =

[K∑i=1

αt(i)aij

]bj(Ot+1)

endendResult: P (O1:T ) =

∑Ni=1 αT (i)

Del mismo modo, se puede derivar la recursion backward (recursion hacia atras). La distribucion

P (Ot+1:T |Ct) se puede descomponer de la siguiente manera

P (Ot+1:T |Ct) =∑Ct+1

P (Ot+2:T , Ot+1, Ct+1|Ct)

=∑Ct+1

P (Ot+2:T |Ot+1, Ct+1, Ct)P (Ot+1|Ct+1, Ct)P (Ot+1|Ct)

=∑Ct+1

P (Ot+2:T |Ct+1)P (Ot+1|Ct+1)P (Ct+1|Ct).

(2-34)

La primera y la segunda igualdad se derivan de la denicion de distribucion condicional. La tercera

igualdad se deriva de la primera propiedad de independencia condicional del HMM, establecida

en la ecuacion 2-23.

Variable backward

El calculo de induccion para el procedimiento directo tambien se puede realizar en orden inverso.

El procedimiento hacia atras calcula la probabilidad de la secuencia de observacion parcial desde

t + 1 hasta el nal, dado el modelo Θ y el estado Ct al momento t. La variable backward β se

dene como βCt(t) = P (Ot+1:T |Ct,Θ). De la ecuacion 2-34 se obtiene la siguiente recursion:

βCt(t) =∑Ct+1

βCt+1(t+ 1)P (Ot+1|Ct+1)P (Ct+1|Ct) (2-35)

La verosimilitud de una secuencia de observaciones puede obtenerse nuevamente sumando sobre

la variable β. El algoritmo backward (de retroceso) se resume en el algoritmo 3, que se muestra a

continuacion.

Page 37: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

20 2 Modelos Ocultos de Markov

Algoritmo 3: El algoritmo Backward

Initialization:

βT (i) = 1, 1 ≤ i ≤ K

Recursion:

for t = T − 1, ..., 1 do

βt(i) =k∑j=1

aijbj(Ot+1)βt+1(j)

endResult: βt(i) = P (Ot+1:T |cT = i|Θ)

Cada uno de los dos algoritmos se puede usar por separado para calcular la probabilidad de un

modelo. Sin embargo, si se quiere utilizar el algoritmo de Baum-Welch5, tanto el algoritmo for-

ward como el backward son necesarios para estimar los parametros de un HMM.

5Nota: El algritmo Baum Welch (BW) es equivalente al algoritmo EM para los HMM.

Page 38: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.4 Los tres problemas fundamentales en los HMM 21

2.4.2. Problema 2: Encontrando la secuencia mas probable de estados

El segundo problema tiene un objetivo claro, el cual es encontrar la mejor secuencia de estados

dado un modelo y una secuencia de observaciones. Este es uno de los problemas que a menudo se

debe resolver, por ejemplo en el reconocimiento de patrones del habla. Hay varias formas posibles

para resolver este problema, sin embargo surge una dicultad y es que existen varios criterios

optimos posibles. Uno de ellos es elegir los estados que son mas probables individualmente en

cada momento t. Para cada momento t, 1 ≤ t ≤ T + 1 se encuentra la siguiente variable que da

una probabilidad

γt(i) = P (Ct|O1:t, θ) =P (Ct, O1:t|θ)P (O1:t|Θ)

=αt(i)βt(i)∑Kj=1 αt(j)βt(j)

La secuencia individual de estados mas probable C ′, puede ser encontrada como:

arg max1≤i≤K

γi(t), 1 ≤ t ≤ T + 1, 1 ≤ i ≤ K

Esta cantidad maximiza el numero esperado de estados correctos. Sin embargo, el enfoque puede

generar una secuencia de estado poco probable. Esto se debe a que no toma en consideracion las

probabilidades de transicion para cada estado. Por ejemplo, si en algun momento tenemos una

probabilidad de transicion cero aij = 0, la secuencia de estados optima encontrada puede no ser

valida. Es ası que surge como alternativa una metodologıa mas eciente, el algoritmo de Viterbi,basado en la programacion dinamica el cual es utilizado para encontrar la secuencia de estados

mas probable.

Algoritmo Viterbi

El algoritmo Viterbi encuentra la mejor secuencia de estados maximizando la distribucion poste-

rior de los estados ocultos. Este objetivo es equivalente a maximizar el segundo termino de esta

igualdad

P (C1:t, O1:t|Θ) = P (C1:t|O1:t,Θ)P (O1:t,Θ)

con respecto a la secuencia C1:t. Para entender el funcionamiento del algoritmo Viterbi se dene

la siguiente cantidad

δt(i) = maxC1,...,Ct−1

P (C1:t−1, O1:t−1, Ct = i|Θ),

cuyo camino es unico C1:t−1 y utiliza la probabilidad mas alta, dada la observacion y los parame-

tros del modelo utilizando recursion hasta el tiempo t − 1, y termina en el estado i con tiempo

t. Similar al algoritmo backwward-forward excepto que este utiliza la suma de los estados ante-

riores, mientras que el algoritmo de Viterbi utiliza la maximizacion. La teorıa de la programacion

dinamica sugiere la siguiente recursion.

δt+1(j) = maxi

[δt(i)aij] bj(Ot+1),

Page 39: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

22 2 Modelos Ocultos de Markov

Donde δt(j) se calcula para cada estado oculto j en cualquier momento, y la correspondiente

variable ψt(j) almacena el resultado del nodo entrante que conduce a la ruta mas probable. La

secuencia optima se recupera encontrando el estado que maximiza δT (i), donde T es el ultimo

punto de tiempo, y la secuencia se devuelve hasta este estado para encontrar el camino optimo.

Al incluir las probabilidades de transicion para cada estado dentro de sus calculos, el algoritmo

Vierbi excluye los caminos imposibles. En el algoritmo 4, se resume el agoritmo Viterbi.

Algoritmo 4: El algoritmo Viterbi

Initialization:

ψ1(i) = 0,

δ1(i) = πibi(O1), i = 1, ..., K

Recursion:

for t = 2, ..., T − 1 dofor j = 1, ..., K do

δt(j) = max1≤i≤K

[δt−1(i)aij] bj(Ot)

ψt(j) = arg max1≤i≤K

[δt−1(i)aij]

endend

Termination:

maxC

P (O,C|Θ) = max1≤i≤K

[δT ]

C∗T = arg max1≤i≤K

[δT ]

Backtracking: for t = T − 1, ..., 1 doC∗t = ψt+1(C∗t+1)

end

Result: C∗1:T

Page 40: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

2.4 Los tres problemas fundamentales en los HMM 23

2.4.3. Problema 3: Estimacion de los parametros

El ultimo y mas difıcil problema de los HMM es el de la estimacion de parametros. Dada una

secuencia de observacion, queremos encontrar los parametros del modelo Θ = (A,B, π) que

mejor expliquen la secuencia de observacion. El problema se puede reformular para encontrar

los parametros que maximicen la siguiente probabilidad:

argmaxΘ

P (O|Θ)

No se conoce ningun metodo analıtico para elegir a Θ que maximiza P (O|Θ), pero se puede

utilizar un algoritmo de maximizacion local para encontrar la verosimilitud. Este algoritmo se

llama Baum-Welch, que es un caso particular del metodo de Esperanza Maximizacion. Funciona

iterativamente lo cual mejora la verosimilitud de P (O|Θ). Este proceso iterativo se denomina

entrenamiento del modelo. El algoritmo Baum-Welch es numericamente estable ya que la verosi-

militud es no decreciente en cada iteracion. Converge linealmente a un optimo local.

El algoritmo Baum-Welch

Desarrollado originalmente en la decada de 1960, junto con la formulacion de HMM, el algoritmo

de Baum-Welch es una coleccion de algoritmos para estimar los parametros de un HMM. Especı-

camente, itera entre el uso de los algoritmos forward y backward (avance y retroceso) obteniendo

estimaciones para la distribucion posterior de los estados ocultos, y luego utiliza estas estimacio-

nes en el algoritmo EM para actualizar los parametros ocultos de la CM y las distribuciones de

emision.

Para el calculo del algoritmo BW se deben denir unas variables intermedias que se describen

a continuacion. La probabilidad de estar en el estado Ct al momento t, dada una secuencia de

observaciones y un modelo Θ es:

γt(i) = P (Ct|O1:t,Θ), (2-36)

mientras que la probabilidad de estar en el estado Ct en el momento t y de estar en el estado Ct+1

al momento t+ 1, dada una secuencia de observaciones y un modelo Θ es la siguiente

εt(i, j) = P (Ct, Ct+1|O1:t,Θ) (2-37)

Los algortimos forward y backward necesarios para implementar el algoritmo-BW ya se han

descrito anteriormente. Como tal, el algoritmo BW no se describe mas detalladamente aquı, sino

que se resume a continuacion en el algoritmo 5.

Tenga en cuenta que el conjunto de ecuaciones dado en el algoritmo 4 es identico para todas

las mezclas de distribuciones e independiente de la forma de las distribuciones de emision. El

subconjunto de parametros del HMM Θ no mencionados anteriormente, tambien se actualizan en

el paso M. Como se ha mencionado anteriormente, el algoritmo BW es esencialmente el algoritmo

Page 41: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

24 2 Modelos Ocultos de Markov

EM para los HMM, por lo tanto se utilizan los nombres indistintamente cuando se analice la

estimacion de los parametros en el HMM, para las secciones restantes.

Algoritmo 5: El algoritmo Baum-Welch

Initialization: Θ0, O1:T

Looping:

for l = 1, . . . , lmax do1. Forward-Backward calculations:

α1(i) = πibi(O1), βT (i) = 1,

αt(i) =[ K∑j=1

αt−1(j)aji

]bj(Ot), βt(i) =

K∑j=1

aijbj(Ot+1)βt+1(j)

for 1 ≤ i ≤ K, 1 ≤ t ≤ T − 1

2. E-step:

γt(i) =αt(i)βt(i)∑Kj=1 αt(j)βt(j)

,

ξt(i, j) =αt(i)aijbj(Ot+1)βt+1(j)∑N

i=1

∑Nj=1 αt(i)aijbj(Ot+1βt(j))

for 1 ≤ i ≤ K, 1 ≤ j ≤ K, 1 ≤ t ≤ T − 1

3. M-step:

πi =γ1(i)∑Kj=1 γ1(j)

, aij =

∑Tt=1 εt(i, j)∑K

k=1

∑Tt=1 εt(i, k)

, wkd =

∑Tt=1 γt(k, d)∑T

t=1

∑Dr=1 γt(k, r)

for 1 ≤ i ≤ K, 1 ≤ j ≤ K, 1 ≤ k ≤ K, 1 ≤ d ≤ D

endResult: Θllmax

l=0

Page 42: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3. PHMM y ZIP-HMM

De acuerdo a lo presentado anteriormente, los HMM nos permiten modelar la dinamica de un

sistema (oculto), no observable de forma directa; sino de forma indirecta mediante la observacion

de eventos externos, que estan correlacionados con dicho sistema y su estado. En las cadenasde Markov, las senales observadas corresponden a los estados del modelo, mientras que en en

los modelos ocultos de Markov no se conoce la secuencia de estados correspondientes el modelo,

sino una funcion probabilıstica de ella. Existen diversas razones por los cuales el sistema no es

accesible de forma directa, como la imposibilidad fısica o la presencia de ruido en la medicion

(Rabiner 1990). De modo que los HMM proporcionan modelos exibles de proposito general para

series de tiempo, incluyendo series categoricas y de conteos.

De forma general denimos un HMM, como un modelo probabilıstico, utilizado para representar

la probabilidad conjunta de un grupo de variables aleatorias (Bilmes et al. 1998). Este grupo de

variables aleatorias corresponde a los posibles eventos o sımbolos observables Ot, que pueden

presentarse al realizar una observacion indirecta del sistema oculto, y al estado en el cual se

encuentra el sistema oculto Ct durante una observacion.

En MacDonald & Zucchini (2009), se proporciona como ejemplo, la serie de conteos anuales de

terremotos mayores (aquellos con magnitud 7 o mayor) en el mundo para los anos 1900-2006. El

autor indica que para la serie terremotos, la aplicacion de modelos estandar como los modelos

auto regresivos de medias moviles (ARMA) serıa inapropiada, ya que dichos modelos se basan en

la distribucion normal. Usualmente el modelo adecuado para series con conteos, es la regresion

Poisson, sin embargo el autor plantea que cuando hay sobredispersion y/o una fuerte dependencia

serial como en el caso de la base terremotos tampoco es apropiado utilizar este modelo. Como

alternativa a este problema surgen los HMM, que permiten que la distribucion de probabilidad de

cada observacion dependa del estado oculto de una cadena de Markov, lo que posibilita modelar

tanto la sobredispersion como la dependencia serial. En este capitulo se introducen dos tipos

particulares de HMM para series de datos con conteos sin y con exceso de ceros. El primero es

el modelo Oculto de Markov - Tipo Poisson o (PHMM) por sus siglas en ingles Poisson HiddenMarkov Model y el modelo Oculto de Markov - Poisson cero inado o (ZIP-HMM), por sus siglas

en ingles Zero Inated Hidden Markov Model.

Page 43: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

26 3 PHMM y ZIP-HMM

3.1. Modelo Oculto de Markov - Poisson

Los Poisson HMM son un tipo especial de Modelos Ocultos de Markov (HMMs), cuyo procesos

estocasticos son a tiempo discreto y puede escribirse como la pareja (Ct;Ot)t∈N . Donde Ct es

una cadena de Markov de estado nito no observable y Ott∈N es una secuencia de variables

aleatorias dependientes en Ctt∈N. Donde la distribucion condicional de cada observacion Ot,

dada la secuencia Ct, depende unicamente del proceso actual no observado Ct. Para cada mo-

mento t, la variable Ot dado un estado Ct es una variable aleatoria de Poisson, y se denomina

modelo Oculto de Markov - Poisson. En este caso, Ct determina el parametro λ de la distribu-

cion Poisson utilizado para generar Ot. Asumamos que el proceso no observado Ctt∈N es una

cadena de Markov discreta, homogenea, aperiodica e irreducible en un espacio de estados nitos

S = 1, 2, ., K [ver Grimme & Stirzaker (2001)]; denotamos con aij la probabilidad de transicion

del estado i en el tiempo t−1, al estado j en el tiempo t, i.e. aij = P (Ct = j|Ct−1 = i) (para algun

estado i, j en punto de tiempo t). Sea A = aij, i, j ∈ S la matriz de transicion de probabili-

dades con dimension K ×K , y cumple con la siguiente propiedad

∑j∈S aij = 1. La distribucion

marginal de C1 es la distribucion inicial denotada por π = (π1, ..., πK), con πi = P (C1 = i), para

algun i = 1, 2, ..., K . Ademas

∑i∈S πi = 1 es una consecuencia inmediata del supuesto sobre la

cadena de Markov. Si π es la distribucion estacionaria la igualdad π = πA se cumple; i.e. la parte

izquierda π, es el vector propio de la matrizA, asociada al valor propio 1, la cual siempre existe ya

que A es una matriz estocastica (Guorp & Minin 1995, p. 19). Ahora consideremos la secuencia

observada Ott∈N. En un PHMM, cualquier variable observada Ot condicionada sobre Ct, tiene

distribucion Poisson para cualquier t; cuando Ct se encuentra en el estado i (i ∈ S; t ∈ N), en-

tonces la distribucion condicional de Ot es una variable aleatoria con parametro λi; para algun

o ∈ N, las funcion masa de probabilidad de los estados dependientes esta dada por:

bi(Ot) = P (Ot|Ct = i) = e−λiλOiO!

con λ > 0

Con

∑i bi(Ot) = 1 para cada i ∈ S. Como Ctt∈N es un proceso fuertemente estacionario

tambien el proceso observado Ot lo es. Ademas Ot tiene la misma distribucion marginal para

cada t, que puede verse como una mixtura nita de distribuciones Poisson.

P (Ot) =∑i∈S

P (Ot, Ct = i) =∑i∈S

P (Ot|Ct = i) =∑i∈SC

πibi(ot)

Ademas, puede demostrarse que el valor esperado de Ot, para cada t, viene dado por:

E(Ot) =∑i∈S

πiλi

A diferencia de la distribucion Poisson convencional donde la media es igual a su varianza, en el

PHMM la varianza es mayor que la media, es decir las variables Ot presentan sobre dispersion,

veamoslo a continuacion. Sea V (Ot) = λ′Λλ + π′λ − (π′λ)2 > E(Ot) = π′λ, para algun t, con

λ = (λ1, ..., λK)′ y Λ = diag(π). [ver (MacDonald & Zucchini 2009)]

Page 44: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.1 Modelo Oculto de Markov - Poisson 27

3.1.1. Estimacion de los parametros

Un PHMM esta compuesto por el siguiente conjunto de parametros: la distribucion estacionaria

inicial π = (π1, ..., πm)′, las probabilidades de transicion aij (i, j ∈ S) y la funcion masa de

probabilidad de Ot, denida como bi(ot) = P (Ot|Ct = i), si la cadena de Markov se encuentra

en el estado i al momento t. Para estimar por maxima verosimilitud los valores de la matriz de

transicion aij con i 6= j, es necesario calcular un total de K2 −K probabilidades de transicion,

pues los elementos por fuera de la diagonal de la matriz A se obtienen por diferencia, ya que

cada la de A suma a uno. aij = 1 −∑

j∈S aij , para algun i 6= j ∈ S y el estimador de maxima

verosimilitud para losm parametros λi de la distribucion Poisson, entrando las probabilidades de

los estados-dependientes bi(Ot). Usando la matriz estimada A, entonces obtenemos el estimador

de la distribucion inicial a partir de π desde la igualdad πA = π (donde π es la distribucion

estacionaria). Sea θ el vector de parametros desconocidos a estimar y Θ el espacio de parametros.

θ = (a12, a13, ...aKK−1, λ1, ..., λK)′

Sea O = (O1, ..., OT )′ un vector con las observaciones i.e. la secuencia de las T realizaciones

del proceso estocastico ott∈N. Sea (C1, ..., CT )′ el vector de estados no observados de la cadena

Ctt∈N; por lo tanto (C1, O1, ..., CT , OT )′ es el vector con los datos completos. La funcion de

verosimilitud de los datos LT (θ) esta denida como la probabilidad conjunta de las T observa-

ciones y los T estados no observados. Aplicando las propiedades, de independencia condicional

y dependencia de Markov se obtiene:

LT (θ) = P (O1, ..., OT ) = πC1b1(O1|C1)T∏t=2

at−1,tP (OT |Ct)

Donde bi(Ot) es la funcion de probabilidad de Ot condicionado sobre la secuencia de estados

Ct (t = 1, ..., T );

bi(Ot) = e−λtλOt

Ot!(3-1)

Para encontrar el estimador de maxima verosimilitud para θ se debe resolver el sistema de ecua-

ciones que contiene los parametros, pero es muy difıcil encontrar analıticamente la solucion,

como alternativa se puede utilizar metodos numericos. El algoritmo EM [ver (Bilmes et al. 1998)],

se basa en un procedimiento iterativo con dos pasos en cada iteracion: el primer paso, paso E,

proporciona el calculo de la Esperanza; El segundo, paso M, proporciona la Maximizacion.

Sea Q(θ; θ)′ la funcion denida en el paso E:

Q(θ; θ)′ = Eθ′(logLT (θ)|O)

para algun vector θ perteneciente al espacio de parametros Θ. En Dempster et al. (1977) se de-

muestra que una condicion suciente para maximizar LT es maximizar Q(θ; θ)′ con respecto a

θ. Sin entrar en detalles, el esquema iterativo del algoritmo EM es el siguiente. Sea θ(k)el vector

estimado obtenido en la k esima iteracion.

Page 45: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

28 3 PHMM y ZIP-HMM

θ(k) = (a(k)12 , a

(k)13 , ..., a

(k)KK−1, λ

(k)1 ..., λ

(k)K )′

en la iteracion (k + 1), los pasos E y M son denidos como sigue:

Paso E - dado θ(k), calcular

Q(θ; θ(k)) = Eθ(k)(logLT (θ)|o)

Paso M - encontrar θ(k+1), para que maximice Q(θ; θk), es decir tal que

Q(θ(k+1); θ(k) ≥ Q(θ; θ(k)) para algun θ ∈ Θ.

Los pasos E y M deben repetirse de una manera alterna hasta que la secuencia de valores de la

log-verosimilitud

logLT (θ(k))

converja, es decir, hasta que la diferencia Sea menor o igual que

un de valor de ε arbitrario.

logLT (θ(k+1))− logLT (θ(k))

Cuando se cumplen ciertas condiciones de regularidad en el espacio de parametros Θ y en las fun-

ciones LT (θ) y Q(θ; θ)′ son satisfechas [ver (Wu et al. 1983, pag. 94-96)], se puede decir que, si el

algoritmo converge en la iteracion (k+1) entonces

(θk+1; logLT (θk+1)

)es un punto estacionario

y θ(k+1) = (a(k+1)12 , a

(k+1)13 , ..., a

(k+1)KK−1, λ

(k+1)1 ..., λ

(k+1)K )′ es el estimador de maxima verosimilitud

de los parametros desconocidos θ. En los PHMMs, una condicion suciente para que las condicio-

nes de Wu se mantengan es que los parametros de Poisson λi (i = 1, 2, ..., K) sean estrictamente

positivos. Para HMMs, la supercie de la log-verosimilitud es irregular y se caracteriza por mu-

chos maximos locales o puntos estacionarios; entonces, el punto estacionario al que converge el

algoritmo EM no puede ser el maximo global. Para identicar el maximo global, la eleccion del

punto de referencia es de vital importancia.

Implementando el algoritmo, la busqueda de los estimadores de los parametros desconocidos con

el algoritmo EM puede simplicarse usando las probabilidades forward y backward, introducidas

por Baum et al. (1970). La probabilidad forward, denotada por αi, es la probabilidad conjunta entre

las observaciones (pasadas y presentes) y el estado actual de la cadena:

αt(i) = P (O1 = o1, O2 = o2..., Ct = i)

mientras que las probabilidad backward, denotada por βt(i), es la probabilidad de las observacio-

nes futuras condicionado sobre estado actual de la cadena:

βt(i) = P (Ot+1 = ot+1, ..., OT = oT |Ct = i).

Las probabilidades αt(i) y βt(i) se pueden obtener recursivamente, como se muestra a continua-

cion:

Page 46: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.1 Modelo Oculto de Markov - Poisson 29

α1(i) = πbi(O1); i = 1, ..., K,

αt(j) =

(∑i∈S

αt−1(i)ai,jbj(Ot)

); j = 1, ..., K

(3-2)

y para las probabilidades backward ver MacDonald & Zucchini (2009, pag. 66-67).

βT (i) = 1; i = 1, ..., K,

βt(i) =∑j∈S

bj(ot+1)βt+1(j)aij; t = T − 1, ..., 1; i = 1, ..., K, (3-3)

Con lo cual se obtiene la siguiente expresion para la funcion Q(θ; θ(k)) para el paso E de la itera-

cion (k + 1), del algoritmo EM

Q(θ; θ(k)

)= Eθ(k)(logLT (θ)|O)

=∑i∈S

α(k)1 (1)β

(k)1 (i)∑

i∈S α(k)t (l)β

(k)t (l)

log πi +∑i∈S

∑j∈S

∑T−1t=1 α

(k)t (i)γ

(k)i,j bj(ot+1)β

(k)t+1(j)∑

t∈S α(k)t (l)β

(k)t (l)

log aij

=∑i∈S

∑Ti=1 α

(k)1 (1)β

(k)1 (i)∑

i∈S α(k)t (l)β

(k)t (l)

log pi(ot)

(3-4)

[ver (Paroli 2002)] donde bi(o(k)t ), α

(k)t y β

(k)t (i) son calculados de acuerdo a las formulas 3-1, 3-2

y 3-3, respectivamente, usando los valores del parametro θ(k)obtenido en la k-esima iteracion;

mientras π(k)es calculado con π(k) = π(k)A(k)

. Note que π, por el supuesto de estacionariedad,

contiene informacion sobre m.t.p. A ya que π =∑

i∈S πaij , para cualquier j ∈ S. Sin embargo,

para T grande, el efecto, de π es despreciable [ver (Basawa & Prakasa Rao 1980, pag. 53-54)]. Por

lo tanto para el paso M de la iteracion (k+1) al obtener θ(k+1), se puede omitir el primer termino

de 3-4 al maximizar Q(θ; θk

)con respecto a los K2 −K parametros aijs.

La expresion para el estimador de maxima verosimilitud de aij obtenidos en la iteracion (k + 1)

del algoritmo EM esta dado por [ver (Paroli 2002)]:

a(k+1)ij =

∑T−1t=1 α

(k)t (i)a

(k)ij bj(ot+1)β

(k)t+1(j)∑T−1

t=1 α(k)t (i)β

(k)t (i)

, (3-5)

para cualquier estado i y cualquier estado j, j 6= i, de la cadena de Markov Ct. El estimador de

maxima verosimilitud de λi obtenido en la iteracion (k + 1) con el algoritmo EM,esta dada por:1

1La formula para λ

(k+1)i se puede obtener facilmente derivando Q(θ; θ(k)) en la ecuacion 3-4 con respecto a λi e

igualando la derivada a 0.

Page 47: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

30 3 PHMM y ZIP-HMM

λ(k+1)i =

∑Tt=1 α

(k)t (i)β

(k)t (i)ot∑T

t=1 α(k)t (i)β

(k)t (i)

, (3-6)

para algun estado i de la cadena de Markov Ct. Leroux & Puterman (1992) y Bickel et al. (1998)

probaron que los estimadores en 3-5 y en 3-6 son consistentes y asintoticamente normales.

3.2. Modelo Oculto de Markov - Poisson Cero Inflado

El modelo Poisson inado con ceros (ZIP) es una modicacion del modelo de regresion Poisson

general, donde se observa un exceso de ceros en los datos. Este modelo es utilizado ampliamente

en la practica y se rige por dos procesos. En el primer proceso regido por una distribucion binaria

la salida siempre es cero, en el segundo proceso los conteos se rigen por una distribucion de

Poisson estandar. El ZIP es el mas famoso en esta clase de modelos, originalmente concebido

en el estudio de la calidad de fabricacion Lambert (1992). Los parametros de un modelo ZIP se

estimaron tradicionalmente utilizando diferentes formas de regresion. Mas tarde, los modelos

ZIP se usaron en HMM en diferentes campos donde los datos generalmente representan conteos

(DeSantis & Bandyopadhyay 2011, Olteanu & Ridgway 2012).

En esta tesis, el modelo ZIP utilizado es de la siguiente forma:

P (O = o) = I(o)[0] × w0 +D∑d=1

λojd e−λd

oj!× wd (3-7)

donde wd son los pesos para cada componente y suman uno. En palabras, los modelos ZIP son

mezclas de un componente de Dirach en cero y D componentes de Poisson. La inacion de los

ceros pueden ser demostrados al notar que

P (O) =

w0 +

∑Dd=1 e

−λd · wd O = 0∑Dd=1

λOd e−λd

O!· wd O 6= 0

Por lo tanto, la probabilidad de observar un cero esta inada por w0 el peso en cada componente

de la mixtura de las distribuciones.

Esta mixtura puede ser usada como, distribucion de emision u observacion para los estados ocul-

tos de los HMM denidos en secciones anteriores. Introduciendo como notacion corta tenemos la

siguiente, sea ZIP (K,D) un HMM con distribuciones de emision dadas por la ecuacion 3-7, con

D−1 (componentes Poissons en la mezcla) yK estados. La derivacion completa de las ecuaciones

y cantidades para la estimacion de los parametros, requeridas en el algoritmo BW se muestran

en la siguiente seccion.

Page 48: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.2 Modelo Oculto de Markov - Poisson Cero Inado 31

3.2.1. Estimacion de los parametros para el algoritmo BW

En el ZIP-HMM, las distribuciones de emision son las siguientes

Pθ(Ot = ot|ct) =D∑d=0

Pθ((ot,mt = d|ct)

=D∑d=0

Pθ(ot|mt = d, ct)Pθ(mt|ct)

=D∑d=0

Pθ(ot|mt = d, ct)× wdk

= I(ot)[0] × w0k +D∑d=1

λojdke−λdk

oj!× wdk.

(3-8)

La funcion auxiliar de Baum se dene a continuacion

Q(θ, θ′) =∑q∈Q

∑m∈M

log(Pθ(o, q, m))Pθ′(q, m|o), (3-9)

donde la evaluacion del lado derecho constituye el paso E del algoritmo y la maximizacion de

la funcion Q con respecto a θ constituye el paso M del algoritmo. Usando la propiedad Markov

de la cadena subyacente y la independencia condicional del HMM, la verosimilitud de los datos

completos se puede escribir en un formato mas conveniente.

P (o, q, m|θ) = Pθ(o1:t, q0:t,m1:t)

= Pθ(ot,mt|o1:t−1, q0:t,m1:t−1)Pθ(o1:t−1, q0:t,m1:t−1)

= Pθ(ot,mt|q0:t)Pθ(o1:t−1, q0:t,m1:t−1)

= Pθ(ot,mt|q0:t)Pθ(qt|o1:t−1, q0:t−1,m1:t−1)Pθ(o1:t−1, q0:t−1,m1:t−1)

= Pθ(ot,mt|qt)Pθ(qt|qt−1)Pθ(o1:t−1, q0:t−1,m1:t−1).

(3-10)

La repeticion de este procedimiento para el ultimo termino y la recopilacion de estos terminos

dan como resultado la siguiente factorizacion de la log verosimilitud de los datos completos.

P (o, q, m|θ) = Pθ(q0)×t∏i=1

Pθ(qi|qi−1)×t∏

j=1

Pθ(oj|mj, qj). (3-11)

Puede ser usado en la funcion Q de Baum de la ecuacion 3-9, lo que produce

∑q∈Q

∑m∈M

[logPθ(q0) +

t∑i=1

logPθ(qi|qi−1) +t∑

j=1

logPθ(oj,mj|qj)

]P ′θ(q, m|o). (3-12)

Page 49: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

32 3 PHMM y ZIP-HMM

Los 3 terminos en esta expresion se pueden estudiar por separado. Evaluar la esperanza de estos

3 terminos bajo la distribucion de suavizado P ′θ(q, m, |o) es el paso E del algoritmo. Tenga en

cuenta que solo el tercer termino depende de la forma que tengan las densidades de emision. El

primer termino se puede reescribir marginalizando las variables de la siguiente manera

∑q∈Q

∑m∈M

logPθ(q0)P ′θ(q, m|o) =∑q∈Q

logPθ(q0)∑m∈M

P ′θ(q, m|o)

=K∑k=1

logPθ(q0 = k)Pθ(q0 = k|o)

=K∑k=1

log πk × Pθ′(q0 = k|o).

(3-13)

En el paso E del algoritmo, el segundo factor en el producto anterior se puede evaluar de ma-

nera eciente utilizando el algoritmo Forward-Backward. Por ahora, introducimos la notacion)

γt(k) := P (qt = k|o, θ) y maximizamos esta expresion con respecto a πk, junto con la restriccion

de Lagrange

∑Kk=1 πk = 1, que constituye el paso M del algoritmo.

∂πk

(K∑s=1

γ0(s) log πs + η(K∑j=1

πj − 1)

)= 0, ∀k = 1, ..., K. (3-14)

Resolviendo para cada k se obtienen ecuaciones identicas de la forma γ0(k) = −ηπk. Sumando

esta ecuacion sobre k = 1, ..., K en ambos lados y eliminando la variable de Lagrange η luego se

obtiene

πk =γ0(k)∑Ks=1 γ0(s)

. (3-15)

Esto concluye el paso M para el primer termino en la funcion Q de Baum. Usando el mismo

razonamiento que para el primer termino, las expresiones para el segundo termino se pueden

simplicar al marginalizar las variables de la siguiente manera

∑q∈Q

∑m∈M

t∑i=1

logPθ(qi|qi−1)Pθ′(q, m|o) =∑q∈Q

t∑i=1

logPθ(qi|qi−1)∑m∈M

P ′θ(q, m|o)

=∑q∈Q

t∑i=1

logPθ(qi|qi−1)Pθ′(q|o).(3-16)

Marginalizando las variables e introduciendo la notacion corta ξt(i, j) = Pθ′(qt−1 = i, qt = j|o)y aij = Pθ(qi = r|qi−1 = s) produce

∑q∈Q

t∑i=1

logPθ(qi|qi−1)Pθ′(q|o) =t∑i=1

K∑r=1

K∑s=1

ξi(s, r) log asr. (3-17)

Page 50: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.2 Modelo Oculto de Markov - Poisson Cero Inado 33

En cuanto al primer termino anterior, ξt(i, j) se puede evaluar de manera eciente utilizando el al-

goritmo de Forward-Backward, maximizando esta ultima expresion con respecto a asr constituye

el paso M y los calculos son similares a los del primer termino.

∂asr

(t∑i=1

K∑r=1

K∑s=1

ξi(s, r) log asr + η(K∑j=1

asj − 1)

). (3-18)

Nuevamente, tomando la derivada ∀s, r = 1, ..., K , lo que genera

t∑i=1

ξi(s, r) = −ηasr. (3-19)

Usando el mismo metodo anterior para eliminar los rendimientos de la variable de Lagrange

asr =

∑ti=1 ξi(s, r)∑K

j=1

∑ti=1 ξi(s, j)

. (3-20)

El primer y segundo termino en la funcion Q de Baum no dependen de la forma de las distribu-

ciones de emision, y por lo tanto, siempre tienen la forma dada en las ecuaciones anteriores. El

tercer termino, sin embargo, depende de la forma de la distribucion de emision, en consecuencia

tambien lo hacen el paso E y el paso M para ello.∑q∈Q

∑m∈M

t∑j=1

logPθ(oj,mj|qj)Pθ′(q, m|o) =t∑

j=1

K∑k=1

D∑d=0

logPθ(oj,mj = d|qj = k)Pθ′(qj = k,mj = d|o).

(3-21)

Separando el componente degenerado de los rendimientos de Poisson.

t∑j=1

K∑k=1

[logPθ(oj,mj = 0|qj = k)× P ′θ(qj = k,mj = 0|o)] . (3-22)

Usando de la denicion de probabilidad condicional para volver a escribir Pθ(oj,mj = d|qj = k)

como Pθ(oj|mj = d, qj = k)Pθ(mj = d|qj = k) e introduciendo la notacion wdk := Pθ(mJ =

d|qj = k) produce, en la expresion anterior,

t∑j=1

K∑k=1

[log(w0k)Pθ′(mj = 0, qj = k|o) +

D∑d=1

log

(λoje−λdk

oj!wdk

)Pθ′(mj = d, qj = k|o)

].

(3-23)

Completar el paso-E requiere evaluar la distribucion de suavizado (o denota todas las observa-

ciones, es decir, es lo mismo que o1:T ) Pθ′(mj, q : j|o) = Pθ′(mj = d|qj = k, o)Pθ′(qj = k|o).

Comenzamos expresando la distribucion conjunta Pθ′(o, mj, qj) de dos maneras diferentes (en

las ecuaciones debajo de o¬j denota todas las observaciones esperadas en el tiempo j)

Pθ′(mj, qj, oj, o¬j) = Pθ′(oj|mj, qj, o¬j)Pθ′(mj, qj, o¬j)

= Pθ′(oj|mj, qj)Pθ′(mj|qj, o¬j)Pθ′(qj, o¬j)= Pθ′(mj|qj, oj, o¬j)Pθ′(qj, oj, o¬j)= Pθ′(mj|qj, oj, o¬j)Pθ′(oj|qj, o¬j)Pθ′(qj, o¬j).

(3-24)

Page 51: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

34 3 PHMM y ZIP-HMM

Igualando estas dos expresiones y resolviendo Pθ′(mj|qj, oj, o¬j), producen junto con la propie-

dad de independencia condicional de los HMM,

Pθ′(mj = d|qj = k, o) = Pθ′(mj|qj, oj, o¬j)

=Pθ′(oj|mj, qj)Pθ′(mj|qj, o¬j)Pθ′(qj, o¬j)

Pθ′(oj|qj, o¬j)

=Pθ′(oj|mj, qj)Pθ′(mj|qj)

Pθ′(oj|qj)

=Pθ′(oj|mj, qj)Pθ′(mj|qj)∑D

d=0 Pθ′(oj|mj = d, qj)Pθ′(mj = d|qj).

(3-25)

Al multiplicar esta expresion con Pθ′(mj = 0, qj = k|o) se obtiene la distribucion de suavizado

deseada. La distribucion de suavizado tiene una forma diferente para el componente degenerado

y el componente Poisson. Para el elemento degenerado, mj = 0, la distribucion de suavizado se

proporciona de la siguiente manera

Pθ′(mj = 0, qj = k|o) =

0, oj > 0

w′0γj(k)

w′0k+∑Dd=1 w

′dke−λ′dk

oj = 0,(3-26)

donde′

denota los parametros viejos. Esto se debe a que el componente degenerado no puede

generar observaciones distintas de cero, por lo que la probabilidad es 0 en este caso. Para los

componentes Poisson, es decir, d = 1, ..., D, la distribucion de suavizado es la siguiente

P ′θ(mj = d, qj = k|o) =

w′ikλ

′ojik e

−λ′ik/oj !∑Dd=1 w

′dkλ′ojdk e

−λ′dk/oj !γj(k), oj > 0

w′ike−λik

w′0k+∑Dd=1 w

′dke−λ′dk

γj(k), oj = 0, (3-27)

El uso de estas dos expresiones en el tercer termino en la funcion Q de Baum completa el paso E

del algoritmo de Baum-Welch y produce la expresion completa

t∑j=1oj=0

K∑k=1

[logw0k

w0k

w′0k +∑D

d=1 w′dke−λ′dk

γj(k) +D∑d=1

(log(dk−λdk))w′dke

−λ′dk

w′0k +∑D

d=1w′dke−λ′dk

γj(k)

]+

t∑j=1oj>0

K∑k=1

D∑d=1

(log(wdk) + oj log λdk − λdk − log oj!)w′dkλ

ojdke−λdk∑D

r=1 w′rkλ

ojrke−λrk

γj(k), (3-28)

Para mejorar la legibilidad, se introduce la siguiente notacion abreviada

Aj(k) =w′0k

w′0k +∑D

d=1w′dke−λ′dk

γj(k), (3-29)

Bj(k, d) =ww′dke

−λ′dk

w′0k +∑D

d=1w′dke−λ′dk

γj(k), (3-30)

Cj(k, d) =w′dkλ

ojdke−λdk∑D

r=1w′rkλ′rkλ

ojrke−λrk

γj(k), (3-31)

Page 52: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.2 Modelo Oculto de Markov - Poisson Cero Inado 35

para k = 1, ..., K y d = 1, ..., D, dando la expresion nal para el paso E

t∑j=1oj=0

K∑k=1

[logw0k · Aj(k) +

D∑d=1

(logwdk − λdk) ·Bj(k, d)

]+

t∑j=1oj>0

K∑k=1

D∑d=1

(logwwdk + oj · log λdk − λdk − log oj!) · Cj(k, d).

En el paso M del algoritmo, esta expresion se maximiza con respecto a w0k y wdk, y λdk para

d = 1, ..., D y k = 1, ..., K . Comenzando con los wdk′s, y junto con la restriccion de Lagrange∑D

d=0wdk = 1, tomamos la derivada con respecto a los rendimientos de wdk

∂wdk= · · · =

t∑j=1oj>0

1

wdk·Bj(k, d) +

t∑j=1oj>0

1

wdk· Cj(k, d) + η (3-32)

Igualando esta expresion a 0 y resolviendo para wdk se tiene que

t∑j=1oj>0

Bj(k, d) +t∑

j=1oj>0

Cj(k, d) = ηwdk, (3-33)

para d = 1, ..., D y k = 1, ..., K . Similarmente para w0k, obtenemos

t∑j=1oj>0

Aj(k) = −ηw0k. (3-34)

Al combinar estas dos expresiones, la variable de Lagrange η se puede eliminar y obtenemos las

siguientes expresiones

w0k =

∑tj=1oj>0

Aj(k)∑tj=1oj=0

[Aj(k) +

∑Dr=1Bj(k, r)

]+∑D

r=1

∑tj=1oj>0

Cj(k, r)(3-35)

wdk =

∑tj=1oj=0

Bj(k, d) +∑t

j=1oj>0

Cj(k, d)∑tj=1oj=0

[Aj(k) +

∑Dr=1Bj(k, r)

]+∑D

r=1

∑tj=1oj>0

Cj(k, r), d = 1, ..., D, (3-36)

Del mismo modo, podemos despejar los λdk‘s. (Resolvamos los λdk‘s sin la restriccion de que

todos deben ser mayores que cero. Resulta que la desigualdad se satisface incluso sin incluir la

restriccion).

∂λdk= · · · =

t∑j=1oj=0

Bj(k, d) +t∑

j=1oj>0

(ojλdk− 1

)Cj(k, d), (3-37)

Page 53: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

36 3 PHMM y ZIP-HMM

Igualando esto a 0 y resolviendo los λdk‘s se obtiene

λdk =

∑tj=1oj>0

oj · Cj(k, d)∑tj=1oj=0

Bj(k, d) +∑t

j=1oj>0

Cj(k, d)(3-38)

Tenga en cuenta que en la ecuacion 3-38 todos los oj > 0 y Bj(k, d), Cj(k, d) > 0,∀(k, d), se

deduce que los λdk cumplen con la restriccion de λdk > 0.

3.3. Seleccion y verificacion de los HMM

En los HMM basicos con K estados, el aumento de K siempre mejora el ajuste del modelo, si

juzgamos con el valor de la verosimilitud. Pero junto con la mejora viene un aumento cuadratico

en el numero de parametros, por lo que la mejora en el ajuste tendrıa que ser compensada por

este aumento. Ası que, se necesita un criterio para la seleccion del modelo. En algunos casos,

es sensato reducir el numero de parametros haciendo suposiciones en las distribuciones estado-

dependiente o en la m.t.p. de la cadena de Markov. Sin embargo no siempre aumenta el numero

de parametros con el aumento de K , [ver (MacDonald & Zucchini 2009, capitulo 20)], donde se

observan modelos de volatilidad estocastica con espacio de estado discretos que son HMM de

Kestados con solo tres o cuatro parametros. Existen diferentes medidas de bondad de ajuste,

para la comparacion de modelos estadısticos y la seleccion del mas apropiado. En esta seccion, se

describe la seleccion de los modelos Ocultos de Markov, bajo el criterio de informacion de Akaike

(AIC) y el criterio de informacion Bayesiano (BIC), ademas se describe el uso de pseudo-residuos

para vericar los supuestos y posibles deciencias en el modelo seleccionado.

3.3.1. Seleccion de modelos mediante criterios de informacion

Un problema que surge naturalmente cuando se usan modelos ocultos de Markov o de otro tipo

es el de seleccionar un modelo apropiado, por ejemplo elegir el numero apropiado de estados K ,

a veces descrito como el “orden”del HMM, o de elegir competentemente la distribucion de los es-

tados dependientes, tal como la Poisson o binomial negativa. Aunque la cuestion de la estimacion

del orden para un HMM no es ni trivial ni resuelta ver (Cappe et al. 2005, Capitulo 15), necesita-

mos algun criterio para la comparacion de modelos.

El material que se describe a continuacion se basa en Zucchini (2000), que ofrece una descripcion

introductoria de la seleccion del modelo. Celeux & Durand (2008) presentan y discuten varias

tecnicas de seleccion de modelos para elegir el numero de estados en un HMM. Supongamos que

las observaciones o1, ..., oT fueron generados por el modelo ’verdadero’ desconocido f , y ese mo-

delo se ajusta a dos familias aproximadas diferentes, g1 ∈ G1 y g2 ∈ G2. El objetivo de la

seleccion del modelo es identicar el modelo, que en cierto sentido es el mejor.

Describimos los dos enfoques mas populares para la seleccion de modelos. En el enfoque frecuen-

tista, se selecciona la familia que se estima mas cercana al modelo operativo. Para ese proposito,

Page 54: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.3 Seleccion y vericacion de los HMM 37

se dene una discrepancia (una medida de ’falta de ajuste’) entre los modelos operativos y ajusta-

dos, ∆(f ; g1) y ∆(f ; g2). Estas discrepancias dependen del modelo operativo f , que se desconoce,

por lo que no es posible determinar cual de las dos discrepancias es menor, es decir, que modelo

debe seleccionarse.

En su lugar, se basa la seleccion en estimadores de las discrepancias esperadas, esto es, Ef (∆(f, g1))

y Ef (∆(f, g2)), que se conocen como criterios de seleccion del modelo. Al elegir la discrepan-

cia de Kullback-Leibler y en las condiciones enumeradas en el Apendice A de Linhart & Zucchini

(1986), el criterio de seleccion del modelo se simplica al criterio de informacion de Akaike (AIC):

AIC = −2 logL+ 2p,

donde logL es la log verosimilitud del modelo ajustado y p denota el numero de parametros del

modelo. El primer termino es una medida de ajuste y disminuye al aumentar el numero de estados

K . El segundo termino es un termino de penalizacion, y aumenta con el aumento de K .

El enfoque bayesiano para la seleccion de modelos es seleccionar la familia estimada que sea

mas probable. En un primer paso, antes de considerar las observaciones, se especican los an-

tecedentes, que son las probabilidades P (f ∈ G1) y P (f ∈ G2) donde f proviene de la familia

aproximada. En un segundo paso, se calcula y compara los posteriores, que son las probabili-

dades de que f pertenezca a la familia aproximada, dadas las observaciones, P (f ∈ G1|o(T )) y

P (f ∈ G2|o(T )). Bajo ciertas condiciones (ver, por ejemplo (Wasserman 2000)), este enfoque da

como resultado el criterio de informacion Bayesiano (BIC) que diere de AIC en el termino que

penaliza:

BIC = −2 logL+ p log T,

donde logL y p son los mismos que en el AIC, y T es el numero de observaciones. En comparacion

con el AIC, el termino de penalizacion del BIC tiene mas peso para T > ε2, cumpliendose en la

mayorıa de las aplicaciones. Es por esta razon que a menudo el BIC sugiere modelos con menos

parametros que el AIC.

3.3.2. Comprobacion del modelo con pseudo-residuales

Incluso cuando se ha seleccionado el “mejor”modelo, segun algun criterio, sigue existiendo el pro-

blema de decidir si el modelo es realmente adecuado. Para evaluar la bondad general del ajuste

del modelo se necesitan herramientas, que identiquen valores atıpicos relacionados con el mo-

delo. Miremos un ejemplo en el contexto mas simple, para los modelos de regresion bajo la teorıa

normal, el papel de los residuos como herramienta para la vericacion de modelos esta muy bien

establecido. En esta seccion se describen los pseudo-residuales, tambien conocidos como residuos

cuantılicos que tienen la intencion de cumplir esta funcion de manera mucho mas general, y que

son utiles en el contexto de los HMM. Consideramos dos versiones de estos pseudo-residuos (en

las Secciones 3.3.4 y 3.3.5); ambos dependen de la capacidad de calcular la verosimilitud de forma

rutinaria, lo que ciertamente es el caso de los HMM. Stadie (2002) proporciona una descripcion

Page 55: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

38 3 PHMM y ZIP-HMM

detallada, en aleman, de la construccion y aplicacion de los pseudo-residuos. Ver tambien Mac-

Donald & Zucchini (2009).

3.3.3. Introduccion a los pseudo-residuales

Como introduccion a los pseudo residuales, es necesario el siguiente resultado. SeaX una variable

aleatoria con funcion de distribucion continua F . Entonces U ≡ F (X) se distribuye uniforme-

mente en el intervalo unitario, que escribimos como:

U ∼ U(0, 1).

El pseudo-residual uniforme de una observacion xt de una variable aleatoria continua Xt se

dene como la probabilidad, bajo el modelo ajustado, de obtener una observacion menor o igual

a xt:

ut = Pr(Xt ≤ xt) = FXt(xt).

Es decir, ut es la observacion xt transformada por su funcion de distribucion bajo el modelo. Si el

modelo es correcto, este tipo de pseudo-residual se distribuye U(0, 1), con residuos para observa-

ciones extremas cercanas a 0 o 1. Con la ayuda de estos pseudo-residuales uniformes, se pueden

comparar observaciones de diferentes distribuciones. Si tenemos observaciones x1, ..., xT y un

modeloXt ∼ Ft, para t = 1, ..., T (es decir, cada xt tiene su propia funcion de distribucionFt), en-

tonces los valores de xt no se pueden comparar directamente. Sin embargo, los pseudo-residuales

ut son identicamente U(0, 1) (si el modelo es verdadero), y se pueden comparar sensiblemente.

Si un histograma o graco de cuantil cuantil (‘qq-plot ’) de los pseudo-residuales uniformes utarroja dudas sobre la conclusion de que son U(0, 1), se puede deducir que el modelo no es valido.

Aunque el pseudo-residuo uniforme es util de esta manera, tiene un inconveniente si se usa para

la identicacion de valores atıpicos. Por ejemplo, si uno considera que los valores se encuentran

cerca de 0 o 1 en un graco de residuales, es difıcil ver si un valor es muy improbable o no. Un

valor de 0.999, por ejemplo, es difıcil de distinguir de un valor de 0.97, y por lo tanto el graco de

residuales no es una herramienta util para detectar valores atıpicos.

Page 56: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.3 Seleccion y vericacion de los HMM 39

Figura 3-1.: Construccion de pseudo-residuos normales en el caso continuo. Fuente: (MacDonald

& Zucchini 2009), donde Xt es una variable aleatoria discreta.

A pesar de esta deciencia del pseudo-residual uniforme, puede solucionarse utilizando el si-

guiente resultado. Sea Φ la funcion de distribucion de la distribucion normal estandar y X una

variable aleatoria con la funcion de distribucion F . Entonces, Z ≡ Φ−1(F (X)) se distribuye

como una normal estandar. Ahora denimos el pseudo-residual normal como

Zt = Φ−1(ut) = Φ−1(FXt(xt)).

Si el modelo ajustado es valido, estos pseudo-residuales normales tienen distribucion normal

estandar, cuando el valor del residual es igual a 0 la observacion coincide con la mediana. Tenga

en cuenta, que por su denicion, los pseudo-residuos normales miden la desviacion de la mediana

y no de la esperanza. La construccion de pseudo-residuos normales se ilustra en la Figura 3-1.

Si las observaciones x1, ..., xT de hecho fueron generados por el modelo Xt ∼ Ft, los pseudo-

residuos normales zt seguirıan una distribucion normal estandar. Por lo tanto, se puede vericar

Page 57: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

40 3 PHMM y ZIP-HMM

el modelo analizando visualmente el histograma o qq-plot de los pseudo-residuales normales, o

realizando pruebas de normalidad.

Esta version normal de los pseudo-residuos tiene la ventaja de que el valor absoluto del residual

aumenta al aumentar la desviacion de la mediana y las observaciones extremas se pueden iden-

ticar mas facilmente en una escala normal. Esto resulta obvio si se comparan los gracos de

residuales, para los pseudo-residuos uniformes y normales.

Tenga en cuenta que la teorıa de los pseudo residuales como se describe hasta ahora se puede

aplicar solo a distribuciones continuas. Sin embargo en el caso de observaciones discretas, los

pseudo-residuales, pueden modicarse para ser discretizados. Los pseudo-residuos ya no se de-

nen como puntos, sino como intervalos. Por lo tanto, para una variable aleatoria discreta Xt con

funcion de distribucion FXt , se denen los segmentos pseudo-residuales uniformes como[u−t ;u+

t

]=[FXt(x

−t );FXt(xt)

](3-39)

con x−t denota la mayor realizacion posible que es estrictamente menor que xt, y denimos los

segmentos pseudo-residuales normales como[z−t ; z+

t

]=[Φ−1(u−t ); Φ−1(u+

t )]

=[Φ−1(FXt(x

−t )); Φ−1(FXt(xt))

]. (3-40)

La construccion del segmento pseudo-residual normal de una variable aleatoria discreta se ilustra

en la Figura 3-2.

Ambas versiones de segmentos pseudo-residuales (uniforme y normal) contienen informacion

sobre que tan extremas y raras son las observaciones, aunque la version uniforme representa la

rareza o, de lo contrario, mas directamente, ya que la longitud del segmento es la probabilidad

correspondiente.

Por ejemplo, el lımite inferior u−t del intervalo pseudo-residual uniforme especica la probabi-

lidad de observar un valor estrictamente menor que xt, 1 − u+t da la probabilidad de un valor

estrictamente mayor que xt, y la diferencia u+t − u−t es igual a la probabilidad de la observacion

xt bajo el modelo ajustado. Los segmentos pseudo-residuales pueden interpretarse como realiza-

ciones censuradas por intervalos de una distribucion uniforme (o normal estandar), si el modelo

ajustado es valido. Aunque esto es correcto solo si se conocen los parametros del modelo ajus-

tado, todavıa es aproximadamente correcto si el numero de parametros estimados es pequeno

en comparacion con el tamano de la muestra (Stadie 2002). Las gracas de diagnostico para los

segmentos de pseudo-residuales de variables aleatorias discretas necesariamente se ven bastante

diferentes en comparacion con el de las de variables aleatorias continuas.

Es facil construir un graco de ındice de segmentos pseudo-residuales o gracarlos contra cual-

quier variable independiente o dependiente. Sin embargo, para construir una graco-qq de los

segmentos pseudo-residuales se tiene que especicar un orden de los segmentos pseudo-residuales.

Una posibilidad es clasicar en los denominados ‘pseudo-residuos intermedios’, que se denen

como

zmt = Φ−1

(u−t + u+

t

2

)(3-41)

Page 58: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.3 Seleccion y vericacion de los HMM 41

Figura 3-2.: Construccion de pseudo-residuos normales en el caso discreto. Fuente (MacDonald

& Zucchini 2009)

Ademas, los pseudo-residuos intermedios se pueden utilizar para vericar la normalidad, por

ejemplo, a traves de un histograma de pseudo-residuos medios. Pero no podemos armar nada

mas que la normalidad aproximada para tales pseudo-residuos intermedios.

Ahora, habiendo esbozado las propiedades de los pseudo-residuales, podemos considerar el uso

de pseudo-residuales en el contexto de HMM. El analisis de los seudo residuales de un HMM sirve

para dos propositos: la evaluacion del ajuste general de un modelo seleccionado y la deteccion de

valores atıpicos. Dependiendo de los aspectos del modelo que se analizaran, se pueden distinguir

dos tipos de pseudo-residuos que son utiles para un HMM: aquellos que se basan en la distribucion

condicional dadas todas las demas observaciones, que llamamos pseudo-residuos ordinarios,

y aquellos basados en la distribucion condicional dadas todas las observaciones anteriores, que

llamamos pseudo-residuos de pronostico.

Los pseudo-residuos de un conjunto de observaciones estan (aproximadamente) distribuidos de

manera identica, ya sea U(0, 1) o normal estandar, esta propiedad es crucial. Pero para nuestros

propositos no es importante si tales pseudo residuales son independientes entre sı; de hecho,

como se ve en la Seccion (MacDonald & Zucchini 2009, seccion 6.3.2) serıa erroneo asumir que

los pseudo-residuos ordinarios son independientes.

Tenga en cuenta que Dunn & Smyth (1996) discuten (con el nombre de “residuales cuantılicos”)

lo que hemos llamado pseudo-residuos normales, y senalan que son un caso particular de los

residuos de Cox-Snell (Cox & Snell 1968).

3.3.4. Pseudo-residuales Ordinarios

La primera tecnica considera las observaciones una por una y busca aquellas que, en relacion con

el modelo y todas las demas observaciones de la serie, son lo sucientemente extremas para suge-

Page 59: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

42 3 PHMM y ZIP-HMM

rir que dieren en naturaleza u origen de las otras. Esto signica el calculo de un pseudo-residual

zt a partir de la distribucion condicional de Xt, dado X¬t: una “distribucion condicional com-

pleta”, en la terminologıa utilizada en la cadena de Markov de Monte Carlo. Para observaciones

continuas el pseudo-residual normal es

Zt = φ−1 (P (Xt ≤ xt|X¬t = X¬t)) .

Si el modelo es correcto, zt es una realizacion de una variable aleatoria normal estandar. Para

observaciones discretas, el segmento pseudo-residual normal es

[z−t ; z+

t

], donde

z−t = φ−1 (P (Xt < xt|X¬t = X¬t))

y

z+t = φ−1 (P (Xt ≤ xt|X¬t = X¬t)) .

En el caso discreto, las probabilidades condicionales P (Xt = x|X¬t = X¬t) estan dadas por la

distribucion condicional

3.3.5. Pesudo-residuales de pronostico

La segunda tecnica para la deteccion de valores atıpicos busca observaciones extremas en relacion

con el modelo y todas las observaciones anteriores (en oposicion a todas las demas observaciones).

En este caso, la distribucion condicional relevante es la de Xt dada X¬t−1. Los correspondientes

pseudo-residuos (normales) son

zt = φ−1 (P (Xt ≤ xt|X¬t−1 = X¬t−1)

para observaciones continuas; y

[z−t ; z+

t

]para el caso discreto, donde

z−t = φ−1 (P (Xt < xt|X¬t−1 = X¬t−1))

y

z+t = φ−1 (P (Xt ≤ xt|X¬t = X¬t−1)) .

En el caso discreto, la probabilidad condicional requerida P (Xt = xt|X¬t−1 = X¬t) viene dada

por la relacion de la verosimilitud de las primeras t observaciones con la de la primera t− 1:

P (Xt = x|X¬t−1 = X¬t) =αt−1AP (x)1′

αt−11′

Los pseudo residuales de este segundo tipo se describen como pseudo residuales de pronostico

porque miden la desviacion de una observacion con respecto a la mediana del pronostico corres-

pondiente un paso adelante. Si un pseudo-residual de pronostico es extremo, esto indica que la

observacion en cuestion es un valor atıpico, o que el modelo ya no proporciona una descripcion

Page 60: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

3.3 Seleccion y vericacion de los HMM 43

aceptable de la serie. Esto proporciona un metodo para el monitoreo continuo del comportamien-

to de una serie de tiempo. Un ejemplo de dicho monitoreo se puede ver en (MacDonald & Zucchini

2009, seccion 22.4).

La idea del pseudo-residual de pronostico aparece como ‘residual cuantil condicional’- en Dunn &

Smyth (1996); en el ultimo parrafo de la p. 243 senalan que los residuos de cuantiles que describen

pueden extenderse a datos dependientes de la serie. Sin embargo, la idea basica de los pseudo-

residuos de pronostico (uniformes) se remonta a Rosenbla (1952). Tanto Brockwell (2007) como

Rosenbla describen una forma de extender lo que llamamos pseudo-residuos de pronostico para

distribuciones que no sean continuas. En lugar de usar un segmento de longitud positiva para

representar el residual si las observaciones no son continuas, eligen un punto distribuido unifor-

memente en ese segmento. El uso de un segmento de longitud positiva tiene la ventaja, de mostrar

explıcitamente la discrecion de la observacion e indicar tanto su extremidad como su rareza.

Page 61: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4. Metodos Bayesianos para los HMM

En capıtulos pasados se vio que uno de los problemas mas grandes de los HMM es estimar la

verosimilitud, sin embargo Leroux & Puterman (1992), en un artıculo importante se establecio las

propiedades asintoticas de los HMM por lo que en muestras pequenas podrıa haber perturbacio-

nes y las estimaciones no serıan validas. Otro inconveniente que presentan los HMM es cuando

no se cumplen los supuestos del modelo como se vio en la ultima seccion del capitulo pasado

los pseudo residuales determinan si un modelo es o no valido. Es ası que surgen metodologıas

alternativas al enfoque frecuentista; ver, por ejemplo, Chib (1996) y Cappe et al. (2005) donde se

propone utilizar metodos MCMC como el muestreador de Gibbs para estimar los parametros. Este

capitulo tiene el proposito de dar una pequena introduccion a la estadıstica bayesiana, ilustrando

algunos de los metodos que permiten estimar los parametros del PHMM y ZIP HMM. Finalmente

se indica como seleccionar el modelo mas apropiado segun el numero de estados, utilizando el

factor de bayes.

4.1. Estadıstica Bayesiana

La estadıstica bayesiana se ha ido volviendo cada vez mas popular; actualmente es utilizada en

campos diferentes como la psicologıa, medicina, biologia y bioinformatica ((Mulder & Wagenma-

kers 2016); (Nikovski 2000); (Wilkinson 2007)). El enfoque bayesiano es conceptualmente simple,

teoricamente coherente y se aplica facilmente a problemas relativamente complejos. Estos pro-

blemas incluyen, por ejemplo, modelos jerarquicos ((Chaari et al. 2010) o (Glassen & Nitsch 2016))

o la comparacion de modelos no anidados (Pi et al. 2002). Las tres principales aplicaciones de la

estadısticas bayesianas son la estimacion de parametros, la comparacion de modelos y el prome-

dio bayesiano de modelos (Bayesian Model Averaging, BMA). En las tres areas, la verosimilitud

marginal tiene un papel importante, que en palabras es la verosimilitud de los datos observados

dado el modelo de interes.

Para la estimacion de parametros, consideramos un modelo unico en el cual se pretende cuanti-

car la incertidumbre para un parametro de interes θ despues de haber observado los datos y. Esto

se realiza por medio de una distribucion a posteriori que puede obtenerse usando el teorema de

Bayes:

p(θ|y) =p(y|θ)p(θ)∫p(y|θ′)p(θ′)dθ′

=

verosimilitud︷ ︸︸ ︷p(y|θ)

prior︷︸︸︷p(θ)︷︸︸︷

p(y)verosimilitud marginal

(4-1)

Page 62: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.1 Estadıstica Bayesiana 45

Aquı, la verosimilitud marginal de los datos p(y) garantiza que la distribucion a posteriori sea

una funcion de densidad de probabilidad adecuada (PDF) en el sentido de que integra 1. Esto se

ilustra por que, en la estimacion de los parametros, la verosimilitud marginal se conoce como una

constante de normalizacion.

Segundo, en la comparacion de modelos, consideramos m (m ∈ N) modelos posibles. Estamos

interesados en la plausibilidad relativa de un modelo particular Mi (i ∈ 1, 2, ...,m) dada la

probabilidad del modelo a priori y la evidencia de los datos y (ver Mulder & Wagenmakers (2016)

y Lee (2008)). Esta plausibilidad relativa se cuantica por la denominada probabilidad a posteriori

del modelo p(Mi|y) para un modeloMi dados los datos y (Berger & Molina 2005):

p(Mi|y) =p(y|Mi)p(Mi)∑mj=1 p(y|Mj)p(Mj)

(4-2)

donde el denominador es la suma de la probabilidad marginal por la probabilidad del modelo a

priori de todos los m modelos. En la comparacion de modelos, la verosimilitud marginal de un

modelo especıco tambien se conoce como la evidencia del modelo (Didelot et al. 2011), la vero-

similitud integrada (Kass & Raery 1995), la verosimilitud predictiva del modelo (Gamerman &

Lopes 2006, cap. 7), la verosimilitud predictiva de los datos (Kass & Raery 1995). Tenga en cuenta

que, conceptualmente, la probabilidad marginal en 4-3 es la misma que la probabilidad marginal

de la ecuacion 4-2. Sin embargo, para la ultima ecuacion eliminamos el ındice del modelo porque

en la estimacion de los parametros solo consideramos un modelo.

Si solo se consideran dos modelosM1 yM2, se puede usar la ecuacion 4-3 para cuanticar la

plausibilidad relativa a posteriori del modeloM1 en comparacion con el modeloM2. Esta plau-

sibilidad relativa viene dada por la relacion de las probabilidades a posterioris de ambos modelos,

y se conoce como el odds posterior:

p(M1|y)

p(M2|y)︸ ︷︷ ︸odds posterior

=p(M1)

p(M2)︸ ︷︷ ︸odds prior

× p(y|M1)

p(y|M2)︸ ︷︷ ︸factor de Bayes

(4-3)

La ecuacion 4-3 ilustra que el odds posterior entre dos modelos es el producto de dos factores: El

primer factor es el odds prior de ambos modelos, es decir las a prioris de cada uno de los modelos.

El segundo factor es la relacion de las verosimilitudes marginales de ambos modelos: llamado

factor de Bayes (Jereys 1961).

El factor de Bayes desempena un papel importante en la comparacion de modelos y se conoce

como la “solucion bayesiana estandar para las pruebas de hipotesis y los problemas de seleccion

de modelos”(Lewis & Raery 1997, pag. 648) y “la herramienta principal utilizada en la inferencia

bayesiana para prueba de hipotesis y seleccion de modelos” (Berger & Molina 2005, pag. 378).

En tercer lugar, la verosimilitud marginal juega un papel importante en el promedio bayesiano

de modelos (BMA); (Hoeting et al. 1999) donde se combinan los aspectos de la estimacion de

parametros y la comparacion de modelos. Como en la comparacion de modelos, BMA considera

varios modelos; sin embargo, no pretende identicar un mejor modelo. En su lugar, reconoce ple-

namente la incertidumbre del modelo. La inferencia de parametros para el promedio de modelos

Page 63: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

46 4 Metodos Bayesianos para los HMM

depende exclusivamente de la verosimilitud marginal de los modelos, ya que se pueden obtener

combinando, en todos los modelos la distribucion a posteriori del parametro de interes pondera-

da por la probabilidad a posteriori de cada modelo. Este procedimiento asume que el parametro

de interes tiene una interpretacion identica en los diferentes modelos. Las predicciones para el

promedio de modelos se pueden obtener de una manera similar.

Hay una dicultad presente en las tres areas (estimacion de parametros, comparacion de modelos

y BMA) es que se puede obtener una expresion analıtica de la verosimilitud marginal solo pa-

ra ciertos ejemplos restringidos. Este es un problema considerable en el modelo bayesiano, y en

particular en modelos de alta dimension, donde los modelos pueden ser no lineales y contener

una gran cantidad de parametros, especialmente cuando los modelos son del tipo jerarquico. El

termino modelo jerarquico por lo general se reserva para los modelos con tres o mas niveles de

las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes, se

pueden encontrar ejemplos de estos en Chaari et al. (2010) y Glassen & Nitsch (2016). Por ejem-

plo, considere un modelo jerarquico bayesiano de cuatro parametros con cuatro distribuciones a

nivel de grupo, cada una caracterizada por dos parametros y un tamano de grupo de 30 partici-

pantes; esto da como resultado 30× 4 parametros de nivel individual y 2× 4 parametros de nivel

de grupo para un total de 128 parametros. En resumen, incluso los modelos simples se vuelven

rapidamente complejos una vez se introducen niveles jerarquicos y esto diculta la derivacion de

la verosimilitud marginal.

Para superar este problema, se han propuesto varios metodos de muestreo de Monte Carlo que

aproximan la verosimilitud marginal. Entre los estimadores de uso comun se encuentran el esti-

mador de muestreo por puente (Chen et al. 2012, cap. 5), (Meng & Hung Wong 1996), el estimador

de ingenuo (naive) de Monte Carlo, el estimador de muestreo por importancia y el estimador de la

media armonica generalizada. Para ver la descripcion detallada de estos metodos revise el tutorial

de Gronau et al. (2017) donde se ilustra una comparacion entre estos metodos y se determina que

uno de los mejores estimadores es el obtenido utilizando muestreo por puente (bridge sampler),

ya que es preciso, eciente y relativamente sencillo de implementar.

A continuacion se introduce uno de los metodos mas comunes utilizados para estimar parametros

desde el enfoque bayesiano, haciendo enfasis en los HMM. Presentamos el muestreador de Gibbs,

que recibe su nombre del fısico Willard Gibbs en referencia a sus trabajos en fısica estadıstica, al-

rededor de ochenta anos despues de la muerte los hermanos Stuart y Donald Geman, se encargan

de realizar la descripcion de este metodo, que a grandes rasgos consiste en generar una muestra

aleatoria a partir de la distribucion de probabilidad conjunta de dos o mas variables aleatorias. Se

trata de un caso especial del algoritmo de Metropolis-Hastings y, por lo tanto es un MCMC.

Page 64: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.2 Muestreador de Gibbs 47

4.2. Muestreador de Gibbs

Esta seccion es tomada del libro de (MacDonald & Zucchini 2009, cap. 7) donde el objetivo es

estimar la distribucion a posteriori de estos parametros mediante el muestreador de Gibbs. Sea

Ot un Poisson-HMM con K estados, y dada una secuencia de observaciones o1, o2, ..., oT , con

K jo y cadena de Markov subyacente Ct. Con vector de medias (estado-dependientes) λ =

(λ1, ..., λK) y m.t.p. A y distribuciones a priori sobre los parametros λ y A. Note que por ahora

se asume que el numero de estados K es conocido, mas adelante se descarta este supuesto de

manera que se considera la estimacion bayesiana del mismo.

Se postulan las siguientes a prioris de forma que las distribuciones para los parametros son de la

siguiente manera. Para la r-esima laAr de la m.t.p.A, postulamos la distribucion Dirichlet con el

vector de parametros νr dado que la m.t.p. es estocastica implica que la suma de los componentes

de la la es 1. Para el vector de medias λ, se reescriben en forma incrementos independientes

τj = λj − λj−1 (con λ0 ≡ 0), dada la restriccion λj > 0 se postulan distribuciones gamma

con parametros aj y bj (forma, tasa). Ademas, las distribuciones a priori para las las de A y las

cantidades τj se suponen mutuamente independientes.

Sea Y1, ...YK un conjunto de variables aleatorias se dice que tienen distribucion Dirichlet con

vector de parametros (ν1, ..., νm) si su distribucion conjunta es proporcional a

yν1−11 yν2−1

2 · · · yνK−1K .

Con yK = 1−∑K−1

i=1 yi, y densidad conjunta de Y1, ..., YK−1 en la unidad sımplex1

en dimension

K − 1, es decir, en el subespacio de R denido por

∑K−1i=1 yi ≤ 1, yi ≥ 0. Una variable aleatoria

X se dice que tiene una distribucion gamma con parametro de forma a y parametro de tasa b si

su funcion de densidad es (para x positivo)

f(x) =ba

Γ(a)xa−1e−bx.

Con esta parametrizacionX tiene media a/b, varianza a/b2y coeciente de variacion (c.v.) 1/

√a.

Si fuera posible observar la cadena de Markov, la actualizacion de las probabilidades de transicion

para A serıa sencilla. Sin embargo, en este caso se deben generar muestras de las trayectorias en

la cadena de Markov, en cada paso para ir actualizando los valores de A.

Cada conteo observado ot se considera como la suma

∑j ojt de las contribuciones de hasta K

regımenes, siendo la contribucion de j regimenes hasta ot es ojt. Considerando que, la cadena de

Markov esta en el estado i en un momento dado, entonces se dice que los regımenes 1, ..., i se

encuentran activos en ese momento, y los regımenes i+ 1, ..., K estan inactivos.

En lugar de parametrizar el modelo en terminos de las K medias de los estados-dependientes

λi, lo parametrizamos en terminos de los incrementos no negativos τ = (τ1, ..., τm), donde τj =

1Para mas detalles de la denicion de simplex, revise las deniciones matematicas que se encuentran en los campos

de la geometrıa y topologıa.

Page 65: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

48 4 Metodos Bayesianos para los HMM

λj − λj−1 (con λ0 ≡ 0); o de forma equivalentemente, se tiene que:

λi =i∑

j=1

τj.

El objetivo de reescribir a λj de esta forma, es que tenga un orden y sea creciente, lo que es util

para evitar el problema tecnico conocido como cambio de etiqueta, donde las observaciones son

asignadas a cada uno de los estados de manera aleatoria. Para una explicacion de este proble-

ma, vea, por ejemplo, (Fruhwirth-Schnaer 2006, Seccion. 3.5.5). La variable aleatoria τj puede

describirse como la contribucion media del regimen j, si esta activa, al conteo observado en un

momento dado. En resumen, procedemos de la siguiente manera.

Dados los conteos observados o1:T y los valores actuales de los parametrosA, y λ generamos

una muestra de las trayectorias para la cadena de Markov (CM).

Utilizamos esta muestra de las trayectorias para descomponer los conteos observados en

contribuciones (simuladas) del regimen.

Con la muestra de las trayectorias de la CM disponible y las contribuciones del regimen, se

actualizan A y τ , por lo tanto λ.

Los pasos anteriores se repiten un gran numero de veces y, despues de un “perıodo de quemado”

(burning)2, las muestras resultantes de los valores de A y λ proporcionan las estimaciones re-

queridas de sus correspondientes distribuciones posteriores. Sea θ el conjunto de parametros que

contiene tanto A como a λ.

4.2.1. Generando muestras de las trayectorias para la cadena de

Markov.

Dadas las observaciones O1:T y los valores actuales de los parametros θ, deseamos simular una

muestra de las trayectorias C1:T de la cadena de Markov, a partir de su distribucion condicional

P (C1:T |O1:T , θ) = P (CT |O1:T , θ)×T−1∏t=1

P (Ct|O1:T , CTt+1, θ).

Tomamos valores de la cadena CT , CT−1..., C1 en este orden, para ello es necesario calcular las

siguientes probabilidades

P (Ct|O1:t, θ) =P (Ct, O1:t|θ)P (O1:t|θ)

=αt(Ct)

Lt∝ αt(Ct), parat = 1, ..., T. (4-4)

2Burning o perıodo de quemado consiste, en descartar un numero de las primeras muestras generada por el MCMC,

tiene como objetivo evitar la correlacion entre los valores muestreado y ası generar estimaciones consistentes.

Page 66: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.2 Muestreador de Gibbs 49

Como antes (ver pag. 18), αt = (αt(1), ..., αt(K)) en la ecuacion 4-4 denota el vector de probabi-

lidades forward

αt(i) = P (O1:t, Ct = i),

que se puede calcular a partir de la recursion αt = αt−1AP (ot) (t = 2, ..., T ), con α1 = πP (o1),

donde Lt es la verosimilitud de las primeras t observaciones.

Comenzamos la simulacion tomando CT , el estado de la cadena de Markov en el tiempo nal T ,

desde P (CT |O1:t, θ) ∝ αT (CT ), (es decir, el caso t = T de la ecuacion 4-4). Luego simulamos

los estados Ct (en el orden t = T − 1, T − 2, ..., 1) haciendo uso del siguiente argumento de

proporcionalidad, como en Chib (1996):

P (Ct|O1:t, CTt+1, θ) ∝ P (Ct|O1:t, θ)P (OTt+1, C

Tt+1|O1:t, Ct, θ)

∝ P (Ct|O1:t, θ)P (Ct+1|Ct, θ)P (OTt+1, CTt+2|O1:t, Ct, Ct+1, θ)

∝ αt(Ct)P (Ct+1|Ct, θ).(4-5)

El tercer factor que aparece en la penultima lınea es independiente de Ct, de ahı la simplicacion.

La expresion 4-5 es facilmente asequible, ya que el segundo factor es simplemente una probabili-

dad de transicion de un paso en la cadena de Markov. Por lo tanto, estamos en posicion de simular

muestras de la trayectoria de la cadena de Markov, dadas las observaciones O1:t y los parametros

θ.

4.2.2. La descomposicion de las observaciones en contribuciones del

regimen.

Suponga que una muestra de la trayectoria C1:T de la cadena de Markov, generada como se des-

cribe en la Seccion 4.2.1, y suponga que Ct = i, de modo que los regımenes 1, ..., i estan activos

en el tiempo t. El siguiente paso es descomponer cada observacion ot (t = 1, 2, ..., T ) en contri-

buciones del regimen o1t, ..., oit tal que

∑ij=1 ojt = ot. Por lo tanto necesitamos la distribucion

conjunta de O1t, ..., Oit, dado Ct = i y Ot = ot (y dado θ). Esto es una distribucion multinomial

con el total de los ot y vector de probabilidad proporcional a (τ1, ..., τi).

4.2.3. Actualizando los parametros

Para actualizar los valores de la m.t.p. A se hace de la siguiente manera. Primero al tomar Ar la r-

esima la deA, desde la distribucion de Dirichlet con el vector de parametros νr+Tr, donde Tr es

la la de la matriz (simulada) de conteos de transicion. De manera similar, el vector de medias de

los estados-dependientes λ se actualiza al tomar τj (j = 1, ..., K) de una distribucion gamma con

parametros aj +∑T

t=1 xjt y bj +Nj ; aquı, Nj denota el numero de veces que el regimen j estuvo

activo en la muestra de la trayectoria simulada de la cadena de Markov, y ojt la contribucion del

regimen j a ot.

Page 67: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

50 4 Metodos Bayesianos para los HMM

4.3. Estimacion Bayesiana para el numero de estados

En esta seccion se muestra el enfoque bayesiano para la seleccion del modelo. DondeM denota

el modelo con K numero de estados, parametro cuyo valor se evalua a partir de su distribucion a

posteriori, p(M|O1:T ). Sin embargo calcular la distribucion a posteriori se vuelve en un problema

complicado como indica L et al. (2005).

Usando p como un sımbolo general para las funciones masa de probabilidad o de densidad, se

tiene

p(M|O1:T ) = p(M)P (O1:T |M)/p(O1:T ) (4-6)

donde p(O1:T |M) es llamada la verosimilitud integrada. Si solo se comparan dos modelos, los

odds posterior son iguales al producto del ’factor de Bayes’ y los odds prior:

p(M2|O1:T )

p(M1|O1:T )=p(O1:T |M2)

p(O1:T |M1)× p(M2)

p(M1). (4-7)

4.3.1. Uso de la verosimilitud integrada

Para utilizar 4-6 o 4-7 necesitamos estimar la probabilidad integrada

p(O1:T |M) =

∫p(θM, O1:T )dθM =

∫p(O1:T |M, θM)p(θM|M)dθM.

Una forma de hacerlo serıa simular desde p(θM|M), la distribucion a priori de los parametros

θM del modelo de K-estados; esto es conveniente, especialmente si la a priori es no informativa.

Sin embargo es mas eciente usar un metodo que requiera una muestra de la distribucion a pos-

teriori, p(θM|O1:T ). Tal metodo se muestra a continuacion, para ello reescribimos la verosimilitud

integrada de la siguiente manera,∫p(O1:T |M, θM)

p(θM|M)

p∗(θM)p∗(θM)dθM;

de modo que pueda usarse la densidad mas conveniente p∗(θM) para los parametros θM. Como

tenemos disponible una muestra θ(j)M (j = 1, 2, ..., B) de la distribucion a posteriori, podemos

usar esa muestra; es decir, podemos tomar p∗(θM) = p(θM|O1:T ,M). Newton & Raery (1994),

sugieren entre otras cosas que la probabilidad integrada puede ser estimada por

I =B∑j=1

wjp(O1:T |M, θ(j)M)

/ B∑j=1

wj, (4-8)

donde

wj =p(θ

(j)M |M)

p(θ(j)M |O1:T ,M)

. (4-9)

Page 68: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.3 Estimacion Bayesiana para el numero de estados 51

Despues de una cierta manipulacion, esto se simplica a la media armonica de los valores de la

verosimilitud de una muestra de la distribucion a posteriori,

I =

(B−1

B∑j=1

(p(O1:T |M, θ

(j)M))−1)−1

; (4-10)

Newton & Raery establecen que, en condiciones bastante generales, I es un estimador de p(O1:T |M)

consistente en la simulacion. Pero hay un gran inconveniente de este estimador de la media

armonica y es su varianza innita, por lo tanto la pregunta de que estimador usar para p(O1:T |M)

parece no haberse resuelto. Raery (2006) sugieren dos alternativas al estimador de la media

armonica, pero no hay una recomendacion clara, en MacDonald & Zucchini (2009) se comenta

las desalentadores propuestas temporales realizadas a lo largo de los anos para hacer frente a la

inestabilidad de las esperanzas con respecto al uso de las muy a menudo a prioris no informativas.

4.3.2. Seleccion de modelos por muestreo paralelo

Otra alternativas para estimar p(O1:T |M) de forma relativamente simple mediante el “muestreo

paralelo”para la seleccion de los modelos en competencia, siempre que este conjunto de modelos

sea lo sucientemente pequeno; ver Congdon (2006) y Sco (2002). Denotamos a θ por el vector

(θ1, θ2, ..., θK), y de manera similar θ(j); K es el Numero maximo de estados. Supongamos que

p(M, θ) = p(θM|M)p(M);

es decir, suponga que el modelo con K estados no depende de los parametros del modelo de

estado j, para j 6= K .

Deseamos estimar p(O1:T |M) (paraM∈ K) por

B−1

B∑j=1

p(M|O1:T , θ(j)). (4-11)

Utilizamos el hecho de que, con el supuesto anterior,

p(M|O1:T , θ(j)) ∝ G

(j)M,

donde

G(j)M ≡ P (M|O1:T , θ

(j))p(θ(j)M |M)p(M). (4-12)

Por lo tanto

p(M|O1:T , , θ(j)) = G

(j)M/

K∑k=1

G(j)k .

Esta expresion para p(M|O1:T , θ(j)) se puede insertar en 4-11 para completar la estimacion de

p(M|O1:T ).

Page 69: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

52 4 Metodos Bayesianos para los HMM

4.4. Metodo Monte Carlo Hamiltoniano

Los metodos de Monte Carlo para cadenas de Markov o metodos MCMC por sus siglas en ingles

Markov chain Monte Carlo en anglais, es la base de muchos metodos en estadıstica computacional

(Gelman et al. 2013) para muestrear distribuciones de probabilidad complejas y realizar inferencia

a partir de estas muestras. Uno de los metodos MCMC mas conocido es el Metropolis-Hastings

que obtiene dichas muestras mediante la construccion de una cadena de Markov con la ayuda de

distribuciones propuestas que generan recorridos aleatorios en el espacio de parametros. De allı

se obtiene cierta cantidad de muestras a partir de una distribucion objetivo, mientras que el resto

se descarta. La eciencia y la calidad del muestreo dependen fundamentalmente de la distribucion

de la propuesta. Por esta razon, la eleccion de la distribucion propuesta ha sido durante mucho

tiempo un tema de investigacion. Para variables con distribuciones continuas, el metodo MonteCarlo Hamiltoniano (HMC) por sus siglas en ingles Hamiltonian Monte Carlo es una tecnica

avanzada que utiliza la mecanica clasica para muestrear distribuciones a partir de unas propues-

tas (Neal 1993). El metodo consiste en introducir variables auxiliares para realizar el muestreo,

luego se calcula el logaritmo de la distribucion conjunta de las variables, que se utiliza como el

Hamiltoniano de las partıculas que se mueven en el espacio muestral. El movimiento nal de las

trayectorias de estas partıculas se utiliza como las propuestas. Las ecuaciones de movimiento son

ecuaciones diferenciales ordinarias (EDO) que requieren integracion numerica, sin embargo se

deben tener en cuenta diversos factores en la eleccion de los integradores. Por ejemplo la reversi-

bilidad del tiempo, es necesaria para que la cadena de Markov converja a la distribucion objetivo,

y la preservacion del volumen garantiza que la tasa de aceptacion para la muestra sea consistente.

La tasa de aceptacion de HMC esta determinada por la forma en que el integrador conserva la

energıa del sistema fısico y, por lo tanto, son preferibles las soluciones numericas. Raramente al

integrar las EDO dan un resultado exacto, lo que indica que no se rechazarıa ninguna muestra.

Sin embargo en la mayorıa de casos reales, es necesario aproximar este valor. Cuando se necesita

explorar todo el espacio muestral es necesario utilizar largos perıodos de tiempo, sin embargo si

el error de integracion es alto la convergencia es lenta debido a la perdida de conservacion de

la energıa, por lo tanto, el perıodo de tiempo para la integracion generalmente se subdivide en

muchos pasos cortos.

A pesar de su relevancia para la eciencia de muestreo, la investigacion de integradores numeri-

cos sosticados para HMC ha sido escasa en la literatura. El integrador estandar de HMC es el

metodo de integracion de Leapfrog (Stormer-Verlet), sin embargo este metodo es sensible a EDO

rıgidas con componentes dinamicos altamente oscilatorios (Hairer et al. 2006). Cuando la densi-

dad objetivo produce una EDO rıgida, por ejemplo una distribucion gaussiana multivariada con

pequenas variaciones en ciertas dimensiones, el paso de tiempo para el salto se limita a la escala

de los componentes rıgidos para evitar perturbar la energıa del sistema, y en consecuencia reducir

la tasa de aceptacion del MCMC. Esto da como resultado un movimiento limitado en el espacio

muestral, haciendo que se requieran muchos pasos de integracion para explorar todo el espacio.

De manera mas general, las EDO rıgidas se producen cuando las distribuciones objetivo alcanzan

Page 70: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.4 Metodo Monte Carlo Hamiltoniano 53

su punto maximo alrededor de su moda haciendo que se necesiten de integradores avanzados.

Aunque el perıodo de quemado puede reducir la rigidez y aliviar parcialmente este problema, a

menudo es insuciente, como lo demuestran estudios empıricos. ver (Chao et al. 2015).

4.4.1. Descripcion del metodo Monte Carlo Hamiltoniano

En el metodo Monte Carlo Hamiltoniano (HMC) (Homan & Gelman 2014), introducimos una

variable de impulso auxiliar rd para cada variable del modelo θd. En la implementacion habitual,

estas variables de impulso son tomadas independientemente de la distribucion normal estandar,

lo que produce la densidad conjunta (no normalizada).

p(θ, r) ∝ exp

L(θ)− 1

2r · r

, (4-13)

Algoritmo 6: El algoritmo Monte Carlo Hamiltoniano

Dado θ0, ε, L,L,M :

for m = 1, ...,m doMuestrear r0 ∼ N (0, I)

Fije θm ← θm−1, θm ← θm−1, r ← r0

for j = 1, ..., L doFije θ, r ← (θ, r, ε).

con probabilidad α = mın

L(θ)− 12r·r

L(θ)m−1− 12r0·r0

, je θm ← θ, rm ← −r

endend

function:Leapfrog(θ, r, ε)

Fije r ← r + (ε/2)∇θL(θ)

Fije θ ← θ + εr

Fije r ← r + (ε/2)∇θL(θ)

Return: θ, r

donde L es el logaritmo de la densidad conjunta de las variables de interes θ (hasta una constante

de normalizacion3) y x · y denota el producto interno de los vectores x y y. Podemos interpretar

este modelo aumentado en terminos fısicos como un sistema hamiltoniano cticio donde θ denota

la posicion de una partıcula en el espacio tridimensional, rd denota el impulso de esa partıcula en

la dimension d-esima, L es una funcion de energıa potencial negativa dependiente de la posicion,

12r · r es la energıa cinetica de la partıcula, y log p(θ, r) es la energıa negativa de la partıcula.

3La expresion ”up to a constant” hasta una constante indica que L no tiene la constante de normalizacion, ya

que para el enfoques bayesiano las simluaciones MCMC, no requieren de esta constante de normalizacion para

realizar los calculos. Siendo esta constante aquella que hace la funcion de densidad integre 1.

Page 71: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

54 4 Metodos Bayesianos para los HMM

Podemos simular la evolucion a lo largo del tiempo de la dinamica hamiltoniana de este sistema

a traves del integrador ”leapfrog”, que procede de acuerdo con las actualizaciones.

rt+ε/2 = rt + (ε/2)∇θL(θt); θt+ε = θt + εrt+ε/2; rt+ε = rt+ε/2 + (ε/2)∇θL(θt+ε), (4-14)

donde rt y θt denotan los valores de las variables de impulso y posicion r y θ en el tiempo t y∇θ

denota el gradiente con respecto a θ. Dado que la actualizacion para cada coordenada depende

solo de las otras, las actualizaciones de salto conservan el volumen, es decir, el volumen de una

region permanece sin cambios despues de asignar cada punto en esa region a un nuevo punto a

traves del integrador leapfrog.

En el algoritmo 6 se describe un procedimiento estandar para extraer M muestras a traves del

metodo HMC. I denota la matriz de identidad y N(µ,Σ) denota una distribucion normal mul-

tivariada con media µ y matriz de covarianza Σ. Para cada muestra m, primero remuestreamos

los momentos de las variables de una normal estandar multivariada, que puede interpretarse co-

mo una actualizacion del muestreador de Gibbs. Luego aplicamos L actualizaciones a traves del

integrador leapfrog a las variables de posicion y momento θ y r respectivamente, generando un

par de propuestas θ, r para la posicion y momento. Se propone ajustar θm = θ y rm = −r, y

aceptar o rechazar esta propuesta de acuerdo con el algoritmo Metropolis Hastings. Este Metro-

polis es una propuesta valida porque es reversible en el tiempo y el integrador Leapfrog conserva

el volumen. El uso de un algoritmo para simular la dinamica hamiltoniana que no conserva el

volumen complica el calculo de la probabilidad de aceptacion de Metropolis (Homan & Gelman

2014). La negacion de r en la propuesta es teoricamente necesaria para producir reversibilidad en

el tiempo, pero puede omitirse en la practica si solo se esta interesado en tomar muestras de p(θ).

El termino log p(θ,r)p(θ,r)

, del cual depende la probabilidad de aceptacion α, es el cambio negativo en

la energıa del sistema hamiltoniano simulado del tiempo 0 al tiempo εL. Si pudieramos simular

exactamente la dinamica hamiltoniana, entonces α siempre serıa 1, ya que la energıa se conserva

en los sistemas hamiltonianos. El error introducido al usar una simulacion de tiempo discreto

depende especıcamente del parametro de tamano de paso ε, el cambio en energıa | log p(θ,r)p(θ,r)|

es proporcional a ε2para L grande, o ε3

si L = 1 (Homan & Gelman 2014) En principio, el

error puede crecer sin lımite en funcion de L, pero generalmente no se debe a la simplicidad de

la discretizacion del salto. Esto nos permite ejecutar HMC con muchos pasos de salto, generando

propuestas para θ que tienen una alta probabilidad de aceptacion a pesar de que estan distantes

de la muestra previa. Esto es doblemente derrochador, ya que se esta trabajando para acercar la

propuesta θ a la posicion inicial θm−1 − 1. Peor aun, si se elige L para que los parametros salten

de un lado del espacio al otro en cada iteracion, entonces la cadena de Markov puede que ni si-

quiera sea ergodica (Neal 2011). De manera mas realista, una eleccion desafortunada de L puede

dar como resultado una cadena que es ergodica pero lenta para moverse entre regiones de baja y

alta densidad.

El algoritmo HMC es poderoso, pero su utilidad esta limitada por la necesidad de ajustar el

parametro ε tamano del paso y la cantidad de pasosL. Si ε es demasiado grande, entonces la simu-

Page 72: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.4 Metodo Monte Carlo Hamiltoniano 55

lacion sera inexacta y producira bajas tasas de aceptacion. Si ε es demasiado pequeno, entonces el

calculo se desperdiciara dando muchos pasos pequenos. Si L es demasiado pequeno, entonces las

muestras sucesivas estaran cerca una de la otra, lo que dara como resultado un comportamiento

de caminata aleatorio indeseable y una mezcla lenta. Si L es demasiado grande, entonces HMC

generara trayectorias que retroceden y vuelven sobre sus pasos.

La adaptacion de estos parametros para cualquier problema particular requiere cierta experien-

cia, y generalmente una o mas ejecuciones preliminares. Seleccionar el L correcto es particu-

larmente difıcil, pues aunque es una metrica simple en ocasiones puede ocasionar trayectorias

demasiado cortas o largas, por lo que los profesionales generalmente se basan en heurısticas co-

mo las estadısticas de autocorrelacion de ejecuciones preliminares (Neal 2011). A continuacion,

presentamos el No-U-Turn Sampler (NUTS), una extension de HMC que elimina la necesidad de

especicar un valor jo de L. En esta seccion se presenta la conguracion del esquema NUTS

eciente basado en Homan & Gelman (2014).

4.4.2. No-U-Turn Sampler (NUTS)

El primer objetivo es disenar una muestra de MCMC que retenga la capacidad del HMC para

suprimir el comportamiento de la caminata aleatoria sin la necesidad de establecer el numero

de pasos L que el algoritmo toma para generar una propuesta. Necesitamos algun criterio que

nos diga cuando hemos simulado la dinamica “lo sucientemente grande”, es decir cuando la

ejecucion de la simulacion para mas pasos ya no aumentarıa la distancia entre la propuesta θ y

el valor inicial de θ. Utilizamos un criterio conveniente basado en el producto punto entre r (el

momento actual) y θ − θ (el vector desde nuestra posicion inicial a nuestra posicion actual), que

es el derivado con respecto al tiempo (en el sistema Hamiltoniano) de la mitad de la distancia al

cuadrado entre la posicion inicial θ y la posicion actual θ:

d

dt

(θ − θ) · (θ − θ)2

= (θ − θ) · ddt

(θ − θ) = (θ − θ) · r. (4-15)

En otras palabras, si tuvieramos que ejecutar la simulacion durante un tiempo innitesimal adi-

cional, entonces esta cantidad es proporcional al progreso que harıamos desde nuestro punto

de partida θ. Esto sugiere un algoritmo en el se ejecutan pasos de salto hasta que la cantidad

en la ecuacion 4-15 sea menor que 0; tal enfoque simularıa la dinamica del sistema hasta que

la ubicacion de la propuesta θ se acerque a θ. Desafortunadamente, este algoritmo no garantiza

la reversibilidad del tiempo y, por lo tanto, no garantiza que converja a la distribucion correcta.

NUTS supera este problema mediante un algoritmo recursivo que preserva la reversibilidad eje-

cutando la simulacion hamiltoniana tanto hacia adelante como hacia atras en el tiempo.

NUTS comienza introduciendo una variable de corte u con distribucion condicional p(u|θ, r) =

Uniforme(u; [0, expL(θ)− 12r · r]), que representa la distribucion condicional p(θ, r|u) =

Uniforme(θ, r; θ′, r′| expL(θ)− 12r · r ≥ u). Este paso de muestreo de corte no es estricta-

mente necesario, pero simplica tanto la derivacion como la implementacion de NUTS.

Page 73: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

56 4 Metodos Bayesianos para los HMM

Figura 4-1.: Ejemplo de construccion de un arbol binario mediante duplicacion repetida. Cada

duplicacion procede eligiendo una direccion (hacia adelante o hacia atras en el tiem-

po) uniformemente al azar, luego simulando la dinamica hamiltoniana para 2j paso

leapfrog en esa direccion, donde j es el numero de duplicaciones previas (y la altura

del arbol binario). Las guras en la parte superior muestran una trayectoria en dos

dimensiones (con el arbol binario correspondiente en lıneas discontinuas) a medida

que evoluciona a lo largo de cuatro duplicaciones, y las siguientes guras muestran

la evolucion del arbol binario. En este ejemplo, las direcciones elegidas fueron ha-

cia adelante (nodo naranja claro), hacia atras (nodos amarillos), hacia atras (nodos

azules) y hacia adelante (nodos verdes). Tomado de Homan & Gelman (2014).

En un nivel alto, despues de volver a muestrear u|θ, r, NUTS utiliza el integrador leapfrog para

trazar un camino hacia adelante y hacia atras en tiempo cticio, primero corriendo hacia adelante

o hacia atras 1 paso, luego hacia adelante o hacia atras 2 pasos, luego hacia adelante o hacia atras

4 pasos, etc. Este proceso de duplicacion construye implıcitamente un arbol binario equilibrado

cuyos nodos hoja corresponden a los estados del momento de la posicion, como se ilustra en la

gura 4-1. La duplicacion se detiene cuando el subtrayectoria de los nodos de la izquierda hasta

la derecha de algun subarbol balanceado del arbol binario general comienza a duplicarse sobre sı

mismo (es decir, la partıcula cticia comienza a hacer un “giro en U”). En este punto, NUTS detiene

la simulacion y las muestras del conjunto de puntos calculados durante la simulacion, teniendo

cuidado de preservar el saldo detallado. El pseudocodigo para el NUTS eciente se proporciona

en el algoritmo 7.

Page 74: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.4 Metodo Monte Carlo Hamiltoniano 57

Algoritmo 7: El algoritmo No-U-Turns Sampler eciente

Dado θ0, ε,L,M :

for m = 1, ...,m doRemuestrear r0 ∼ N (0, I)

Remuestrear u ∼ Uniform([0, expL(θm−1 − 12r0 · r0)])

Inicializar θ− = θm−1, θ+, r− = r0, j = 0, θm = θm − 1, n = 1, s = 1.

while s = 1 doEscoja una direccion vj ∼ Uniform(−1, 1).

if vj = −1 thenθ−, r−,−,−, θ′, n′, s′ ← BuilTree(θ−, r−, u, vj, j, ε).

else−,−, θ+, r+, θ′, n′, s′ ← BuilTree(θ−, r−, u, vj, j, ε).

endif s′ = 1 then

con probabilidad mın

1, n′

n

, je θm ← θ′

endn← n+ n′

s← s′I[(θ+ − θ−) · r− ≥ 0]I[(θ+ − θ−) · r+ ≥ 0]

j ← j + 1end

end

function:BuildTree(θ, r, u, v, j, ε)

if j = 0 thenCaso base - tome un paso Leapfrog en la direccion v

θ′, r′ ← Leapfrog (θ, v, r, ε).

n′ ← I[u ≤ expL(θ′)− 12r′ · r′].

s′ ← I[u < exp∆maxL(θ′)− 12r′ · r′]

Return: θ′, r′, n′, s′

elseRecursion: construya implıcitamente los subarboles izquierdo y derecho.

θ−, r−, θ+, r+, θ, n′, s′ ← BuildTree (θ−, r−, u, v, j − 1, ε).

if s′ = 1 thenif v = −1 then

θ−, r−,−,−, θ′′, n′′, s′′ ← BuildTree (θ−, r−, u, v, j − 1, ε).

else−,−, θ+, r+, θ′′, n′′, s′′ ← BuildTree (θ+, r+, u, v, j − 1, ε).

endCon probabilidad

n′′

n′+n′′, je θ′ ← θ′′.

s′ ← s′′I[(θ+ − θ−) · r− ≥ 0]I[(θ+ − θ−) · r+ ≥ 0]

n′ ← n′ + n′′

endReturn: θ−, r−, θ+, r+, θ′, n′, s′.

end

Page 75: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

58 4 Metodos Bayesianos para los HMM

4.5. Verosimilitud Marginal

La verosimilitud marginal juega un papel importante en muchas areas de las estadıstica baye-

siana, como la estimacion de parametros, la comparacion de modelos y el promedio de modelos.

Sin embargo, en la mayorıa de las aplicaciones, la verosimilitud marginal no es analıticamente

manejable y debe aproximarse utilizando metodos numericos. A continuacion presentamos una

descripcion del muestreo por puente, Meng & Schilling (2002) un metodo de muestreo cona-

ble y relativamente sencillo que permite a los investigadores obtener la verosimilitud marginal

de modelos de complejidad variable. Ademas los resultados de Gronau et al. (2017) indican que el

muestreo por puente proporciona estimaciones precisas, cuando se pretende aproximar la verosi-

militud marginal de un conjunto nito de modelos; haciendolo un metodo atractivo especialmente

cuando se trabaja con modelos de alta dimension.

La verosimilitud marginal es la probabilidad de los datos observados y dado un modelo especıco

de interesM, y se dene como la integral de la verosimilitud sobre la a priori:

p(y|M)︸ ︷︷ ︸verosimilitud

marginal

=

∫p(y|θ,M)︸ ︷︷ ︸verosimilitud

p(θ|M)︸ ︷︷ ︸a priori

(4-16)

con θ un vector que contiene los parametros del modelo. La ecuacion 4-16 ilustra que la verosi-

militud marginal se puede interpretar como un promedio ponderado de la verosimilitud de que

los datos dado un valor especıco para θ donde el peso es la plausibilidad a priori de ese valor

especıco. Por lo tanto la ecuacion 4-16 se puede escribir como valor esperado:

p(y|M) = Ea priori[p(y|θ,M)],

donde se toma la experanza con respecto a la distribucion a priori. Esta idea es fundamental para

los diferente metodos de muestreo que se muestran a continuacion.

4.5.1. El estimador ingenuo de Monte Carlo de la Verosimilitud

Marginal

El metodo mas simple para aproximar la verosimilitud marginal lo proporciona el ingenuo estima-

dor de Monte Carlo (Gronau et al. 2017). Este metodo utiliza la denicion estandar de la verosimi-

litud marginal 4-16, y se basa en la idea central de que la verosimilitud marginal se puede escribir

como un valor esperado con respecto a la distribucion a priori, es decir, p(y) = Ea priori[p(y|θ)].Este valor esperado de la verosimilitud de los datos con respecto a la a apriori se puede aproxi-

mar evaluando la verosimilitud en N muestras de la distribucion a priori para θ y promediando

los valores resultantes. Esto produce el estimador ingenuo de Monte Carlo p1(y):

p1(y) =1

N

N∑i=1

p(y|θi)︸ ︷︷ ︸promedio

verosimilitud

, θi ∼ p(θ)︸ ︷︷ ︸muestras desde la

distribucion a priori

.

Page 76: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.5 Verosimilitud Marginal 59

4.5.2. El Estimador de Muestreo por Importancia de la Verosimilitud

Marginal

El estimador ingenuo de Monte Carlo introducido en la ultima seccion funciona bien si la distri-

bucion a priori y a posteriori tienen una forma similar y una superposicion fuerte. Sin embargo, el

estimador es inestable si la distribucion a posteriori es relativamente puntiaguda en comparacion

con la distribucion a priori (por ejemplo, Gamerman & Lopes (2006)). En tal situacion, la mayorıa

de los valores muestreados para θ dan como resultado valores de verosimilitud cercanos a cero y

contribuyen solo mınimamente a la estimacion. Esto signica que las pocas muestras que resul-

tan en valores altos de la verosimilitud dominan las estimaciones de la verosimilitud marginal.

En consecuencia, la varianza del estimador aumenta (Newton & Raery 1994)).

Por otro lado el estimador de muestreo por importancia, supera esta deciencia al aumentar los

valores muestreados en regiones del espacio de parametros donde el integrando de la ecuacion

4-16 es grande. Esto se realiza mediante el uso de muestras de la llamada densidad de importan-

cia gIS(θ) en lugar de la distribucion a priori. La ventaja de muestrear desde una densidad de

importancia es que los valores para θ que resultan con alta verosimilitud se muestrean con ma-

yor frecuencia, mientras que los valores para θ con baja verosimilitud se muestrean raramente.

Para derivar el estimador de muestreo por importancia, se utiliza la ecuacion 4-16 como punto de

partida y luego se extiende por la densidad de importancia gIS(θ):

p(y) =

∫p(y|θ)p(θ)dθ =

∫p(y|θ)p(θ)gIS(θ)

gIS(θ)dθ =

∫p(y|θ)p(θ)gIS(θ)

gIS(θ)dθ

= EgIS(p(y|θ)p(θ)gIS(θ)

).

Esto da como resultado el estimador de muestreo por importancia p2(y):

p2(y) =1

N

N∑i=1

p(y|θi)p(θi)gIS(θi)︸ ︷︷ ︸

verosimilitud promedio ajustada

, θi ∼ gIS(θ)︸ ︷︷ ︸Muestras de la densidad

por importancia

. (4-17)

Una densidad de importancia adecuada deberıa (1) ser facil de evaluar; (2) tienen el mismo do-

minio que la distribucion a posteriori; (3) se asemejan mucho a la distribucion a posteriori; y

(4) tienen colas mas gruesas que la distribucion a posteriori (Neal 2011). El ultimo criterio ase-

gura que los valores en las colas de la distribucion no puedan dominar de manera enganosa la

estimacion Neal (2011).4

4Para ilustrar la necesidad de una densidad de importancia con colas mas gruesas que la distribucion a posteriori,

imagine que muestrea de la region de la cola una densidad de importancia con colas mas nas. En este caso, el

numerador en la ecuacion 4-17 serıa sustancialmente mas grande que el denominador, resultando en una relacion

muy grande. Dado que esta relacion especıca es solo un componente de la suma que se muestra en la ecuacion

4-17, este componente afectarıa el estimador del muestreo por importancia. Por lo tanto, colas mas delgadas de

la densidad de importancia corren el riesgo de producir estimaciones inestables a traves de calculos repetidos.

De hecho, el estimador puede tener una varianza innita.

Page 77: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

60 4 Metodos Bayesianos para los HMM

4.5.3. El Estimador de muestreo por puente de la verosimilitud

marginal

Como se evidencio, tanto el estimador de muestreo por importancia como el estimador de me-

dia armonica generalizada imponen fuertes restricciones en el comportamiento de la cola de la

densidad de importancia en relacion con la distribucion a posteriori para garantizar un estimador

estable. Dichos requisitos pueden dicultar la busqueda de una densidad de importancia adecua-

da, especialmente cuando se considera una distribucion a posteriori de alta dimension. Por otro

lado el muestreo por puente es mas exible en tales requisitos (ver, (Fruhwirth-Schnaer 2006)).

Originalmente, el muestreo por puente se desarrollo para estimar directamente el factor de Ba-

yes, es decir la razon de las verosimilitudes marginales de los modelosM1 yM2 (por ejemplo,

(Jereys 1961)). Sin embargo aquı utilizamos una version de muestreo por puente que permite

aproximar la verosimilitud marginal de un modelo. Esta version se basa en la siguiente identidad:

1 =

∫p(y|θ)p(θ)h(θ)g(θ)dθ∫p(y|θ)p(θ)h(θ)g(θ)dθ

(4-18)

donde g(θ) es la llamada distribucion de la propuesta y h(θ) la llamada funcion de puente. Al

multiplicar ambos lados de la ecuacion 4-18 por la verosimilitud marginal p(y), se obtiene:

p(y) =

∫p(y|θ)p(θ)h(θ)g(θ)dθ∫ p(y|θ)p(θ)

p(y)h(θ)g(θ)dθ

=

∫p(y|θ)p(θ)h(θ)

distribucion

propuesta︷︸︸︷g(θ) dθ∫

h(θ)g(θ) p(θ|y)︸ ︷︷ ︸distribucion

a posteriori

=Eg(θ) [p(y|θ)p(θ)h(θ)]

Epost [h(θ)g(θ)]

La verosimilitud marginal ahora se puede aproximar usando:

p(y) =1N2

∑N2

i=1 p(y|θi)p(θi)h(θi)

1N1

∑N1

j=1 h(θ∗j )g(θ∗j ), θi ∼ g(θ)︸ ︷︷ ︸

muestras de la

distribucion de la propuesta

, θ∗j ∼ p(θ|y)︸ ︷︷ ︸muestras de la

distribucion a posteriori

. (4-19)

La ecuacion 4-19 ilustra la necesidad de muestrear tanto de la distribucion propuesta como de la

distribucion a posteriori para obtener la estimacion de muestreo por puente para la verosimilitud

marginal. Sin embargo, antes de poder aplicar la ecuacion 4-19 debemos analizar como se puede

obtener una distribucion como propuesta y una funcion de puente adecuada. Conceptualmente,

la distribucion de la propuesta es similar a una densidad de importancia, debe parecerse a la dis-

tribucion a posteriori y debe tener una superposicion suciente con la distribucion a posteriori.

De acuerdo con Overstall & Forster (2010), indican que es conveniente utilizar una distribucion

normal con sus dos primeros momentos elegidos para coincidir con los de la distribucion a pos-

teriori como propuesta; sin embargo aunque esta propuesta funciona bien para una amplia gama

Page 78: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

4.5 Verosimilitud Marginal 61

de escenarios, podrıa producir estimaciones inestables en el caso de distribuciones a posterioris

de alta dimension que claramente no siguen una distribucion normal multivariada. En tal situa-

cion, podrıa ser aconsejable considerar versiones mas sosticadas del muestreo por puente (por

ejemplo, Fruhwirth-Schnaer (2006), Meng & Hung Wong (1996)).

La funcion de puente optima denida por (Meng & Hung Wong 1996), es la siguiente:

h(θ) = C · 1

s1p(y|θ)p(θ) + s2p(y)g(θ), (4-20)

donde s1 = N1

N2+N1, s2 = N2

N2+N1, y C es una constante; que no requiere de un valor particular

porque h(θ) es parte tanto del numerador como del denominador de la ecuacion 4-20, y por lo

tanto la constante C se cancela. Esta funcion de puente en particular se conoce como la “funcion

de puente optima”porque (Meng & Hung Wong 1996, pag. 837) demostraron que minimiza el

error relativo - cuadratico medio denido como RE2 =E[(p(y)−p(y))2]

p(y)2 .

La ecuacion 4-20 muestra que la funcion de puente optima depende de la verosimilitud marginal

p(y), que es la cantidad que queremos aproximar. Este problema puede ser resuelto aplicando un

esquema iterativo que actualice una estimacion inicial de la verosimilitud marginal hasta que esta

estimacion converga de acuerdo con un nivel de tolerancia predenido. Para hacerlo, insertamos

la funcion de puente optima denida en la ecuacion 4-20 en la ecuacion 4-19 (Meng & Hung Wong

1996). La formula para aproximar la verosimilitud marginal en la iteracion t+ 1 es:

p(y)(t+1) =

1N2

∑N2

i=1p(y|θi)p(θi)

s1p(y|θi)p(θi)+s2p(y)(t)g(θi)

1N1

∑N1

j=1

g(θ∗j )

s1p(y|θ∗j )p(θ∗j )+s2p(y)(t)g(θ∗j )

, θi ∼ g(θ)︸ ︷︷ ︸muestras desde la

distribucion propuesta

, θ∗j ∼ p(θ|y)︸ ︷︷ ︸muestras desde la

distribucion a posteriori

(4-21)

donde p(y)(t)denota la estimacion de la verosimilitud marginal en la iteracion t del esquema

iterativo, y s1, s2 denotan constantes que deben calcularse y solo dependen de N1 y N2 respec-

tivamente. Ademas denotamos a N2 como las muestras tomadas desde la distribucion propuesta

g(θ) y N1 son las muestra tomadas desde la distribucion a posteriori p(θ|y). La ecuacion 4-21

ilustra por que el muestreo por puente es robusto al comportamiento de la cola de la distribucion

propuesta en relacion con la distribucion a posteriori. Para mas informacion puede consultar a

Gronau et al. (2017), donde se discuten una serie de requisitos que debe cumplir el muestrea-

dor por puente, el cual impone condiciones menos estrictas en la distribucion de la propuesta

que el estimador de muestreo de importancia y la media armonica generalizada, permitiendo una

aplicacion casi automatica debido a la eleccion predeterminada de la funcion puente.

Page 79: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5. Resultados

5.1. Aplicacion

Para los modelos descritos anteriormente se presenta unas aplicaciones a partir de dos conjuntos

de datos, con el proposito de ilustrar su manejo y analisis. El primer conjunto de datos es la serie

anual del numero de homicidios1

en Colombia de 1960 a 2018 para la cual se ajustaron varios

PHMM. En la segunda aplicacion se analizo la serie mensual de incendios forestales en Colombia,

entre el 2002 y 2016 se ajustaron varios modelos ocultos de Markov Cero-Inados. Previo al ajuste

de los modelos, se llevo a cabo un analisis exploratorio basico del conjunto de datos con el que se

muestran algunos problemas que generalmente se presentan al visualizar los datos de conteo. Al

nal de la seccion, se comparan todos los modelos ajustados, tanto desde el enfoque clasico como

desde el enfoque Bayesiano, y se selecciona el mejor modelo a partir de las dos metodologıas.

Para ambas series, la aplicacion de modelos estandar como modelos auto regresivos de media

movil (ARMA) serıa inapropiado, ya que estos modelos se basan en la distribucion normal. En su

lugar, se propone un modelo con distribucion Poisson usualmente utilizada en datos con conteos,

pero como se demostrara mas adelante, las series presentan sobre dispersion y fuerte dependencia

serial positiva, e inacion en ceros en el caso de la serie de incendios. Por lo tanto, un modelo para

variables aleatorias independientes tipo Poisson; es inadecuado. Unido a lo anterior se observan

perıodos con bajas tasas de homicidios e incendios, y algunos con una tasa relativamente alta. Los

HMMs, permiten que la distribucion de probabilidad de cada observacion dependa del estado no

observado (oculto) de una Cadena de Markov, por lo tanto puede incorporar la sobre dispersion

y la dependencia serial al mismo tiempo.

5.1.1. Descripcion de los datos

Homicidios: La informacion corresponde al numero de homicidios en Colombia en el perıodo

de 1960-2018, para su elaboracion se reunieron varias fuentes, como las estadısticas historicas

economicas y sociales, extraıdas del Departamento Nacional de Planeacion (DNP) en la cual se

1Nota: No fue posible utilizar como variable de interes el numero de homicidios en Colombia, debido a que λ yn son

grandes, creando divergencias en las estimaciones. Por ejemplo suponga X ∼ P(λ = 100) y Y ∼ P(λ = 10), si

calculamos Pr(x = 1) = 0.000 y Pr(y = 1) = 0.00045. Ahora suponga una matriz de transacion A de tamano

K ×K , multiplicando los resultados anteriores por la m.t.p. A en el caso de λ = 100 la estimacion serıa 0. Por

lo tanto la variable modelada fue el numero de homicidios por cada 100.000 habitantes que reduce el valor de λ

considerablemente, sin embargo al tratarse de una variable continua se trunco al entero mas proximo.

Page 80: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 63

encuentran los principales indicadores de violencia, y se complemento con las estadısticas delic-

tivas de la Policıa Nacional y Medicina Legal. Los datos publicados corresponden a consolidados

de los Delitos de Impacto del paıs, ası mismo la Actividad Operativa realizada por la Policıa Na-

cional. Mientras que para la poblacion total Colombiana se extrajo la informacion de la seccion

Estadısticas por tema, demografıa y poblacion. La serie es anual para un total de 59 observaciones

y se expresa como el numero de homicidios por cada 100.000 habitantes comunmente conocida

como Tasa de homicidios, para ser posible la modelacion se redondeo la cifra al entero mas cer-

cano. Nota: La conabilidad de los datos para la tasa de homicidios puede variar, de acuerdo a la

fuente.

31 31 31 32 31 32 30 29 31 19 21 23 23 23 24 24 25 27 26 27

29 36 34 30 30 40 48 52 63 65 68 78 76 74 70 66 68 62 58 61

65 49 69 56 48 42 40 39 36 35 34 32 32 32 27 26 25 25 25

Tabla 5-1.: Numero de homicidios por cada 100.000 habitantes en Colombia, 1960 - 2018. Fuente:

Departamento Nacional de Planeacion (DNP), policıa Nacional y medicina legal.

Incendios: Los datos referentes a incendios forestales en Colombia, son tomados de la pagina

del IDEAM - Instituto de Hidrologıa, Meteorologıa y Estudios Ambientales.

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic

2002 10 8 12 2 0 1 0 6 1 1 0 0

2003 5 6 11 3 0 0 5 0 3 0 0 0

2004 7 14 10 1 0 0 3 12 4 1 0 3

2005 5 6 13 4 1 0 4 9 25 1 0 2

2006 2 3 0 0 0 0 6 6 10 0 0 0

2007 19 100 16 1 1 0 0 0 1 0 1 0

2008 3 4 3 1 0 0 0 0 0 0 0 0

2009 1 6 5 3 3 3 12 24 58 22 0 7

2010 103 95 37 3 0 0 0 0 0 0 0 0

2011 14 21 3 0 0 1 2 16 20 0 0 0

2012 16 27 14 1 3 3 31 36 45 4 3 3

2013 62 56 33 14 0 1 19 17 36 13 2 0

2014 15 32 18 17 2 0 48 38 47 3 1 0

2015 18 19 27 4 9 5 11 31 39 12 0 8

2016 40 60 58 12 0 0 5 22 18 1 0 2

Tabla 5-2.: Numero de Grandes Incendios Forestales (GIF) en Colombia, 2002 - 2016. Fuente:

IDEAM.

El Ideam ha venido realizando una revision historica de los datos reportados por diferentes institu-

ciones, con el n de tener datos mas conables. Esto permite obtener estadısticas sobre incendios

Page 81: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

64 5 Resultados

en Colombia, que en terminos generales ayudan a realizar analisis de su comportamiento bajo di-

ferentes escenarios, esto es, por regiones, departamentos o municipios, en condiciones climaticas

normales o bajo el fenomeno del nino, por cobertura vegetal afectada, por Corporacion Autonoma

Regional, por ano o por mes, y de esta manera utilizarlas para priorizar areas, orientar acciones

o sustentar la necesidad de realizar estudios mas detallados. La variable de interes es el nume-

ro de grandes incendios forestales (GIF), y se denen como aquellos incendios que superan las

500 hectareas forestales afectadas. Las observaciones son mensuales, con perıodo de observacion

enero del 2002 y nalizando en diciembre del 2016.

Estadısticas de resumen

A continuacion se muestran algunas estadısticas descriptivas, sobre la serie de homicidios Co-

lombia para los anos 1960-2018.

Estadıstica N Media Desv. Est. Mın Pctl(25) Mediana Pctl(75) Max

Homicidios 59 14189 8013 3908 5970 12626 20907 28837

Tasa 59 40.421 17.111 19.256 27.057 32.359 53.894 77.946

Tabla 5-3.: Estadısticas de Resumen serie homicidios en Colombia.

En la Tabla 5-3, se observa que el numero mınimo de homicidios ocurrido en este perıodo fue de

3908 con una Tasa de 19.26 homicidios por cada 100.000 habitantes, que corresponde al ano 1969.

Año

Núm

ero

1960 1970 1980 1990 2000 2010 2020

2030

4050

6070

80

Figura 5-1.: Serie de tiempo homicidios en Colombia desde el ano 1960 hasta el ano 2018.

Page 82: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 65

El maximo numero de homicidios registrados fue de 28837 en el ano 2002, sin embargo la Tasa

mas alta de homicidios fue en el ano 1991 con casi 78 homicidios por cada 100.000 la mas alta de

la region para esta epoca segun un estudio de la CEPAL. Algunas investigaciones sobre el tema

como la de Franco et al. (2006) y Pecaut (2003) han enfatizado ciertos aspectos coyunturales, tales

como el problema del narcotraco, la persistencia del conicto armado interno, la debilidad del

Estado, la corrupcion y la inmadurez en el ejercicio de la ciudadanıa pero aun son insucientes

los estudios y poco el consenso sobre las explicaciones de fondo de la situacion de violencia que

vive el paıs.

La serie homicidios permite deducir que utilizar modelo de regresion Poisson, serıa inapropiado

pues parece haber una mixtura entre dos distribuciones, si se asume que estas distribuciones no

estan correlacionadas, una opcion para modelar esta serie serıa utilizar una mixtura entre dos o

mas distribuciones independientes, como se muestra en (MacDonald & Zucchini 2009, Capıtulo 1).

La sobredispersion se evidencia al calcular la media y la varianza, siendo esta ultima mucho mas

grande que la media, lo cual no concuerda con la distribucion Poisson donde la media y varianza

son iguales.

0 5 10 15 20 25 30

−0.

50.

00.

51.

0

Rezago

AC

F

0 5 10 15 20 25 30

−0.

50.

00.

51.

0A

CF

0 20 40 60 80 100

0.00

00.

010

0.02

00.

030

N = 59 Bandwidth = 6.794

Den

sida

d

Figura 5-2.: Funcion de autocorrelacion muestral, y densidad para la serie homicidios en Colom-

bia (1960-2018).

El comportamiento de la tasa de homicidios presenta un fuerte incremento en la decada de 1980,

en particular desde 1983, hasta 1991. Es la fase mas crıtica de violencia, en particular de violencia

homicida, en los anales del paıs. Investigaciones anteriores como las de Souza & Lima (2006)

Page 83: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

66 5 Resultados

y Cardona et al. (2005) han tratado de explicar este incremento mediante la convergencia de

los problemas acumulados de debilidad institucional, ausencias estatales, ciudadanıa precaria,

desempleo e inequidades crecientes, con la expansion del fenomeno del narcotraco en el paıs

(Franco et al. 2006) y su confrontacion armada estatal, con la intensicacion de la presencia urbana

del conicto armado interno, en especial la actuacion de las milicias anes a las organizaciones

guerrilleras y la emergencia y acelerado desarrollo de organizaciones paramilitares (Franco et al.

2006).

En la gura 5-2 se graco la funcion de autocorrelacion muestral para la tasa de homicidios

hasta el rezago 30, se observa una fuerte dependencia lo que indica que es inapropiado utilizar un

modelo de mixturas independientes (distribucion Poisson), como alternativa surge la utilizacion

de los modelos ocultos de Markov para series de datos con conteo PHMM.

5.1.2. PHMM enfoque frecuentista

Se ajustaron modelos Poisson ocultos de Markov con 1 a 5 estados, y modelos con mixturas

independientes con 2, 3 y 4 componentes de la distribucion Poisson utilizando el paquete exmixde R. Con el objetivo de seleccionar el modelo mas apropiado, se calcularon estadısticas de bondad

de ajuste para cada uno de los modelos antes mencionados, que se encuentran registradas en la

Tabla 5-4. El AIC mınimo se ubico en 404.02, mientras que el BIC mas pequeno tiene un valor

de 418.96. Estos resultados indican que los modelos que mejor aproximan el comportamiento

de la naturaleza de esta serie de datos, son los PHMM con 2 y 3 estados segun el BIC y AIC

respectivamente. Identicar el modelo apropiado dependera del criterio seleccionado, sea BIC o

AIC. Aunque ambos funcionan de manera similar, BIC generalmente penaliza parametros libres

con mas fuerza, en comparacion con el criterio de Akaike. Por esta razon utilizaremos el BIC,

seleccionando como mejor modelo el PHMM de 2 estados.

Modelo p logL AIC BIC

1 PHMM - 1 Estado 1 -356.91 715.81 717.89

2 PHMM - 2 Estados 4 -201.32 410.65 418.963 PHMM - 3 Estados 9 -193.01 404.02 422.71

4 PHMM - 4 Estados 16 -190.84 413.69 446.93

5 PHMM - 5 Estados 25 -190.29 430.58 482.51

6 Mixtura indep. (2) 3 -229.38 464.75 470.98

7 Mixtura indep. (3) 5 -228.11 466.21 476.60

8 Mixtura indep. (4) 7 -228.11 472.69 487.23

Tabla 5-4.: Criterio de informacion Bayesiano y Akaike, para los modelos PHMM y mixturas

independientes ajustados a la Tasa de homicidios Colombia.

El bajo desempeno observado en los modelos de mixturas independientes en relacion con los

HMM, ver Tabla 5-4, puede tener origen en la alta correlacion observada en la gura 5-2.

Page 84: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 67

1 2 3 4 5 6

400

450

500

550

600

650

700

Número de estados

AIC

BIC

Figura 5-3.: Serie homicidios: seleccion de modelos AIC y BIC.

Por otra parte ni siquiera se debe intentar ajustar modelos con 4 o 5 estados, pues serıa necesario

estimar entre 16 y 25 parametros para 59 observaciones. Al ajustar el PHMM determinamos que la

verosimilitud es multimodal, y por lo tanto es facil encontrar varios maximos locales utilizando

diferentes valores de inicio. Inconveniente que es enfrentado dando valores iniciales pequenos

como 0.1 o 0.05, fuera de la diagonal de la matriz transicion de probabilidad, mientras que para

los valores iniciales del vector de medias estado dependientes deberıan usarse los deciles.

La estimaciones del PHMM de dos estados se muestran a continuacion, primero la m.t.p. A,

ademas del vector de medias de los estados dependientes λ y los valores de la distribucion es-

tacionaria π.

A =

(0.980 0.020

0.064 0.936

)λ = (29.715, 62.812) π = (0.764, 0.235)

La comparacion entre las funciones de autocorrelacion de los HMM con la funcion de autocorre-

lacion muestral (ACF), es una metodologıa alternativa a los criterios de informacion AIC y BIC,

para determinar si un modelo tiene un buen ajuste. por lo tanto se calcularon los ACF para los

Page 85: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

68 5 Resultados

PHMM con dos, tres, cuatro y cinco estados los cuales se encuentran en la Tabla 5-5. Tenga en

cuenta que para encontrar los ACF de los modelos se utilizo la ecuacion de MacDonald & Zucchini

(2009, pag. 55).

1 2 3 4 5 6 7 8 9 10 11 12

observaciones 0.94 0.89 0.83 0.75 0.66 0.58 0.49 0.39 0.30 0.20 0.11 -0.00

PHMM 2 Estados 0.77 0.71 0.65 0.59 0.54 0.50 0.46 0.42 0.38 0.35 0.32 0.29

PHMM 3 Estados 0.79 0.75 0.71 0.68 0.64 0.61 0.58 0.55 0.52 0.50 0.47 0.45

PHMM 4 Estados 0.80 0.76 0.72 0.69 0.65 0.62 0.58 0.55 0.52 0.50 0.47 0.44

Tabla 5-5.: ACF para los datos de homicidios y ACF de los PHMM hasta el rezago 12.

En la Figura 5-4, de izquierda a derecha se muestran el ACF de las observaciones, la barra de color

verde pertenece al modelo de dos estados y la azul al modelo de tres estados. Nos interesa ver como

estan yuxtapuesto los ACF de ambos modelos con respecto al ACF de las observaciones. Esta claro

que los ACF del modelo con tres estados corresponden bien con el ACF de las observaciones hasta

aproximadamente el rezago 6, mientras que el modelo con 2 estados coincide hasta el rezago 9.

Sin embargo, se pueden aplicar diagnosticos mas sistematicos, como se mostrara a continuacion.

0.0

0.2

0.4

0.6

0.8

1.0

Rezago0 1 2 3 4 5 6 7 8 9 10 11 12

Figura 5-4.: ACF para la serie homicidios y ACF de los PHMM con dos y tres estados.

Page 86: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 69

Verificacion de supuestos del PHMM

En este caso hemos elegido el BIC como criterio para la seleccion del mejor modelo como mostra-

mos anteriormente, sin embargo sigue existiendo el problema de decidir si el modelo es realmente

adecuado; por lo tanto se necesitan herramientas para evaluar la bondad general del ajuste del

modelo e identicar valores atıpicos en relacion con el modelo. En el contexto mas simple como

por ejemplo los modelos de regresion (teorıa normal), el papel que juegan los residuales como

herramienta para la vericacion del supuesto del modelo esta muy bien establecido, entre estos

supuestos estan la normalidad de los residuales, la homocedasticidad y la independencia de es-

tos. Los pseudo-residuos (tambien conocidos como residuos quantılicos) que se ilustraron en la

seccion tres tienen la intencion de cumplir esta funcion de manera mucho mas general, y que son

utiles en el contexto de los HMM.

0 10 20 30 40 50 60

−4

−2

02

4

tiempo

Pse

udo−

Res

idua

les

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Den

sity

−2 −1 0 1 2

0.0

0.2

0.4

0.6

0 5 10 15

−0.

20.

20.

61.

0

Lag

AC

F

Figura 5-5.: Graca de los pseudo-residuales ordinarios para el PHMM de 2 estados.

Page 87: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

70 5 Resultados

En la la superior izquierda de la Figura 5-5 se muestra el graco de los pseudo residuales nor-

males del PHMM, con lıneas horizontales en 0, ±1.96 y ±2.58. Mientras en la parte superior

derecha se presento el graco de cuantil-cuantil de los pseudo-residuos normales en el eje y, con

los cuantiles teoricos en el eje x. En la parte izquierda de la la inferior se encuentra el histograma

de los pseudo residuales normales, y en la parte derecha la funcion de autocorrelacion muestral de

los pseudo-residuos normales. Efectivamente los pseudo-residuales parecen distribuirse normal-

mente, sin embargo realizamos la prueba de Shapiro-Wilks para vericar este supuesto, donde el

p-valor es 0.7529, por lo tanto no podemos rechazar la hipotesis nulaH0, y concluimos que hay su-

ciente evidencia estadıstica para decir que los pseudo-residuos se distribuyen normalmente con

un nivel de conanza del 95 %. Ademas todos los puntos estan dentro de las bandas de conanza,

sin embargo el histograma no parece acomodarse en todos sus puntos a la curva de la distribucion

normal, y el mayor problema es que los pseudo-residuales parecen estar correlacionados, hasta

el rezago 3.

Algoritmo Viterbi

El algoritmo Viterbi, permite realizar la decodicacion global de los estados clasicando a cada

una de las observaciones en su correspondiente estado, indicando la secuencia mas probable de

los estados ocultos. Para la serie homicidios de 59 observaciones, el algoritmo Viterbi clasico 40

observaciones en el estado 1 y 19 en el estado 2. En la gura 5-6 se visualiza el algoritmo viterbi,

y las distribuciones marginales para cada estado. La decodicacion global (algoritmo Viterbi)

es el objetivo principal en muchas aplicaciones, especialmente cuando existen interpretaciones

importantes para los estados. Sin embargo los estados no observados en el modelo, no siempre

necesitan tener interpretaciones sustantivas, pues se consideran artefactos utiles para adaptarse

a la heterogeneidad no explicada y la dependencia serial de los datos.

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Tabla 5-6.: Resultados de la decodicacion global con el algoritmo Viterbi.

Se realiza la prediccion de los estados mas probables para los proximos 16 anos y el pronostico de

la distribucion para estos mismos anos. Como se observa en la gura 5-7 a medida que el horizonte

del pronostico h aumenta, la distribucion de pronostico converge a la distribucion marginal del

HMM estacionario. En la Tabla 5-7, se observa que el pronostico de los estados, para los proximos

16 anos es el estado 1, es decir que se espera una tasa de homicidios por cada 100.000 habitantes

cercana a 29, la cual sigue siendo alta ya que segun datos de la ONUDD (Ocina de Naciones

Unidas contra la Droga y el Delito), en sur America la tasa se situa en 20/100.000 homicidios, lo

que indica que la tasa de homicidios en Colombia esta por encima de la region. Ademas cifras de

la scalıa indican que despues de haber disminuido la tasa de homicidios en los ultimos anos, a

Page 88: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 71

Año

Núm

ero

1960 1970 1980 1990 2000 2010 2020

2030

4050

6070

80

20 40 60 800.

000.

010.

020.

030.

040.

050.

0620 40 60 80

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Figura 5-6.: Algoritmo Viterbi aplicado a un PHMM de dos estados.

partir del 2018 hubo un incremento del 3.25 %, de este delito siendo caso crıticos las ciudades de

Medellın, bajo Cauca y Tumaco, mientras la capital sigue con tendencia a la baja.

Ano Estado 1 Estado 2 Estado

2019 0.9802 0.0198 1

2020 0.9621 0.0379 1

2021 0.9456 0.0544 1

2022 0.9304 0.0696 1

2023 0.9164 0.0836 1

2024 0.9037 0.0963 1

2025 0.8920 0.1080 1

2026 0.8813 0.1187 1

2027 0.8714 0.1286 1

2028 0.8624 0.1376 1

2029 0.8542 0.1458 1

2030 0.8467 0.1533 1

2031 0.8397 0.1603 1

2032 0.8334 0.1666 1

2033 0.8276 0.1724 1

2034 0.8223 0.1777 1

Tabla 5-7.: Prediccion para las probabilidades de los estados hasta un rezago h = 16.

Page 89: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

72 5 Resultados

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2019

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2020

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2021

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2022

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2023

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2024

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2025

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2026

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2027

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2028

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2029

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2030

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2031

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2032

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2033

conteo

prob

abili

dad

10 30 50 70

0.00

0.02

0.04

0.06

0.08

0.10

Dist. pronós. 2034

conteo

prob

abili

dad

Figura 5-7.: Pronostico de la distribucion para los anos 2019 a 2034.

Page 90: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 73

Estimacion Bayesiana del PHMM

Primero se ajustaron cuatro modelos de 2 a 5 estados, con la funcion bayes.PHMM del paquete Ba-

yeshmmcts que estima los parametros de los modelos utilizando NUTS, a continuacion se estimo

la log - verosimilitud marginal, utilizando muestreo por puente como alternativa a las propuesta

hecha por Newton & Raery (1994) que sugiere utilizar la verosimilitud integrada, para hallar

el estimador de la media armonica de los valores de la verosimilitud de una muestra obtenidas

a partir la distribucion a posteriori. Pero como se vio en la seccion (4), aunque el estimador es

consistente tiene un gran problema varianza innita. Mientras que en el muestreador por puente,

el estimador no presenta ese problema y puede implementarse facilmente utilizando la funcion

bridgesampler del paquete bridgesampling, del autor Gronau et al. (2017). El paquete bridgesam-pling, ademas permite calcular el error de la estimacion para la verosimilitud marginal, obtenido

vıa muestreo por puente que en el caso del modelo con dos estados, el error es de 0.478 %.

El factor de Bayes es una alternativa bayesiana a la prueba de hipotesis clasica. Para la compa-

racion de modelos, el factor Bayes cuantica la fuerza de la evidencia de un modelo sobre otro,

independientemente de si estos modelos son correctos. Esto se debe a que el factor de Bayes

nos permite evaluar los datos a favor de una hipotesis nula y utilizar informacion externa para

hacerlo, dando un peso de la evidencia a favor de una hipotesis dada.

Suponga que queremos comparar dos hipotesis, H0 (la hipotesis nula) y H1 (la hipotesis alterna-

tiva), entonces el factor de Bayes lo denotamos como B01, y se dene matematicamente como:

B01 =verosimilitud de los datos dado H0

verosimilitud de los datos dado H1

=P (D|H0)

P (D|H1)

El factor de Bayes es un numero positivo, y una de las interpretaciones mas comunes es esta:

propuesta por primera vez por Harold Jereys (1961) y modicada ligeramente por Lee y Wagen-

makers en 2013, que se encuentra en la siguiente Tabla.

B01 Decision

>100 Evidencia extrema para H0

30 - 100 Evidencia muy fuerte para H0

10 - 30 Evidencia fuerte para H0

3 - 10 Evidencia moderada para H0

1 - 3 Evidencia apenas mencionable para H0

1 No hay evidencia

1/3 - 1 Evidencia apenas mencionable para H1

1/10 - 1/3 Evidencia moderada para H1

1/30 - 1/3 Evidencia fuerte para H1

1/100 - 1/30 Evidencia muy fuerte para H1

< 1/100 Evidencia extrema para H1

Tabla 5-8.: Interpretacion del factor de Bayes, Lee y Wagenmakers (2013).

Page 91: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

74 5 Resultados

Ahora utilizamos el factor de bayes para contrastar los modelos con K-estados de a parejas, y

seleccionar el mas adecuado, en la Tabla 5-9 se ilustra el contraste de hipotesis, donde las las

indican P (D|H0) y las columnas P (D|H1). Por ejemplo en el contraste de hipotesis entre el

modelo de 4 estados vs el modelo de 5 estados, el valor obtenido fue B01 = 128023, lo que indica

evidencia extrema para H0, es decir el modelo de 4 estados es mas apropiado que el de 5 estados.

Ahora para el modelo de 3 estados vs el de 4 y 5 estados los valores respectivos de los contrastes

son B01 = 766 y B01 = 125542040, lo que indica que el modelo de 3 estados es mas apropiado

que el 4 y 5 estados.

mod 3 Estados mod 4 Estados mod 5 Estados

mod 2 Estados 3.36 2545.85 390147608.00

mod 3 Estados 766.05 125542040.00

mod 4 Estados 128023.00

Tabla 5-9.: Comparacion resultados Factor de Bayes para los PHMM.

Finalmente de la anterior Tabla se concluye que el modelo mas apropiado es el de orden 2 pues

fue el unico que vencio en todos sus contrastes. Para este analisis se corrieron 5.000 iteraciones

con 3 cadenas y las primeras 2.500 iteraciones de calentamiento adelgazando la cadena cada 3

iteraciones; con tasa de aceptacion para la funcion objetivo en el metropolis de 0.99. Note que

muchos de los valores utilizados son bastante pequenos, pues NUTS tiene la ventaja de necesitar

pocas iteraciones para eliminar la autocorrelacion propia de las cadenas de Markov, sin embar-

go mas adelante se utilizan pruebas estadısticas que determinan si los valores muestreados son

apropiados. A continuacion mostramos las estimaciones bayesianas de los parametros del PHMM

esto incluye la matriz de transicion y el vector de medias de los estados dependientes:

Media Err.Sta Desv 2.5 % 25 % 50 % 75 % 97.5 % n e R

a11 0.953 0.001 0.032 0.873 0.935 0.961 0.977 0.994 2491.677 1.000

a12 0.047 0.001 0.032 0.006 0.023 0.039 0.065 0.127 2491.677 1.000

a21 0.099 0.001 0.065 0.014 0.051 0.084 0.133 0.257 2417.781 1.000

a22 0.901 0.001 0.065 0.743 0.867 0.916 0.949 0.986 2417.781 1.000

λ1 29.715 0.018 0.871 28.097 29.111 29.684 30.299 31.460 2456.451 1.001

λ2 62.849 0.039 1.961 59.068 61.491 62.811 64.184 66.735 2560.484 1.000

lp -210.558 0.030 1.426 -214.125 -211.268 -210.260 -209.512 -208.739 2200.204 1.002

Tabla 5-10.: Estimacion bayesiana de los parametros para un PHMM.

Para cada parametro estimado a partir de las muestras obtenidas por MCMC se calculo, la media

de las tres cadenas fusionadas. Tambien se calculo el error estandar que nos indica la desviacion

estandar de las estimaciones con respecto al valor real de los parametros. A partir de los valores

obtenidos de las tres cadenas, se calculo la desviacion estandar, que para este caso indica una

Page 92: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 75

Año

Núm

ero

1960 1970 1980 1990 2000 2010 2020

2030

4050

6070

80

20 40 60 800.

000.

010.

020.

030.

040.

050.

0620 40 60 80

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Figura 5-8.: Algoritmo Viterbi aplicado a un PHMM de dos estados.

dispersion muy pequena para la m.t.p. y el vector de medias de los estados dependientes. Se

calcularon los intervalos de credibilidad al 95 %, y la mediana de las estimaciones que como vemos

distan muy poco de la media, lo que indica que en el proceso de muestreo no hubo valores atıpicos

o extremos.

La ultima lınea de esta salida, lp, es el logaritmo de la densidad posterior (no normalizada) calcu-

lada por Stan. Esta log densidad puede utilizar de varias maneras, por ejemplo para la evaluacion

y comparacion de modelos. La penultima columna es n e es el tamano de muestra efectivo y R

es el valor de un estadıstico que se explica mas adelante.

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Tabla 5-11.: Resultados de la decodicacion global bayesiana para el PHMM de orden 2, con el

algoritmo Viterbi.

Hay dos estadısticas de diagnostico realmente importantes ocultas en este resumen:

n eff : Es el tamano efectivo de la muestra.

R: Es la “estadıstica de reduccion de escala de potencial de Gelman y Rubin”.

n eff mide el tamano de muestra efectivo de ese parametro en particular. Recuerde que cada

iteracion del HMC se basa en el valor del parametro de la iteracion anterior. Si el algoritmo fun-

ciona correctamente, el parametro elegido en la siguiente iteracion sera independiente del valor

Page 93: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

76 5 Resultados

del parametro inicial (esto es lo que hace el “adelgazamiento” en los metodos MCMC y en el HMC).

Sin embargo, si el HMC no esta realizando un trabajo muy eciente al muestrear el espacio de

parametros, es mas probable que los valores de los parametros para una iteracion dada esten cer-

ca a los valores de los parametros en la ultima iteracion. Esto signica que estos parametros no

son realmente independientes. Por ejemplo si se obtienen 1000 muestras de una distribucion a

posteriori, el numero de muestras verdaderamente “independientes.es

menor.

Entonces, n eff es la cantidad de muestras efectivamente independientes en todas las cadenas.

En este caso, tenemos 3 cadenas, con 5000 iteraciones, la mitad de las cuales son de calentamiento,

lo que signica que muestreamos 2500 iteraciones en cada cadena, por lo que el maximo n eff

posible es de 7500.

De la Tabla 5-10, se observa que para las estimaciones de cada uno de los parametros el tamano

de muestra efectivo (n e), esta alrededor de 2500 de 7500 posibles, considerando que se hizo un

periodo de burning de 2500 muestras, se muestreo aproximadamente la mitad de las iteraciones.

Hay Hay una forma sencilla para vericar si el numero de muestras efectivas por iteracion es el

adecuado; si n eff/n < 0.001 se debe sospechar del calculo efectivo del tamano de la muestra.

Por ejemplo para lp : 2200/7500 = 0.293 es decir el tamano de muestra efectivo parece ser ade-

cuado. Sin embargo tecnicas mas sosticadas como el estadıstico R nos ayuda a saber si estos

parametros estan bien muestreados. Mas o menos R dice si cada una de las cadenas ha alcanzado

o no una distribucion a posteriori estable, a pesar de comenzar con diferentes valores iniciales.

Gelman recomienda que R para cada parametro sea inferior a 1.1. En la parte izquierda de la gura

Estado 1 Estado 2 Estado

2019 0.9533 0.0467 1

2020 0.9134 0.0866 1

2021 0.8793 0.1207 1

2022 0.8502 0.1498 1

2023 0.8253 0.1747 1

2024 0.8040 0.1960 1

2025 0.7859 0.2141 1

2026 0.7703 0.2297 1

2027 0.7571 0.2429 1

2028 0.7457 0.2543 1

2029 0.7361 0.2639 1

2030 0.7278 0.2722 1

2031 0.7207 0.2793 1

2032 0.7147 0.2853 1

2033 0.7095 0.2905 1

2034 0.7051 0.2949 1

Tabla 5-12.: Prediccion bayesiana para las probabilidades de los estados hasta un rezago h = 16.

Page 94: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 77

5-8 y en la Tabla 5-11, se muestra la decodicacion global de la secuencia de estados mas proba-

bles, para la serie homicidios en Colombia. Como se vio en secciones pasadas el algoritmo Viterbi

funciona de forma recursiva; encontrando el estado mas probable al tomar el maximo sobre todas

las posibles secuencias de estados anteriores. Para la secuencia de observaciones homicidios en

Colombia tanto el modelos clasico como el modelo bayesiano de dos estados, dieron exactamente

los mismos resultados. Mientras que la parte derecha de la gura 5-8 muestra las distribuciones

marginales, utilizadas para hacer el pronostico de las distribuciones para un rezago h dado.

La Tabla 5-12 muestra, las probabilidades correspondientes a la prediccion de los rezagos para

un h ∈ N. El error de la prediccion aumenta a medida que crece el horizonte en el tiempo, por

ejemplo para los dos proximos anos 2019 y 2020, la probabilidad de estar en el estado 1 es mayor

al 90 % mientras que para los anos 2033 y 2034, la probabilidad de estar en el estado 1 se reduce

a un 70 %. El pronostico indica que los proximos 16 anos se espera que la tasa de homicidios se

encontrara en el estado 1, es decir alrededor 30 muertes por cada 100.000 habitantes.

Diagnosticos de la cadena

En esta seccion se vericara el diagnostico de convergencia de las cadenas utilizadas en la extrac-

cion de las muestras. Para los metodos MCMC ajustados con Stan, ya sea el Monte Carlo Hamil-

toniano (HMC) o No-U-Turn-Sampler (NUTS), el paquete bayesplot y coda, cuenta con una serie

de herramientas gracas y pruebas diagnosticas para despues del ajuste de modelos bayesianos.

El graco de trazas de la gura 5-9, muestra por cada una de las iteraciones los valores mues-

treados correspondiente a una o mas cadenas de Markov, separado por parametro. Las cadenas

proporcionan una forma visual para inspeccionar el comportamiento de muestreo y evaluar la

mezcla a traves de las cadenas y la convergencia. Las tres cadenas utilizadas para muestrear los

valores de la m.t.p A y el vector de medias de los estados dependientes λ, parecen comportarse

de manera estacionara con un mınimo de muestras divergentes, mas adelante se comprobara esta

hipotesis con pruebas mas avanzadas.

La gura 5-11 muestra los histogramas univariados y diagramas de dispersion bivariados para

los parametros de la matriz de transicion de probabilidad y para el vector de medias de los estados

dependientes, especialmente util para identicar la colinealidad entre variables (que se maniesta

como gracos bivariados estrechos), ası como la presencia de no-identicabilidad multiplicativa

(formas tipo platano). En sentido estricto, la no identicabilidad signica que dos valores de los

parametros dan como resultado la misma distribucion de probabilidad de los datos observados.

Algunas veces tambien se usa para cubrir situaciones en las que no hay un maximo local unico de

la densidad posterior, ya sea porque hay multiples maximos separados o porque hay una meseta

donde un conjunto de puntos tiene la misma densidad posterior (estos pueden o pueden No ser

identicable en sentido estricto). Segun la gura 5-11 parece no haber problemas con la identi-

cabilidad, es decir que no existen problemas que senalen divergencias, lo unico que se observa es

colinealidad entre los parametros de las las de la matriz de transicion, sin embargo recordemos

por denicion que la suma de las las de la m.t.p. suman 1, por lo tanto estan de por si correlacio-

Page 95: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

78 5 Resultados

nadas. En consecuencia el modelo es identicable y nos estamos asegurando que las inferencias

no estan sesgadas.

A[2,2] lambda[1] lambda[2]

A[1,1] A[1,2] A[2,1]

2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000

2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000

0.0

0.1

0.2

0.3

0.4

55

60

65

70

0.00

0.05

0.10

0.15

28

30

32

0.85

0.90

0.95

1.00

0.6

0.7

0.8

0.9

1.0

chain

1

2

3

Figura 5-9.: Graco de trazas de las cadenas, para cada iteracion y por cadena.

Los intervalos de credibilidad de la gura 5-10, para los parametros calculados a partir de las

muestras aposterioris con todas las cadenas fusionadas. Los resultados indican valores consis-

tentes en las estimaciones de los parametros, pues la longitud del intervalo es bastante pequena

como se mostrara mas adelante.

La prueba de convergencia de la Tabla 5-13 utiliza la estadıstica de Cramer-von-Mises para probar

la hipotesis nula de que los valores muestreados provienen de una distribucion estacionaria. La

prueba se aplica sucesivamente, primero a toda la cadena, luego, despues de descartar el primer

10 %, 20 %, … de la cadena hasta que se acepte la hipotesis nula, o se haya descartado el 50 % de

la cadena. El ultimo resultado constituye un fallo de la prueba de estacionariedad e indica que se

necesita una ejecucion MCMC mas larga. Si se pasa la prueba de estacionariedad, se informa el

numero de iteraciones a mantener y el numero a descartar.

La prueba de medio ancho calcula un intervalo de conanza del 95 % para la media, utilizando

la parte de la cadena que paso la prueba de estacionariedad. La mitad del ancho de este intervalo

Page 96: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 79

A[2,2]

A[2,1]

A[1,2]

A[1,1]

0.00 0.25 0.50 0.75 1.00

lambda[2]

lambda[1]

30 40 50 60 70

Figura 5-10.: Intervalos de credibilidad al 0.95 PHMM.

se compara con la estimacion de la media. Si la relacion entre la mitad del ancho y la media es

menor que ε, se pasa la prueba de medio ancho. De lo contrario, la longitud de la muestra no se

considera lo sucientemente larga como para estimar la media con suciente precision.

P. Estacionariedad Valor p Prueba Media Medio.Ancho

a11 paso 0.396 paso 0.953 0.001

a21 paso 0.978 paso 0.099 0.002

a12 paso 0.396 paso 0.047 0.001

a22 paso 0.978 paso 0.901 0.002

λ1 paso 0.569 paso 29.701 0.034

λ2 paso 0.862 paso 62.742 0.079

lp paso 0.440 paso -210.525 0.062

Tabla 5-13.: Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la con-

vergencia de la cadena y prueba de medio ancho para la media calculando el inter-

valo de conanza al 0.95.

Page 97: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

80 5 Resultados

0.800.850.900.951.00

A[1,1]

0.85

0.90

0.95

1.00

0.000.050.100.15

0.85

0.90

0.95

1.00

0.00.10.20.30.4

0.85

0.90

0.95

1.00

0.60.70.80.91.0

0.85

0.90

0.95

1.00

28 30 32

0.85

0.90

0.95

1.00

60 64 68

0.00

0.05

0.10

0.15

0.850.900.951.00 0.000.050.100.150.20

A[1,2]

0.00

0.05

0.10

0.15

0.00.10.20.30.40.00

0.05

0.10

0.15

0.60.70.80.91.00.00

0.05

0.10

0.15

28 30 320.00

0.05

0.10

0.15

60 64 68

0.0

0.1

0.2

0.3

0.4

0.850.900.951.000.0

0.1

0.2

0.3

0.4

0.000.050.100.15 0.0 0.1 0.2 0.3 0.4

A[2,1]

0.0

0.1

0.2

0.3

0.4

0.60.70.80.91.00.0

0.1

0.2

0.3

0.4

28 30 320.0

0.1

0.2

0.3

0.4

60 64 68

0.6

0.7

0.8

0.9

1.0

0.850.900.951.000.6

0.7

0.8

0.9

1.0

0.000.050.100.150.6

0.7

0.8

0.9

1.0

0.00.10.20.30.4 0.6 0.7 0.8 0.9 1.0

A[2,2]

0.6

0.7

0.8

0.9

1.0

28 30 32

0.6

0.7

0.8

0.9

1.0

60 64 68

27282930313233

0.850.900.951.0027282930313233

0.000.050.100.1527282930313233

0.0 0.1 0.2 0.3 0.427282930313233

0.6 0.7 0.8 0.9 1.0 28 30 32

lambda[1]

28

30

32

60 64 68

55

60

65

70

0.850.900.951.0055

60

65

70

0.000.050.100.1555

60

65

70

0.0 0.1 0.2 0.3 0.455

60

65

70

0.6 0.7 0.8 0.9 1.055

60

65

70

27282930313233 55 60 65 70

lambda[2]

Figura 5-11.: Graco de dispersion para las muestras MCMC.

Page 98: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 81

Comparacion PHMM clasico vs Bayesiano

Para realizar la inferencia para los parametros bajo el enfoque clasico se calcularon los intervalos

de conanza. Para calcular los IC exactos se necesita estimar la matriz de varianzas y covarianzas

de los parametros Θ = (A, λ), y los errores estandar pueden ser calculados a partir de la matriz

Hessiana maximizando la log-verosimilitud sin embargo este enfoque tiene dicultades cuando

algunos de los parametros estan en el lımite de su espacio de parametros, lo que ocurre con bas-

tante frecuencia cuando se ajustan los HMM. (Cappe et al. 2005, cap. 12) demostro que bajo ciertas

condiciones de regularidad, los EMV de los parametros de los HMM son consistentes, ecientes

y asintoticamente normales. Por lo tanto, si se pueden estimar los errores estandar de los EMV,

se puede utilizar normalidad asintotica, para calcular los intervalos de conanza aproximados.

El problema es que en la mayorıa de modelos con mezclas independientes, las condiciones de

regularidad no se cumplen ademas de la restriccion para conjuntos de datos pequenos, pues para

aplicar teorıa asintotica n debe ser bastante grande.

El metodo bootstrap descrito en MacDonald & Zucchini (2009, cap. 3.6) fue desarrollado por Efron

& Tibshirani (1993), y surge como alternativa para estimar el valor de los intervalos de conan-

za directamente, siendo esta una tecnicas de remuestreo disenadas para aproximar la funcion de

distribucion de probabilidad de los datos mediante una funcion empırica de una muestra nita.

El boostrap parametrico tambien llamado “metodo de percentil”, en terminos generales, busca

estimar la matriz de varianza-covarianza del modelo con parametros Θ para evaluar las propie-

dades del modelo con parametros Θ. Para estimar los intervalos de conanza, se utilizo la fun-

cion pois.HMM.generate sample(n, modelo) del paquete Bayeshmmcts, que lo que hace es generar

realizaciones de longitud n de un modelo HMM. Entonces a partir del PHMM de 2 estados se

generaron 250 muestras independientes con longitud 59 igual a la serie homicidios en Colombia,

para calcular la matriz de varianzas-covarianzas y a partir de esta los respectivos IC.

Intervalos de Credibilidad Intervalos de Conanza

Parametros Media 2.5 97.5 Ancho Media 2.5 97.5 Ancho

a11 0.953 0.873 0.994 0.120 0.980 0.844 1.000 0.156

a21 0.099 0.014 0.257 0.244 0.064 0.015 1.000 0.985

a12 0.047 0.006 0.127 0.120 0.020 0.000 0.156 0.156

a22 0.901 0.743 0.986 0.244 0.936 0.000 0.985 0.985

λ1 29.715 28.097 31.460 3.363 29.716 27.689 31.648 3.959

λ2 62.849 59.068 66.735 7.667 62.813 30.140 68.497 38.357

Tabla 5-14.: Intervalos de Credibilidad y Conanza para el PHMM de 2 estados.

Mientras que los intervalos de credibilidad son los mismos de la Tabla 5-10 fueron calculados

utilizando NUTS a partir de las distribuciones a posteriori de los parametros de las muestras ge-

neradas por MCMC. Nota: Para los intervalos de conanza y credibilidad el α se jo en 5 %.

Page 99: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

82 5 Resultados

Para determinar cual de estos metodos es mas ecaz, y observar el comportamiento de los inter-

valos propuestos, se utilizo el ancho del intervalo. Un buen metodo debe tener valores pequenos

para el valor esperado y varianza de la longitud del intervalo; con probabilidades de cobertura

cercanas a los niveles de conanza nominal. La longitud del intervalo indica la precision de las

estimaciones, se muestran en la Tabla 5-14, junto con la media de las estimaciones en el caso

Bayesiano y el estimador de maxima verosimilitud para el caso clasico. Los resultados obtenidos

indican que los intervalos de credibilidad presentan una menor longitud es decir mayor precision.

Por lo que en este caso podrıamos decir que las estimaciones bayesianas son mas precisas y por

lo tanto el enfoque bayesiano parece ser el mas apropiado. Finalmente, aunque el intervalo de

credibilidad diere de la interpretacion del intervalo de conanza, permite juzgar la incertidum-

bre estadıstica para la tasa de homicidios suponiendo el PHMM subyacente valido. Mientras el

intervalo de conanza indica que el 95 % de los intervalos de conanza generado por un mismo

procedimiento incluyen el verdadero valor del parametro. El intervalo de credibilidad representa

con una probabilidad del 95 % que el intervalo incluya el verdadero valor de la poblacion objetivo

siempre que el modelo adoptado sea valido.

Page 100: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 83

5.1.3. Modelo Oculto de Markov - Poisson Cero inflado

En esta seccion utilizaremos, los datos de incendios forestales en Colombia, desde enero del 2001

hasta diciembre del 2016. La variable de interes es el numero de grandes incendios forestales (GIF),

que son aquellos incendios que superan las 500 hectareas forestales afectadas. La periodicidad de

los datos es mensual con un total 180 observaciones y pueden visualizarse en la Tabla 5-2. Allı

observamos que hay una alta proporcion de ceros en los datos, pues de las 180 observaciones

57 son cero, es decir el 31.7 % de los datos registrados. Por otra parte el numero maximo de GIF

ocurridos en un mes en Colombia fue de 103 para el mes de Enero del 2010, lo cual es preocupante;

pues aunque los incendios forestales naturales han ocurrido desde siempre como un elemento

normal en el funcionamiento de los ecosistemas, si estos se expanden de manera descontrolada

ocasionan un impacto social y ambiental, aumentando los niveles de dioxido de carbono en la

atmosfera, contribuyendo al efecto invernadero y al cambio climatico. El fuego ha permitido la

regeneracion de diversos ecosistemas y la produccion de una serie de habitats en los que distintos

organismos pueden prosperar. No obstante notemos que el promedio de GIF se ubico en 1.3±3.5

incendio por mes, haciendo que la enorme proliferacion de los incendios a causa de la actividad

humana en estas ultimas decadas sobrepasa la capacidad de recuperacion natural.

Año

Núm

ero

020

4060

8010

0

2002 2004 2006 2008 2010 2012 2014 2016

Figura 5-12.: Serie de tiempo Grandes Incendios Forestales en Colombia desde el ano 2002 hasta

el ano 2016.

Page 101: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

84 5 Resultados

En la gura 5-12, se observan dos picos altos en el 2007 y el 2010. Despues del ano 2011 la cero in-

acion disminuye considerablemente y el numero de incendios en gran parte de los meses parece

estar por encima de 5, este fenomeno se presenta de manera recurrente en gran parte del paıs,

en especial durante los periodos secos prolongados, durante los cuales los ecosistemas tropicales

humedos y muy humedos pierden parte de los contenidos de humedad supercial e interior, in-

crementando sus niveles de susceptibilidad y amenaza hacia la combustion de la biomasa vegetal

que los compone. En la Tabla 5-2 se encuentran todos los datos de GIF en Colombia. Para de-

terminar si existe correlacion entre los GIF de cada mes, se calcula la funcion de autocorrelacion

muestral, la gura 5-13 indica no solo la existencia de la dependencia serial sino una estructura

estacional.

0 1 2 3 4 5 6

−0.

20.

00.

20.

40.

60.

81.

0

Rezago

AC

F

0 1 2 3 4 5 6

−0.

20.

00.

20.

40.

60.

81.

0A

CF

0 20 40 60 80 100

0.00

0.02

0.04

0.06

N = 180 Bandwidth = 3.15

Den

sida

d

Figura 5-13.: Funcion de autocorrelacion muetral, y kernel de densidad para la serie Grandes

Incendios Forestales en Colombia (2002-2016).

Al revisar la Tabla 5-2, identicamos que la mayorıa de grandes incendios forestales ocurrieron

en el primer semestre y en segundo lugar en el tercer semestre del ano. Lo cual coincide con el

informe del IDEAM, sequıa meteorologica y sequıa agrıcola en Colombia: Incidencia y Tenden-

cias, donde se identico de manera general que en Colombia el primer semestre es poco lluvioso,

debido a la sequıa meteorologica2

y a la sequıa estacional.3

Finalmente el IDEAM concluye, que

2Sequıa Meteorologica: Se reere exclusivamente a la escasez de lluvia durante un perıodo determinado

3Sequıa Estacional: Se relaciona con el comportamiento climatico en los patrones de circulacion. Generalmente se

presenta invariablemente cada ano, durante los mismos meses.

Page 102: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 85

la intensidad y extension territorial de la sequıa, esta estrechamente ligada con la aparicion de

un evento El Nino, dado que los anos de mayor incidencia, son aquellos en que tiene lugar el

fenomeno.

La densidad para la serie GIF de la gura 5-13, muestra diferentes picos, concentrandose los va-

lores principalmente entre cero y diez. Lo cual hace difıcil identicar a simple vista la cantidad

de estados que tendrıa el HMM ajustado.

Ajuste del ZIP-HMM

Se ajustaron seis modelos ZIP-HMM con 2 a 6 estados, utilizando el paquete ziphsmm creado por

Zekun Xu, que permite ajusar modelos ocultos de Markov - Poisson Cero Inados, estimando

los parametros vıa directa minimizacion de la funcion − log verosimilitud usando el algoritmo

descenso del gradiente. Se utilizo el metodo de Nelder-Mead con 1.000 iteraciones con el n de

evitar maximos locales. En la Tabla 5-15 se registro para cada modelo el numero de parametros

estimados p, la log-verosimilitud, el criterio de informacion de Akaike (AIC) y el criterio de in-

formacion bayesiano (BIC).

Para seleccionar el modelo mas apropiado, se debe escoger el mınimo valor del AIC, en este caso

es el ZIP HMM de 6 estados con un Akaike de 1101, sin embargo el criterio de Schwarz con un

valor de 1176 indica que el modelo mas apropiado es el de orden 4, esta es una dicotomıa que

puede presentarse en ocasiones. Sin embargo decidimos escoger como criterio el BIC para la se-

leccion del modelo por dos razones principalmente. Primero porque el BIC generalmente penaliza

parametros libres con mas fuerza de lo que lo hace el Akaike, y segundo porque para calcular el

modelo de 6 estados es necesario estimar el doble de parametros con respecto al de 4, haciendo-

lo mas costoso computacionalmente, pues con cada estado adicional el numero de parametros a

estimar crece de manera sustancial.

Modelo p logL AIC BIC

1 ZIP HMM - 2 Estados 6 764.61 1541.23 1560.39

2 ZIP HMM - 3 Estados 12 592.81 1209.62 1247.94

3 ZIP HMM - 4 Estados 20 536.07 1112.15 1176.014 ZIP HMM - 5 Estados 30 521.87 1103.74 1199.53

5 ZIP HMM - 6 Estados 42 508.60 1101.20 1235.31

6 ZIP HMM - 7 Estados 56 510.79 1133.58 1312.39

Tabla 5-15.: Datos incendios: comparacion de modelos ocultos de Markov (Cero inados) por

AIC y BIC.

En la gura 5-14 se puede visualizar de una manera mas clara el cambio en las magnitudes de los

criterios de informacion, para los modelos ZIP-HMM con diferentes estados. Para el Akaike no

parece haber diferencias importantes entre los modelos de 4, 5 o 6 estados, mientras que el BIC

sugiere que los modelos de 4 o 5 estados serıan los mas apropiados.

Page 103: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

86 5 Resultados

2 3 4 5 6 7

1000

1200

1400

1600

Número de estados

AIC

BIC

Figura 5-14.: Serie incendios: seleccion de modelos AIC y BIC.

A continuacion se muestran las estimaciones de la m.t.pA para el ZIP-HMM de orden 4, junto con

el vector de medias de los estados dependientes λ, la distribucion estacionaria π y el parametro de

proporcion de cero inacion θ. Este modelo asume que la cero inacion solo ocurre en el estado

1, es por esos que al observar a λ el vector de medias de estado-dependientes λ1 tiene el valor

mas pequeno. De la m.t.p. A se deduce, que si se esta en el estado 1, lo mas probables es seguir

en este mismo estado con un valor de 82 %, mientras lo mas improbables es pasar del estado 1

al 4 con una probabilidad del 0.001. Para el ZIP-HMM estacionario de 4 estados, π2 indica que lo

mas factible es iniciar en el estado 2 con un 99 % de probabilidad, y a21 de la t.p.m. indica que lo

mas probables es pasar al estado 1 con un valor de 48 %. La proporcion de cero inacion θ para

la series GIF es de 44 %, asumiendo la cero inacion solo para el primer estado.

A =

0.820 0.154 0.025 0.001

0.483 0.335 0.131 0.050

0.168 0.329 0.499 0.004

0.004 0.329 0.346 0.320

λ = (2.763, 15.114, 43.147, 99.306) π = (0.002, 0.997, 0.001, 0.000) θ = 0.4440

Page 104: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 87

2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1

1 2 1 1 1 1 1 1 2 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1

2 4 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

2 2 3 2 1 2 4 4 3 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 2 2 1 1 1

2 2 2 1 1 1 3 3 3 1 1 1 3 3 3 2 1 1 2 2 3 2 1 1 2 3 2 2 1 1

3 3 3 1 1 1 2 2 2 1 2 1 2 3 3 2 1 2 3 3 3 2 1 1 1 2 2 1 1 1

Tabla 5-16.: Resultados de la decodicacion global con el algoritmo Viterbi, para el ZIP HMM.

Año

Núm

ero

2005 2010 2015

020

4060

8010

0

Figura 5-15.: Algoritmo Viterbi aplicado al ZIP-HMM de cuatro estados.

En la Tabla 5-16 se muestra la decodicacion global y en la gura 5-15, se gracaron los estados

para cada observacion. El estado 4 tiene una media de λ4 = 99, con 3 observaciones correspon-

dientes a los GIF de febrero del 2007, enero del 2010 y febrero del 2010. Mientras que el estado 3

con una media de 43 tiene 18 incendios, de los cuales la mayorıa ocurrieron en el tercer semestre

del ano, es decir en los meses julio, agosto y septiembre. En el estado 2 se clasicaron 41 incen-

dios con media de 15 y se identicaron que la mayorıa de estos incendios ocurrieron en el primer

semestre. Finalmente para el estado 1 con una media de 2.8 hubo 118 observaciones de los cuales

57 fueron GIF y ocurrieron en su mayorıa en el ultimo trimestre. El algoritmo Viterbi nos termina

de vericar que la serie tiene perıodos estacionales.

Page 105: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

88 5 Resultados

Estimacion Bayesiana del ZIP HMM

Analogamente al caso de la serie homicidios a la cual se ajusto un PHMM, para la serie de homici-

dios se determinara el modelo mas apropiado utilizando el factor de bayes. Para esto se ajustaron

un total de seis modelos con estados 2, 3, 4, 5, 6 y 7. Como vimos anteriormente el factor de Ba-

yes permite evaluar los datos a favor de una hipotesis nula y utilizar informacion externa para

hacerlo. Dando peso de la evidencia a favor de una hipotesis dada.

Utilizando la notacion del factor de Bayes que notamos como B01 al contrastar dos hipotesis, H0

(la hipotesis nula) y H1 (la hipotesis alternativa), que se dene matematicamente como:

B01 =verosimilitud de los datos dado H0

verosimilitud de los datos dado H1

=P (D|H0)

P (D|H1)

Utilizando otra vez la interpretacion del factor de Bayes, que se encuentra en la Tabla 5-8, y

recordando que las las de la Tabla 5-17 corresponden a H0 y las columnas son H1; se tiene: que

mod 3 Est. mod 4 Est. mod 5 Est. mod 6 Est. mod 7 Est.

mod 2 Est. 0.00 0.00 0.00 0.00 0.00

mod 3 Est. 0.00 0.00 0.00 0.00

mod 4 Est. 0.02 1.78 1513518.00

mod 5 Est. 81.23 84986740.00

mod 6 Est. 956226.00

Tabla 5-17.: Comparacion resultados Factor de Bayes para los ZIP HMM.

Tanto el modelo de 2 como el de 3 estados no son apropiados, al perder en todos su contrastes

pues el valor de 0 indica evidencia extrema para H1. Por otra parte los resultados para el modelo

de 4 estados, indican que es mas apropiado que el de 6 y 7 estados, mas no que el de 5 estados.

El modelo de 6 estados es mejor que el de 7, y por ultimo los modelos de 5 vencio en todos sus

contrastes. Se concluye que el ZIP-HMM mas apropiado es el de 5 estados y en segundo lugar

el ZIP-HMM de orden 4.Con el n de comparar los resultados obtenidos de las estimaciones del

ZIP-HMM clasico vs el bayesiano, se decide ajustar el modelo con 4 estados.

La salida que arroja Stan, en la primera columna, es la media de las estimaciones para los 21

parametros mas lp la log−verosimilitud sin la constante de normalizacion, seguido del error y la

desviacion estandar que para este caso son bastante pequenos es decir hay poca dispersion en las

estimaciones, seguidos de los intervalos de credibilidad alrededor de la media y la mediana que es

casi identica a los valores de la media especialmente para θ el parametro de cero inacion y para

el vector de medias; mientras en la m.t.p. la media varia ligeramente de la mediana en algunos de

los parametros. Para este modelo se ajustaron 2.000 iteraciones con tres cadenas, la mitad de ellas

se queman como calentamiento es decir que el numero maximo de muestras efectivas debiera

ser de 3.000, sin embargo ocurre algo extrano en varios de los parametros n eff > N . Segun el

manual de Stan esto signica que los muestras que produce Stan son mejores que las muestras

Page 106: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 89

independientes para esos parametros, o en otras palabras el muestreo realizado por NUTS es super

eciente, antitetico y con sobre relajacion (Geyer 2011), esto ocurre porque en cada iteracion es

eliminada la correlacion entre las muestras lo cual ocurre en casos extremadamente raros, para

mas informacion revise el manual o foro de Stan. Finalmente Gelman et al. indica que el tamano

de muestra efectivo utilizado es el adecuado si R es menor a 1.1, es decir que en este caso el

muestreo fue optimo.

Media Err.Sta Desv 2.5 % 25 % 50 % 75 % 97.5 % n e R

θ 0.449 0.001 0.050 0.351 0.414 0.449 0.483 0.545 5219.355 0.999

λ1 2.868 0.004 0.266 2.371 2.684 2.866 3.047 3.408 4810.999 0.999

λ2 15.369 0.012 0.775 13.859 14.830 15.361 15.874 16.877 4492.668 0.999

λ3 43.153 0.040 1.807 39.600 42.040 43.143 44.300 46.658 2036.872 1.001

λ4 99.235 0.145 6.120 87.428 95.445 99.219 103.236 110.912 1790.696 1.001

a11 0.795 0.001 0.037 0.719 0.772 0.797 0.821 0.861 4587.670 0.999

a12 0.158 0.000 0.034 0.098 0.134 0.156 0.180 0.231 4676.747 0.999

a13 0.034 0.000 0.017 0.009 0.022 0.032 0.044 0.076 4870.506 1.000

a14 0.013 0.000 0.011 0.000 0.005 0.010 0.018 0.040 3815.711 0.999

a21 0.470 0.001 0.079 0.318 0.415 0.469 0.523 0.630 5238.938 0.999

a22 0.328 0.001 0.077 0.192 0.272 0.325 0.380 0.482 5096.108 0.999

a23 0.146 0.001 0.058 0.053 0.104 0.140 0.183 0.274 4306.099 1.000

a24 0.056 0.001 0.037 0.008 0.029 0.049 0.076 0.147 4611.951 1.000

a31 0.188 0.001 0.082 0.056 0.127 0.179 0.238 0.376 5736.173 1.000

a32 0.331 0.001 0.099 0.151 0.261 0.325 0.396 0.537 5985.893 0.999

a33 0.436 0.001 0.100 0.249 0.367 0.434 0.504 0.634 5179.787 1.000

a34 0.045 0.001 0.043 0.001 0.013 0.032 0.063 0.161 3481.429 1.000

a41 0.137 0.002 0.119 0.004 0.045 0.102 0.200 0.435 4984.285 0.999

a42 0.309 0.002 0.163 0.055 0.182 0.287 0.421 0.658 5002.104 0.999

a43 0.280 0.002 0.162 0.041 0.155 0.253 0.388 0.639 4855.509 1.000

a44 0.274 0.002 0.157 0.037 0.152 0.252 0.376 0.630 4757.794 0.999

lp -565.076 0.096 3.098 -572.077 -566.969 -564.699 -562.881 -559.905 1032.526 1.007

Tabla 5-18.: Estimacion bayesiana de los parametros para un ZIPH-MM de 4 estados.

El graco de trazas en la gura 5-16 proporcionan una forma visual para inspeccionar el compor-

tamiento de muestreo en cada uno de los 21 parametros de forma independiente, los resultados

obtenidos indican que las muestras de los parametros se comportan de forma estable alrededor de

la media. A simple vista parece haber convergencia en la mezcla de las cadenas y estacionariedad.

Sin embargo mas adelante se utilizaran otros metodos estadısticos para evaluar el muestreo de

los parametros. Dado el caso de la no convergencia en algunos casos la solucion sera aumentar

el numero de iteraciones.

En la estadıstica bayesiana, un intervalo de credibilidad es el equivalente bayesiano del intervalo

de conanza. Este intervalo tien el dominio de una distribucion de probabilidad a posteriori o una

Page 107: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

90 5 Resultados

theta

A[4,1] A[4,2] A[4,3] A[4,4]

A[3,1] A[3,2] A[3,3] A[3,4]

A[2,1] A[2,2] A[2,3] A[2,4]

A[1,1] A[1,2] A[1,3] A[1,4]

lambda[1] lambda[2] lambda[3] lambda[4]

1000 1250 1500 1750 2000

1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000

1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000

1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000

1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000

1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 200070

80

90

100

110

120

0.00

0.02

0.04

0.06

0.0

0.1

0.2

0.3

0.0

0.1

0.2

0.3

0.0

0.2

0.4

0.6

0.8

35

40

45

0.00

0.03

0.06

0.09

0.0

0.1

0.2

0.3

0.2

0.4

0.6

0.8

0.0

0.2

0.4

0.6

0.8

14

16

18

0.10

0.15

0.20

0.25

0.1

0.2

0.3

0.4

0.5

0.6

0.2

0.4

0.6

0.0

0.2

0.4

0.6

0.8

2.0

2.5

3.0

3.5

0.70

0.75

0.80

0.85

0.90

0.2

0.3

0.4

0.5

0.6

0.7

0.0

0.2

0.4

0.0

0.2

0.4

0.6

0.3

0.4

0.5

0.6

chain

1

2

3

Figura 5-16.: Graco de trazas de las cadenas, para cada iteracion y por cadena en el ZIP-HMM.

Page 108: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 91

distribucion predictiva. Otra diferencia importante es que mientras en el intervalo de conanza

se trata el parametro como un valor jo y los lımites son variables aleatorias; en los intervalos

creıbles, el parametro estimado se trata como una variable aleatoria mientras que los lımites se

consideran jos.

Los intervalos de credibilidad al 95 % calculados para la estimacion de los parametros del ZIP-

HMM, se encuentran en la gura 5-17. En la graca de la izquierda se encuentra el parametro

de cero inacion θ, junto con las entradas de la matriz de transicion aij , ya que todos estos se

encuentran en la misma escala, es decir se mueven entre cero y uno, mientras que el vector de

medias λ > 0, se dibujo en el graco de la derecha. Se encontraron intervalos bastante compac-

tos, es decir que la longitud del intervalo es pequena en la mayorıa de los casos, exceptuando

las la tres y cuatro de la m.t.p., que presentan una asimetrıa y una dispersion considerable. Los

intervalos nos permiten un uso practico de que tan precisas son las estimaciones.

El paquete bayesplot, proporciona la funcion mcmc intervals basada en el metodo cuantil, que

estima a partir de las muestras a posteriori los intervalos de credibilidad con un nivel de proba-

bilidad jado por el usuario. Por lo tanto su implementacion es bastante sencilla.

A[4,4]A[4,3]A[4,2]A[4,1]A[3,4]A[3,3]A[3,2]A[3,1]A[2,4]A[2,3]A[2,2]A[2,1]A[1,4]A[1,3]A[1,2]A[1,1]theta

0.00 0.25 0.50 0.75

lambda[4]

lambda[3]

lambda[2]

lambda[1]

0 30 60 90 120

Figura 5-17.: Intervalos de credibilidad al 0.95 ZIP-HMM.

En la gura 5-18 se gracaron los histogramas univariados y los diagramas de dispersion bi-

variados para el vector de medias de los estados dependientes y el parametro de cero inacion.

De allı se concluye que no hay problemas de colinealidad, ni la presencia de no-identicabilidad

multiplicativa (formas tipo platano), o en terminos mas simples problemas de divergencias al mo-

mento de aplicar el No-U-Turn-Sampler (NUTS), y por lo tanto no estamos asegurando que las

inferencias sean apropiadas. Mientras que para la matriz de transicion de probabilidad, parece

Page 109: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

92 5 Resultados

haber problemas de colinealidad entre a11 con a12, y una ligera colinealidad entre a21 con a22 mas

no parecen haber problemas de no identicabilidad.

2.0 2.5 3.0 3.5

lambda[1]

2.0

2.5

3.0

3.5

14 16 182.0

2.5

3.0

3.5

35 40 452.0

2.5

3.0

3.5

80 90 1001101202.0

2.5

3.0

3.5

0.3 0.4 0.5 0.6

13

14

15

16

17

18

2.5 3.0 3.5 14 16 18

lambda[2]

14

16

18

35 40 45

14

16

18

80 90 100110120

14

16

18

0.3 0.4 0.5 0.6

35

40

45

2.5 3.0 3.5

35

40

45

13 14 15 16 17 18 35 40 45 50

lambda[3]

35

40

45

80 90 10011012035

40

45

0.3 0.4 0.5 0.6

70

80

90

100

110

120

2.5 3.0 3.570

80

90

100

110

120

13 14 15 16 17 1870

80

90

100

110

120

35 40 45 70 80 90 100110120

lambda[4]

80

90

100

110

120

0.3 0.4 0.5 0.6

0.3

0.4

0.5

2.5 3.0 3.50.3

0.4

0.5

13 14 15 16 17 180.3

0.4

0.5

35 40 450.3

0.4

0.5

70 80 90100110120 0.3 0.4 0.5 0.6

theta

Figura 5-18.: Graco de dispersion para las muestras MCMC del ZIP HMM.

Ademas se debe tener en cuenta que dada la restriccion

∑Kj=1 aij = 1, esto hace que los parame-

tros por la de la m.t.p. sean dependientes entre si. Sin embargo a continuacion se realizan prue-

bas mas sosticadas para determinar si el proceso de muestreo por NUTS, fue exitoso existen

diferentes metodologıas, tanto gracas como basadas en hipotesis.

Page 110: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 93

P. Estacionariedad Valor p Prueba Media Medio.Ancho

θ paso 0.928 paso 0.449 0.001

λ1 paso 0.645 paso 2.868 0.008

λ2 paso 0.689 paso 15.369 0.023

λ3 paso 0.477 paso 43.153 0.080

λ4 paso 0.594 paso 99.464 0.194

a11 paso 0.601 paso 0.795 0.001

a21 paso 0.504 paso 0.470 0.002

a31 paso 0.257 paso 0.188 0.002

a41 paso 0.611 paso 0.137 0.003

a12 paso 0.444 paso 0.158 0.001

a22 paso 0.356 paso 0.328 0.002

a32 paso 0.620 paso 0.331 0.002

a42 paso 0.992 paso 0.309 0.004

a13 paso 0.632 paso 0.034 0.000

a23 paso 0.786 paso 0.146 0.002

a33 paso 0.091 paso 0.436 0.003

a43 paso 0.462 paso 0.280 0.004

a14 paso 0.765 paso 0.012 0.000

a24 paso 0.234 paso 0.056 0.001

a34 paso 0.268 paso 0.045 0.001

a44 paso 0.583 paso 0.274 0.004

lp paso 0.175 paso -564.870 0.207

Tabla 5-19.: Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la con-

vergencia de la cadena y prueba de medio ancho para la media calculando el inter-

valo de conanza al 0.95.

La graca de traza en la gura 5-16 parece consistente, sin embargo la prueba de convergencia de

Heidel, permite determinar si los valores muestreados provienen de una distribucion estacionaria.

Por lo tanto se aplica esta prueba para cada uno de los parametros obtenidos por el ZIP-HMM y

se contrastan con la estadıstica de Cramer-von-Mises para un nivel de signicancia α = 0.05 jo,

donde la hipotesis nula es que la cadena es estacionaria. En todos los casos el valor p fue mayor

que 0.05 lo que indica que existe suciente evidencia estadıstica para no rechazar la hipotesis

nula, es decir que los valores muestreados ofrecen una estimacion conable al provenir de una

distribucion estacionaria. Tambien se utilizo la prueba de medio ancho, que calcula un intervalo

de conanza del 95 % para la media, y utiliza la parte de la cadena que paso la prueba de estacio-

nariedad, para determinar si la muestra fue lo sucientemente grande para estimar la media con

precision. Los resultados indican que efectivamente cada uno de los parametros aprobo la prueba

de medio ancho.

Page 111: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

94 5 Resultados

Comparacion ZIP-HMM clasico vs Bayesiano

Analogamente al caso del PHMM, la estimacion bajo el enfoque clasico se realizo utilizando boots-

trap, se generaron 100 muestras independientes de tamano 180 cada una a partir del ZIP-HMM

de cuatro estados para los datos de GIF en Colombia. Los valores iniciales usados fueron los esti-

mados por ZIP HMM de 4 estados con el n de evitar inestabilidad numerica, lo que permitio la

convergencia del algoritmo en pocas iteraciones y obtener de manera exitosa los errores estandar

y intervalos de conanza. En la Tabla 5-20 se encuentran registrados los resultados obtenidos,

con un α jo al 5 %.

Intervalos de Credibilidad Intervalos de Conanza

Parametros Media 2.5 97.5 Ancho Media 2.5 97.5 Ancho

θ 0.449 0.351 0.545 0.194 0.444 0.343 0.543 0.200

λ1 2.868 2.371 3.408 1.037 2.763 2.218 3.181 0.963λ2 15.369 13.859 16.877 3.017 15.115 13.853 16.409 2.556λ3 43.153 39.600 46.658 7.059 43.148 40.002 46.844 6.842λ4 99.235 87.428 110.912 23.485 99.306 38.082 109.076 70.994

a11 0.795 0.719 0.861 0.142 0.820 0.735 0.889 0.154

a21 0.470 0.318 0.630 0.313 0.483 0.317 0.680 0.363

a31 0.188 0.056 0.376 0.320 0.168 0.019 0.366 0.347

a41 0.137 0.004 0.435 0.431 0.004 0.000 0.006 0.006a12 0.158 0.098 0.231 0.133 0.154 0.089 0.221 0.131a22 0.328 0.192 0.482 0.290 0.335 0.184 0.500 0.316

a32 0.331 0.151 0.537 0.386 0.329 0.128 0.643 0.514

a42 0.309 0.055 0.658 0.603 0.329 0.000 0.996 0.996

a13 0.034 0.009 0.076 0.067 0.025 0.001 0.065 0.064a23 0.146 0.053 0.274 0.221 0.131 0.051 0.257 0.206a33 0.436 0.249 0.634 0.385 0.499 0.210 0.665 0.455

a43 0.280 0.041 0.639 0.598 0.346 0.000 0.998 0.997

a14 0.013 0.000 0.040 0.039 0.001 0.000 0.018 0.018a24 0.056 0.008 0.147 0.140 0.050 0.004 0.138 0.134a34 0.045 0.001 0.161 0.160 0.004 0.000 0.099 0.099a44 0.274 0.037 0.630 0.593 0.320 0.000 0.665 0.665

Tabla 5-20.: Intervalos de Credibilidad y Conanza para el ZIP HMM de orden 4.

Ambos intervalos (conanza y credibilidad) se relacionan con la precision de nuestra estimacion.

La forma mas comun para saber el desempeno del metodo, es calculando la longitud de este, don-

de se espera que el ancho sea lo mas pequeno posible. Los resultados se muestran en la Tabla

5-20, junto con la media de las estimaciones, tanto para el ZIP-HMM frecuentista como para el

Page 112: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

5.1 Aplicacion 95

bayesiano. De los 21 parametros estimados, el intervalo de credibilidad tuvo una longitud mas

pequena en 11 oportunidades y el intervalo de conanza en los 10 restantes. No parece haber

un ganador indiscutible, si embargo haciendo un analisis mas detallado por parametros se puede

decir lo siguiente. Para θ el parametro de cero inacion es mas pequena la longitud en el caso

bayesiano, para el vector de medias estado-dependientes λ en 3 de los cuatro valores gano el in-

tervalo de conanza, con un caso preocupante λ4 en el caso clasico el ancho es extremadamente

grande. Finalmente para los valores de la m.t.p. en 9 de los 16 intervalos estimados, el enfoque

bayesiano nuevamente es el vencedor. Tenga en cuenta que en la Tabla 5-20 no se analizo el com-

portamiento de los valores del vector de probabilidad inicial π, el cual se puede deducir facilmente

a partir de la m.t.p. A como se mostro en la seccion 2.1.2. En conclusion tanto desde el enfoque

clasico como bayesiano las estimaciones puntuales y por intervalo fueron muy parecidas, por lo

tanto no parece haber un metodo que sea evidentemente el mejor.

Nota: Tenga en cuenta que el ZIP-HMM bayesiano mas apropiado segun el factor de bayes era el

de 5 estados.

Page 113: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

6. Conclusiones y futuras investigaciones

Este capıtulo concluye la tesis. Se desarrollo la teorıa bayesiana para el PHMM y ZIP-HMM cons-

truyendo un paquete Bayeshmmcts, disponible en el repositorio de Github y proximamente en

el CRAN. Se mostro una aplicacion a dos conjuntos de datos reales, comparando los resultados

obtenidos desde la teorıa clasica y la bayesiana.

6.1. Conclusiones

El objetivo principal de esta tesis era desarrollar la teorıa bayesiana en los PHMM y ZIP’HMM.

El encontrar las estimaciones no fue una tarea facil, ya que las distribuciones a posteriori se

volvıan analıticamente intratables, como alternativa se utilizo Stan que permitio precompilar los

modelos en C++ y utiliza algoritmos altamente ecientes como el No-U-Turn Sampler (NUTS)

una extension de el metodo Monte Carlo Hamiltaniano.

Desde la teorıa clasica los criterios de informacion AIC y BIC permitieron escoger el modelo mas

apropiado penalizando a partir de la log verosimilitud y del numero de parametros, analogo a esta

metodologıa el factor de bayes fue la alternativa bayesiana que permitio a partir de hipotesis dar

evidencia del modelo oculto de Markov con el numero de estados apropiado.

Allı surgio otra dicultad, ya que para el calculo del factor de bayes era necesario estimar la vero-

similitud marginal a partir de la distribucion a posteriori, problema descrito como notoriamente

difıcil por algunos autores. Como alternativa Newton & Raery (1994), propusieron un estima-

dor de la media armonica de la verosimilitud, con el problema de ser un estimador con varianza

innita, y por esta razon se consideraba un problema no resuelto. En esta tesis se propuso como

alternativa una metodologıa innovadora, el muestreo por puente (bridge sampler) que dio esti-

maciones de la log verosimilitud marginal de manera consistente con un margen de error menor

al 5 %, ademas de su facil implementacion especialmente en modelos de alta complejidad como

lo son los HMM.

Ademas se compararon las estimaciones clasicas vs las bayesianas a partir de los intervalos de

conanza y de credibilidad respectivamente. Los resultados arrojaron que las estimaciones baye-

siana fueron mejores al enfoque frecuentista, con longitudes entre los intervalos menores en la

mayorıa de los casos en comparacion con la metodologıa clasica. Otra ventaja que proporcionaban

los modelos bayesianos es que no requerıan de valores iniciales para calcular las estimaciones,

mientras que en el modelo clasico era necesario dar valores iniciales a los parametros del modelo,

Page 114: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

6.2 Futuras Investigaciones 97

que en casos graves hacia que el modelo nunca convergiera o diera estimaciones erradas. Esta

fue la mayor desventaja de los paquetes que ajustan, los HMM clasicos en comparacion con los

modelos compilados en Stan, la dependencia en la calidad de las estimaciones segun los valores

iniciales dados por el usuario. Por otra parte la principal desventaja del enfoque bayesiano fue el

alto costo computacional, para el calculo de los modelos en comparacion a su contra parte clasica.

Finalmente se creo un paquete que permitiera a la comunidad interesada en la estadıstica baye-

siana y los HMM, ajustar facilmente el PHMM o ZIP-HMM a sus conjuntos de datos propios.

6.2. Futuras Investigaciones

La principal limitante del paquete elaborado en esta tesis, fue que los modelos ajustados no per-

miten incluir covariables, pues esto requiere un arduo trabajo ya que es necesaria la interaccion

con la matriz transicion de probabilidad para incluir esta nueva funcionalidad por esta razon se

deja como un proyecto futuro. Tambien se deja como futuro proyecto el programar todas las

funciones del paquete en lenguaje mas veloz como c++, esta integracion es posible utilizando el

paquete rcpp, de manera que estos algoritmos sean mas eciente y permitan disminuir el tiempo

de ejecucion de los calculos.

Serıa importante complementar algunos desarrollos teoricos que faltaron como la decodicacion

global de los estados a traves del algoritmo Viterbi para el ZIP- HMM bayesiano. Tambien se deja

como futura investigacion, el como calcular la prediccion de los estados futuros mas probables

para una secuencia de observaciones en el ZIP-HMM.

Finalmente un proyecto mas ambicioso serıa desarrollar la teorıa bayesiana para los HMM, con

las distribuciones mas importantes como la normal, binomial, beta, etc. Para luego desarrollar un

paquete en R disponible en el CRAN y/o Github para que puedan utilizar otros usuarios.

Page 115: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

A. Anexos

A.1. Codigos utilizados

A continuacion se anexa el codigo utilizado para el desarrollo de esta tesis, en la aplicacion del

PHMM con la base homicidios en Colombia y el ajuste del ZIP-HMM a la serie de datos Grandes

Incendios Forestales (GIF) en Colombia.

https://github.com/RafaelEduardoDiaz/Tesis/blob/master/Codigos.R

A.2. Paquete elaborado para esta tesis

El paquete elaborado para este tesis tiene el nombre Bayeshmmcts, contraccion de la palabra

Bayes Hidden Markov Model for count time series. La version en desarrollo puede ser descargado

del siguiente repositorio de Github.

https://github.com/RafaelEduardoDiaz/Bayeshmmcts

El paquete tiene mas de 20 funciones para el ajuste clasico y bayesiano del PHMM, incluyendo

el calculo de las probabilidades forward-backward, la decodiacion global de los estados con el

algoritmo Viterbi, estimacion de los parametros por directa maximizacion de la verosimilitud,

prediccion de los estados futuros y pronostico de la distribucion. Para el PHMM clasico ademas

se incluye el calculo del los criterios de informacion AIC y BIC, ademas de la vericacion de los

supuestos utilizando los pseudo residuales.

Para el ZIP HMM solo se encuentra disponible la version Bayesiana. Donde se utilizo Stan para

especicar y precompilar el modelo estadıstico en c++, el resultado es un objeto en S4, al cual

se le pueden aplicar diferentes funciones de otras librerıas como el estimador de la verosimilitud

marginal via muestreo por puente del paquete bridgesampling o diferentes gracos para modelos

bayesianos con el paquete bayesplot, ver por ejemplo bayesplot.

Page 116: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Bibliografıa

Albert, J. H. & Chib, S. (1993), ‘Bayes inference via gibbs sampling of autoregressive time series

subject to markov mean and variance shis’, Journal of Business & Economic Statistics 11(1), 1–

15.

Basawa, I. V. & Prakasa Rao, B. L. S. (1980), Statistical inference for stochastic processes / Ishwar V.Basawa and B.L.S. Prakasa Rao, Academic Press London ; New York.

Baum, L. E. & Petrie, T. (1966), ‘Statistical inference for probabilistic functions of nite state mar-

kov chains’, e annals of mathematical statistics 37(6), 1554–1563.

Baum, L. E., Petrie, T., Soules, G. & Weiss, N. (1970), ‘A maximization technique occurring in the

statistical analysis of probabilistic functions of markov chains’, Ann. Math. Statist. 41(1), 164–

171.

Berger, J. O. & Molina, G. (2005), ‘Posterior model probabilities via path-based pairwise priors’,

Statistica Neerlandica 59(1), 3–15.

Berhane, J. (2018), Zero-Inated Hidden Markov Models and Optimal Trading Strategies in High-

Frequency Foreign Exchange Trading, Bachelor’s thesis, KTH Royal Institute of Technology

School of Engineering Sciences.

Bickel, P. J., Ritov, Y., Ryden, T. et al. (1998), ‘Asymptotic normality of the maximum-likelihood

estimator for general hidden markov models’, e Annals of Statistics 26(4), 1614–1635.

Bilmes, J. A. et al. (1998), ‘A gentle tutorial of the em algorithm and its application to parameter

estimation for gaussian mixture and hidden markov models’, International Computer ScienceInstitute 4(510), 1–13.

Brockwell, A. (2007), ‘Universal residuals: A multivariate transformation’, Statistics & probabilityleers 77(14), 1473–1478.

Cappe, O., Moulines, E. & Ryden, T. (2005), Inference in Hidden Markov Models, Springer.

Cardona, M., Garcia, H. I., Alberto Giraldo, C., Lopez, M. V., Clara Mercedes, S., Corcho, D. C. &

Hernan Posada, C. (2005), ‘Escenarios de homicidios en medellın (colombia) entre 1990-2002’,

Revista Cubana de Salud Publica 31(3), 202–210.

Page 117: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

100 Bibliografıa

Celeux, G. & Durand, J.-B. (2008), ‘Selecting hidden markov model state number with cross-

validated likelihood’, Computational Statistics 23(4), 541–564.

Chaari, L., Pesquet, J.-C., Tourneret, J.-Y., Ciuciu, P. & Benazza-Benyahia, A. (2010), ‘A hierarchical

bayesian model for frame representation’, IEEE Transactions on Signal Processing 58(11), 5560–

5571.

Chao, W.-L., Solomon, J., Michels, D. & Sha, F. (2015), Exponential integration for hamiltonian

monte carlo, in ‘International Conference on Machine Learning’, pp. 1142–1151.

Chen, M.-H., Shao, Q.-M. & Ibrahim, J. G. (2012), Monte Carlo methods in Bayesian computation,

Springer Science & Business Media.

Chib, S. (1996), ‘Calculating posterior distributions and modal estimates in markov mixture mo-

dels’, Journal of Econometrics 75(1), 79–97.

Churchill, G. A. (1989), ‘Stochastic models for heterogeneous dna sequences’, Bulletin of Mathe-matical Biology 51(1), 79–94.

Congdon, P. (2006), ‘Bayesian model choice based on monte carlo estimates of posterior model

probabilities’, Comput. Stat. Data Anal. 50(2), 346–357.

URL: hp://dx.doi.org/10.1016/j.csda.2004.08.001

Consul, P. C. & Jain, G. C. (1973), ‘A generalization of the poisson distribution’, Technometrics15(4), 791–799.

Cox, D. R. & Snell, E. J. (1968), ‘A general denition of residuals’, Journal of the Royal StatisticalSociety: Series B (Methodological) 30(2), 248–265.

Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), ‘Maximum likelihood from incomplete data via

the em algorithm’, Journal of the Royal Statistical Society: Series B (Methodological) 39(1), 1–22.

DeSantis, S. M. & Bandyopadhyay, D. (2011), ‘Hidden markov models for zero-inated poisson

counts with an application to substance use’, Statistics in medicine 30(14), 1678–1694.

Didelot, X., Everi, R. G., Johansen, A. M., Lawson, D. J. et al. (2011), ‘Likelihood-free estimation

of model evidence’, Bayesian analysis 6(1), 49–76.

Dunn, P. K. & Smyth, G. K. (1996), ‘Randomized quantile residuals’, Journal of Computational andGraphical Statistics 5(3), 236–244.

Efron, B. & Tibshirani, R. J. (1993), An Introduction to the Bootstrap, number 57 in ‘Monographs

on Statistics and Applied Probability’, Chapman & Hall/CRC, Boca Raton, Florida, USA.

Franco, S., Suarez, C. M., Naranjo, C. B., Baez, L. C. & Rozo, P. (2006), ‘e eects of the armed

conict on the life and health in colombia’, Ciencia & Saude Coletiva 11, 1247–1258.

Page 118: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Bibliografıa 101

Fruhwirth-Schnaer, S. (2006), Finite mixture and Markov switching models, Springer Science &

Business Media.

Gamerman, D. & Lopes, H. F. (2006), Markov chain Monte Carlo: stochastic simulation for Bayesianinference, Chapman and Hall/CRC.

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A. & Rubin, D. B. (2013), Bayesiandata analysis, Chapman and Hall/CRC.

Geyer, C. J. (2011), ‘Introduction to markov chain monte carlo’, Handbook of markov chain montecarlo 20116022, 1–45.

Glassen, T. & Nitsch, V. (2016), ‘Hierarchical bayesian models of cognitive development’, Biologicalcybernetics 110(2-3), 217–227.

Grimme, G. & Stirzaker, D. (2001), Probability and random processes, Oxford university press.

Gronau, Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U., Marsman, M., Leslie, D. S., Forster,

J. J., Wagenmakers, E.-J. & Steingroever, H. (2017), ‘A tutorial on bridge sampling’, Journal ofmathematical psychology 81, 80–97.

Guorp, P. & Minin, V. N. (1995), Stochastic modeling of scientic data, CRC Press.

Hairer, E., Lubich, C. & Wanner, G. (2006), Geometric numerical integration: structure-preservingalgorithms for ordinary dierential equations, Vol. 31, Springer Science & Business Media.

Hamilton, J. D. (1989), ‘A new approach to the economic analysis of nonstationary time series

and the business cycle’, Econometrica: Journal of the Econometric Society pp. 357–384.

Hoeting, J. A., Madigan, D., Raery, A. E. & Volinsky, C. T. (1999), ‘Bayesian model averaging: a

tutorial’, Statistical science pp. 382–401.

Homan, M. D. & Gelman, A. (2014), ‘e no-u-turn sampler: adaptively seing path lengths in

hamiltonian monte carlo.’, Journal of Machine Learning Research 15(1), 1593–1623.

Jereys, H. (1961), eory of Probability, third edn, Oxford, Oxford, England.

Kass, R. E. & Raery, A. E. (1995), ‘Bayes factors’, Journal of the american statistical association90(430), 773–795.

L, S. S., James, G. M. & Sugar, C. A. (2005), ‘Hidden markov models for longitudinal comparisons’,

Journal of the American Statistical Association 100(470), 359–369.

Lambert, D. (1992), ‘Zero-inated poisson regression, with an application to defects in manufac-

turing’, Technometrics 34(1), 1–14.

Page 119: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

102 Bibliografıa

Lee, M. D. (2008), ‘ree case studies in the bayesian analysis of cognitive models’, PsychonomicBulletin & Review 15, 1–15.

Leroux, B. G. & Puterman, M. L. (1992), ‘Maximum-penalized-likelihood estimation for indepen-

dent and markov- dependent mixture models’, Biometrics 48(2), 545–558.

Lewis, S. M. & Raery, A. E. (1997), ‘Estimating bayes factors via posterior simulation with the

laplace—metropolis estimator’, Journal of the American Statistical Association 92(438), 648–655.

Linhart, H. & Zucchini, W. (1986), Model selection., John Wiley & Sons.

MacDonald, I. L. & Zucchini, W. (2009), Hidden Markov Models for Time Series: An IntroductionUsing R (Monographs on statistics and applied probability; 110), CRC press.

Meng, X.-L. & Hung Wong, W. (1996), ‘Simulating ratios of normalizing constants via a simple

identity: A theoretical exploration’, Statistica Sinica 6, 831–860.

Meng, X.-L. & Schilling, S. (2002), ‘Warp bridge sampling’, Journal of Computational and GraphicalStatistics 11(3), 552–586.

Mulder, J. & Wagenmakers, E.-J. (2016), ‘Editors’ introduction to the special issue “bayes factors

for testing hypotheses in psychological research: Practical relevance and new developments”’,

Journal of Mathematical Psychology 72, 1–5.

Neal, R. M. (1993), Bayesian learning via stochastic dynamics, in ‘Advances in neural information

processing systems’, pp. 475–482.

Neal, R. M. (2011), ‘Mcmc using hamiltonian dynamics’, Handbook of markov chain monte carlo2(11), 113–162.

Newton, M. & Raery, A. (1994), ‘Approximate bayesian inference by the weighted likelihood

bootstrap’, Journal of the Royal Statistical Society Series B-Methodological 56, 3 – 48.

Nikovski, D. (2000), ‘Constructing bayesian networks for medical diagnosis from incomplete and

partially correct statistics’, IEEE Transactions on Knowledge & Data Engineering 12(4), 509–516.

Olteanu, M. & Ridgway, J. (2012), Hidden markov models for time series of counts with excess

zeros, in ‘European Symposium on Articial Neural Networks’, pp. 133–138. hal-00655588.

Overstall, A. M. & Forster, J. J. (2010), ‘Default bayesian model determination methods for gene-

ralised linear mixed models’, Computational Statistics & Data Analysis 54(12), 3269–3288.

Paroli, R. (2002), Poisson hidden markov models for time series of overdispersed insurance counts,

in ‘di Milano, Universitb Caolica SC’, pp. 461–474.

Pecaut, D. (2003), Violencia y Politica en Colombia: Elementos de reexion, Hombre Nuevo Editores.

Page 120: Metodos Bayesianos para Modelos´ Ocultos de Markov en ...

Bibliografıa 103

Pi, M. A., Myung, I. J. & Zhang, S. (2002), ‘Toward a method of selecting among computational

models of cognition.’, Psychological review 109(3), 472.

Rabiner, L. & Juang, B. (1986), ‘An introduction to hidden markov models’, ieee assp magazine3(1), 4–16.

Rabiner, L. R. (1990), Readings in speech recognition, in A. Waibel & K.-F. Lee, eds, ‘University of

Michigan’, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, chapter A Tutorial on

Hidden Markov Models and Selected Applications in Speech Recognition, pp. 267–296.

Raery, Adrian E & Newton, M. A. . S. J. M. . K. P. N. (2006), ‘Estimating the integrated likelihood

via posterior simulation using the harmonic mean identity’, Memorial Sloan-Keering CancerCenter, Dept. of Epidemiology & Biostatistics Working Paper Series 6, 1–41.

Romberg, J. K., Choi, H. & Baraniuk, R. G. (2001), ‘Bayesian tree-structured image modeling using

wavelet-domain hidden markov models’, IEEE Transactions on image processing 10(7), 1056–

1068.

Rosenbla, M. (1952), ‘Remarks on a multivariate transformation’, e annals of mathematicalstatistics 23(3), 470–472.

Sco, S. L. (2002), ‘Bayesian methods for hidden markov models: Recursive computing in the 21st

century’, Journal of the American Statistical Association 97(457), 337–351.

Souza, E. R. d. & Lima, M. L. C. d. (2006), ‘e panorama of urban violence in brazil and its capitals’,

Ciencia & Saude Coletiva 11, 1211–1222.

Stadie, A. (2002), Uberprufung stochastischer Modelle mit Pseudo-Residuen, PhD dissertation,

Universitat Goingen.

Sundberg, R. (1974), ‘Maximum likelihood theory for incomplete data from an exponential family’,

Scandinavian Journal of Statistics pp. 49–58.

Wasserman, L. (2000), ‘Bayesian model selection and model averaging’, Journal of mathematicalpsychology 44(1), 92–107.

Wilkinson, D. J. (2007), ‘Bayesian methods in bioinformatics and computational systems biology’,

Briengs in bioinformatics 8(2), 109–116.

Wu, C. J. et al. (1983), ‘On the convergence properties of the em algorithm’, e Annals of statistics11(1), 95–103.

Zhang, Y. (2004), Prediction of nancial time series with Hidden Markov Models, PhD thesis,

Applied Sciences: School of Computing Science.

Zucchini, W. (2000), ‘An introduction to model selection’, Journal of mathematical psychology44(1), 41–61.