Inferência para Cadeias de Markov

Inferência para Cadeias de Markov

Nancy L. Garcia1

1UNICAMP, Brasil

2o. Semestre de 2012

Inferência clássica

Seja uma amostra aleatória X0,X1,X2, . . . ,Xn:I X0,X1,X2, . . . ,Xn são i.i.d.I distribuição de probabilidade conjunta:

P(X0 ∈ A0, . . . ,Xn ∈ An) =n∏

i=0

P(Xi ∈ Ai) =n∏

i=0

P(X ∈ Ai),

onde X tem a mesma distribuição das Xi ’s.Considere a sequência de v.a’s Xi.j onde Xi,j = 1 se chove noi-ésimo dia do j-ésimo ano e Xi,j = 0 se não chove no i-ésimodia do j-ésimo ano.Faz sentido pensar que estas v.a’s são i.i.d.?

Processos Estocásticos

Um processo estocástico é uma coleção de v.a’s

{Xt , α ∈ T}

onde T é um conjunto de índices que pode ser discretocontínuo. Em geral, T = N ou [0,∞).Neste caso, sempre é possível escrever a distribuição conjuntade um número finito destas v.a.’s

P(Xt0 ∈ A0, . . . ,Xtn ∈ An) =

P(Xt0 ∈ A0)n∏

i=1

P(Xti ∈ Ai |Xt0 ∈ A0, . . . ,Xti−1 ∈ Ai−1).

A teoria de Processos Estocásticos estuda diversasespecificações para as probabilidades condicionais acima eobtém resultados similares aos clássicos:

I Lei dos Grandes Números (Teorema Ergódico);I Teorema Central do Limite;I Lei Assintótica;I Estimação de máxima verossimilhança;I Testes de hipóteses;I Estimação não paramétrica.

I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.

I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.

I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.

I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.

I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.

I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.

Aplicações de Cadeias de Markov

I Física, química, biologia, ciências sociais, jogos, música,linguística, neurociência, bioinformática, reconhecimentode imagens, reconhecimento de assinaturas, etc.

I Por exemplo, o “PageRank” de uma página da web comousado pelo Google é completamente definido através deuma cadeia de Markov.

Propriedade de Markov

I Espaço de estados discreto e tempo discretoI X0,X1, . . . v.a.’s discretas com valores possíveis I

enumerável.

P(Xn = x |X0 = x0,X1 = x1, . . . ,Xn−1 = xn−1) =

P(Xn = x |Xn−1 = xn−1)

para todo n ≥ 1 e todos os valores de x , x0, x1, . . . , xn−1 ∈ I.

Exemplo 1: Sejam Y0,Y1, . . . v.a.’s discretas i.i.d.. Defina

Sn = Y0 + . . .+ Yn

Neste caso,

P(Sn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)

= P(Sn−1 + Yn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)

= P(xn−1 + Yn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)

= P(xn−1 + Yn = x) = P(Sn = x |Sn−1 = xn−1).

Propriedade de Markov

Definições equivalentes

P(Xn = x |Xn0 = x0,Xn1 = x1, . . . ,Xnk = xk ) = P(Xn = x |Xnk = xk )

para todo n ≥ 1 e n0 < n1 < . . . < nk ≤ n − 1.

P(Xn+m = x |X0 = x0,X1 = x1, . . . ,Xn = xn) = P(Xn = x |Xn = xn)

para todo n ≥ 1 e todos os valores de x , x0, x1, . . . , xn−1 ∈ I.

I Cadeia de Markov homogênea

P(Xn = j |Xn−1 = i) = P(X1 = j |X0 = i) := pij

para todo n ≥ 1 e todos os valores de i , j ∈ I.I Matriz de transição

P = (pij)

A matriz de transição é uma matriz estocástica, i.e.,

pij ≥ 0, ,∑

j

pij = 1.

I Matriz de transição em n-passos

Pn = (pij(n))

ondepij(n) = P(Xn = j |X0 = i)

Note que P1 = P, mais ainda

pij(2) = P(X2 = j |X0 = i)

=∑k∈I

P(X2 = j ,X1 = k |X0 = i)

=∑k∈I

P(X2 = j |X1 = k)P(X1 = k |X0 = i)

=∑k∈I

pkjpik .

Portanto, P2 = P2.

Equações de Chapman-Kolmogorov

pij(n + m) =∑

k pkj(n)pik (m)

Consequentemente, Pn+m = PnPm e Pn = Pn.

Distribuições marginais

Definaµ(n)i = P(Xn = i).

eµ(n) = (µ

(n)i , i ∈ I).

Note que

µ(1)i = P(X1 = i) =

∑k

P(X1 = i ,X0 = k)

=∑

k

P(X1 = i |X0 = k)P(X0 = k)

=∑

k

pkiµ(0)k

µ(2)i = P(X2 = i) =

∑j

P(X2 = i ,X1 = j)

=∑

j

P(X2 = i |X1 = j)P(X1 = j)

=∑

j

pjiµ(1)j =

∑j

pji∑

k

pkjµ(0)k

Em geral,

µ(n+m) = µ(m)Pn e µ(n) = µ(0)Pn

Exemplo: Snoqualmie FallsI dados diários para se choveu ou não, pelo menos, 0,01 cmI 36 anosI Janeiro para obter um sistema homogêneo e estacionário.I = {0,1} Matriz de transição

P =

[p00 p01p10 p11

]Será que os dados não são independentes?

Hoje0 1

0 186 (91) 123 (223) 309Ontem

1 128 (223) 643 (543) 771314 766 1080

Os valores entre parenteses são os valores esperados sob ahipótese de independência. X 2 = 202,89 e χ2

1;1% = 6,63.

Função de verossimilhança

L(P,x) = P(X0 = x0)n−1∏i=0

P(Xi+1 = xi+1|Xi = xi)

= P(X0 = x0)n−1∏i=0

pxi ,xi+1

= P(X0 = x0)∏

k ,l∈Ipnk,l

k ,l

onde nk ,l = número de vezes em que Xi = k ,Xi+1 = l .

No exemplo de Snoqualmie Falls,

L(P,x) =

36∏j=1

P(X0,j = x0,j)

p18600 p123

01 p12810 p643

11 .

Assuma que os x0,j são fixos e P(X0,j = x0,j) = 1, se não,podemos usar as 36 amostras para estimar esta probabilidade.• p00 + p01 = 1 e p10 + p11 = 1,

P1,0 = n1,0/(n0,0 + n1,0)

eP1,1 = n1,1/(n0,1 + n1,1)

As estimativas de MV são dadas por:

p1,0 = 123/309 = 0,398 p1,1 = 643/771 = 0,834

Exemplo - Ferrugem asiática:

I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.

I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.

I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.

As variáveis coletadas:1. molhamento foliar (codificada como 1 se há molhamento

superior a oito horas e 0 caso contrário),2. velocidade do vento em m/s,3. umidade relativa do ar,4. precipitação em mm e temperatura média em oC.

Quatro estações meteorológicas:I Lucas do Rio verde (MT),I Rio Verde (GO),I Passo Fundo (RS) eI Holambra (SP)

Dados enviados diariamente para o CEPAGRI - Unicamp(Centro de Pesquisas Meteorológicas e Climáticas Aplicadas àAgricultura).

Fonsechi (2006)

I Modelo de Regressão Logístico para variáveis bináriasI variáveis dependem do tempo anterior, por exemplo, se

choveu no tempo t − 1 influencia se haverá molhamentoou não no tempo t . Obviamente não podemos esperarindependência de um tempo para o outro.

Modelo

P(Y | X) =n∏

i=1

P(Yi | Y1, . . . ,Yi−1,X)

onde Y é a variável resposta e X é a matriz de covariáveis.

Pode-se definir o i-ésimo logito como:

θi = log[

P(Yi = 1|Y1, . . . ,Yi−1,Xi)

P(Yi = 0|Y1, . . . ,Yi−1,Xi)

]e assumir que θi é função linear de Y1, . . . ,Yi−1,Xi .

Temos, então, um problema de regressão no qual a resposta Yié binária, mas o conjunto de valores da variável explicativamuda de acordo com i .

Para introduzir dependência no modelo é necessário criarvariáveis auxiliares que são funções lineares dos Y ′i s:

Zi =

{2Yi − 1 se Yi = 0 ou 10 se Yi desconhecido

Definimos a regressão logística da seguinte forma:

θ1 = α + βX1

θi = α +i−1∑j=1

γjZj + βXi , i = 1, . . . ,n

em que α, β e γ′s são parâmetros que variam no intervalo(−∞,∞) e a dependência foi introduzida no modelo atravésdas variáveis Z ′i s presentes nos logitos.

Temos

P(Y|X) =n∏

i=1

eθi

(1 + eθi ).

Para (j < i)I Yj =1, a chance do dia i ter molhamento (Yi = 1) aumenta

em eγj ,I Yj desconhecido não muda a chance,I Yj=0 diminui a chance em eγj

I um aumento de uma unidade em Xi aumenta a chance dodia i ter molhamento em eβ.

O modelo na forma matricial fica:

θ = [θ1 . . . θn]′ ,

Z = [Z1 . . .Zn]′ ,

λ = [α γ1 γ2 . . . γn−1 β]′ ,

A =

1 0 0 . . . 0 X11 Z1 0 . . . 0 X21 Z1 Z2 . . . 0 X3...

......

......

...1 Z1 Z2 . . . Zn−1 Xn

.

Então o modelo torna-se:

θ = Aλ (1)

Estruturas Markovianas de Dependência

Com a estrutura de primeira ordem o modelo torna-se:

P(Y|X) = P(Y1|X )n∏

i=2

P(Yi |Yi−1,X ).

Com a estrutura de segunda ordem o modelo torna-se:

P(Y|X) = P(Y1|X)P(Y2|Y1,X)Pn∏

i=3

P(Yi |Yi−1,Yi−2,X).

Portanto, a probabilidade de ter molhamento foliar no dia i sódepende da resposta do dia imediatamente anterior (ou doisdias). Nesse caso, os logitos podem ser escritos como:

θi = α + γZi−1 + βXi .

Método de análise

I Foi utilizado o software livre R (www.r-project.org)I Para as quatro estações testou-se o modelo com estrutura

Markoviana de dependência de primeira e segunda ordemI Ajustou-se primeiramente um modelo com todas as

covariáveis (Modelo completo) e depois utilizou-sestepwise para selecior as covariáveis que realmente sãosignificativas ao modelo (Modelo reduzido). Critério AIC.

I Para verificar a adequação do modelo foi utilizado aestatística “deviance” (−2logL, sendo L a funcão deverossimilhança), essa estatística tem distribuição χ2

n−p−1,sendo n − p − 1 o graus de liberdade, n é o número deobservações e p é o número de parâmetros.

Passo Fundo - Estrutura Markoviana de 1a ordem

Tabela: Modelo Completo

Parâmetro Estimação teste-tIntercepto -13.80594 6.03e-06Z 0.68004 0.00104UR 0.15166 2.50e-08Temp média 0.0995 0.12957Velocidade Vento -0.24003 0.28894Chuva 0.05070 0.28251

Passo Fundo - Estrutura Markoviana de 1a ordem

Tabela: Modelo Reduzido

Parâmetro Estimação teste-tIntercepto -15.67279 5.97e-08Z 0.66143 0.00103UR 0.16491 4.24e-11Temp média 0.10751 0.09699

Para Passo Fundo, com estrutura markoviana comdependência de primeira ordem a deviance foi 161,1 e o valortabelado da χ2

223 é 189.43, ou seja, pelo teste de bondade deajuste esse modelo é adequado.

Passo Fundo - Estrutura Markoviana de segundaordem

Tabela: Modelo Completo

Parâmetro Estimação teste-tIntercepto -13.80594 8.99e-06Z1 0.52782 0.0197Z2 0.36670 0.0960UR 0.15069 4.24e-08Temp média 0.10047 0.1332Velocidade Vento -0.25198 0.2793Chuva 0.055070 0.2512

Tabela: Modelo Reduzido

Parâmetro Estimação teste-tIntercepto -15.79363 6.88e-08Z1 0.51292 0.0204Z2 0.34475 0.1150UR 0.16604 5.61e-11Temp média 0.10841 0.100

Apesar de ter utilizado o método stepwise para selecionar omelhor modelo ainda há variáveis não significativas no modeloao nível de significância de 10%, sendo ela a variável querepresenta a estrutura de dependência de segunda ordem, ouseja, o modelo para passo fundo, com dependência deprimeira ordem é o mais adequado para o conjunto de dadosde Passo Fundo.

Conclusão

I Verificou-se a eficiência da utilização do Modelo LogísticoRegressivo para a estimação de molhamento foliar nacultura da soja.

I Para as quatro estações testadas, o modelo que melhorajusta aos dados meteorológicos é o logístico regressivocom estrutura markoviana de primeira ordem, ou seja, omodelo que leva em consideração a dependência do diaanterior para a ocorrência de molhamento foliar.

I Com as previsões meteorológicas e o uso do modeloproposto será possível um melhor monitoramento dacultura da soja, acionando os produtores de soja paraalertá-los quando houver indícios da ocorrência demolhamento foliar superior a 8 horas, ajudando assim omomento certo para aplicação de fungicida.

Urna de Ehrenfest

I Modelo para troca de calor ou gases entre dois corposisolados.

I Temos duas caixas com um total de d bolas numeradas de1 a d .

I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.

I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.

I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.

Xn é uma cadeia de Markov com espaço de estados{0,1, . . . ,d} e matriz de transição

P(x , y) =

(x/d), y = x − 1,

1− (x/d), y = x + 1,0, caso contrário

Ruína do jogador

Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.

I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.

I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.

I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.

Esta é uma CM com espaço de estados {0,1, . . .}onde 0 é um estado absorvente e para x ≥ 1

P(x , y) =

1− p, y = x − 1,

p, y = x + 1,0, caso contrário

Se houver um adversário que inicia o jogo comd − i reais e o jogo termina quando o capital do1o. jogador atinge 0 ou d o espaço de estados é{0,1, . . .} onde 0 e d são estado absorventes epara 1 ≤ x ≤ d − 1

P(x , y) =

1− p, y = x − 1,

p, y = x + 1,0, caso contrário

Cadeias de nascimento e morte

I Considere uma CM com espaço de estados I = {0,1, . . .}ou I = {0,1, . . . ,d}.

I Estando no estado x no próximo passo somente poderáestar em x , x + 1 ou x − 1.

I Considere que a matriez de transição seja:

P(x , y) =

qx , y = x − 1,px , y = x + 1,rx , y = x ,0, caso contrário

onde para cada x , px ,qx , rx ≥ 0, px + qx + rx = 1.

Classificação de estados:

Seja A um subconjunto do espaço de estados I. O tempo dechegada a A é definido como:

TA =

{min{n > 0; Xn ∈ A}, se Xn atinge A,

∞, caso contrário

Notaçao:A = {a} usamos a notação: Ta.Denotaremos por Px (·) as probabilidades dosdiversos eventos quando o estado inicial dacadeia for x . Assim,

Px (X1 = a,X2 = b) = P(X1 = a,X2 = b|X0 = x).

Uma identidade importante:

Pn(x , y) =∑n

m=1 Px (Ty = m)Pn−m(y , y), n ≥ 1

Se a é um estado absorvente então

Pn−m(a,a) = 1, para1 ≤ m ≤ n.

e

Pn(x ,a) =n∑

m=1

Px (Ta = m)Pn−m(a,a)

=n∑

m=1

Px (Ta = m) = Px (Ta ≤ n).

Observe que

Px (Ty = 1) = Px (X1 = y) = P(x , y)

e que

Px (Ty = 2) =∑z 6=y

Px (X1 = z,X2 = y) =∑z 6=y

P(x , z)P(z, y).

Em geral,

Px (Ty = n + 1) =∑

z 6=y P(x , z)Pz(Ty = n), n ≥ 1

Estados recorrentes e transientes

I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.

I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .

I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.

I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.

Para cada estado y ∈ I defina a v.a.

N(y) =∞∑

n=1

1y (Xn)

o número de vezes que a CM visita o estado y .Note que:

Px (N(y) ≥ 1) = Px (Ty <∞) = ρxy .

É fácil ver que a propriedade de Markov diz que: aprobabilidade da cadeia começando em x visitar pela primeiravez y após m passos e retornar a y n passos depois é

Px (Ty = m)Py (Ty = n).

Portanto,

Px (N(y) ≥ 2) =∞∑

m=1

∞∑n=1

Px (Ty = m)Py (Ty = n)

=

( ∞∑m=1

Px (Ty = m)

)( ∞∑n=1

Py (Ty = n)

)= ρxyρyy .

Similarmente,

Px (N(y) ≥ m) = ρxyρm−1yy , m ≥ 1.

Usando o fato quePx (N(y) = m) = Px (N(y) ≥ m)− Px (N(y) ≥ m + 1).

Px (N(y) = m) = ρxyρm−1yy (1− ρyy ), m ≥ 1.

e

Px (N(y) = 0) = (1− ρxy ).

Observe que

Ex (N(y)) = Ex

( ∞∑n=1

1y (Xn)

)

=∞∑

n=1

Ex (1y (Xn))

=∞∑

n=1

Pn(x , y).

Defina

G(x , y) = Ex (N(y)) =∑∞

n=1 Pn(x , y).

O seguinte teorema descreve a diferença fundamental entreestados transientes e estados recorrentes:Teorema: (i) Seja y um estado transiente. Então:

Px (N(y) <∞) = 1

eG(x , y) =

ρxy

1− ρyy.

(ii) Seja y um estado recorrente. Então:

Py (N(y) =∞) = 1 e G(y , y) = 1.

Mais ainda,

Px (N(y) =∞) = Px (Ty <∞) = ρxy .

Se ρxy = 0 então G(x , y) = 0 enquanto que ρxy > 0 implicaque G(x , y) =∞.

Seja y um estado transiente. Como

∞∑n=1

Pn(x , y) = G(x , y) <∞ ⇒ limn

Pn(x , y) = 0.

Uma CM é dita ser transiente se todos os seus estados sãotransientes e recorrente se todos os seus estados sãorecorrentes.É fácil ver que toda CM finita precisa ter pelo menos um estadorecorrente, i.e. não pode ter todos os seus estados transientes:

0 =∑y∈I

limn

Pn(x , y)

CM finita = limn

∑y∈I

Pn(x , y)

= limn

Px (Xn ∈ I)

= 1.

Decomposição do espaço de estados:

Sejam x e y ∈ I

x → y , se ρxy > 0.

I x → y se, e somente se, Pn(x , y) > 0 para algum n.I x → y e y → z então x → z.I Teorema: Seja x um estado recorrente e suponha que

x → y . Então y é recorrente e ρxy = ρyx = 1.

I Um conjunto não vazio C ⊂ I é dito ser fechado senenhum estado de dentro de C leva a um estado fora deC, i.e., se

ρxy = 0, x ∈ C, y 6∈ C.

I Equivalentemente, C é fechado se, e somente se,

Pn(x , y) = 0, x ∈ C, y 6∈ C, para todo n ≥ 1.

I Se C é um conjunto fechado então uma CM começandoem C ficará em C com probabilidade 1.

I Se A é um estado absorvente, então {a} é fechado.

I Um conjunto fechado é dito ser irredutível se x → y paratodos x , y ∈ C.

I Segue do Teorema anterior que se C é uma classefechada e irredutível, então ou todo estado de C érecorrente, ou todo estado de C é recorrente.

I Seja C uma classe fechada irredutível de estadosrecorrentes. então ρxy = 1, Px (N(y) =∞) = 1 eG(x , y) =∞ para todas as escolhas de x , y ∈ C.

I Uma cadeia de Markov irredutível é uma cadeia cujoespaço de estados I é fechado e irredutível. Segue quetais cadeias ou são transientes ou são recorrentes.

Teorema: Seja C um conjunto finito de estados. Então todosos estados em C são recorrentes.

Considere uma CM com um número finito de estados.I Se a CM é irredutível, deve ser recorrente.I Se a CM não é irredutível verificamos quais são as classes

irredutíveis e quais estados são recorrentes e transientes.

Exemplo: I = {0,1,2,3,4,5}

1 0 0 0 0 014

12

14 0 0 0

0 15

25

15 0 1

50 0 0 1

613

12

0 0 0 12 0 1

20 0 0 1

4 0 34

Note que a matriz abaixo traz os valores + e 0 de acordo comx → y , i.e, ρxy > 0.

+ 0 0 0 0 0+ + + + + ++ + + + + +0 0 0 + + +0 0 0 + + +0 0 0 + + +

Obviamente, se P(x , y) > 0 então ρxy > 0, mas a recíprocanão é verdadeira pois P(2,0) = 0 e ρ20 > 0 pois

P2(2,0) = P(2,1)P(1,0) =15

14

=1

20> 0.

I 0 é um estado absorvente, portanto é recorrente.I Também vemos pela matriz acima que {3,4,5} é uma

classe finita, fechada e irredutível portanto todos os seusestados são recorrentes.

I 2→ 0 e 1→ 0 mas 0 6→ 2 e 0 6→ 1, sendo assim 1 e 2 temque ser estados transientes.

Sejam:IT o conjunto de estados transientes;IR o conjunto de estados recorrentes.

Neste exemplo, IT = {1,2} e IR = {0} ∪ {3,4,5}.Sempre é possível decompor IR numa união disjunta (finita ouenumerável) de classes irredutíveis.

Probabilidades de absorção

Seja C uma das classes fechadas irredutíveis de estadosrecorrentes e defina:

ρC(x) := Px (TC <∞)

a probabilidade de que a CM começando em x eventualmenteatinja C ( e permaneça em C para sempre). Claramente,

ρC(x) = 1, se x ∈ C ρC(x) = 0, se x é recorrente, mas x 6∈ C

Como calcular ρC(x) se x for transiente?

I Se temos somente um número finito de estadostransientes, em particular se I é finito, pode-se encontrarρC(x), x ∈ IT através de um sistema linear de equações.

I Observe que se x ∈ IT , uma cadeia somente pode serabsorvido em C se, (i) for absorvindo em C no instante 1;ou (ii) continuar em IT no instante 1 e ser absorvido em Cem um tempo futuro.

I O evento (i) tem probabilidade∑

y∈C P(x , y) e o evento (ii)tem probabilidade

∑y∈IT

P(x , y)ρC(y).

ρC(x) =∑

y∈C P(x , y) +∑

y∈ITP(x , y)ρC(y), x ∈ IT .

A equação acima pode ser resolvida se IT é finito. No caso deIT não é claro como resolver o sistema, nem mesmo garantirque o sistema tenha solução única.

Exemplo: Encontre ρ10 = ρ{0}(1) e ρ20 = ρ{0}(2). Montando osistema de equções temos,

ρ10 = 1/4 + (1/2)ρ10 + (1/4)ρ20

ρ20 = (1/5)ρ10 + (2/5)ρ20

A solução é: ρ10 = (3/5) e ρ20 = (1/5).Note que uma vez que uma CM começando em um estadotransiente x entra em uma classe fechada, irredutível deestados recorrentes, visita todos os estados de C comprobabilidade 1. Assim,

ρxy = ρC(x), para todo y ∈ C.

Portanto,ρ13 = ρ14 = ρ15 = 2/5,

ρ23 = ρ24 = ρ25 = 4/5.


I CM irredutível: ou todos os estados recorrentes, ou todosestados transientes.

I CM irredutível finita: todos os estados recorrentes.I O que fazer no caso I infinito?

I Considere uma CM com espaço de estados I = {0,1, . . .}ou I = {0,1, . . . ,d}.

I Estando no estado x no próximo passo somente poderáestar em x , x + 1 ou x − 1.

I Considere que a matriez de transição seja:

P(x , y) =

qx , y = x − 1,px , y = x + 1,rx , y = x ,0, caso contrário

onde para cada x , px ,qx , rx ≥ 0, px + qx + rx = 1. Noteque q0 = 0 e pd = 0 se d <∞.

I Assuma que px ,qx > 0 para 0 < x < d .

Para a < b ∈ I, seja

u(x) = Px (Ta < Tb), a < x < b

eu(a) = 1, u(b) = 0.

Portanto, é fácil ver que

u(y) = qyu(y − 1) + ryu(y) + pyu(y + 1), a < y < b.

Como ry = 1− py − qy temos

u(y + 1)− u(y) =qy

py(u(y)− u(y − 1)), a < y < b.

Defina γ0 = 1 e

γy =q1···qyp1···py

, 0 < y < d .

Temos,

u(x) =

∑b−1y=x γy∑b−1y=a γy

, a < x < b.

Portanto, da definição de u(x) temos

Px (Ta < Tb) =∑b−1

y=x γy∑b−1y=a γy

, a < x < b.

Px (Tb < Ta) =∑x−1

y=a γy∑b−1y=a γy

, a < x < b.

Exemplo:I Um jogador na roleta faz uma sequência de apostas de

$1.00.I Ele tem probabilidades 9/19 e 10/19 de ganhar e perder

respectivamente.I O jogador decide que ele pára de jogar se ele lucra $25.00

ou se ele perde $10.00.(a) Ache a probabilidade dele parar de jogar ganhando.(b) Ache sua perda esperada.

I Xn: capital do jogador no tempo n com X0 = 10.I Xn é uma cadeia de nascimento e morte comI = {0,1, . . . ,35}

I taxas px = 9/19,0 < x < 35 e qx = 10/19,0 < x < 35.I Os estados 0 e 35 são aobsorventes.

Aplicar a fórmula para a = 0, x = 10,b = 35. Portanto,

γy = (10/9)y , 0 ≤ y ≤ 34,

Probabilidade de ganhar:

P10(T35 < T0) =

∑9y=0(10/9)y∑34y=0(10/9)y

=(10/9)10 − 1(10/9)35 − 1

= 0.047.

Perda esperada: 10− 35× (0.047) = 8.36.

Distribuição estacionária

I Seja Xn,n ≥ 0 uma CM com espaço de estados I e matrizde transição P.

I Uma distribuição estacionária π(x), x ∈ I satisfaz:1. π(x) ≥ 0, x ∈ I;2.∑

x∈I π(x) = 1;3.

∑x∈I π(x)P(x , y) = π(y), y ∈ I.

Distribuição limite

I Suponha que temos

limn→∞

Pn(x , y) = π(y), y ∈ I.

I Neste capítulo queremos determinar quando temosdistribuição estacionária, quando temos distribuição limitee quando elas são iguais.

Propriedades de distribuições estacionáriasSeja π uma distribuição estacionária para P. Então:∑

x∈Iπ(x)P2(x , y) =

∑x∈I

π(x)∑

z

P(x , z)P(z, y)

=∑

z

(∑x

π(x)P(x , z)

)P(z, y)

=∑

z

π(z)P(z, y) = π(y).

Portanto, por indução, usando a fórmula

Pn+1(x , y) =∑

z

Pn(x , z)P(z, y),

temos ∑x∈I π(x)Pn(x , y) = π(y), y ∈ I.

I Se π0 = π temos que

P(Xn = y) = π(y), y ∈ I

e a distribuição de Xn é independente de n.I Suponha reciprocamente que πn não dependa de n, então

a distribuição de X0 e X1 são idênticas eπ0(y) = π1(y) =

∑x π0(x)P(x , y). Consequentemente,

π0 é distribuição estacionária.I A distribuição de Xn é independente de n se, e

somente se, π0 é estacionária.

Suponha que π é distribuição estacionária e

limn→∞

Pn(x , y) = π(y), y ∈ I.

então P(Xn = y) =∑

x π0(x)Pn(x , y), y ∈ I.Tirando o limite nos dois lados da equação e passando o limitedentro do somatório, temos

limn→∞

Pn(x , y) =∑

x

π0(x)π(y), y ∈ I.

Como∑

x π0(x) = 1 temos

limn→∞ Pn(x , y) = π(y), y ∈ I.

I Temos que se π é uma distribuição estacionária e

limn→∞

Pn(x , y) = π(y), y ∈ I

, a distribuição πn se aproxima de π independemtementeda distribuição inicial.

I Portanto, π é a única distribuição estacionária, senãousaríamos a outra distribuição para π0 e teríamos π = π0.

I Suponha que observamos nosso sistema por um tempolongo, digamos n0 passos e seja

Yn = Xn0+n,

As v.a.’s Yn formam uma CM com a mesma matriz detransição P. Se N0 for suficientemente grande, podemossupor que a distribuição marginal de Yn é a mesma dadistribuição estacionária π.

Exemplo 1:

P =

[1− p p

q 1− q

]Se p + q > 0 temos

π(0) =q

p + qπ(1) =

pp + q

.


Considere uma cadeia de nascimento e morte comI = {0,1, . . .}. Vamos assumir que a cadeia é irredutível i.e.,

px > 0, 0 ≤ x <∞

qx > 0, 0 < x <∞.

O sistema de equações∑x

π(x)P(x , y) = π(y)

será:r0π(0) + q1π(1) = π(0)

py−1π(y − 1) + ryπ(y) + qy+1π(y + 1) = π(y), y ≥ 1.

Como px + rx + q + x = 1, temos

(1− p0)π(0) + q1π(1) = π(0)

py−1π(y−1)+(1−py−qy )π(y)+qy+1π(y +1) = π(y), y ≥ 1.

Portanto,

qy+1π(y + 1)− pyπ(y) = qyπ(y)− py−1π(y − 1), y ≥ 1

e consequentemente, por indução

qy+1π(y + 1)− pyπ(y) = 0, y ≥ 0.

Neste caso, obtemos

π(y + 1) =py

qy+1π(y).

Usando novamente indução é fácil ver que:

π(x) =p0 · p1 · · · px−1

q1 · q2 · · · qxπ(0).

Finalmente, se chamamos

π0 = 1, , πx =p0 · p1 · · · px−1

q1 · q2 · · · qx, x ≥ 1,

temos

π(x) = πxπ(0), x ≥ 0.

Temos que verificar se as soluções de (1) satisfazem∑x π(x) = 1.

Caso 1:∑

x πx <∞.

1 =∑

x

π(x) =

(∑x

πx

)π(0)

Portanto,

π(0) = 1∑x πx

, π(x) = πx∑x πx

x ≥ 1.

Caso 2:∑

x πx =∞.

∑x

π(x) =

(∑x

πx

)π(0) =

{0, se π(0) = 0∞, se π(0) > 0

Portanto, não existe distribuição estacionária.Todas as deduções anteriores valem para o caso de cadeiasde nascimento e morte finitas, i.e. d <∞.

Urna de Ehrenfest

d = 3

P =

0 1 0 0

1/3 0 2/3 00 2/3 0 1/30 0 1 0

Esta é uma cadeia de nascimento e morte irredutível com

π0 = 1, π1 = 3, π2 = 3, π3 = 1.

Portanto, a única distribuição estacionária é dada por:

π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.

Note que neste caso, Pn(x , y) = 0 para valores ímpares de n.Assim,

Pn(x , x) 6→ π(x).

Urna de Ehrenfest modificada: Suponha que temos omesmo esquema da urna de Ehrenfest, mas a cada trocajogamos independentemente uma moeda e se esta sair caradecidimos não mudar a bola de urna.

P =

1/2 1/ 0 01/6 1/2 2/6 00 2/ 1/2 1/60 0 1/2 1/2

Entretanto, π0 = 1, π1 = 3, π2 = 3, π3 = 1.Portanto, a única distribuição estacionária é dada por:

π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.

Neste caso, veremos mais tarde,

Pn(x , y)→ π(y), para todo y, quando n→∞.

Condições de balanço detalhado

π(x)p(x , y) = π(y)p(y , x) ⇒ π(y) =∑

x

π(x)p(x , y)

pois∑

x p(y , x) = 1.

Estados recorrentes positivos e recorrentes nulos

Um estado é recorrente se

ρyy = Py (Ty < +∞) = 1

Se y é recorrente então:y é recorrente positivo se my = Ey (Ty ) < +∞;y é recorrente nulo se my = Ey (Ty ) = +∞;

Número médio de visitas a um estado recorrente:

Defina Nn(y) o número de visitas ao estado y nos instantes1,2, . . . ,n. Isto é, Nn(y) =

∑nm=1 1y (Xm).

Defina Gn(x , y) o número médio de visitas ao estado y dadoque X0 = x durante os instantes 1,2, . . . ,n

Gn(x , y) =n∑

m=1

Ex [1y (Xm)] =n∑

m=1

Pm(x , y).

1.- Seja y um estado transiente. então

limn

Nn(y) = N(y) <∞ com probabilidade 1,

elim

nGn(x , y) = G(x , y) < +∞.

Portanto,

limn

Nn(y)

n= 0 com probabilidade 1,

elim

n

Gn(x , y)

n= 0, x ∈ S.

Seja y um estado recorrente. Então:

limn

Nn(y)

n=

1Ty<∞

mycom probabilidade 1,

elim

n

Gn(x , y)

n=ρxy

my, x ∈ S.

Intuição: Uma vez que a cadeia chega ao estado y ela retornaa y , “em média uma vez a cada my unidades de tempo”.Assim, se y pode ser alcançado eventualmente e n é grande, aproporção de tempo que a cadeia gasta no estado y éaproximadamente 1/my .

Corolário: Seja C um conjunto fechado irredutível de estadosrecorrentes. Então,

limn

Gn(x , y)

n=

1my

, x , c ∈ C

e se P(X0 ∈ C) = 1,

limn

Nn(y)

n=

1my

com probabilidade 1.

Note que as fórmulas valem para my = +∞.

Teorema: Seja x um estado recorrente positivo e suponha quex → y . então y é recorrente positivo.Portanto, em uma classe de estados fechada, irredutível outodos os estados são transientes, ou todos os estados sãorecorrentes positivos ou todos os estados são recorrentesnulos.

I Se C é uma classe fechada e finita então C tem pelomenos um estado recorrente positivo.

I Se C é uma classe fechada, irredutível e finita de estadosentão todo estado é recorrente positivo.

I Uma cadeia de Markov irredutível com um número finitode estados é recorrente positiva.

I Uma cadeia de Markov tendo um número finito de estadosnão tem estados recorrentes nulos.Note que se y é um estado recorrente, então y estácontido numa classe fechada de estados recorrentes.Como esta classe é necessariamente finita, ela contémpelo menos um estado recorrente positivo e portanto todossão recorrentes positivos.

Existência e unicidade das distribuições estacionáriasTeorema: Seja π uma distribução estacionária. Se x étransiente ou recorrente nulo, então π(x) = 0.Prova: Se x é transiente ou recorrente nulo então

limn

Gn(z, x)

n= 0, z ∈ S.

Portanto, se pudermos trocar a ordem da soma e do limite:

π(x) limn

∑z

π(z) limn

Gn(z, x)

n= 0.

Teorema: Seja uma cadeia de Markov irredutível, recorrentepositiva então existe uma única distribuição estacionária πdada por:

π(y) =1

my, y ∈ S.

Consequências:Uma cadeia de Markov é positiva recorrente éirredutível se, e somente se tem uma únicadistribuição estacionária.Se uma cadeia de Markov tem um número finitode estados e é irredutível então ela tem uma únicadistribuição estacionária.Seja Xn,n ≥ 0 uma cadeia de Markov irredutível,recorrente positiva com distribuição estacionáriaπ. então com probabilidade 1,

minn

Nn(y)

n= π(y), y ∈ S.

Cadeia redutíveis:

Teorema: Seja C um conjunto irredutível fechado de estadosrecorrentes positivos. Então a cadeia de Markov tem umaúnica distribuição estacionária concentrada em C, isto é,π(x) = 0, se x 6∈ C e π(x) = 1/mx se x ∈ C.Suponha que a cadeia tenha dois conjuntos irredutíveisfechados de estados recorrentes positivos C0 e C1. então acadeia tem uma distribuição estacionária π0 concentrada emC0 e uma distribuição estacionária π1 concentrada em C1.Mais ainda, as distribuições

πα(x) = (1− α)π0(x) + απ1(x)

também são estacionárias para a CM.

Teorema Central do Limite

Referências: Doeblin (1938) e Kendall (1957)Considere uma cadeia de Markov X0,X1, . . . compossivelmente infinitos estados I = {1,2, . . .} ergódica. Assim,todos os tempos de retorno my são finitos.Seja f : I → R e defina

Sn =n∑

m=1

f (Xm).

Sejam as v.a’s T (1)y < T (2)

y < . . . os tempos de visita a y . Isto é,

T (k)y = min{n > T (k−1)

y ; Xn = y}

Teorema ergódico

Assim, as v.a’s

f (XT (k)

y +1) + · · ·+ f (X

T (k+1)y

), k = 1,2, . . .

são iid com esperança finita

µf ,y = E(

f (XT (k)

y +1) + · · ·+ f (X

T (k+1)y

)).

O Teorema ergódico diz que

Sn

n→

µy

myem probabilidade.

CLT - cont.

Agora escreva,

Zk =

T (k+1)y∑

m=T (k)y +1

f (Xm)−µy

my

(T (k+1)

y − T (k)y

).

Assim, Z1,Z2, . . . são iid E(Zi) = 0 e defina

σ2y = Var(Z1).

Teorema: Se µy existe e σy é finita e não nulas e os tempos derecorrencia T (k)

y tem segundo momento finito então

Sn − (µy/my )n√σ2

y n/my

⇒ N(0,1).

Teoria de verossimilhança para Cadeias de Markov

Função de verossimilhança

L(P,x) = P(X0 = x0)n−1∏i=0


= P(X0 = x0)n−1∏i=0

pxi ,xi+1

= P(X0 = x0)∏

k ,l∈IpNk,l (n)

k ,l

onde Nk ,l(n) = número de vezes em que Xi = k ,Xi+1 = l nosinstantes 1, . . . ,n.

Notação: Nij(n) = Nij e nij(n) = nij ,

L(π0,P,x) = π0(x0)n−1∏i=0


= π0(x0)n−1∏i=0

pxi ,xi+1 = π0(x0)∏

k ,l∈IpNk,l (n)

k ,l

= π0(x0)∏k∈I

Lk (P)

onde Lk (P) =∏

l∈I pNk,l (n)k ,l depende somente dos elementos

na k -ésima linha da matrix P.Seja l(π0,P,x) = log L(π0,P,x). Então temos as equações,

l(π0,P,x) = l0(π0, x0) +∑k∈I

lk (P,x).

Queremos maximizar l sujeita a condições que∑x

π0(x) = 1e que∑j∈I

P(k , j) = 1

para todo k ∈ I. Usando multiplicadores de Lagrange eescrevendo ni =

∑j∈I temos as estimativas de MV

pij =nij

niquando ni > 0 π0(i) = 1(i = x0).

Se ni = 0 colocamos pij = 0, j 6= i .Seja

I = {i ∈ I : ni > 0}

a porção observada do espaço de estados. Obviamente, I éfinito. Note que (pij , i , j ∈ I) é uma matriz estocástica sobre I.Denote esta matriz por P.

Teorema: Se (Xn) é uma cadeia de Markov ergódica(irredutível, recorrente positiva), então Pij → pij comprobabilidade 1 para todo i , j ∈ S independentemente dadistribuição inicial.Lembre-se que

1n

Nij(n)→ π(i)pij

e1n

Ni(n)→ π(i).

Teorema: Se (Xn) é uma cadeia de Markov ergódica, entãoindependentemente da distribuição inicial[√

Ni(n)(Pij(n)− pij)]

i,j∈I→ N(0,Σ)

onde

σij,kl =

pij(1− pij), (i .j) = (k , l)−pijpil , i = k , j 6= l

0, caso contrário.

Obs.: A covariância assintótica tem uma estrutura multinomialdentro das linhas e independência entre as linhas.

Aplicação a Snoqualmie FallsUsando o resultado do Teorema anterior vemos que P01 e P11são assintóticamente independentes. Mais ainda

P11 ≈ N(p11,p11(1− p11)/nπ(1))

onde π é a distribuição estacionária da CM.Podemos estimar a variância usando

P11 =N11

N1e π(1) =

N1

n

onde

N11 =36∑

i=1

N(i)11 , . . .

Como n11 = 643, n1 = 771, n01 = 123, n0 = 309 e n = 1080,intervalos de confiança assintóticos de 95%:

IC(p11,95%) = (0.808; 0.860) IC(p01,95%) = (0.343; .453).

Note que cada intervalo tem 95% de confiança, masconjuntamente, usando a independência assintótica,(.95)2 = .903. a fim de encontrar uma região de confiança com95% devemos usar intervalos individuais com 97.5%, obtendoo retângulo:

(.775; .893)× (.272; .524).

Algumas vezes, é natural parametrizar o modelo.

Eugen OneginO próprio Markov deu um exemplo de Cadeia de Markov em1924. Markov estudou um extrato de um poema de Puskinchamado Eugen Onegin e classificou 20.000 caracteresconsecutivos em vogais e consoantes.

Vogal seguinte Consoante seguinte TotalVogal 1106 7536 8638

Consoante 7533 3829 11362Total 8639 11361 20000

É bastante óbvio que a escolha de vogal e consoante para aletra seguinte não é independente da letra atual. Um modelomuito simples é assumir que a troca se faz de forma constante,isto é a matrix de transição é:

P =

[1− p p

p 1− p

]

Teoria assintóticaPor simplicidade no caso paramétrico vamos assumir espaçode estados finito. Assuma que as probabilidades de transiçãodependam somente de um parâmetro θ, tomando valores emum espaço paramétrico Θ ⊂ Rr . Vamos assumir as seguintescondições de regularidade:

1. D = {(i , j); pij > 0} não depende de θ.2. Cada pij(θ) é 3-vezes continuamente diferenciável.3. A matriz de dimensão d × r , ∂pij(θ)/∂θk , i , j ∈ D,

k = 1, . . . , r e d é a cardinalidade de D, tem posto r .4. Para cada θ existe somente uma classe ergódica e

nenhum estado transiente.

Podemos escrver a verossimilhança como

l(θ,x) =∑

D

nij log pij(θ).

Diferenciando esta expressão obtemos as equações deverossimilhança:

∂

∂θkln(θ) =

∑D

ni jpij(θ)

∂pij(θ)

∂θk= 0, k = 1, . . . , k .

Seja θ0 o verdadeiro valor do parâmtro.

Teorema: Assuma as condições de regularidade:(i) Existe uma solução θ das equações de verossimilhança queé consistente;(ii)√

n(θ − θ0)→ N(0, I−1(θ0)), onde I é a matriz deinformação:

Iuv (θ0) =∑

(i,j)∈D

π(i ,θ0)

pij(θ0)

∂pij(θ0)

∂θu

∂pij(θ0)

∂θv.

(iii) Var√

n(θ − θ0) pode ser estimada de forma consistentepelo inverso da informação observada[

−Nij

n∇2 log pij(θ)

]−1

.

Exemplo: Eugen Onegin Estimamos p pela equação:

l(p) = (n00 + n11) log(1− p) + (n01 + n10) log p,

onde 0 = vogal e 1 = consoante. O máximo é obtido em:

P =N01 + N10

ne p =

7532 + 753320000

= 0.753.

A segunda derivada da verossimilahnça é:

l ′′(p) = −n00 + n11

(1− p)2 +n01 + n10

p2

Portanto, o erro padrão assintótico estimado é(−l ′′(p))−1/2 = (p(1− p)/n)1/2 = (.753× .247/20000)1/2. Oque nos dá um IC de nível 95% como:

(.747; .759)

Note que nem p01 = .872 nem p10 = .663 pertence a esteintervalo, indicando que o modelo de um parmâmetro não éadequado.

Teorema: Assuma as condições de regularidade. Seja θ oEMV sob a hipótse paramétrica H0. Também, seja P o EMVnão paramétrico e θ0 o verdadeiro valor do parâmetro, quandoH0 é verdadeira. Então:(i) 2

(l(θ)− l(θ0)

)D→ χ2(r);

(ii) 2(

l(P)− l(θ))D→ χ2(d(d − 1)− r);

(iii) As estatísticas em (i) e (ii) são assintóticqamenteindependentes.

Teorema: Assuma as condições de regularidade. Sejam θ0 oEMV sob a hipótese paramétrica H0 : θ ∈ Θ0 e θ1 o EMV sob ahipótese θ ∈ Θ0 ∪Θ1. Então para se testar H0 : θ ∈ Θ0 vs.H1 : θ ∈ Θ1 a estatística do teste a ser utilizada é:

−2(

l(θ0)− l(θ1))D→ χ2(s)

onde s = dim(Θ1 ∪Θ0)− dim(Θ0).

Teste para independência: Suponha que queremos testar ahipótese de que a seqüência X1,X2, . . . tomando valores emI = {0,1, . . . ,K} é independente vs. a hipótese de quepertença a uma CM de ordem 1. Em termos de parametrizaçãosimplesmente colocamos: H0 : pij = θj para todo i , j ∈ I.Neste caso, precisamos calcular o máximo sob as duashipóteses (independência e CM de ordem 1).

CM de ordem 1: Pij = Nij/Ni .Sob a hipótese de independência temos uma distribuiçãomultinomial, com n.j =

∑i nij observações da categoria com

probabilidade θj . A verossimilhança é:

l(θ) =K−1∑j=0

n.jθj + n.K (1−K−1∑j=0

θj),

a qual é maximizada por θj = N.j/n. Portanto, a estatística darazão de verossimilhança é dada por:

2(

l(P)− l(θ))

= 2∑i,j

Nij logNij/Ni

N.j/n

a qual assintoticamente tem uma distribuição χ2 comK (K + 1)− K = K 2 graus de liberdade. No modelo deSnoqualmie Falls K = 1.

Em Inferência usamos o teste chi-quadrado de Pearson:

X =∑ (Nij − Nip0

ij )2

Nip0ij

Eugen Onegin Queremos testar a hipótese H0 : p01 = p10Os valores esperados para a estatística de Pearson sãocalculados multiplicando-se as somas das linhas(n0,n1) = (8.638; 11.362) pela matriz de transição estimadasob H0:

P =

(0.247 0.7530.753 0.247

)obtendo

(Eij) =

(2131.4 6506.68558.4 2803.6

)

A Estatística chiquadrado para testar a hipóteseuni-dimensional é:

χ2 =∑

ij

(nij − ni p0ij )

2

ni p0ij

= 1217.7.

O valor exato da estatística exata da verossimilhança é 1217.7.(Aproximação excelente!!!)

Inferência para Cadeias de Markov

Documents

Transcript of Inferência para Cadeias de Markov