Modelos de Markov e Aplicac¸ ˜oes

22
Modelos de Markov e Aplicac ¸˜ oes * Grac ¸aliz P. Dimuro 1 , Renata H. S. Reiser 1 , Ant ˆ onio C. R. Costa 12 , Paulo L. R. Sousa 3 1 Escola de Inform´ atica – Universidade Cat´ olica de Pelotas Rua Felix da Cunha 412 – 96010-140 Pelotas, RS 2 Programa de P ´ os-Graduac ¸˜ ao em Computac ¸˜ ao – Universidade Federal do Rio Grande do Sul Caixa Postal 15064 – 90501-970 Porto Alegre, RS 3 Mestrado em Sa ´ ude e Comportamento – Universidade Cat´ olica de Pelotas Rua Felix da Cunha 412 – 96010-140 Pelotas, RS {liz,reiser,rocha}@atlas.ucpel.tche.br Abstract. This tutorial presents the basic concepts concerning Markov chains, in particular, regular and absorbing chains. The principal concepts of Hid- den Markov Models are also presented. Some applications of these models are shown. Resumo. Este tutorial apresenta os conceitos b´ asicos das cadeias de Markov, ressaltando principalmente, as cadeias regulares e as absorventes. Tamb´ em apresentam-se os principais conceitos sobre os modelos de Markov ocultos. Exemplos ilustrativos foram inclu´ ıdos, para mostrar as potencialidades de aplicac ¸˜ ao destes modelos. 1. Introduc ¸˜ ao Um processo de Markov ´ e um processo estoc´ astico cujo comportamento dinˆ amico ´ e tal que as distribuic ¸˜ oes de probabilidade para o seu desenvolvimento fututo depende somente do estado presente, n˜ ao levando em considerac ¸˜ ao como o processo chegou em tal estado. Os processos markovianos s˜ ao modelados formalmente por sistemas de transic ¸˜ oes de estados, onde os estados s˜ ao representados em termos de seus vetores probabil´ ısticos, que podem variar no espac ¸o temporal (discreto ou cont´ ınuo), e as transic ¸˜ oes entre estados ao probabil´ ısticas e dependem apenas do estado corrente. Se o espac ¸o de estados ´ e discreto (enumer´ avel), ent˜ ao o modelo de Markov ´ e de- nominado de cadeia de Markov [17, 19]. As propriedades desses modelos s˜ ao estudadas em termos das propriedades das matrizes de transic ¸˜ oes de estados que s˜ ao utilizadas na sua descric ¸˜ ao. Existem processos de Markov que s˜ ao modelados como aproximac ¸˜ oes do mundo real, onde nem todos os estados s˜ ao perfeitamente conhecidos. Nestes casos, diz-se que o modelo ´ e escondido, e a quest˜ ao central em torno desses modelos ´ e o grau com que s˜ ao capazes de capturar a essˆ encia do processo escondido sob eles. * Este trabalho foi parcialmente financiado pela FAPERGS e CNPq.

description

Este tutorial apresenta os conceitos b´asicos das cadeias de Markov,ressaltando principalmente, as cadeias regulares e as absorventes. Tamb´emapresentam-se os principais conceitos sobre os modelos de Markov ocultos.Exemplos ilustrativos foram inclu´ıdos, para mostrar as potencialidades deaplicac¸ ˜ao destes modelos.

Transcript of Modelos de Markov e Aplicac¸ ˜oes

Modelos de Markov e Aplicacoes∗

Gracaliz P. Dimuro1 , Renata H. S. Reiser1 , Antonio C. R. Costa12 , Paulo L. R. Sousa3

1Escola de Informatica – Universidade Catolica de PelotasRua Felix da Cunha 412 – 96010-140 Pelotas, RS

2Programa de Pos-Graduacao em Computacao – Universidade Federal do Rio Grande do SulCaixa Postal 15064 – 90501-970 Porto Alegre, RS

3Mestrado em Saude e Comportamento – Universidade Catolica de PelotasRua Felix da Cunha 412 – 96010-140 Pelotas, RS

{liz,reiser,rocha }@atlas.ucpel.tche.br

Abstract. This tutorial presents the basic concepts concerning Markov chains,in particular, regular and absorbing chains. The principal concepts of Hid-den Markov Models are also presented. Some applications of these models areshown.

Resumo.Este tutorial apresenta os conceitos basicos das cadeias de Markov,ressaltando principalmente, as cadeias regulares e as absorventes. Tambemapresentam-se os principais conceitos sobre os modelos de Markov ocultos.Exemplos ilustrativos foram incluıdos, para mostrar as potencialidades deaplicacao destes modelos.

1. Introducao

Um processo de Markove um processo estocastico cujo comportamento dinamicoe talque as distribuicoes de probabilidade para o seu desenvolvimento fututo depende somentedoestado presente, nao levando em consideracaocomoo processo chegou em tal estado.

Os processos markovianos sao modelados formalmente porsistemas de transicoesde estados, onde os estados sao representados em termos de seus vetores probabilısticos,que podem variar no espaco temporal (discreto ou contınuo), e as transicoes entre estadossao probabilısticas e dependem apenas doestado corrente.

Se o espaco de estadose discreto (enumeravel), entao o modelo de Markove de-nominado decadeia de Markov[17, 19]. As propriedades desses modelos sao estudadasem termos das propriedades dasmatrizes de transicoes de estadosque sao utilizadas nasua descricao.

Existem processos de Markov que sao modelados comoaproximacoesdo mundoreal, onde nem todos os estados sao perfeitamente conhecidos. Nestes casos, diz-se queo modeloeescondido, e a questao central em torno desses modelose o grau com que saocapazes de capturar a essencia do processo escondido sob eles.

∗Este trabalho foi parcialmente financiado pela FAPERGS e CNPq.

O estudo dos modelos de Markov tem uma aplicacao muito ampla em variasareas,como, por exemplo, ciencias sociais, biologicas e administrativas. Os modelos de Markovescondidos, que surgiram originalmente no domınio de reconhecimento da fala, atual-mente tem sido empregados como modelos de computacao natural – the so-called brain’sprograms [2], em trabalhos sobre visao computacional [4] e reconhecimento de manuscri-tos, de formas, gestos e expressoes faciais, em biologia computacional, entre outros (vejaemhttp://www-sig.enst.fr/ ∼cappe ).

Este tutoriale fruto dos estudos sobre os modelos de Markov, visando a suaaplicacao em processos de tomada de decisao, que esta sendo desenvolvido junto ao Me-strado em Saude Mental e Comportamento da UCPel.

2. Modelos de Markov

Umamodelo de Markove um sistema de transicoes de estados, onde a probabilidade dosistema estar em um certo estado futuro depende apenas do estado corrente do sistema.Esta secao resume os principais conceitos basicos e propriedades desses modelos. Asprovas das proposicoes e teoremas podem ser encontradas em [17, 19].

2.1. Cadeias de Markov

Um modelo de Markov onde o espaco de estadosI e discretoe denominado deCadeia deMarkove e completamente descrito por suamatriz de transicao de estados. Esta matrize dinamica, pois permite que as probabilidades de transicao se modifiquem em funcao dotempot, ondet e discreto.

Considere uma cadeia de Markov comN estadosxn ∈ I e sejamxi, xj ∈ I.Denota-sexi(t) para significar que o processo esta no estadoxi no tempot.

Definicao 1 Sepij e a probabilidade de transicao do estadoxi(t) para o estadoxj(t+1),entao a matrizN ×N , dada por

P = [pij],

denomina-sematriz de transicao de estadosda cadeia de Markov.

Observa-se que, na Definicao 1, a soma das linhas da matrizP deve ser sempreigual a 1.

A matriz de transicao tambem pode ser dada por umdiagrama de transicoes deestados. A Figura 1 mostra o diagrama de transicoes de estados para uma cadeia deMarkov com apenas 2 estados.

Proposicao 1 Para t arbitrario, tem-se que:

(i) A probabilidade de transicao do estadoxi(t) para o estadoxj(t + n) (emn passos)edada porpn

i,j;(ii) A matriz de transicao den passos, denotada porPn, e calculada como a potencian

da matriz de transicaoP , isto e,

Pn = P n.

x0 x1 p11p00

p01

p10

Figura 1: Diagrama da matriz de transic oes de estados de uma cadeia de Markovde dois estados.

Para simular um processo de Markov, considerando um estado inicialx0, pode-seescolher um estado sucessor de acordo com as probabibilidadesp0j, paraj = 1, . . . , N ,determinando um novo estadox1. Repite-se o processo para gerar o proximo estado, eassim sucessivamente. Devidoa natureza probabilıstica do modelo, cada ves que estasimulacao for repetida,e provavel que uma sequencia diferente de estados seja obtidacomo resultado. Portanto, aunica forma de analisar o procesoe manter o registro dasprobabilidades deestarem um estado.

Definicao 2 SejaSi(t) a probabilidade de que um processo de Markov esteja em umestadoxi no tempot. Entao o vetor

s(t) =

S1(t)S2(t)

...SN(t)

e denominado devetor de distribuicao de probabilidades de estadoda cadeia de Markovno tempot.

SejasT (0) a distribuicao inicial do processo1. A evolucao do vetor de distribuicaoe governada pela matriz de transicao emt passos.

Proposicao 2 Para qualquer tempot, tem-se que

sT (t) = sT (0)Pt,

ondePt e calculada como em??esT e o vetor transposto des.

2.2. Cadeias Regulares

Considerando que o vetor de distribuicao evolui no tempo, observa-se que ha cir-cunstancias em que ocorre umadistribuicao de probabilidade de equilıbrio v tal que

limt→∞

s(t) = v,

independentemente da distribuicao inicials(0). Isto ocorre em processos de Markov de-nominados deregulares.

1sT e o vetor transposto des.

Definicao 3 Diz-se que um modelo de Markove regularse sua matriz de transicao inicialP e regular, istoe, alguma potencia deP contem somenteentradas positivas.

Segue da Definicao 3 que um processo de Markove regular se, para algumt,tem-se quePt > 0. Isto significa que, em uma cadeia de Markov regular, todo estadoeacessıvel a partir de outro, existindo um caminho de comprimento finito entre quaiquerdois estados, possibilitando a comunicacao entre todos os estados.

SejawT = [w1, w2, . . . , wN ] um vetor de comprimentoN . Diz-se quew e umvetor probabiısticosew1, w2, . . . , wN ≥ 0 ew1 + w2 + . . . + wN = 1.

Teorema 1 Se um processo de Markove regular, entao exiteunico vetor probabilısticov, denominado dedistribuicao de equilıbrio, tal que:

(i) vT P = vT ;(ii) limt→∞ P t = P ∗, ondeP ∗ e formada port linhas iguais avT .

2.3. Cadeias Nao-Regulares

Existem processos que podem apresentar estados que nao acessıveis a partir de algumoutro estado, istoe, a probabilidade de transicao para tais estadose igual a zero. Alemdisso, um estado de um processo de Markov finito podera eventualemnte atingir um estadode comunicacao fechada, absorvente, cuja probabilidadee igual a 1.

Um estadoxi de uma cadeia de Markove denominado deestado absorventese,uma vez nesse estado,e impossıvel sair dele, istoe, pii = 1. Segue quepij = 0, parai 6= j.

Definicao 4 Diz-se que uma cadeia de Markove absorventese ela apresenta um estadoabsorvente e se de cada estado nao absorventee possıvel ir para algum estado absor-vente em algum tempot, isto e, para cada estado nao absorventexi(t), existe um estadoabsorventexj(t + 1) tal quepij > 0, para algumt.

Observa-se que, e uma cadeia de Markov absorvente, o estado do sistema seraeventualemente um dos estados absorventes.

Dada uma cadeia de Markov comk estados absorventes,e possıvel redistribuiras linhas da matriz de transicao P , de modo que os estados absorventes fiquem naskprimeiras linhas. Com isso, um processo de Markon nao regular pode ser sempre re-organizado em quatro submatrizes.

Definicao 5 SejaP a matriz de transicao de uma cadeia de Markov comk estados ab-sorventes. Entao:

(i) A matriz canonicada cadeiae dada por:

P ∗ =

(Ik θ

Px→a Px→x

)(ii) A matriz fundamentale obtida por:

F = [I − Px→x]−1

(iii) A matriz de probabilidade de absorcaoe calculada como o produto:

A = FPx→a

ondeIk e uma matriz diagonal unitaria k × k que representa osk estados absorventes,θ e uma matriz nula,Ps→a representa as probabilidades de transicao de qualquer estadopara todos os estados absorventes,Ps→s representa as probabilidades de transicao entretodos os estados nao absorventes, eaij e a probabilidade de que o sistema venha a estarno estado absorventexj(t), para algum tempot, dado que esteja inicialmente no estadonao absorventexi.

2.4. Aplicacoes de Cadeias Regularesa Genetica

Nesta secao introduz-se uma aplicacao trivial das cadeias de Markov em problemas deGenetica, atraves de um exemplo extraıdo de [19].

Certas caracterısticas das plantas e dos animais sao determinadas por um par degenes, cada um dos quais podendo ser de dois tipos, denotados porA e a. Existem tresgenotipos possıveis: AA, Aa eaa (os genotiposAa eaA sao identicos).

Em alguns casos esses tres genotipos resultam em tres caracterısticas distintas eem outros oAA e o Aa exibem uma mesma forma observavel. Nestaultima situacao,diz-se que o geneA domina o genea.

O indivıduo chama-se dominante se tem o genotipo AA, heterozigoto se temgenotipoAa e recessivo se tem o genotipoaa. Por conveniencia, denota-se um indivıduoAA porD, umAa porH e umaa porR.

No caso de cruzamento, o filho herda um gene de cada um dos pais. Admita-seque as probabilidades dos genotipos dos filhos de acordo com os dos pais sejam as dadasnas Tabelas 1, 2 e 3, a seguir.

Tabela 1: Probabilidades dos gen otipos do filho de dois indivıduos H

D (AA) H (Aa) R (aa)0.25 0.50 0.25

Tabela 2: Probabilidades dos gen otipos do filho de um indivıduo H com outro D

D (AA) H (Aa) R (aa)0.50 0.50 0.00

Tabela 3: Probabilidades dos gen otipos do filho de um indivıduo H com outro R

D (AA) H (Aa) R (aa)0.00 0.50 0.50

As cadeias de Markov intervalares podem auxiliar em calculos sobre hereditarie-dade, como descrito neste proximo exemplo.

Exemplo 1 Suponha que no tempo0, um indivıduo e acasalado com outro, sendo estedo tipo H. No tempo1, o produto do acasalamentoe novamente acasalado com umindivıduoH. O processo repete-se entao da mesma maneira. Considera-se como estadodo sistema no tempot o genotipo dot-esimo filho. Tem-se como resultado uma cadeia deMarkov com tres estados(D, H, R), cuja matriz de transicao e dada por:

P =

0.5 0.5 00.25 0.5 0.250 0.5 0.5

,

sendo a matriz de transicao de 2 passos calculada como (com precisao igual a 2 noMaple):

P2 =

0.38 0.50 0.130.25 0.50 0.250.13 0.50 0.38

. (1)

Observa-se que, em 1, devido a erros de arredondamento, tem-se que∑3

j=1 p1j 6=1.

Pela observacao da matriz de transicao de dois passosP2 dada em 1, que apre-senta todas as entradas positivas, conclui-se que esta matriz aproxima uma matriz realregular que tem uma distribuicao de equilıbrio v aproximada pelo vetor probabilısticoV = [v1, v2, v3], tal queV P ≡ V . O sistema correpondentee:

5v1 + 0.25v2 = v1

5v1 + 5v2 + 5v3 = v2

0.25v2 + 0.5v3 = v3

v1 + v2 + v3 = 1

A solucao do sistema resulta na distribuicao real de equilıbrio v = [.25, .5, .25].

2.5. Aplicacoes de Cadeias Absorventes na Aprendizagem por Pares Associados

Nesta secao apresenta-se o classicomodelo de Bower[3] de aprendizagem por pares as-sociados. Neste modelo, uma lista de estımulose apresentada a um paciente em ordemaleatoria. Os estımulos podem ser palavras, numeros, sılabas sem nexo, figuras ouıtenssimilares. A cada estımulo corresponde uma resposta correta que se supoes que o pacienteaprenda. Antes que a experiencia comece realmente, o paciente pode ser informado dealgum modo sobre o conjunto das respostas ou pode tomar cinhecimento delas gradula-mente no decorrer da experiencia.

A experiencia consiste em apresentar ao paciente um estımulo de cada vez, du-rante um breve perıodo de tempo, durante o qual solicita-se ao paciente tentar indicar aresposta correta. Apos o paciente ter dado sua resposta, mostra-se a ele a resposta cor-reta. Isso serve como uma confirmacao de uma resposta correta ou como uma correcao de

uma resposta incorreta. Depois de apresentada toda a lista de estımulos, elae novamenteapresentada, porem em ordem aleatoria diferente da anterior.

Na situacao experimental modelada por Bower os estımulos consistiam em 10pares de consoantes, enquanto as respostas eram os numeros 1 e 2. A cada par de con-soantes atribuıa-se aleatoriamente um desses numeros como resposta, antes do inıcio daexperiencia. Os estımulos eram apresentados e pedia-se que o paciente para responder1 ou 2. Apos dar sua resposta, o paciente era informado da resposta correta ao estımuloapresentado. Depois de exibidos os 10 pares de consoantes (constituindo um ensaio)os 10 cartoes com estımulos eram baralhados e novamente apresentados ao paciente.Esse processo era repetido ate que o paciente coseguisse passar sem erros pela lista deestımulos, por duas vezes consecutivas. Ao acontecer isso, considerava-se que o pacientetinhaaprendidoas respostas corretas.

Para analisar esse tipo de experiencia utilizando cadeias de Markov, considera-seos seguintes axiomas:

1. Cada parestımulo-respostaencontra-se em um estado dentre dois possıveis, emqualquer ensaion: condicionado(C(n)) ou palpite (P (n)). O estado decondi-cionamentodo par estımulo-resposta corresponde ao paciente teraprendidoo par.Caso contrario, o paciente estara simplesmente adivinhando.

2. Em qualquer ensaion, a probabilidade de transicao deP (n) paraC(n + 1) e umaconstantec(0 ≤ c ≤ 1); segue que a probabilidade de uma transicao deP (n) paraP (n + 1) e1− c.

3. Em qualquer ensaion, a probabilidade de transicao deC(n) paraC(n + 1) e 1;segue que a probabilidade de uma transicao deC(n) paraP (n + 1) e 0.

4. Se estiver emP (n), em qualquer ensaion, a probabilidade de sucessoS(n) (res-posta correta ao estımulo) e1/N , ondeN o numero total de respostas possıveis.

5. Cadaıtem esta no estado nao condicionado (palpite) no ensaio inicial.

Numa primeira modelagem, considere uma cadeia de Markov com dois estados:condicionado (1) e palpite (2). De acordo com o axioma 5, a distribuicao iniciale entao:

sT =(

0.00 1.00).

Pelos axiomas 2 e 5, a matriz de transicao inicial da cadeia de Markove:

P =

(1.00 0.00c 1− c

). (2)

Fazendoc = 0.30 na equacao 2, tem-se:

P =

(1.00 0.000.30 0.70

).

Calcula-se algumas potencias da matriz P (com precisao igual a 2):

P5 =

(1.00 0.000.83 0.17

), P15 =

(1.00 0.001.00 0.0047

), P100 =

(1.00 0.001.00 0.32.10−15

).

Calcula-se a distribuicao da cadeia de Markov nos diversos ensaios realizados:

s(1) = s(0)P1 =(

0.30 0.70), s(5) = s(0)P5 =

(0.83 0.17

),

s(10) = s(0)P10 =(

0.97 0.028), s(15) = s(0)P15 =

(1.00 0.0047

), . . . .

Observa-se que os resultados obtidos indicam, por exemplo, que no tempo 10 (ouseja, logo apos o decimo ensaio), ha uma probabilidade de aproximadamente97% de umpaciente sob teste estar no estado condicionado. Ja no tempo 15 ha uma probabilidadevirtual (pois o valor 1 esta sujeito ha erros de arredondamento) de100% de um pacienteestar no estado condicionado.

Refina-se agora o modelo, considerando-o como uma cadeia de Markov com tresestados: condicionado (1), palpite errado (2) e palpite certo (3). Para determinar a matrizde transicao da cadeia de Markov correpondente utiliza-se o axioma 4, juntamente comos outros axiomas. Assim, tem-se quep11 = 1, p12 = 0, p13 = 0, p21 = c, p31 = c.

Para calcularp23, sejamGn+1 o evento “o paciente tenta adivinhar no ensaion +1”, Sn+1 o evento “o paciente responde corretamente no ensaion + 1” e Tn o evento “opaciente faz um palpite errado no ensaion”. Se Pr(x) denota a probabilidade dex ePr(x|y) denota a probabilidade condicional dex dado quey tenha ocorrido, tem-se que:

p23 = Pr(Sn+1 ∩Gn+1|Tn) = Pr(Sn+1|Gn+1 ∩ Tn)Pr(Gn+1|Tn). (3)

Pelo axioma 2, tem-se quePr(Gn+1|Tn) = 1 − c, e, pelo axioma 4,e validoquePr(Sn+1|Gn+1 ∩ Tn) = 1/N , ondeN e o numero total de respostas possıveis. Daequacao 3, segue que:

p23 =1

N(1− c)

.

De forma analoga, conclui-se que:

p22 = (1− 1

N)(1− c), p32 = (1− 1

N)(1− c), p33 =

1

N(1− c).

Assim, a matriz de transicao dessa cadeia de Markove

P =

1.00 0.00 0.00c (1− 1

N)(1− c) 1

N(1− c)

c (1− 1N

)(1− c) 1N

(1− c)

, (4)

quee uma cadeia absorvente, com o estado 1 absorvente e os estados 2 e 3 nao absorven-tes.

Os axiomas 4 e 5 implicam que a distribuicao inicial dessa cadeiae:

s(0) =(

0.00 1− 1N

1N

).

Sejamc = 0.30 eN = 4. Entao a equacao 4 torna-se (com precisao igual a 3):

P =

1.000 0.000 0.0000.30 0.525 0.1750.30 0.525 0.175

e a distribuicao iniciales(0) =

(0.000 0.750 0.250

).

Calcula-se a distribuicao da cadeia em varios tempos, obtendo-se, por exemplo:

s(2) =(

0.510 0.368 0.123), s(15)

(0.995 0.356 0.119.10−2

),

s(30) =(

1.000 0.169.10−4 0.563.10−5), . . .

Observa-se que, no trigesimo ensaio,e virtualmente certo que (a incertezae devidoaos erros de arredondamento) que o paciente esteja no estado condicionado.

Uma importante questao e saber qual o numero de vezes em que o paciente seencontra no estado 2, ou seja, o numero de respostas incorretas dadas pelo paciente aopar estimulo-resposta em questao. Em [19] ha a prova de que o numero de vezes que opaciente se encontra nos estados 2 ou 3e finito, istoe, eventualmente ele estara no estadocondicionado.

Observe que a matriz canonica dessa cadeia de Markove:

P ∗ =

1.000 0.000 0.0000.300 0.525 0.1750.300 0.525 0.175

onde

Px→x =

(0.525 0.1750.525 0.175

),

Px→a =

(0.3000.300

).

O numero medios esperado de vezes em que o paciente se encontra no estado 2ou 3e dado por

(0.750 0.250

)F.

Tem-se que

I − Px→x =

(1.000 0.0000.000 1.000

) (0.525 0.1750.525 0.175

)=

(0.475 −0.175−0.525 0.825

),

e, portanto,

F = [I − Px→x]−1 =

(2.750 0.5831.750 1.583

).

Consequentemente, tem-se que

(0.750 0.250

)F =

(2.500 0.833

),

o que significa que, por exemplo, o numero esperado de respostas incorretas dadas pelopaciente aoıtem em questaoe 2.5. Alem disso, tem-se que a matriz de probabilidade deabsorcaoe dada por:

A = FPx→a =

(1.0001.000

),

significando que, desconsiderando os erros de arredondamento, ha100% de probabilidadede que o paciente venha a estar no estado condicionado eventualmente.

3. Modelos de Markov Ocultos

Em alguns casos existe a possibilidade de que se tenha uma descricao incompleta doambiente em que ocorre um processo Markoviano, onde o espaco de estadose des-conhecido. Nestes casos,e possıvel definir um modelo de Markov considerando umaaproximacao desse espaco. Modelos deste tipo sao denominadosModelos de MarkovOcultos(HMM) [15]. Esta secao apresenta uma discussao sobre esses modelos,

3.1. Conceitos Basicos

Definicao 6 Um Modelos de Markov Ocultos(HMM) e uma triplaM = (s, P, B), ondeconsideram-se:

(i) Um conjunto especıficoOk de observacoes do tipok que resultam de um experimento;(ii) Um conjuntoX de estadosxi, onde em cada estadoxi e possıvel realizar uma

observacao bi(k), comi = 1, . . . , N ek ∈ Ok;(iii) Uma distribuicao de probabilidade para o estado inicial dada pelo vetors = [si],

ondesi = Pr(xi(0));(iv) Uma distribuicao de probabilidade para as transicoes de estados dada pela matriz

P = [pij], ondepij = Pr(xj(t + 1)|xi(t));(v) Uma distribuicao de probabilidade para as observacoes em cada estado dada pela

matrizB = [bj(k)], ondebj(k) = Pr(Ok|xj).

p22

x1 x2

p11 p12

p21b1(m)b1(n) b2(n)

b2(m)

xendp2-endxbegin pbegin-1

Figura 2: Diagrama de transic oes de estados de um modelo de Markov ocultode dois estados n ao terminais, onde h a a probabilidade de emiss ao dedois sımbolos (m e n).

Pode-se pensar nesse tipo de modelo como umautomato finito (nao deter-minıstico) comsaıda [9], cujas transicoes sao vaziase probabilısticas, sendo que, emcada estado podera haver aemissao de sımbolos(ıtens observaveis) segundo uma certaprobabilidade.

Exemplo 2 Os modelos ocultos podem ser representados como diagramas de esta-dos, como, por exemplo, o modelo oculto com conjunto de estadosX = {xbegin, x1,x2, xend} da Figura 2, onde somente os estados nao terminaisx1 ex2 emitem os simbolos(ıtens observaveis)m en.

Simulando um experimento, a partir do estadox1 e possıvel ir para o outro estadox2 ou nao, de acordo com as probabilidades de transicaop12 ouP11, respectivamente. Omesmo acontece no estadox2. Segue-se assim sucessivamente, ate atingir o estado final.

Em cada estado nao terminalobserva-sea emissao do sımbolom oum, de acordocom as probabilidades de emissao do sımbolom ou n no estadox1 (b1(m), b1(n)) e noestadox2 (b2(m), b2(n)).

Como resultado, obtem-se uma sequenciaoculta(que naoe observada) de estadospercorridos e um sequencia de sımbolos (quee observada). Uma sequencia de sımbolosque pode ser observada, por exemplo,eO = m,n,m; uma sequencia possıvel de estadosocultose I = xbegin, x1, x1, x2, xend. A probabilidade do modelo percorrer os estado deI para produzir a sequencia de observacoesO e dada por:

Pr(O, I|M) = pbegin−1 · b1(m) · p11 · b1(n) · p12 · b2(m) · p2−end.

Assim, dada uma sequencia de observacoes, nao se conhece a sequencia de esta-dos pela qual passa o modelo, mas somente uma funcao probabilıstica deste caminho.

Exemplo 3 Um exemplo extraido de [2] consiste no modelo das urnas. Suponha queexitemN urnas contendoL bolas coloridas (preto, branco e cinza). Uma pessoa iniciapor uma das urnas, retira uma bola e observa a sua cor, recoloca-a na urna, e vai paraoutra urna ou permanece na mesma urna, com uma certa probabilidade, e toma outrabola, e assim sucessivamente. O processo termina apos W sequencias de passos destetipo.

Considere uma configuracao especıfica de N = 2 urnas e um tempo deobservacao W = 3, como mostra a Figura 3, e uma distribuicao de probabilidade dadapor:

Estado 1

Estado 2

.7

.3

t = 1 t = 2 t = 3

.8.2

.1.9

Figura 3: Esquema do experimento com o modelo de urna com 2 estados em 3fases de tempo.

s =

(0.70.3

).

A matrizB define as probabilidades das possıveis observacoes para cada estado:

B =

(b1(Branco) b1(Preto) b1(Cinza)b2(Branco) b2(Preto) b2(Cinza)

)=

(0.1 0.4 0.50.6 0.2 0.2

).

A matriz das probabilidades de transicao de estadoe dada por:

P =

(0.8 0.20.1 0.9

).

A Figura 3 mostra um esquema do experimento. O modelo esta representadona Figura 4. O algoritmo dado na Tabela 4e utilizado para gerar as sequencias deobservacoes. Salienta-se que a sequencia mais provaveleO = {Cinza, Cinza, Cinza}.Isto ocorre porque o estado inicial mais provavel e o Estado 1(urna 1), Cinza e a cormais provavel de ser observada noEstado 1, e, a partir doEstado 1, o estado maisprovavele ainda oEstado 1. A probabilidade de ocorrer esta sequencia dada a sequenciaI = {Estado1, Estado1, Estado1} de estadose calculada entao como:

Pr(O, I|M) = s1 · b1(cinza) · p11 · b1(cinza) · p11 · b2(cinza) = 0.056.

Exemplo 4 Considere um jogo de cara de cara (h) ou coroa (t) no qual sabe-se que olancador pode utilizar duas moedas, uma normal e uma viciada. A moeda normal ofe-rece probabilidade de50% tanto para cara como para coroa, enquanto a moeda viciadaoferece75% de chance para cara e apenas25% para coroa.

Sabe-se tambem o lancador pode iniciar o processo escolhendo qualquer uma dasmoedas com igual probabilidade, entretanto, uma vez tendo utilizado uma das moedas(normal ou viciada) a probabilidade de que o lancador a troque por outrae de apenas20%.

.1

.7 .3

.8 .2

.9branco = .1preto = .4cinza = .5

branco = .1preto = .4cinza = .5

Estado 1 Estado 2

Figura 4: Modelo de urna com 2 estados.

Tabela 4: Algoritmo gerador de sequ encias de observac oes.

t = 1Escolha um estado inicial utilizando sEnquanto t <= W :

Escolha uma observac ao O utilizando BEscolha um novo estado utilizando Pt = t + 1

O modelo esta representado na Figura 5. Tem-se entao o conjunto de observacoesO = {h, t}, o conjunto de estadosX = {N = normal, V = viciada}, a matrizB daspossıveis observacoes para cada estado:

B =

(bN(h) = 0.50 bN(t) = 0.50bV (h) = 0.75 bV (t) = 0.25

)a matriz de transicao:

P =

(0.8 0.20.2 0.8

)e a distribuicao inicial:

s =

(0.50.5

).

Observe que, neste caso,e mais difıcil descobrir qual a sequencia maisprovavel observada em um dado experimento. Considere entao uma dada sequencia deobservacoesO = {h, h, t, t}. Em princıpio nao sabe-se a sequencia de estados que a ge-rou. Entretanto, considerando uma dada sequencia de estados (por exemplo, a sequenciaI = {N, N, V, N}), e possıvel estimar qual a probabilidade da sequenciaO ter sidogerada pelo modelo a partir desse caminho de estados:

Pr(O, I|M) = sN · bN(h) · pNN · bN(h) · pNV · bV (t) · pV N · bN(h) = 0, 0005.

N = .5

bN(h) = .5bN(t) = .5

.8V = .5

.2

0.2bV(h) = .25bV(h) = .75

.8

Figura 5: Modelo das moedas.

3.2. A Probabilidade de uma Sequencia de Observacoes

Uma discussao interessante, que pode ser feita a partir da analise dos exemplos 2, 3 e 4,e o problema relacionadoa descoberta da probabilidade de que uma dada sequenciade observacoes O tenha sido gerada porM . Para calcular a probabilidade de quetal sequencia venha a ser observada, deve-se considerar a soma das probabilidades dageracao dessa sequencia sobre todos os possıveis caminhos que a geram. Assim, sejaI = x1, x2, . . . , xW uma sequencia particular de estados possıvel emW passos e consi-dere a expansao dePr(O|M) em todos os estados, dada por:

Pr(O|M) =∑∀I

Pr(O, I|M). (5)

Para qualquer sequencia individual de estados, pode-se usar a regra de Bayes naequacao 5, obtendo:

Pr(O, I|M) = Pr(O|I, M)Pr(I, M). (6)

O primeiro termo do lado direito da equacao 6,Pr(O|I,M), e a probabilidade dese ver uma dada sequencia de observacoes, considerando um dado conjunto de estados.Para os estados conhecidos, considerandoOk, o calculoe realizado como:

Pr(O|I,M) =∏j∈I

bj(k).

O segundo termo do lado direito da equacao 6e dado pelo produto da probabili-dade de iniciar no estadox1 e passar pelos estadosx2, . . . , xW :

Pr(I|M) = s1p12p23 . . . p(W−1)W .

Assim, a equacao 5 pode ser escrita como:

Pr(O, I|M) = s1b1(k)W−1∏i=1

bi+1(k)pi(i+1). (7)

Tabela 5: Algoritmo para computar Pr(O|M).

Versao Iterativa Versao Recursiva

α1 = [sibi(1)] Defina α(W ):Para t em{1, . . . ,W − 1}: se W == 1:

αt+1 = P · [αtibi(t + 1)] [sibi(1)]

Pr(O|M) =∑N

i=1 αWi senao:

P · [αW−1i bi(W )]

Pr(O|M) =∑N

i=1 αWi

Considerando um modelo onde se tem os estados distinguıveisxbegin exend (comoo modelo da Figura 2), entao a equacao 7, paraW +2 passos, onde a squenciae observadanos estados nao terminais, torna-se:

Pr(O, I|M) = pbegin−1

W∏i=1

bi(k)pi(i+1),

ondexW+1 = xend.

Uma crıtica grave a esta formulacaoe que o custo computacional do somatorio daequacao 5e muito alto (da ordemNW ). Entretanto,e possıvel usar resultados parciais,que sao acumulados em um vetorαt, conforme descrito no procedimento “forward” doalgoritmo da Tabela 5.

Exemplo 5 Considere o modelo das urnas apresentado no Exemplo 3. Define-seαti como

a probabilidade de acontecer a observacaoOt no estadoxi. Entao, se

s =

(0.70.3

)e B(Cinza) =

(0.50.2

),

tem-se que o vetor inicialα1 e dado por:

α1 = [sibi(1)] =

(s1b1(Cinza)s2b2(Cinza)

)=

(0.350.06

).

Sucessivamente, calcula-se:

α2 = P [α1i bi(2)]

=

(0.8 0.20.1 0.9

) (α1

1b1(Cinza)α1

2b2(Cinza)

)=

(0.8 0.20.1 0.9

) (0.1750.012

)=

(0.1420.0283

)

e

α3 = P [α2i bi(3)]

=

(0.8 0.20.1 0.9

) (α2

1b1(Cinza)α2

2b2(Cinza)

)=

(0.8 0.20.1 0.9

) (.0712.00566

)=

(.0581.0122

).

Finalmente, a probabilidade de ver a sequenciaCinza,Cinza,Cinzae dada por:

Pr(O|M) =N∑

i=1

αWi =

2∑i=1

α3i = 0.0703.

Exemplo 6 Considere o modelo das moedas apresentado no Exemplo 4. Define-seαti

como a probabilidade de acontecer a observacaoOt no estadoxi. Entao, se

s =

(0.50.5

)e B(h) =

(0.50.75

),

tem-se que o vetor inicialα1 e dado por:

α1 = [sibi(1)] =

(s1b1(h)s2b2(h)

)=

(0.250.375

).

Sucessivamente, calcula-se:

α2 = P [α1i bi(2)]

=

(0.8 0.20.1 0.9

) (α1

1b1(h)α1

2b2(h)

)=

(0.8 0.20.2 0.8

) (0.1250.281

)=

(0.1560.250

)e

α3 = P [α2i bi(3)]

=

(0.8 0.20.2 0.8

) (α2

1b1(t)α2

2b2(t)

)=

(0.8 0.20.2 0.8

) (.0781.0625

)=

(.0750.0656

),

α4 = P [α3i bi(4)]

=

(0.8 0.20.2 0.8

) (α3

1b1(t)α3

2b2(t)

)=

(0.8 0.20.2 0.8

) (.0375.0164

)=

(.0333.0206

).

Finalmente, a probabilidade de ver a sequenciah,h,t,te dada por:

Pr(O|M) =N∑

i=1

αWi =

2∑i=1

α4i = 0.0539.

3.3. Caminho GeradorOtimo

Outra questao fundamentale, dada um sequencia de observacoesO, descobrir a sequenciade estadosI mais provavel, que seja capaz de gerarO. Um criterio simples para tratareste problemae considerar a sequencia que torna cada um dos estados o mais provavel2.

Observa-se que, de forma analoga ao procedimento dado no algoritmo da Tabela 5,e possıvel definir um procedimento “backward”, atraves de um vetorβ(t) que registra aprobabilidade de alcancar um dos estados finais, dado um determinado estado corrente.Este vetorβ(t) pode ser utilizado para definir um algoritmo para prever a probabilidadede sequencias de estados de forma analoga ao algoritmo da Tabela 5.

Sejaγti a probabilidade de terminar no estadoxi no tempot, dada a sequencia de

observacoesO, calculada como:

γti = Pr(xi(t) = si|O,M). (8)

Em 8, pode-se utilizar os vetoresα(t) eβ(t) para expressarγti , obtendo:

γt =[αt

iβti ]

Pr(O|M), (9)

ondePr(O|M) e um fator de normalizacao tal que∑N

i=1 γti = 1.

Dadoγt, os estados mais provaveis sao expressados pelos seusındices, como:

indext = ındice domax1≤i≤N{γti}.

Para computar a equacao 9, pode-se utilizar oalgoritmo de Viterbi, onde, pararegistrar os estados mais provaveis, define-se um vetorr(t), como mostra o algoritmodado na Tabela 6.

2Pode acontecer que nao exista um caminho entre estados sucessores, mas isto geralmente nao ocorrena pratica.

Tabela 6: Algoritmo para computar o caminho gerador otimo.

Vesao Iterativa Versao Recursiva

γ1 = [sibi(1)] Defina r(W):r(1) = [index1] Se W == 1:Para t em{1, . . . ,W − 1}: γ1 = [sibi(1)]

γt+1 = P · [γtibi(t + 1)] r(1) = [index1]

r(t + 1) = anexe (indext+1, r(t)) Senao:γW = P · [γW−1

i bi(W )]r(W ) = anexe (indexW , r(W − 1))

Exemplo 7 Considerando o modelo das urnas trabalhado nos Exemplos 3 e 5, dada asequencia de observacoesO = {Cinza, Cinza, Cinza}, pode-se calcular a sequenciade estados mais provavel para produzı-la. Primeiramente, calcula-se:

γ1 = [sibi(1)] =

(s1b1(Cinza)s2b2(Cinza)

)=

(.35.06

),

ondemax1≤i≤N{γ1i } = .35, logo index1 = 1(x1(1)), e, portanto,

r(1) = [index1] =(

1(x1(1)) .... ....).

Calcula-se sucessivamente:

γ2 = P [γ1i bi(2)]

=

(.8 .2.1 .9

) (γ1

1b1(Cinza)γ1

2b2(Cinza)

)=

(.8 .2.1 .9

) (.175.012

)=

(.142.0283

),

ondemax1≤i≤N{γ2i } = .142, logo index2 = 1(x1(2)), e, portanto,

r(2) =(

1(x1(1)) 1(x1(2)) ....);

γ3 = P [δ2i bi(3)]

=

(.8 .2.1 .9

) (γ2

1b1(Cinza)γ2

2b2(Cinza)

)=

(.8 .2.1 .9

) (.0712.00566

)=

(0.05810.0122

),

ondemax1≤i≤N{γ3i } = .0581, index3 = 1(x1(3)), e, portanto,

r(3) =(

1(x1(1)) 1(x1(2)) 1(x1(3))).

Logo o caminho geradorotimo da sequenciacinza,cinza,cinzae x1, x1, x1, comoera esperado.

Exemplo 8 Considerando o modelo das moedas trabalhado nos Exemplos 4 e 6, dada asequencia de observacoesO = {h, h, t, t}, pode-se calcular a sequencia de estados maisprovavel para produzı-la. Primeiramente, calcula-se:

γ1 = [sibi(1)] =

(s1b1(h)s2b2(h)

)=

(.25.675

),

ondemax1≤i≤2{γ1i } = .675, logo index1 = 2(x2(1)), e, portanto,

r(1) = [index1] =(

2(x2(1)) .... ....).

Calcula-se sucessivamente:

γ2 = P [γ1i bi(2)]

=

(.8 .2.2 .8

) (γ1

1b1(h)γ1

2b2(h)

)=

(.8 .2.2 .8

) (.125.281

)=

(.156.250

),

ondemax1≤i≤2{γ2i } = .250, logo index2 = 2(x2(2)), e, portanto,

r(2) =(

2(x2(1)) 2(x2(2)) ....);

γ3 = P [γ2i bi(3)]

=

(.8 .2.2 .8

) (γ2

1b1(t)γ2

2b2(t)

)=

(.8 .2.2 .8

) (.0781.0625

)=

(0.07500.0656

),

ondemax1≤i≤2{γ3i } = .075, index3 = 1(x1(3)), e, portanto,

r(3) =(

2(x2(1)) 2(x2(2)) 1(x1(3)));

γ4 = P [γ3i bi(4)]

=

(.8 .2.2 .8

) (γ3

1b1(t)γ3

2b2(t)

)=

(.8 .2.2 .8

) (.0375.0164

)=

(0.03330.0206

),

ondemax1≤i≤2{γ4i } = .0333, index4 = 1(x1(4)), e, portanto,

r(4) =(

2(x2(1)) 2(x2(2)) 1(x1(3)) 1(x1(4))).

Logo o caminho geradorotimo da sequenciah,h,t,tex2, x2, x1, x1.

3.4. Aperfeicoando o Modelo

O principal problema em HMMe descobrir omelhor modeloM , o quee muito difıcil enao tem solucao analıtica conhecida. Pode-se derivar uma aproximacao quee melhor quea versao corrente. Este procedimento pode ser repetido ate que nehuma melhoria possaser verificada.

Em linhas gerais, esta estrategia iniciara com um conjunto inicialM = (s, P, B)e executar o modelo um numero suficiente de vezes para estimar um novo conjunto deparametrosM ′ = (s′, P ′, B′). Estas estimativas sao entao utilizadas como o novo modelo,e, entao, o processoe repetido.

As estimativas des eB sao simples de calcular:

s′ = γt (10)

e

bj(k)′ =

∑Wt=1,Ot=k γt

j∑Wt=1 γt

j

. (11)

Tabela 7: Algoritmo de Baum-Welch.

Repita os seguintes passos at e que ospar ametros do modelo estejam de acordocom a toler ancia considerada:

Estimar s utilizando a equac ao 10Estimar B utilizando a equac ao 11Estimar P utilizando a equac ao 12

Para estimarpij, calcula-seηij como:

ηij = Pr(xi(t) = si, xi(t + 1) = sj|), M)

resultando em

ηij =αt

ipijbj(t + 1)βt+1j

Pr(O|M),

de tal forma que a estimativa pode ser obtida como uma media ao longo do tempo:

p′ij =

∑Wt=1 ηij∑Wt=1 γt

j

. (12)

A Tabela 7 apresenta o algoritmo de Baum-Welch para aperfeicoamento do mo-delo pelo calculo sucessivo de estimativas para os parametros.

Referencias

[1] J. F. F. Araujo, G. P. Dimuro, M. A. Campos, “Probabilidades Intervala-res com Aplicacoes no Maple”, ESIN/UCPel, Pelotas, RS, 2001.(http://gmc.ucpel.tche.br/fmc )

[2] D. H. Ballard, “An Introduction to Natural Computation”, MIT Press, Cambridge, 1997.

[3] G. H. Bower, Applications of a Model to Paired-Associate Learning, “Psychometrika”,Vol. 26, pp. 225-2380, 1961,

[4] H. Bunke, T. Caelli (Eds), “Hidden Markov Models Applied in Computer Vision”, in Ma-chine Perception and Artificial Intelligence, Vol. 45, World Scientific, N. J., 2001.

[5] M. A. Campos, “Uma Extensao Intervalar para a Probabilidade Real”, Tese de Doutorado,Centro de Informatica/UFPE, 1997.

[6] M. A. Campos, Interval probabilities, application to discrete ramdom variables, “Seletado XXII CNMAC” (E.X.L. de Andrade, J. M. Balthazar, S. M. Gomes, G. N. Silva,A. Sri Langa, eds.), TEMA, Vol. 1.2, pp. 333-344, SBMAC, 2000.

[7] M. A. Campos, G. P. Dimuro, A. C. R. Costa, J. F. F. Araujo, A. M. Dias, “ProbabilidadeIntervalar e Cadeias de Markov Intervalares no Maple”, “Seleta do XXIV CNMAC”(E.X.L. de Andrade, J. M. Balthazar, S. M. Gomes, G. N. Silva, A. Sri Langa, eds.),TEMA, SBMAC, 2002.

[8] A. M. Dias, G. P. Dimuro, “Matematica Intervalar com Aplicacoes no Maple”,ESIN/UCPel, Pelotas, 2000. (http://gmc.ucpel.tche.br/mat-int )

[9] J. Hopcroft and J. D. Ullman, “Introduction to Automata Theory, Languages and Compu-tation”, Addison-Wesley, Reading, 1979).

[10] U. W. Kulisch, W. L. Miranker, “Computer Arithmetic in Theory and Practice”, AcademicPress, New York, 1981.

[11] H. E. Kyburg, Jr., Interval-valued Probabilities,http://www.ensmain.rug.ac.be/ ipp .

[12] M. B. Monagan, K. O. Geddes, K. M. Heal, G. Labahn, and S. M. Vorkoetter, “Maple V:Program. Guide”, Springer, N. York, 1998.

[13] R. E. Moore,“Methods and Applications of Interval Analysis”, SIAM, Philadelphia, 1979.

[14] A. Neumaier, “Interval Methods for Systems of Equations”, Cambridge University Press,Cambridge, 1990.

[15] L. R. Rabiner and B. H. Juang, An Introduction to Hidden Markov Models, “IEEE ASSPMagazine”, 3(4):4-16, 1986.

[16] B. Tessem, Interval Probability Propagation, “International Journal of Approximate Rea-soning”, 7:95-120, 1992.

[17] K. S. Trivedi, “Probability and Statistics with Reliability, Queuing, and Computer ScienceApplications”, Prentice-Hall, Englewood Cliffs, NJ, 2000.

[18] K. Weichselberger, Axiomatic foundations of the theory of interval-probability, “Sympo-sia Gaussiana”, Conference B: Statistical Sciences, pp. 47-64, Munich, Germany,August 2-7, 1993.

[19] W. Yoselogff, “Finite Mathematics”, Worth Publishing, New York, 1975.

[20] I. O. Kozine and L. V. Utkin, Interval-Valued Finite Markov Chains, “Reliable Compu-ting”, 8(2): 97-113, 2002.