Modelos de Markov e aplicações

download Modelos de Markov e aplicações

of 22

Transcript of Modelos de Markov e aplicações

  • 8/2/2019 Modelos de Markov e aplicaes

    1/22

    Modelos de Markov e Aplicacoes

    Gracaliz P. Dimuro1 , Renata H. S. Reiser1 , Antonio C. R. Costa12 , Paulo L. R. Sousa3

    1Escola de Informatica Universidade Catolica de Pelotas

    Rua Felix da Cunha 412 96010-140 Pelotas, RS

    2Programa de Pos-Graduacao em Computacao Universidade Federal do Rio Grande do Sul

    Caixa Postal 15064 90501-970 Porto Alegre, RS

    3Mestrado em Saude e Comportamento Universidade Catolica de Pelotas

    Rua Felix da Cunha 412 96010-140 Pelotas, RS

    {liz,reiser,rocha}@atlas.ucpel.tche.br

    Abstract. This tutorial presents the basic concepts concerning Markov chains,

    in particular, regular and absorbing chains. The principal concepts of Hid-

    den Markov Models are also presented. Some applications of these models are

    shown.

    Resumo. Este tutorial apresenta os conceitos basicos das cadeias de Markov,

    ressaltando principalmente, as cadeias regulares e as absorventes. Tambem

    apresentam-se os principais conceitos sobre os modelos de Markov ocultos.

    Exemplos ilustrativos foram includos, para mostrar as potencialidades deaplicacao destes modelos.

    1. Introducao

    Um processo de Markov e um processo estocastico cujo comportamento dinamico e tal

    que as distribuicoes de probabilidade para o seu desenvolvimento fututo depende somente

    do estado presente, nao levando em consideracao como o processo chegou em tal estado.

    Os processos markovianos sao modelados formalmente por sistemas de transic oes

    de estados, onde os estados sao representados em termos de seus vetores probabilsticos,

    que podem variar no espaco temporal (discreto ou contnuo), e as transicoes entre estados

    sao probabilsticas e dependem apenas do estado corrente.

    Se o espaco de estados e discreto (enumeravel), entao o modelo de Markov e de-

    nominado de cadeia de Markov [17, 19]. As propriedades desses modelos sao estudadas

    em termos das propriedades das matrizes de transic oes de estados que sao utilizadas na

    sua descricao.

    Existem processos de Markov que sao modelados como aproximac oes do mundo

    real, onde nem todos os estados sao perfeitamente conhecidos. Nestes casos, diz-se que

    o modelo e escondido, e a questao central em torno desses modelos e o grau com que sao

    capazes de capturar a essencia do processo escondido sob eles.

    Este trabalho foi parcialmente financiado pela FAPERGS e CNPq.

  • 8/2/2019 Modelos de Markov e aplicaes

    2/22

    O estudo dos modelos de Markov tem uma aplicacao muito ampla em varias areas,

    como, por exemplo, ciencias sociais, biologicas e administrativas. Os modelos de Markov

    escondidos, que surgiram originalmente no domnio de reconhecimento da fala, atual-

    mente tem sido empregados como modelos de computacao natural the so-called brainsprograms [2], em trabalhos sobre visao computacional [4] e reconhecimento de manuscri-

    tos, de formas, gestos e expressoes faciais, em biologia computacional, entre outros (veja

    em http://www-sig.enst.fr/cappe).

    Este tutorial e fruto dos estudos sobre os modelos de Markov, visando a sua

    aplicacao em processos de tomada de decisao, que esta sendo desenvolvido junto ao Me-

    strado em Saude Mental e Comportamento da UCPel.

    2. Modelos de Markov

    Uma modelo de Markov e um sistema de transicoes de estados, onde a probabilidade dosistema estar em um certo estado futuro depende apenas do estado corrente do sistema.

    Esta secao resume os principais conceitos basicos e propriedades desses modelos. As

    provas das proposicoes e teoremas podem ser encontradas em [17, 19].

    2.1. Cadeias de Markov

    Um modelo de Markov onde o espaco de estados I e discreto e denominado de Cadeia deMarkov e e completamente descrito por sua matriz de transic ao de estados. Esta matriz

    e dinamica, pois permite que as probabilidades de transicao se modifiquem em funcao do

    tempo t, onde t e discreto.

    Considere uma cadeia de Markov com N estados xn I e sejam xi, xj I.Denota-se xi(t) para significar que o processo esta no estado xi no tempo t.

    Definicao 1 Sepij e a probabilidade de transicao do estado xi(t) para o estado xj(t+1),entao a matriz N N, dada por

    P = [pij],

    denomina-se matriz de transicao de estados da cadeia de Markov.

    Observa-se que, na Definicao 1, a soma das linhas da matrizP

    deve ser sempre

    igual a 1.

    A matriz de transicao tambem pode ser dada por um diagrama de transicoes de

    estados. A Figura 1 mostra o diagrama de transicoes de estados para uma cadeia de

    Markov com apenas 2 estados.

    Proposicao 1 Para t arbitr ario, tem-se que:

    (i) A probabilidade de transic ao do estado xi(t) para o estado xj(t + n) (em n passos) edada porpni,j ;

    (ii) A matriz de transicao de n passos, denotada porPn, e calculada como a pot encia n

    da matriz de transic ao P, isto e,

    Pn = Pn.

  • 8/2/2019 Modelos de Markov e aplicaes

    3/22

    x0x

    1

    p 11p 00

    p 01

    p 10

    Figura 1: Diagrama da matriz de transic oes de estados de uma cadeia de Markovde dois estados.

    Para simular um processo de Markov, considerando um estado inicial x0, pode-seescolher um estado sucessor de acordo com as probabibilidades p0j , para j = 1, . . . , N ,determinando um novo estado x1. Repite-se o processo para gerar o proximo estado, e

    assim sucessivamente. Devido a natureza probabilstica do modelo, cada ves que estasimulacao for repetida, e provavel que uma sequencia diferente de estados seja obtida

    como resultado. Portanto, a unica forma de analisar o proceso e manter o registro das

    probabilidades de estarem um estado.

    Definicao 2 Seja Si(t) a probabilidade de que um processo de Markov esteja em umestado xi no tempo t. Ent ao o vetor

    s(t) =

    S1(t)S2(t)

    ..

    .SN(t)

    e denominado de vetor de distribuicao de probabilidades de estado da cadeia de Markov

    no tempo t.

    Seja sT(0) a distribuicao inicial do processo1. A evolucao do vetor de distribuicaoe governada pela matriz de transicao em t passos.

    Proposicao 2 Para qualquer tempo t, tem-se que

    sT(t) = sT(0)Pt,

    onde Pt e calculada como em ?? e sT e o vetor transposto de s.

    2.2. Cadeias Regulares

    Considerando que o vetor de distribuicao evolui no tempo, observa-se que ha cir-

    cunstancias em que ocorre uma distribuic ao de probabilidade de equilbrio v tal que

    limt

    s(t) = v,

    independentemente da distribuicao inicial s(0). Isto ocorre em processos de Markov de-

    nominados de regulares.

    1sT e o vetor transposto de s.

  • 8/2/2019 Modelos de Markov e aplicaes

    4/22

    Definicao 3 Diz-se que um modelo de Markov e regular se sua matriz de transicao inicial

    P e regular, isto e, alguma pot encia de P cont em somente entradas positivas.

    Segue da Definicao 3 que um processo de Markov e regular se, para algum t,tem-se que Pt > 0. Isto significa que, em uma cadeia de Markov regular, todo estado eacessvel a partir de outro, existindo um caminho de comprimento finito entre quaiquer

    dois estados, possibilitando a comunicacao entre todos os estados.

    Seja wT = [w1, w2, . . . , wN] um vetor de comprimento N. Diz-se que w e umvetor probabistico se w1, w2, . . . , wN 0 e w1 + w2 + . . . + wN = 1.

    Teorema 1 Se um processo de Markov e regular, entao exite unico vetor probabilstico

    v, denominado de distribuicao de equilbrio, tal que:

    (i) vTP = vT;

    (ii) limt Pt

    = P

    , onde P

    e formada port linhas iguais a vT

    .

    2.3. Cadeias Nao-Regulares

    Existem processos que podem apresentar estados que nao acessveis a partir de algum

    outro estado, isto e, a probabilidade de transicao para tais estados e igual a zero. Alem

    disso, um estado de um processo de Markov finito podera eventualemnte atingir um estado

    de comunicacao fechada, absorvente, cuja probabilidade e igual a 1.

    Um estado xi de uma cadeia de Markov e denominado de estado absorvente se,uma vez nesse estado, e impossvel sair dele, isto e, pii = 1. Segue que pij = 0, parai = j.

    Definicao 4 Diz-se que uma cadeia de Markov e absorvente se ela apresenta um estado

    absorvente e se de cada estado n ao absorvente e possvel ir para algum estado absor-

    vente em algum tempo t, isto e, para cada estado nao absorvente xi(t), existe um estadoabsorvente xj(t + 1) tal que pij > 0, para algum t.

    Observa-se que, e uma cadeia de Markov absorvente, o estado do sistema sera

    eventualemente um dos estados absorventes.

    Dada uma cadeia de Markov com k estados absorventes, e possvel redistribuiras linhas da matriz de transicao P, de modo que os estados absorventes fiquem nas k

    primeiras linhas. Com isso, um processo de Markon nao regular pode ser sempre re-organizado em quatro submatrizes.

    Definicao 5 Seja P a matriz de transic ao de uma cadeia de Markov com k estados ab-sorventes. Ent ao:

    (i) A matriz canonica da cadeia e dada por:

    P =

    Ik

    Pxa Pxx

    (ii) A matriz fundamental e obtida por:

    F = [I Pxx]1

  • 8/2/2019 Modelos de Markov e aplicaes

    5/22

    (iii) A matriz de probabilidade de absorcao e calculada como o produto:

    A = F Pxa

    onde Ik e uma matriz diagonal unit aria k k que representa os k estados absorventes, e uma matriz nula, Psa representa as probabilidades de transic ao de qualquer estado

    para todos os estados absorventes, Pss representa as probabilidades de transic ao entretodos os estados nao absorventes, e aij e a probabilidade de que o sistema venha a estarno estado absorvente xj(t), para algum tempo t, dado que esteja inicialmente no estadonao absorvente xi.

    2.4. Aplicacoes de Cadeias Regulares a Genetica

    Nesta secao introduz-se uma aplicacao trivial das cadeias de Markov em problemas de

    Genetica, atraves de um exemplo extrado de [19].

    Certas caractersticas das plantas e dos animais sao determinadas por um par de

    genes, cada um dos quais podendo ser de dois tipos, denotados por A e a. Existem tres

    genotipos possveis: AA, Aa e aa (os genotipos Aa e aA sao identicos).

    Em alguns casos esses tres genotipos resultam em tres caractersticas distintas e

    em outros o AA e o Aa exibem uma mesma forma observavel. Nesta ultima situacao,

    diz-se que o gene A domina o gene a.

    O indivduo chama-se dominante se tem o genotipo AA, heterozigoto se tem

    genotipo Aa e recessivo se tem o genotipo aa. Por conveniencia, denota-se um indivduo

    AA por D, um Aa por H e um aa por R.

    No caso de cruzamento, o filho herda um gene de cada um dos pais. Admita-se

    que as probabilidades dos genotipos dos filhos de acordo com os dos pais sejam as dadas

    nas Tabelas 1, 2 e 3, a seguir.

    Tabela 1: Probabilidades dos genotipos do filho de dois indivduos H

    D (AA) H (Aa) R (aa)

    0.25 0.50 0.25

    Tabela 2: Probabilidades dos genotipos do filho de um indivduo H com outro D

    D (AA) H (Aa) R (aa)

    0.50 0.50 0.00

    Tabela 3: Probabilidades dos genotipos do filho de um indivduo H com outro R

    D (AA) H (Aa) R (aa)

    0.00 0.50 0.50

    As cadeias de Markov intervalares podem auxiliar em calculos sobre hereditarie-

    dade, como descrito neste proximo exemplo.

  • 8/2/2019 Modelos de Markov e aplicaes

    6/22

    Exemplo 1 Suponha que no tempo 0, um indivduo e acasalado com outro, sendo estedo tipo H. No tempo 1, o produto do acasalamento e novamente acasalado com umindivduo H. O processo repete-se entao da mesma maneira. Considera-se como estado

    do sistema no tempo t o genotipo do t-esimo filho. Tem-se como resultado uma cadeia deMarkov com tres estados (D,H,R), cuja matriz de transicao e dada por:

    P =

    0.5 0.5 00.25 0.5 0.25

    0 0.5 0.5

    ,

    sendo a matriz de transic ao de 2 passos calculada como (com precis ao igual a 2 no

    Maple):

    P2 =

    0.38 0.50 0.130.25 0.50 0.25

    0.13 0.50 0.38

    . (1)

    Observa-se que, em 1, devido a erros de arredondamento, tem-se que3

    j=1p1j =1.

    Pela observac ao da matriz de transic ao de dois passos P2 dada em 1, que apre-

    senta todas as entradas positivas, conclui-se que esta matriz aproxima uma matriz real

    regular que tem uma distribuic ao de equilbrio v aproximada pelo vetor probabilsticoV = [v1, v2, v3], tal que V P V. O sistema correpondente e:

    5v1 + 0.25v2 = v1

    5v1 + 5v2 + 5v3 = v2

    0.25v2 + 0.5v3 = v3

    v1 + v2 + v3 = 1

    A soluc ao do sistema resulta na distribuic ao real de equilbrio v = [.25, .5, .25].

    2.5. Aplicacoes de Cadeias Absorventes na Aprendizagem por Pares Associados

    Nesta secao apresenta-se o classico modelo de Bower [3] de aprendizagem por pares as-

    sociados. Neste modelo, uma lista de estmulos e apresentada a um paciente em ordem

    aleatoria. Os estmulos podem ser palavras, numeros, slabas sem nexo, figuras ou tens

    similares. A cada estmulo corresponde uma resposta correta que se supoes que o paciente

    aprenda. Antes que a experiencia comece realmente, o paciente pode ser informado de

    algum modo sobre o conjunto das respostas ou pode tomar cinhecimento delas gradula-

    mente no decorrer da experiencia.

    A experiencia consiste em apresentar ao paciente um estmulo de cada vez, du-

    rante um breve perodo de tempo, durante o qual solicita-se ao paciente tentar indicar aresposta correta. Apos o paciente ter dado sua resposta, mostra-se a ele a resposta cor-

    reta. Isso serve como uma confirmacao de uma resposta correta ou como uma correcao de

  • 8/2/2019 Modelos de Markov e aplicaes

    7/22

    uma resposta incorreta. Depois de apresentada toda a lista de estmulos, ela e novamente

    apresentada, porem em ordem aleatoria diferente da anterior.

    Na situacao experimental modelada por Bower os estmulos consistiam em 10

    pares de consoantes, enquanto as respostas eram os numeros 1 e 2. A cada par de con-soantes atribua-se aleatoriamente um desses numeros como resposta, antes do incio da

    experiencia. Os estmulos eram apresentados e pedia-se que o paciente para responder

    1 ou 2. Apos dar sua resposta, o paciente era informado da resposta correta ao est mulo

    apresentado. Depois de exibidos os 10 pares de consoantes (constituindo um ensaio)

    os 10 cartoes com estmulos eram baralhados e novamente apresentados ao paciente.

    Esse processo era repetido ate que o paciente coseguisse passar sem erros pela lista de

    estmulos, por duas vezes consecutivas. Ao acontecer isso, considerava-se que o paciente

    tinha aprendido as respostas corretas.

    Para analisar esse tipo de experiencia utilizando cadeias de Markov, considera-se

    os seguintes axiomas:

    1. Cada par est mulo-resposta encontra-se em um estado dentre dois possveis, em

    qualquer ensaio n: condicionado (C(n)) ou palpite (P(n)). O estado de condi-cionamento do par estmulo-resposta corresponde ao paciente ter aprendido o par.

    Caso contrario, o paciente estara simplesmente adivinhando.

    2. Em qualquer ensaio n, a probabilidade de transicao de P(n) para C(n + 1) e umaconstante c(0 c 1); segue que a probabilidade de uma transicao de P(n) paraP(n + 1) e 1 c.

    3. Em qualquer ensaio n, a probabilidade de transicao de C(n) para C(n + 1) e 1;segue que a probabilidade de uma transicao de C(n) para P(n + 1) e 0.

    4. Se estiver em P(n), em qualquer ensaio n, a probabilidade de sucesso S(n) (res-posta correta ao estmulo) e 1/N, onde N o numero total de respostas possveis.

    5. Cada tem esta no estado nao condicionado (palpite) no ensaio inicial.

    Numa primeira modelagem, considere uma cadeia de Markov com dois estados:

    condicionado (1) e palpite (2). De acordo com o axioma 5, a distribuicao inicial e entao:

    sT =

    0.00 1.00

    .

    Pelos axiomas 2 e 5, a matriz de transicao inicial da cadeia de Markov e:

    P =

    1.00 0.00

    c 1 c

    . (2)

    Fazendo c = 0.30 na equacao 2, tem-se:

    P =

    1.00 0.000.30 0.70

    .

    Calcula-se algumas potencias da matriz P (com precisao igual a 2):

    P5 =

    1.00 0.000.83 0.17

    , P15 =

    1.00 0.001.00 0.0047

    , P100 =

    1.00 0.001.00 0.32.1015

    .

  • 8/2/2019 Modelos de Markov e aplicaes

    8/22

    Calcula-se a distribuicao da cadeia de Markov nos diversos ensaios realizados:

    s(1) = s(0)P1 = 0.30 0.70 , s(5) = s(0)P5 = 0.83 0.17 ,

    s(10) = s(0)P10 =

    0.97 0.028

    , s(15) = s(0)P15 =

    1.00 0.0047

    , . . . .

    Observa-se que os resultados obtidos indicam, por exemplo, que no tempo 10 (ou

    seja, logo apos o decimo ensaio), ha uma probabilidade de aproximadamente 97% de umpaciente sob teste estar no estado condicionado. Ja no tempo 15 ha uma probabilidade

    virtual (pois o valor 1 esta sujeito ha erros de arredondamento) de 100% de um pacienteestar no estado condicionado.

    Refina-se agora o modelo, considerando-o como uma cadeia de Markov com tresestados: condicionado (1), palpite errado (2) e palpite certo (3). Para determinar a matriz

    de transicao da cadeia de Markov correpondente utiliza-se o axioma 4, juntamente com

    os outros axiomas. Assim, tem-se que p11 = 1, p12 = 0, p13 = 0, p21 = c, p31 = c.

    Para calcular p23, sejam Gn+1 o evento o paciente tenta adivinhar no ensaio n +1, Sn+1 o evento o paciente responde corretamente no ensaio n + 1 e Tn o evento opaciente faz um palpite errado no ensaio n. Se P r(x) denota a probabilidade de x eP r(x|y) denota a probabilidade condicional de x dado que y tenha ocorrido, tem-se que:

    p23 = P r(Sn+1 Gn+1|Tn) = P r(Sn+1|Gn+1 Tn)P r(Gn+1|Tn). (3)

    Pelo axioma 2, tem-se que P r(Gn+1|Tn) = 1 c, e, pelo axioma 4, e validoque P r(Sn+1|Gn+1 Tn) = 1/N, onde N e o numero total de respostas possveis. Daequacao 3, segue que:

    p23 =1

    N(1 c)

    .

    De forma analoga, conclui-se que:

    p22 = (1 1

    N)(1 c), p32 = (1

    1

    N)(1 c), p33 =

    1

    N(1 c).

    Assim, a matriz de transicao dessa cadeia de Markov e

    P =

    1.00 0.00 0.00c (1 1

    N)(1 c) 1

    N(1 c)

    c (1 1N

    )(1 c) 1N

    (1 c)

    , (4)

    que e uma cadeia absorvente, com o estado 1 absorvente e os estados 2 e 3 n ao absorven-

    tes.

  • 8/2/2019 Modelos de Markov e aplicaes

    9/22

    Os axiomas 4 e 5 implicam que a distribuicao inicial dessa cadeia e:

    s(0) = 0.00 1 1N 1N .Sejam c = 0.30 e N = 4. Entao a equacao 4 torna-se (com precisao igual a 3):

    P =

    1.000 0.000 0.0000.30 0.525 0.175

    0.30 0.525 0.175

    e a distribuicao inicial e s(0) =

    0.000 0.750 0.250

    .

    Calcula-se a distribuicao da cadeia em varios tempos, obtendo-se, por exemplo:

    s(2) =

    0.510 0.368 0.123

    , s(15)

    0.995 0.356 0.119.102

    ,

    s(30) =

    1.000 0.169.104 0.563.105

    , . . .

    Observa-se que, no trigesimo ensaio, e virtualmente certo que (a incerteza e devido

    aos erros de arredondamento) que o paciente esteja no estado condicionado.

    Uma importante questao e saber qual o numero de vezes em que o paciente se

    encontra no estado 2, ou seja, o numero de respostas incorretas dadas pelo paciente ao

    par estimulo-resposta em questao. Em [19] ha a prova de que o numero de vezes que o

    paciente se encontra nos estados 2 ou 3 e finito, isto e, eventualmente ele estara no estado

    condicionado.

    Observe que a matriz canonica dessa cadeia de Markov e:

    P =

    1.000 0.000 0.0000.300 0.525 0.175

    0.300 0.525 0.175

    onde

    Pxx =

    0.525 0.1750.525 0.175

    ,

    Pxa =

    0.3000.300

    .

    O numero medios esperado de vezes em que o paciente se encontra no estado 2

    ou 3 e dado por

    0.750 0.250

    F.

  • 8/2/2019 Modelos de Markov e aplicaes

    10/22

    Tem-se que

    I Pxx = 1.000 0.0000.000 1.000

    0.525 0.1750.525 0.175

    = 0.475 0.1750.525 0.825

    ,

    e, portanto,

    F = [I Pxx]1 =

    2.750 0.5831.750 1.583

    .

    Consequentemente, tem-se que

    0.750 0.250 F = 2.500 0.833 ,o que significa que, por exemplo, o numero esperado de respostas incorretas dadas pelo

    paciente ao tem em questao e 2.5. Alem disso, tem-se que a matriz de probabilidade deabsorcao e dada por:

    A = F Pxa =

    1.0001.000

    ,

    significando que, desconsiderando os erros de arredondamento, ha 100% de probabilidade

    de que o paciente venha a estar no estado condicionado eventualmente.

    3. Modelos de Markov Ocultos

    Em alguns casos existe a possibilidade de que se tenha uma descricao incompleta do

    ambiente em que ocorre um processo Markoviano, onde o espaco de estados e des-

    conhecido. Nestes casos, e possvel definir um modelo de Markov considerando uma

    aproximacao desse espaco. Modelos deste tipo sao denominados Modelos de Markov

    Ocultos (HMM) [15]. Esta secao apresenta uma discussao sobre esses modelos,

    3.1. Conceitos Basicos

    Definicao 6 Um Modelos de Markov Ocultos (HMM) e uma tripla M = (s,P,B), ondeconsideram-se:

    (i) Um conjunto especfico Ok de observac oes do tipo k que resultam de um experimento;(ii) Um conjunto X de estados xi, onde em cada estado xi e possvel realizar uma

    observac ao bi(k), com i = 1, . . . , N e k Ok;(iii) Uma distribuic ao de probabilidade para o estado inicial dada pelo vetor s = [si],

    onde si = P r(xi(0));(iv) Uma distribuic ao de probabilidade para as transic oes de estados dada pela matriz

    P = [pij ], onde pij = P r(xj(t + 1)|xi(t));(v) Uma distribuic ao de probabilidade para as observac oes em cada estado dada pela

    matriz B = [bj(k)], onde bj(k) = P r(Ok|xj).

  • 8/2/2019 Modelos de Markov e aplicaes

    11/22

    p22

    x 1 x 2

    p11 p12

    p21b 1(m)

    b 1(n) b 2(n)

    b2(m)

    xendp2-endxbegin pbegin-1

    Figura 2: Diagrama de transic oes de estados de um modelo de Markov ocultode dois estados nao terminais, onde ha a probabilidade de emissao dedois smbolos (m e n).

    Pode-se pensar nesse tipo de modelo como um automato finito (nao deter-

    minstico) com sada [9], cujas transicoes sao vazias e probabilsticas, sendo que, em

    cada estado podera haver a emissao de smbolos (tens observaveis) segundo uma certa

    probabilidade.

    Exemplo 2 Os modelos ocultos podem ser representados como diagramas de esta-

    dos, como, por exemplo, o modelo oculto com conjunto de estados X = {xbegin, x1,x2, xend} da Figura 2, onde somente os estados nao terminais x1 e x2 emitem os simbolos(tens observaveis) m e n.

    Simulando um experimento, a partir do estado x1 e possvel ir para o outro estadox2 ou n ao, de acordo com as probabilidades de transic ao p12 ou P11, respectivamente. Omesmo acontece no estado x2. Segue-se assim sucessivamente, ate atingir o estado final.

    Em cada estado nao terminal observa-se a emissao do smbolo m ou m, de acordocom as probabilidades de emiss ao do smbolo m ou n no estado x1 (b1(m), b1(n)) e noestado x2 (b2(m), b2(n)).

    Como resultado, obt em-se uma sequencia oculta (que nao e observada) de estados

    percorridos e um sequencia de smbolos (que e observada). Uma sequencia de smbolos

    que pode ser observada, por exemplo, e O = m,n,m; uma sequencia possvel de estadosocultos e I = xbegin, x1, x1, x2, xend. A probabilidade do modelo percorrer os estado deI para produzir a sequencia de observac oes O e dada por:

    P r(O, I|M) = pbegin1 b1(m) p11 b1(n) p12 b2(m) p2end.

    Assim, dada uma seq uencia de observac oes, nao se conhece a sequencia de esta-

    dos pela qual passa o modelo, mas somente uma func ao probabilstica deste caminho.

    Exemplo 3 Um exemplo extraido de [2] consiste no modelo das urnas. Suponha que

    exitem N urnas contendo L bolas coloridas (preto, branco e cinza). Uma pessoa iniciapor uma das urnas, retira uma bola e observa a sua cor, recoloca-a na urna, e vai para

    outra urna ou permanece na mesma urna, com uma certa probabilidade, e toma outra

    bola, e assim sucessivamente. O processo termina apos W sequencias de passos destetipo.

    Considere uma configuracao espec fica de N = 2 urnas e um tempo deobservac ao W = 3, como mostra a Figura 3, e uma distribuicao de probabilidade dadapor:

  • 8/2/2019 Modelos de Markov e aplicaes

    12/22

    Estado 1

    Estado 2

    .7

    .3

    t = 1 t = 2 t = 3

    .8

    .2

    .1

    .9

    Figura 3: Esquema do experimento com o modelo de urna com 2 estados em 3fases de tempo.

    s =

    0.70.3

    .

    A matriz B define as probabilidades das possveis observac oes para cada estado:

    B =

    b1(Branco) b1(Preto) b1(Cinza)b2(Branco) b2(Preto) b2(Cinza)

    =

    0.1 0.4 0.50.6 0.2 0.2

    .

    A matriz das probabilidades de transicao de estado e dada por:

    P =

    0.8 0.20.1 0.9

    .

    A Figura 3 mostra um esquema do experimento. O modelo esta representado

    na Figura 4. O algoritmo dado na Tabela 4 e utilizado para gerar as sequencias de

    observac oes. Salienta-se que a sequencia mais provavel e O = {Cinza, Cinza, Cinza}.Isto ocorre porque o estado inicial mais provavel e o Estado 1 (urna 1), Cinza e a cor

    mais provavel de ser observada no Estado 1, e, a partir do Estado 1, o estado mais

    provavel e ainda o Estado 1. A probabilidade de ocorrer esta sequencia dada a sequencia

    I = {Estado1, Estado1, Estado1} de estados e calculada ent ao como:

    P r(O, I|M) = s1 b1(cinza) p11 b1(cinza) p11 b2(cinza) = 0.056.

    Exemplo 4 Considere um jogo de cara de cara (h) ou coroa (t) no qual sabe-se que o

    lancador pode utilizar duas moedas, uma normal e uma viciada. A moeda normal ofe-

    rece probabilidade de 50% tanto para cara como para coroa, enquanto a moeda viciadaoferece 75% de chance para cara e apenas 25% para coroa.

    Sabe-se tambem o lancador pode iniciar o processo escolhendo qualquer uma das

    moedas com igual probabilidade, entretanto, uma vez tendo utilizado uma das moedas(normal ou viciada) a probabilidade de que o lancador a troque por outra e de apenas

    20%.

  • 8/2/2019 Modelos de Markov e aplicaes

    13/22

    .1

    .7 .3

    . 8.2

    .9branco = .1

    preto = .4

    cinza = .5

    branco = .1

    preto = .4

    cinza = .5

    Estado 1 Estado 2

    Figura 4: Modelo de urna com 2 estados.

    Tabela 4: Algoritmo gerador de sequencias de observac oes.

    t = 1

    Escolha um estado inicial utilizando s

    Enquanto t

  • 8/2/2019 Modelos de Markov e aplicaes

    14/22

    N = .5

    bN (h) = .5

    bN (t) = .5

    . 8

    V = .5

    . 2

    0.2

    bV (h) = .25

    bV (h) = .75

    . 8

    Figura 5: Modelo das moedas.

    3.2. A Probabilidade de uma Sequencia de Observacoes

    Uma discussao interessante, que pode ser feita a partir da analise dos exemplos 2, 3 e 4,

    e o problema relacionado a descoberta da probabilidade de que uma dada sequenciade observacoes O tenha sido gerada por M. Para calcular a probabilidade de quetal sequencia venha a ser observada, deve-se considerar a soma das probabilidades da

    geracao dessa sequencia sobre todos os possveis caminhos que a geram. Assim, seja

    I = x1, x2, . . . , xW uma sequencia particular de estados possvel em W passos e consi-dere a expansao de P r(O|M) em todos os estados, dada por:

    P r(O|M) =I

    P r(O, I|M). (5)

    Para qualquer sequencia individual de estados, pode-se usar a regra de Bayes na

    equacao 5, obtendo:

    P r(O, I|M) = P r(O|I, M)P r(I, M). (6)

    O primeiro termo do lado direito da equacao 6, P r(O|I, M), e a probabilidade dese ver uma dada sequencia de observacoes, considerando um dado conjunto de estados.

    Para os estados conhecidos, considerando Ok, o calculo e realizado como:

    P r(O|I, M) = jI

    bj(k).

    O segundo termo do lado direito da equacao 6 e dado pelo produto da probabili-

    dade de iniciar no estado x1 e passar pelos estados x2, . . . , xW:

    P r(I|M) = s1p12p23 . . . p(W1)W.

    Assim, a equacao 5 pode ser escrita como:

    P r(O, I|M) = s1b1(k)W1

    i=1

    bi+1(k)pi(i+1). (7)

  • 8/2/2019 Modelos de Markov e aplicaes

    15/22

    Tabela 5: Algoritmo para computar Pr(O|M).

    Versao Iterativa Versao Recursiva

    1 = [sibi(1)] Defina (W):Para t em {1, . . . , W 1}: se W == 1:

    t+1 = P [tibi(t + 1)] [sibi(1)]

    P r(O|M) =N

    i=1 Wi senao:

    P [W1i bi(W)]

    P r(O|M) =N

    i=1 Wi

    Considerando um modelo onde se tem os estados distinguveis xbegin e xend (comoo modelo da Figura 2), entao a equacao 7, para W+2 passos, onde a squencia e observadanos estados nao terminais, torna-se:

    P r(O, I|M) = pbegin1

    Wi=1

    bi(k)pi(i+1),

    onde xW+1 = xend.

    Uma crtica grave a esta formulacao e que o custo computacional do somatorio da

    equacao 5 e muito alto (da ordem NW

    ). Entretanto, e possvel usar resultados parciais,que sao acumulados em um vetor t, conforme descrito no procedimento forward doalgoritmo da Tabela 5.

    Exemplo 5 Considere o modelo das urnas apresentado no Exemplo 3. Define-se ti comoa probabilidade de acontecer a observac ao Ot no estado xi. Ent ao, se

    s =

    0.70.3

    e B(Cinza) =

    0.50.2

    ,

    tem-se que o vetor inicial 1 e dado por:

    1 = [sibi(1)] =

    s1b1(Cinza)s2b2(Cinza)

    =

    0.350.06

    .

    Sucessivamente, calcula-se:

    2 = P[1i bi(2)]

    =

    0.8 0.20.1 0.9

    11b1(Cinza)12b2(Cinza)

    =

    0.8 0.20.1 0.9

    0.1750.012

    =

    0.142

    0.0283

  • 8/2/2019 Modelos de Markov e aplicaes

    16/22

    e

    3

    = P[2

    i bi(3)]=

    0.8 0.20.1 0.9

    21b1(Cinza)22b2(Cinza)

    =

    0.8 0.20.1 0.9

    .0712

    .00566

    =

    .0581.0122

    .

    Finalmente, a probabilidade de ver a sequencia Cinza,Cinza,Cinza e dada por:

    P r(O|M) =N

    i=1

    Wi =2

    i=1

    3i = 0.0703.

    Exemplo 6 Considere o modelo das moedas apresentado no Exemplo 4. Define-se ticomo a probabilidade de acontecer a observac ao Ot no estado xi. Ent ao, se

    s =

    0.50.5

    e B(h) =

    0.5

    0.75

    ,

    tem-se que o vetor inicial 1 e dado por:

    1 = [sibi(1)] =

    s1b1(h)s2b2(h)

    =

    0.250.375

    .

    Sucessivamente, calcula-se:

    2 = P[1i bi(2)]

    =

    0.8 0.20.1 0.9

    11b1(h)12b2(h)

    =

    0.8 0.20.2 0.8

    0.1250.281

    =

    0.1560.250

    e

    3 = P[2i bi(3)]

    =

    0.8 0.20.2 0.8

    21b1(t)22b2(t)

    =

    0.8 0.20.2 0.8

    .0781.0625

    =

    .0750.0656

    ,

  • 8/2/2019 Modelos de Markov e aplicaes

    17/22

    4 = P[3i bi(4)]

    = 0.8 0.2

    0.2 0.8 3

    1b1(t)

    32b2(t)

    =

    0.8 0.20.2 0.8

    .0375.0164

    =

    .0333.0206

    .

    Finalmente, a probabilidade de ver a sequencia h,h,t,t e dada por:

    P r(O|M) =N

    i=1

    Wi

    =2

    i=1

    4i

    = 0.0539.

    3.3. Caminho Gerador Otimo

    Outra questao fundamental e, dada um sequencia de observacoes O, descobrir a sequenciade estados I mais provavel, que seja capaz de gerar O. Um criterio simples para tratareste problema e considerar a sequencia que torna cada um dos estados o mais provavel2.

    Observa-se que, de forma analoga ao procedimento dado no algoritmo da Tabela 5,

    e possvel definir um procedimento backward, atraves de um vetor (t) que registra aprobabilidade de alcancar um dos estados finais, dado um determinado estado corrente.

    Este vetor (t) pode ser utilizado para definir um algoritmo para prever a probabilidadede sequencias de estados de forma analoga ao algoritmo da Tabela 5.

    Seja ti a probabilidade de terminar no estado xi no tempo t, dada a sequencia deobservacoes O, calculada como:

    ti = P r(xi(t) = si|O, M). (8)

    Em 8, pode-se utilizar os vetores (t) e (t) para expressar ti , obtendo:

    t =

    [titi ]

    P r(O|M) , (9)

    onde P r(O|M) e um fator de normalizacao tal queN

    i=1 ti = 1.

    Dado t, os estados mais provaveis sao expressados pelos seus ndices, como:

    indext = ndice do max1iN{ti}.

    Para computar a equacao 9, pode-se utilizar o algoritmo de Viterbi, onde, para

    registrar os estados mais provaveis, define-se um vetor r(t), como mostra o algoritmodado na Tabela 6.

    2Pode acontecer que nao exista um caminho entre estados sucessores, mas isto geralmente n ao ocorre

    na pratica.

  • 8/2/2019 Modelos de Markov e aplicaes

    18/22

    Tabela 6: Algoritmo para computar o caminho gerador otimo.

    Vesao Iterativa Versao Recursiva

    1 = [sibi(1)] Defina r(W):r(1) = [index1] Se W == 1:Para t em {1, . . . , W 1}: 1 = [sibi(1)]

    t+1 = P [ti bi(t + 1)] r(1) = [index1]

    r(t + 1) = anexe(indext+1, r(t)) Senao:W = P [W1i bi(W)]r(W) = anexe(indexW, r(W 1))

    Exemplo 7 Considerando o modelo das urnas trabalhado nos Exemplos 3 e 5, dada a

    sequencia de observac oes O = {Cinza, Cinza, Cinza}, pode-se calcular a sequenciade estados mais prov avel para produz-la. Primeiramente, calcula-se:

    1 = [sibi(1)] =

    s1b1(Cinza)s2b2(Cinza)

    =

    .35.06

    ,

    onde max1iN{1i } = .35, logo index

    1 = 1(x1(1)), e, portanto,

    r(1) = [index1] =

    1(x1(1)) .... ....

    .

    Calcula-se sucessivamente:

    2 = P[1i bi(2)]

    =

    .8 .2.1 .9

    11b1(Cinza)12b2(Cinza)

    =

    .8 .2.1 .9

    .175.012

    =

    .142

    .0283

    ,

    onde max1iN{2i } = .142, logo index

    2 = 1(x1(2)), e, portanto,

    r(2) =

    1(x1(1)) 1(x1(2)) ....

    ;

    3 = P[2i bi(3)]

  • 8/2/2019 Modelos de Markov e aplicaes

    19/22

    =

    .8 .2.1 .9

    21b1(Cinza)22b2(Cinza)

    = .8 .2.1 .9

    .0712.00566

    =

    0.05810.0122

    ,

    onde max1iN{3i } = .0581, index

    3 = 1(x1(3)), e, portanto,

    r(3) =

    1(x1(1)) 1(x1(2)) 1(x1(3))

    .

    Logo o caminho gerador otimo da sequencia cinza,cinza,cinza e x1, x1, x1, como

    era esperado.

    Exemplo 8 Considerando o modelo das moedas trabalhado nos Exemplos 4 e 6, dada a

    sequencia de observacoes O = {h,h,t,t}, pode-se calcular a seq uencia de estados maisprovavel para produz-la. Primeiramente, calcula-se:

    1 = [sibi(1)] =

    s1b1(h)s2b2(h)

    =

    .25

    .675

    ,

    onde max1i2{1i } = .675, logo index

    1 = 2(x2(1)), e, portanto,

    r(1) = [index1] =

    2(x2(1)) .... ....

    .

    Calcula-se sucessivamente:

    2 = P[1i bi(2)]

    =

    .8 .2.2 .8

    11b1(h)12b2(h)

    =

    .8 .2.2 .8

    .125.281

    =

    .156.250

    ,

    onde max1i2{2i } = .250, logo index

    2 = 2(x2(2)), e, portanto,

    r(2) =

    2(x2(1)) 2(x2(2)) ....

    ;

    3 = P[2i bi(3)]

  • 8/2/2019 Modelos de Markov e aplicaes

    20/22

    =

    .8 .2.2 .8

    21b1(t)22b2(t)

    = .8 .2.2 .8

    .0781.0625

    =

    0.07500.0656

    ,

    onde max1i2{3i } = .075, index

    3 = 1(x1(3)), e, portanto,

    r(3) =

    2(x2(1)) 2(x2(2)) 1(x1(3))

    ;

    4

    = P[3i bi(4)]

    =

    .8 .2.2 .8

    31b1(t)32b2(t)

    =

    .8 .2.2 .8

    .0375.0164

    =

    0.03330.0206

    ,

    onde max1i2{4i } = .0333, index

    4 = 1(x1(4)), e, portanto,

    r(4) =

    2(x2(1)) 2(x2(2)) 1(x1(3)) 1(x1(4))

    .

    Logo o caminho gerador otimo da sequencia h,h,t,t e x2, x2, x1, x1.

    3.4. Aperfeicoando o Modelo

    O principal problema em HMM e descobrir o melhor modelo M, o que e muito difcil enao tem solucao analtica conhecida. Pode-se derivar uma aproximacao que e melhor que

    a versao corrente. Este procedimento pode ser repetido ate que nehuma melhoria possa

    ser verificada.

    Em linhas gerais, esta estrategia iniciara com um conjunto inicial M = (s,P,B)e executar o modelo um numero suficiente de vezes para estimar um novo conjunto deparametros M = (s, P, B). Estas estimativas sao entao utilizadas como o novo modelo,e, entao, o processo e repetido.

    As estimativas de s e B sao simples de calcular:

    s = t (10)

    e

    bj (k) =

    Wt=1,Ot=k tjW

    t=1 t

    j

    . (11)

  • 8/2/2019 Modelos de Markov e aplicaes

    21/22

    Tabela 7: Algoritmo de Baum-Welch.

    Repita os seguintes passos ate que osparametros do modelo estejam de acordo

    com a tolerancia considerada:

    Estimar s utilizando a equacao 10

    Estimar B utilizando a equacao 11

    Estimar P utilizando a equacao 12

    Para estimar pij , calcula-se ij como:

    ij = P r(xi(t) = si, xi(t + 1) = sj|), M)

    resultando em

    ij =tipijbj(t + 1)

    t+1j

    P r(O|M),

    de tal forma que a estimativa pode ser obtida como uma media ao longo do tempo:

    pij =W

    t=1 ijWt=1

    tj

    . (12)

    A Tabela 7 apresenta o algoritmo de Baum-Welch para aperfeicoamento do mo-

    delo pelo calculo sucessivo de estimativas para os parametros.

    Referencias

    [1] J. F. F. Araujo, G. P. Dimuro, M. A. Campos, Probabilidades Intervala-

    res com Aplicacoes no Maple, ESIN/UCPel, Pelotas, RS, 2001.

    (http://gmc.ucpel.tche.br/fmc )[2] D. H. Ballard, An Introduction to Natural Computation, MIT Press, Cambridge, 1997.

    [3] G. H. Bower, Applications of a Model to Paired-Associate Learning, Psychometrika,

    Vol. 26, pp. 225-2380, 1961,

    [4] H. Bunke, T. Caelli (Eds), Hidden Markov Models Applied in Computer Vision, in Ma-

    chine Perception and Artificial Intelligence, Vol. 45, World Scientific, N. J., 2001.

    [5] M. A. Campos, Uma Extensao Intervalar para a Probabilidade Real, Tese de Doutorado,

    Centro de Informatica/UFPE, 1997.

    [6] M. A. Campos, Interval probabilities, application to discrete ramdom variables, Seletado XXII CNMAC (E.X.L. de Andrade, J. M. Balthazar, S. M. Gomes, G. N. Silva,

    A. Sri Langa, eds.), TEMA, Vol. 1.2, pp. 333-344, SBMAC, 2000.

  • 8/2/2019 Modelos de Markov e aplicaes

    22/22

    [7] M. A. Campos, G. P. Dimuro, A. C. R. Costa, J. F. F. Araujo, A. M. Dias, Probabilidade

    Intervalar e Cadeias de Markov Intervalares no Maple, Seleta do XXIV CNMAC

    (E.X.L. de Andrade, J. M. Balthazar, S. M. Gomes, G. N. Silva, A. Sri Langa, eds.),

    TEMA, SBMAC, 2002.[8] A. M. Dias, G. P. Dimuro, Matematica Intervalar com Aplicacoes no Maple,

    ESIN/UCPel, Pelotas, 2000. (http://gmc.ucpel.tche.br/mat-int )

    [9] J. Hopcroft and J. D. Ullman, Introduction to Automata Theory, Languages and Compu-

    tation, Addison-Wesley, Reading, 1979).

    [10] U. W. Kulisch, W. L. Miranker, Computer Arithmetic in Theory and Practice, Academic

    Press, New York, 1981.

    [11] H. E. Kyburg, Jr., Interval-valued Probabilities, http://www.ensmain.rug.ac.be/ ipp.

    [12] M. B. Monagan, K. O. Geddes, K. M. Heal, G. Labahn, and S. M. Vorkoetter, Maple V:

    Program. Guide, Springer, N. York, 1998.

    [13] R. E. Moore,Methods and Applications of Interval Analysis, SIAM, Philadelphia, 1979.

    [14] A. Neumaier, Interval Methods for Systems of Equations, Cambridge University Press,

    Cambridge, 1990.

    [15] L. R. Rabiner and B. H. Juang, An Introduction to Hidden Markov Models, IEEE ASSP

    Magazine, 3(4):4-16, 1986.

    [16] B. Tessem, Interval Probability Propagation, International Journal of Approximate Rea-

    soning, 7:95-120, 1992.

    [17] K. S. Trivedi, Probability and Statistics with Reliability, Queuing, and Computer Science

    Applications, Prentice-Hall, Englewood Cliffs, NJ, 2000.

    [18] K. Weichselberger, Axiomatic foundations of the theory of interval-probability, Sympo-

    sia Gaussiana, Conference B: Statistical Sciences, pp. 47-64, Munich, Germany,

    August 2-7, 1993.

    [19] W. Yoselogff, Finite Mathematics, Worth Publishing, New York, 1975.

    [20] I. O. Kozine and L. V. Utkin, Interval-Valued Finite Markov Chains, Reliable Compu-

    ting, 8(2): 97-113, 2002.