Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a...

6
Sistemas Híbridos ANN-HMM Baseados nos Critérios ML e MAP para Reconhecimento de Séries Temporais Edmílson S. Morais .1 Fábio Violaro " Carlos Alberto Ynoguti Márcio L. Andrade Netto ' Departamento de Comunicações '" ,:I Departamento de Computação e Automação Industrial · 1. Faculdade de Eng. Elétrica e de Computação - UNICAMP CP 610 I - CEP 13083970 - Campinas SP - Brazil [email protected] [email protected] '" ynoguti@decom .fee.unica01p.br :l [email protected] -, Abstract: This paper presents a study about two basic types of ANN-HMM hybrid systems (Artificial Neural Network - Hidden Markov Model) for temporal series recognition : (I ) Standard ANN-HMM hybrid system - based on Maximum Likelihood (ML) criterion, (2) Discriminant ANN- HMM hybrid system - based on Maximum A Posteriori (MAP) criterion. For a performance analysis the standard ANN-HMM hybrid system is applied on the recognition of a particular type of temporal series, the continuous speech. Resumo: Este artigo apresenta um estudo sobre dois tipos básicos de sistemas híbridos ANN-HMM (HArtificial Neural Network - Hidden Markov Model") para o reconhecimento de séries temporais : ( I) Sistema híbrido ANN-HMM padrão - baseado no critério ML (HMaximum Likelihood"), (2) Sistema híbrido ANN-HMM discriminativo - baseado no critério MAP ("Maximum A Posteriori"). Para uma análise de desempenho do sistema híbrido ANN-HMM padrão serão apresentados resultados de sua aplicação ao reconhecimento de um tipo particular de série temporal, a fala contínua. 1. Introdução Muitos problemas de reconhecimento de padrões, de fundamental importância hoje em dia, são de natureza inerentemente seqüencial. Alguns exemplos incluem o reconhecimento de movimentos humanos através de uma seqüência de imagens de vídeo, ou o reconhecimento de fala contínua através de uma seqüência de amostras de um sinal de voz. . Nos últimos anos, vários pesquisadores tem apresentado soluções baseadas em modelos ocultos de Markov - . HMM, para o reconhecimento de séries temporais [I] [4] [5]. Os modelos ocultos de Markov .são estruturas duplamente estocásticas que tem se mostrado eficientes, tanto no modelamento estatístico como temporal de seqü ências estacionárias por partes'. O critério de treinamento mais usual de um HMM baseia-se no método . da máxima verossimilhança - ML, porém este método apresenta um baixo poder discriminativo, uma vez que procura maximizar a probabilidade de um determinado São seqiiências que podem ser aproximadas por segmentos estacionários com duraç ões aleatórias. modelo gerar uma dada seqüência observada, mas não minimiza a probabilidade dos outros modelos gerarem esta mesma seqüência. Um critério mais adequado para o treinamento de um HMM seria o de maxim ização da informação mútua MMI (HMaximum Mutual Information") o qual ressalta a capacidade de discriminação entre os modelos que competem entre si. Infelizmente o critério MMI não pode ser solucionado por análise direta ou por reestimação [3]. Por outro lado pode-se mostrar que a MMI é equivalente à máxima probabilidade a posteriori - ' MAP [3], que é o mesmo método utilizado por uma ANN otimizada a partir do critério de minimização do erro quadrático médio - MSE (HMinimum Square Error") [I]. O termo sistema híbrido ANN-HMM tem sido largamente utilizado para sistemas que utilizam redes neurais artificiais como uma alternativa mais eficiente para estimar os parâmetros de um HMM. Neste trabalho, será assumido que as seqü ências a serem reconhecidas são formadas pela concatenação de subseqüências que serão denominadas de sub-unidades. Em analogia ao 406

Transcript of Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a...

Page 1: Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a seqüência de símbolos X . O processo de decodificação do sistema híbrido ANN-HMM

Sistemas Híbridos ANN-HMM Baseados nosCritérios ML e MAP para

Reconhecimento de Séries TemporaisEdmílson S. Morais . 1

Fábio Violaro "Carlos Alberto YnogutiMárcio L. Andrade Netto '

Departamento de Comunicações '" ,:IDepartamento de Computação e Automação Industrial · 1.Faculdade de Eng. Elétrica e de Computação - UNICAMP

CP 610 I - CEP 13083970 - Campinas SP - [email protected] [email protected] '" ynoguti@decom .fee.unica01p.br :l

[email protected] -,

Abstract: This paper presents a study about two basic types of ANN-HMM hybrid systems(Artificial Neural Network - Hidden Markov Model) for temporal series recognition : (I ) StandardANN-HMM hybrid system - based on Maximum Likelihood (ML) criterion, (2) Discriminant ANN-HMM hybrid system - based on Maximum A Posteriori (MAP) criterion. For a performance anal ysisthe standard ANN-HMM hybrid system is appli ed on the recognition of a particular type of temporalseries, the continuous speech.

Resumo: Este artigo apresenta um estudo sobre dois tipos básicos de sistemas híbridos ANN-HMM(HArtificial Neural Network - Hidden Markov Model") para o reconhecimento de séries temporais : ( I)Sistema híbrido ANN-HMM padrão - baseado no critério ML (HMaximum Likelihood"), (2) Sistemahíbrido ANN-HMM discriminativo - baseado no critério MAP ("Maximum A Posteriori"). Para umaanálise de desempenho do sistema híbrido ANN-HMM padrão serão apresentados resultados de suaaplicação ao reconhecimento de um tipo particular de série temporal, a fala contínua.

1. IntroduçãoMuitos problemas de reconhecimento de padrões, defundamental importância hoje em dia, são de naturezainerentemente seqüencial. Alguns exemplos incluem oreconhecimento de movimentos humanos através deuma seqüência de imagens de vídeo, ou oreconhecimento de fala contínua através de umaseqüência de amostras de um sinal de voz.

. Nos últimos anos , vários pesquisadores temapresentado soluções baseadas em modelos ocultos deMarkov - . HMM, para o reconhecimento de sériestemporais [I] [4] [5]. Os modelos ocultos de Markov.são estruturas duplamente estocásticas que tem semostrado eficientes, tanto no modelamento estatísticocomo temporal de seqüências estacionárias porpartes'. O critério de treinamento mais usual de umHMM baseia-se no método . da máximaverossimilhança - ML, porém este método apresentaum baixo poder discriminativo, uma vez que procuramaximizar a probabilidade de um determinado

São seqiiências que podem ser aproximadas por segmentosestacionários com duraç ões aleatórias.

modelo gerar uma dada seqüência observada, mas nãominimiza a probabilidade dos outros modelos geraremesta mesma seqüência. Um critério mais adequadopara o treinamento de um HMM seria o demaxim ização da informação mútua MMI(HMaximum Mutual Information") o qual ressalta acapacidade de discriminação entre os modelos quecompetem entre si. Infelizmente o critério MMI nãopode ser solucionado por análise direta ou porreestimação [3]. Por outro lado pode-se mostrar que aMMI é equivalente à máxima probabilidade aposteriori - ' MAP [3], que é o mesmo métodoutilizado por uma ANN otimizada a partir do critériode minimização do erro quadrático médio - MSE(HMinimum Square Error") [I]. O termo sistemahíbrido ANN-HMM tem sido largamente utilizadopara sistemas que util izam redes neurais artificiaiscomo uma alternativa mais eficiente para estimar osparâmetros de um HMM.

Neste trabalho, será assumido que asseqüências a serem reconhecidas são formadas pelaconcatenação de subseqüências que serãodenominadas de sub-unidades. Em analogia ao

406

Page 2: Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a seqüência de símbolos X . O processo de decodificação do sistema híbrido ANN-HMM

\V

Figura 1 : Diagrama de blocos dos sistemas híbridos ANN-HMM padrão e ANN-HMM discriminativo.

\L \JI ' .1

MLP. . . . . . . . . . . . . . . . . . . ... . MLPCorpuspl uso em f de pl uso em

ANN-HMM ANN-HMMPadrão :: Discr iminativo. . .. . . . .. . . . . . .. .

t I,Saídas da MLP

P(c)X/I) Saídas da MLPP( /11 /1-')cj X/I ,Ci

Conversão emproboa priori

p(x/llc)- .:........... ,j,... ..... .. ..: . . . . . . ... . ... . ... . . . . . . . . . ..

·..'iV .... , .._.. .... , .. ·----,.. .. '· · ..l· ..'..·..,

I'----Yiterbi '---- Yiterbi •••

, 'J \:,Pré-processamento l

:· · · · · · ·· · ··· · · · · · ·.1"· · ·· · · · · ·· · · · · · · · :· .· .· .: Extração de características :· .· .

Para o sistema desenvolvido neste trabalho ocorpus de sub-unidades consiste de 36 fones que sãosuficientes para representar qualquer sentença, atravésde um procedimento de concatenaç ão.

4. Pré-ProcessamentoO pré-processamento consiste na transformação da sé-rie temporal s(n) em uma seqüência finita desímbolos X = {x, Xz.X) '· .. , Xr } , onde cada um destessímbolos possui uma correspondência biunívoca comum determinado segmento da série. Esta transforma-ção procura satisfazer dois objetivos principais : (I)comprimir o sinal o máximo possivel, sem perda deinformações cruciais ao reconhecimento e (2) facilitara discriminação entre diferentes segmentos.

2. Sistemas Híbridos ANN-HMMNa Figura I é apresentado um diagrama de blocoscom os sistemas híbridos ANN-HMM padrão e ANN-HMM discriminativo. Segundo este diagrama umsistema híbrido ANN-HMM pode ser dividido emquatro partes fundamentais : (I) Definição de umCorpus de sub-unidades, (2) Pré-processamento(extração de características), (3) Estimação deparâmetros (modelamento estatístico), (4) Decodifi-cação (construção dos HMMs e busca de Viterbi) .

reconhecimento de fala contínua serão adotadas asseguintes correspondências seqü ências <::>sentenças , sub-unidades <::> fones. Os dois sistemashíbridos a serem discutidos neste artigo apresentam asseguintes diferenças básicas : (I) sistema híbridoANN-HrvtM padrão - discriminativo apenas a nível desub-unidades, (2) sistema híbrido ANN-HMMdiscriminativo - discriminativo tanto a nível de sub-unidades como de sentenças. Em ambos os sistemas oreconhecimento de uma sentença será realizadoatravés da identificação da seqüência mais provável desub-unidades.

Para uma anál ise de desempenho do sistemahíbrido ANN-HMM padrão são apresentadosresultados de sua aplicação no reconhecimento de umtipo particular de série temporal, a fala contínua. Paratreinamento e avaliação deste sistema foi utilizadauma base de dados constituída .de 100 sentençasamostradas a 16 KHz e quantizadas com 16 bits ,totalizando 5,21 minutos de fala.

Neste artigo é apresentada uma descriçãogeral dos principais módulos dos sistemas híbridosANN-HMM padrão e ANN-HMM discriminativo, sãodiscutidos tópicos teóricos relacionados e resultadosda aplicação do sistema ANN-HMM padrão noreconhecimento de 100 frases . A seção 2 apresentaum diagrama de blocos dos dois sistemas híbridos. Asseções 3 e 4 descrevem, respectivamente, anecessidade do corpus de sub-unidades e do pré-processamento. O proced imento para estimação dosparâmetros estatísticos está descrito na seção 5. Aseção 6 discute o processo de decodificação, deta-lhando a definição dos HMMs e a busca de Viterbi . Osistema implementado encontra-se na seção 7.Finalmente as seções 8 e 9 apresentam, respecti-vamente, as conclusões e referências bibliográficas.

3. Corpus de Sub-unidadesSerá assumido um conjunto finito com N sub-unidades para representar toda e qualquer sérietemporal permitida pelo sistema de reconhecimento.Estas sub-unidades também serão denominadas declasses e o conjunto de todas elas será representadoporQ = {cp cz.c),. .. ,cN } .

407

Page 3: Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a seqüência de símbolos X . O processo de decodificação do sistema híbrido ANN-HMM

Figura 2 : HMM ieft-righ t par a um sentença de L fones .

6. Decodificação

6.] Defínição dos modelos ocultos de MarkovA definição dos HMMs de cada uma das sentenças(seqüências) a serem reconhecidas consiste em:• Definir o tipo de modelo a ser utilizado. No sistemaimplementado assumiu-se o modelo left -right ondecada estadocorresponde a uma sub-unidade (fone)existente na sentença.

P(cilx lI )

p(x"Ic)= P(c) ·p(x lI ) (I).I

Sendo X' = {xI>X2,"XM} o sub-conjunto de símbolosutilizados para o treinamento da rede MLP, então aprobabilidade a priori P(c) pode ser estimada pelaequação (2) :

P(ci) = Ip(Ci ,xk)= Ip(cilx k) ·P(Xk) (2)Xl: eX ' eX'

Substituindo (2) em (1) e assumindo os símbolosX k E X' equiprováveis (suposição baseada, no fatoque os símbolos xk não são quantizados), obtém-se :

P(c ilx,J

• Estimar as probabilidades de transição ac c . Para o, J

sistema ANN-HMM padrão, estas probabilidadespodem ser estimadas segundo o algoritmo de reesti-mação de Baurn-Welch [4]. Para o sistema ANN-HMM discriminativo as probabilidades estimadaspela rede MLP P«I XII'c;'-I) já incluem estasprobabilidades de transição.

No sistema hibrido ANN-HMM padrãoimplementado, as probabilidades de transição foram

5.3 Sistema ANN-HMM DiscriminativoO treinamento do sistema híbrido ANN-HMMdiscriminativo consiste na otimização dos parâmetrose de uma rede neural MLP construída para estimaras probabilidades a posteriori P«IXII ,C;,-I) , isto é, aprobabilidade da classe c ; no instante n, dado o

símbolo XII e a classe c; no instante n - l, Estesparâmetros podem ser estimados por uma MLPtreinada como um classificador de padrões, onde aentrada será dada pela concatenação do símbolo x"com a saída da rede MLP no instante n -1 .

5. Estimação de ParâmetrosFoi descoberto recentemente [1], que se uma ANN fortreinada como um classificador de padrões utilizandocomo critério de otimização o erro quadrático médio -MSE então suas saídas irão aproximar a probabilidadea posteriori da classe, Ptclassesentradai. Esta aproxi-mação será .tão mais precisa quanto mais representa-tivos forem os exemplos de treinamento. Os sistemashíbridos apresentados neste artigo fazem uso destapropriedade para estimar, através de uma redeMultlilayer Perceptron - MLP , parâmetros dos HMMs

5.1 DefiniçõesPara facilitar a compreensão dos desenvolvimentosmatemáticos associados aos sistemas híbridos ANN-HMM padrão e ANN-HMM discriminativo, serãoutilizadas as seguintes definições :

• Q = {c" c2.c) , ·· ,cN } - Conjunto das N classes (esta-dos ou sub-unidades com os quais serão construídastodas as sentenças.• X = {x"x2.x),· ·,x r} - Seqüência de símbolos decomprimento T associada a uma sentença.X " +I' { } S b .. A • X d• 11 _1' = - U sequencla ede comprimento 2p + I e centrada no instante n.

• M; - /-ésimo modelo oculto de Markov .

•<- a ocorrência do estado ci no instante n.

.. ,c(}- Seqüência de estados decomprimento T associada a uma determinadaseqüência de símbolos X.

• :} = {C" C 2 , C),' " } - Conjunto de todas asseqüências de estados de comprimento T permitidaspor todos os possíveis modelos ocultos de Markov.

• 1"; - Sub-conjunto de :}, consistindo das seqüênciasde estado de comprimento T permitidas apenas pelomodelo Mi •

• e -Conjunto de parâmetros estatísticos (representa-dos pelos parâmetros da rede MLP).• PO - Representa probabilidade. p(.) - Representafunção densidade de probabilidade e verossimilhaça.

5.2 Sistema ANN-HMM PadrãoO treinamento do sistema híbrido ANN-HMM padrãoconsiste na otimização dos parâmetros e de umarede neural MLP , construída para estimar asprobabilidades a posteriori P(c; IXII)' isto é, aprobabilidade do símbolo XII pertencer à classe ci .

No sistema híbrido ANN-HMM padrão omódulo HMM baseia-se no critério ML e necessita deestimativas das probabilidades a priori p(xlllc;) . Pela

regra de Bayes as probabilidades a priori p(xlllc;)podem ser obtidas a partir das probabilidades aposteriori estimadas pela rede MLP :

408

Page 4: Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a seqüência de símbolos X . O processo de decodificação do sistema híbrido ANN-HMM

fixadas como função das durações médias dos fonesutilizados no treinamento da rede MLP.

• Associar a cada estado, ou uma função densidade deprobabilidade de emissão de símbolos p(xlI/c;) ouuma probabilidade de transição condicionada aosímbolo no instante atual conforme omodelo seja utilizado por um sistema híbrido ANN-HMM padrão ou ANN-HMM discriminativo,respectivamente.

6.2 Reconhecimento

6.2.2 Sistema ANN-HMM Padrão

I º Sentença <=> 1_HMM 1 · 1<=> p(XI M I ,8)

2º Sentença <=> I HMM 2 1<=> p(XIM2,8)

O algoritmo de Viterbi é utilizado como uma forma deviabilizar computacionalmente o cálculo deP(xl M j , 8). Neste algoritmo não é realizado o

somatório em (6); ao invés disso p(XI M j,8) écalculado considerando-se apenas a seqüência de esta-dos C E'!; com maior probabilidade de gerar X .

P(XI Mj>8)Max{P(XIC, M j ,8) · P(q M j,8)} (10)Cer ,

6.2.3. Sistema ANN-HMM Discriminativo

1ª Sentença <=> 1 BMM! J<=> P(Mtl X, 8)

2ª Sentença <=> I HMM2 I<=> P(M2 IX,8 )

(4)

Kª Sentença <=> I HMMK I <=> P(MKIX,8)

Considere o desenvolvimento proposto por[1]. Escrevendo P(M;I ,X,8) em termos deprobabilidade marginal, resulta:

(11)M; = ArgMax P(MjIX,8)M· •

J

Figura 4 : HMMs para cada uma das K sentenças aserem reconhecidas e suas respect ivas probabili-dades a p osteriori dad a a seqüência de símbolos X.

O processo de decodificação do sistemahíbrido ANN-HMM discriminativo consiste emdeterminar o modelo oculto de Markov M, quemaximiza a probabilidade a posteriori P( M; IX, 8) ,isto é, a probabilidade do modelo de Markov M,dada a seqüência de símbolos X = {xl'x2 , ••• ,x r } e osparâmetros estatísticos 8 .

P(MiIX,8) = I P(C, MiI X,8) (12)CE:!

= I P(qX,8) · P(MjIX,C,8)CE3

Assumindo que M, não precisa ser condicionado a Xse C for especificado e que. ; n r j = 0 \:f i * j ,

Manipulando (5) pode-se escrever :

p(XI M;,8) = I p(XIC, M;,8)· P(q M;,8) (6)Cer ,

Csr ,

M, =ArgMaxp(XIM;,8)M j

Para expressar p(XI Mj>8) em termos deparâmetros dispon íveis, considere o desenvolvimentoa seguir. Escrevendo p(XI M j ,0) em termos deprobabilidade marginal, tem-se :

I Kª Sentença <=> [ HMMK I <=> p(XI MK,8)

Figura 3 : HMMs para cada uma das K sentenças aserem reconhecidas e suas respectivas verossim i-lh anças de gerarem a seqüência de símbolos X.

O processo de decodificação do sistemahíbrido ANN-HMM padrão consiste em determinar omodelo oculto de Markov M j , dados os parâmetrosestatísticos 8, que apresente a maior verossimilhançade gerar a seqüência de símbolos observadosX = {xl'x2 , ... ,x r } , isto é:

P(q M j>8) pode ser determinado a partir das então:probabilidades de transição, P(MjIX;8) = I P(qX,8)

Cer ,(13)

P(XI C, M j , 8) pode ser reescrito como :

p(XIC, M;,8) = p(xIIC, Mj , 8 ) · p(x 2IC, M; ,8,x l ) ·

... p(xrIC, M;,8,x r_I, .. ,x ,) (8)

Considerando-se os símbolos estatísticamenteindependentes e lembrando que a probabilidade deemissão depende apenas do estado atual, então :

rp(XIC, M j,8) = ITp(xlllcll, M j>8) (9)

11: 1

porque neste caso P(M;IC,8) = O \:fC j eP(M;IC,8) = I \:fC E'!;.Reescrevendo P(qX,8) como

P(q X, 8) = p(CII, c; ," ,cri X, 8) (14)

= ,8) ·. .. . , .. ·,C l

l ,8)e considerando um modelo de Markov de 1ª ordem(estado atual condicionado apenas ao estado anterior)e também assumindo que o estado cj no instante n

409

Page 5: Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a seqüência de símbolos X . O processo de decodificação do sistema híbrido ANN-HMM

está condicionado apenas aos 2p + I símbolosadjacentes a ele (o símbolo atual, os p anteriores e osp posteriores), então (14) pode ser aproximado por:

T

P(q X,0) ""n ,0) (15)0=1

A solução de Viterbi de (13) pode ser expressa por :

P(M;IX,0) ""Max P(qX,0) (16)Csr ,

Sendo CIO= {c;.. ,<,"',<} a seqüência de estadosdefinida pelo algoritmo de Viterbi, então utilizando(15) e (16) pode-se escrever P(M;IX,0) como :

T

P( M;IX,0) ""n P(c::.1 ,0) (17)n=1

7. Sistema Implementado

Nesta seção é apresentado o sistema híbrido ANN-HMM padrão que foi implementado para o reconheci-mento de sentenças dependente de locutor. O experi -mento utilizou 100 sentenças, mas o sistema tem aflexibilidade de reconhecer quaisquer outras,necessitando apenas que o usuário forneça a sua grafiafonética.

No sistema as sentenças são inicialmenteanalisadas peja rede neural MLP, quadro a quadro,sem nenhum sincronismo com a segmentação. A cada10 ms um novo conjunto de coeficientes mel-cepstrais[4] é calculado (pré-processamento) e, junto com ostrês conjuntos anteriores e três conjuntos posteriores,submetidos à rede MLP. As saídas da rede sãoconvertidas em probabilidades a priori e montados100 HMM's, um para cada sentença. Em seguidaaplica-se o algoritmo de Viterbi a cada um dosmodelos ocultos de Markov com o objetivo deidentificar aquele com maior probabilidade de gerar aelocução em análise. Como resultado final foi obtidouma taxa de acerto de 100%.

7.1 Base de Dados

A. Fones - Corpus de Sub-unidadesA base de dados (conjunto de 100 sentenças) foi seg-

em 36 fones segundo critérios estabelecidospor especialistas do Laboratório de Fonética Acústicae Psicolingüística Experimental (LAFAPE) do Institu-to de Estudos da Linguagem (IEL) da UNICAMP.Para o treinamento da rede MLP foram definidos doissub-conjuntos a partir do conjunto total de fones.• Sub-conjunto de treinamento : consiste de 80% dosfones ·totais. Estes fones foram escolhidos aleatoria-mente e utilizados para o treinamento da rede .

• Sub-conjunto de validação : consiste dos 20%restantes e é utilizado para avaliar o desempenho darede (validação cruzada) e para evitar a ocorrênciade "overfitting" (perda da capacidade degeneralização).

410

B. SentençasAs 100 sentenças que constituem a base de dadosutilizada neste trabalho apresentam uma diversidademuito grande de duração e de palavras, mostrando-se,portanto, bastante úteis para a avaliação do sistema. Asentença mais curta é composta por uma palavra e amais longa por quarenta palavras. A Tabela I mostraalgumas destas sentença.

Tabela 1 : Exemplosde algumas se-itenças utilizadasI O saldo é suficiente2 O saldo de sua conta é suficiente3 Todos os bancos devem fazer a atualização cadastral até

31 de dezembro4 Todos os bancos devem fazer a atual ização cadastral de

seus clientes até 31 de dezembro

7.2 Rede Neural MLP• Algoritmo de treinamento back-propagationpadrão.

• Número de entradas : 84, correspondente a 7quadros de 10 ms, com 12 coeficientes rnel-cepstraispor quadro.

• Número de neurônios na camada escondida : 70,escolhido segundo um compromisso ent re odesempenho da rede e o tempo de processamento.• Número de saídas : 36, correspondente ao .n úmerode fones.

• Funções não lineares : q>( vi) = (I + exp(-vj ))-1 .

• Normalização dos dados de entrada: foramnormalizados de modo a resultar um desvio padrãoc = 0,5 fazendo com que 95% dos dados estivessementre -1,Oe 1,0.• Pelo fato da otimização não ter garantido um míni-mo global e para poder interpretar a saída da redey(j, n) como uma medida de probabilidade, foi rea-

lizada uma normalização para que : Ly(j,n) = I .....i

7.3 Reconhecimento de fonesApós 227 épocas, os percentuais de acerto da redeMLP para os sub-conjuntos de treinamento e devalidação cruzada foram'

Tabela 2 : Percentuais de acertoda redeMLPSub-conjunto de treinamento Sub-conjunto de validação

86,6% 71,2%

7.4 Reconhecimento de sentençasA Figura 5 mostra a saída da rede MLP para asentença " O saldo é suficiente", convertida emprobabilidades a priori p(xlllc) . Cada linha destamatriz indica as probabilidades dos símbolo xlI'sserem emitidos pela classe (estado) cj . Nesta Figuraos tons de cinza indicam o valor das probabilidades apriori; quanto mais intenso (mais escuro) o tom decinza, maior o valor da probabilidade.

Page 6: Sistemas Híbridos ANN-HMM Baseados nos Critérios MAP para ... · dades a p osteri ori dad a a seqüência de símbolos X . O processo de decodificação do sistema híbrido ANN-HMM

15

.... ,.

\ ,: 15 • • .;j 20 "-... ' 1 'l

E.

A Figura 7 mostra curvas com as probabilidadesresultantes da apresentação das sexta frase aos vinteprimeiros modelos, considerando-se dois casos : (1)probabilidades de transições fixas e iguais a 0,5 , (2)probabilidades de transições como função dasdurações médias dos fones, caso em que aumenta acapacidade de discriminação do sistema.

Figura 5 : Saída da rede MLP para a frase "O saldo ésuficiente" convertida emprobabilidades a priori.

8. ConclusõesEste artigo apresentou um estudo sobre sistemashíbridos ANN-HMM para reconhecimento de sériestemporais . Foi dado ênfase à diferenciação entresistemas discriminativos apenas a nível de sub-unidades (ANN-HMMpadrão) e sistemas discrimina-tivos tanto a nível de sub-unidades como de sentenças(ANN-HMM discriminativo) . .· Ressaltou-se a simpli-cidade dos procedimentos de estimação de parâmetrosdos HMMs através de ANN. Aplicou-se o sistemahíbrido ANN-HMM padrão ao reconhecimento de umtipo particular de série temporal , a fala contínua.

Como resultado da aplicação do sistemaANN-HMM padrão no reconhecimento de sentenças,pode-se considerar que os resultados foram bastanteanimadores. A rede MLP apresentou um desempenhorazoável, 71,2% para o reconhecimento de fones e oalinhamento temporal realizado pelo HMM conseguiuum resultado de 100% para o reconhecimento defrases . Os resultados aqui apresentados referem-se auma base de dados de um único locutor, mas osistema proposto pode ser perfeitamente adequado aoreconhecimento independente de locutor, bastandopara isto treinar a rede MLP com um base demúltiplos locutores.

Como trabalhos futuros pretende-se imple-mentar o método de reestimação de probabilidades aposteriori proposto por [2] e repetir o experimentoapresentado neste artigo, porém, utilizando o sistemahíbrido ANN-HMM discriminativo.

200 :n o

(b)

la 100 120 ,.0Illmbo1c11l

(a)

Nas Figuras 6.a, 6.b, 6.c e 6.d são mostrados osmodelos e os alinhamentos realizados pelo algoritmode Viterbi, relativos , respectivamente, às frases "Ésuficiente" (12 fones), "Isto é suficiente" (16 fones),"O saldo é suficiente" (18 fones) e "O saldo de suaconta é suficiente" (27 fones), quando a seqüência desímbolos recebida pelo sistema corresponde à frase"O saldo é suficiente".

(c) (d)Figura 6 : Símbolos da frase "O saldo é suficiente"avaliados nos HMM's (a) "É suficiente", (b) "Isto ésuficiente" , (c) "O saldo é suficiente" e (d) "O saldo desuacontaé suficiente".

fonu

As probabilidades calculadas ao longo doscaminhos de Viterbi, apresentados na Figura 6,confirmam que o modelo correspondente à Figura 6.cé o que tem a maior probabilidade de gerar aseqüência de símbolos correspondentes à frase : "Osaldo é suficiente"

1 ' ::l1 I 1 1 · - a i} = 0.5 :0.95 I - - "I - - 1- - - 1- o- a ij =.função das durações médias :0 .9 J - - .L - - I _ 1- dos fones

I0.85

P(XIM;.0 )

10 12 14 16 18 20

Números das frases

Figura 7 : Resultados da apresentação da sexta frase aos 20primeiros HMMs considerando-se dois casos: (I) a ij = 0.5;(2) aij função das durações médias dos fones.

9. Referências Bibliográficas[I] H. Bourlard and C. J. Wellekens., "Links betweenMarkov models and multilayer perceptrons," IEEE Trans.Patt. Anal. andMach.Tntell., vol. 12, pp. 1167-I 178, 1990.[2] Yochai Konig. , "REMAP : Recursive Estimation andMaximization of A Posteriori Probabilities in Transition-based Speech Recognition," PhD Thesis, University ofCalifomia at Berkely, 1996.. [3] Tebelskis, 1., "Speech Recognition using NeuralNetworks," PhDThesis,Camegie Mellon University, 1995.[4] Rabiner, L. and Juang, B. H., Fundamentals of SpeechRecognition, Prentice Ha1l1993 .[5] Christoph, B., "Learning and Recognition HumanDynamics in Video Sequences," IEEE conf. CornputerVision andPattemRecognition, 1997.

411