Análise Paramétrica de Sinais de Fala Baseada em Estimação ... · Automatic voice-source...

3
Análise Paramétrica de Sinais de Fala Baseada em Estimação Conjunta do Modelo Fonte-Filtro Mário Uliani Neto , Leandro de Campos Teixeira Gomes , João Marcos Travassos Romano (Orientador) Departamento de Microondas e Óptica Faculdade de Engenharia Elétrica e de Computação Universidade Estadual de Campinas (Unicamp) [email protected], [email protected], [email protected] Resumo – Este artigo tem como objetivo apresentar um algoritmo de análise por síntese baseado em estimação conjunta para análise de sinais de fala. A principal vantagem do algoritmo proposto é a parametrização automática e simultânea do filtro do trato vocal e da fonte de excitação utilizados no processo de produção da fala. O modelo proposto para o trato vocal é capaz de identificar as frequências de ressonância do sinal de fala, e o modelo de excitação baseia-se na forma de onda glotal e no ruído de aspiração. Estes modelos representam características físicas do locutor. Palavras-chave: modelo fonte-filtro, análise por síntese, estimação conjunta, computação evolutiva. 1. Introdução Uma das abordagens mais utilizadas para modelar o processo de produção da fala é o modelo fonte-filtro [2]. Neste modelo, o aparelho fonador humano é separado em dois componentes distintos: um filtro linear, cuja função de transferência está relacionada às frequências de ressonância das cavidades supra-glotais do trato vocal humano (boca, faringe, fossas nasais), e uma fonte que gera um sinal de excitação aplicado à entrada do filtro. O tipo de sinal emitido pela fonte depende das características do sinal de fala a analisar. Nos trechos de fala vozeados (ou sonoros), cujo exemplo típico são as vogais, o sinal da fonte é periódico, resultando da vibração das cordas vocais. Nos trechos não vozeados (ou não sonoros), como por exemplo os sons fricativos das consoantes ’s’ e ’f’, o sinal da fonte é modelado como um ruído gaussiano branco. Já nos trechos híbridos, o sinal da fonte é visto como a soma dos dois componentes descritos anteriormente. O sinal emitido pela fonte alimenta a entrada do filtro. A configuração instantânea do trato vocal (aber- tura da boca, posição da língua e da mandíbula, conformação labial etc.) está associada às frequências de ressonância do filtro. O espectro do sinal de fala em um dado instante de tempo corresponde ao espectro do sinal da fonte submetido à resposta em frequência do filtro. A análise de sinais de fala, tendo como base o paradigma do modelo fonte-filtro, consiste em: definir modelos matemáticos para a fonte de excitação e para o filtro do trato vocal; estimar parâmetros para os modelos, de forma a minimizar um critério de erro entre o sinal original e o sinal produzido ao aplicar o sinal da fonte à entrada do filtro. Esse tipo de análise do sinal de fala tem bastante utilidade em diversas aplicações envolvendo processamento de fala, tais como codificação de voz, reconhecimento de locutor, síntese de fala e transformação de voz. O processo de análise de sinais de fala apresentado neste trabalho visa estimar, a partir do sinal de fala desejado, os parâmetros de um modelo de síntese capaz de representar todos os sons da língua portuguesa. 2. Visão Geral do Modelo de Análise O processo de análise proposto é ilustrado na Figura 1. Inicialmente, o sinal de fala é dividido em quadros, síncronos com o período de pitch para os trechos vozeados e de tamamnho fixo (10 ms) para os trechos não vozeados. Para os trechos vozeados, é inicialmente utilizado um filtro passa-altas, 1-z -1 1-0,99z -1 , para remoção do deslizamento de baixa frequêcia próximo do nível DC. É então proposto um algoritmo de deconvolução fonte-filtro baseado em computação evolutiva [1] para estimar de forma conjunta os parâmetros do filtro do trato vocal (definidos pela frequência central e largura de banda de um conjunto de ressoadores, ou formantes, em cascata, conforme apresentado em [4]), os parâmetros da fonte de excitação (definidos pelo modelo RK [5], parametrizado no domínio do tempo, modelado matematicamente através de uma relação simples de apenas três parâmetros, e capaz de aproximar um período de pitch da derivada da forma de onda

Transcript of Análise Paramétrica de Sinais de Fala Baseada em Estimação ... · Automatic voice-source...

Page 1: Análise Paramétrica de Sinais de Fala Baseada em Estimação ... · Automatic voice-source parameterization of natural speech. In Proceedings of Interspeech, pages 1065–1068,

Análise Paramétrica de Sinais de Fala Baseada em EstimaçãoConjunta do Modelo Fonte-Filtro

Mário Uliani Neto , Leandro de Campos Teixeira Gomes , João Marcos Travassos Romano (Orientador)

Departamento de Microondas e ÓpticaFaculdade de Engenharia Elétrica e de Computação

Universidade Estadual de Campinas (Unicamp)

[email protected], [email protected], [email protected]

Resumo – Este artigo tem como objetivo apresentar um algoritmo de análise por síntese baseado em estimaçãoconjunta para análise de sinais de fala. A principal vantagem do algoritmo proposto é a parametrização automáticae simultânea do filtro do trato vocal e da fonte de excitação utilizados no processo de produção da fala. O modeloproposto para o trato vocal é capaz de identificar as frequências de ressonância do sinal de fala, e o modelo deexcitação baseia-se na forma de onda glotal e no ruído de aspiração. Estes modelos representam característicasfísicas do locutor.

Palavras-chave: modelo fonte-filtro, análise por síntese, estimação conjunta, computação evolutiva.

1. IntroduçãoUma das abordagens mais utilizadas para modelar o processo de produção da fala é o modelo fonte-filtro[2]. Neste modelo, o aparelho fonador humano é separado em dois componentes distintos: um filtro linear,cuja função de transferência está relacionada às frequências de ressonância das cavidades supra-glotais dotrato vocal humano (boca, faringe, fossas nasais), e uma fonte que gera um sinal de excitação aplicado àentrada do filtro. O tipo de sinal emitido pela fonte depende das características do sinal de fala a analisar.Nos trechos de fala vozeados (ou sonoros), cujo exemplo típico são as vogais, o sinal da fonte é periódico,resultando da vibração das cordas vocais. Nos trechos não vozeados (ou não sonoros), como por exemploos sons fricativos das consoantes ’s’ e ’f’, o sinal da fonte é modelado como um ruído gaussiano branco. János trechos híbridos, o sinal da fonte é visto como a soma dos dois componentes descritos anteriormente.

O sinal emitido pela fonte alimenta a entrada do filtro. A configuração instantânea do trato vocal (aber-tura da boca, posição da língua e da mandíbula, conformação labial etc.) está associada às frequências deressonância do filtro. O espectro do sinal de fala em um dado instante de tempo corresponde ao espectrodo sinal da fonte submetido à resposta em frequência do filtro.

A análise de sinais de fala, tendo como base o paradigma do modelo fonte-filtro, consiste em: definirmodelos matemáticos para a fonte de excitação e para o filtro do trato vocal; estimar parâmetros para osmodelos, de forma a minimizar um critério de erro entre o sinal original e o sinal produzido ao aplicar osinal da fonte à entrada do filtro. Esse tipo de análise do sinal de fala tem bastante utilidade em diversasaplicações envolvendo processamento de fala, tais como codificação de voz, reconhecimento de locutor,síntese de fala e transformação de voz.

O processo de análise de sinais de fala apresentado neste trabalho visa estimar, a partir do sinal de faladesejado, os parâmetros de um modelo de síntese capaz de representar todos os sons da língua portuguesa.

2. Visão Geral do Modelo de AnáliseO processo de análise proposto é ilustrado na Figura 1. Inicialmente, o sinal de fala é dividido em quadros,síncronos com o período de pitch para os trechos vozeados e de tamamnho fixo (10 ms) para os trechos nãovozeados. Para os trechos vozeados, é inicialmente utilizado um filtro passa-altas, 1−z−1

1−0,99z−1 , para remoçãodo deslizamento de baixa frequêcia próximo do nível DC. É então proposto um algoritmo de deconvoluçãofonte-filtro baseado em computação evolutiva [1] para estimar de forma conjunta os parâmetros do filtrodo trato vocal (definidos pela frequência central e largura de banda de um conjunto de ressoadores, ouformantes, em cascata, conforme apresentado em [4]), os parâmetros da fonte de excitação (definidos pelomodelo RK [5], parametrizado no domínio do tempo, modelado matematicamente através de uma relaçãosimples de apenas três parâmetros, e capaz de aproximar um período de pitch da derivada da forma de onda

Page 2: Análise Paramétrica de Sinais de Fala Baseada em Estimação ... · Automatic voice-source parameterization of natural speech. In Proceedings of Interspeech, pages 1065–1068,

Filtro para Remoção do Impulso de Baixa Frequêcia

Sinal de Voz

Marcação de Pitch

Decisão

Vozeado?Vozeadonão-Vozeado

Otimização com Algoritmo Evolutivo. Ajuste: Filtro de Formantes; GCI; Modelo RK; Coeficiente de Controle do Decaimento Espectral

Filtragem Inversa Através do Filtro de Formantes

Filtragem Adaptativa: Ajuste doFiltro Complementar com Pólos

Loop para Busca Linear do n Ótimoc

Estimativa da Energia do Ruído de Aspiração e Fricação

Parâmetros Estimados do Modelo

Parâmetros Estimados do Modelo

Figura 1. Visão geral do processo de análise de fala proposto.

Filtro de Wiener

+

Fonte de Excitação Obtida Através daFiltragem Inversa com Filtro de Formantes

e(n)Ajuste doscoeficientes

g (n)^

Derivada da Forma de Onda Glotal Estimada com Modelo RK

g(n) g (n)oFonte de Excitação Original Ajustada

Ajuste do Filtro Complementar ao Trato Vocal

+

-

RK

Figura 2. Filtro adaptativo para ajuste do filtro complementar ao trato vocal.

glotal), e o instante de fechamento da glote (GCI, do inglês Glottal Closure Instants). O uso desses modelospermitem estabelecer uma série de restrições para o algoritmo genético.

Em seguida, é realizada uma filtragem inversa do quadro de fala original através do filtro de formantes,obtendo-se uma estimativa do sinal glotal original. É utilizado um algoritmo de filtragem adaptativa, ba-seado no filtro de Wiener, para calcular os parâmetros de um filtro complementar ao trato vocal, ajustandocom isso a fonte de excitação original, conforme ilustrado em 2. Neste processo, também é ajustada aduração da fase em que a glote encontra-se fechada (GCP, do inglês Glottal Closed Phase).

Na sequência, é realizado um novo processo de filtragem inversa do quadro de fala original com ofiltro do trato vocal completo e efetuado o ajuste do modelo LF [3] (modelo mais preciso do que o RK,porém computacionalmente mais custoso, parametrizado no domínio do tempo para um período de pitch daderivada da forma de onda glotal, caracterizando os momentos de fase aberta e fechada da glote por meiode quatro parâmetros) através de um processo de estimação direta [6] e algoritmo evolutivo.

Por fim, o ruído residual, obtido através da diferença entre a fonte de excitação original e a forma deonda obtida com o modelo LF, é medido e parametrizado através de um ruído Gaussiano branco moduladopelo modelo LF.

Para os trechos não vozeados, é utilizado um algoritmo baseado em predição linear para ajuste do filtrodo trato vocal contendo apenas polos. O erro de predição é utilizado para estimativa da energia do ruídoGaussiano de turbulência.

Page 3: Análise Paramétrica de Sinais de Fala Baseada em Estimação ... · Automatic voice-source parameterization of natural speech. In Proceedings of Interspeech, pages 1065–1068,

(a) (b)

Figura 3. Otimização através de algoritmo genético; 3(a) vogal /AA/; 3(b) vogal /II/.

3. ResultadosPara validação do modelo proposto, foram utilizadas 100 frases gravadas em estúdio de áudio, com baixoruído, projetadas de forma a apresentar riqueza e diversidade fonéticas. Os arquivos de fala foram armaze-nados no formato wave (codificação PCM linear) com taxa de amostragem de 16 kHz e 16 bits por amostra.No total, as 100 frases são constituídas por aproximadamente 52.000 quadros. Para realização da otimi-zação dos parâmetros, o algoritmo genético foi configurado para iterar por 300 gerações, levando-se emconsideração um total de 400 indivíduos, com taxa de crossover de 0, 8 e probabilidade de mutação de 0, 1.

A figura 3 apresenta dois exemplos da otimização dos parâmetros do modelo de fonte e filtro utilizando oalgoritmo genético. As figuras apresentam a função de transferência do filtro de trato vocal, os parâmetrosdo modelo da fonte otimizada, a evolução do fitness do algoritmo e a comparação da forma de onda doquadro original com a forma de onda estimada.

4. ConclusõesA abordagem apresentada neste trabalho para modelamento de fonte e filtro permite que se faça uma in-terpretação física dos parâmetros obtidos na otimização, uma vez que o modelo LF expressa a derivadado pulso glotal e o filtro com formantes em cascata representa a envoltória espectral dos quadros de fala.Esta técnica mostra-se viável para aplicações como compressão de voz; transformação de voz (pois osparâmetros obtidos na otimização podem ser alterados de forma relativamente simples); síntese de fala(permitindo a suavização dos parâmetros de quadros de voz adjacentes que necessitem ser concatenados);e reconhecimento de locutor.

Como trabalhos futuros, prevê-se o uso de um modelo para representar sons vozeados com fricação,como as fricativas sonoras, para os quais não se obtiveram bons resultados com o modelo proposto. Alémdisso, prevê-se o estudo e análise de viabilidade da aplicação da técnica proposta em sistemas de transfor-mação de voz.

Referências[1] L. N. de Castro. Fundamentals of natural computing: basic concepts, algorithms, and applications.

Chapman & Hall/CRC, 2006.[2] G. Fant. Acoustic Theory of Speech Production. Mouton De Gruyter, 1970.[3] G. Fant, J. Liljencrants, and Q. Lin. A four-parameter model of glottal flow. STL-QPSR, 26(4):1–13,

1985.[4] D. H. Klatt. Software for a cascade/parallel formant synthesizer. Journal of the Acoustical Society of

America, 67(3):971–995, March 1980.[5] D. H. Klatt and L. C. Klatt. Analysis, synthesis and perception of voice quality variations among female

and male talkers. Journal of the Acoustical Society of America, 87(2):820–857, 1990.[6] J. Perez and A. Bonafonte. Automatic voice-source parameterization of natural speech. In Proceedings

of Interspeech, pages 1065–1068, Lisboa, Portugal, Sep 2005.