Implementação da técnica VTLN - Estudo dos métodos

Implementação da técnica VTLNEstudo de Métodos

Aluno: Ramon Mayor MartinsProf: Carlos Alberto Ynoguti

Refinamento de PesquisaPr

oces

sam

ento

de

Voz

Reco

nhec

imen

to d

e Vo

z

Reco

nhec

imen

to d

e Pa

lavr

as

Inde

pend

ente

do

Locu

tor

HM

M

VTLN

Warping Factor Selection LT MetodosWarp

Application Warp Type

Parametric Features Based

Sint

ese

da F

ala

Codi

ficac

ao d

a Fa

la

Reco

nhec

imen

to d

e Lo

cuto

rId

entifi

caçã

o da

Li

ngua

gem

Dep

ende

nte

do L

ocut

or

Fala

Co

ntínu

aFa

la

Contí

nua

Fala

D

iscr

eta

Fala

D

iscr

eta

Non-Parametric

HMM Based

Modo Normal Modo Calibração

1- Maximum Likelihood

2- Maximum Log-Likelihood

3- ML com referencia

GMM

7- ML warp factor respect

GMM-UBM

4- Pitch-Based warp factor estimation

5- Pitch-Based + ML

estimation com

6-ML with Jacobian

8- ML variacao 1

9- ML variacao 2

Refinamento de PesquisaPr

oces

sam

ento

de

Voz

Reco

nhec

imen

to d

e Vo

z

Reco

nhec

imen

to d

e Pa

lavr

as

Inde

pend

ente

do

Locu

tor

HM

M

VTLN

Warping Factor Selection LT MetodosWarp

Application Warp Type

Parametric Features Based

Sint

ese

da F

ala

Codi

ficac

ao d

a Fa

la

Reco

nhec

imen

to d

e Lo

cuto

rId

entifi

caçã

o da

Li

ngua

gem

Dep

ende

nte

do L

ocut

or

Fala

Co

ntínu

aFa

la

Contí

nua

Fala

D

iscr

eta

Fala

D

iscr

eta

Non-Parametric

HMM Based

Modo NormalModo Calibração

1- Maximum Likelihood

2- Maximum Log-Likelihood

3- ML com referencia

GMM

7- ML warp factor respect

GMM-UBM

4- Pitch-Based warp factor estimation

5- Pitch-Based + ML

estimation com

6-ML with Jacobian

8- ML variacao 1

9- ML variacao 2

Implementação do VTLN – Estudo dos Métodos

-Brian Widmer do SSLI (Signal, Speech and Language Interpratation Lab da Universidade de Washington) recomendou 3 áreas de pesquisa sobre o VTLN.

• Warping Factor Selection: Como escolher o fator ótimo de distorção de cada locutor

• Warp Application: Como aplicar a distorção nos dados

• Warp Type: Linear, Não-Linear, Piece-wise Linear.

-Procurou-se fazer uma pesquisa com relação á busca do Fator ótimo de distorção.

Implementação do VTLN – Estudo dos Métodos

-Warping Factor Selection

-2 grandes decisões:

• Parametrico vs Não-Parametrico: Estimar o fator de distorção , ou buscar o fator ótimo sobre uma faixa pré-determinada de fatores de distorção.

• HMM (Model) Based vs Feature Based:Usar HMM pré-treinados para estimar o fator de distorção , ou estima-lo baseando nas características da fala? Feature Based , podem ser movidos inteiramente no processamento de sinais do Front-End

Diagrama de Blocos: [Front-End ->VTLN -> HMM ]

VTLN Convencional

Pre-Process FFT Banco de

Filtro Log DCT

HCopy

MFCC Treino

Distorção do Eixo de Freq.

Normalização de Locutor

Implementação do Banco

Transformação dos Parametros

HCompV

MFCCSinal de Voz

HERest HHEd

MFCC Teste

HVite HResult

.mfccconfig

Front-End , Extração de Características

VTLN Convencional

Reconhecedor - HMM

HMM Treinamento

Teste

Likelihood

Acc

Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 2 Formas de busca do Warp Factor Selection

VTLN Convencional

Pre-Process FFT Banco de

Filtro Log DCT

HCopy

MFCC Treino

Distorção do Eixo de Freq.

Normalização de Locutor

Implementação do Banco

Transformação dos Parametros

HCompV

MFCCSinal de Voz

HERest HHEd

MFCC Teste

HVite HResult

.mfccconfig

Front-End , Extração de Características

VTLN Convencional

Reconhecedor - HMM

hmmx Treinamento

Teste

Likelihood

Acc

Warp Factor

Selection

Feature Based

HMM Model Based

VTLN Convencional

-Distorção do Eixo de Frequencia:

-O Banco de Filtros é escalonado no eixo das frequencias por um fator de distorção.

-Segundo [1] tem-se maior eficiência do método quando o processo de distorção é realizado no banco de filtros (variação do banco de filtros)

VTLN Convencional

-Fator de Distorção (Warp Factor)

-Com uma única FFT executada em cada segmento do sinal de fala analisado, pode-se empregar diferentes fatores de distorção (normalização) diretamente no banco de filtros.

-Função: Escalonar um banco de filtros , afim de compensar a variação do comprimento do trato vocal de um locutor em relação a um trato vocal de comprimento médio.

-Representado pela razão entre o comprimento do trato vocal do locutor sendo analisado e o comprimento do trato vocal utilizado como referencia.

VTLN Convencional

-Fator de Distorção (Warp Factor)

-A estimação segura deste comprimento deve ocorrer baseada em dados acusticos.

-No entanto isso é dificil de fazer uma vez que diferentes locutores possuem diferentes comprimentos de trato vocal, que podem ser modificados de acordo com o som produzido.

-Segundo [1] a melhor forma de se obter o fator responsavel pelo escalonamento é escolhe-lo de modo que a probabilidade de um conjunto de caracteristicas acusticas , de um determinado locutor, seja maximizada em relação a um dado modelo acustico tomado como referencia.

-Não leva em consideração o movimento dos labios (não tem efeito significativo na estimação do fator de distorção)

-O Fator de distorção pode ser estimado.

VTLN Convencional

-Fator de Distorção Otimo (Warp Factor)

-O principal objetivo do VTLN é encontrar um fator de distorção otimo para deformar o eixo da frequência do sinal de fala, de modo que variações de frequências formantes dos locutores pronunciando o mesmo som seja reduzida.[Umesh - Indian Academy of Sciences,2011]

-O melhor alpha será aquele que, ao escalonarmos o banco de filtro, na escala Mel, proporcionará a maior verossimilhança média nas suas locuções [Lee and Rose,1998] , o que define o método padrão de busca do alpha ótimo, usado na maioria dos artigos.

Métodos Estudados

1- Maximizing Log-Likelihood [2]2- Maximizing Likelihood with a GMM Reference [3]3- Pitch-Based Warp Factor estimation [3]4- Pitch-Based and ML Estimate – combinantion [3]5- Maximizing Likelihood with Jacobian Transcript [4]6- Maximizing Likelihood warp factor estimation respect to the GMM-UBM [5]7- Maximizing Likelihood [Variação 1]8- Maximizing Likelihood [Variação 2]

0-Maximizing Likelihood [1]

• Método Padrão

• Métodos Alternativos

Métodos Padrão

Metodo 1: Maximizing Likelihood

Artigo:[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998]

Resumo:-O paper apresenta um método eficiente de estimar o fator de distorção e um mecanismo para implementar o banco de filtro.

Obs: Bem explorado na tese da Raquel.

Métodos Padrão


-Fator de Distorção Otimo ( Optimal Warp Factor)

-Para cada locutor i , é então obtido pela máxima probabilidade de se obter um conjunto de características acústicas, dado um modelo λ e as transcrições de cada locução referente ao locutor i

- conjunto de características acusticas de todas as N Locuções do locutor i, escalonados de alpha

- conjunto de transcrições de todas as N locuções associadas a um dado locutor i - ótimo fator de distorção para o locutor iλ – representa o modelo HMM treinado por um grande numero de locutores

Métodos Padrão


-Escolha do Fator de Distorção Otimo ( Optimal Warp Factor)-O melhor fator de distorção será aquele que, ao escalonarmos o banco de filtros, na escala Mel, proporcionará a maior verossimilhança média nas suas locuções.-Na escolha são levados em consideração

-Todas as locuções do locutor analisado-A transcrição fonética das locuções associadas a este locutor-Sub-unidades adotadas (fones)-modelo HMM utilizado como referencia

Métodos Padrão


-AlgoritmoInicialização-matrizes de transição e emissão , hmm1 pré-treinado

Recursao-Definição de variável [alpha, Wi, Lambda, Xi ]-Para cada locutor i, faz:

-calcular a maxima verossimilhança entre os 13 valores de alpha-Armazenar o valor de alpha que proporciona a max verossimilhança associado a seu respectivo locutor-Usa-se o Viterbi para isso

Termino-Finalizado quando se obtem para cada locutor i, o seu respectivo alpha

Métodos Padrão


-Treinamento (baseado na tese da Raquel)-É realizado a partir de fones, locuções de treinamento separados por locutor, transcrição fonética, alphas obtidos para cada locutor, e o modelo hmm1 (sem normalização).

-Inicialmente:-Calculam-se os alpha otimos para cada locutor do conjunto de M locutores de treinamento-Em seguida os alphas associados a seus respectivos locutores são empregados para calcular um novo conjunto de parametros mel-cepstrais q serao utilizados no treinamento do sistema-O treinamento é entao executado durante tantas epocas (até a distorção de 0.001 de uma época para outra)-Depois de realizada todas as epocas tem-se um novo modelo HMM

Métodos Padrão


-Treinamento (baseado na tese da Raquel)-É feito uma comparação entre os valores alpha novo e alpha incialmente calculado-Obtem-se no final deste processo o HMM normalizado

-Reconhecimento-Realizado da mesma forma q no sistema s/ normalização-Entretanto, antes d se reconhecer cada locução deve-se escolher o melhor fator de distorção para cada um dos locutores de teste-O HMM normalizado (obtivo após o retreinamento) é utilizado tanto na escolha do melhor alpha quanto no reconhecimento das locucoes-Uma vez obtido o melhor fator de distorção , para cada locutor, este fator é utilizado para todos as demais locucoes do respectivo locutor (na obtencao dos parametros acusticos)

Métodos Alternativos

Metodo 1: Maximizing Log-Likelihood

Artigo: [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length Normalization”, IEEE Transactions on ASLP, 2013]

Resumo do escopo do estimador:-Apresenta um método que não é encontrado na literatura-Apresenta um esquema de otimização baseado na máxima verossimilhança para obter o fator de distorção (warp factor) para substituir o grid search.-O fator de distorção mostrado no artigo , mostrou mais dependência do locutor e mais independencia do conteudo acustico –fonético do que o fator de distorção resultante dos métodos VTLN-convencional e VTLN estado da arte



Funcionamento: -Ao invés de avaliar vários fatores de distorção para escolher aquele que maximiza a verossimilhança , é sempre desejável estimar o ótimo analiticamente

Estimador:

C – vetor característicaS – sequencia de estados dentro do λ (representando a decodificacao da melhor hipotese dada por Viterbi, computado com C) λ – sequencia de fonemas dependentes de contexto , modelo HMM com K estados - fator distorção otimo , estimado pelo maximo log-verossimilhança



Motivação: -Reduzir a perturbação introduzida na estimação da energia do banco de filtro Mel pela composição harmonica dos intervalos de fala e amostras DFT quando a frequencia central dos filtros passa-faixa é deslocado.

Contra o Método Padrão:-O deslocamento da frequencia central dos filtros passa-faixa pode introduzir perturbações na estimação de energia do filtro devido a descontinuidade causada pela DFT e a estrutura harmonica dos sinais de voz. Este problema é especialmente agudo nas baixas frequencias onde a largura de faixa do filtro é estreito de acordo com a escala Mel.


Método 2: Maximizing Likelihood with a GMM ReferenceMétodo 3: Pitch-Based Warp Factor estimationMétodo 4: Pitch-Based and ML Estimate – combinantion (Maximum a posteriori)

Artigo: [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, INTERSPEECH, 2005]

Resumo:-Descrito uma abordagem alternativa-Explora a correlação entre o pitch médio do locutor e o comprimento do trato vocal, o modelo de distribuição de probabilidade do fator distorção condicionado na observação do pitch-Pitch do locutor (tom da voz, altura do som)


Método 2: Maximizing Likelihood with a GMM ReferenceMétodo 3: Pitch-Based Warp Factor estimationMétodo 4: Pitch-Based and ML Estimate – combinantion (MAP)

-Investigação :-A estimação do fator de distorção baseado no pitch para VTLN é eficiente e requer baixo custo computacional-O método mais comum para achar o fator de distorção no VTLN invoca o critério de ML para escolher o fator de distorção que da a maior probabilidade de observação para o locutor-A maxima verossimilhança pode ser computada usando modelos de reconhecimento de fones.

Alternativas: -Como Alternativa o fator de distorção pode ser escolhido pela maxima verossimilhança das referencias acusticas dos Modelos de Misturas Gaussianas (GMM)



-Alternativas:-Outra abordagem de predição do fator de distorção é observando mais diretamente parametros acusticos da fala, tal como os formantes (frequencias ressonante do trato vocal)

-Há o método proposto por [C. Lopes e Perdigão, “VTLN through warp factors based on pitch”, Revista Brasileira de Telecomunicações, vol 18 , 2003], onde o fator de distorção é computado usando a relação do pitch de um locutor para um valor de referencia. Faria, o autor do artigo sob analise, acredita que essa abordagem não é ótima desde que o pitch não é diretamente proporcional ao comprimento do trato vocal.-De acordo com [Eide e Gish, 1996] , frequencias formantes são diretamente proporcional ao comprimento do trato vocal.



Motivação:-O trabalho de Faria, apresenta uma abordagem inspirada pela correlação entre o tamanho laringeal e o comprimento do trato vocal.

Funcionamento:-Durante o treinamento, a distribuição conjunta do pitch e o fator de distorção é estimado pelo acumulo da verossimilhança da observação acustica na medida dos valores do pitch.-Essa distribuição conjunta, pode ser utilizada para selecionar o fator de distorção mais provavel dado um pitch médio de um locutor, ou pode ser utilizada como prioridade baseada em pitch para combinação com a maxima verossimilhança usado na estimação do fator de distorção.



Vantagens:-O processo de seleção do fator de distorção pode ser reduzido para a extração de pitch, o qual irá reduzir o custo computacional e os recursos de memoria requerido pelo VTLN.

-Usando o fator de estimação baseado em pitch para VTLN, provê uma melhora substancial no sistema sem VTLN

-consegue-se ter uma maior precisão.


Método 2: Maximizing Likelihood with a GMM Reference

-Particularidade do método:-A versossimilhança acustica pode ser computada usando uma Mistura Multivariada Gaussiana ao modelo de fala generico em vez do modelamento HMM temporal.-a seleçao do fator de distorção pode ser deslocado completamente para o front-end, com uma referencia GMM , para atribuir probabilidades dos frames de locuções (warped utterance frames)-Mais eficiente para estimar o fator de estimação (elimina a necessidade de full recognition passes and rescored alignments)


Método 3: Pitch-Based Warp Factor estimation

Motivação:-Melhorar o método da ML

Funcionamento:-Correlação entre o pitch médio do locutor e o tamanho do seu trato vocal-Leva em consideração a glote e as pregas vocais (o que afeta as caracteristicas da fala)-Pitch Based Warp Factor , simplesmente requer a probabilidade condicional onde:

Fo – associado um valor único do pitch Fo de cada locutorfi – é considerado o pitch médio do frame da fala do i-ésimo locutor


Método 3: Pitch-Based Warp Factor estimation

-dado um pitch observado Fo = fi , o fator de distorção é encontrado por:

-O modelamento de dos dados de treinamento é dado pelaProbabilidade condicional de um alpha em particular.


Método 4: Pitch-Based and ML Estimate – combination (MAP)

Funcionamento:-Combinação dos Métidos 3 e 4-o fator de distorção utiliza um critério de Maximum a posteriori-Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão



Discussão:-O método 3, VTLN com estimação de fator de distorção baseado em pitch é um método eficiente de normalização de locutor-Os experimentos demonstraram uma redução substancial no WER comparado com um sistema sem VTLN-Deste modo , pitch foi util para estimar o fator de distorção, mesmo quando calculado sobre locuções curtas.-É quase tão bom quanto o ML-O método 4, melhorou bastante os resultados-Mas somente no cenário com dados normalizados limitados


Método 4: Pitch-Based and ML Estimate – combination (MAP)


Métodos Alternativos – Método 5

Método 5: Maximizing Likelihood with Jacobian Transcript

Artigo:[Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010]

Resumo:-No artigo é estudado o efeito de usar o Jacobiano no VTLN como uma transformação linear.



Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM

Artigo:[Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker-Cluster UBM for Speaker Verification”, IEEE NCC, 2010]

Resumo:-Tenta combinar o espectro de um locutor para outro locutor pelo escalonamento do eixo de frequencia do espectro com um fator de distorção ,ou fator VTLN.-a estimação do fator de distorção é feito com respeito ao GMM-UBM


Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM

Funcionamento:-Os passos envolvem uma estimação de α e um cluster de locutores baseado em α-Usa um separador UBM para um grupo de locutores alvo-Os locutores alvo são agrupados / clusterizados baseados no fator α

Métodos Alternativos – Método 7/8

7- Maximizing Likelihood [Variação 1]8- Maximizing Likelihood [Variação 2]

Artigo:[Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on Maximum Likelihood Criterion” , IEEE , 2009]

Resumo:-O paper propoe usar modelo com uma gaussiana por estado no HMM como um conjunto de modelo inicial-Propoe algumas variacoes no método padrão-Suprir a fraqueza do método padrão.



Funcionamento:-O procedimento termina imediatamente após a 1ª iteração-O modelo com uma gaussiana por estado HMM é escolhido porque ele não pode aprender as caracteristica de um locutor em particular , ao contrário dos modelos HMM com mais de uma mistura Gaussiana por estado.

Fraqueza do método padrão-A fraqueza do processo padrão para estimação, é que ele favorece fonemas frequentes e longos.



Variações para melhorar o método padrão-1ª variação: Maximum Sample mean of likelihood per phoneme para um locutor em particular-objetivo: Eliminar a influencia da duração, mas não a influencia da frequencia do fone na estimação do coeficiente VTN.

-2ª variação: Likelihood of a particular phoneme ,representa a média amostral da verossimilhança de todo vetor caracteristica que pertence a esse fonema.-método mais robusto.

Propostas

Influência dos Parâmetros na Escolha do α ótimo (mel, delta delta mel)Influência da quantidade de locução na escolha do α ótimoReduzir a diferença de Crianças para Adultos o máximo possívelOtimizar o VTLN Convencional

Bibliografia

[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998]

[Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length Normalization”, IEEE Transactions on ASLP, 2013]

[Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, INTERSPEECH, 2005]

[Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010]

[Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker-Cluster UBM for Speaker Verification”, IEEE NCC, 2010]

[Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on Maximum Likelihood Criterion” , IEEE , 2009]

Implementação da técnica VTLN - Estudo dos métodos

Engineering

Transcript of Implementação da técnica VTLN - Estudo dos métodos