Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

Sistemas de Codificação e Reconhecimento de Sistemas de Codificação e Reconhecimento de

Voz na Internet e em Redes de Telefonia MóvelVoz na Internet e em Redes de Telefonia Móvel

Abraham AlcaimCETUC

Pontifícia Universidade Católica do Rio de Janeiro

SBT’2004Belém

2

MOTIVAÇÃOMOTIVAÇÃO

Crescimento gigantesco da Internet e dos Sistemas de Comunicações

Móveis Celulares

Desenvolvimentos importantes em codificação de voz a baixas taxas

Serviços de Reconhecimento Automático de Voz (RAV)

Abraham Alcaim – SBT’2004

3

Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas


4


Codecs em geral baseados em um modelo LPC Codecs em geral baseados em um modelo LPC aplicado a aplicado a quadros (segmentos) de voz de curta duração ~ 20 msquadros (segmentos) de voz de curta duração ~ 20 ms

Um filtro só de pólos --- através dos parâmetros LPC --- Um filtro só de pólos --- através dos parâmetros LPC --- caracteriza o aparelho vocalcaracteriza o aparelho vocal

Usualmente transmite-se os parâmetros LSF por serem Usualmente transmite-se os parâmetros LSF por serem

mais adequados que os LPC para quantização e mais adequados que os LPC para quantização e interpolaçãointerpolação

{LSF} Aparelho Vocal


5

Codificação de Voz a Baixas Taxas em Canal LimpoCodificação de Voz a Baixas Taxas em Canal Limpo

Alguns Problemas

•Bom modelo para a excitação

•Quantização deseus parâmetros

•Bom modelo para o aparelho vocal

•Quantização deseus parâmetros

•Interpolação dosparâmetros LSF

dentro de cada quadro


6


Padrões Empregados em Redes Móveis e IP


Em geral são codecs do tipo CELP (Code Excited Linear Prediction)

Buscam tirar proveito de estruturas especiais dos dicionários para simplificar a busca do melhor vetor-código

Exemplos:

VSELP (Vector-Sum Excited Linear Prediction)

CS-ACELP (Conjugate Structure – Algebraic CELP)

7

Alguns Padrões Empregados em Redes Móveis e IP


• 1995 : ITU-T G.723.1 (MOS~3,98) – 5,3 ou 6,3 kb/s – IP

• 1995 : ITU-T G.729 / CS-ACELP (MOS~4,2) – 8 kb/s – IP

• 1992 : TIA – IS-54 / VSELP (MOS~3,5) – 8 kb/s – Cel USA TDMA

• 1993 : VSELP - Japão (MOS~3,3) – 6,7 kb/s – Cel Japonês TDMA

• 1993 : TIA – IS-95 / QCELP (MOS~3,4) – 1 / 2 / 4 / 8 kb/s – Cel USA CDMA

• 1995 : TIA – IS-96-A / QCELP – 1,2 / 2,4 / 4,8 / 9,6 kb/s – Cel USA CDMA

• 1995 : GSM – HR (Half Rate) / VSELP (MOS~3,4) – 5,6 kb/s – Cel Europeu TDMA

• 1997 : GSM – EFR (Enhanced Full Rate) / ACELP – 12,2 kb/s – Cel Europeu TDMA

• 1997 : TIA – IS-641 (substitui o IS-54) / ACELP – 7,4 kb/s – Cel USA TDMA

• 1998 : TIA – IS-733 / QCELP – 1,8 / 3,6 / 7,8 / 14,4 kb/s – Cel USA CDMA

• 1998 : TIA – IS-127 EVRC (Enhanced Variable Rate Coder) / ACELP –

1,2 / 4,8 / 9,6 kb/s – Cel USA CDMA

• 2001 : AMR-WB (Adaptive Multi Rate – Wide Band) / ACELP – 6,6 / 8,85 / 12,65 / 14,25 / 15,85 / 18,25 / 19,85 / 23,05 / 23,85 kb/s – Cel 3G Europa, Japão, USA, Coréia – WCDMA

8

Reconhecimento Automático de Voz (RAV)Reconhecimento Automático de Voz (RAV)

Conversãoanalógico

digital

Extração deAtributos da

Voz

Classificaçãode padrões

TEXTO

FALA

Padrões dereferência


9

Reconhecimento Automático de Voz (RAV)Reconhecimento Automático de Voz (RAV)

Baseados em um conjunto de atributos de voz extraídos Baseados em um conjunto de atributos de voz extraídos emem quadros (segmentos) de voz de curta duração --- quadros (segmentos) de voz de curta duração --- tipicamente a cada 10 mstipicamente a cada 10 ms

Um classificador de padrões --- o HMM, p.ex. --- é projetado Um classificador de padrões --- o HMM, p.ex. --- é projetado a partir de um conjunto de treinamentoa partir de um conjunto de treinamento

•Palavras Isoladas•Palavras Conectadas•Voz Contínua

•Dependente do Locutor

•Independente do Locutor

Vocabulário:•Pequeno

•Médio•Grande


10

Sistemas de RAV DistribuídosSistemas de RAV Distribuídos Grande interesse em disponibilizar serviços de RAV em Grande interesse em disponibilizar serviços de RAV em

redes móveis e IPredes móveis e IP

Alta complexidade e grande quantidade de memória tornam Alta complexidade e grande quantidade de memória tornam atraentes a opção por sistemas de RAV distribuídosatraentes a opção por sistemas de RAV distribuídos

INTERNET REDES MÓVEIS

•Tel Celular: extrai, codifica e transmite parâmetros da voz

•Estação-base: decodifica parâmetros e faz o reconhecimento a partir de um classificador de padrões

•PC: extrai, codifica e transmiteparâmetros da voz

•Servidor Remoto: decodificaparâmetros e faz o reconhecimento a partir de um classificador de padrões Abraham Alcaim –

SBT’2004

11

Sistemas de RAV DistribuídosSistemas de RAV Distribuídos

Dispositivo Local

VOZ

CODde Vozou de

Atributos

Rede Móvel ou IP

DECOD

RAV

Processamento no Terminal do

Usuário

Extrator deAtributos

Processamento na

Estação-Base ou no

Servidor Remoto

Operação a baixas taxas de

bits

Canais com limitação de

faixa


12

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificadordo Codificador

Dispositivo Local

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ


13

Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz

DecodificadaDecodificada

Dispositivo Local

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz


RAV

Voz

Comandos deVoz



14

Reconhecimento de Voz a partir da Codificação dos Reconhecimento de Voz a partir da Codificação dos Atributos para ReconhecimentoAtributos para Reconhecimento

Dispositivo Local

VOZ

CODde

Atributos

Rede Móvel ou IP

DECODde

Atributos

RAV

Comandos deVoz

SÃO TRANSMITIDOS APENAS OS ATRIBUTOS DO RECONHECEDOR DE VOZ


15

Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP

CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE

VOZ E NA TAXA DE RECONHECIMENTO

Altas taxas de erros de bitserros de bits

Desvanecimento em Sistemas Móveis e Congestionamento em IP:

perdas de pacotes em rajadasperdas de pacotes em rajadas

Distorções introduzidas

pelos codecs a codecs a baixa taxabaixa taxa

Aumento do no. de quadros de voz em um

pacote:retardos inaceitáveisretardos inaceitáveis

Fragilidade dos codecs em ambientes ambientes ruidosos como carros, ruidosos como carros, restaurantes, aviões,restaurantes, aviões,

fábricas, etcfábricas, etc

Descasamento entre Descasamento entre Treinamento e OperaçãoTreinamento e Operaçãodo reconhecedor de voz


16


Decodificada: Decodificada: Que atributos usar para Que atributos usar para reconhecimento?reconhecimento?

Dispositivo Local

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz


RAV

Voz

Comandos deVoz



Voz

?

•Parâmetros da Excitação Quantizados

•Parâmetros LSF Quantizados

17


Decodificada: Decodificada: Que atributos usar para Que atributos usar para reconhecimento?reconhecimento?

DECODdeVoz Extrator de Atributos para

Reconhecimento

RAV

Voz

Comandos deVoz


Voz

(1) CC (Cepstral Coefficients) : estimados a partir do espectro suave da voz - Para RAV: melhores que

LPC(2) MFCC (Mel-FrequencyCepstral Coefficients) : um dos mais usados em RAV - estimados a partir

da voz – (DCT das log-energias nas saídas de filtros triangulares centrados nas freqs. da escala mel) -

Mel melhora a taxa de reconhecimento(3) PLP –Cepstrum (Perceptual Linear Predictive - Cepstrum) : também muito usados em RAV -

estimados a partir da voz – (usa filtros assimétricos espaçados na escala Bark) –

Resultados em geral similares ao Mel, mas inferiores em algumas situações (fones)(4) ZCPA (Zero Crossings with Peak Amplitudes)

: DCT de histogramas (por contagem de picos) do inverso de CZs nas saídas de FPFs - Para

RAV: mais robustos que MFCC em ruído aditivo

18

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Que atributos usar para Que atributos usar para

reconhecimento?reconhecimento?

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz


RAV

Voz

Comandos deVoz


•Parâmetros da Excitação Quantizados

•Parâmetros LSF Quantizados

LSFs Quantizad

os

?

19

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Atributos Extraídos dos Coeficientes Atributos Extraídos dos Coeficientes

LPCLPC

DECODdeVoz


RAV

Voz

Comandos deVoz


LSFs Quantizad

os

2 Parâmetros Extraídos a partir dos Coeficientes LPC

LSF

LPC

(1) LPCC (LPC Cepstral Coefficients) ou CEP Para RAV: melhores que as LSF

(2) MLPCC ou MCEP (na escala Mel): Para RAV: muito melhores

que LPCC

20

Reconhecimento de Voz a partir dos Parâmetros do Reconhecimento de Voz a partir dos Parâmetros do Codificador: Codificador: Atributos Extraídos a partir das LSFsAtributos Extraídos a partir das LSFs

DECODdeVoz


RAV

Voz

Comandos deVoz


LSFs Quantizad

os

4 Parâmetros Extraídos a partir dos Coeficientes LSF

mais simples que extraídos a partir de LPC

LSF

L

(1) PCC (Pseudo- Cepstral Coefficients): aprox. do LPCC – só que extraído a partir das LSFs, com % de reconhecimento levemente inferior à LPCC (2) MPCC (na escala Mel): muito melhor que PCC e comparável à MLPCC

21

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Atributos Extraídos a partir das LSFsAtributos Extraídos a partir das LSFs

DECODdeVoz


RAV

Voz

Comandos deVoz


LSFs Quantizad

os

4 Parâmetros Extraídos a partir dos Coeficientes LSF

LSF

L

(3) PCEP (Pseudo- Cepstrum): aprox. matemática do LPCC um pouco pior que a do PCC – porém, com % de reconhecimento comparável ao PCC (resultado ainda não disponível na literatura) e menor complexidade (4) MPCEP (na escala Mel): muito melhor que PCEP , melhor que MFCC e comparável ao MLPCC e ao MPCC (resultado ainda não disponível na literatura)

22


CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE

VOZ E NA TAXA DE RECONHECIMENTO

Uma delas Resulta do Desvanecimento em Sistemas Móveis e do Congestionamento em IP:

perdas de pacotes em rajadasperdas de pacotes em rajadas


23



PLR = p/(p+q)

Característica de rajadas do processo de perdas Modelo Markoviano de 2 estados: “Modelo de Gilbert”

p = P[“packet received”“packet lost”]

q = P[“packet lost”“packet received”]

Packet Loss Rate:

Comprimeno da Rajada B= 1/(1-clp)onde clp = 1-q

24



#1 [J. Wang and J. Gibson, “Parameter

interpolation to enhance the frame erasure robustness of CELP coders in packet

networks”, Proc. ICASSP 2001].

#2 [D. Quercia, L. Docio-Ferandez, C.Garcia-Mateo,

L. Farinetti and J. C. De Martin, “Performance analysis of distributed speech recognition over IP networks on

the AURORA database”, Proc. ICASSP 2002].

#3 as in [D. Rahikka, J. Collura, T. Fuja, D. Sridhara and T. Fazel, “Error coding strategies for MELP vocoder in

wireless and ATM environments”, Proc. IEE Seminar on Speech Coding for Algorithms for Radio Channels, pp. 8/1-

8/6, 2000].

Algumas referências de Modelos de Gilbert para simular diferentes

condições de redes

25

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse


A distorção espectral dos parâmetros LSF é função da estratégia de quantização adotada

e da taxa de perdas de pacotes

Afeta não só a qualidade da voz

como o desempenho do reconhecedor

Como projetar um

bom quantizador

de modo que nessas situações

os desempenh

os sejam pouco

afetados

?

26



Em RAV distribuído, extrair os atributos para reconhecimento dos parâmetros recebidos do

codificador de voz fornece taxas de reconhecimento maiores do que extrair esses

atributos a partir da voz decodificada

Mas será que, se a voz foi obtida em ambiente ruidoso, extrair os parâmetros ZCPA

da voz decodificada não será melhor do que extrair outros

atributos a partir dos parâmetros recebidos do

codificador ?

27



• Os codecs de voz usados em redes móveis e IP extraem os parâmetros que caracterizam a evolução da envoltória espectral a cada 20 a 30 ms. • Porém os sistemas de reconhecimento usualmente requerem extração de atributos acústicos tipicamente a cada 10 ms

Mas que parâmetros e como

interpolar ?

SOLUÇÃO

Interpolar linearmente os

parâmetros a partir do que foi recebido

do codificador

LSF ?

MFCC ?MLPCC ? MPCEP ? Outros ?

28



Algumas Experiências com Reconhecimento de Voz Distribuído operando na Internet

Mesmo taxas relativamente

altas de perdas de pacotes

isolados não afetam de forma

muito significativa o

desempenho do reconhecedor se

usarmos a técnica de repetição

Reconhecedor CDHMM para

seqüências de dígitos

Perdas em rajadas

acentuadas, como pode

acontecer na Internet, causam

resultados desastrosos

29



Em geral, as perdas de pacotes em rajadas em redes móveis e IP afetam muito o desempenho

do sistema de reconhecimento

Novamente que parâmetros e como

interpolar ?

SOLUÇÃO

Também interpolar linearmente os

parâmetros a partir do que foi recebido

do codificador

LSF ?

MFCC ?MLPCC ? MPCEP ? Outros ?

30



Fragilidade dos

codecs em ambientes ambientes ruidosos como carros, ruidosos como carros, restaurantes, aviões,restaurantes, aviões,

fábricas, etcfábricas, etc

Péssimo desempenho

dos sistemas de reconhecime

nto

Melhoras significativas na taxa de reconhecimento através do emprego de

técnicas de realce de voz

Mas que técnicas usar para o reconhecimento de voz em um cenário

que envolve um grande número de

condições adversas?Distorções originais

dos codecs a baixas

taxas

Perdas de pacotes em

rajadas

Descasamento entre treino e

operação dos reconhecedo

res

Outros Problem

as

Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

Documents

Transcript of Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel