Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

31
Sistemas de Codificação e Sistemas de Codificação e Reconhecimento de Voz na Internet e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel em Redes de Telefonia Móvel Abraham Alcaim CETUC Pontifícia Universidade Católica do Rio de Janeiro SBT’2004 Belém

description

Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel. Abraham Alcaim CETUC Pontifícia Universidade Católica do Rio de Janeiro SBT’2004 Belém. MOTIVAÇÃO. Crescimento gigantesco da Internet e dos Sistemas de Comunicações Móveis Celulares. - PowerPoint PPT Presentation

Transcript of Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

Page 1: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

Sistemas de Codificação e Reconhecimento de Sistemas de Codificação e Reconhecimento de

Voz na Internet e em Redes de Telefonia MóvelVoz na Internet e em Redes de Telefonia Móvel

Abraham AlcaimCETUC

Pontifícia Universidade Católica do Rio de Janeiro

SBT’2004Belém

Page 2: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

2

MOTIVAÇÃOMOTIVAÇÃO

Crescimento gigantesco da Internet e dos Sistemas de Comunicações

Móveis Celulares

Desenvolvimentos importantes em codificação de voz a baixas taxas

Serviços de Reconhecimento Automático de Voz (RAV)

Abraham Alcaim – SBT’2004

Page 3: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

3

Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas

Abraham Alcaim – SBT’2004

Page 4: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

4

Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas

Codecs em geral baseados em um modelo LPC Codecs em geral baseados em um modelo LPC aplicado a aplicado a quadros (segmentos) de voz de curta duração ~ 20 msquadros (segmentos) de voz de curta duração ~ 20 ms

Um filtro só de pólos --- através dos parâmetros LPC --- Um filtro só de pólos --- através dos parâmetros LPC --- caracteriza o aparelho vocalcaracteriza o aparelho vocal

Usualmente transmite-se os parâmetros LSF por serem Usualmente transmite-se os parâmetros LSF por serem

mais adequados que os LPC para quantização e mais adequados que os LPC para quantização e interpolaçãointerpolação

{LSF} Aparelho Vocal

Abraham Alcaim – SBT’2004

Page 5: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

5

Codificação de Voz a Baixas Taxas em Canal LimpoCodificação de Voz a Baixas Taxas em Canal Limpo

Alguns Problemas

•Bom modelo para a excitação

•Quantização deseus parâmetros

•Bom modelo para o aparelho vocal

•Quantização deseus parâmetros

•Interpolação dosparâmetros LSF

dentro de cada quadro

Abraham Alcaim – SBT’2004

Page 6: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

6

Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas

Padrões Empregados em Redes Móveis e IP

Abraham Alcaim – SBT’2004

Em geral são codecs do tipo CELP (Code Excited Linear Prediction)

Buscam tirar proveito de estruturas especiais dos dicionários para simplificar a busca do melhor vetor-código

Exemplos:

VSELP (Vector-Sum Excited Linear Prediction)

CS-ACELP (Conjugate Structure – Algebraic CELP)

Page 7: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

7

Alguns Padrões Empregados em Redes Móveis e IP

Abraham Alcaim – SBT’2004

• 1995 : ITU-T G.723.1 (MOS~3,98) – 5,3 ou 6,3 kb/s – IP

• 1995 : ITU-T G.729 / CS-ACELP (MOS~4,2) – 8 kb/s – IP

• 1992 : TIA – IS-54 / VSELP (MOS~3,5) – 8 kb/s – Cel USA TDMA

• 1993 : VSELP - Japão (MOS~3,3) – 6,7 kb/s – Cel Japonês TDMA

• 1993 : TIA – IS-95 / QCELP (MOS~3,4) – 1 / 2 / 4 / 8 kb/s – Cel USA CDMA

• 1995 : TIA – IS-96-A / QCELP – 1,2 / 2,4 / 4,8 / 9,6 kb/s – Cel USA CDMA

• 1995 : GSM – HR (Half Rate) / VSELP (MOS~3,4) – 5,6 kb/s – Cel Europeu TDMA

• 1997 : GSM – EFR (Enhanced Full Rate) / ACELP – 12,2 kb/s – Cel Europeu TDMA

• 1997 : TIA – IS-641 (substitui o IS-54) / ACELP – 7,4 kb/s – Cel USA TDMA

• 1998 : TIA – IS-733 / QCELP – 1,8 / 3,6 / 7,8 / 14,4 kb/s – Cel USA CDMA

• 1998 : TIA – IS-127 EVRC (Enhanced Variable Rate Coder) / ACELP –

1,2 / 4,8 / 9,6 kb/s – Cel USA CDMA

• 2001 : AMR-WB (Adaptive Multi Rate – Wide Band) / ACELP – 6,6 / 8,85 / 12,65 / 14,25 / 15,85 / 18,25 / 19,85 / 23,05 / 23,85 kb/s – Cel 3G Europa, Japão, USA, Coréia – WCDMA

Page 8: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

8

Reconhecimento Automático de Voz (RAV)Reconhecimento Automático de Voz (RAV)

Conversãoanalógico

digital

Extração deAtributos da

Voz

Classificaçãode padrões

TEXTO

FALA

Padrões dereferência

Abraham Alcaim – SBT’2004

Page 9: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

9

Reconhecimento Automático de Voz (RAV)Reconhecimento Automático de Voz (RAV)

Baseados em um conjunto de atributos de voz extraídos Baseados em um conjunto de atributos de voz extraídos emem quadros (segmentos) de voz de curta duração --- quadros (segmentos) de voz de curta duração --- tipicamente a cada 10 mstipicamente a cada 10 ms

Um classificador de padrões --- o HMM, p.ex. --- é projetado Um classificador de padrões --- o HMM, p.ex. --- é projetado a partir de um conjunto de treinamentoa partir de um conjunto de treinamento

•Palavras Isoladas•Palavras Conectadas•Voz Contínua

•Dependente do Locutor

•Independente do Locutor

Vocabulário:•Pequeno

•Médio•Grande

Abraham Alcaim – SBT’2004

Page 10: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

10

Sistemas de RAV DistribuídosSistemas de RAV Distribuídos Grande interesse em disponibilizar serviços de RAV em Grande interesse em disponibilizar serviços de RAV em

redes móveis e IPredes móveis e IP

Alta complexidade e grande quantidade de memória tornam Alta complexidade e grande quantidade de memória tornam atraentes a opção por sistemas de RAV distribuídosatraentes a opção por sistemas de RAV distribuídos

INTERNET REDES MÓVEIS

•Tel Celular: extrai, codifica e transmite parâmetros da voz

•Estação-base: decodifica parâmetros e faz o reconhecimento a partir de um classificador de padrões

•PC: extrai, codifica e transmiteparâmetros da voz

•Servidor Remoto: decodificaparâmetros e faz o reconhecimento a partir de um classificador de padrões Abraham Alcaim –

SBT’2004

Page 11: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

11

Sistemas de RAV DistribuídosSistemas de RAV Distribuídos

Dispositivo Local

VOZ

CODde Vozou de

Atributos

Rede Móvel ou IP

DECOD

RAV

Processamento no Terminal do

Usuário

Extrator deAtributos

Processamento na

Estação-Base ou no

Servidor Remoto

Operação a baixas taxas de

bits

Canais com limitação de

faixa

Abraham Alcaim – SBT’2004

Page 12: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

12

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificadordo Codificador

Dispositivo Local

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ

Abraham Alcaim – SBT’2004

Page 13: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

13

Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz

DecodificadaDecodificada

Dispositivo Local

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ

Abraham Alcaim – SBT’2004

Page 14: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

14

Reconhecimento de Voz a partir da Codificação dos Reconhecimento de Voz a partir da Codificação dos Atributos para ReconhecimentoAtributos para Reconhecimento

Dispositivo Local

VOZ

CODde

Atributos

Rede Móvel ou IP

DECODde

Atributos

RAV

Comandos deVoz

SÃO TRANSMITIDOS APENAS OS ATRIBUTOS DO RECONHECEDOR DE VOZ

Abraham Alcaim – SBT’2004

Page 15: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

15

Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP

CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE

VOZ E NA TAXA DE RECONHECIMENTO

Altas taxas de erros de bitserros de bits

Desvanecimento em Sistemas Móveis e Congestionamento em IP:

perdas de pacotes em rajadasperdas de pacotes em rajadas

Distorções introduzidas

pelos codecs a codecs a baixa taxabaixa taxa

Aumento do no. de quadros de voz em um

pacote:retardos inaceitáveisretardos inaceitáveis

Fragilidade dos codecs em ambientes ambientes ruidosos como carros, ruidosos como carros, restaurantes, aviões,restaurantes, aviões,

fábricas, etcfábricas, etc

Descasamento entre Descasamento entre Treinamento e OperaçãoTreinamento e Operaçãodo reconhecedor de voz

Abraham Alcaim – SBT’2004

Page 16: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

16

Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz

Decodificada: Decodificada: Que atributos usar para Que atributos usar para reconhecimento?reconhecimento?

Dispositivo Local

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ

Abraham Alcaim – SBT’2004

Voz

?

•Parâmetros da Excitação Quantizados

•Parâmetros LSF Quantizados

Page 17: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

17

Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz

Decodificada: Decodificada: Que atributos usar para Que atributos usar para reconhecimento?reconhecimento?

DECODdeVoz Extrator de Atributos para

Reconhecimento

RAV

Voz

Comandos deVoz

Abraham Alcaim – SBT’2004

Voz

(1) CC (Cepstral Coefficients) : estimados a partir do espectro suave da voz - Para RAV: melhores que

LPC(2) MFCC (Mel-FrequencyCepstral Coefficients) : um dos mais usados em RAV - estimados a partir

da voz – (DCT das log-energias nas saídas de filtros triangulares centrados nas freqs. da escala mel) -

Mel melhora a taxa de reconhecimento(3) PLP –Cepstrum (Perceptual Linear Predictive - Cepstrum) : também muito usados em RAV -

estimados a partir da voz – (usa filtros assimétricos espaçados na escala Bark) –

Resultados em geral similares ao Mel, mas inferiores em algumas situações (fones)(4) ZCPA (Zero Crossings with Peak Amplitudes)

: DCT de histogramas (por contagem de picos) do inverso de CZs nas saídas de FPFs - Para

RAV: mais robustos que MFCC em ruído aditivo

Page 18: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

18

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Que atributos usar para Que atributos usar para

reconhecimento?reconhecimento?

VOZ

CODde

Voz

Rede Móvel ou IP

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

Abraham Alcaim – SBT’2004

•Parâmetros da Excitação Quantizados

•Parâmetros LSF Quantizados

LSFs Quantizad

os

?

Page 19: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

19

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Atributos Extraídos dos Coeficientes Atributos Extraídos dos Coeficientes

LPCLPC

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

Abraham Alcaim – SBT’2004

LSFs Quantizad

os

2 Parâmetros Extraídos a partir dos Coeficientes LPC

LSF

LPC

(1) LPCC (LPC Cepstral Coefficients) ou CEP Para RAV: melhores que as LSF

(2) MLPCC ou MCEP (na escala Mel): Para RAV: muito melhores

que LPCC

Page 20: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

20

Reconhecimento de Voz a partir dos Parâmetros do Reconhecimento de Voz a partir dos Parâmetros do Codificador: Codificador: Atributos Extraídos a partir das LSFsAtributos Extraídos a partir das LSFs

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

Abraham Alcaim – SBT’2004

LSFs Quantizad

os

4 Parâmetros Extraídos a partir dos Coeficientes LSF

mais simples que extraídos a partir de LPC

LSF

L

(1) PCC (Pseudo- Cepstral Coefficients): aprox. do LPCC – só que extraído a partir das LSFs, com % de reconhecimento levemente inferior à LPCC (2) MPCC (na escala Mel): muito melhor que PCC e comparável à MLPCC

Page 21: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

21

Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Atributos Extraídos a partir das LSFsAtributos Extraídos a partir das LSFs

DECODdeVoz

Extrator de Atributos para Reconhecimento

RAV

Voz

Comandos deVoz

Abraham Alcaim – SBT’2004

LSFs Quantizad

os

4 Parâmetros Extraídos a partir dos Coeficientes LSF

LSF

L

(3) PCEP (Pseudo- Cepstrum): aprox. matemática do LPCC um pouco pior que a do PCC – porém, com % de reconhecimento comparável ao PCC (resultado ainda não disponível na literatura) e menor complexidade (4) MPCEP (na escala Mel): muito melhor que PCEP , melhor que MFCC e comparável ao MLPCC e ao MPCC (resultado ainda não disponível na literatura)

Page 22: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

22

Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP

CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE

VOZ E NA TAXA DE RECONHECIMENTO

Uma delas Resulta do Desvanecimento em Sistemas Móveis e do Congestionamento em IP:

perdas de pacotes em rajadasperdas de pacotes em rajadas

Abraham Alcaim – SBT’2004

Page 23: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

23

Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP

Abraham Alcaim – SBT’2004

PLR = p/(p+q)

Característica de rajadas do processo de perdas Modelo Markoviano de 2 estados: “Modelo de Gilbert”

p = P[“packet received”“packet lost”]

q = P[“packet lost”“packet received”]

Packet Loss Rate:

Comprimeno da Rajada B= 1/(1-clp)onde clp = 1-q

Page 24: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

24

Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP

Abraham Alcaim – SBT’2004

#1 [J. Wang and J. Gibson, “Parameter

interpolation to enhance the frame erasure robustness of CELP coders in packet

networks”, Proc. ICASSP 2001].

#2 [D. Quercia, L. Docio-Ferandez, C.Garcia-Mateo,

L. Farinetti and J. C. De Martin, “Performance analysis of distributed speech recognition over IP networks on

the AURORA database”, Proc. ICASSP 2002].

#3 as in [D. Rahikka, J. Collura, T. Fuja, D. Sridhara and T. Fazel, “Error coding strategies for MELP vocoder in

wireless and ATM environments”, Proc. IEE Seminar on Speech Coding for Algorithms for Radio Channels, pp. 8/1-

8/6, 2000].

Algumas referências de Modelos de Gilbert para simular diferentes

condições de redes

Page 25: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

25

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse

Abraham Alcaim – SBT’2004

A distorção espectral dos parâmetros LSF é função da estratégia de quantização adotada

e da taxa de perdas de pacotes

Afeta não só a qualidade da voz

como o desempenho do reconhecedor

Como projetar um

bom quantizador

de modo que nessas situações

os desempenh

os sejam pouco

afetados

?

Page 26: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

26

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse

Abraham Alcaim – SBT’2004

Em RAV distribuído, extrair os atributos para reconhecimento dos parâmetros recebidos do

codificador de voz fornece taxas de reconhecimento maiores do que extrair esses

atributos a partir da voz decodificada

Mas será que, se a voz foi obtida em ambiente ruidoso, extrair os parâmetros ZCPA

da voz decodificada não será melhor do que extrair outros

atributos a partir dos parâmetros recebidos do

codificador ?

Page 27: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

27

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse

Abraham Alcaim – SBT’2004

• Os codecs de voz usados em redes móveis e IP extraem os parâmetros que caracterizam a evolução da envoltória espectral a cada 20 a 30 ms. • Porém os sistemas de reconhecimento usualmente requerem extração de atributos acústicos tipicamente a cada 10 ms

Mas que parâmetros e como

interpolar ?

SOLUÇÃO

Interpolar linearmente os

parâmetros a partir do que foi recebido

do codificador

LSF ?

MFCC ?MLPCC ? MPCEP ? Outros ?

Page 28: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

28

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse

Abraham Alcaim – SBT’2004

Algumas Experiências com Reconhecimento de Voz Distribuído operando na Internet

Mesmo taxas relativamente

altas de perdas de pacotes

isolados não afetam de forma

muito significativa o

desempenho do reconhecedor se

usarmos a técnica de repetição

Reconhecedor CDHMM para

seqüências de dígitos

Perdas em rajadas

acentuadas, como pode

acontecer na Internet, causam

resultados desastrosos

Page 29: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

29

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse

Abraham Alcaim – SBT’2004

Em geral, as perdas de pacotes em rajadas em redes móveis e IP afetam muito o desempenho

do sistema de reconhecimento

Novamente que parâmetros e como

interpolar ?

SOLUÇÃO

Também interpolar linearmente os

parâmetros a partir do que foi recebido

do codificador

LSF ?

MFCC ?MLPCC ? MPCEP ? Outros ?

Page 30: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

30

Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse

Abraham Alcaim – SBT’2004

Fragilidade dos

codecs em ambientes ambientes ruidosos como carros, ruidosos como carros, restaurantes, aviões,restaurantes, aviões,

fábricas, etcfábricas, etc

Péssimo desempenho

dos sistemas de reconhecime

nto

Melhoras significativas na taxa de reconhecimento através do emprego de

técnicas de realce de voz

Mas que técnicas usar para o reconhecimento de voz em um cenário

que envolve um grande número de

condições adversas?Distorções originais

dos codecs a baixas

taxas

Perdas de pacotes em

rajadas

Descasamento entre treino e

operação dos reconhecedo

res

Outros Problem

as

Page 31: Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

31

?