Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos
Fagundes
Slide 2
Motivao Comunicaes de voz permanecer o meio predominante de
comunicao humana. Proporciona a transmisso de sinais de fala com
boa qualidade atravs de canais de comunicao com banda estreita. O
sistema CELP o ncleo da maioria dos sistema celular, e sistemas de
comunicao de banda estreita(VoIP).
Slide 3
SINAIS DA FALA Fala produzido por um sinal de excitao gerada em
nossa garganta, o que modificado por ressonncias produzidas por
diferentes formatos de nosso trato vocal, nasal e da faringe.
Slide 4
Vogais e Consoantes Este sinal de excitao pode ser a vibrao
glotal produzido pela abertura e fechamento peridico cordas vocais
o que cria voz sonora, como as vogais ou apenas o fluxo continuo de
ar empurrado por nossos pulmes, que cria a fala no articulada, tais
como o consoantes, ou mesmo uma combinao de ambos ao mesmo
tempo
Slide 5
Anatomia da voz As trs estruturas mais importantes so os pulmes
as cordas vocais e a laringe. A fonte de energia para a gerao de
sons provida pelo diafragma e msculos abdominais que pressionam os
pulmes e geram um fluxo de ar controlado que passa pelas cordas
vocais. O mecanismo de produo da voz apresenta uma resposta
limitada em freqncia, com limite por volta de 10kHz. 95% da energia
do sinal de voz esta concentrada na faixa de freqncia entre 300 e
3400 Hz, pode se limitar o canal a esta banda com uma perda
tolervel em qualidade.
Slide 6
Anatomia do voz Quando o ar vibrante entra na glote h uma
mudana na resistncia do ar (ao abrir ou fechar a continuidade da
traquia) e isso faz o processo de modulao da voz.
Slide 7
Anatomia da voz O som produzido quando a glote, que uma
abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar
interrompido e assim se cria uma seqncia de impulsos que possuem
algumas freqncias bsicas chamadas de tom (pitch). Nos homens estas
freqncias esto entre 80 e 160Hz e nas mulheres entre 180 e
320Hz.
Slide 8
Vogais e consoantes Exemplos de sons do tipo VOICED so as 5
vogais, das quais notam-se claras diferenas no pitch e na formant
do sinal ao comparar o som da vogal A com o som da vogal I
dispostas nas figuras abaixo:
Slide 9
Vogais e consoantes
Slide 10
Vogais e Consoantes J os sons do tipo UNVOICED, so bem
caracterizados atravs do exemplo do fonema S, que consta abaixo.
Sons deste tipo so descritos atravs de AWGN Aditive White Gaussian
Noise, e possui amplitude praticamente constante em todo
espectro.
Slide 11
Pitch e formantes O componente peridica da excitao glotal
caracterizado pela sua freqncia fundamental F0 [Hz], chamado pitch.
As freqncias de ressonncia o trato vocal, oral e da faringe so
chamados formantes. No espectro de um quadro de fala, o pitch
aparece como picos estreitos na fundamental e harmnicas Formantes
aparecem como picos largos do envelope do espectro
Slide 12
Pitch e formantes
Slide 13
Codecs existentes Comparao rudimentar de alguns dos esquemas de
codec existens na atualidade em termos de qualidade de voz e
bitrate.
Slide 14
Evoluo dos algoritmos
Slide 15
Linear Predictive Code Anlise de predio linear de sinais de voz
o ncleo da maioria dos sistemas de codificao parametricos de voz
(Celulares, VoIP, e etc). Um modelo simples de sntese da voz que
tem sido usado em processamento de fala para vrias aplicaes de
codificao.
Slide 16
Modelo do aparelho fonador Este modelo do sistema inspirado no
mecanismo humano de produo da fala. Voz sonora produzida pela
exitao do filtro do trato vocal com pulsos quasi-peridica do glote.
A periodicidade da voz sonora devido vibrao cordas vocais. Fala no
articulada (no vozeada) produzido forando o ar atravs de uma
constrio no trato vocal.
Slide 17
Linear Predictive Coding O trato vocal geralmente representado
por filtro digital de dcima ordem do tipo somente plos, como
mostrado no modelo LPC da fala. A fala produzida pela excitao do
filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote
E a fala no articulada gerada usando o estmulo rudo aleatrio ou
pseudo-branco. Os coeficientes do filtro e os parmetros de excitao
so geralmente determinadas a cada 20 ms ou menos.
Slide 18
Codificador LPC
Slide 19
Decodificador LPC
Slide 20
Comparao entre real e LPC
Slide 21
LINEAR PREDICTIVE CODING O filtro digital para aplicaes do
linear predictive coding caracterizado pela seguinte equao de
diferenas. Os parmetros de a i so os coeficientes do filtro e
controlam as caractersticas de freqncia de resposta do filtro.
Estes so determinados pela analise LPC.
Slide 22
Analise LPC
Slide 23
Derivao do algoritimo LPC O objetivo do LPC minimizar a
informao contida no sinal de exitao. Os parametros de predio a i so
desconhecidos e so determinadas pela minimizao Erro quadratico
medio (MSE) do sinal de exitao (e(n)).
Slide 24
O sinal de excitao (e(n)) pode ser gerado apartir de um sinal
de voz (s(n)) atraves da convoluo com o filtro LPC inverso, o qual
um filtro FIR, com coeficientes a i (a determinar) Derivao do
algoritimo LPC
Slide 25
Isto feito tomando a deriva do sinal de energia da exitao a
cada uma dos coeficientes, e igualando a zero.
Slide 26
Derivao do algoritimo LPC Isto gera uma Matriz Toepliz, que
pode ser resolvida usando o algoritmo recursivo
Levinson-Durbin.
Slide 27
Fittro de sintese A predio dos parmetros a(i) tambm so usados
para formar o filtro digital somente plos para sntese de voz. Os
coeficientes do LPC so computados resolvendo o a matriz de
autorrelao, gerando o filtro:
Slide 28
Estruturas de Filtros All-Pole Filtro all-pole, forma direta.
Filtro lattice Tem a vantagem de ter maior imunidade a
quantizao
Slide 29
Estimao do ganho O valor do ganho a ser aplicado no sinal de
exitao escolhido determinado pelo valor RMS do sinal de exitao
ideal. O qual obtido na analise LPC, sendo o primeiro coeficiente d
matrix de autocorrelao
Slide 30
Seleo de sinal vozeado no vozeado Apartir do sinal de
autocorrelao do sinal (excluindo o valor R(0)) definido um limiar
de deciso. Usualmente 0,3 do valor normalizado do vetor.
Slide 31
Estimao periodo do Pitch A fala possui uma falsa periodicidade,
oque dificulta a estimativa do pitch Pode ser determinado apartir
do sinal de autocorrelao do sinal, procurando os valores de pico e
repties do sinal (na faixa de 20 a 160). Como visto nas figuras
abaixo.
Slide 32
Estimativa do pitch - Sinal no vozeado
Slide 33
Estimativa do pitch - Sinal vozeado
Slide 34
Code Excited Linear Prediction Explora melhor a idia de
codificao anlise-por- sntese da fala, utilizando o conceito de
quantizao vetorial (VQ) para a seqncia de excitao. O codificador
seleciona uma sequncia de excitao de um codebook de seqncias
pr-definidas estocsticas.
Slide 35
CELP CELP, adicionalmente, aproveita a periodicidade de sons
vozeados e melhorar a eficincia do preditor. O filtro do preditor
de termo longo cascateado com o filtro de sntese, o que melhora a
eficincia do codebook O mais simples preditor de longo prazo
consiste de um filtro de um nico polo, o qual representa um simples
atraso com ganho ajustvel O mtodo de escolha dos vetores do
Codebook a analise por sntese
Slide 36
CELP : Analise por sintese O sistema varre cada um dos possveis
candidatos a sinal de excitao oriundos do gerador de excitao
Identifica o sinal que minimiza o erro entre o correspondente sinal
sintetizado e o sinal de fala da entrada O Decoder correspondente
simplesmente o gerador de excitao e o filtro de sintetizao.
Slide 37
CELP : Com filtro LTP Esta estrutura adiciona o filtro de
predio longa (LTP), o qual utilizado para aproveitar o fato de que
o sinal de exitao tem uma alta autocorrelao na frequencia do
pitch.
Slide 38
CELP : Estrutura Original A estrutura do codificador CELP
original tem como filtro LTP um filtro de um plo apenas. Essa adio
aproveita o fato de que o sinal de exitao apresenta uma alta
autocorelao na frequencia do pitch. Porem esse modelo
computacionalmente ineficiente.
Slide 39
CELP : Codebook Adaptativo Cada vetor do Codebook adaptativo
representa diferentes valores de pitch. Assim a busca pelos os
parmetros do filtro de predio longa so simplificados a busca de um
vetor no codebook adaptativo.
Slide 40
CELP : Estrutura final Retirar o efeito do frame anterior
deixado nas condies iniciais do filtro de sintese. Encontrar o
vetor do codebook Adaptativo que minimiza o Erro quadratico do
sinal sintetizado.E retirar o efeito desta exitao Encontrar o vetor
do codebook Fixo que minimiza o Erro quadratico do sinal
sintetizado.