SINOPSE ORIGINAL DA NOVELA ÁFRICA DE MARCO AURELIO SANTOS ROTEIRISTA AUTOR LOCUTOR
[com aplicações em síntese voz & reconhecimento de locutor]hmo/aula_DEN.pdf · Aparelho fonador...
Transcript of [com aplicações em síntese voz & reconhecimento de locutor]hmo/aula_DEN.pdf · Aparelho fonador...
Modelamento do trato vocal [com aplicações em síntese voz & reconhecimento de locutor]
Prof. Hélio Magalhães de Oliveira, qPGOM Departamento de Estatística, DE, UFPE https://ufpe.academia.edu/hmdeoliveira
aula ministrada no DEN em 01/11/2016
Prof Frederico Dias Nunes
disponível @ url: http://www.de.ufpe.br/~hmo/deOliveira.html
�1
A fala é gerada pelo bombeamento de ar dos pulmões através do trato vocal, o
qual consiste em:
• garganta • nariz • boca • palato • língua • dentes • lábios.
�2
Aparelho fonador
O trato vocal pode ser modelado como uma rede linear. A título de exemplo,
considere o modelo simples ilustrado:
soluções efetivas: carecem modelamento
�5
Áudio, Engenharia Acústica
Em óptica, a luz de qualquer matiz pode ser sintetizada a partir de cores fundamentais do arco-íris.
Em áudio, ela descreve como o som pode ser analisado como uma mistura de tons puros. O som tem três características: a altura, a intensidade e o timbre.
O ouvido humano pode escutar nominalmente sons na faixa de até 20 kHz, sendo que o limite superior tende a decrescer com a idade (a maioria dos adultos não consegue escutar acima de 16 kHz).
ouvir! http://newt.phys.unsw.edu.au/jw/hearing.html
A faixa de sons perceptíveis pelo ouvido humano é da ordem de 10 oitavas, ou 210 , ou 1024:1, ou seja, de 16 Hz a 16 kHz (assume-se que a faixa audível típica é de 20 Hz a 20 kHz).
�9
http://www2.ee.ufpe.br/codec/WaveShaper.exe
Figura- Faixas de freqüência de áudio e contíguas: infra-som, sons audíveis (voz e música), ultra-som.
�10
Introdução Vocoder = contração de voice encoder:
forma de onda produzida não "recria" a forma de onda original na aparência, (mas deve ser perceptualmente semelhante a ela…)
primeiramente descrita por Homer Dudley no Bell Telephone Laboratory em 1939
Os parâmetros são extraídos a partir do espectro e atualizados a cada 10-25 ms
Propriedades de voz:
• limitação do sistema auditivo humano
• fisiologia do processo de geração de voz
�11
TIPOS DE SONS: sonoros (vocálicos) e desvozeados (não sonoros, surdos)
Em sons sonoros, as cordas vocais tensas vibram e o fluxo de ar fica modulado. A frequência de oscilação das cordas vocais é chamada de 'pitch'. As cores do trato vocal do espectro do fluxo de ar pulsante de uma forma som típico.
Em sons desvozeados, as cordas vocais estão soltas e turbulências de ruído branco são formados em gargalos no trato vocal. A turbulência do fluxo de ar pode ser maior ou menor, dependendo da posição do ponto de estrangulamento. Outro tipo de sons não-vocálicos é criado por uma abertura de explosão como do trato vocal.
Os sons classificam-se em: vocálicos /a/ /e/ /o/ ..., oclusivos /p/, /t/,..., fricativos /s/, /f/,... nasais /n/ /m/…
�12
LPC Codificação Linear Preditiva
A digitalização de sinais de voz emprega conversores A/D => taxas de transmissão bits/seg elevadas. Estes conversores, não são específicos para voz.
Procura-se investigar conversores que explorem propriedades específicas dos sinais de voz.
alta correlação entre amostras sucessivas => presença de informação redundante.
O objetivo da quantização preditiva é reduzir a redundância pela inferência do valor das próximas amostras, conhecendo-se as amostras anteriores (conhecimento prévio).
Pelo fato de serem codificadores dedicados, funcionam como compactadores, permitindo trabalhar com taxas de transmissão substancialmente mais baixas.
�13
A LPC foi inventada em 1967 por Bishnu S. Atal e col., no Bell Labs.
Dados experimentais mostram que se obtém voz inteligível com taxas tipicamente de 2.400 bits/s, valor extremamente pequeno comparado aos 64.000 bits/s requeridos pela voz padrão digital.
O problema da estimação das amostras deve considerar conhecidas as características do sinal de mensagem.
sons vocálicos como o "I", "O" e "U" possuem uma freqüência bem definida e podem ser representados por impulsos periódicos de baixa freqüência e grande amplitude.
Já sons tais como o “S”, “X”, “CH”, têm natureza menos precisa e podem ser modelados por sinais aleatórios de alta freqüência com baixa amplitude (excitação tipo ruído branco).
�14
LPC Vocoder
Na geração de voz humana, excitações vocálicas e não vocálicas são produzidas pelas cordas vocais devido à passagem de ar proveniente dos pulmões.
O trato vocal, formado pela glote, língua, lábios, dentes (podendo ou não estar acoplado à cavidade nasal) modula o sinal básico de excitação e produz a voz.
Na implementação de vocoders, o trato vocal é substituído por um filtro digital
com função de transferência adaptativa, podendo modificar-se rapidamente.
Os parâmetros controlados na síntese de voz são: tipo de excitação, grau de amplificação, coeficientes do filtro "trato vocal" e tons dos sons de voz.
�15
A Figura mostra um modelo simplificado de um sintetizador de voz.
O codificador funciona como um sintetizador de voz, gerando voz artificial,
representativa numa janela do sinal de voz - uma aproximação por trechos. O sinal
de voz é “quase-estacionário” e opta-se por uma janela (típica) de 15 mseg, aonde
ele permanece razoavelmente estacionário. �16
Este modelo corresponde à equação:
Tal algoritmo produz fala artificial e é conhecido como um “vocoder”.
Para baixas taxas, os vocoders produzem sons inteligíveis, porém soando como
voz sintética. Ouviremos… �17
Dado um trecho do sinal, escolher o modelo do filtro de trato vocal {ak}, G de modo a cometer o menor Erro Médio Quadrático (EMQ) entre uma estimativa de predição linear x e xˆ .
A idéia é predizer xn com base nas estimativas de p amostras passadas, isto é, conhecido o passado.
Uma predição linear é expressa por:
O sinal de erro de predição, que minimiza o erro é escolhido. Este procedimento é chamado de 'análise por síntese'.
�18
A solução EMQ fornece o "melhor" filtro para simular o trecho de voz.
Exercício. Para mostrar que os codificadores de voz tipo LPC permitem a compressão de voz, calcule a taxa de transmissão, admitindo os requerimentos típicos para o número de bits transmitidos por quadro.
sonoro ou surdo 1 bit período - pitch f0 6 bits parâmetro de ganho G 5 bits (comprimido) coeficientes de predição ak 10 bits / coeficiente
Estimar a taxa exigida por um preditor de ordem 5 (5 pólos), considerando uma janela de 15 mseg. Repita considerando uma janela de 30 mseg.
Solução. i) 1+6+5+5.12= 72 bits / 15 ms = 4.800 bps. ii) 72 bits / 30 mseg = 2.400 bps
�19
CELP
Trata-se de evoluções do LPC através de excitações mais elaboradas.
Os algoritmos modernos que são usados em redes móveis digitais como GSM ou
UMTS tem um armazenamento com dicionário-código estocástico, e o índice do
sinal de melhor ajuste é transferida para o receptor.
O decodificador tem o mesmo dicionário-código disponível e pode recuperar o
sinal de erro com melhor ajuste. Tal índice necessita apenas alguns bits.
�20
Todos os codificadores com taxas inferiores a 16 kb/s empregam o modelo de
predição linear LPC, associado a um procedimento de análise-por-síntese.
�21
Figura – Codificação de voz com dicionário de excitação: CELP.
A codificação de voz pode ser empregada para comprimir a taxa típica de voz
digital (64 kbps) para cerca de 8 kbps! �22
Um dos sistemas empregados baseia-se na CELP, Codificação Linear Preditiva Excitada por Código, mais especificamente, numa variante chamada VSELP.
Cabe salientar que ao estabelecer uma conversa por celular, o que você ouve não é a pessoa (interlocutor) e sim uma máquina que sintetiza voz artificial parecida com a dela… você sabia?
�23
Exercício. Um dos padrões atuais na telefonia digital é o codificador VSELP (Vector Sum Excited Linear Prediction), uma variante da classe dos codificadores com excitação por dicionário (CELP). O padrão adota um quadro de 20 ms, dividido em subquadros de 5 ms. O decodificador de voz usa dois dicionários separados, cada um deles com palavras de 7 bits (palavras-código do dicionário). A excitação é gerada tomando-se uma combinação linear, com ganhos independentes, das excitações dois dicionários. O preditor linear de tempo-curto tem ordem 10, i.e., são usados 10 coeficientes no filtro modelador do trato vocal. O VSELP é usado nos padrões de telefone celular digital IS-54 e GSM europeu.
Considere os seguintes dados relativos ao número de bits usados:
• 5 bits para a energia do quadro, • 10 coeficientes LPC quantizados em um número diferente de bits (6, 5, 5, 4, 4, 3, 3, 3, 3, 2 bits, respectivamente) • 7 bits/subquadro para indicar os retardos do subquadro. • 2 palavras de dicionário (uma de cada dicionário) a cada subquadro e • 8 bits/subquadro para os ganhos usados para gerar a excitação composta.
�24
Teoria da codificação perceptiva (Perceptual Coding).
58 Institutos de Pesquisa ! [desenvolvimento do mp3]
Fraunhofer Society Philips CCETT (Centre commun d'études de télévision et télécommunications).
Os codificadores de áudio mp3 foram criados por engenheiros europeus da Fraunhofer Society (Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung, Erlangen), Philips, CCETT (Centre commun d'études de télévision et télécommunications), IRT.
1) PCM procura reproduzir a forma de onda do áudio, 2) MP3 tenta reproduzir uma forma de onda para soar praticamente idêntica ao ouvido.
�25
A codificação perceptiva elimina informações desnecessárias.
Baseia-se no fato de que o ouvido humano não é capaz de perceber freqüências fracas após freqüências fortes, pois as fracas são cobertas pelas fortes. Em termos técnicos, isto é referido como “efeito de mascaramento”
Figura -codificador mp3 �26
Em MPEG, tem-se uma redução típica de:
1:4 para camada 1 (corresponde a 384 kbps para sinal estéreo) 1:6 para camada 2 (corresponde a 256..192 kbps para sinal estéreo) 1:10 para camada 3 (corresponde a 128..320 kbps para sinal estéreo)
�27
um vocoder com mascaramento pleno para gravação legal de conversação http://www.de.ufpe.br/~hmo/CNMAC_A_Full_Frequency_Masking_Vocoder.pptx
Psico-acústica do sistema auditivo humano:
• Mascaramento de Frequência: mascaramento na frequência ou "audibilidade reduzida de um som devido à presença de um outro" é uma das principais características psico-acústica do ouvido humano. O mascaramento auditivo ocorre quando um som, que pode ser ouvido, é mascarado por outro, mais intenso, o qual está numa frequência próxima. Devido ao efeito de máscara, o sistema auditivo humano não é sensível à estrutura detalhada do espectro de um som dentro desta banda.
• Insensibilidade à fase: O ouvido humano tem pouca sensibilidade à fase dos sinais. Qualquer som que se propaga chega aos nossos ouvidos através de vários obstáculos e viaja caminhos distintos. Parte do som fica defasada, mas essa diferença é pouco sentida pelo ouvido.
�28
Simplificação do espectro via mascaramento de frequências
• a gama de frequências entre 32 e 64 Hz é removida, • a primeira oitava pertinente 64 Hz, 128 Hz, • a segunda cobertura a banda de 128 Hz-512 Hz, • e assim por diante, até • a sexta (última oitava) corresponde a 2048 Hz-4000 Hz.
Uma vez que as linhas espectrais tem um passo de 50 Hz, a primeira oitava (a partir de 64 Hz a 128 Hz) é representado pela amostra espectral de 100 Hz, a segunda oitava (de 128 Hz a 256 Hz) de amostras a 150 Hz, 200 Hz e 250 Hz, com as oitavas restantes na sequência de um raciocínio semelhante.
�29
Um total de 79 frequências provenientes da estimativa da DFT é então reduzido
para apenas 4 sobreviventes. Portanto, cada quadro está agora representado no
domínio da frequência por 4 tons puros.
�31
http://www.de.ufpe.br/~hmo/pasargadaSINTESE.wav
Conclusões.
Introduzimos um novo vocoder que pode representar um sinal de voz usando
menos amostras do espectro. Os resultados sugerem que essa abordagem tem o
potencial para transmitir voz, com qualidade aceitável, a uma taxa de poucos
kbits/s.
�32
Reconhecimento de Locutor baseado em
Mascaramento Pleno em Freqüência por Oitavas
Novo método de baixa complexidade computacional para reconhecimento de
locutor, baseando-se em uma das propriedades-chave da percepção auditiva
humana: o mascaramento acústico em freqüência.
O vetor característico dos quadros do sinal de voz é representado pela média das
amplitudes dos tons de mascaramento em cada oitava. O algoritmo oferece um
compromisso entre a complexidade e a taxa de identificações corretas, sendo
atrativo para aplicações em sistemas embarcados. �33
reconhecimento de pessoas pela voz por meio de máquinas = “reconhecimento automático de locutor” (RAL).
No RAL, determina-se a identidade de uma pessoa através da voz, com o
propósito de controlar/restringir o acesso a redes, computadores, bases de dados,
bem como restringir a disponibilização de informações confidenciais para pessoas
não autorizadas, dentre várias outras aplicações.
O RAL divide-se em
Verificação Automática de Locutor (VAL)
Identificação Automática de Locutor (IAL).
�34
Na VAL, faz-se uso de uma máquina para verificar a identidade da voz de uma
pessoa que a reivindicou.
Na IAL não há a reivindicação de autenticidade: o sistema decide qual o usuário
ou se o mesmo é desconhecido dentre locutores cadastrados.
O reconhecimento de locutor pode ser feito através do uso de um texto conhecido
ou pode ser feito através de um texto arbitrário.
http://www.de.ufpe.br/~hmo/cbn2_8bits.wav
�35
locutor
http://www.de.ufpe.br/~hmo/sotero_reconhecimento-1.wav
http://www.de.ufpe.br/~hmo/sotero_reconhecimento-2.wav�36
Foram gravadas 40 repetições para 10 locutores diferentes (7 do sexo masculino e
3 do sexo feminino), das quais 20 serão utilizadas para a geração do padrão de
cada locutor e outros 20 serão utilizados para a comparação dos padrões,
totalizando 400 elocuções.
taxas de acerto 90% é razoável.
Um método sofisticado (alto custo computacional e alta eficiência) pode ser
combinado para identificar o locutor dentro de uma base reduzida. �37
EM GUISA DE CONCLUSÃO
Visando ilustrar o presente curso, aqui foram apresentados alguns diferentes
modelos de representação para geração (sínteses), armazenamento e reprodução
de sinais de fala.
Procurou-se ilustrar quão importante é estabelecer um modelamento de
fenômenos e/ou sistemas de modo a tornar prática e eficiente as
implementações e análises a eles relativos.
Espera-se que a apresentação possa contribuir em algo, ao invés de constituir um
mero preenchimento de carga horária… OBRIGADO!
�38