[com aplicações em síntese voz & reconhecimento de locutor]hmo/aula_DEN.pdf · Aparelho fonador...

38
Modelamento do trato vocal [com aplicações em síntese voz & reconhecimento de locutor] Prof. Hélio Magalhães de Oliveira, qPGOM Departamento de Estatística, DE, UFPE https://ufpe.academia.edu/hmdeoliveira aula ministrada no DEN em 01/11/2016 Prof Frederico Dias Nunes disponível @ url: http://www.de.ufpe.br/~hmo/deOliveira.html 1

Transcript of [com aplicações em síntese voz & reconhecimento de locutor]hmo/aula_DEN.pdf · Aparelho fonador...

Modelamento do trato vocal [com aplicações em síntese voz & reconhecimento de locutor]

Prof. Hélio Magalhães de Oliveira, qPGOM Departamento de Estatística, DE, UFPE https://ufpe.academia.edu/hmdeoliveira

aula ministrada no DEN em 01/11/2016

Prof Frederico Dias Nunes

disponível @ url: http://www.de.ufpe.br/~hmo/deOliveira.html

�1

A fala é gerada pelo bombeamento de ar dos pulmões através do trato vocal, o

qual consiste em:

• garganta • nariz • boca • palato • língua • dentes • lábios.

�2

como implementar um sistema para produzir fala?

Anthropomorphic Talking Robot Waseda

�3

�4

Aparelho fonador

O trato vocal pode ser modelado como uma rede linear. A título de exemplo,

considere o modelo simples ilustrado:

soluções efetivas: carecem modelamento

�5

via de regra tem-se fm≈ 4 kHz. CALCULAR C/ audacity

Princípio Básico: simulat=simula, finge

�6

�7

Exemplo de sons: AUDACITY batata, maxixe

�8

Áudio, Engenharia Acústica

Em óptica, a luz de qualquer matiz pode ser sintetizada a partir de cores fundamentais do arco-íris.

Em áudio, ela descreve como o som pode ser analisado como uma mistura de tons puros. O som tem três características: a altura, a intensidade e o timbre.

O ouvido humano pode escutar nominalmente sons na faixa de até 20 kHz, sendo que o limite superior tende a decrescer com a idade (a maioria dos adultos não consegue escutar acima de 16 kHz).

ouvir! http://newt.phys.unsw.edu.au/jw/hearing.html

A faixa de sons perceptíveis pelo ouvido humano é da ordem de 10 oitavas, ou 210 , ou 1024:1, ou seja, de 16 Hz a 16 kHz (assume-se que a faixa audível típica é de 20 Hz a 20 kHz).

�9

http://www2.ee.ufpe.br/codec/WaveShaper.exe

Figura- Faixas de freqüência de áudio e contíguas: infra-som, sons audíveis (voz e música), ultra-som.

�10

Introdução Vocoder = contração de voice encoder:

forma de onda produzida não "recria" a forma de onda original na aparência, (mas deve ser perceptualmente semelhante a ela…)

primeiramente descrita por Homer Dudley no Bell Telephone Laboratory em 1939

Os parâmetros são extraídos a partir do espectro e atualizados a cada 10-25 ms

Propriedades de voz:

•  limitação do sistema auditivo humano

•  fisiologia do processo de geração de voz

�11

TIPOS DE SONS: sonoros (vocálicos) e desvozeados (não sonoros, surdos)

Em sons sonoros, as cordas vocais tensas vibram e o fluxo de ar fica modulado. A frequência de oscilação das cordas vocais é chamada de 'pitch'. As cores do trato vocal do espectro do fluxo de ar pulsante de uma forma som típico.

Em sons desvozeados, as cordas vocais estão soltas e turbulências de ruído branco são formados em gargalos no trato vocal. A turbulência do fluxo de ar pode ser maior ou menor, dependendo da posição do ponto de estrangulamento. Outro tipo de sons não-vocálicos é criado por uma abertura de explosão como do trato vocal.

Os sons classificam-se em: vocálicos /a/ /e/ /o/ ..., oclusivos /p/, /t/,..., fricativos /s/, /f/,... nasais /n/ /m/…

�12

LPC Codificação Linear Preditiva

A digitalização de sinais de voz emprega conversores A/D => taxas de transmissão bits/seg elevadas. Estes conversores, não são específicos para voz.

Procura-se investigar conversores que explorem propriedades específicas dos sinais de voz.

alta correlação entre amostras sucessivas => presença de informação redundante.

O objetivo da quantização preditiva é reduzir a redundância pela inferência do valor das próximas amostras, conhecendo-se as amostras anteriores (conhecimento prévio).

Pelo fato de serem codificadores dedicados, funcionam como compactadores, permitindo trabalhar com taxas de transmissão substancialmente mais baixas.

�13

A LPC foi inventada em 1967 por Bishnu S. Atal e col., no Bell Labs.

Dados experimentais mostram que se obtém voz inteligível com taxas tipicamente de 2.400 bits/s, valor extremamente pequeno comparado aos 64.000 bits/s requeridos pela voz padrão digital.

O problema da estimação das amostras deve considerar conhecidas as características do sinal de mensagem.

sons vocálicos como o "I", "O" e "U" possuem uma freqüência bem definida e podem ser representados por impulsos periódicos de baixa freqüência e grande amplitude.

Já sons tais como o “S”, “X”, “CH”, têm natureza menos precisa e podem ser modelados por sinais aleatórios de alta freqüência com baixa amplitude (excitação tipo ruído branco).

�14

LPC Vocoder

Na geração de voz humana, excitações vocálicas e não vocálicas são produzidas pelas cordas vocais devido à passagem de ar proveniente dos pulmões.

O trato vocal, formado pela glote, língua, lábios, dentes (podendo ou não estar acoplado à cavidade nasal) modula o sinal básico de excitação e produz a voz.

Na implementação de vocoders, o trato vocal é substituído por um filtro digital

com função de transferência adaptativa, podendo modificar-se rapidamente.

Os parâmetros controlados na síntese de voz são: tipo de excitação, grau de amplificação, coeficientes do filtro "trato vocal" e tons dos sons de voz.

�15

A Figura mostra um modelo simplificado de um sintetizador de voz.

O codificador funciona como um sintetizador de voz, gerando voz artificial,

representativa numa janela do sinal de voz - uma aproximação por trechos. O sinal

de voz é “quase-estacionário” e opta-se por uma janela (típica) de 15 mseg, aonde

ele permanece razoavelmente estacionário. �16

Este modelo corresponde à equação:

Tal algoritmo produz fala artificial e é conhecido como um “vocoder”.

Para baixas taxas, os vocoders produzem sons inteligíveis, porém soando como

voz sintética. Ouviremos… �17

Dado um trecho do sinal, escolher o modelo do filtro de trato vocal {ak}, G de modo a cometer o menor Erro Médio Quadrático (EMQ) entre uma estimativa de predição linear x e xˆ .

A idéia é predizer xn com base nas estimativas de p amostras passadas, isto é, conhecido o passado.

Uma predição linear é expressa por:

O sinal de erro de predição, que minimiza o erro é escolhido. Este procedimento é chamado de 'análise por síntese'.

�18

A solução EMQ fornece o "melhor" filtro para simular o trecho de voz.

Exercício. Para mostrar que os codificadores de voz tipo LPC permitem a compressão de voz, calcule a taxa de transmissão, admitindo os requerimentos típicos para o número de bits transmitidos por quadro.

sonoro ou surdo 1 bit período - pitch f0 6 bits parâmetro de ganho G 5 bits (comprimido) coeficientes de predição ak 10 bits / coeficiente

Estimar a taxa exigida por um preditor de ordem 5 (5 pólos), considerando uma janela de 15 mseg. Repita considerando uma janela de 30 mseg.

Solução. i) 1+6+5+5.12= 72 bits / 15 ms = 4.800 bps. ii) 72 bits / 30 mseg = 2.400 bps

�19

CELP

Trata-se de evoluções do LPC através de excitações mais elaboradas.

Os algoritmos modernos que são usados em redes móveis digitais como GSM ou

UMTS tem um armazenamento com dicionário-código estocástico, e o índice do

sinal de melhor ajuste é transferida para o receptor.

O decodificador tem o mesmo dicionário-código disponível e pode recuperar o

sinal de erro com melhor ajuste. Tal índice necessita apenas alguns bits.

�20

Todos os codificadores com taxas inferiores a 16 kb/s empregam o modelo de

predição linear LPC, associado a um procedimento de análise-por-síntese.

�21

Figura – Codificação de voz com dicionário de excitação: CELP.

A codificação de voz pode ser empregada para comprimir a taxa típica de voz

digital (64 kbps) para cerca de 8 kbps! �22

Um dos sistemas empregados baseia-se na CELP, Codificação Linear Preditiva Excitada por Código, mais especificamente, numa variante chamada VSELP.

Cabe salientar que ao estabelecer uma conversa por celular, o que você ouve não é a pessoa (interlocutor) e sim uma máquina que sintetiza voz artificial parecida com a dela… você sabia?

�23

Exercício. Um dos padrões atuais na telefonia digital é o codificador VSELP (Vector Sum Excited Linear Prediction), uma variante da classe dos codificadores com excitação por dicionário (CELP). O padrão adota um quadro de 20 ms, dividido em subquadros de 5 ms. O decodificador de voz usa dois dicionários separados, cada um deles com palavras de 7 bits (palavras-código do dicionário). A excitação é gerada tomando-se uma combinação linear, com ganhos independentes, das excitações dois dicionários. O preditor linear de tempo-curto tem ordem 10, i.e., são usados 10 coeficientes no filtro modelador do trato vocal. O VSELP é usado nos padrões de telefone celular digital IS-54 e GSM europeu.

Considere os seguintes dados relativos ao número de bits usados:

• 5 bits para a energia do quadro, • 10 coeficientes LPC quantizados em um número diferente de bits (6, 5, 5, 4, 4, 3, 3, 3, 3, 2 bits, respectivamente) • 7 bits/subquadro para indicar os retardos do subquadro. • 2 palavras de dicionário (uma de cada dicionário) a cada subquadro e • 8 bits/subquadro para os ganhos usados para gerar a excitação composta.

�24

Teoria da codificação perceptiva (Perceptual Coding).

58 Institutos de Pesquisa ! [desenvolvimento do mp3]

Fraunhofer Society Philips CCETT (Centre commun d'études de télévision et télécommunications).

Os codificadores de áudio mp3 foram criados por engenheiros europeus da Fraunhofer Society (Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung, Erlangen), Philips, CCETT (Centre commun d'études de télévision et télécommunications), IRT.

1) PCM procura reproduzir a forma de onda do áudio, 2) MP3 tenta reproduzir uma forma de onda para soar praticamente idêntica ao ouvido.

�25

A codificação perceptiva elimina informações desnecessárias.

Baseia-se no fato de que o ouvido humano não é capaz de perceber freqüências fracas após freqüências fortes, pois as fracas são cobertas pelas fortes. Em termos técnicos, isto é referido como “efeito de mascaramento”

Figura -codificador mp3 �26

Em MPEG, tem-se uma redução típica de:

1:4 para camada 1 (corresponde a 384 kbps para sinal estéreo) 1:6 para camada 2 (corresponde a 256..192 kbps para sinal estéreo) 1:10 para camada 3 (corresponde a 128..320 kbps para sinal estéreo)

�27

um vocoder com mascaramento pleno para gravação legal de conversação http://www.de.ufpe.br/~hmo/CNMAC_A_Full_Frequency_Masking_Vocoder.pptx

Psico-acústica do sistema auditivo humano:

• Mascaramento de Frequência: mascaramento na frequência ou "audibilidade reduzida de um som devido à presença de um outro" é uma das principais características psico-acústica do ouvido humano. O mascaramento auditivo ocorre quando um som, que pode ser ouvido, é mascarado por outro, mais intenso, o qual está numa frequência próxima. Devido ao efeito de máscara, o sistema auditivo humano não é sensível à estrutura detalhada do espectro de um som dentro desta banda.

• Insensibilidade à fase: O ouvido humano tem pouca sensibilidade à fase dos sinais. Qualquer som que se propaga chega aos nossos ouvidos através de vários obstáculos e viaja caminhos distintos. Parte do som fica defasada, mas essa diferença é pouco sentida pelo ouvido.

�28

Simplificação do espectro via mascaramento de frequências

• a gama de frequências entre 32 e 64 Hz é removida, • a primeira oitava pertinente 64 Hz, 128 Hz, • a segunda cobertura a banda de 128 Hz-512 Hz, • e assim por diante, até • a sexta (última oitava) corresponde a 2048 Hz-4000 Hz.

Uma vez que as linhas espectrais tem um passo de 50 Hz, a primeira oitava (a partir de 64 Hz a 128 Hz) é representado pela amostra espectral de 100 Hz, a segunda oitava (de 128 Hz a 256 Hz) de amostras a 150 Hz, 200 Hz e 250 Hz, com as oitavas restantes na sequência de um raciocínio semelhante.

�29

�30

Um total de 79 frequências provenientes da estimativa da DFT é então reduzido

para apenas 4 sobreviventes. Portanto, cada quadro está agora representado no

domínio da frequência por 4 tons puros.

�31

http://www.de.ufpe.br/~hmo/pasargadaSINTESE.wav

Conclusões.

Introduzimos um novo vocoder que pode representar um sinal de voz usando

menos amostras do espectro. Os resultados sugerem que essa abordagem tem o

potencial para transmitir voz, com qualidade aceitável, a uma taxa de poucos

kbits/s.

�32

Reconhecimento de Locutor baseado em

Mascaramento Pleno em Freqüência por Oitavas

Novo método de baixa complexidade computacional para reconhecimento de

locutor, baseando-se em uma das propriedades-chave da percepção auditiva

humana: o mascaramento acústico em freqüência.

O vetor característico dos quadros do sinal de voz é representado pela média das

amplitudes dos tons de mascaramento em cada oitava. O algoritmo oferece um

compromisso entre a complexidade e a taxa de identificações corretas, sendo

atrativo para aplicações em sistemas embarcados. �33

reconhecimento de pessoas pela voz por meio de máquinas = “reconhecimento automático de locutor” (RAL).

No RAL, determina-se a identidade de uma pessoa através da voz, com o

propósito de controlar/restringir o acesso a redes, computadores, bases de dados,

bem como restringir a disponibilização de informações confidenciais para pessoas

não autorizadas, dentre várias outras aplicações.

O RAL divide-se em

Verificação Automática de Locutor (VAL)

Identificação Automática de Locutor (IAL).

�34

Na VAL, faz-se uso de uma máquina para verificar a identidade da voz de uma

pessoa que a reivindicou.

Na IAL não há a reivindicação de autenticidade: o sistema decide qual o usuário

ou se o mesmo é desconhecido dentre locutores cadastrados.

O reconhecimento de locutor pode ser feito através do uso de um texto conhecido

ou pode ser feito através de um texto arbitrário.

http://www.de.ufpe.br/~hmo/cbn2_8bits.wav

�35

locutor

http://www.de.ufpe.br/~hmo/sotero_reconhecimento-1.wav

http://www.de.ufpe.br/~hmo/sotero_reconhecimento-2.wav�36

Foram gravadas 40 repetições para 10 locutores diferentes (7 do sexo masculino e

3 do sexo feminino), das quais 20 serão utilizadas para a geração do padrão de

cada locutor e outros 20 serão utilizados para a comparação dos padrões,

totalizando 400 elocuções.

taxas de acerto 90% é razoável.

Um método sofisticado (alto custo computacional e alta eficiência) pode ser

combinado para identificar o locutor dentro de uma base reduzida. �37

EM GUISA DE CONCLUSÃO

Visando ilustrar o presente curso, aqui foram apresentados alguns diferentes

modelos de representação para geração (sínteses), armazenamento e reprodução

de sinais de fala.

Procurou-se ilustrar quão importante é estabelecer um modelamento de

fenômenos e/ou sistemas de modo a tornar prática e eficiente as

implementações e análises a eles relativos.

Espera-se que a apresentação possa contribuir em algo, ao invés de constituir um

mero preenchimento de carga horária… OBRIGADO!

�38