VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala.

Post on 07-Apr-2016

219 views 0 download

Transcript of VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala.

VOCALE Um Algoritmo de

Identificação de Intervalos Vocálicos no Sinal Acústico de

Fala

Temos:

Queremos: (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v(0.440 0.498) c(0.498 0.540) v…

Problema

Exemplo de segmentação

Marca

Vowel

Cons.

Vowel.

Conjectura das classes rítmicas Diversos linguistas conjecturaram que as línguas

naturais estavam agrupadas num número finito e pequeno de classes rítmicas ( Lloyd James 1940 , Pike 1945, Abercrombie 1967, etc).

Durante meio século não se conseguiu encontrar evidências acústicas que justificassem essa conjectura.

Essas evidências aparecem nos artigos pioneiros de Ramus, Nespor e Mehler (1999), eles utilizam estatísticas simples de amostras de sinais acústicos produzidos por falantes das diversas línguas consideradas.

Para um conjunto de oito línguas e 20 frases por língua, eles segmentam as frases em intervalos vocálicos e consonantais e definem:

%V = proporção de tempo passado em vogais e

Delta C = desvio padrão dos intervalos consonantais

Ramus, Nespor & Mehler (1999)

Ramus, Nespor & Mehler (1999)

Segmentação manualÉ feita baseada na seguinte

informação:

Gráfico do sinal acústico Gráfico do espectrograma Ouvindo a frase

Dificuldades:

Leva muito tempo Imprecisões Muito difícil de ser reproduzida

Sinal acústico e espectrograma

Espectro de Fourier

Problema: o sinal acústico de fala é não estacionário

Espectrograma

Regiões regulares

Identificando zonas regularesObservação: Em intervalos vocálicos, tipicamente,

pt e pt+1 são “parecidos”. Em intervalos consonantais,

tipicamente, isto não acontece.Exceções: semi-vogais, nasais...

Classificadores(1) Entropia relativa:

F

ft

ttt f

ffh

ppp

1

11 )(

)(log)(

Distância Euclidiana:

F

fttt ffd pp

1

2

1)()(

Classificadores(2) Energia total:

F

ftt fe z

1

)(

Energia na banda [Fa , Fb]:

b

a

ba

F

Fft

FFt fe z )(,

Entropia Relativa (japonês)

Entropia Relativa (Frances)

Energia Total

Energia 1000-5000Hz

Exemplos de Regras de Classificação do P.B.

Entropia relativa baixa Energia total alta Alta energia na banda [1000,5000] hz

alta probabilidade de vogal

Entropia relativa baixa Baixa energia na banda

[1000,5000] hzalta probabilidadede consoante

(nasal) Entropia relativa alta Alta energia na banda

[1000,5000] hzalta probabilidadede consoante

Segmentação: automática vs manual

ResultadosTaxa de erro: Portugueis Brasileiro: 18% Ingles Britanico: 24%

Consideramos que um erro e produzido quando:

a fronteira não é detectada, ou a fronteira é colocada a uma distância

maior do que 10ms da marcação manualO algoritmo esta disponivel na rede no endereço:www.ime.usp.br/~tycho/tipal/prosody/vocale/

Problemas: Em alguns casos as regras dependem da

língua.

As bandas de freqüências a serem utilizadas dependem do sexo do locutor.

Há critérios linguísticos que não podem ser expressos com regras simples deste tipo. Exemplos: r retroflexo, semi-vogais, etc.

Exemplo: Português e Inglês

Função de sonoridade

Com o objetivo de evitar as ambigüidades na definição de vogal, definimos a função de sonoridade como:

S(t) é uma função com valores perto de 1 nas regiões regulares e perto de 0 nas regiões irregulares.

Uma versão automática de RNM

T

t

tstsT

S1

)1()(1

T

t

tsT

S1

)(1

Resultados com a função de sonoridade

Sonoridade e variação total para cada fonema

Um modelo para a sonoridade

Gráfico de p(0)=P(X(t)=0)