VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala.
-
Upload
eliana-medina-palhares -
Category
Documents
-
view
219 -
download
0
Transcript of VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala.
VOCALE Um Algoritmo de
Identificação de Intervalos Vocálicos no Sinal Acústico de
Fala
Temos:
Queremos: (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v(0.440 0.498) c(0.498 0.540) v…
Problema
Exemplo de segmentação
Marca
Vowel
Cons.
Vowel.
Conjectura das classes rítmicas Diversos linguistas conjecturaram que as línguas
naturais estavam agrupadas num número finito e pequeno de classes rítmicas ( Lloyd James 1940 , Pike 1945, Abercrombie 1967, etc).
Durante meio século não se conseguiu encontrar evidências acústicas que justificassem essa conjectura.
Essas evidências aparecem nos artigos pioneiros de Ramus, Nespor e Mehler (1999), eles utilizam estatísticas simples de amostras de sinais acústicos produzidos por falantes das diversas línguas consideradas.
Para um conjunto de oito línguas e 20 frases por língua, eles segmentam as frases em intervalos vocálicos e consonantais e definem:
%V = proporção de tempo passado em vogais e
Delta C = desvio padrão dos intervalos consonantais
Ramus, Nespor & Mehler (1999)
Ramus, Nespor & Mehler (1999)
Segmentação manualÉ feita baseada na seguinte
informação:
Gráfico do sinal acústico Gráfico do espectrograma Ouvindo a frase
Dificuldades:
Leva muito tempo Imprecisões Muito difícil de ser reproduzida
Sinal acústico e espectrograma
Espectro de Fourier
Problema: o sinal acústico de fala é não estacionário
Espectrograma
Regiões regulares
Identificando zonas regularesObservação: Em intervalos vocálicos, tipicamente,
pt e pt+1 são “parecidos”. Em intervalos consonantais,
tipicamente, isto não acontece.Exceções: semi-vogais, nasais...
Classificadores(1) Entropia relativa:
F
ft
ttt f
ffh
ppp
1
11 )(
)(log)(
Distância Euclidiana:
F
fttt ffd pp
1
2
1)()(
Classificadores(2) Energia total:
F
ftt fe z
1
)(
Energia na banda [Fa , Fb]:
b
a
ba
F
Fft
FFt fe z )(,
Entropia Relativa (japonês)
Entropia Relativa (Frances)
Energia Total
Energia 1000-5000Hz
Exemplos de Regras de Classificação do P.B.
Entropia relativa baixa Energia total alta Alta energia na banda [1000,5000] hz
alta probabilidade de vogal
Entropia relativa baixa Baixa energia na banda
[1000,5000] hzalta probabilidadede consoante
(nasal) Entropia relativa alta Alta energia na banda
[1000,5000] hzalta probabilidadede consoante
Segmentação: automática vs manual
ResultadosTaxa de erro: Portugueis Brasileiro: 18% Ingles Britanico: 24%
Consideramos que um erro e produzido quando:
a fronteira não é detectada, ou a fronteira é colocada a uma distância
maior do que 10ms da marcação manualO algoritmo esta disponivel na rede no endereço:www.ime.usp.br/~tycho/tipal/prosody/vocale/
Problemas: Em alguns casos as regras dependem da
língua.
As bandas de freqüências a serem utilizadas dependem do sexo do locutor.
Há critérios linguísticos que não podem ser expressos com regras simples deste tipo. Exemplos: r retroflexo, semi-vogais, etc.
Exemplo: Português e Inglês
Função de sonoridade
Com o objetivo de evitar as ambigüidades na definição de vogal, definimos a função de sonoridade como:
S(t) é uma função com valores perto de 1 nas regiões regulares e perto de 0 nas regiões irregulares.
Uma versão automática de RNM
T
t
tstsT
S1
)1()(1
T
t
tsT
S1
)(1
Resultados com a função de sonoridade
Sonoridade e variação total para cada fonema
Um modelo para a sonoridade
Gráfico de p(0)=P(X(t)=0)