Voicebox

10
Voicebox Speech processing toolbox for MATLAB André Palhares

description

Voicebox. Speech processing toolbox for MATLAB André Palhares. Vector Distance - disteusq. Calcula a distância euclidiana , quadrado da euclidiana ou de mahanalobis entre matrizes D=disteusq(X,Y,MODE,W) X,Y são matrizes com mesmo número de colunas MODE é uma string - PowerPoint PPT Presentation

Transcript of Voicebox

Page 1: Voicebox

Voicebox

Speech processing toolbox for MATLAB

André Palhares

Page 2: Voicebox

Vector Distance - disteusq• Calcula a distância euclidiana, quadrado da euclidiana ou

de mahanalobis entre matrizes• D=disteusq(X,Y,MODE,W)• X,Y são matrizes com mesmo número de colunas• MODE é uma string

– ‘x’: distância entre cada uma das linhas de X e Y– ‘d’: distância entre linhas correspondentes– ‘s‘: tira a raiz quadrada de modo a obter a distância euclidiana

• W é opcional e utilizado como peso pra distância• Se MODE = ‘x’, retorna uma matriz com as distâncias• Se MODE = ‘d’, o retorno é um vetor coluna

Page 3: Voicebox

Speech Analysis - enframe

• Divide o sinal em frames, um por linha da matriz de saída

• F = ENFRAME(X,LEN)– Cada frame fica com tamanho LEN e ocupa uma

linha de F• F = ENFRAME(X,LEN,INC)– Cada frame começa a distancia INC do inicio do

frame anterior

Page 4: Voicebox

Speech Analysis – fram2wav• Converte frames em waveforms contínuos, usando

algum método de interpolação• [w,s]=fram2wav(x,tt,mode)• Entradas– x(nf, p) – sinal de entrada, um frame por linha– tt(nf, 3) – serve para específicar quais frames exatamente

se quer interpolar– mode – l pra interpolação linear, z para zero-order hold

interpolation• Saídas– w(n,p)– s(ns, 2)

Page 5: Voicebox

Speech Analysis – ewgrpdel• Calcula a energy weighted group delay waveform

– para cada sample de entrada, essa rotina calcula o delay entre tal amostra e o centro de gravidade de uma janela centrada na amostra

• [y,mm]=ewgrpdel(x,w,m)– x – sinal de entrada– w – a janela ou o tamanho da janela– m – onde fica o centro da janela (no meio, como

default)– y – o waveform gerado– mm – o m utilizado no cálculo

Page 6: Voicebox

Speech Analysis – activlev• Mede o level ativo do sinal, de acordo com a recomendação P.56 da ITU-T• [lev,af,fso]=activlev(sp,fs,mode)• sp – sinal de entrada• fs – frequencia de amostragem• mode:

– ‘r’ – omitir todos os filtros (padrao é 200 Hz até 5.5 kHz)– ‘0’ – não usar filtro passa alta (inclui DC)– ‘4’ – usa filtro passa alta em 40 Hz– ‘1’ – usa filtro de chebyschev de ordem 1– ‘2’ – usa filtro de chebyschev de ordem 2 (default)– ‘e’ – usa filtro elíptico– ‘h’ – omitir filtro passa baixa em 5.5 kHz– ‘d’ – saída e dB

• Saídas– lev – level do sinal– af – duty cycle do sinal– fso – vetor com informações adicionais do sinal

Page 7: Voicebox

Speech Analysis – spgrambw

• Exibe o spectrograma do sinal em escala de cinza

• [tt,f,b]=spgrambw(data,fs,bw,fmax)

Page 8: Voicebox

Speech Analysis – txalign• Encontra o melhor alinhamento entre dois conjuntos de

marcadores de tempo• [kx,ky,nxy,mxy,sxy]=txalign(X,Y,MAXT) • X e Y são vetores de tempo. O alinhamento tenta minimizar

(X-Y)^2 com uma penalidade de MAXT^2 para cada par de entradas que não alinhem

• Saídas:– nxy – número de alinhamentos obtidos– mxy – média das distancias do alinhamento– sxy – desvio padrão das distancias do alinhamento– kx – vetor do mesmo tamanho de X. kx(i) = j se X(i) alinhou com

Y(j). Se não, kx(i) = 0.– Ky – idem em relação a Y

Page 9: Voicebox

Speech Analysis – soundspeed

• Retorna a velocidade do som no ar, em função da temperatura

• v=soundspeed(t,m,g)• t – temperatura do ar em celsius• m – peso molecular médio do ar• g – constante adiabática do ar• v – velocidade do som

Page 10: Voicebox

Voicebox Parameters and System Interface - voicebox

• Usado para setar parâmetros globais do voicebox• y=voicebox(f,v)• f é o nome de algum campo a ser setado• v é o novo valor que tal campo vai assumir• y é o valor do campo atualmente, se nenhum valor novo for

passado como parâmetro. Se f e v forem ambos passados ou não, y recebe a estrutura dos parâmetros atual

• Entre os campos que podem ser setados, temos:– PP.dir_temp - localização de dados temporários– PP.dir_data - localizaçao de dados– PP.shorten - localização do executavel shorten– PP.sfsbin – localizaçao dos executaveis sfs– PP.sfssuffix – sufixo dos executaveis sfs