métodos para separação de vozes a partir de misturas pré-gravadas

161
MÉTODOS PARA SEPARAÇÃO DE VOZES A PARTIR DE MISTURAS PRÉ-GRAVADAS Igor Magrani Chame Projeto de Graduação apresentado ao Curso de Engenharia Eletrônica e de Computação da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientador: Luiz Wagner Pereira Biscainho Rio de Janeiro Agosto de 2016

Transcript of métodos para separação de vozes a partir de misturas pré-gravadas

Page 1: métodos para separação de vozes a partir de misturas pré-gravadas

MÉTODOS PARA SEPARAÇÃO DE VOZES A PARTIR DE MISTURASPRÉ-GRAVADAS

Igor Magrani Chame

Projeto de Graduação apresentado ao Cursode Engenharia Eletrônica e de Computaçãoda Escola Politécnica, Universidade Federaldo Rio de Janeiro, como parte dos requisitosnecessários à obtenção do título de Engenheiro.

Orientador: Luiz Wagner Pereira Biscainho

Rio de JaneiroAgosto de 2016

Page 2: métodos para separação de vozes a partir de misturas pré-gravadas
Page 3: métodos para separação de vozes a partir de misturas pré-gravadas

MÉTODOS PARA SEPARAÇÃO DE VOZES A PARTIR DE MISTURASPRÉ-GRAVADAS

Igor Magrani Chame

PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DOCURSO DE ENGENHARIA ELETRÔNICA E DE COMPUTAÇÃO DA ESCOLAPOLITÉCNICA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMOPARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAUDE ENGENHEIRO ELETRÔNICO E DE COMPUTAÇÃO.

Examinado por:

Prof. Luiz Wagner Pereira Biscainho, D.Sc.

Prof. Sergio Lima Netto, Ph.D.

Prof. Diego Barreto Haddad, D.Sc.

RIO DE JANEIRO, RJ – BRASILAGOSTO DE 2016

Page 4: métodos para separação de vozes a partir de misturas pré-gravadas
Page 5: métodos para separação de vozes a partir de misturas pré-gravadas

Magrani Chame, IgorMÉTODOS PARA SEPARAÇÃO DE VOZES A

PARTIR DEMISTURAS PRÉ-GRAVADAS/Igor MagraniChame. – Rio de Janeiro: UFRJ/ Escola Politécnica, 2016.

XXVIII, 132 p.: il.; 29,7cm.Orientador: Luiz Wagner Pereira BiscainhoProjeto de Graduação – UFRJ/ Escola Politécnica/

Curso de Engenharia Eletrônica e de Computação, 2016.Referências Bibliográficas: p. 124 – 131.1. Processamento digital de áudio. 2. Fatoração de

matrizes não-negativas. 3. Separação de fontes de sinal devoz. I. Pereira Biscainho, Luiz Wagner. II. UniversidadeFederal do Rio de Janeiro, Escola Politécnica, Curso deEngenharia Eletrônica e de Computação. III. Título.

iv

Page 6: métodos para separação de vozes a partir de misturas pré-gravadas
Page 7: métodos para separação de vozes a partir de misturas pré-gravadas

À minha família e a todos queme apoiaram.

Se pude ver até aqui, foi porestar sobre os ombros de vocês,

gigantes.

vi

Page 8: métodos para separação de vozes a partir de misturas pré-gravadas
Page 9: métodos para separação de vozes a partir de misturas pré-gravadas

Agradecimentos

Agradeço à minha família. Graças a seu apoio, carinho e todo esforço euconsegui chegar até aqui.

A todos os meus amigos pelos bons momentos e pelo incentivo. Mesmo osmomentos fora das aulas, desde a equipe de competição MinervaBots, EmpresaJúnior Fluxo Consultoria até os papos nos corredores, contribuíram imensamentepara a minha formação.

A todos os professores que fizeram parte da minha formação, sem os quais nãopoderia estar terminando a graduação. Agradeço imensamente ao meu orientador,professor Luiz Wagner, por toda ajuda, paciência e dedicação. Agradeço tambémaos alunos que ajudaram na revisão desse trabalho.

Por fim, gostaria de agradecer a Vívian Gapanowicz, obrigado pela paciência, teraguentado os meus maus humores, ter suportado as minhas ausências e ter sempredemonstrado carinho e amor.

viii

Page 10: métodos para separação de vozes a partir de misturas pré-gravadas
Page 11: métodos para separação de vozes a partir de misturas pré-gravadas

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ comoparte dos requisitos necessários para a obtenção do grau de Engenheiro Eletrônicoe de Computação.

MÉTODOS PARA SEPARAÇÃO DE VOZES A PARTIR DE MISTURASPRÉ-GRAVADAS

Igor Magrani Chame

Agosto/2016

Orientador: Luiz Wagner Pereira Biscainho

Curso: Engenharia Eletrônica e de Computação

Este trabalho explora abordagens de fatoração não-negativa de matrizes (NMF)e extensões para solucionar o problema de separação de fontes contendo voz semmodelar o conteúdo dos discursos e, com isso, sem especializar o separador para voz.Utilizando divergências de Kullback-Leibler generalizada e Itakura-Saito, extensõessão apresentadas para explorar características facilitadoras como múltiplos canais deobservações e distribuições estatísticas das fontes. Verifica-se que as implementaçõesbaseadas na NMF possuem desempenho inferior em misturas contendo voz do queem misturas de instrumentos musicais. Entretanto, a separação foi aprimorada pelasextensões e até possibilitada em alguns casos. Os métodos avaliados apresentarambom desempenho na separação de fontes de voz alternadas ou com predominânciapor canal, mas falharam ao estimar fontes simultâneas de sinais de voz. Uma possívelestratégia para possibilitar a separação de sinais simultâneos de voz é a especializaçãodas implementações para voz por meio da modelagem do conteúdo dos discursos,por exemplo.

Palavras-chave: Processamento digital de áudio, Fatoração de matrizes não-negativas, Separação de fontes de sinal de voz.

x

Page 12: métodos para separação de vozes a partir de misturas pré-gravadas
Page 13: métodos para separação de vozes a partir de misturas pré-gravadas

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillmentof the requirements for the degree of Engineer.

APPROACHES TO VOICE SEPARATION FROM PRERECORDEDMIXTURES

Igor Magrani Chame

August/2016

Advisor: Luiz Wagner Pereira Biscainho

Course: Electronic Engineering

In this work, non-negative matrix factorization (NMF) approaches are evaluatedwhen applied to audio source separation problem involving voice signals. Methodsused do not model the content of the speech; therefore, they are not specialized tovoice signals. Extensions of implementations using Kullback-Leibler and Itakura-Saito divergences are presented to exploit multichannel audio data and statisticdistribution of sources. Although NMF-based implementations presented inferiorperformance when separating voice signals to when separating signals of music in-struments, extensions enhanced separation and even enabled some scenarios. Voicesources have been adequately estimated when mixtures were made of alternatingsources or sources with predominance per channel. However, they failed to estimatesimultaneous voice sources. The specialization of the approach to voice signals bymodelling speech content is a possible strategy to enable the estimation of simulta-neous voice sources.

Keywords: Digital audio processing, Non-negative matrix factorization, Speech au-dio source separation.

xii

Page 14: métodos para separação de vozes a partir de misturas pré-gravadas
Page 15: métodos para separação de vozes a partir de misturas pré-gravadas

Sumário

Lista de Figuras xviii

Lista de Tabelas xx

Lista de Símbolos xxii

Lista de Abreviaturas xxvi

1 Introdução 21.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Descrição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Fundamentos teóricos 82.1 Representações do sinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1 A transformada de Fourier . . . . . . . . . . . . . . . . . . . . . . 92.1.2 Representações em tempo-frequência . . . . . . . . . . . . . . . . 10

2.2 Ferramentas estatísticas básicas . . . . . . . . . . . . . . . . . . . . . . . 142.2.1 Distribuição de probabilidade e funções de densidade . . . . . . 142.2.2 Valor esperado, média e covariância . . . . . . . . . . . . . . . . 152.2.3 Distribuições condicionais e marginais . . . . . . . . . . . . . . . 162.2.4 Modelos probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 172.2.5 Funções de verossimilhança . . . . . . . . . . . . . . . . . . . . . 172.2.6 Estimativa de máxima verossimilhança . . . . . . . . . . . . . . 182.2.7 O algoritmo de maximização de expectativa . . . . . . . . . . . 18

3 Separação de fontes sonoras 223.1 Sistema de mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.1 Restrições ou premissas do modelo de mistura . . . . . . . . . . 253.2 Modelo dos sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3 Abordagens para a solução do problema de separação . . . . . . . . . . 28

xiv

Page 16: métodos para separação de vozes a partir de misturas pré-gravadas

3.4 Modelos de fatoração de matrizes para a abordagem de decomposiçãoe agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.5 Modelos para a abordagem de modelagem estatística de fontes . . . . 323.5.1 Quantização fatorial de vetores . . . . . . . . . . . . . . . . . . . 343.5.2 Modelos de misturas gaussianas . . . . . . . . . . . . . . . . . . . 353.5.3 Modelos de Markov escondidos . . . . . . . . . . . . . . . . . . . 36

3.6 Conclusão do Capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4 Fatoração de matrizes não-negativas 404.1 A premissa da não-negatividade . . . . . . . . . . . . . . . . . . . . . . . 414.2 O problema de otimização . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.2.1 Medidas de divergência . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Solucionando o problema de otimização . . . . . . . . . . . . . . . . . . 43

4.3.1 Estratégias de otimização . . . . . . . . . . . . . . . . . . . . . . 444.3.2 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.3 Métodos de inicialização . . . . . . . . . . . . . . . . . . . . . . . 48

4.4 Modelagem de fontes em componentes elementares ou padrões e arepresentação no tempo-frequência . . . . . . . . . . . . . . . . . . . . . 494.4.1 Associando componentes com fontes . . . . . . . . . . . . . . . . 50

4.5 Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.6 Experimentos com a NMF . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.6.1 Método de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . 544.6.2 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.6.3 Separação cega de misturas subdeterminadas de música sem voz 624.6.4 Separação cega de misturas de músicas gravadas profissional-

mente com voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.6.5 Separação cega de misturas subdeterminadas de voz . . . . . . 73

4.7 Conclusão do capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5 Extensões da NMF 765.1 A NTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.1.1 Algoritmo para solução da NTF . . . . . . . . . . . . . . . . . . 795.2 A Cluster NTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.3 Interpretação estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.3.1 A EM/NMF-IS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.3.2 A EM/NTF-IS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.4 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.4.1 Métodos de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . 895.4.2 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.4.3 Separação cega de misturas subdeterminadas de música sem voz 93

xv

Page 17: métodos para separação de vozes a partir de misturas pré-gravadas

5.4.4 Separação cega de misturas de músicas gravadas profissional-mente com voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.4.5 Separação cega de misturas subdeterminadas de voz . . . . . . 1045.4.6 Separação cega de misturas subdeterminadas formadas por

sistemas variantes no tempo . . . . . . . . . . . . . . . . . . . . . 115

6 Conclusões 120

Referências Bibliográficas 124

A Estrutura da Página de Resultados 132

xvi

Page 18: métodos para separação de vozes a partir de misturas pré-gravadas
Page 19: métodos para separação de vozes a partir de misturas pré-gravadas

Lista de Figuras

2.1 Ilustração do processo de janelamento do sinal x(n) com a janelaw(n) de Hamming, gerando o quadro xwo (n). . . . . . . . . . . . . . . . 11

2.2 Janelas adjacentes sobrepondo-se à janela central de forma a com-pensar as atenuações causadas pelas bordas suaves. . . . . . . . . . . . 12

2.3 Representações de um sinal no tempo, na frequência e no tempo-frequência de mistura com dois instrumentos percussivos. . . . . . . . 13

3.1 Ilustração em notação vetorial de sistema básico de mistura aditivade dois canais com ruído. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 Descrição em blocos de sistema básico de mistura em um canal. . . . . 243.3 Representação gráfica de observações independentes sem ilustrar mo-

delo de mistura e de fonte. . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4 Representação gráfica de observações dependentes em primeira ordem

de cadeia de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.5 Ilustração do modelo FHMM de duas fontes. . . . . . . . . . . . . . . . 37

4.1 Representação da fatoração não-negativa da matriz V em W e Hem áudio com representação no tempo-frequência. . . . . . . . . . . . . 40

4.2 Diferentes representações para a NMF e sua relação com componentese fontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3 Custo após 1000 iterações de cada uma das 10 inicializações robustaspara diferentes valores de componentes por fonte Msource. Misturasdo experimento 4.6.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4 SDR das estimativas das fontes após 1000 iterações, com inicializa-ção de menor custo para diferentes valores de componentes por fonteMsource. Misturas do experimento 4.6.3. . . . . . . . . . . . . . . . . . . 66

4.5 Evolução na escala log-log das funções custo durante 1000 iteraçõesem 10 execuções para cada Experimento descrito na Seção 4.6.3. . . . 67

4.6 Custo após 1000 iterações de cada uma das 10 inicializações robustaspara diferentes valores de componentes por fonte Msource. Misturasdo experimento 4.6.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

xviii

Page 20: métodos para separação de vozes a partir de misturas pré-gravadas

4.7 SDR das estimativas das fontes após 1000 iterações, com inicializa-ção de menor custo para diferentes valores de componentes por fonteMsource. Misturas do experimento 4.6.4. . . . . . . . . . . . . . . . . . . 71

4.8 Evolução na escala log-log das funções custo durante 5000 iteraçõesem 10 execuções para cada mistura. Experimento descrito na Seção4.6.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.1 Ganhos normalizados de fontes por canais para misturas da Seção 5.4.3. 945.2 SDR média de estimavas de fontes por implementação para misturas

da Seção 5.4.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.3 SDR média de estimavas de fontes por implementação para misturas

da Seção 5.4.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.4 Ganhos normalizados de fontes por canais para misturas da Seção 5.4.5.1065.5 SDR média de estimavas de fontes por implementação para misturas

da Seção 5.4.5 (1/3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1095.6 SDR média de estimavas de fontes por implementação para misturas

da Seção 5.4.5 (2/3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115.7 SDR média de estimavas de fontes por implementação para misturas

da Seção 5.4.5 (3/3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1135.8 Ganhos normalizados de fontes por canais para misturas da Seção 5.4.6.1165.9 SDR média de estimavas de fontes por implementação para misturas

da Seção 5.4.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

xix

Page 21: métodos para separação de vozes a partir de misturas pré-gravadas

Lista de Tabelas

4.1 Modelagem para implementações NMF-IS e NMF-KL . . . . . . . . . . 504.2 Estrutura em blocos da implementação BSS de separação de fontes

NMF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3 Comprimentos das janelas das STFT utilizadas nos experimentos com

a NMF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.4 Parâmetros de inicialização da fatoração da NMF. . . . . . . . . . . . . 604.5 Iterações por experimento da NMF. . . . . . . . . . . . . . . . . . . . . 614.6 SDR, SIR e SAR das estimativas das fontes consideradas para as duas

misturas do experimento. Experimento descrito na Seção 4.6.3. . . . . 684.7 SDR, SIR e SAR das estimativas das fontes consideradas para as duas

misturas do experimento. Experimento descrito na Seção 4.6.4. . . . . 704.8 SDR, SIR e SAR das estimativas das fontes consideradas para as duas

misturas do experimento. Experimento descrito na Seção 4.6.5. . . . . 74

5.1 Modelagem para implementações NTF-IS e NTF-KL. . . . . . . . . . . 795.2 Estrutura em blocos da implementação BSS de separação de fontes

NTF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.3 Comprimentos das janelas das STFT utilizadas nos experimentos com

a NMF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.4 Parâmetros de inicialização da fatoração. . . . . . . . . . . . . . . . . . 925.5 Iterações por experimento da NTF. . . . . . . . . . . . . . . . . . . . . . 925.6 SDR, SIR e SAR das estimativas das fontes consideradas para as duas

misturas do experimento. Experimento descrito na Seção 5.4.3. . . . . 975.7 SDR, SIR e SAR das estimativas das fontes consideradas para as mis-

turas “Tamy” e “Another Dreamer”. Experimento descrito na Seção5.4.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.8 SDR, SIR e SAR das estimativas das fontes consideradas para a mis-tura “Sunrise”. Experimento descrito na Seção 5.4.4. . . . . . . . . . . . 103

5.9 SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Experimento descrito na Seção 5.4.5 (1/3). 110

xx

Page 22: métodos para separação de vozes a partir de misturas pré-gravadas

5.10 SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Experimento descrito na Seção 5.4.5 (2/3). 112

5.11 SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Experimento descrito na Seção 5.4.5 (3/3). 114

5.12 SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Experimento descrito na Seção 5.4.6. . . . . 118

6.1 Principais oportunidades encontradas para melhora de desempenhona separação de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . 122

xxi

Page 23: métodos para separação de vozes a partir de misturas pré-gravadas

Lista de Símbolos

<C, D >κC ,κD Generalização do produto de duas matrizes para dois tensoresC ∈ CI×F×O e D ∈ CF×O×M , que possuem dimensões comunsindicadas por vetores κC e κD, p. 80

Fs Frequência de amostragem de um sinal pré-gravado, p. 12

Fbin Denota quantos bins de frequência foram gerados pela STFT,p. 91

I Número de misturas observadas, p. 25

K Número de fontes no problema, p. 23

L Comprimento do filtro causal que modela o ambiente acústico,p. 26

M Número de padrões ou componentes presentes no problema, p.31

N Comprimento do sinal no tempo discreto, p. 9

Npasso Passo de análise da STFT, p. 10

O Segmentos ou quadros presentes na STFT, p. 10

S Máximo de iterações ou passos de um algoritmo, p. 45

αk,i Resposta ao impulso de um filtro causal que modela o ambienteacústico, p. 26

1 Matriz com todos os elementos iguais a 1, p. 42

A Matriz de pesos de múltiplas misturas quando estas são forma-das por superposições de fontes no tempo, p. 29

C Matriz denotando a STFT de uma ou mais componentes, p.49

xxii

Page 24: métodos para separação de vozes a partir de misturas pré-gravadas

D Matriz de mistura de fontes para canais, p. 82

H Matriz de coeficientes que podem ser interpretados como ati-vações dos padrões, p. 32

L Matriz de associação de componentes com fontes, ou de rótulo,p. 82

Q Matriz de mistura de componentes em canais, p. 77

S Matriz de sinais originais emitidos pelas fontes no tempo dis-creto, p. 29

V Matriz a ser fatorada, p. 40

W Matriz de vetores de padrões ou componentes, p. 32

X STFT da mistura observada, p. 40

θ Conjunto de parâmetros desconhecidos de um modelo proba-bilístico, p. 17

ai Vetor de pesos de uma mistura quando esta é formada por umasuperposição de fontes no tempo, p. 29

c Vetor de uma componente denotando observações no tempodiscreto, p. 49

mk Conjunto de componentes pertencentes a uma fonte, p. 49

xi Vetor de observação da mistura no tempo, p. 29

E[x] Valor esperado de variável aleatória x, p. 15

R+ Conjunto dos números reais não-negativos, p. 40

C(⋅) Função custo de um problema de otimização, p. 41

CEUC(⋅) Função custo do quadrado da distância Euclidiana para o pro-blema de otimização da NMF, p. 42

CIS(⋅) Função custo da divergência de Itakura-Saito para o problemade otimização da NMF, p. 42

CKL(⋅) Função custo da divergência de Kullback-Leibler generalizadapara o problema de otimização da NMF, p. 42

xxiii

Page 25: métodos para separação de vozes a partir de misturas pré-gravadas

∣ ⋅ ∣ Operador que indica a soma de todos os elementos da matrizou do vetor, p. 42

∣∣ ⋅ ∣∣ Função norma de matrizes ou vetores, p. 42

∣∣ ⋅ ∣∣F Função norma de Frobenius de matrizes ou vetores, p. 42

∇ Gradiente de uma função, p. 46

⊙ Denota-se A ⊙ B o tensor F × O × M com elementos[A]fm[B]mo, p. 80

abs(⋅) Retorna o módulo de um escalar (Quando aplicado a uma ma-triz, retorna uma matriz com o módulo dos elementos), p. 59

length(A) Retorna o maior tamanho de dimensões de A (Caso seja pas-sado um vetor a, a função retorna o comprimento do vetor),p. 59

ones(⋅) Retorna uma matriz 1 de elementos iguais a 1 e de dimensõesdefinidas no argumento, p. 59

randn(N1, ...,ND) Retorna uma matriz com elementos aleatórios de distribui-ção normal com média zero e variância unitária (O argumento(N1, ...,ND) indica o tamanho N de cada uma das D dimen-sões), p. 59

tr(A) Soma dos elementos da diagonal principal de uma matriz A,p. 86

⊘ Operador que indica a divisão ponto-a-ponto entre matrizes,p. 42

⊗ Operador que indica a multiplicação ponto-a-ponto entre ma-trizes (Conhecido na literatura por produto de Hadamard), p.42

arg(⋅) Função que, aplicada a um escalar complexo, retorna sua fasecom magnitude unitária, p. 53

aik Coeficientes de uma matriz de mistura de fontes para canais,p. 78

ak,i Ganho/atenuação sofrido pelo sinal da fonte k no canal i devidoao ambiente sonoro, p. 25

xxiv

Page 26: métodos para separação de vozes a partir de misturas pré-gravadas

c(n) Sinal de uma componente, p. 49

e(n) Sinal de ruído, p. 25

fd Frequência discreta, p. 9

i Identificador de mistura observada, p. 25

j Unidade imaginária, p. 9

k Identificador da fonte, p. 23

lkm Coeficientes de matriz de mistura de fontes para canais, p. 82

m Identificador do padrão ou componente, p. 31

n Tempo discreto, p. 9

o Índice do quadro considerado na STFT, p. 10

qim Coeficientes de uma matriz de mistura de componentes paracanais, p. 78

s Identificador da iteração ou passo de um algoritmo, p. 45

sk(n) Sinal atribuído à fonte k, p. 23

x(n) Sinal de mistura observado, p. 23

xxv

Page 27: métodos para separação de vozes a partir de misturas pré-gravadas

Lista de Abreviaturas

BSS Blind source separation, p. 23

CASA Computational auditory scene analysis, p. 2

DFT Discrete Fourier transform, p. 9

EM Maximização de expectativa, do inglês expectation-maximization, p. 18

EUC Distância euclidiana, p. 42

FFT Fast Fourier transform, p. 9

FHMM Factorial hidden Markov model, p. 37

FT Fourier transform, p. 9

GMM Modelo de mistura de gaussianas, do inglês gaussian mixturemodel, p. 18

GPA Grupo de Processamento de Áudio da UFRJ, p. 4

HMM Hidden Markov model, p. 30

ICA Independent component analysis, p. 22

IDFT Inverse discrete Fourier transform, p. 9

IS Divergência de Itakura-Saito, p. 42

KL Divergência de Kullback-Leibler generalizada, p. 42

ML Máxima verossimilhança, do inglês maximum likelihood, p. 83

MU/NMF-IS Algoritmo de solução da NMF com uso da divergência deItakura-Saito por atualizações alternadas multiplicativas, p. 47

xxvi

Page 28: métodos para separação de vozes a partir de misturas pré-gravadas

MU/NMF-KL Algoritmo de solução da NMF com uso da divergência deKullback-Leibler por atualizações alternadas multiplicativas,p. 46

MU/NTF-IS Algoritmo de solução da NTF com uso da divergência deItakura-Saito por atualizações alternadas multiplicativas, p. 81

MU/NTF-KL Algoritmo de solução da NTF com uso da divergência deKullback-Leibler por atualizações alternadas multiplicativas,p. 81

MU/NTFclus-IS Algoritmo de solução da NTF com uso da divergência deItakura-Saito por atualizações alternadas multiplicativas e comclusterização durante a fatoração, p. 82

MU/NTFclus-KL Algoritmo de solução da NTF com uso da divergência deKullback-Leibler por atualizações alternadas multiplicativas ecom clusterização durante a fatoração, p. 82

MU Multiplicative update, p. 46

NMF-IS NMF com uso da divergência de Itakura-Saito, p. 47

NMF-KL NMF com uso da divergência de Kullback-Leibler, p. 49

NMF Non-negative matrix factorization, p. 3

NTF-IS NTF com uso da divergência de Itakura-Saito, p. 78

NTF-KL NTF com uso da divergência de Kullback-Leibler, p. 78

NTF Fatoração de tensores não-negativos, do inglês nonnegative ten-sor factorization, p. 76

PARAFAC Análise de fatores paralelos, do inglês parallel factor analysis,p. 76

PDF Funções de densidade de probabilidade, do inglês probabilitydensity function, p. 14

SAR Sources-to-artifacts ratio, p. 56

SDR Source-to-distortion ratio, p. 55

SIR Source-to-interferences ratio, p. 56

SNR Razão sinal-ruído, do inglês signal-to-noise ratio, p. 55

xxvii

Page 29: métodos para separação de vozes a partir de misturas pré-gravadas

STFT Transformada de Fourier de curta duração, do inglês short-timeFourier transform, p. 10

SiSEC Signal Separation Evaluation Campaign, p. 28

xxviii

Page 30: métodos para separação de vozes a partir de misturas pré-gravadas
Page 31: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 1

Introdução

Imagine-se ouvindo diversos pianos sendo tocados simultaneamente. Se cadapianista estivesse tocando notas aleatórias, sem correlação perceptível, seria difícilidentificar que nota é tocada por cada pianista. Entretanto, se cada um estivesse to-cando uma música, a separação e identificação de cada um seria muito mais fácil, jáque seria feita através do reconhecimento da estrutura da música. Um computadorpoderia realizar essa identificação ou separação a partir do treinamento de estruturasmusicais. Ao se associar uma nota com a sua resposta sonora esperada, algorit-mos podem reconhecer uma música com base no treinamento de sequências de notas.

Sinais de áudio capturados tipicamente contêm uma mistura de sons de diferen-tes fontes que sofreram alterações devidas ao ambiente acústico. Qualquer sistema,biológico ou artificial, deve extrair ou identificar essas fontes contidas na misturapara realizar processos como localização, denoising e reconhecimento. BREGMAN[1] nomeou esse processo como auditory scene analysis. A tarefa de separação defontes, ou computational auditory scene analysis (CASA), reúne soluções que utili-zam métodos computacionais.

O problema de separação de fontes pode também ser aplicado em sinais emque estão gravadas diferentes vozes simultaneamente. CHERRY [2] descreveu oproblema de reconhecimento de discursos simultâneos com o exemplo de uma festade cocktails (do inglês Cocktail Party). Mesmo com várias pessoas falando aomesmo tempo, é possível, para um ser humano, se concentrar no discurso de apenasuma pessoa. Nesse caso, faz-se, principalmente, o uso da informação redundanteentre duas observações, obtidas pelos dois ouvidos.

Existem diversas abordagens que podem ser utilizadas no problema de separa-ção de fontes, que se aplicam a diferentes situações. Entre as possíveis aplicações,destacam-se:

2

Page 32: métodos para separação de vozes a partir de misturas pré-gravadas

Área biomédica: na leitura de sinais cerebrais, há a interferência de outros sinais,que são produzidos em outras partes do corpo [3].

Processamento de dados: mensagens ou blocos de informações podem ser codi-ficados, decodificados, escondidos ou até identificados. As técnicas de separa-ção de fonte possuem importante aplicação na identificação de esteganografia,mensagens ocultas em meios de dados, durante investigações e aplicações desegurança [4, 5], por exemplo.

Processamento de imagens: algoritmos podem extrair partes chaves para se re-presentar uma imagem, separar imagens misturadas [6, 7] ou permitir com-pressão de imagens.

Processamento de áudio: dois grandes campos de aplicação dentro de processa-mento de áudio seriam o de (1) música e o de (2) voz. Problemas de separaçãoem música consistem em separar instrumentos por faixa [8–10]. Já aplica-ções envolvendo voz podem estar em (a) controle de dispositivos por voz1; (b)dispositivos ou softwares para reuniões2, conferência, streaming ou conversaem grupo; (c) monitoramento de gravações para buscar identificar pessoas oudiscursos específicos; e (d) reduzir ruído de fundo em gravações ou ligaçõestelefônicas [11] a fim de melhorar a inteligibilidade.

O tema do trabalho envolve o estudo de métodos para a separação de vozes apartir de misturas de áudio. No caso, pretende-se avaliar soluções encontradas naliteratura quando aplicadas a misturas contendo múltiplas fontes, incluindo um oumais discursos, além de outras fontes.

Encontram-se na literatura diversos algoritmos para separação de sinais demúsica e de fala, que se distinguem entre si. Porém, não há clareza dos limites deaplicação em sinais de voz dos métodos criados para aplicação em sinais de música.Com isso, nesse trabalho serão utilizados métodos determinísticos e mais simplesdo que os sugeridos para separação de sinais de fala, os quais envolvem, em geral,modelagens estatísticas das fontes. Para isso, examinamos a extensa literatura demétodos de separação de sinais de música com vistas à aplicação em separação desinais de fala.

Dentre os métodos sugeridos pela literatura de separação de música, destacam-seas soluções baseadas em fatoração de matrizes não negativas (NMF, do inglêsnon-negative matrix factorization). A NMF é uma ferramenta de fatoração de uma

1Destacam-se: Siri® da Apple®, NowTM do Google® e Cortana® da Microsoft®.2Destacam-se: Microsoft® Lync®, Skype®, Cisco® collaboration endpoints, Polycom®.

3

Page 33: métodos para separação de vozes a partir de misturas pré-gravadas

matriz não negativa em duas outras não negativas3, e foi inicialmente introduzidapor PAATERO e TAPPER em [12] como fatoração de matrizes positivas, sendoposteriormente popularizada por SEUNG e LEE em [13]. O método se expandiupara aplicações em separação não supervisionada [8], análise espectral [14], textmining [14], processamento de imagens [7, 15] e segurança de documentos comwatermarking [7].

A hipótese da qual partimos é a de que o processo de separação de misturascontendo voz é passível de tratamento determinístico, e então pode ser propostauma solução utilizando métodos encontrados na literatura sem fazer uso deferramentas de aprendizagem de máquina ou modelagem estatística do sistema edas fontes. Essa hipótese será avaliada a partir da qualidade dos sinais sonorosestimados das fontes.

O GPA (Grupo de Processamento de Áudio) da UFRJ possui diversos trabalhosem separação de fontes acústicas envolvendo abordagens determinísticas [16–18].Este trabalho procura avaliar o uso de abordagens como essas aplicadas anteri-ormente, de baixa complexidade computacional, em sinais de voz. A partir dosresultados obtidos, a demanda por uma solução estatística, mais complexa, poderáser estabelecida.

3Uma matriz não negativa é definida como aquela que possui todos os seus elementos nãonegativos.

4

Page 34: métodos para separação de vozes a partir de misturas pré-gravadas

1.1 Objetivos

O foco dessa monografia é o uso de métodos determinísticos de decomposição eagrupamento com base na fatoração de matrizes não-negativas para a separação defontes de voz.

O trabalho é assim dividido em objetivos/fases:

1. Revisar a literatura de separação de sinais de voz e de música, classificando ecomparando métodos;

2. Implementar métodos de separação determinísticos por decomposição e agru-pamento com base na fatoração de matrizes não-negativas;

3. Avaliar a separação de fontes musicais como referência de desempenho para asimplementações;

4. Avaliar a separação de música envolvendo fontes de voz e instrumentos musi-cais;

5. Avaliar a separação de misturas de voz envolvendo discursos simultâneos;

6. Avaliar a separação de misturas formadas por sistemas ou processos variantesno tempo.

1.2 Descrição

O texto está organizado da seguinte forma:

Capítulo 2, Fundamentos teóricos, apresenta a base teórica necessária para acompreensão dos temas apresentados nos capítulos seguintes.

Capítulo 3, Separação de fontes sonoras, faz uma revisão das soluções abor-dadas na literatura para o problema de separação de fontes em áudio. Oproblema de separação de fontes é definido e, em seguida, as abordagens sãosegmentadas em (1) Filtros, (2) Decomposição e Agrupamento e (3) Modela-gem estatística de fontes.

Capítulo 4, Fatoração de matrizes não-negativas, apresenta a técnica de de-composição e agrupamento introduzida por PAATERO e TAPPER em [12]. ANMF é apresentada em detalhes, reunindo diferentes algoritmos e introduzindoextensões.

5

Page 35: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 5, Extensões da NMF, aborda duas extensões da técnica de NMF. Atécnica multicanal presente na literatura apresenta ótimos resultados, inclu-sive na separação de músicas contendo voz. E uma interpretação estatísticada NMF é apresentada procurando potencializar os resultados da fatoração.Algoritmos para a estimação dos sinais das fontes são implementados e expe-rimentos procuram avaliar os resultados à luz dos objetivos da monografia.

Capítulo 6, Conclusões, apresenta as conclusões do trabalho sobre a revisão daliteratura e os resultados dos experimentos. Esse capítulo discute a hipótese deque o processo de separação de misturas contendo voz é passível de tratamentodeterminístico e, por isso, pode ser proposta uma solução utilizando métodosencontrados na literatura que não façam uso de ferramentas de aprendizagemde máquina ou modelagem estatística do sistema e das fontes.

1.3 Notação

As seguintes notações são utilizadas neste trabalho:

Vetores: Vetores são denotados por letras romanas minúsculas em negrito, comox, e são assumidos como vetores coluna. Um sobrescrito T denota a versãotransposta do vetor ou da matriz, assim transformando o vetor coluna emvetor linha. Portanto, um vetor xT é assumido como um vetor linha. Anotação (w1, ...,wM) denota um vetor linha com M elementos, enquanto umvetor coluna é denotado como w = (w1, ...,wM)T .

Matrizes: Letras romanas maiúsculas, comoX, denotam matrizes. O superescritoT em matrizes, como XT , denota a transposta da matriz e o superescrito H ,como XH , denota a transposta conjugada.

Coeficiente ou escalar: Um elemento da i-ésima linha e da j-ésima coluna deuma matriz X é representado como [X]i,j ou xi,j dependendo do contexto. Aprimeira representação é utilizada em contextos de desenvolvimento matricialenquanto a segunda é utilizada em contextos escalares que querem mostrar queaquele escalar pode ser representado também por uma matriz. Analogamente,um elemento de uma matriz de N dimensões também pode ser identificadoatravés de N índices. [x]i ou xi denotam o i-ésimo elemento de um vetor x.

Intervalo: A notação [a, b] é utilizada para denotar um intervalo fechado de a parab, ou seja, incluindo a e b. A notação (a, b) denota um intervalo aberto de apara b. Similarmente, [a, b) denota um intervalo incluindo o extremo a, masexcluindo o extremo b.

6

Page 36: métodos para separação de vozes a partir de misturas pré-gravadas

Sinal: A notação x(n) denota uma sequência indexada por n, representada notempo discreto. Os indexadores n e k serão preferencialmente utilizados pararepresentações discretas enquanto t e f serão utilizados para representaçõescontínuas. As notações x(t) ou x(n) representam sinais em suas representaçõesno tempo contínuo e discreto, respectivamente. Um sinal discreto x(n) podeconter N amostras, gerando um vetor de observação x = (x(1), ..., x(N)).Essa observação pode ser transformada para uma representação no domínio dafrequência através da transformada discreta de Fourier, denotada porDFT{x}.

Normas e operadores de matrizes: O operador ∣∣ ⋅ ∣∣ representa a função Norma,enquanto ∣∣ ⋅ ∣∣F denota a função Norma de Frobenius. A norma de Frobe-nius da matriz A ∈ RI×J é calculada como ∣∣A∣∣F = (∑i∑j ∣ [A]i,j ∣2)1/2.O operador ∣∣ ⋅ ∣∣S denota a soma de todos os elementos da matriz ou dovetor, e o operador ⊗ indica a multiplicação ponto-a-ponto entre matrizes:A ⊗B = [A]i,j[B]i,j, ∀i, j, que é conhecido na literatura por produto deHadamard. A divisão de matrizes X ⊘ X em CKL(⋅) é também uma divisãoelemento a elemento: A ⊘B = [A]i,j/[B]i,j, ∀i, j. Também será definidoum operador A.[x] que denota que os elementos da matriz A serão elevados àpotência x, ou seja: A.[x] = [A]xi,j ∀i, j. O operador ∣ ⋅ ∣ representa a funçãoabsoluto; quando aplicado em uma matriz ou um vetor, ele retorna a matriz ouvetor com todos os seus elementos substituídos pelos seus respectivos módulos.

Módulo de um escalar: A função Norma, denotada por ∣∣ ⋅ ∣∣, quando aplicada aum escalar, calcula o módulo do mesmo, equivalendo à função valor absoluto∣ ⋅ ∣.

7

Page 37: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 2

Fundamentos teóricos

Esse capítulo apresenta uma síntese de técnicas e conceitos utilizados noscapítulos a seguir. Os tópicos devem servir como base teórica para facilitar oentendimento do trabalho. As referências devem ser consultadas caso um aprofun-damento nos tópicos seja desejado.

Os textos desse capítulo foram fortemente baseados na construção teórica dasreferências citadas como principais a cada seção. A apresentação da base teórica éorganizada segundo as seções abaixo:

Seção 2.1, Representações do sinal, apresenta a transformada de Fourier e al-gumas técnicas utilizadas no processamento de sinais, como a representação dosinal na frequência através de espectrograma. O texto é baseado no trabalhode DAVY [19] e OPPENHEIM et al. [20].

Seção 2.2, Ferramentas estatísticas básicas, introduz ferramentas básicas deestatística como variáveis aleatórias, funções de densidade de probabilidade efunções de verossimilhança. O texto é baseado nos trabalhos de DAVY [19] eBISHOP et al. [21].

2.1 Representações do sinal

Os dois principais domínios em que um sinal de áudio pode ser representadosão o tempo e a frequência. Se por um lado o sinal é armazenado no tempo, elepode ser melhor compreendido no domínio da frequência. Cada nota musical, porexemplo, possui uma característica espectral que a define.

Uma representação na frequência é gerada a partir da transformada de Fourierdo sinal no tempo, como apresentado na Seção 2.1.1. As representações de frequên-cia ou de tempo sozinhas podem não ser suficientes para o entendimento de um

8

Page 38: métodos para separação de vozes a partir de misturas pré-gravadas

sinal; portanto, pode ser necessária a apresentação da evolução da representação nafrequência ao longo do tempo. Essas representações tempo-frequenciais são apre-sentadas na Seção 2.1.2.

2.1.1 A transformada de Fourier

A representação na frequência de sinais pode ser obtida pela transformada deFourier (FT, do inglês Fourier transform). No caso do processamento digital desinais, formula-se uma transformada de Fourier própria para sinais discretos notempo. E quando o objetivo é obter a representação frequencial para uma sequênciade duração finita, define-se uma transformada de Fourier discreta (DFT, do inglêsdiscrete Fourier transform). O sinal amostrado é denotado por x(n), onde n denotao tempo discreto, e N é o comprimento do sinal. E a DFT correspondente é definidana Equação (2.1), onde fd denota a frequência discreta.

DFT{x(n)} =X(fd) =N−1

∑n=0

x(n)e−j2πfdn

N . (2.1)

Enquanto a FT discreta mapeia o sinal no domínio do tempo para o domínio dafrequência, existe a transformada inversa apresentada abaixo:

IDFT{X(fd)} = x(n) =1

N

N−1

∑fd=0

X(fd)ej2πfdn

N . (2.2)

Existem abordagens eficientes para cálculo da DFT e da IDFT, dadas pelasEquações (2.1) e (2.2), respectivamente, que constituem uma família genericamenteconhecida como a transformada rápida de Fourier (FFT, do inglês fast Fourier trans-form). Uma implementação da FFT pode ser vista em [22].

As transformadas e suas inversas possuem diversas propriedades impor-tantes para o processamento de sinais. Dentre essas, destacam-se que atransformada é uma operação linear e que mapeia uma operação de convolu-ção no tempo numa operação de produto na frequência. No caso da DFT,DFT{(x1 ⊛ x2)(n)} = DFT{x1(n)} × DFT{x1(n)}, onde o operador ⊛ denota aconvolução circular.

A propriedade também é válida para as transformadas de tempo contínuo e asinversas, as quais não foram aqui apresentadas, permitindo substituir o alto custocomputacional envolvido no cálculo de convoluções por operações equivalentes maissimples.

9

Page 39: métodos para separação de vozes a partir de misturas pré-gravadas

2.1.2 Representações em tempo-frequência

Como já definido, uma única transformada de Fourier representa um determi-nado sinal. Entretanto, para processamento de sinais, diversas aplicações pedema análise da mudança do comportamento espectral de um sinal no tempo. Paratanto, pode-se avaliar a variação da transformada de Fourier ao longo do tempo.Combinando-se as representações no domínio do tempo e da frequência, obtém-se arepresentação em tempo-frequência. A principal ferramenta utilizada na literaturapara obter essa representação é o espectrograma, e a técnica mais usada paragerá-lo é a transformada de Fourier de curta duração (STFT, do inglês short-timeFourier transform)

Na STFT, o sinal discreto x(n) de comprimento N é segmentado em seçõesatravés de sua multiplicação no tempo por uma função w(n), chamada de janela.Essas seções serão chamadas de quadros do sinal e a sua equação é dada por:

xwo (n) = x(n)w(n − oNpasso), (2.3)

onde w é uma função de janela para selecionar uma seção do sinal x(n) e oNpasso

é o deslocamento da janela w de forma a selecionar a seção desejada, sendo Npasso

o passo de análise e o o índice do segmento considerado. O produto seleciona umsegmento de x(n) modificado pela janela w para cada valor de o.

Um exemplo é ilustrado na Figura 2.1. As janelas são geralmente positivase simétricas. As funções de janelas mais comuns nas aplicações são gaussiana,de Hamming, de Hann e retangular. A largura da janela (largura do quadro)típica nas aplicações de áudio vai de 20 ms até 100 ms [8, 17, 23–27]. Noteque a escolha da largura da janela representa um compromisso entre boa resolu-ção no tempo, com janelas curtas, e boa resolução na frequência, com janelas longas.

Deve-se notar que o sinal sempre sofrerá alterações quando multiplicado por umajanela. Somente uma janela com representação na frequência impulsiva não distor-ceria o espectro do sinal. Entretanto, essa janela ideal seria plana e de tamanhoinfinito no domínio do tempo, ou seja, não realizaria nenhuma segmentação do sinal.

A literatura não recomenda a utilização da janela retangular em grande partedas aplicações de áudio, devido à deformação do espectro (introdução de picosespúrios significativos) que ela gera no sinal analisado. Uma janela muito utilizadana análise por STFT é a janela de Hamming, ilustrada na Figura 2.1.

10

Page 40: métodos para separação de vozes a partir de misturas pré-gravadas

x(n

)

n

w(n

−oN

passo)

n

xw o(n

)

n

Figura 2.1: Ilustração do processo de janelamento do sinal x(n) com a janela w(n)de Hamming, gerando o quadro xwo (n).

11

Page 41: métodos para separação de vozes a partir de misturas pré-gravadas

A equação da STFT de um sinal x(n) de comprimento N é dada por:

X(o, fd) = STFT{x(n)} = DFT{xwo (n)} =N−1

∑n=0

x(n)w(n − oNpasso)e−j2πfdn

N , (2.4)

onde fd é o índice da frequência discretizada. O sinal X(o, fd) obtido pela STFTtambém pode ser agrupado em uma matriz X de duas dimensões, cujos elementossão denotados por [X]o,fd .

Note que pelo equacionamento do janelamento em (2.3) e da STFT em (2.4), épossível que as janelas possuam uma interseção para um determinado passo Npasso

e uma largura de janela. Porém, as janelas de maior uso na literatura apresentambordas suaves na sua representação no tempo, ou seja, os trechos do sinal sob efeitodas bordas das janelas são atenuados. Esse efeito é mitigado através da sobrepo-sição das janelas, de modo que o trecho fortemente atenuado por uma janela serárelativamente mais representado pelas adjacentes. A escolha de Npasso e da largurada janela é importante para determinar quantos pontos de sobreposição serão uti-lizados para uma análise. O efeito é ilustrado na Figura 2.2. Pode ser convenienteutilizar janelas sobrepostas exatamente complementares (é o caso da de Hammingcom 50% de sobreposição).

Amplitude

n

. . . . . .

Figura 2.2: Janelas adjacentes sobrepondo-se à janela central de forma a compensaras atenuações causadas pelas bordas suaves.

O espectrograma será formado pela representação da energia de STFT, defi-nida pelo módulo da STFT elevado ao quadrado, ∣∣STFT{x(n)}∣∣2. Entretanto,algumas aplicações trabalham com o espectrograma da magnitude, denotado por∣∣STFT{x(n)}∣∣. A Figura 2.3 ilustra as diferentes representações de um sinal deáudio de uma mistura de dois instrumentos percussivos.

12

Page 42: métodos para separação de vozes a partir de misturas pré-gravadas

0 0.5 1 1.5 2 2.5 3 3.5−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Tempo (segundos)

y(t)

(a) Trecho de sinal de mistura de instrumentos per-cussivos com Fs = 44,1 kHz.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5−140

−120

−100

−80

−60

−40

−20

Frequencia (kHz)

|Y(f)|

(b) Lado positivo da magnitude do espectro do sinalem dB. Exibição até 5 kHz para melhor visualiza-ção.

(c) Magnitude do espectrograma do sinal com ja-nela seno com interseção na metade dos pontos [28].Comprimento da janela de 2048 pontos e exibiçãoaté 5 kHz para melhor visualização.

Figura 2.3: Representações de um sinal no tempo, na frequência e no tempo-frequência de mistura com dois instrumentos percussivos.

13

Page 43: métodos para separação de vozes a partir de misturas pré-gravadas

2.2 Ferramentas estatísticas básicas

Métodos estatísticos são poderosos para a modelagem de fontes de áudio devidoà grande variabilidade nos sinais gerados. Mesmo uma fonte única pode ser capazde produzir uma grande variedade de sinais de áudio; com isso, sua modelagemdeterminística é dificultada. O principal conceito na modelagem estatística é ouso de variáveis aleatórias que são caracterizadas por suas funções de densidade deprobabilidade.

2.2.1 Distribuição de probabilidade e funções de densidade

Uma variável aleatória x é um vetor ou um escalar em um espaço A que pode sercontínuo, por exemplo, A = R, ou discreto, por exemplo, A = Z. Ela é chamada dealeatória, já que pode ter diversos valores em A, o que impossibilita uma previsãoacurada de seus valores. Entretanto, a variável aleatória pode ser caracterizada, jáque alguns valores de x são mais prováveis de serem observados que outros. Caso oespaço A seja discreto, a probabilidade de cada valor do espaço ser observado, deno-tada por P (x), caracteriza x. No caso contínuo, define-se uma função de densidadede probabilidade (PDF, do inglês probability density function) p(x) tal que a pro-babilidade de x assumir uma faixa de valores é obtida integrando-se a PDF nessafaixa. Funções de densidade podem ser utilizadas também com variáveis discre-tas admitindo-se impulsos na PDF. Dentre as distribuições de variáveis aleatórias,destacam-se a uniforme, a de Poisson, a binomial e a gaussiana.

Uma PDF importante nos problemas de separação de fontes de sinais de áudioé a gaussiana, também chamada de distribuição normal. No caso de uma variávelaleatória escalar real, a PDF gaussiana é denotada como:

N (x∣µ,σ2) =1

(2πσ2)1/2exp{−

1

2σ2(x − µ)2} , (2.5)

onde µ é a média e σ2 é a variância. A raiz quadrada da variância é denominada dedesvio padrão. Um caso importante é quando a variável aleatória é um vetor x deD dimensões; nesse caso, a distribuição gaussiana da variável é denotada por:

N (x∣µ,Σ) =1

(2π)D/2

1

∣Σ∣1/2exp{−

1

2(x −µ)TΣ−1(x −µ)} , (2.6)

onde µ é o vetor de médias e Σ é uma matriz simétrica de covariância. O vetor demédia possui as mesmas dimensões de x, enquanto Σ é uma matriz quadrada dedimensões D ×D. As definições de µ e Σ são dadas nas Equações (2.12) e (2.13).

14

Page 44: métodos para separação de vozes a partir de misturas pré-gravadas

Duas importantes propriedades das PDFs de variáveis aleatórias são que elas sãosempre positivas e somam uma unidade:

∑x∈A

P (x) = 1 (caso discreto), (2.7)

∫Ap(x) dx = 1 (caso contínuo). (2.8)

2.2.2 Valor esperado, média e covariância

Os possíveis valores da variável aleatória x ponderados pela sua probabilidadeP (x) quando somados formam o valor esperado da variável aleatória x, o valoresperado será denotado por E[x]. Para uma distribuição discreta, o valor esperadoé denotado por:

E[x] = ∑x∈A

P (x)x. (2.9)

E no caso de variáveis contínuas, o valor esperado é calculado a partir da integraldos valores ponderados pela PDF:

E[x] = ∫Ap(x)x dx. (2.10)

Entretanto, se um número finitoN de observações forem feitas sobre uma variávelaleatória x, o valor esperado de variáveis contínuas ou discretas pode ser aproximadopela média finita das observações:

E[x] ≈1

N

N

∑n=1

xn. (2.11)

Para uma PDF p(x), pode-se definir o vetor de média µ e a matriz de covariânciaΣ como:

µ = E[x]

= ∫Ax p(x) dx,

(2.12)

Σ = E[(x −E[x])(x −E[x])T ]

= ∫A

(x −µ)(x −µ)T p(x) dx.(2.13)

A covariância também pode ser aplicada a duas variáveis aleatórias x e y.Quando aplicada a uma variável, ela quantifica quanta variabilidade há na variávelaleatória x entorno da sua média µ. Entretanto, quando aplicada a duas variáveisaleatórias, quantifica o quanto elas variam juntas. A covariância de duas variáveis

15

Page 45: métodos para separação de vozes a partir de misturas pré-gravadas

aleatórias discretas x e y é denotada por:

Σx,y = E[(x −µx)(y −µy)T ]

= E(xyT ) −µxµTy .

(2.14)

Note que se as variáveis forem independentes1, a covariância será igual a zero. Ese um número finito N de observações forem feitas sobre uma variável x, a covari-ância pode ser estimada como:

Σ = E[(x −E[x])(x −E[x])T ]

≈1

N − 1

N

∑n=1

(xn −µ)(xn −µ)T ,

(2.15)

onde é utilizado um estimador não polarizado para a variância ao se considerar N −1

em vez de N [21]. A polarização de um estimador mede a parte determinística doerro, i.e., quanto a estimativa erra na média em relação ao que se quer estimar. Por-tanto, a polarização fornece uma medida de acurácia. Um estimador não polarizadofornece estimativas que, na média, têm desvio zero em relação ao alvo [21].

2.2.3 Distribuições condicionais e marginais

Considerando duas variáveis aleatórias x1 ∈ A1 e x2 ∈ A2, define-se a densidadede probabilidade conjunta p(x1,x2), que caracteriza a probabilidade da observaçãoconjunta de x1 e x2. Com isso, a densidade marginal pode ser recuperada por:

p(x1) = ∫A2

p(x1,x2) dx2, (2.16)

p(x2) = ∫A1

p(x1,x2) dx1. (2.17)

A partir da densidade marginal, pode-se calcular a PDF conjunta como:

p(x1,x2) = p(x1∣x2)p(x2) = p(x2∣x1)p(x1), (2.18)

onde p(x1∣x2) é a densidade de x1 condicionada a x2. Duas variáveis são consi-deradas independentes se e somente se p(x1,x2) = p(x1)p(x2), ou seja, qualquerconhecimento sobre uma variável não traz informação sobre a outra.

1Duas variáveis aleatórias são independentes quando a ocorrência de uma não é influenciadapela ocorrência da outra. Recomenda-se a leitura de [19] e [21] para um maior aprofundamentosobre variáveis aleatórias.

16

Page 46: métodos para separação de vozes a partir de misturas pré-gravadas

2.2.4 Modelos probabilísticos

Variáveis aleatórias são amplamente utilizadas em processamento de sinais de-vido à capacidade de modelos gerados por elas lidarem com incertezas de sinaisreais. Como exemplo, pode-se modelar um trecho de sinal senoidal imerso em ruídode fundo de banda larga como:

x(n) = α sen(2πk0n + φ0) + e(n) para n = 1, ...,N, (2.19)

onde k0 é a frequência da senoide, φ0 é sua fase, α sua amplitude e e(n) é o ruído ale-atório aditivo. Frequentemente, assume-se que e(n) é uma sequência com amostrasestatisticamente independentes e identicamente distribuídas (isto é, é ruído branco).Basta, então, para defini-lo, atribuir uma PDF a qualquer de suas amostras e(n),por exemplo uma gaussiana de média zero e variância σ2.

2.2.5 Funções de verossimilhança

A equação (2.19) define um modelo probabilístico para um sinal, e pode serrelacionada a uma função de verossimilhança. Assumem-se naquele caso comoθ = {α, k0, φ0} o conjunto de parâmetros desconhecidos do modelo e o vetorx = (x(1), ..., x(N))T as observações da variável aleatória. A distribuição conjuntadas observações p(x∣θ) = p(x(1), ..., x(N)∣θ) é condicional ao conjunto de parâme-tros θ. Assumindo o ruído como Gaussiano de média zero, matriz de covariância Σ

diagonal e de dimensões N ×N , a PDF conjunta é denotada por

p(x∣θ) =1

(2π)N/2

1

∣Σ∣1/2exp{−

1

2(x − f(θ))TΣ−1(x − f(θ))} , (2.20)

onde f(θ) é o modelo descrito em (2.19) sem o ruído aditivo em um formato devetor, f(θ) = (α sen(2πk01 + φ0), ..., α sen(2πk0N + φ0))

T .

DAVY cita duas interpretações para a distribuição conjunta p(x∣θ):

1. p(x∣θ) é uma distribuição de x para um dado θ, chamando-se de distribuiçãode x condicional a θ;

2. p(x∣θ) é uma função de θ para um dado x, chamando-se de função de verossi-milhança do conjunto de parâmetros definida sobre todos os valores possíveisde θ.

Nesse trabalho, encara-se p(x∣θ) como a função de verossimilhança que produzuma medida de similaridade entre o modelo com o parâmetro θ e as observaçõesx. Em outras palavras, quanto maior a verossimilhança, mais provável é o conjuntoespecífico θ.

17

Page 47: métodos para separação de vozes a partir de misturas pré-gravadas

2.2.6 Estimativa de máxima verossimilhança

Como já detalhado, a função de verossimilhança pode ser interpretada como umamedida de similaridade entre sinal e modelo dado um conjunto de parâmetros. Nomodelo (2.19), por exemplo, os parâmetros eram desconhecidos. Portanto, pode-seestimar θ a partir da maximização da função de verossimilhança:

θML = arg maxθ∈Aθ

p(x∣θ), (2.21)

onde o subscrito ML denota a estimativa de máxima verossimilhança (do inglêsmaximum likelihood).

O problema de otimização (2.21) é normalmente transformado em problemasequivalentes, como o de maximização da log-verossimilhança ou da minimização dalog-verossimilhança negativa:

θML = arg maxθ∈Aθ

log[p(x∣θ)], (2.22)

θML = arg minθ∈Aθ

− log[p(x∣θ)]. (2.23)

Cada problema equivalente é relacionado a métodos de otimização ou soluçãoespecíficos. Por isso, modelos são construídos com diferentes problemas equivalentes,a depender da abordagem utilizada para otimização.

2.2.7 O algoritmo de maximização de expectativa

O algoritmo de maximização de expectativa (EM, do inglês expectation-maximization) é uma abordagem de otimização para o problema de estimação MLdos parâmetros. O algoritmo possui dois importantes princípios:

1. É um método de otimização baseado em gradiente, ou seja, a solução pormínimo ou máximo global não é garantida. Entretanto, uma inicializaçãoapropriada pode ser encontrada para otimizar o resultado.

2. É um algoritmo para problemas envolvendo variáveis latentes.

Considera-se o caso aplicado de EM a misturas de gaussianas como um impor-tante exemplo para o trabalho.

Modelo de misturas de gaussianas (GMM)

Considere um vetor de N observações x = (x(1), ..., x(N)) de uma variável ale-atória x. O modelo de misturas gaussianas procura modelar uma PDF composta

18

Page 48: métodos para separação de vozes a partir de misturas pré-gravadas

por uma mistura de J gaussianas para a variável aleatória. Busca-se estimar osparâmetros das gaussianas, para que cada observação seja originada por uma fonte.A distribuição da mistura é:

p(x(n)∣{πj, µj, σ2j}j∈[1,J]) =

J

∑j=1

πj N (x(n)∣µj, σ2j ), (2.24)

onde a soma dos coeficientes da mistura πj para j ∈ [1, J] é igual a um, ∑Jj=1 πj = 1.O conjunto de parâmetros θ = (θ1, ..., θJ) = ({π1, µ1, σ2

1}, ...,{πJ , µJ , σ2J}) é definido

para todas as gaussianas da mistura. E a função de verossimilhança da mistura paraobservações x é denotada como:

p(x∣θ) =N

∏n=1

[J

∑j=1

πjN (x(n)∣µj, σ2j )] , (2.25)

já que as observações são tomadas como independentes.

Os parâmetros das gaussianas presentes na mistura precisam ser estimados, eisso pode ser feito pelo algoritmo EM para uma estimação de máxima verossimi-lhança.

Associa-se uma variável escondida ou latente zn para n ∈ [1,N] a cada observaçãox(n), de forma que o valor da variável é zn ∈ [1, J] e é interpretado como a fontegaussiana j relacionada à observação x(n). Em outras palavras, ela relaciona a fonteN (x(n)∣µj, σ2

j ) à observação de x(n); e se zn é conhecido, a distribuição de x(n) édenotada como:

p(x(n)∣zn = j, θj) = N (x(n)∣µj, σ2j ), (2.26)

onde a probabilidade da variável latente é definida por p(zn = j) = πj.

Princípio do algoritmo EM

O algoritmo EM é apresentado no Algoritmo 1. O modelo envolve a misturaobservada x e a variável latente z = (z1, ..., zn).

19

Page 49: métodos para separação de vozes a partir de misturas pré-gravadas

Algoritmo 1 Algoritmo EM genérico com Qx como a função objetivoEntrada: Observação x e máximo de iterações SSaída: Conjunto de parâmetros θ

1: Inicialize θ0 ∈ Aθ2: s← 1

3: repita4: Passo E: Qx(θ∣θs)← Ep(z∣x,θs)[log p(x,z∣θ)]

5: Passo M: θs+1 ← arg maxθ∈Aθ

Qx(θ∣θs)

6: s← s + 1;

7: até convergência ou s ≥ S

Estimativa de máxima verossimilhança do GMM

Para o caso de misturas gaussianas, calcula-se analiticamente:

log p(x,z∣θ) =N

∑n=1

log p(x(n)∣zn,θ) + log p(zn∣θ), (2.27)

Qx(θ∣θs) =

J

∑j=1

N

∑n=1

log [πj p(x(n)∣zn = j, θj)]p(zn = j∣x(n), θsj), (2.28)

onde p(zn = j∣x(n)θsj) é calculado utilizando-se a regra de Bayes. Dessas expressões,regras de atualização para os parâmetros são geradas analiticamente de forma que ovalor esperado condicional seja maximizado e uma nova estimativa dos parâmetrosθ permita que o modelo fique mais próximo de x. DAVY [19] calcula as atualizaçõesdos parâmetros como:

πs+1j =1

NSj,θs , (2.29)

µs+1j = S−1j,θsN

∑n=1

x(n)p(zn = j∣x(n), θsj), (2.30)

(σ2)s+1j = S−1j,θsN

∑n=1

[x(n) − µ(s+1)j ]2 p(zn = j∣x(n), θ

sj), (2.31)

onde Sj,θs = ∑Nn=1 p(zn = j∣x(n), θsj) pode ser interpretado como a probabilidade dea observação x(n) ser da gaussiana j.

20

Page 50: métodos para separação de vozes a partir de misturas pré-gravadas
Page 51: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 3

Separação de fontes sonoras

A meta da separação de fontes é estimar sinais, originados por fontes, quepassaram por um sistema de mistura e se propagaram até um ou mais sensores. Aestimativa é feita baseando-se nas misturas capturadas pelos sensores e, em algunscasos, algum pré-conhecimento sobre o sistema de mistura e propagação.

Dependendo do contexto e da aplicação em vista, diferentes abordagens podemser adotadas com vistas ao melhor desempenho possível dadas as limitaçõesimpostas.

Algoritmos como ICA (do inglês independent component analysis) [3, 29] são uti-lizados na separação de sinais acústicos em que se dispõe de um número de canais demistura igual ou superior ao número de fontes. Já algoritmos como NMF (do inglêsnon-negative matrix factorization) [30] podem ser utilizados na separação de si-nais acústicos quando o número de canais é restrito, podendo se tratar de apenas um.

Em alguns casos, pode-se utilizar uma combinação de diferentes abordagenspara chegar a uma solução melhor para um determinado problema, como no casoda NMF multicanal, que pode ser vista em [26].

Em relação ao uso de pré-conhecimento, os métodos desenvolvidos na separaçãode fontes podem ser divididos em dois grupos:

(1) Separação supervisionada de fontes: Denota a separação de fontes quandoinformação prévia sobre o problema/a mistura está disponível. As abordagensutilizam treinamento para conseguir separar as fontes efetivamente.

(2) Separação cega de fontes: Refere-se a problemas de separação das fontes deuma mistura sem a ajuda de (ou com muito pouca) informação prévia sobre

22

Page 52: métodos para separação de vozes a partir de misturas pré-gravadas

os sinais na mistura ou sobre o processo de mistura. São problemas subdeter-minados e exigem que premissas mínimas sejam assumidas para que a soluçãoseja possível (por exemplo, que as fontes não são redundantes).

O trabalho desenvolvido se concentrou em técnicas de separação cega (BSS, doinglês blind source separation), e duas categorias foram estudadas: (A) abordagenspara o problema envolvendo sinais de instrumentos de música; e (B) abordagenspara o problema envolvendo sinais de voz.

A literatura para o problema de separação de instrumentos musicais, categoria(A), utiliza amplamente abordagens determinísticas para a solução do problemaem duas etapas: a primeira faz a decomposição da mistura em componentes e asegunda busca o agrupamento destas componentes em fontes estimadas. Dentre astécnicas de decomposição mais utilizadas, destaca-se a abordagem da NMF comsuas múltiplas variantes [17, 23, 30], dentre elas a alternativa de elevar para maisque um o número de canais observados na mistura [26].

Enquanto isso, as abordagens para os problemas de separação de voz, categoria(B), utilizam métodos mais complexos, tipicamente envolvendo modelagem estatís-tica das fontes e do processo de mistura, interpretadores de fala e aprendizagem demáquina [31–33].

As Seções 3.1 e 3.2 irão completar a definição do problema de separação de sinaisao definirem o sistema de mistura e o modelo do sinal originário a ser estimado.A Seção 3.3 irá introduzir as abordagens comuns da literatura para o problema.As Seções 3.4 e 3.5 procurarão contrastar as abordagens de decomposição e demodelagem de fontes utilizadas para sinais de música e de voz.

3.1 Sistema de mistura

Quando diversas fontes são ativadas simultaneamente, o sinal sonoro xi(n) cap-turado por um sensor i pode ser aproximado, na forma mais simples encontrada naliteratura, por uma superposição dos sinais sonoros de cada fonte sk(n):

xi(n) =K

∑k=1

ai,k(n)sk(n) + ei(n), (3.1)

onde sk(n) é o sinal atribuído à fonte k no tempo amostrado n, K é o número defontes, ak(n) modela na forma de um escalar a resposta do ambiente acústico aosinal da fonte k no tempo n e ei(n) é o ruído aditivo presente na mistura i. A

23

Page 53: métodos para separação de vozes a partir de misturas pré-gravadas

Figura 3.1 ilustra o caso de duas fontes com ruído gerando duas misturas.

Figura 3.1: Ilustração em notação vetorial de sistema básico de mistura aditiva dedois canais com ruído.

Existem diversas complicações com a premissa de superposição de fontesequacionada em (3.1). O sistema de mistura deve ser compreendido como mostradona Figura 3.2, onde um sistema G(s1(n), ..., sK(n)) leva os diversos sinais sonorosoriginários sk(n) em uma mistura x(n). Este sistema pode ser modelado como umsistema linear ou não-linear e instantâneo ou convolutivo.

Figura 3.2: Descrição em blocos de sistema básico de mistura em um canal.

Dentre as complicações que podem estar presentes num sistema de misturareal, destacam-se: atrasos diferentes impostos a cada parte da mistura; sistema demistura variante no tempo; e reverberação devido a características do ambiente emque o processo ocorreu.

Abordagens encontradas na literatura escolhem diferentes modelos de misturacomo premissa, o que naturalmente impacta o desempenho da solução. Os doisobjetivos listados a seguir devem ser balanceados.

24

Page 54: métodos para separação de vozes a partir de misturas pré-gravadas

Modelar o sistema de mistura com acurácia e precisão. Quando possuímosconhecimento detalhado sobre o processo de geração da mistura, pode-se cons-truir um estimador especializado ao problema e utilizar, por exemplo, a ma-ximização de uma função de verossimilhança para solucioná-lo.

Possibilitar uma estimação com eficiência. Outra questão a ser consideradana escolha da modelagem do processo de mistura é a complexidade da in-ferência. Abordagens podem utilizar modelagens estatísticas do processo demistura e interpretadores de fala como em [31]. Entretanto, talvez o problematratado possa ser suficientemente resolvido de forma mais simples, desde quese satisfaçam alguns critérios.

3.1.1 Restrições ou premissas do modelo de mistura

Destacam-se algumas premissas ou restrições envolvidas na determinação dassoluções: (1) a presença significativa de efeitos convolutivos na mistura, (2) aquantidade de canais observados na mistura e (3) o sistema que caracteriza amistura ser estacionário ou não.

Este trabalho irá abordar o problema de separação de fontes trabalhando commisturas multicanais. Os métodos desenvolvidos foram avaliados como suficientespara problemas envolvendo misturas instantâneas e convolutivas com processosestacionários. Entretanto, a aplicação destes a processos de mistura variantes notempo será avaliada no último experimento.

Misturas instantâneas ou convolutivas

Para um dado canal i, a mistura instantânea pode ser modelada como umsistema que soma todas as fontes com um ganho ak,i(n) e um ruído aditivo:

xi(n) =K

∑k=1

ak,i(n)sk(n) + ei(n), (3.2)

onde a variável ei(n) é o ruído presente na mistura e ak,i(n) é um ga-nho/atenuação sofrido(a) pelo sinal da fonte k no canal i devido ao ambientesonoro ou alguma manipulação eletrônica. A variável n é utilizada como otempo amostrado.

Entretanto, uma modelagem mais realística do processo de mistura considera-ria os efeitos de atrasos de propagação e reverberação do ambiente em que a

25

Page 55: métodos para separação de vozes a partir de misturas pré-gravadas

mistura ocorre. Uma modelagem convolutiva para o processo de mistura podeser construída para considerar essas características:

xi(n) =K

∑k=1

L

∑τ=0

αk,i(τ)sk(n − τ) + ei(n), (3.3)

onde αk,i(τ) é a resposta ao impulso de um filtro causal que representa osefeitos do ambiente acústico (mais alguma eventual manipulação eletrônica)e L é o comprimento do filtro.

Quando aplicado a uma mistura convolutiva, um sistema da separação desen-volvido para misturas instantâneas irá produzir estimativas com baixa quali-dade de separação.

Misturas multicanais ou de único canal

Múltiplas observações da mistura podem acrescentar informações ao problemasubdeterminado possibilitando sua solução ou, na maioria dos casos, melho-rando significativamente a qualidade das estimativas. Gravações comerciaisem estéreo são um exemplo de mistura que disponibiliza múltiplos canais comas mesmas fontes.

Como visto na Figura 3.1, as mesmas fontes podem ser combinadas dediferentes maneiras. A abordagem para separação da mistura pode uti-lizar as múltiplas observações para melhor estimar as fontes origináriass1(n), ..., sK(n), assim aproveitando a redundância entre os canais.

Misturas estacionárias ou variantes no tempo

Por fim, o processo de mistura pode variar com o tempo ou não. Por exemplo,uma observação pode ser realizada de um ponto de uma sala em que duasfontes se locomovem espacialmente em relação ao sensor. Com isso, a misturavista por este irá variar com o tempo.

Uma simples modificação na formulação mostrada na Equação (3.3) substi-tuindo os coeficientes por αk,i(τ, n) já permite que a resposta do filtro causalvarie no tempo. Mas, por simplicidade, o modelo de mistura é normalmenteassumido como estacionário.

26

Page 56: métodos para separação de vozes a partir de misturas pré-gravadas

3.2 Modelo dos sinais

Algum conhecimento prévio das fontes também pode ser utilizado para possibi-litar a solução de um problema subdeterminado ou para potencializar a eficiênciaou a eficácia da estimativa.

Assim como o modelo da mistura, os modelos dos sinais ou das fontes adotadoscomo premissa numa abordagem devem-se adequar ao problema para permitir asolução buscada. Novamente, há um compromisso entre a complexidade, a acuráciae a precisão do método.

Destacam-se três ferramentas, descritas a seguir, que podem ser utilizadas paramelhorar o modelo a partir do conhecimento prévio das fontes.

(1) Construção do modelo. O modelo das fontes pode ser escolhido com basena informação disponível sobre elas. Por exemplo, se o sinal das fontes éoriginado de um sistema físico conhecido, o modelo de inferência dos sinaispode considerar esse sistema para estimar os sinais. A física do sistema pode,por exemplo, restringir o sinal criado em seu espectro, podendo facilitar aestimativa.

(2) Treinamento do modelo. Parâmetros dos modelos das fontes podem ser es-timados a partir de treinamento quando uma sequência de treinamento estádisponível. A modelagem a priori da fonte é mais flexível e dependente deparâmetros do que na primeira ferramenta. Existem três principais desafiosao utilizar essa ferramenta no modelo: (a) disponibilidade de dados para trei-namento, (b) condições de treinamento diferentes das presentes na mistura e(c) possível ocorrência de interseções/sobreposições nas informações préviasentre as fontes, gerando problemas de seletividade na estimação do modelo.

(3) Adaptação do modelo à mistura. Durante a observação da mistura, é pos-sível ainda adaptar o modelo. Esta ferramenta pode ser utilizada para superaralguns desafios do treinamento, por exemplo. Ela não gera um modelo a prioridas fontes, mas gera um modelo adaptativo a partir das misturas observadas.O conhecimento a priori permite a construção desse modelo adaptativo.

Neste trabalho, utilizaremos informação a priori para melhor construir omodelo, como no caso (1). Entretanto, não faremos uso de treinamento e nem demodelo adaptativo, como nos casos (2) e (3), respectivamente.

A representação mais comum para sinais de áudio na literatura é baseada emprocessamento de observações curtas. A observação da mistura é dividida em

27

Page 57: métodos para separação de vozes a partir de misturas pré-gravadas

pequenas janelas (quadros), sendo que em algumas abordagens elas podem possuirsobreposição. No SiSEC (do inglês Signal Separation Evaluation Campaign) [28]as tarefas de separação utilizam janelas senoidais com interseção de metade dasamostras da janela. Janelas de 20 e 100 ms são típicas em sistemas que procuramabordar problemas de separação de sinais musicais. O processamento pode serrealizado no domínio do tempo ou da frequência, por exemplo calculando-se a DFTde cada janela do sinal. O Capítulo 2 apresenta os fundamentos relacionados àrepresentação na frequência do sinal observado na Seção 2.1.

A frequência de amostragem dos sinais a processar varia. Em [28], é de 16 kHz;entretanto, encontram-se valores como 22,05 kHz e 44,1 kHz. Isso vai dependerdos sinais disponibilizados. A tarefa de separação de fontes em diferentes taxas deamostragem requer que haja um ajuste no tamanho da janela utilizada na STFT.Aplicações da literatura encontram melhores resultados com janelas de 20-100 ms;além disso, o número de amostras costuma ser escolhido como potência de 2 parapermitir a utilização de algoritmos rápidos, como a FFT (do inglês fast Fouriertransform).

As abordagens adotadas pelos métodos para estimar as fontes separadas serãomelhor detalhadas na Seção 3.3; os experimentos irão detalhar as características dodataset utilizado, como frequência de amostragem e os parâmetros utilizados paraa STFT.

3.3 Abordagens para a solução do problema de se-

paração

Como já visto, o problema de separação de fontes para uma única mistura i podeser definido como o processo de estimação de K sinais originais, s1(n), ..., sK(n), apartir de somente um sinal de mistura observado, xi(n). Portanto, o sistema demistura pode ser geralmente descrito através de um sistema como:

xi(n) = gi(s1(n), ..., sK(n)), (3.4)

onde gi descreve o processo de mistura i, que pode ser não linear, estocástico ou atévariante no tempo ao se acrescentar a variável n à modelagem do sistema de mistura.

É comum na literatura que o sistema de mistura seja descrito como a soma detodos os sinais das fontes e um ruído aditivo, como visto na Equação (3.2). Com isso,as variáveis podem ser transformadas para uma notação vetorial para modelar um

28

Page 58: métodos para separação de vozes a partir de misturas pré-gravadas

sistema passível de solução ou estimativa computacional. Vetorialmente, o problemade separação cega consiste em estimar as fontes agrupadas na matriz S e possivel-mente os pesos do processo de mistura ai a partir da observação de xi ∈ R1×N , comoformulado por:

xi = aTi S, (3.5)

onde o vetor a ∈ RK×1 representa os pesos da mistura e S ∈ RK×N os sinais originaisemitidos pelas fontes. Essa formulação é feita com a representação no tempo dossinais. I representa o número de observações ou de canais na mistura, K o númerode fontes presentes na mistura e N o número de amostras dos sinais. O vetor ai éa representação do sistema gi(s1(n), ..., sK(n)) previamente descrito quando estepode ser representado por uma superposição de fontes no tempo.

Ele se torna subdeterminado quando o número de observações da mistura émenor do que o número de fontes a serem estimadas (I < K). Para esses casos,a solução depende de informações adicionais previamente conhecidas ou tomadascomo premissas sobre as fontes ou sobre o sistema.

Diversas abordagens para o problema podem ser encontradas na literatura;dentre elas, destacam-se três grandes categorias: filtragem, decomposição e agrupa-mento, e modelagem de fontes.

Nas abordagens por filtragem, um conjunto de filtros ou funções são utilizadospara transformar o sinal observado de mistura numa estimativa das fontes.Por exemplo, com conhecimento prévio sobre as características espectrais deuma das fontes, ela pode ser extraída da mistura através de filtros lineares quesão otimizados para maximizar a SNR (do inglês signal-to-noise ratio). Asabordagens mais comuns utilizam treinamento para projetar o filtro.

Nas abordagens por decomposição e agrupamento, o sinal da mistura é de-composto em um conjunto de componentes através de otimização de umafunção custo. Em seguida, as componentes são adequadamente agrupadaspara formar as estimativas dos sinais das fontes. Dentre as abordagens dedecomposição da mistura em componentes, destacam-se os métodos de fato-ração de matrizes, como NMF (do inglês non-negative matrix factorization)[17, 23, 26, 30], e os métodos de análise de componentes singulares ou inde-pendentes, como ICA (do inglês independent component analysis) [34, 35] ouSVD (do inglês singular value decomposition). Para o agrupamento das com-ponentes nas estimativas, destacam-se abordagens como agrupamento manual

29

Page 59: métodos para separação de vozes a partir de misturas pré-gravadas

a partir de conhecimento prévio [10], agrupamento por métrica de similari-dade entre componentes e clustering [36] e agrupamento por aprendizagem demáquina [37–39]

Nas abordagens por modelagem de fontes, modelos estatísticos das fontes edo processo de mistura são formulados. Os parâmetros são normalmente es-timados a partir de um processo de treinamento, e inferência estatística domodelo combinado das fontes com o processo de mistura é utilizada para esti-mar as fontes. Na literatura, destacam-se a abordagem por HMM (do inglêshidden Markov model) [31–33] e os métodos de maximização de expectativaem misturas gaussianas (EM, do inglês expectation-maximization) [26].

O foco desse trabalho é utilizar para a separação decomposição e agrupamento,em específico a NMF combinada com algum método para agrupamento de compo-nentes. Para a decomposição por NMF, buscamos implementar uma extensão docaso de única mistura para um cenário multicanal. Uma implementação pode servista em [26].

As Seções 3.4 e 3.5 irão procurar identificar modelos comuns na literatura paraas abordagens por decomposição e agrupamento e modelagem estatística de fontes,respectivamente, que melhor se aplicam ao problema alvo deste projeto.

3.4 Modelos de fatoração de matrizes para a abor-

dagem de decomposição e agrupamento

Diferentes métodos para o problema de separação de fontes por decomposição dematrizes foram propostos na literatura. Eles diferem ao utilizar diferentes técnicasde fatoração de matrizes para estimar os vetores das fontes originais, ao operar emdiferentes bases e por utilizar diferentes métodos de inferência. Entretanto, paraos métodos serem capazes de realizar a separação, eles fazem suposições sobre asfontes presentes na mistura. Dentre estas, destacam-se: independência, esparsidadee não-negatividade.

A independência estatística dos sinais das fontes é uma premissa do método deAnálise de Componentes Independentes (ICA). Ele está descrito em [34, 35, 40] euma aplicação dele no problema de separação cega de fontes em áudio foi descritapor HYVÄRINEN e OJA, JANG et al. em [3, 41, 42].

Além da premissa de independência estatística entre as fontes, o método possuiduas principais restrições: que haja um número de observações da mistura igual a

30

Page 60: métodos para separação de vozes a partir de misturas pré-gravadas

ou maior que o número de fontes (I ≥K) e que as fontes não sejam gaussianas. Deacordo com o Teorema do Limite Central, uma soma de variáveis aleatórias inde-pendentes tende a ter uma distribuição tão mais próxima de uma gaussiana quantomaior for o número de variáveis [19]. Portanto, uma medida de não-gaussianidadepode ser utilizada pela ICA como parâmetro para a separação. Ao final, o métodoterá de estimar as fontes a partir da mistura observada, distanciando a distribuiçãodas estimativas de uma gaussiana.

O ICA estima uma matriz A−1 para que o produto da inversa estimada com amistura observadaA−1X seja o mais próximo possível das fontes originárias a menosdas ambiguidades de permutação e escalamento. A mistura sendo referenciada nocaso foi equacionada em (3.5).

Entretanto, em diversos casos, o problema de separação de fontes é subdeter-minado, ou seja, I < K. Nesses casos, outras suposições sobre as fontes precisamser feitas para viabilizar a solução. Uma segunda característica a ser explorada éa esparsidade no tempo ou na frequência. Os métodos da literatura que exploramessa característica são classificados como codificação esparsa (do inglês SparseCoding) [43]. O critério da esparsidade é, em muitos casos, combinado com outrospara potencializar a separação.

A terceira suposição presente na literatura que pode ser tomada sobre afonte é a não-negatividade. Em diversas aplicações, os dados de mistura e dasfontes são não-negativos por definição, como por exemplo, espectrograma demagnitude, intensidade de píxeis ou contagem de ocorrências. Nesses casos, não háinterferência destrutiva entre os sinais da mistura; portanto, a informação não é per-dida e existe, teoricamente, a possibilidade de separar as fontes presentes na mistura.

Nesse contexto de problema, diversos autores sugerem o uso da Fatoração deMatrizes Não-Negativas (NMF, Non-negative Matrix Factorization) [17, 23, 26, 30]e suas extensões.

Na abordagem de fatoração de matrizes, inclusive na NMF, as fontes são mode-ladas por uma combinação linear de um conjunto de bases ou vetores de padrões aolongo do tempo n:

sk(n) ≈ ∑m∈mk

wmhm(n), (3.6)

onde k ∈ [1,K] é o identificador da fonte e m ∈ [1,M] é o identificador do padrão,

31

Page 61: métodos para separação de vozes a partir de misturas pré-gravadas

sendo que cada fonte k possui os seus padrões agrupados pelo vetor identificadormk. O vetor de padrões w captura as características das fontes e pode ser obtidoatravés de treinamento prévio.

O modelo para as fontes pode ser transformado para a sua forma compacta ouvetorial como uma multiplicação de matrizes, Sk ≈ WkHk, onde Sk é matriz desinal observado da fonte k,Wk = (wk,1, ...,wk,M) é a matriz de vetores de padrões eH = (hk,1, ...,hk,M)T é a matriz de coeficientes que podem ser interpretados comoativações dos padrões.

O Capítulo 4 irá apresentar o método NMF como método de base preferencialde decomposição e agrupamento para o problema de separação de fontes em áudio.

3.5 Modelos para a abordagem de modelagem esta-

tística de fontes

Ao se realizar uma interpretação estatística dos modelos do processo de misturae das fontes de sinais, podemos abordar o problema da separação com técnicas deinferência estatística. O modelo da mistura, especificado pela função de verossimi-lhança p(x ∣ s1, ..., sK), e o modelo das fontes, especificado pelas distribuições dasfontes p(sk), podem ser combinados para gerar o modelo conjunto da mistura ob-servada. Segundo o teorema de Bayes, podemos determinar a densidade inversa deocorrência das fontes com base na observação de x:

p(s1, ..., sK ∣ x) =p(x ∣ s1, ..., sK)∏

Kk=1 p(sk)

p(x), (3.7)

onde podemos ignorar p(x), já que é uma observação e considerar a expressão umaigualdade a menos de um fator fixo [27].

Inferência no modelo conjunto corresponde a estimar as fontes s1, ..., sK

baseando-se na probabilidade posterior da Equação (3.7). A distribuição margi-nal da fonte k é encontrada pela integração de p(x ∣ s1, ..., sK) pelas K − 1 outrasfontes que não são de interesse, ou seja,

p(sk ∣ x) = ∫ ...∫ p(s1, ..., sK ∣ x)ds1...dsk−1dsk+1...dsK . (3.8)

Diversos estimadores podem ser utilizados para calcular uma estimativa da fontesk, que possuem propriedades diferentes e geram algoritmos de inferência distintos.Uma abordagem comum na literatura seria utilizar um estimador por erro mínimo

32

Page 62: métodos para separação de vozes a partir de misturas pré-gravadas

quadrático (MMSE, do inglês minimum mean square error):

sMMSEk = ∫ skp(sk ∣ x)dsk, (3.9)

onde a densidade formulada na Equação (3.8) é integrada para estimar sMMSEk .

A integral mostrada na equação (3.9) não é numericamente calculável em muitoscasos. Portanto, transforma-se o problema numa otimização onde a modelagemestatística de fontes procura determinar uma estimativa para uma fonte sk atravésda maximização de uma função de verossimilhança. Muitas vezes trabalha-secom o logaritmo da função de verossimilhança por ser mais fácil de se abordarnumericamente, preservando máximos e mínimos. Em contraste com as técni-cas de decomposição e agrupamento previamente abordadas, o tratamento aquinão é determinístico, já que uma inferência estatística é realizada para determinar sk.

Uma outra abordagem seria calcular a melhor estimativa combinada para asfontes pelo critério MAP (do inglês maximum a posteriori):

(s1, ..., sk)MAP = arg max

(s1,...,sK)

p(s1, ..., sK ∣ x), (3.10)

onde se procura maximizar a distribuição p(s1, ..., sK ∣ x) através das fontes. Essemétodo calcula uma estimativa evitando o cálculo da integral do MMSE. Para oscasos em que a distribuição de p(s1, ..., sK ∣ x) é concentrada em torno do máximo,o método MAP gera resultados satisfatórios. Entretanto, o método não atingeresultados satisfatórios quando a densidade é mais plana e menos concentrada noentorno do máximo [27].

Entre os dois extremos de MMSE e MAP existem outros estimadores, como omáximo marginal a posteriori (MMAP, do inglês marginal maximum a posteriori):

sMMAPk = arg max

sk

p(sk ∣ x), (3.11)

onde as fontes 1, ..., k − 1, k + 1, ...,K são integradas como mostrado na Equação(3.8) e o MAP marginal é estimado para a fonte de interesse.

Muitos diferentes modelos de modelagem estatística de fontes são propostosna literatura. Dentre os mais comuns, destacam-se alguns nas próximas seções:quantização fatorial de vetores (do inglês factorial vector quantization), modelosde misturas gaussianas (do inglês Gaussian mixture models) e modelos de Markovescondidos (HMM, do inglês hidden Markov models).

33

Page 63: métodos para separação de vozes a partir de misturas pré-gravadas

Enquanto a quantização fatorial de vetores formula um método para soluçãode modelagem estatística, o modelo de mistura gaussiana apresenta um modelo defontes que pode ser utilizado no método de quantização de vetores ou em outrosmétodos. O HMM é uma extensão do método de separação de quantização devetores que modela a progressão das fontes no tempo através da dependência deuma estimativa de um quadro com a estimativa do quadro passado.

3.5.1 Quantização fatorial de vetores

Na quantização fatorial de vetores (VQ, do inglês factorial vector quantization)a mistura observada é representada pela matriz X. O método requer uma base detreinamento para cada fonte presente na mistura. A primeira etapa do método é otreinamento de um codebook Sk para cada fonte, o qual é composto por um conjuntode M vetores:

Sk = (ck,1, ...,ck,M), (3.12)

onde ck,m é o m-ésimo vetor para a matriz de codebook da fonte k.

O codebook é determinado pelo treinamento através de k-means ou outra técnicade clusterização. A partir do treinamento, a inferência das estimativas das fontesé feita através do cálculo da combinação de codebooks mais prováveis na janela deobservação da mistura. A estimativa da máxima verossimilhança, por exemplo, podeser calculada como:

(z1, ...,zK) = arg max(z1,...,zK)

p(X ∣ S1, ...,SK), (3.13)

onde p(⋅) é a função de verossimilhança e (z1, ...,zK) é a matriz Z de índice deativação dos codebooks de cada fonte k, na qual zk é o vetor de ativação de umafonte para o seu conjunto de N vetores.

A estimativa sV Qk de uma fonte k será feita pela multiplicação de seu codebookpelo seu vetor de ativação:

sV Qk = SKzk, (3.14)

onde a estimativa é feita para uma janela ou um quadro.

Embora o modelo da mistura tenha sido descrito, o modelo da fonte aindaprecisa ser determinado para se gerar a função de verossimilhança p(⋅) e, com isso,

34

Page 64: métodos para separação de vozes a partir de misturas pré-gravadas

possibilitar a inferência dos índices de ativação dos codebooks. O modelo de fonteque se destaca na literatura para modelagem estatística de fontes faz parte domodelo de misturas gaussianas (GMM, do inglês Gaussian mixture models). Estemodelo é aplicado em diversos métodos na literatura além do VQ, incluindo HMMe até extensões estatísticas da NMF, e será apresentado na Seção 3.5.2.

ROWEIS [44] apresenta um método baseado na quantização fatorial de vetorespara separar fontes de áudio em uma representação logarítmica da magnitudeespectral.

3.5.2 Modelos de misturas gaussianas

GMM é um modelo de fonte muito utilizado pela literatura de separação defontes por abordagens estatísticas. Nele, cada fonte é modelada como uma misturade M distribuições gaussianas:

p(s) =M

∑m=1

πmN (s ∣ µm,Σm), (3.15)

onde N (s ∣ µm,Σm) é a distribuição gaussiana multivariável de média µm e matrizde covariância Σm. Cada distribuição gaussiana é interpretada como componenteou padrão na mistura.O valor πm ∈ [0,1] é um coeficiente da mistura.

Para um vetor x de D dimensões, a distribuição gaussiana multivariável é defi-nida por:

N (x∣µ,Σ) =1

(2π)D/2

1

∣Σ∣1/2exp{−

1

2(x −µ)TΣ−1(x −µ)} , (3.16)

onde µ é um vetor de D dimensões de média, Σ é a matriz D ×D de covariância e∣∣Σ∣∣ denota seu determinante.

BEIERHOLM et al. [45] apresentam uma abordagem para o problema de sepa-ração com modelagem estatística, VQ e modelagem das fontes como gaussianas. Aobservação da mistura é particionada em quadros. Os parâmetros da GMM paracada fonte são treinados previamente e o método é aplicado numa mistura de doissinais.

REDDY e RAJ [46] utilizam uma abordagem através do logaritmo da magnitudedo espectro da observação e modelam cada fonte como uma GMM multivariável.

35

Page 65: métodos para separação de vozes a partir de misturas pré-gravadas

O modelo GMM é exaustivamente explorado por BISHOP et al. [21], ondeé apresentada a formação da função de verossimilhança p(⋅) quando modelamosuma mistura gaussiana. Uma primeira leitura desse material é recomendada paraleitores que buscam se aprofundar em GMM.

3.5.3 Modelos de Markov escondidos

As abordagens por modelagem estatística discutida nas seções anterioresconcentravam-se em estimar as fontes para cada quadro, realizando estimativasindependentes em cada trecho. A abordagem por modelos de Markov [21] estendeos métodos anteriores por considerar as dependências entre quadros consecutivos.

Até o momento, as abordagens modelavam a mistura e as fontes e procuramobter as estimativas para cada seção da observação. As observações eram tomadascomo independentes, como mostrado graficamente na Figura 3.3.

Figura 3.3: Representação gráfica de observações independentes sem ilustrar modelode mistura e de fonte.

Entretanto, para a maioria das observações, existe uma dependência entre asseções da observação. O modelo de Markov propõe explorar essa dependência paramelhor estimar as fontes presentes na mistura. A Figura 3.4 ilustra o que o modeloprocura fazer.

Figura 3.4: Representação gráfica de observações dependentes em primeira ordemde cadeia de Markov.

Em uma aplicação como numa mistura de fontes, por exemplo, é comum relaci-onar a observação de x com fontes. Essas fontes não são visualizadas independente-mente, portanto, são modeladas por estados escondidos (às vezes quase gramaticais,ver Figura 3.5). O modelo com uso de variáveis escondidas é chamado de modelo deMarkov escondido. Entretanto, para uma mistura, existem múltiplas fontes, o querequer múltiplas variáveis escondidas. A combinação dessas variáveis escondidas na

36

Page 66: métodos para separação de vozes a partir de misturas pré-gravadas

mistura é feita pelo modelo de Markov escondido fatorial (FHMM, do inglês facto-rial hidden Markov model) [47].

O método modela as fontes por estados, gerando uma probabilidade detransição p(zk,o ∣ zk,o−1) e uma probabilidade de emissão da fonte para a misturap(x ∣ z1, ..., zK) que depende dos estados. Uma ilustração para o modelo FHMMpode ser visualizada na Figura 3.5.

Figura 3.5: Ilustração do modelo FHMM de duas fontes.

Na Figura 3.5, xm é o vetor de observação da mistura, g é o modelo deobservação, sHMM

k,o é a estimativa da fonte k no quadro o e zk,o é o estado da fontek no quadro o. Cada quadro o é uma seção de 20-100 ms do sinal observado, sendon o instante amostrado. Um quadro possui Nframe amostras determinadas peloperíodo de amostragem e pelo período do quadro.

ROWEIS [48] discute o uso de HMM fatorial com o modelo de observação GMM.No método detalhado por ele, o modelo é treinado previamente para cada fontek e, durante a inferência, os sinais das fontes são estimados a partir da sequênciamais provável de estados segundo a observação. HERSHEY et al., RENNIE et al.[31, 49] atingem resultados de separação superiores aos de um humano na tarefa deseparação de discursos simultâneos; os autores discutem extensões que controlem acomplexidade do algoritmo como belief propagation [31].

37

Page 67: métodos para separação de vozes a partir de misturas pré-gravadas

Recomenda-se uma primeira leitura de BISHOP et al. [21] aos leitores que pro-curam se aprofundar nas abordagens de modelagem estatística de fontes com HMM.

3.6 Conclusão do Capítulo

O problema de separação de sinais de voz é abordado pela literatura com mé-todos envolvendo modelagem estatística; dentre as aplicações destacam-se [31, 33].Enquanto isso, o problema com sinais musicais é normalmente abordado com méto-dos de decomposição e agrupamento, e as seguintes aplicações se destacam: [9, 30].A revisão da literatura permitiu a tomada de conclusão prévia sobre as vantagens edesvantagens do uso dos métodos na separação de sinais de voz e de outras fontesacústicas.

Decomposição e agrupamento

A abordagem de decomposição e agrupamento, em contraste com a modelagemestatística, busca métodos determinísticos para a separação. Essa abordagempossui como vantagem a velocidade de cálculo, devido à menor complexidadedo modelo. Entretanto, esses métodos são considerados mais fracos para aseparação de discursos simultâneos por não modelar a dinâmica temporal e oconteúdo de um sinal de voz. Portanto, o sinal estimado pode não ser um sinalde voz inteligível.

Modelagem estatística de fontes

A abordagem reúne modelos que procuram explorar a dependência temporaldos sinais e até a estrutura gramatical presente nos sinais de voz. Portanto,produz métodos de complexidade computacional muito elevada quando com-parados aos da outra abordagem. Mas, segundo a literatura, eles possuem ummaior potencial de separar sinais de voz simultâneos. Trabalhos recentes pro-curam reduzir a complexidade computacional da solução para misturas commuitas fontes.

Embora o maior potencial na separação de voz seja com as abordagens de mo-delagem estatística, não são claros os limites que uma abordagem de decomposiçãotem quando aplicada a esses problemas, e nem se é possível atingir uma separaçãosuficiente com uma extensão dos modelos.

O GPA (Grupo de Processamento de Áudio) da UFRJ possui diversos trabalhosem separação de fontes gerais de áudio envolvendo abordagens de decomposição

38

Page 68: métodos para separação de vozes a partir de misturas pré-gravadas

e agrupamento [16–18]. Este trabalho procura avaliar o desempenho dessas abor-dagens quando aplicadas ao problema de voz, com isso investigando os limites dasolução.

39

Page 69: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 4

Fatoração de matrizes não-negativas

Fatoração de matrizes não-negativas (NMF, do inglês non-negative matrix facto-rization) é um método para a aproximação de uma matriz V não-negativa como umproduto de duas matrizes,W eH , tomando como premissa que todos os elementosdas matrizes são não-negativos:

V ≈WH se W ,H ≥ 0. (4.1)

No caso de uma representação tempo-frequência (ver Figura 4.1), as matrizespossuem a seguinte estrutura: V ∈ RF×O

+, W ∈ RF×M

+e H ∈ RM×O

+. Na expressão,

W ,H ≥ 0 significa que todos os elementos das matrizes W e H são não-negativose R+ = [0,∞) denota o conjunto de números reais não-negativos.

Figura 4.1: Representação da fatoração não-negativa da matriz V em W e H emáudio com representação no tempo-frequência.

No contexto das aplicações com representação tempo-frequência de sinais deáudio, cada canal observado gera uma mistura representada pela sua STFT X.Pode-se fatorar a magnitude da STFT, V = ∣X ∣, ou a sua potência, V = ∣X ∣.[2].O processo de fatoração numa implementação de separação de fontes pode sero mesmo, independente do que V representa. Somente os estágios anteriores eposteriores à fatoração é que mudam de acordo com a escolha da representação a

40

Page 70: métodos para separação de vozes a partir de misturas pré-gravadas

ser fatorada.

Na Figura 4.1, F indica a banda de frequências sendo considerada, M o númerode padrões presentes na mistura e O quantos quadros foram analisados na STFT.Embora a extensão para I canais seja tratada nesse capítulo como um caso desuperposição de problemas monocanais, a redundância de informações observadasentre misturas pode ser aproveitada para melhorar a estimativa dos métodos. OCapítulo 5 irá apresentar a extensão do modelo e dos métodos para o cenáriomulticanal.

4.1 A premissa da não-negatividade

Os principais métodos de decomposição de matrizes exploram característicasfacilitadoras para atingir a separação. O princípio da não-negatividade asseguraque a mistura seja modelada como uma combinação puramente aditiva de sinais, demodo que não haja cancelamento.

4.2 O problema de otimização

Generalizando, a NMF procura fatorar a matriz V em WH através de umproblema de otimização que busca minimizar a distância entre a entrada V e aestimativa V =WH :

(W ,H) = arg minW ,H≥0

C(V ∣W ,H), (4.2)

onde a análise da função custo C(⋅) permite o desenvolvimento de um métododeterminístico para a minimização do problema. A partir da estimativa deW eH ,as fontes Sk são estimadas pelo agrupamento de componentes, que será exploradona Seção 4.4.

A função custo a ser minimizada C(⋅) denota uma distância ou uma divergênciaentre a estimativa V =WH e a mistura original V .

4.2.1 Medidas de divergência

Muitas medidas de distorção C(⋅) foram apresentadas na literatura para o pro-blema da NMF. Cada medida de distorção para o problema irá originar um algoritmopara sua minimização. LEE e SEUNG [50] apresentaram duas funções custo e seus

41

Page 71: métodos para separação de vozes a partir de misturas pré-gravadas

respectivos algoritmos de minimização. As funções foram o quadrado da distânciaEuclidiana,

CEUC(V ∣ V ) = ∣∣V − V ∣∣2F , (4.3)

e a divergência de Kullback-Leibler generalizada,

CKL(V ∣ V ) = ∣∣V ⊗ ln(V ⊘ V ) −V + V ∣∣S, (4.4)

onde o operador ∣∣ ⋅ ∣∣ representa a função norma, ∣∣ ⋅ ∣∣F denota a função norma deFrobenius1, ∣∣ ⋅ ∣∣S denota a soma de todos os elementos da matriz ou do vetor eo operador ⊗ indica a multiplicação ponto-a-ponto entre matrizes2, conhecida naliteratura por produto de Hadamard. A divisão de matrizes V ⊘ V em CKL(⋅) étambém uma divisão elemento a elemento3.

As duas funções de custo são positivas e assumem valor zero se e somentese V = V . Entretanto, a divergência de Kullback-Leibler generalizada é maissensível em baixas energias, assemelhando-se mais ao sistema auditivo humano. Por-tanto, essa medida é mais adequada entre as duas para aplicações em sinais de áudio.

Diversas outras funções custo são apresentadas pelas literatura, cada uma comum conjunto de algoritmos que leva a sua minimização. A escolha da função da NMFdeve ser tomada conforme o tipo de dado analisado e a existência de métodos naliteratura que garantam bom desempenho dos algoritmos de minimização da função.

Nesta monografia, seguimos a abordagem detalhada por FÉVOTTE et al. em[23], na qual a divergência de Itakura-Saito (IS) é utilizada devido ao seu melhordesempenho na separação de voz. A expressão da função custo utilizando essadivergência é dada por:

CIS(V ∣ V ) = ∣∣V ⊘ V − log(V ⊘ V ) − 1∣∣S, (4.5)

onde as divisões presentes são todas divisões de elemento por elemento, comodenotado nos operadores na Equação (4.4). A matriz 1 é uma matriz que possuitodos os elementos iguais a 1.

A divergência IS foi introduzida por ITAKURA e SAITO em [51] e foi apre-sentada como uma medida da divergência entre dois espectrogramas. A medida se

1A norma de Frobenius da matriz A ∈ RI×J é calculada como ∣∣A∣∣F = (∑i∑j ∣ [A]i,j ∣2)1/2.

2A⊗B = [A]i,j[B]i,j , ∀i, j3A⊘B = [A]i,j/[B]i,j , ∀i, j

42

Page 72: métodos para separação de vozes a partir de misturas pré-gravadas

tornou popular na comunidade de análise de sinais de voz. Ela pertence à classe dedivergências de Bregman, sendo um caso específico da divergência β para β = 0 [52],assim como a KL (β = 1) e a EUC (β = 2), como observado por CICHOCKI et al.[53]. Com isso, os algoritmos desenvolvidos para a minimização da divergência βpoderão ser aplicados na divergência IS.

A Seção 4.3 irá apresentar como o problema de otimização da NMF é abordadopela literatura, incluindo algoritmos utilizados para buscar a minimização da funçãocusto IS. Caso o leitor deseje mais detalhes sobre os tipos de divergências utilizadascom a NMF, recomenda-se uma primeira leitura de [27].

4.3 Solucionando o problema de otimização

A NMF pode ser calculada através da solução do problema de otimização,

(W ,H) = arg minW ,H≥0

C(V ∣W ,H), (4.6)

de acordo com a escolha da função custo C.

Na literatura, diversos algoritmos são apresentados para a solução desseproblema de otimização. SCHMIDT [27], QUINTANILHA [18], BERRY et al. [14]e ALMEIDA [17] apresentam uma revisão de diversos algoritmos e estratégias daliteratura para a solução da NMF.

Em geral, a solução da NMF obtida pelos algoritmos não é única. Como asfunções custo não são convexas4 em ambas as variáveis W e H , os algoritmosde otimização só podem garantir a convergência em ótimos locais da função.Em outras palavras, diversas computações do problema da NMF, cada uma comdiferentes inicializações (aleatórias em diversos casos), podem resultar em diferentessoluções. Na prática, pode ser útil calcular a otimização diversas vezes e avaliar assoluções encontradas para evitar o problema de ótimos locais.

Além do problema envolvendo ótimos locais e funções não convexas, a fatoraçãotambém não possui uma única solução que satisfaça o mínimo global [14]. Conside-rando que a solução ótima de uma fatoração seja obtida pelas matrizesW e H , elatambém é dada por um número infinito de matrizes WD e D−1H para qualquer

4Uma função convexa pode ser definida como aquela na qual um segmento de reta que conectaquaisquer dois pontos dela nunca está abaixo de uma parte da função, ou seja, não existem mínimoslocais, somente um mínimo global. O análogo para o problema de maximização seria a funçãocôncava [54].

43

Page 73: métodos para separação de vozes a partir de misturas pré-gravadas

matriz não-negativa inversível D. Portanto, a otimização sofre de problemas de nãounicidade de solução devido a escalamento e permutação. Abordagens na literaturautilizam a normalização de linhas e colunas durante a solução para compensar essesproblemas.

A Seção 4.3.1 segmenta os algoritmos para a minimização do problema sob dife-rentes estratégias. A Seção 4.3.2 irá apresentar o algoritmo utilizado para minimiza-ção da função custo IS. Por fim, a Seção 4.3.3 abordará o problema de inicializaçãodos algoritmos.

4.3.1 Estratégias de otimização

Diversos algoritmos de otimização são propostos na literatura; SCHMIDT [27]mostra que esses podem ser segmentados em três classes de abordagens: métodosde otimização direta, métodos de otimização alternada e métodos descendentes al-ternados.

Métodos de otimização direta solucionam o problema da NMF equacionado em(4.6), diretamente através de um algoritmo genérico de otimização. Entre-tanto, as funções custo mais gerais tornam o problema não convexo para asduas variáveis. Com isso, uma solução direta requer a busca exaustiva peloponto ótimo.

Métodos de otimização alternada particionam o problema da NMF (4.6) emdois subproblemas:

Algoritmo 2 Método de otimização alternada para NMFEntrada: Matriz não-negativa VSaída: Matrizes não-negativas W e H , de forma que V ≈WH

1: Inicialize W , H com valores não-negativos2: repita3: W ← arg min

W≥0C(V ∣W ,H)

4: H ← arg minH≥0

C(V ∣W ,H)

5: Normalize W e H6: até convergência.

Para cada iteração, o problema NMF é solucionado para uma das matrizesenquanto a outra é mantida fixa. Essas iterações são repetidas até que aconvergência seja atingida. BEZDEK et al. [55] analisam a convergênciado algoritmo e mostram que, em condições adequadas, o método converge

44

Page 74: métodos para separação de vozes a partir de misturas pré-gravadas

linearmente para uma solução local.

Dentre as vantagens do método em relação à otimização direta, segundo [56],destacam-se: (1) o cálculo computacional da solução é mais rápido e (2) sãoevitados alguns ótimos locais.

O problema geral da NMF pode não ser convexo para ambas as variáveis,mas, de acordo com a função custo, ele pode ser convexo quando se solucionao problema em partes.

Métodos de redução alternada são uma extensão relaxada dos métodos de oti-mização alternada por não calcularem a solução ótima em cada subproblema.A cada iteração, o algoritmo procura reduzir, mas não necessariamente mini-mizar, a função custo:

Algoritmo 3 Método de redução alternada para NMFEntrada: Matriz não-negativa VSaída: Matrizes não-negativas W e H , de forma que V ≈WH

1: s← 12: Inicialize W , H com valores não-negativos3: repita4: W ←W s onde C(V ∣W s,H) < C(V ∣W s−1,H)

5: H ←Hs onde C(V ∣W ,Hs) < C(V ∣W ,Hs−1)

6: s← s + 1;7: Normalize W e H8: até convergência.

Aqui, s identifica a iteração do algoritmo, e um máximo de iterações S podeser definido.

Essa abordagem é vantajosa para a construção de algoritmos eficientes com-putacionalmente para a solução do problema. Embora cada iteração reduzaa função custo, geralmente não há garantias de que o algoritmo irá convergirpara um mínimo local da função. Os algoritmos de atualização multiplicativa,apresentados por LEE e SEUNG [50] são um exemplo desse tipo de abordagem.

4.3.2 Algoritmos

LEE e SEUNG [50] apresentaram algoritmos de gradiente descendente para solu-cionar o problema de minimização da NMF, equação (4.2), quando se utiliza CEUC(⋅)

45

Page 75: métodos para separação de vozes a partir de misturas pré-gravadas

ou CKL(⋅). Mostrou-se que o gradiente pode ser expressado como uma subtração dedois termos não-negativos:

∇V C(V ∣V ) = ∇V C(V ∣V )+ −∇V C(V ∣V )−, (4.7)

onde o operador ∇V denota o gradiente de uma função em relação a V . LEE eSEUNG também apresentaram um método de redução alternada que é equivalentea atualizar o parâmetro a cada iteração pelo valor da iteração passada vezes a razãoentre a parte negativa e a parte positiva do gradiente da função custo:

V s = V s−1 ⊗∇V C(V ∣V s−1)− ⊘∇V C(V ∣V s−1)+, (4.8)

onde s denota a iteração do algoritmo e os superescritos + e − denotam respectiva-mente a parte positiva e negativa do gradiente5.

Portanto, quando um passo adequado é utilizado, as regras de atualização degradiente descendente se tornam regras de atualizações multiplicativas (MU, doinglês multiplicative update), um método de redução alternada sobre duas funções-custo não crescentes.

A abordagem para minimização da divergência KL por multiplicações alternadasapresentada por LEE e SEUNG, denotada por MU/NMF-KL, é detalhada noAlgoritmo 4. A matriz 1 possui todos os elementos iguais a 1.

Algoritmo 4 MU/NMF-KLEntrada: Matriz não-negativa V e máximo de iterações SSaída: Matrizes não-negativas W e H , de forma que V ≈WH

1: s← 12: Inicialize W , H com valores não-negativos3: repita4: W ←W ⊗ (((WH).[−1] ⊗V )HT )⊘ (1HT )

5: H ←H ⊗ (W T ((WH).[−1] ⊗V ))⊘ (W T1)6: s← s + 1;7: Normalize W e H8: até convergência ou s ≥ S

A simplicidade do algoritmo de atualizações multiplicativas se destacou naliteratura e diversas aplicações ainda utilizam extensões dele para a minimização.Nessa linha, DHILLON e SRA [57] e CICHOCKI e ZDUNEK [58] desenvolveram um

5Apesar da nomenclatura utilizada pela literatura, os dois termos são não-negativos.

46

Page 76: métodos para separação de vozes a partir de misturas pré-gravadas

algoritmo de regras de multiplicações de gradiente descendente para a minimizaçãoda divergência β. Como já mencionado, a divergência IS é um subcaso da diver-gência β, e com isso o algoritmo pode ser aplicado na minimização da divergência IS.

O gradiente da função custo CIS pode ser denotado por:

∇V CIS(V ∣V ) = V .[−2] ⊗ (V −V ), (4.9)

onde o operador superescrito V .[−2] denota uma potência elemento a elementoda matriz6. A equação (4.9) mostra que o gradiente é contínuo, possui um únicomínimo em V = V e cresce de valor com ∣∣V − V ∣∣.

Quando a equação (4.9) é utilizada em (4.8), pode-se gerar a regra de atualizaçãode V . Entretanto, como já foi introduzido, a minimização será feita alternadamentepara W e para H . Com isso, os gradientes parciais são determinados por:

∇W CIS(V ∣WH) = ((WH).[−2] ⊗ (WH −V ))HT , (4.10)

∇HCIS(V ∣WH) =W T ((WH).[−2] ⊗ (WH −V )), (4.11)

e as regras de atualização a cada iteração s do algoritmo são equacionadas como:

W s =W s−1 ⊗ (((W s−1H).[−2] ⊗V )HT )⊘ ((W s−1H).[−1]HT ), (4.12)

Hs =Hs−1 ⊗ (W T ((WHs−1).[−2] ⊗V ))⊘ (W T (WHs−1).[−1]). (4.13)

Algoritmo 5 MU/NMF-ISEntrada: Matriz não-negativa V e máximo de iterações SSaída: Matrizes não-negativas W e H , de forma que V ≈WH

1: s← 12: Inicialize W , H com valores não-negativos3: repita4: W ←W ⊗ (((WH).[−2] ⊗V )HT )⊘ ((WH).[−1]HT )

5: H ←H ⊗ (W T ((WH).[−2] ⊗V ))⊘ (W T (WH).[−1])

6: s← s + 1;7: Normalize W e H8: até convergência ou s ≥ S

6A.[x]= [A]

xi,j ∀i, j

47

Page 77: métodos para separação de vozes a partir de misturas pré-gravadas

O algoritmo de solução da NMF-IS de redução alternada por atualizaçõesmultiplicativas formado pelo uso das atualizações apresentadas será denotado porMU/NMF-IS; ele é mostrado em Algoritmo 5 e foi apresentado por FÉVOTTEet al. [23].

As colunas e as linhas são normalizadas a cada iteração do algoritmo devido aosproblemas de permutação e escalamento na unicidade da resposta segundo revisadopor BERRY et al. [14]. Algoritmos iterativos necessitam de valores iniciais para osparâmetros. A Seção 4.3.3 irá apresentar como se aborda o problema de inicialização.

Segundo o nosso interesse, revisamos apenas os algoritmos de minimização dadivergência IS em comparação com algoritmos de minimização da divergência KL.Caso o leitor procure os algoritmos para as outras divergências, recomenda-se comouma primeira leitura o trabalho de QUINTANILHA [18].

4.3.3 Métodos de inicialização

Muitos algoritmos de otimização para o problema em questão são iterativose requerem valores iniciais para W e H . Muitos autores sugerem inicializaros parâmetros com valores aleatórios não-negativos. Entretanto, a solução daotimização é muito sensível às condições iniciais do algoritmo.

Uma abordagem simples para dar alguma robustez à inicialização do método éutilizar uma simulação de Monte Carlo para determinar a melhor inicialização. Emoutras palavras, Srndinit inicializações aleatórias deW eH serão geradas. Após isso,as matrizes serão fatoradas em Sinit iterações segundo um problema de NMF utili-zando uma divergência: EUC, KL ou IS. Por fim, os resultados das Srndinit fatoraçõesserão analisados e as inicializações de W e H que após Sinit iterações produzi-ram o menor custo C serão escolhidas para iniciar a fatoração principal do problema.

Tipicamente, a literatura emprega Srndinit ∈ [5,10] avaliações e Sinit ∈ [10,50]

iterações [27]. A divergência generalizada de Kullback-Leibler (KL) é a mais comumdurante o processo de inicialização, independentemente de qual será a função custoutilizada no problema principal.

Alguns autores ainda utilizam métodos de clusterização para inicializar o pro-blema da NMF. Recomenda-se a leitura de [27] para uma maior revisão dos métodosde inicialização.

48

Page 78: métodos para separação de vozes a partir de misturas pré-gravadas

4.4 Modelagem de fontes em componentes elemen-

tares ou padrões e a representação no tempo-

frequência

Além de conhecer as abordagens para minimização do problema equacionadoem (4.2), completado pela definição da função custo C(⋅) na Seção 4.2.1, o leitordeve compreender como as fontes, que são o objetivo final da análise, se relacionamcom V , W e H .

Acompanhando a modelagem da literatura e motivada por FÉVOTTE et al.em [23], esta monografia modela as fontes como superposições de componenteselementares ou padrões. Cada componente elementar pode ser compreendida comouma entidade musical significativa, como, por exemplo, uma nota musical ou umaemissão de instrumento percussivo.

A estimativa de uma fonte, denotada por sk(n), será calculada pela somatóriade componentes cm(n) assumidas como independentes na frequência e no tempodiscreto:

sk(n) = ∑m∈mk

cm(n), (4.14)

onde mk é o conjunto de componentes pertencentes à fonte e k ∈ 1, ...,K. Podemosformular a mistura como uma superposição de fontes ou de componentes:

x(n) =K

∑k=1

sk(n) =K

∑k=1

∑m∈mk

cm(n). (4.15)

Como já introduzido em (3.6), as fontes serão modeladas por uma combinaçãolinear de um conjunto de bases ou vetores de padrões e, no caso dessa monografia,com representação em tempo-frequência. Utilizando essa representação, a Tabela4.1 apresenta as principais modelagens de duas implementações comuns na litera-tura de áudio. A implementação NMF-KL utiliza a divergência de Kullback-Leiblergeneralizada, introduzida por LEE e SEUNG [50], e sua modelagem pode ser vistaem [23]. Já a implementação NMF-IS utiliza a divergência de Itakura-Saito e suamodelagem também pode ser explorada em maiores detalhes em [23].

49

Page 79: métodos para separação de vozes a partir de misturas pré-gravadas

Modelagem NMF-KL NMF-IS

Entrada V = ∣X ∣ V = ∣X ∣.[2]

Fatoração V ≈ V =WH

Componentes ∣Cm∣ =wmhm ∣Cm∣.[2] =wmhm

Fontes Sk = ∑m∈mkCm

Tabela 4.1: Modelagem para implementações NMF-IS e NMF-KL

A principal diferença entre as duas implementações é o significado de V .Enquanto a NMF-KL utiliza a magnitude da STFT da mistura, denotada por ∣X ∣,a NMF-IS utiliza a potência da STFT, denotada por ∣X ∣.[2]. Com isso, a relaçãodos fatores W e H com a STFT das componentes estimadas Cm e a STFT dasfontes estimadas Sk será diferente para cada implementação.

As matrizes W = (w1, ...,wM) e H = (h1, ...,hM) estimadas pela fatoraçãoserão utilizadas para estimar as componentes. Essas diferentes representações doproblema em tempo-frequência são ilustradas na Figura 4.2.

Após a associação de componentes com fontes, através geração do vetor mk

para cada fonte, a fonte poderá ser estimada pela superposição de componentes. ASeção 4.4.1 irá explorar essa associação.

Portanto, uma vez solucionado o problema da NMF equacionado em (4.2),a estimativa da magnitude da STFT das fontes será feita pelo agrupamento decomponentes por determinação do conjunto ou vetor mk. Esse agrupamento seráabordado em detalhes na Seção 4.4.1.

Além da superposição de fontes e da modelagem em componentes, algumas ex-tensões da NMF procuram modelar as componentes com distribuição gaussiana pararealizar uma interpretação estatística do problema da NMF. Essas extensões serãodetalhadas na Seção 5.3.

4.4.1 Associando componentes com fontes

Na separação de áudio, a motivação principal ao separar uma mistura emcomponentes é que cada componente represente uma entidade significativa musical-mente ou no áudio. As componentes separadas podem ser associadas para formaruma fonte, sintetizadas para formar um sinal audível ou analisadas para se obterinformações sobre a fonte estimada.

50

Page 80: métodos para separação de vozes a partir de misturas pré-gravadas

(a) Representação matricial demonstrando a fatoração da matriz não-negativa V em W e H.

(b) A matriz V é aproximada por uma combinação linear de padrões ou uma somatória de compo-nentes.

(c) Ilustração da combinação linear de componentes espectrais para formar o espectro-grama. Adaptado de [27].

Figura 4.2: Diferentes representações para a NMF e sua relação com componentese fontes.

51

Page 81: métodos para separação de vozes a partir de misturas pré-gravadas

Entretanto, se as componentes são estimadas a partir de uma mistura de sinais,ao final do problema de otimização não se saberá quais componentes pertencema cada fonte. Como cada fonte é modelada como uma soma de componentes,precisamos associar corretamente cada componente a sua fonte.

A literatura apresenta duas maneiras básicas para realizar esse agrupamentodas componentes em um vetor mk. Uma abordagem cega buscaria a clusterizaçãode componentes através de uma medida de similaridade. A dependência entre paresde componentes poderia ser utilizada como uma medida de similaridade para aclusterização. Alternativamente, caso houvesse um conhecimento prévio sobre asfontes, em uma abordagem supervisionada, as componentes seriam classificadasem fontes de acordo com a distância do sinal estimado ao modelo previamenteconhecido da fonte. Além da clusterização, o conhecimento prévio poderia permitiro pré-treinamento de padrões espectraisWk ou uma inicialização inteligente deWk

e Hk a partir de uma estimativa preliminar e rápida7 do espectrograma das fontes.Naturalmente, caso pré-treinamento seja feito com conhecimento prévio, não há anecessidade de classificação após a separação de componentes.

Para se aprofundar no tópico de associação de componentes, recomenda-seuma primeira leitura da revisão de VIRTANEN [9]. O trabalho reune métodosencontrados na literatura para a clusterização de componentes e abordagensutilizando conhecimento prévio para um pré-treinamento.

A seguir, cada implementação será analisada, detalhando-se que algoritmos estãosendo utilizados, e como a associação de componentes em fontes é realizada. ASeção 4.6.2, Implementação, irá detalhar a implementação utilizada nos primeirosexperimentos deste trabalho.

4.5 Síntese

A síntese de componentes separadas é necessária quando se deseja ouvi-las, oque é um modo conveniente de avaliar preliminarmente a qualidade da separação.Na Seção 4.6, métodos para avaliação da separação sem a síntese do sinal serãodiscutidos. A síntese de sinais representados durante o cálculo computacional emrepresentações na frequência e tempo-frequência não é trivial. O processo podeser estruturado em duas etapas. Após o cálculo da magnitude ou da potência doespectro de cada componente em cada quadro e associação de componentes às

7Alguns métodos da literatura utilizam uma abordagem de separação rápida para inicializarWk e Hk da NMF [26].

52

Page 82: métodos para separação de vozes a partir de misturas pré-gravadas

fontes pelo algoritmo adotado, a síntese precisará: (1) estimar fases para obter oespectro complexo e (2) obter a transformada inversa de Fourier de curto tempo(IDFT) para se obter o sinal no tempo.

Durante a etapa (2), a IDFT é calculada para cada quadro, e os quadrosadjacentes são combinados utilizando-se um algoritmo overlap-add. A literaturasugere algumas diferentes abordagens para a estimação da fase na etapa (1).

Uma solução para o problema da falta de fase associada às estimativas dos espec-trogramas das componentes está na utilização da própria fase da mistura observada.É uma solução simples e bastante usada na literatura. Porém, quanto mais os espec-trogramas forem modificados, ou seja, quanto mais eles estiverem distantes do queseriam os espectrogramas dos sinais reais, pior será o resultado da síntese. Dentreas alternativas, destaca-se o método de geração de fase proposto por GRIFFIN [59].Recomenda-se uma primeira leitura das revisões de CAMPOS [60], ALMEIDA [17] eTYGEL [16] para buscar maiores detalhes sobre os métodos de reconstrução de fase.

Entretanto, em muitos casos em que a separação é alcançada, o uso das fasesoriginais da mistura produz bons resultados, como é apresentado por VIRTANENem [61]. Matematicamente, a geração da STFT complexaCm ∈ CF×O da componentem em um problema com formulação V , W e H com representações em magnitudedo espectro pode denotada por:

Cm =wmhm ⊗ arg(X), (4.16)

onde a função arg(⋅) quando aplicada a um escalar complexo, retorna a fase domesmo com magnitude unitária. Logo, quando aplicada a um vetor ou uma matriz,representa a operação elemento a elemento. E wmhm denota a magnitude doespectro da componente.

Para aplicações que trabalham com a representação na potência do espectro,FÉVOTTE et al. em [23] introduzem uma abordagem diferente. Nessas aplicações,wmhm denota a potência espectral. Embora se consiga determinar a magnitude pelaraiz quadrada, não se tem, novamente, a informação de fase dos sinais estimados.FÉVOTTE et al. formulam a geração da STFT complexaCm ∈ CF×O da componentem como:

Cm = (wmhm ⊘ WH) ⊗ X, (4.17)

onde a STFT da mistura observada é multiplicada elemento a elemento por um

53

Page 83: métodos para separação de vozes a partir de misturas pré-gravadas

escalador que pode ser interpretado como a parte da energia da mistura a cadainstante e frequência pertencente à componente m. A formulação também garanteuma propriedade importante: a decomposição é conservativa ou complementar,já que a energia da soma das componentes será equivalente à energia encontradana mistura. Essa propriedade permite que um pós-processamento consiga me-lhorar os resultados ou até continuar a separação sem que haja perda de informação.

FÉVOTTE et al. também interpretam a Equação (4.17) como um filtro deWiener; neste caso, a fase está sendo gerada durante um processo de filtragem.O filtro de Wiener pode ser utilizado para filtrar e reconstruir a fase do sinal, etambém pode ser aplicado em implementações envolvendo a magnitude da STFT.

O filtro após a separação é um refinamento que busca realizar uma máscaranos espectrogramas estimados em relação à mistura original. Embora a etapa nãoseja obrigatória no sistema de separação, ela procura eliminar características nãopresentes na mistura original que foram criadas pelo processo de decomposição.ALMEIDA em [17] revisa abordagens encontradas na literatura para a etapa derefinamentos e processamento dos espectrogramas separados.

4.6 Experimentos com a NMF

Esta Seção procura avaliar as implementações da NMF com a divergência IS,MU/NMF-IS, e com a divergência KL, MU/NMF-KL, na tarefa de separaçãode fontes de uma mistura. As técnicas serão avaliadas na separação de instru-mentos na Seção 4.6.3, de instrumentos e voz na Seção 4.6.4 e de vozes na Seção 4.6.5.

A Seção 4.6.1 procura apresentar os métodos de avaliação objetivos utilizadospara avaliar os experimentos.

4.6.1 Método de avaliação

Alguma avaliação sistemática de qualidade é necessária quando se deseja com-parar os resultados de algoritmos. No caso de sinais de áudio, seria possível realizara avaliação da separação com pessoas, por exemplo, classificando os resultados comnotas ou procurando extrair características do sinal estimado. No entanto, essesmétodos de avaliação, conhecidos como testes subjetivos, exigem que suas condiçõessejam rigidamente controladas, o que os torna custosos e de difícil realização.

Para avaliar as técnicas implementadas em bases de dados diversas, utiliza-se

54

Page 84: métodos para separação de vozes a partir de misturas pré-gravadas

avaliação objetiva de qualidade. São utilizados algoritmos que tentam de algumamaneira emular a percepção humana de modo a possibilitar a comparação entreresultados de modo determinístico.

TYGEL revisa em [16] técnicas determinísticas de avaliação e as segmentaem: (1) baseadas na razão sinal-ruído (SNR, do inglês signal-to-noise ratio) e (2)baseadas em modelos psicoacústicos. A primeira família se restringe a avaliar apotência do sinal, de ruídos e de interferências sem atentar para as especificidadesda audição humana. Os métodos psicoacústicos, através da transformação dosinal do domínio do tempo para um domínio psicoacústico, buscam simular apercepção sonora humana. Eles conseguem isso através de processamento complexoe não-linear. Por serem suficientes para o objetivo desta monografia, serão utilizadosmétodos de avaliação baseados em SNR, que são bastante empregados na literaturade separação de fontes.

O princípio da avaliação objetiva de separação proposta por VINCENT et al.[62] consiste em decompor uma dada estimativa sk(n) da fonte sk(n) no tempo comouma soma:

sk(n) = sk,alvo(n) + ek,inter(n) + ek,ruído(n) + ek,artif(n), (4.18)

onde sk(n) é a estimativa da fonte k, sk,alvo(n) é o sinal original da fonte k ouum sinal da fonte com uma deformação permitida, ek,inter(n) é a deformação daestimativa relacionada à interferência de outras fontes na mistura, ek,ruído(n) é adeformação pela perturbação de ruído e ek,artif(n) é a deformação da estimativadevido a possíveis defeitos (artefatos) originados pelo processo de separação. Adecomposição também pode ser denotada na sua representação por vetores, quandoos sinais passam a ser representados por um vetor de comprimento N , que é aduração do sinal em amostras.

Para que essa decomposição seja possível, o modelo necessita da (1) estimativada fonte, do (2) sinal a ser utilizado como referência ou alvo de separação e do (3)ruído a ser considerado.

A partir deste modelo de decomposição, podem-se definir quatro medidas glo-bais8 de qualidade:

Source-to-Distortion Ratio (SDR): a razão fonte-distorção fornece uma ideia8FÉVOTTE et al. [63] apresentam medidas de qualidade globais e locais. As globais são ava-

liações do sinal inteiro; as locais são estimativas de partes do sinal, realizando um paralelo com arepresentação tempo-frequência STFT.

55

Page 85: métodos para separação de vozes a partir de misturas pré-gravadas

geral do desempenho da separação através da razão entre a potência do sinalalvo e a potência das distorções. É calculada como:

SDR = 10 log10∣∣sk,alvo∣∣

2

∣∣ek,inter + ek,ruído + ek,artif∣∣2. (4.19)

Source-to-Interferences Ratio (SIR): a razão fonte-interferência toma comointerferência a potência total dos sinais de outras fontes presentes na esti-mativa da fonte de interesse. É uma medida da qualidade da separação em si,e é calculada como:

SIR = 10 log10∣∣sk,alvo∣∣

2

∣∣ek,inter∣∣2. (4.20)

Sources-to-Artifacts Ratio (SAR): A razão fontes-artefato nos dá uma avalia-ção da potência de defeitos artificiais inseridos nas estimativas pelo processode separação, ou seja, elementos que não estavam presentes na mistura origi-nal. A etapa de síntese é uma das maiores causadoras desses efeitos. A SARé calculada como:

SAR = 10 log10∣∣sk,alvo + ek,inter + ek,ruído∣∣

2

∣∣ek,artif∣∣2

. (4.21)

Sources-to-Noise Ratio (SNR): Nos casos em que a mistura observada contémruído, a razão fontes-ruído fornece uma medida da quantidade de ruído aindapresente nas estimativas das fontes. A SNR é calculada como:

SNR = 10 log10∣∣sk,alvo + ek,inter∣∣

2

∣∣ek,ruído∣∣2

. (4.22)

As medidas são invariantes ao ganho e definidas como também invariantes àordenação dos sinais. Em outras palavras, variações de ganho não são penalizadaspela formulação, e cada estimativa de fonte separada deve ser comparada comtodas as fontes originais. Aquela comparação que possuir maior SIR é consideradaa associação correta entre estimativa e fonte original.

Todas as medidas serão calculadas utilizando o BSS EVAL toolbox. Fornecido porFÉVOTTE et al. [63], implementa os métodos de avaliação de separação descritosem [62, 64].

56

Page 86: métodos para separação de vozes a partir de misturas pré-gravadas

4.6.2 Implementação

Os algoritmos para separação de fontes de áudio baseados na fatoração NMFforam implementados no Matlab® e seguem uma estrutura em blocos como naTabela 4.2.

57

Page 87: métodos para separação de vozes a partir de misturas pré-gravadas

Bloco Objetivo

1 Análise tempo-frequência: Transforma a mistura no tempo dis-creto do arquivo WAV para STFT. Im-plementação fornecida pelo SiSEC em[28].

2 Inicialização: Busca inicializar as matrizes W e Hcom valores aleatórios. Diversas inicia-lizações aleatórias podem ser realizadaspara evitar ótimos locais.

3 Fatoração: Busca solucionar o problema de otimi-zação envolvendo a fatoração da mag-nitude da STFT ou da potência daSTFT. Implementações fornecidas porFÉVOTTE et al. em [23].

4 Associação de componentescom fontes:

Procura associar componentes com asfontes a partir de clusterização.

5 Síntese: Gera a fase da STFT das fontes esti-madas através de um filtro de Wienere calcula a iSTFT. Implementação daiSTFT fornecida pelo SiSEC em [28].

6 Avaliação de qualidade: Calcula SDR, SIR, SAR de acordocom Seção 4.6.1 e determina o parestimativa-referência de acordo com amaximização da similaridade do par.Implementações fornecidas por FÉ-VOTTE et al. [63].

Tabela 4.2: Estrutura em blocos da implementação BSS de separação de fontesNMF.

Os blocos da implementação e os parâmetros utilizados nos mesmos serão deta-lhados a seguir.

58

Page 88: métodos para separação de vozes a partir de misturas pré-gravadas

Análise tempo-frequência

Os sinais das misturas em WAV são transformados para as suas representaçõesno tempo-frequência através da STFT com janela seno e sobreposição de 50%. Oscomprimentos de janelas utilizados para cada experimento podem ser visualizadosna Tabela 4.3; eles foram escolhidos entre 20 ms e 100 ms, seguindo a literatura.

Foi utilizada uma implementação fornecida pelo SiSEC em [28] para aplicaçãoda STFT em misturas de um ou mais canais.

ExperimentoComprimento janela

Freq. amost. (Hz)(amostras) (ms)

4.6.3 Separação cega de misturassubdeterminadas de música semvoz

1024 64 16000

4.6.4 Separação cega de misturasde músicas gravadas profissional-mente com voz

2048 46 44100

4.6.5 Separação cega de misturassubdeterminadas de voz

1024 64 16000

Tabela 4.3: Comprimentos das janelas das STFT utilizadas nos experimentos coma NMF.

Inicialização

Antes da fatoração, as matrizes W e H são inicializadas com valoresaleatórios positivos, evitando que qualquer elemento da matriz inicializadaseja zero. A fatoração por multiplicações alternadas não permite a minimi-zação do problema que tenha matrizes com elementos iguais a zero. Comisso, numa notação no Matlab®, W = abs(randn(Fbin,M)) + ones(Fbin,M) eH = abs(randn(M,O)) + ones(M,O)9,10,11, onde Fbin denota quantos bins defrequência foram gerados pela STFT, M denota o número de componentes oupadrões e O representa o número de quadros gerados pela STFT.

9abs(⋅) retorna o módulo de um escalar. Quando aplicado a uma matriz, retorna uma matrizcom o módulo dos elementos.

10randn(N1, ...,ND) retorna uma matriz com elementos aleatórios de distribuição normal commédia zero e variância unitária. O argumento (N1, ...,ND) indica o tamanho N de cada uma dasD dimensões.

11ones(⋅) retorna uma matriz 1 de elementos iguais a 1 e de dimensões definidas no argumento.

59

Page 89: métodos para separação de vozes a partir de misturas pré-gravadas

O problema de otimização da NMF é muito sensível à inicialização. Portanto,a implementação utiliza uma inicialização robusta. Em outras palavras, Srndinit

inicializações aleatórias de W e H são geradas e elas são fatoradas por Sinit

iterações. Por fim, os melhores candidatos para inicialização são selecionados, ouseja, os que, após a fatoração inicial, apresentam menor custo C. A implementaçãoda inicialização robusta é representada pelo Algoritmo 6.

Algoritmo 6 Inicialização robustaEntrada: Matriz não-negativa V , máximo de inicializações aleatórias Srndinit, má-

ximo de fatorações iniciais Sinit e número de componentes MSaída: Matrizes não-negativas W e H

1: s← 12: repita3: Inicializa W , H com valores positivos aleatórios4: [Ws,Hs]← NMF(V ,W ,H , Sinit)

5: s← s + 1;6: até s ≥ Srndinit

7: [W ,H]← arg min Cs(Ws,Hs)

Os valores dos parâmetros utilizados em cada experimentos são exibidos naTabela 4.4. Foram escolhidos de modo a minimizar a variabilidade do custo C dasinicializações quando a fatoração principal é inicializada.

Experimento Srndinit Sinit

4.6.3 Separação cega de misturassubdeterminadas de música semvoz

10 20

4.6.4 Separação cega de misturasde músicas gravadas profissional-mente com voz

20 50

4.6.5 Separação cega de misturassubdeterminadas de voz

20 50

Tabela 4.4: Parâmetros de inicialização da fatoração da NMF.

Fatoração

As implementações das fatorações pelas divergências KL e IS foram apresentadaspor FÉVOTTE et al. em [23]. Os códigos da implementação são disponibilizadosjuntamente com a publicação. Para cada experimento, o sistema foi inicializado

60

Page 90: métodos para separação de vozes a partir de misturas pré-gravadas

robustamente e fatorado 10 vezes, e a resposta final foi a seleção de matrizes We H que apresentavam menor custo. Para cada fatoração, o número de iteraçõesfoi estabelecido como exibido na Tabela 4.5 com valores que parecem indicar aestabilização dos custos na escala linear.

Experimento Sfat

4.6.3 Separação cega de misturassubdeterminadas de música semvoz

1000

4.6.4 Separação cega de misturasde músicas gravadas profissional-mente com voz

5000

4.6.5 Separação cega de misturassubdeterminadas de voz

1000

Tabela 4.5: Iterações por experimento da NMF.

Associação de componentes com fontes

Já que os métodos implementados são não supervisionados, ou seja, são dafamília de métodos BSS, não se sabe, após a fatoração, qual a associação deve serfeita entre as componentes para se estimar as fontes.

Os métodos para a associação podem ser supervisionados com a disponibilidadede informações prévias sobre as fontes ou não supervisionados, os quais recorrema uma clusterização manual ou automática. A implementação discutida nessecapítulo procura avaliar a qualidade das fatorações; portanto, a associação de com-ponentes foi feita de modo que essa fase influenciasse o mínimo possível no resultado.

Uma clusterização automática e supervisionada foi implementada com os sinaisde referência das fontes separadas. Uma medida de similaridade entre a magnitudedas STFTs da referência de cada fonte e de cada componente foi utilizada para de-terminar a associação. A medida de similaridade foi calculada entre cada referênciade fonte k e componente m como:

Cass(m,k) =∑Fbin∑O[∣Sk∣]

2Fbin,O

∑Fbin∑O([∣Sk∣]Fbin,O − [∣Cm∣]Fbin,O)2, (4.23)

onde Sk denota a STFT da referência da fonte k e Cm denota a STFT de cadacomponente estimada. Uma componente m é associada a uma fonte k que produzo máximo valor de Css(m,k). O resultado final dessa implementação é a geração de

61

Page 91: métodos para separação de vozes a partir de misturas pré-gravadas

um vetormk para cada fonte, que possuirá o identificador de todas as componentesa ela associadas.

Essa abordagem para a associação pode produzir resultados ótimos mas não re-alísticos, já que na prática não se conheceriam as referências. Entretanto, nestemomento está sendo feita uma avaliação da fatoração. Uma aplicação final de se-paração de fontes de áudio BSS deve utilizar algum método não supervisionado quedeverá produzir resultados piores.

Síntese

A partir da geração do vetormk de associação de componentes com fontes, pode-se produzir os espectros estimados em magnitude ∣Sk∣ ou potência ∣Sk∣2 das fontes.O processo de síntese será feito em duas etapas: a primeira busca regenerar a fase daSTFT Sk e a segunda calcula a iSTFT da representação. A regeneração da fase daestimativa da fonte será feita a partir de um filtro de Wiener com a mistura original,o que pode ser denotado matematicamente como:

Sk = ( ∑m∈mk

wmhm ⊘ (WH)) ⊗ X. (4.24)

A implementação da regeneração de fase utilizada foi elaborada por OZEROV eFÉVOTTE em [26]. E a implementação da iSTFT é fornecida pelo SiSEC em [28].

4.6.3 Separação cega de misturas subdeterminadas de música

sem voz

Esse primeiro experimento procura estabelecer uma referência para uso da im-plementação ao explorar misturas clássicas para a NMF.

Base de dados

Avalia-se a separação de misturas sintéticas instantâneas, correspondendo adados de teste e desenvolvimento da SiSEC 2010. Especificamente, os dadosestão disponíveis no site do evento e são relativos a “underdetermined speech andmusic mixtures task ” [28]. Todas as misturas têm duração de 10 segundos e foramamostradas em 16 kHz.

A mistura instantânea é caracterizada por ganhos estáticos e positivos. Cadafonte foi gravada separadamente por um microfone omnidirecional e sem saturação.Em seguida, as gravações foram somadas para formar a mistura.

62

Page 92: métodos para separação de vozes a partir de misturas pré-gravadas

As seguintes misturas são consideradas:

wdrums: uma mistura estéreo instantânea de três fontes musicais, dois instrumen-tos percussivos e um baixo. Os arquivos são disponibilizados nos dados dedesenvolvimento do SiSEC 2010 em [28].

nodrums: uma mistura estéreo instantânea de três fontes musicais, um violão acús-tico rítmico, uma guitarra elétrica solista e um baixo. Os arquivos são dispo-nibilizados nos dados de desenvolvimento do SiSEC 2010 em [28].

Como as misturas utilizadas são estéreo, a implementação irá considerar apenaso primeiro canal dos arquivos WAV. De acordo com a descrição das misturas, sãoconsideradas K = 3 fontes presentes na mistura.

Resultados

Nesta seção, procura-se discutir os resultados dos experimentos envolvendo asimplementações MU/NMF-KL e MU/NMF-IS e as misturas wdrums e nodrumsexibidos na Tabela 4.6.

O número de componentes por fontes, Msource, considerado para o experimentocom instrumentos musicais foi 6. O valor é utilizado pela literatura [23, 24, 26] naseparação de misturas contendo instrumentos musicais. Intuitivamente, o valor decomponentes por fonte pode ser aumentado para permitir a modelagem de todas asdiversidades das fontes, por exemplo, uma componente por nota musical. Em outraspalavras, aumentar o número de componentes por fonte aumenta a flexibilidadedo modelo; entretanto, pode haver overfitting12, o que favorece a ocorrência demínimos locais, dificultando a otimização e tornando a fatoração mais intensacomputacionalmente13. A literatura procura utilizar um valor baixo de componentespor fonte, mas que permita a separação, M lit

source ∈ [4,10]. Valores maiores sãoutilizados para misturas contendo voz e valores menores para outros sinais acústicos.

A Figura 4.3 confirma que um Msource maior aumenta a flexibilidade domodelo e permite uma menor divergência entre as STFTs da estimativa e damistura observada. Entretanto, não são encontrados resultados progressivamentecrescentes ao se avaliar a SDR das fontes estimadas na Figura 4.4. FÉVOTTEet al. sugerem utilizar o menor valor de componentes por fonte que consigaproduzir custo mínimo sob uma análise como a da Figura 4.3. Entretanto,

12Overfitting ocorre quando um modelo é excessivamente complexo, por exemplo, por ter muitosparâmetros em relação ao número de observações.

13FÉVOTTE et al. [23] apresentam uma comparação das complexidades da NMF-KL e NMF-IScom diferentes números de componentes por fontes.

63

Page 93: métodos para separação de vozes a partir de misturas pré-gravadas

nessa figura, o custo é tão menor quanto maior o número de componentes,não convergindo para um mínimo como encontrado no experimento em [23], queanalisava um sinal mais simples, gravado de um piano Yamaha DisKlavier MX100A.

O número de componentes é um parâmetro importante para que a imple-mentação tenha desempenho ótimo na separação, e o método de determinaçãodesse parâmetro mais encontrado na literatura é através de tentativa e erro. Osvalores de componentes por fonte utilizados nesse trabalho não são os ótimos nosexperimentos realizados; a comparabilidade e a reprodutividade dos experimentosfoi priorizada sobre o desempenho ótimo. Afinal, embora os resultados possam serainda otimizados, as conclusões sobre eles se mantêm (ver Figura 4.7). Os valoresutilizados são comuns na literatura. Um profissional, ao utilizar as implementaçõespara separação, pode realizar múltiplos testes com diversos parâmetros e umabase para determinar o conjunto de parâmetros que leva à solução ótima no seu caso.

A Figura 4.5 reexibe a evolução dos custos para as implementações quandoaplicadas à base de dados discutida. Na imagem, são exibidos os custos das 10execuções ao longo das 1000 iterações. A observação imediata é que os valores demínimo e máximo custo para cada algoritmo na iteração 1000 são diferentes. Issosignifica que os algoritmos falharam ao convergir após 1000 iterações ou que há apresença de mínimos locais.

Na mistura wdrums, melhores resultados são obtidos pela implementaçãoMU/NMF-IS. A implementação MU/NMF-KL apresenta resultados pouco in-feriores, mas com interpretações parecidas. Para as duas implementações, osinstrumentos percussivos foram separados com sucesso do baixo; entretanto, osexperimentos não foram capazes de separar os instrumentos percussivos entre si.

Na mistura nodrums, melhores resultados são obtidos pela implementaçãoMU/NMF-KL. A outra implementação não teve sucesso na estimativa das fontes.O experimento envolvendo MU/NMF-KL conseguiu separar o baixo; entretanto, oviolão (em inglês rhythmic guitar) esteve presente em componentes das duas outrasfontes.

Observa-se em wdrums que as implementações possuem ótimo desempenho naseparação de instrumentos percussivos dos outros. Essa observação corrobora com aideia estabelecida na literatura de que instrumentos percussivos são favorecidos nafatoração de modelos NMF [36].

64

Page 94: métodos para separação de vozes a partir de misturas pré-gravadas

4 6 8 10 12 14 16 18 200.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

C(·)

Msour ce

(a) Implementação MU/NMF-KL e misturawdrums

4 6 8 10 12 14 16 18 200.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

C(·)

Msour ce

(b) Implementação MU/NMF-KL e misturanodrums

4 6 8 10 12 14 16 18 203.5

4

4.5

5

5.5

6

6.5

7

7.5x 10

4

C(·)

Msour ce

(c) Implementação MU/NMF-IS e misturawdrums

4 6 8 10 12 14 16 18 206.5

7

7.5

8

8.5

9

9.5

10

10.5

11

11.5x 10

4

C(·)

Msour ce

(d) Implementação MU/NMF-IS e misturanodrums

Figura 4.3: Custo após 1000 iterações de cada uma das 10 inicializações robustaspara diferentes valores de componentes por fonte Msource. Misturas do experimento4.6.3.

65

Page 95: métodos para separação de vozes a partir de misturas pré-gravadas

2 4 6 8 10 12 14 16 18 20 22−10

−5

0

5

10

15

20

SD

R (

dB

s)

Msour ce

(a) Implementação MU/NMF-KL e misturawdrums

2 4 6 8 10 12 14 16 18 20 220

2

4

6

8

10

12

SD

R (

dB

s)

Msour ce

(b) Implementação MU/NMF-KL e misturanodrums

2 4 6 8 10 12 14 16 18 20 22−10

−5

0

5

10

15

20

SD

R (

dB

s)

Msour ce

(c) Implementação MU/NMF-IS e misturawdrums

2 4 6 8 10 12 14 16 18 20 22−12

−10

−8

−6

−4

−2

0

2

4

6

SD

R (

dB

s)

Msour ce

(d) Implementação MU/NMF-IS e misturanodrums

Figura 4.4: SDR das estimativas das fontes após 1000 iterações, com inicializaçãode menor custo para diferentes valores de componentes por fonte Msource. Misturasdo experimento 4.6.3.

66

Page 96: métodos para separação de vozes a partir de misturas pré-gravadas

100

101

102

103

10−1.6

10−1.5

C(·)

sf at

(a) Implementação MU/NMF-KL e misturawdrums

100

101

102

103

10−1.2

10−1.19

10−1.18

10−1.17

10−1.16

10−1.15

10−1.14

C(·)

sf at

(b) Implementação MU/NMF-KL e misturanodrums

100

101

102

103

104

105

106

C(·)

sf at

(c) Implementação MU/NMF-IS e misturawdrums

100

101

102

103

104

105

106

C(·)

sf at

(d) Implementação MU/NMF-IS e misturanodrums

Figura 4.5: Evolução na escala log-log das funções custo durante 1000 iterações em10 execuções para cada Experimento descrito na Seção 4.6.3.

67

Page 97: métodos para separação de vozes a partir de misturas pré-gravadas

wdrumss1 s2 s3

Hi-hat Drums BassMU/NMF-IS

SDR 7.5 -1.3 17.3SIR 10.3 -3.1 21.7SAR 11.9 1.1 21.8

MU/NMF-KLSDR 2.7 -4.5 13.8SIR 6.9 -9.1 21.8SAR 5.3 5.7 19.4

nodrumss1 s2 s3

Bass Lead G. Rhythmic G.MU/NMF-IS

SDR -10.5 0.6 3.1SIR -10.0 1.5 6.8SAR 3.2 -3.0 3.3

MU/NMF-KLSDR 11.0 2.9 4.0SIR 15.7 3.7 4.2SAR 18.3 9.1 11.3

Tabela 4.6: SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Melhores resultados selecionados de 10 execuções com1000 iterações cada. Maiores valores indicam melhores resultados. Valores em ne-grito indicam resultados com melhor SDR média para uma base de dados. Experi-mento descrito na Seção 4.6.3.

4.6.4 Separação cega de misturas de músicas gravadas pro-

fissionalmente com voz

Ao aplicar a implementação em misturas contendo uma fonte de sinal de voz eoutras fontes acústicas, procura-se realizar uma avaliação preliminar do desempenhocom voz.

Base de dados

Avalia-se a separação de misturas de músicas gravadas profissionalmente,correspondendo a dados de teste e desenvolvimento do SiSEC 2008 e 2010.Especificamente, os dados estão disponíveis no site do evento e são relativos a“professionally produced music recordings task ” [65]. Todas as misturas foramamostradas em 44.1 kHz.

As seguintes misturas são consideradas:

Tamy, Que Pena Tanto Faz: um trecho de 13 segundos da música ‘Que Pena /Tanto Faz’ de Tamy, Curvemusic14. O trecho da música utilizado como misturapossui duas fontes musicais (K = 2): um violão e uma voz.

14Licensed under Creative Commons Attribution Noncommercial 3.0:http://creativecommons.org/licenses/by-nc/3.0/

68

Page 98: métodos para separação de vozes a partir de misturas pré-gravadas

Another Dreamer, The Ones We Love: um trecho de 25 segundos da música‘The ones we love’ de Another Dreamer (Chad Manney) e Eva15. O trechoutilizado possui três fontes musicais (K = 3): um violão, uma voz e um instru-mento percussivo.

Como as misturas utilizadas são estéreo, a implementação irá considerar apenaso primeiro canal dos arquivos WAV.

Resultados

O número de componentes por fontes, Msource, considerado foi 10. Comodestacado em [26] e observado na Figura 4.7 para a implementação IS, maiscomponentes são necessárias para modelar a variabilidade do sinal de voz. Comono caso anterior, o custo é reduzido com o aumento das componentes, como sevê na Figura 4.6; entretanto, isso não é suficiente para se aumentar a qualidadeda separação. Embora o valor utilizado não seja o ótimo, ele é comparável com aliteratura e as conclusões sobre os resultados são as mesmas (ver Figura 4.7).

A Figura 4.8 exibe a evolução dos custos para as implementações quandoaplicadas à base de dados discutida. Devido à maior complexidade do experimento,5000 iterações foram utilizadas. Novamente, pode ser observado que os algoritmosfalharam ao convergir após 5000 iterações, ou há a presença de mínimos locais.

Para a mistura “Tamy”, melhores resultados são obtidos pela implementaçãoMU/NMF-IS, embora a MU/NMF-KL também tenha sido capaz de solucionar oproblema. As duas implementações conseguiram retirar o violão das componentesde voz; entretanto, parte do sinal de voz ainda é observada na estimativa do violão.

Com a mistura “Another Dream”, a implementação com MU/NMF-IS não foicapaz de separar as fontes. Já a implementação MU/NMF-KL conseguiu separara percussão do violão, mas um pouco do sinal de voz está presente em todas asfontes, principalmente na estimativa do violão.

O desempenho das implementações NMF na separação de misturas contendo vozparece ser inferior ao com misturas contendo somente instrumentos musicais.

15Licensed under Creative Commons Attribution Noncommercial 1.0:http://creativecommons.org/licenses/by-nc/1.0/

69

Page 99: métodos para separação de vozes a partir de misturas pré-gravadas

4 6 8 10 12 14 16 18 200.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

C(·)

Msour ce

(a) Implementação MU/NMF-KL, mistura“Tamy”

4 6 8 10 12 14 16 18 200.04

0.05

0.06

0.07

0.08

0.09

0.1

0.11

0.12

0.13

0.14

C(·)

Msour ce

(b) Implementação MU/NMF-KL, mistura“Another Dreamer”

4 6 8 10 12 14 16 18 203.5

4

4.5

5

5.5x 10

5

C(·)

Msour ce

(c) Implementação MU/NMF-IS, mistura“Tamy”

4 6 8 10 12 14 16 18 206

6.5

7

7.5

8

8.5x 10

5

C(·)

Msour ce

(d) Implementação MU/NMF-IS, mistura“Another Dreamer”

Figura 4.6: Custo após 1000 iterações de cada uma das 10 inicializações robustaspara diferentes valores de componentes por fonte Msource. Misturas do experimento4.6.4.

Tamys1 s2

Violão VozMU/NMF-IS

SDR 6.3 6.8SIR 9.8 15.2SAR 8.3 7.8

MU/NMF-KLSDR 5.9 6.4SIR 6.5 15.4SAR 13.0 11.8

Another Dreamers1 s2 s3

Percussão Violão VozMU/NMF-IS

SDR 0.4 3.6 -1.6SIR 2.1 6.3 -1.4SAR 4.8 5.1 5.4

MU/NMF-KLSDR 3.7 3.7 3.1SIR 7.9 4.8 9.3SAR 6.7 8.8 5.0

Tabela 4.7: SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Melhores resultados selecionados de 10 execuções com5000 iterações cada. Maiores valores indicam melhores resultados. Valores em ne-grito indicam resultados com melhor SDR média para uma base de dados. Experi-mento descrito na Seção 4.6.4.

70

Page 100: métodos para separação de vozes a partir de misturas pré-gravadas

2 4 6 8 10 12 14 16 18 20 220

1

2

3

4

5

6

Msource

SD

R (

dB

s)

(a) Implementação MU/NMF-KL, mistura“Tamy”

2 4 6 8 10 12 14 16 18 20 220

0.5

1

1.5

2

2.5

3

3.5

4

SD

R (

dB

s)

Msour ce

(b) Implementação MU/NMF-KL, mistura“Another Dreamer”

2 4 6 8 10 12 14 16 18 20 220

1

2

3

4

5

6

7

8

9

Msource

SD

R (

dB

s)

(c) Implementação MU/NMF-IS, mistura“Tamy”

2 4 6 8 10 12 14 16 18 20 22−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

SD

R (

dB

s)

Msour ce

(d) Implementação MU/NMF-IS, mistura“Another Dreamer”

Figura 4.7: SDR das estimativas das fontes após 1000 iterações, com inicializaçãode menor custo para diferentes valores de componentes por fonte Msource. Misturasdo experimento 4.6.4.

71

Page 101: métodos para separação de vozes a partir de misturas pré-gravadas

100

101

102

103

104

0.095

0.1

0.105

C(·)

sf at

(a) Implementação MU/NMF-KL, mistura“Tamy”

100

101

102

103

104

10−0.98

10−0.97

10−0.96

10−0.95

10−0.94

10−0.93

C(·)

sf at

(b) Implementação MU/NMF-KL, mistura“Another Dreamer”

100

101

102

103

104

105

106

107

C(·)

sf at

(c) Implementação MU/NMF-IS, mistura“Tamy”

100

101

102

103

104

105

106

107

C(·)

sf at

(d) Implementação MU/NMF-IS, mistura“Another Dreamer”

Figura 4.8: Evolução na escala log-log das funções custo durante 5000 iterações em10 execuções para cada mistura. Experimento descrito na Seção 4.6.4.

72

Page 102: métodos para separação de vozes a partir de misturas pré-gravadas

4.6.5 Separação cega de misturas subdeterminadas de voz

O terceiro experimento busca avaliar o desempenho da implementação em mis-turas de vozes.

Base de dados

Avalia-se a separação de misturas sintéticas instantâneas, correspondendo adados de teste e desenvolvimento da SiSEC 2008. Especificamente, os dados estãodisponíveis no site do evento e são relativos a “underdetermined speech and musicmixtures task ” [28]. Todas as misturas são de 10 segundos e foram amostradas em16 kHz.

A mistura instantânea é caracterizada por ganhos estáticos e positivos. Cadafonte foi gravada separadamente por um microfone omnidirecional. Em seguida, asgravações foram somadas para formar a mistura.

As seguintes misturas são consideradas:

3 vozes simultâneas fem.: uma mistura estéreo instantânea de três fontes de vozfeminina simultâneas16. Os arquivos são disponibilizados nos dados de desen-volvimento do SiSEC 2008 em [28].

3 vozes simultâneas masc.: uma mistura estéreo instantânea de três fontes devoz masculina simultâneas16. Os arquivos são disponibilizados nos dados dedesenvolvimento do SiSEC 2008 em [28].

Como as misturas utilizadas são estéreo, a implementação irá considerar apenaso primeiro canal dos arquivos WAV. São consideradas 3 fontes na mistura, K = 3.

Resultados

Foram utilizadas 10 componentes por fontes, Msource = 10, já que a misturaenvolvia fontes de sinais de voz.

As implementações foram avaliadas em 10 execuções de 1000 iterações. Emboraa MU/NMF-KL tenha tido resultados pouco superiores em termos de SDR segundoa Tabela 4.8, o desempenho não é suficiente para produzir estimativas de fontesininteligíveis. Com isso, nenhuma implementação foi capaz de separar vozes de uma

16Não há pausa e nem intervalo de nenhuma das fontes; todos os segmentos da mistura possuemtodas as fontes.

73

Page 103: métodos para separação de vozes a partir de misturas pré-gravadas

mesma mistura.

Com isso, a NMF de um canal não consegue estimar as fontes adequadamentenuma mistura de fontes simultâneas. Para melhorar esse desempenho, característicasfacilitadoras serão exploradas no próximo capítulo.

3 vozes simultâneas fem.s1 s2 s3

Voz 1 Voz 2 Voz 3MU/NMF-IS

SDR 0.1 -3.7 1.9SIR 1.9 -7.8 2.1SAR 0.9 2.1 8.3

MU/NMF-KLSDR -0.1 1.6 3.0SIR -1.1 3.1 4.0SAR 3.4 5.9 7.9

3 vozes simultâneas masc.s1 s2 s3

Voz 1 Voz 2 Voz 3MU/NMF-IS

SDR -2.4 1.2 -0.5SIR -6.0 1.4 -2.4SAR 1.9 3.7 4.4

MU/NMF-KLSDR -1.9 1.1 2.7SIR -7.2 1.3 6.6SAR 2.7 8.9 6.3

Tabela 4.8: SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Melhores resultados selecionados de 10 execuções com1000 iterações cada. Maiores valores indicam melhores resultados. Experimentodescrito na Seção 4.6.5.

74

Page 104: métodos para separação de vozes a partir de misturas pré-gravadas

4.7 Conclusão do capítulo

As implementações com NMF de um canal conseguem estimar a separação demisturas de música, entretanto, o desempenho é inferior quando a mistura envolvevoz e a separação de múltiplos sinais de voz não foi possível.

Para melhorar o desempenho da separação de misturas com sinais de voz,procura-se explorar características facilitadoras de separação. Dentre elas, destaca-se o uso de múltiplas misturas ou multicanais. Essa extensão será apresentada noCapítulo 5, Extensões da NMF.

75

Page 105: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 5

Extensões da NMF

Dentre as extensões à técnica NMF encontradas na literatura, destacam-se amulticanal [26] e a que busca uma solução via interpretação estatística [23]. Elasprocuram explorar a informação redundante entre os canais e a distribuição dasfontes, respectivamente, para facilitar a separação e melhorar os resultados.

A extensão para múltiplos canais possui grande potencial prático, uma vezque muitas gravações de áudio ou de música são disponibilizadas em um formatomulticanal, sendo o mais típico o estéreo.

Extensões para múltiplos canais, propostas pela literatura, seguem duas abor-dagens: (1) procuraram concatenar os espectrogramas de cada canal da misturapara formar uma única matriz [66], ou (2) consideram a fatoração de tensores não-negativos (NTF, do inglês nonnegative tensor factorization) sobre a estrutura deanálise de fatores paralelos (PARAFAC), onde os espectrogramas dos canais da mis-tura formam um tensor, i.e., uma matriz de três dimensões. A fatoração de tensoresnão-negativos aplicada a espectrogramas de áudio multicanal seguindo uma estru-tura PARAFAC foi proposta por FITZGERALD et al. em [25, 67] como um meiode separação cega de uma mistura multicanal.

Seja Xi a STFT do canal i, uma matriz de valores complexos e de dimensõesF ×O , onde i = 1, ..., I e I é o número de canais presentes na mistura (I = 2 no casoestéreo). As abordagens irão assumir que a magnitude dos espectrogramas ∣Xi∣ ou apotência deles ∣Xi∣

.[2] são aproximadas por uma combinação linear de componenteselementares ∣Cm∣ =wmhm tal que:

Vi ≈M

∑m=1

qim∣Cm∣, (5.1)

onde Vi, assim como no caso de um canal, pode ser ∣Xi∣ ou ∣Xi∣.[2] dependendo das

76

Page 106: métodos para separação de vozes a partir de misturas pré-gravadas

escolhas de implementação. Podemos denotar a forma escalar equivalente como:

vifo ≈M

∑m=1

qimwfmhmo, (5.2)

onde vifo é um coeficiente de V , que assim denota uma matriz de três dimensões. Amatriz de misturaQ pode ser definida pelos coeficientes qim, e estes são interpretadoscomo o ganho que cada componente tem em cada canal da mistura.

O problema de otimização do caso multicanal pode ser escrito de maneira similarao anterior:

(Q,W ,H) = arg minQ,W ,H≥0

C(V ∣Q,W ,H). (5.3)

As funções custo a serem utilizadas são as mesmas do caso de um canal. Apósa fatoração, as fases dos espectrogramas das componentes são reconstruídas e ascomponentes separadas são reagrupadas em fontes manual ou automaticamente. Nocaso automático, abordagens de clusterização procuram explorar a matriz Q. Porexemplo, ao se assumir as fontes como pontuais, pode-se estimar uma agrupandotodas as componentes com ganhos qim semelhantes [24].

Neste capítulo, procura-se apresentar:

Na Seção 5.1, implementações NTF-KL e NTF-IS para fatorações de misturasno caso multicanal.

Na Seção 5.2, uma extensão para a NTF que permite clusterizar as componentesem fontes durante a fatoração.

Na Seção 5.3, interpretação estatística do problema de separação com abordagemNMF buscando uma solução por maximização de expectativa (EM, do inglêsexpectation maximization).

Na Seção 5.4, resultados de experimentos com a NMF e suas extensões na sepa-ração de fontes de voz.

5.1 A NTF

Assume-se uma gravação de áudio multicanal com I canais x(n) =

(x1(n), ..., xI(n))T , também referida como uma observação. Supondo a superpo-sição das fontes na mistura, pode-se denotar:

77

Page 107: métodos para separação de vozes a partir de misturas pré-gravadas

x(n) =K

∑k=1

sk(n), (5.4)

onde K é o número de fontes e sk(n) = (s1k(n), ..., sIk(n))T é a contribuição a todosos canais da fonte k. Assumindo as fontes como pontuais e o sistema de misturacomo linear e instantâneo, pode-se definir a contribuição das fontes a cada canalcomo:

sik(n) = aiksk(n), (5.5)

onde os coeficientes aik definem uma matriz I ×K de mistura, A = (a1, ...,aK). Omodelo de fontes em componentes elementares é mantido na NTF; portanto, pode-sedenotar a mistura como:

xi(n) =M

∑m=1

qimcm(n), (5.6)

ondeM é o número de componentes na mistura e qim é o ganho de cada componentem no canal i. Como a STFT é uma transformação linear, o modelo pode ser reescritopara a sua representação em tempo-frequência como:

xifo =M

∑m=1

qimcmfo. (5.7)

NTF-KL

Para a NTF-KL, que utiliza a divergência de Kullback-Leibler, assume-se Vcomo um tensor I ×F ×O com coeficientes vifo = ∣xifo∣ e Q como uma matriz I ×Mde elementos qim, qim = ∣aik∣ se e somente se a componente m pertencer à fonte k,m ∈mk . O problema consiste em resolver um problema de otimização definido por:

(Q,W ,H) = arg minQ,W ,H≥0

CKL(V ∣Q,W ,H). (5.8)

NTF-IS

Para a NTF-IS, que utiliza a divergência de Itakura-Saito, assume-se V comoum tensor I × F × O com coeficientes vifo = ∣xifo∣2 e Q como uma matriz I ×Mde elementos qim, qim = ∣aik∣2 se e somente se a componente m pertencer à fonte k,m ∈mk. O problema consiste em resolver um problema de otimização definido por:

(Q,W ,H) = arg minQ,W ,H≥0

CIS(V ∣Q,W ,H). (5.9)

78

Page 108: métodos para separação de vozes a partir de misturas pré-gravadas

Além das duas funções custo, as diferenças entre os modelos está resumida naTabela 5.1. FEVOTTE e OZEROV, em [24], elaboram sobre as duas abordagens eapresentam uma interpretação estatística para o modelo de acordo com caracterís-ticas das fontes.

Modelagem NTF-KL NTF-IS

Entrada V = ∣X ∣ V = ∣X ∣.[2]

Fatoração vifo ≈ vifo = ∑m qimwfmhmo

Componentes ∣Cim∣ = qimwmhm ∣Cim∣.[2] = qimwmhm

Reconst. Fase Cim = (qimwmhm ⊘ ∑m{qimwmhm}) ⊗ X

Fontes Sik = ∑m∈mkCim

Tabela 5.1: Modelagem para implementações NTF-IS e NTF-KL.

5.1.1 Algoritmo para solução da NTF

A solução da NTF, ou estimativa das matrizes Q, W e H , é calculada atravésda minimização do problema de otimização

(Q,W ,H) = arg minQ,W ,H≥0

C(V ∣ V ), (5.10)

onde a função custo C considerada neste trabalho será a KL ou a IS. Similarmenteao caso da NMF, o problema sofre de indeterminações quanto à escala; portanto, asnormas das matrizesQ eW serão transferidas para a matriz1 H durante a fatoração.

A estratégia de redução alternada será utilizada através de um algoritmo multipli-cativo buscando a minimização de C(V ∣ V ) a cada iteração. Com desenvolvimentosimilar a NMF, cada atualização multiplicativa dos parâmetros garante uma reduçãoda função custo. Para se obter o valor de uma nova iteração, o valor do parâmetroda iteração anterior é multiplicado pela razão das partes negativas e positivas dogradiente da função custo; em outras palavras, o parâmetro genérico θ é atualizadopor:

θs = θs−1 ⊗∇θC(θ∣θs−1)− ⊘∇θC(θ∣θ

s−1)+, (5.11)

onde s denota a iteração do algoritmo e os superescritos + e − denotam a partepositiva e negativa do gradiente2.

1A norma de qm é calculada pela soma de todos os elementos, em seguida os elementos de qmsão divididos por essa norma e se multiplica todos os elementos de hm pela norma. A mesmaoperação é feita para a matriz W .

2Apesar da nomenclatura utilizada pela literatura, os dois termos são não-negativos.

79

Page 109: métodos para separação de vozes a partir de misturas pré-gravadas

Os gradientes das funções custo CKL e CIS são denotados, respectivamente, por:

∇V CKL(V ∣V ) = V .[−1] ⊗ (V −V ), e (5.12)

∇V CIS(V ∣V ) = V .[−2] ⊗ (V −V ). (5.13)

Considerando A e B matrizes de dimensões F ×M e M ×O, respectivamente,denota-se A ⊙ B o tensor F × O × M com elementos [A]fm[B]mo. Em outraspalavras, os elementos que seriam somados numa multiplicação vetorial entre asmatrizes A e B são expostos separadamente em uma terceira dimensão.

Define-se uma generalização do produto de duas matrizes para dois tensoresC ∈ CI×F×O e D ∈ CF×O×M que possuem dimensões comuns indicadas por vetoresκC e κD, como < C,D >κC , κD . O resultado dessa operação é uma matriz dedimensões I ×M . Com essas definições, denota-se o gradiente dos parâmetros Q,W e H da otimização com uma função custo C(⋅):

∇QC(V ∣V ) =< ∇V C(V ∣V ), W ⊙H >(2,3),(1,2), (5.14)

∇W C(V ∣V ) =< ∇V C(V ∣V ), Q⊙HT >(1,3),(1,2), (5.15)

∇HC(V ∣V ) =< ∇V C(V ∣V ), Q⊙W >(1,2),(1,2) . (5.16)

As regras para atualização multiplicativa alternada são obtidas genericamentepara uma determinada função custo C(⋅):

Qs =Qs−1 ⊗ < ∇V C(V ∣V )−, W ⊙H >(2,3),(1,2) ⊘

< ∇V C(V ∣V )+, W ⊙H >(2,3),(1,2), (5.17)

W s =W s−1 ⊗ < ∇V C(V ∣V )−, Q⊙HT >(1,3),(1,2) ⊘

< ∇V C(V ∣V )+, Q⊙HT >(1,3),(1,2), (5.18)

Hs =Hs−1 ⊗ < ∇V C(V ∣V )−, Q⊙W >(1,2),(1,2) ⊘

< ∇V C(V ∣V )+, Q⊙W >(1,2),(1,2), (5.19)

onde os superescritos + e − denotam as partes positiva e a negativa dos gradientes,respectivamente.

80

Page 110: métodos para separação de vozes a partir de misturas pré-gravadas

Por fim, o algoritmo de atualizações alternadas multiplicativas para a soluçãodo problema utilizando divergências KL e IS, respectivamente, pode ser denotadode modo genérico como detalhado pelo Algoritmo 7.

Algoritmo 7 MU/NTFEntrada: Tensor não-negativo V e máximo de iterações SSaída: Matrizes não-negativas Q, W e H

1: s← 12: Inicialize Q, W e H com valores não-negativos3: repita4: Q←Q ⊗ < ∇V C(V ∣V )−, W ⊙H >(2,3),(1,2) ⊘

< ∇V C(V ∣V )+, W ⊙H >(2,3),(1,2)

5: W ←W ⊗ < ∇V C(V ∣V )−, Q⊙HT >(1,3),(1,2) ⊘

< ∇V C(V ∣V )+, Q⊙HT >(1,3),(1,2)

6: H ←H ⊗ < ∇V C(V ∣V )−, Q⊙W >(1,2),(1,2) ⊘

< ∇V C(V ∣V )+, Q⊙W >(1,2),(1,2)

7: s← s + 1;8: Normalize Q, W e H9: até convergência ou s ≥ S

5.2 A Cluster NTF

A solução da otimização da NTF, Equação (5.3), produz estimativas dascomponentes e a associação posterior delas com fontes ainda é necessária. Busca-seuma extensão da NTF como sugestão de solução prática para o problema deassociação de componentes com fontes.

FEVOTTE e OZEROV [24] sugerem explorar características do modelo daNMF multicanal para associar componentes com fontes antes ou durante a fatoração.

Ao se assumir as fontes como pontuais, a associação pode ser realizada peloagrupamento de componentes com ganhos similares por canal. Alternativamente,pode-se procurar realizar a associação durante a fatoração pela adição de restrições.A Equação (5.5) denota que um sinal de uma fonte sk(n) possui um ganho aik

relacionado a ela e ao canal da observação i. E as componentes da fonte k,identificadas por mk, possuem um ganho qim para cada canal.

Como já denotado, qim é definido como qim = ∣aik∣ ou qim = ∣aik∣2, para imple-mentações KL e IS, respectivamente, se e somente se a componente m pertencer

81

Page 111: métodos para separação de vozes a partir de misturas pré-gravadas

à fonte k, m ∈ mk, o que resultaria em ganhos iguais para componentes damesma fonte. Embora a restrição no modelo, essa restrição não é presente nafatoração da NTF; em outras palavras, ao se fatorar a mistura em Q, W e H ,cada componente de uma fonte poderá assumir valores diferentes de ganho por canal.

Com isso, sugere-se fatorar uma matriz D ∈ RI×K em vez da Q ∈ RI×M , de formaque:

Q =DL, (5.20)

onde

D = ∣A∣, para NTF-KL, (5.21)

D = ∣A∣.[2], para NTF-IS, (5.22)

e a matriz A possui componentes aik equacionados em (5.5).

Considera-se L como uma matriz K ×M que associa componentes com fontesao possuir somente um valor não-nulo por coluna; matematicamente:

lkm = 1 se e somente se m ∈mk, (5.23)

lkm = 0 para todos outros casos. (5.24)

Ao se fatorar a matriz D em vez de Q, define-se uma nova NTF, referida porFEVOTTE e OZEROV [24] como Cluster NTF e denotada nesse trabalho comoNTFclus. O problema de otimização dado pela Equação (5.3) é modificado ao sesubstituir a minimização por Q pela minimização por D. Dessa forma, o gradientede D pode ser definido como:

∇DC(V ∣V ) =< ∇V C(V ∣V ), W ⊙H >(2,3),(1,2) LT , (5.25)

para que a atualização multiplicativa de D seja obtida como:

Ds =Ds−1 ⊗ < ∇V C(V ∣V )−, W ⊙H >(2,3),(1,2) LT ⊘

< ∇V C(V ∣V )+, W ⊙H >(2,3),(1,2) LT . (5.26)

As implementações MU/NTFclus-IS e MU/NTFclus-KL podem ser obtidas peloalgoritmo genérico da MU/NTF.

82

Page 112: métodos para separação de vozes a partir de misturas pré-gravadas

5.3 Interpretação estatística

Voltando ao caso de um canal, a NMF também pode ser calculada através daestimativa de máxima verossimilhança dos parâmetros θ = {W ,H} a partir de umapremissa sobre a distribuição das fontes originárias na forma da função de verossi-milhança p(V ∣θ). Dessa forma, o problema de otimização descrito na Equação (4.2)pode produzir a estimativa de máxima verossimilhança (ML, do inglês maximum li-kelihood) ao se escolher a função custo C(⋅) a minimizar como o logaritmo3 negativoda função de verossimilhança:

CML(V ∣W ,H) = −∣∣ log [p(V ∣W ,H)]∣∣S, (5.27)

onde ∣∣ ⋅ ∣∣S denota a soma de todos os elementos da matriz ou do vetor e a funçãolog(⋅) é aplicada a cada elemento da matriz. Aprofundando, a mistura, em suarepresentação tempo-frequência, é denotada por:

Xfo =M

∑m=1

Cmfo, (5.28)

onde Xfo e Cmfo são elementos das STFTs da mistura observada, X ∈ CF×O, eda componente m de C ∈ CM×F×O, respectivamente. Assumem-se as componentescomo independentes e de distribuição:

cmo ∼ NC(0,diag(wm)hmo), (5.29)

onde o vetor cmo ∈ C1×F contém todas as raias associadas às frequências f = [1, F ]

da componente m no quadro o e NC(µ,Σ) denota uma distribuição multivariávelcomplexa gaussiana. Cada elemento da STFT da componente m em uma raia defrequência f e no quadro o, possui distribução gaussiana de média zero e variânciaigual à estimativa wfmhmo.

Ao se definir V = ∣X ∣.[2], a função custo para o cálculo da estimativa de máximaverossimilhança é obtida como:

CML(V ∣W ,H) = −∣∣ log [p(V ∣W ,H)]∣∣S

= −∣∣ log [NC(X ∣0,WH)]∣∣S.(5.30)

FÉVOTTE et al. observam em [23] que a estimativa de máxima verossimilhançade W e H pela minimização de CML(V ∣W ,H) é equivalente à NMF de V em

3Problemas de otimização envolvendo modelagem estatística frequentemente trabalham com ologaritmo das funções de verossimilhança devido à natureza exponencial das distribuições envolvi-das; note-se que, com essa transformação, o máximo é preservado.

83

Page 113: métodos para separação de vozes a partir de misturas pré-gravadas

V ≈WH quando a divergência de Itakura-Saito é utilizada. Em outras palavras, émostrado que CML(V ∣W ,H) se iguala, a menos de uma constante e um fator fixo,a CIS(V ∣W ,H).

A NMF-IS pode ser utilizada para a criação de uma estimativa ML considerandoa mistura como uma soma de componentes gaussianas. Com a interpretação esta-tística, pode-se utilizar uma estratégia iterativa EM para resolver o problema. ASeção 5.3.1 apresenta uma implementação para o caso de um canal, a EM/NMF-IS, enquanto a Seção 5.3.2 apresenta uma implementação para o caso multicanal, aEM/NTF-IS.

5.3.1 A EM/NMF-IS

O EM/NMF-IS é um algoritmo baseado em EM que busca estimar os parâmetrosθ = {W ,H}. A mistura por superposição de fontes permite a estimativa de cadacomponente Cm e seus parâmetros θm = {wm,hm} separadamente. Com isso, oalgoritmo estatístico busca, para cada subgrupo de parâmetros θm, estimar umavariável escondida Cm que representa a STFT da componente m.

Para uma componente m, o passo E do algoritmo consiste em calcular a potênciaposterior Vm da STFT Cm da componente, em que cada elemento é definido por4:

[Vm]fo = [Cm]2fo = ∣µpostm,fo∣

2 + ∣σpostm,fo∣

2, (5.31)

onde µpostm,fo e ∣σpost

m,fo∣2 são, respectivamente, a média e a variância posteriores de cm,fo,

cujas estimativas de máxima verossimilhança são obtidas a partir da observação ede um filtro de Wiener da estimativa de θ na iteração em questão, respectivamentenas formas:

µpostm,fo =

wfmhmo

∑l{wflhlo}xfo, e (5.32)

∣σpostm,fo∣

2 =wfmhmo

∑l{wflhlo}∑l≠m

{wflhlo}. (5.33)

O projeto dos estimadores para o caso gaussiano de mistura linear pode servisto em [68], e o caso específico da NMF foi apresentado em [23].

O passo M procura estimar novos parâmetros θs = {W s,Hs} para a atual ite-ração s através de seu valor esperado. Novamente, a estimativa ML de θs a partir

4Determinado pelo valor esperado do quadrado de uma variável aleatória de distribuição gaus-siana.

84

Page 114: métodos para separação de vozes a partir de misturas pré-gravadas

de X é equivalente à NMF de V em θ quando a divergência de Itakura-Saito éutilizada:

CML(V ∣W ,H) = −∣∣ log [p(V ∣W ,H)]∣∣S = CIS(V ∣W ,H). (5.34)

Com isso, o passo M procura otimizar o problema NMF de uma componente:

(wm,hm) = arg minwm,hm≥0

CIS(Vm ∣wm,hm). (5.35)

Pode-se mostrar que os gradientes, no caso de uma componente, são:

∇hmoCML(Vm∣Vm) =F

hmo−

1

h2mo

F

∑f=1

vm,fowfm

, (5.36)

∇wfmCML(Vm∣Vm) =N

wfm−

1

w2fm

N

∑n=1

vm,fohmo

. (5.37)

E a fatoração é novamente feita por atualizações alternadas multiplicativas en-volvendo a razão das partes negativa e positiva do gradiente, gerando as seguintesregras de atualização:

hs+1mo =1

F

F

∑f=1

vm,fowsfm

, (5.38)

ws+1fo =1

N

N

∑n=1

vm,fohs+1mo

, (5.39)

onde a redução do custo a cada iteração é garantida. O algoritmo é exibido na formamatricial no Algoritmo 8 e é apresentado em [23] por FÉVOTTE et al..

Algoritmo 8 EM/NMF-ISEntrada: Matriz não-negativa V e máximo de iterações SSaída: Matrizes não-negativas W e H , de forma que V ≈WH

1: s← 12: Inicialize W , H com valores não-negativos3: repita4: para m = 1:M faça5: Gm ← (wmhm)⊘ (WH)

6: Vm ←G.[2]m ⊗V + (1 −Gm)⊗ (wmhm)

7: hm ←1F (w

.[−1]m )TVm

8: wm ←1NVm(h

.[−1]m )T

9: s← s + 1;10: Normalize wm e hm11: fim12: até convergência ou s ≥ S.

85

Page 115: métodos para separação de vozes a partir de misturas pré-gravadas

5.3.2 A EM/NTF-IS

A EM/NTF-IS procura estimar o conjunto de parâmetros θ = {Q,W ,H}, ondeQ é a matriz I ×M de elementos qim = ∣aik∣2 se e somente se a componente mpertencer à fonte k, m ∈mk.

Uma primeira implementação da EM/NTF-IS foi sugerida por CARDOSO et al.em [69] para misturas instantâneas, e uma extensão para misturas convolutivas éapresentada por OZEROV e FÉVOTTE em [26]. Neste trabalho, definiu-se abordarapenas misturas instantâneas; entretanto, caso o leitor se interesse pelo cenárioconvolutivo, recomenda-se a leitura de [26].

Considera-se a STFT da observação de I canais, xfo = (x1,fo, ..., xI,fo), umadistribuição gaussiana de média zero e de covariância Σx,fo = AΣs,foAH , ondeΣs,fn = diag((∑m∈m1

wfmhmo, ...,∑m∈mKwfmhmo)) é a covariância de sfo. Da

mesma forma como já definido, a matriz de covariância das componentes, ondecada componente é definida por cm,fo = (c1,m,fo, ..., cI,m,fo), é denotada porΣc,fo = diag((wf1h1o, ...,wfMhMo)).

CARDOSO et al. mostram que a estimativa de máxima verossimilhança procuraminimizar a divergência entre as matrizes I × I de covariâncias da observação e daestimativa:

CML(Σx,fo∣Σx,fo) = tr(Σx,foΣ−1x,fo) − log[det(Σx,foΣ

−1x,fo)] − I, (5.40)

onde a função tr(⋅) retorna a soma dos elementos da diagonal principal de umamatriz e as matrizes de covariância da mistura observada e da estimativa de umaiteração podem ser calculadas, respectivamente, como:

Σx,fo = xfoxHfo, e (5.41)

Σx,fo =AΣs,foAH . (5.42)

A função custo CML(⋅) é a extensão da CIS(⋅) para o caso multicanal; em outraspalavras, a divergência IS é obtida no caso de I = 1 [69].

Para cada componente m, o passo E estima (1) a potência Vm da STFT Cm peloseu valor esperado e (2) a matriz I ×K de mistura, A. O projeto dos estimadorespara o caso gaussiano de mistura instantânea e linear foi primeiro apresentado em[68], mas o desenvolvimento do caso específico da EM/NTF-IS foi apresentado em[26]. A estimativa (1) posterior da potência Vm é calculada através do seguinte

86

Page 116: métodos para separação de vozes a partir de misturas pré-gravadas

estimador:

[Vm]fo = [Cm]2fo = ∣µpostm,fo∣

2 + ∣σpostm,fo∣

2

= [cfocHfo +Σc,fo −Gc,foQΣc,fo]m,m,

(5.43)

onde a estimativa da componente cfo é obtida através de um filtro de Wiener Gc,fo

da mistura:

cfo =Gc,foxfo, (5.44)

Gc,fo = Σc,foQHΣ−1x,fo. (5.45)

A estimativa (2) da matriz de mistura A é obtida pelo estimador:

A = RXSR−1SS, (5.46)

onde RXS e R−1SS são as estimativas das covariâncias das STFTs, denotadas como:

RXS =1

F O∑f

∑o

xfosHfo, (5.47)

RSS =1

F O∑f

∑o

sfosHfo +Σs,fo −Gs,foAΣs,fo, (5.48)

com a média das variáveis aleatórias igual a zero. OZEROV e FÉVOTTE identi-ficam que p(X,C ∣θ) é de uma família de funções de verossimilhança exponencial[70] e os dados estatísticos RXS, RSS e [Vm]fo = [Cm]2fo formam um grupo deestatísticas suficientes [70] para a família.

Com isso, o passo E reestima os parâmetros utilizando as estatísticas da famíliaexponencial e o passo M procura estimar os novos parâmetros θs para a iteração sao maximizar a função de verossimilhança [26]. Novamente, a função de verossimi-lhança é otimizada pela NMF-IS com atualizações por componentes, como no casode um canal:

hs+1mo =1

F

F

∑f=1

vm,fowsfm

, (5.49)

ws+1fo =1

N

N

∑n=1

vm,fohs+1mo

. (5.50)

O algoritmo completo da EM/NTF-IS é exibido no Algoritmo 9. Para o seucálculo, uma estimativa inicial de mk para todas as fontes k é feita para relacionarQ com A; entretanto, as componentes são ainda associadas com as fontes pos-

87

Page 117: métodos para separação de vozes a partir de misturas pré-gravadas

teriormente à fatoração seguindo um critério definido para maximizar a similaridade.

Caso o leitor procure um maior aprofundamento no algoritmo EM para soluçãodo problema de separação, recomenda-se uma primeira leitura de [21, 70].

Algoritmo 9 EM/NTF-ISEntrada: Matriz não-negativa X e máximo de iterações SSaída: Matrizes não-negativas A, W e H

1: s← 12: Inicialize A, W e H com valores não-negativos3: repita4: Considerando:5: cfo =Gc,foxfo, Gc,fo = Σc,foQHΣ−1x,fo6: sfo =Gs,foxfo, Gs,fo = Σs,foAHΣ−1x,fo7: E A, Q, Σc,fo, Σs,fo, Σx,fo definidos na Seção 5.3.28: RXS = 1

F O ∑f ∑oxfosHfo

9: RSS = 1F O ∑f ∑o sfos

Hfo +Σs,fo −Gs,foAΣs,fo

10: A = RXSR−1SS11: para m = 1:M faça12: [Vm]fo = [Cm]2fo = [cfocHfo +Σc,fo −Gc,foQΣc,fo]m,m

13: hs+1mo =1F ∑

Ff=1

vm,fowsfm, ws+1fo = 1

N ∑Nn=1

vm,fohs+1mo

14: Normalize am, wm e hm15: fim16: s← s + 1;17: até convergência ou s ≥ S.

88

Page 118: métodos para separação de vozes a partir de misturas pré-gravadas

5.4 Experimentos

Esta Seção procura avaliar todas as estratégias cujas implementações foramapresentadas nesse trabalho na tarefa de separação de fontes de uma mistura.As técnicas serão avaliadas na separação de instrumentos na Seção 5.4.3, deinstrumentos e voz na Seção 5.4.4, de vozes na Seção 5.4.5 e em misturas comsistema de mistura variante no tempo na Seção 5.4.6.

A Seção 5.4.1, Métodos de avaliação, procura apresentar os métodos objetivosde avaliação utilizados para avaliar os experimentos.

5.4.1 Métodos de avaliação

Os métodos objetivos de avaliação de desempenho da separação foram osmesmos utilizados no Capítulo 4 e caracterizados na Seção 4.6.1.

Todas as medidas são calculadas utilizando o BSS EVAL toolbox, fornecido porFÉVOTTE et al. [63], que implementa os métodos de avaliação de separação des-critos em [62, 64].

5.4.2 Implementação

Como nas implementações anteriores, os algoritmos para separação de fontesde áudio baseados na fatoração NTF foram implementados no Matlab® e seguemuma estrutura em blocos como na Tabela 5.2.

Os blocos da implementação e os parâmetros utilizados nos mesmos serão deta-lhados a seguir.

Análise tempo-frequência

Os sinais das misturas em WAV foram transformados para as suas representaçõestempo-frequenciais através da STFT com janela seno e sobreposição de 50%. Oscomprimentos de janelas utilizados para cada experimento podem ser visualizadosna Tabela 5.3; eles foram escolhidos entre 20 ms e 100 ms, seguindo a literatura.

Foi utilizada uma implementação fornecida pelo SiSEC em [28] para aplicaçãoda STFT em misturas de um ou mais canais.

89

Page 119: métodos para separação de vozes a partir de misturas pré-gravadas

Bloco Objetivo1 Análise tempo-frequência: Transforma a mistura no tempo dis-

creto do arquivo WAV para STFT. Im-plementação fornecida pelo SiSEC em[28].

2 Inicialização: Busca inicializar matrizes Q, D, W eH com valores aleatórios. Diversas ini-cializações aleatórias podem ser reali-zadas para evitar ótimos locais.

3 Fatoração: Busca solucionar o problema de otimi-zação envolvendo a fatoração da mag-nitude da STFT ou da potência daSTFT. Implementações fornecidas porFÉVOTTE et al. em [23, 24], [26].

4 Associação de componentescom fontes:

Procura associar componentes com asfontes a partir de clusterização para asimplementações sem clusterização préou durante fatoração.

5 Síntese: Gera a fase da STFT das fontes esti-madas através de um filtro de Wienere calcula a iSTFT. Implementação daiSTFT fornecida pelo SiSEC em [28].

6 Avaliação de qualidade: Calcula SDR, SIR, SAR de acordocom Seção 4.6.1 e determina o parestimativa-referência de acordo com amaximização da similaridade do par.Implementações fornecidas por FÉ-VOTTE et al. [63].

Tabela 5.2: Estrutura em blocos da implementação BSS de separação de fontesNTF.

90

Page 120: métodos para separação de vozes a partir de misturas pré-gravadas

Experimento Comprimento janela Freq. amost. (Hz)(amostras) (ms)5.4.3 Separação cega de misturassubdeterminadas de música semvoz

1024 64 16000

5.4.4 Separação cega de misturasde músicas gravadas profissional-mente com voz

2048 46 44100

5.4.5 Separação cega de misturassubdeterminadas de voz

1024 64 16000

Tabela 5.3: Comprimentos das janelas das STFT utilizadas nos experimentos coma NMF.

Inicialização

Antes da fatoração, as matrizes Q, D, W e H são inicializadas com valo-res aleatórios positivos. A fatoração por multiplicações alternadas não permite aminimização do problema que tenha matrizes com elementos iguais a zero. Porisso, numa notação no Matlab®, fazem-se Q = abs(randn(I,M)) + ones(I,M)5,6,7,D = abs(randn(I,K)) + ones(I,K), W = abs(randn(Fbin,M)) + ones(Fbin,M) eH = abs(randn(M,O)) + ones(M,O), onde Fbin denota quantos bins de frequênciaforam gerados pela STFT, M denota o número de componentes ou padrões e Orepresenta o número de quadros gerados pela STFT.

Para as implementações da Cluster NMF e EM/NTF-IS, a matriz L tambémé inicializada, entretanto não de forma robusta. Considerando K fontes e Msource

componentes por fonte para um problema, de um total de M = KMsource compo-nentes, as primeiras Msource componentes são associadas à primeira fonte e assimsucessivamente para as fontes seguintes. A matriz L é inicializada com zeros e, aseguir, para cada fonte k, lk,mk

= ones(1, length(mk))8.

Assim como a NMF, a implementação utiliza uma inicialização robusta. Emoutras palavras, Srndinit inicializações aleatórias de Q, D,W eH são geradas e elassão fatoradas por Sinit iterações. Por fim, os melhores candidatos para inicializaçãosão selecionados, ou seja, os que, após a fatoração inicial, apresentam menor custo C.

5abs(⋅) retorna o módulo de um escalar. Quando aplicado a uma matriz, retorna uma matrizcom o módulo dos elementos.

6randn(N1, ...,ND) retorna uma matriz com elementos aleatórios de distribuição normal commédia zero e variância unitária. O argumento (N1, ...,ND) indica o tamanho N de cada uma dasD dimensões.

7ones(⋅) retorna uma matriz 1 de elementos iguais a 1 e de dimensões definidas no argumento.8length(A) retorna o maior tamanho de dimensões de A. Caso seja passado um vetor a, a

função retorna o comprimento do vetor.

91

Page 121: métodos para separação de vozes a partir de misturas pré-gravadas

Experimento Srndinit Sinit

5.4.3 Separação cega de misturassubdeterminadas de música semvoz

10 20

5.4.4 Separação cega de misturasde músicas gravadas profissional-mente com voz

10 20

5.4.5 Separação cega de misturassubdeterminadas de voz

10 20

Tabela 5.4: Parâmetros de inicialização da fatoração.

Os valores dos parâmetros utilizados em cada experimentos são exibidos naTabela 5.4. Foram escolhidos de modo a minimizar a variabilidade do custo C dasinicializações quando a fatoração principal é inicializada.

Fatoração

As implementações das fatorações pelas divergências KL e IS foram apre-sentadas por FÉVOTTE et al. em [23, 24], [26]. Os códigos da implementaçãosão disponibilizados junto à publicação. Para cada experimento, o sistema foiinicializado robustamente e fatorado 10 vezes, e a resposta final foi a seleção dematrizes que apresentava menor custo. Para cada fatoração, o número de iteraçõesfoi estabelecido como exibido na Tabela 5.5 com valores que parecem indicar aestabilização dos custos na escala linear.

Experimento Sfat

5.4.3 Separação cega de misturassubdeterminadas de música semvoz

5000

5.4.4 Separação cega de misturasde músicas gravadas profissional-mente com voz

5000

5.4.5 Separação cega de misturassubdeterminadas de voz

5000

Tabela 5.5: Iterações por experimento da NTF.

92

Page 122: métodos para separação de vozes a partir de misturas pré-gravadas

Associação de componentes com fontes

Assim como nas implementações de um canal, a clusterização automática e su-pervisionada foi implementada com os sinais de referência das fontes separadas. Umamedida de similaridade entre a magnitude das STFTs da referência de cada fonte ecada componente foi utilizada para determinar a associação. A medida de similari-dade foi calculada entre cada referência de fonte k e componente m considerando asoma das STFTs dos canais; matematicamente:

Cass(m,k) =∑Fbin∑O[∑I ∣Sk,i∣]

2Fbin,O

∑Fbin∑O([∑I ∣Sk,i∣]Fbin,O − [∑I ∣Cm,i∣]Fbin,O)2, (5.51)

onde Sk,i denota a STFT da referência da fonte k no canal i e Cm,i denota aSTFT de cada componente estimada no canal i. Uma componente m é associadaa uma fonte k que produz o máximo valor de Cass(m,k). O resultado final dessaimplementação é a geração de um vetor mk para cada fonte, que possuirá oidentificador de todas as componentes associadas.

Embora essa associação ideal não seja realizável na maioria dos casos práticos,as implementações Cluster NTF apresentam uma alternativa. Através de uma res-trição ao modelo sendo fatorado, não há necessidade de uma fatoração posterior, aassociação ocorre durante a fatoração.

Síntese

Assim como nas implementações com a NMF, a regeneração da fase da estimativada fonte será feita a partir de um filtro de Wiener sobre a mistura original, o quepode ser denotado matematicamente como:

Sk = ( ∑m∈mk

wmhm ⊘ (WH)) ⊗ X. (5.52)

A implementação da regeneração de fase utilizada foi elaborada por OZEROV eFÉVOTTE em [26]. E a implementação da iSTFT é fornecida pelo SiSEC em [28].

5.4.3 Separação cega de misturas subdeterminadas de música

sem voz

Como continuação do experimento com a NMF e apresentado na Seção 4.6.3,esse experimento procura estabelecer uma referência para uso das implementaçõesao explorar misturas típicas para a NMF e avaliar as extensões em comparação coma NMF normal.

93

Page 123: métodos para separação de vozes a partir de misturas pré-gravadas

Base de dados

Avalia-se a separação de misturas sintéticas instantâneas, correspondendo adados de teste e desenvolvimento da SiSEC 2010. Especificamente, os dados estãodisponíveis no site do evento e são relativos a “underdetermined speech and musicmixtures task ” [28]. Todas as misturas são de 10 segundos e foram amostradas em16 kHz.

As misturas são as mesmas das descritas na Seção 4.6.3; foram consideradasduas misturas, wdrums e nodrums, com três fontes cada.

As implementações das NTFs irão considerar os dois canais das misturas, en-quanto as NMFs irão considerar apenas o primeiro canal. Os parâmetros normali-zados das matrizes de mistura estão exibidos na Figura 5.1.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(a) Mistura wdrums

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(b) Mistura nodrums

Figura 5.1: Ganhos normalizados de fontes por canais para misturas da Seção 5.4.3.Vetores azul, vermelho e verde representam, respectivamente, primeira, segunda eterceira fonte.

Resultados

A Figura 5.2 exibe a SDR média das estimativas de fontes por implementaçãoe a Tabela 5.6 exibe os resultados de cada estimativa. O Apêndice A contéminformações para acessar a página de resultados e ouvir os sinais de áudios estimadose originais.

Na mistura wdrums, melhores resultados são obtidos com a implementaçãoMU/NTFclus-IS. Destacam-se as seguintes observações.

1. A NTF apresenta um melhor desempenho na separação com a solução poratualizações multiplicativas, o que sugere que as informações dos dois canais

94

Page 124: métodos para separação de vozes a partir de misturas pré-gravadas

facilitaram a separação. Já o modelo estatístico apresentou uma piora dedesempenho no caso multicanal para essa mistura.

2. Os resultados um pouco melhores de MU/NTFclus-IS quando comparada àMU/NTF-IS ilustram os benefícios de se realizar a clusterização das compo-nentes dentro da fatoração em vez de após. A clusterização durante a fatoraçãomodifica a otimização do problema, em muitos casos até melhorando o desem-penho.

3. Nessa mistura, MU/NTFclus-KL falha em estimar adequadamente duas fontes.MU/NTF-KL apresenta resultados melhores, mas inferiores às implementaçõescom a divergência IS.

4. As implementações EM conseguiram separar o baixo dos instrumentos percus-sivos; entretanto, não conseguiram separar os instrumentos percussivos entresi.

Na mistura nodrums, melhores resultados são obtidos com a implementaçãoMU/NTF-KL. Destacam-se as seguintes observações.

1. Apenas os métodos com uso da divergência KL conseguiram adequadamenteestimar as fontes.

2. Métodos multicanal apresentam resultados superiores aos de um canal eMU/NTFclus-KL apresenta resultados pouco inferiores a MU/NTF-KL. Noteque a MU/NTF-KL utiliza uma clusterização posterior por maximização desimilaridade e com conhecimento prévio da fonte, a melhor clusterização pos-sível.

3. Resultados dessa mistura são todos inferiores aos da mistura wdrums, o que,novamente, corrabora a observação de que instrumentos percussivos são favo-recidos na fatoração de modelos NMF [36].

As implementações com a divergência KL funcionaram com as duas misturas, en-quanto a IS apenas funcionou adequadamente com mistura de instrumentos percus-sivos. As implementações EM tiveram comportamento similar ao das atualizaçõesmultiplicativas com uso da divergência IS.

95

Page 125: métodos para separação de vozes a partir de misturas pré-gravadas

−10 −5 0 5 10 15 20

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(a) Mistura wdrums

−15 −10 −5 0 5 10 15 20

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(b) Mistura nodrums

Figura 5.2: SDR média de estimavas de fontes por implementação para misturas daSeção 5.4.3. Barras azuis representam a SDR média, triângulos verdes representama estimativa de fonte com maior SDR e triângulos vermelhos, com menor SDR.

96

Page 126: métodos para separação de vozes a partir de misturas pré-gravadas

wdrumss1 s2 s3

Hi-hat Drums BassMU/NMF-IS

SDR 6.5 -5.6 13.0SIR 8.8 -3.3 20.6SAR 11.5 -5.0 14.0

MU/NTF-ISSDR 12.8 2.4 18.6SIR 22.0 14.4 19.4SAR 15.3 4.0 26.8

MU/NTFclus-ISSDR 13.5 3.2 19.4SIR 16.7 22.2 20.5SAR 4.0 16.3 26.1

MU/NMF-KLSDR 2.4 -5.8 12.7SIR 5.0 -9.7 21.2SAR 6.8 -1.4 14.9

MU/NTF-KLSDR 8.2 -2.0 14.1SIR 10.8 -1.5 21.6SAR 12.3 -0.6 15.9

MU/NTFclus-KLSDR 0.3 -6.2 10.1SIR 21.2 1.7 -12.3SAR 12.6 8.8 0.8

EM/NMF-ISSDR 11.1 0.9 19.6SIR 21.3 14.2 20.0SAR 13.2 1.8 30.6

EM/NTF-ISSDR 5.1 0.0 16.4SIR 18.4 -5.5 16.7SAR 7.8 1.2 29.5

nodrumss1 s2 s3

Bass Lead G. Rhythmic G.MU/NMF-IS

SDR -11.7 1.2 2.1SIR -12.7 3.9 6.4SAR 4.9 -0.8 0.9

MU/NTF-ISSDR 3.5 0.1 -12.4SIR 11.3 0.4 -13.8SAR 3.0 -4.9 2.5

MU/NTFclus-ISSDR 5.5 2.3 -10.6SIR 12.5 10.1 -12.6SAR 6.1 3.0 0.8

MU/NMF-KLSDR 11.2 2.9 3.9SIR 15.6 3.5 4.3SAR 19.2 9.5 11.5

MU/NTF-KLSDR 13.8 4.7 2.2SIR 20.5 7.2 1.6SAR 21.0 9.8 9.6

MU/NTFclus-KLSDR 3.4 1.8 15.2SIR 3.4 4.3 19.9SAR 8.3 7.3 21.5

EM/NMF-ISSDR 5.9 1.0 -6.1SIR 7.5 4.1 -10.7SAR 9.4 -1.1 -1.5

EM/NTF-ISSDR 10.6 0.4 -5.8SIR 18.0 -1.0 -5.7SAR 16.2 -1.4 8.3

Tabela 5.6: SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Melhores resultados selecionados de 10 execuções com5000 iterações cada. Maiores valores indicam melhores resultados. Valores em ne-grito indicam resultados com melhor SDR média para uma base de dados. Experi-mento descrito na Seção 5.4.3.

97

Page 127: métodos para separação de vozes a partir de misturas pré-gravadas

5.4.4 Separação cega de misturas de músicas gravadas pro-

fissionalmente com voz

Como continuação do experimento com a NMF apresentado na Seção 4.6.4, aoaplicar a implementação em misturas contendo uma fonte de sinal de voz e outrasacústicas, procura-se realizar uma avaliação preliminar do desempenho com voz.

Base de dados

Avalia-se a separação de misturas de músicas gravadas profissionalmente,correspondendo a dados de teste e desenvolvimento do SiSEC 2008 e 2010.Especificamente, os dados estão disponíveis no site do evento e são relativos a“professionally produced music recordings task ” [65].

As seguintes misturas são consideradas:

Tamy, Que Pena Tanto Faz: um trecho de 13 segundos da música ‘Que Pena /Tanto Faz’ de Tamy, Curvemusic9. O trecho da música utilizado como misturapossui duas fontes musicais (K = 2): um violão e uma voz. A mistura foiamostrada a 44.1 kHz.

Another Dreamer, The Ones We Love: um trecho de 25 segundos da música‘The ones we love’ de Another Dreamer (Chad Manney) e Eva10. O trechoutilizado possui três fontes musicais (K = 3): um violão, uma voz e um instru-mento percussivo. A mistura foi amostrada a 44.1 kHz.

Shannon Hurley, Sunrise: um trecho de 19 segundos da música ‘Sunrise’ deShannon Hurley11. O trecho utilizado possui três fontes musicais (K = 3):um instrumento percussivo, uma voz e um piano. A mistura foi amostrada a16 kHz.

As implementações das NTFs irão considerar os dois canais das misturas, en-quanto as NMFs irão considerar apenas o primeiro canal. As misturas utilizadasnão são sintéticas, no sentido de que não foram produzidas para o experimento;foram utilizados trechos das músicas originais.

9Licensed under Creative Commons Attribution Noncommercial 3.0:http://creativecommons.org/licenses/by-nc/3.0/

10Licensed under Creative Commons Attribution Noncommercial 1.0:http://creativecommons.org/licenses/by-nc/1.0/

11Disponível em http://amiestreet.com/artist/shannon-hurley/. Licensed under Creative Com-mons Attribution Noncommercial 3.0: http://creativecommons.org/licenses/by-nc/3.0/

98

Page 128: métodos para separação de vozes a partir de misturas pré-gravadas

Resultados

A Figura 5.3 exibe a SDR média das estimativas de fontes por implementaçãoe as Tabelas 5.7 e 5.8 exibem os resultados de cada estimativa. O Apêndice Acontém informações para acessar a página de resultados e ouvir os sinais de áudioestimados e originais.

Na mistura “Tamy”, destacam-se algumas observações, descritas a seguir.

1. Melhores resultados foram obtidos com as implementações multicanais sem aclusterização durante a fatoração. Dentre estas, a MU/NTF-IS teve os melho-res resultados na separação, segundo os critérios objetivos.

2. A diferença de desempenho entre as implementações de um canal e multicanalilustra os benefícios de se utilizar múltiplas misturas para estimar as fontes.

3. O baixo desempenho das implementações de clusterização pode ser atribuídoà restrição de mesmos ganhos para todas as componentes de uma fonte. Paraessa mistura, a premissa de fontes pontuais e de ganho estático prejudicou aseparação.

4. Todas as implementações tiveram dificuldades em separar o sinal do instru-mento do sinal de voz. Até nas implementações com melhores resultados, aestimativa do sinal do instrumento contém o sinal de voz em menor volumeou em partes. Entretanto, a estimativa do sinal de voz apresenta menos inter-ferência do instrumento ao se ouvir as estimativas.

Na mistura “Another Dreamer”, destacam-se algumas observações, descritas aseguir.

1. A implementação MU/NTF-KL obteve melhores resultados na separação defontes nessa mistura.

2. As implementações com a divergência KL tiveram melhor desempenho na sepa-ração da mistura, e a restrição utilizada na clusterização parece ter novamentepiorado os resultados.

3. Ao se ouvir as estimativas dos sinais, a interferência entre os instrumentosparece ser pouca; entretanto, a voz está presente em todas as estimativas.

Na mistura “Sunrise”, destacam-se algumas observações, descritas a seguir.

1. A implementação MU/NTF-KL obteve os melhores resultados para a separa-ção.

99

Page 129: métodos para separação de vozes a partir de misturas pré-gravadas

2. Novamente, a voz aparece em todas as estimativas de fontes, às vezes commenor ganho ou com parte do seu espectro.

3. Ao se ouvir as estimativas dos sinais, a interferência entre instrumentos nova-mente parece pequena.

Os experimentos com misturas de voz e instrumentos nos permitiram observarque a restrição de ganho único para todas as componentes por fonte pode pioraros resultados em misturas com fontes não pontuais ou com ganhos variando aolongo do tempo, ou seja, as implementações por clusterização durante a fatoraçãopodem ter resultados piores com misturas práticas. Além disso, percebe-se que asimplementações têm melhor desempenho na separação de instrumentos do que naseparação de sinais de voz.

100

Page 130: métodos para separação de vozes a partir de misturas pré-gravadas

0 1 2 3 4 5 6 7 8 9

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(a) Mistura “Tamy”

−3 −2 −1 0 1 2 3 4

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(b) Mistura “Another Dreamer”

0 2 4 6 8 10 12

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(c) Mistura “Sunrise”

Figura 5.3: SDR média de estimavas de fontes por implementação para misturas daSeção 5.4.3. Barras azuis representam a SDR média, triângulos verdes representama estimativa de fonte com maior SDR e triângulos vermelhos, com menor SDR.

101

Page 131: métodos para separação de vozes a partir de misturas pré-gravadas

Tamys1 s2

Violão VozMU/NMF-IS

SDR 6.8 7.3SIR 10.7 14.3SAR 8.5 8.7

MU/NTF-ISSDR 8.0 8.2SIR 13.3 13.6SAR 9.2 9.9

MU/NTFclus-ISSDR 1.2 0.9SIR 4.3 -0.1SAR 3.0 8.8

MU/NMF-KLSDR 5.1 5.6SIR 5.6 16.4SAR 13.0 11.0

MU/NTF-KLSDR 6.3 6.5SIR 7.0 16.9SAR 13.7 11.9

MU/NTFclus-KLSDR 1.1 0.9SIR 1.0 -0.2SAR 6.1 9.8

EM/NMF-ISSDR 1.7 2.2SIR 8.7 2.6SAR -0.1 11.2

EM/NTF-ISSDR 2.7 3.0SIR 3.4 2.2SAR 9.0 14.6

Another Dreamers1 s2 s3

Percussão Violão VozMU/NMF-IS

SDR 0.4 3.5 -1.7SIR 2.5 6.4 -1.4SAR 4.0 4.4 5.7

MU/NTF-ISSDR 0.3 1.8 -3.0SIR 1.7 4.1 -3.2SAR 4.6 2.1 8.8

MU/NTFclus-ISSDR 2.4 0.7 1.3SIR 4.7 0.3 0.0SAR 6.2 3.8 4.8

MU/NMF-KLSDR 3.3 3.8 3.0SIR 6.9 5.0 8.1SAR 6.7 8.7 5.5

MU/NTF-KLSDR 3.7 3.9 3.1SIR 7.6 4.8 8.2SAR 7.0 9.5 5.5

MU/NTFclus-KLSDR 0.5 -0.4 2.3SIR -2.0 -1.8 3.5SAR 4.8 6.6 5.7

EM/NMF-ISSDR 0.3 0.3 0.0SIR 8.5 -0.5 -1.4SAR 3.0 -1.0 10.3

EM/NTF-ISSDR 1.0 0.9 0.4SIR 3.3 0.3 -1.6SAR 1.9 2.4 10.5

Tabela 5.7: SDR, SIR e SAR das estimativas das fontes consideradas para as mistu-ras “Tamy” e “Another Dreamer”. Melhores resultados selecionados de 10 execuçõescom 5000 iterações cada. Maiores valores indicam melhores resultados. Valoresem negrito indicam resultados com melhor SDR média para uma base de dados.Experimento descrito na Seção 5.4.4.

102

Page 132: métodos para separação de vozes a partir de misturas pré-gravadas

Sunrises1 s2 s3

Percussão Voz PianoMU/NMF-IS

SDR 8.0 0.6 3.6SIR 15.4 0.7 4.6SAR 9.2 0.2 7.9

MU/NTF-ISSDR 9.0 1.0 1.3SIR 18.9 10.1 1.5SAR 10.1 0.4 11.5

MU/NTFclus-ISSDR 10.5 2.8 3.5SIR 19.8 7.5 4.8SAR 12.1 5.6 9.4

MU/NMF-KLSDR 7.2 3.2 6.1SIR 11.2 3.9 12.6SAR 9.1 8.7 9.9

MU/NTF-KLSDR 9.3 5.9 6.7SIR 13.7 9.0 10.5SAR 11.8 9.6 10.7

MU/NTFclus-KLSDR 6.5 6.0 3.4SIR 8.0 7.2 8.3SAR 11.5 11.3 7.0

EM/NMF-ISSDR 7.8 1.3 4.3SIR 15.3 7.1 5.2SAR 9.0 -1.7 10.3

EM/NTF-ISSDR 9.7 1.6 2.1SIR 20.4 12.6 2.4SAR 11.8 0.6 11.1

Tabela 5.8: SDR, SIR e SAR das estimativas das fontes consideradas para a mistura“Sunrise”. Melhores resultados selecionados de 10 execuções com 5000 iterações cada.Maiores valores indicam melhores resultados. Valores em negrito indicam resultadoscom melhor SDR média para uma base de dados. Experimento descrito na Seção5.4.4.

103

Page 133: métodos para separação de vozes a partir de misturas pré-gravadas

5.4.5 Separação cega de misturas subdeterminadas de voz

Como continuação do experimento com a NMF apresentado na Seção 4.6.5, oterceiro experimento busca avaliar o desempenho da implementação em misturas devozes.

Base de dados

Misturas foram criadas ou selecionadas de bases de dados disponíveis para ana-lisar o desempenho dos métodos em diferentes condições:

1. Fontes alternadas, com interseções em segmentos ou simultâneas;

2. Forte ou fraca predominância de fontes por canal; e

3. Grande ou baixa similaridade entre fontes, trabalhando com sinais de vozfeminina ou masculina.

Dentre as condições, uma mistura com fontes simultâneas, com fraca predomi-nância de fontes por canal e de alta similaridade entre fontes seria a que mais exigiriados métodos em comparação com as outras condições. As seguintes misturas em 16

kHz são consideradas.

Conversa s/ interseção: uma mistura estéreo instantânea de 9 segundos comduas fontes de voz de modo alternado e sem interseção entre si. Uma vozé masculina e outra é feminina. Os sinais separados foram gravados pelo GPAem 48 kHz e são apresentados em [71]. Os sinais foram re-amostrados12 para16 kHz procurando reduzir o custo computacional no experimento.

Conversa c/ interseção: uma mistura estéreo instantânea de 7 segundos comduas fontes de voz de modo alternado, mas com segmentos de interseção entrefontes. Uma voz é masculina e outra é feminina. Os sinais separados foramgravados pelo GPA em 48 kHz e são apresentados em [71]. Os sinais foramre-amostrados12 para 16 kHz procurando reduzir o custo computacional noexperimento.

2 vozes c/ predominância: uma mistura estéreo instantânea de 10 segundos comduas fontes de voz simultâneas13, uma masculina e outra feminina. A misturafoi produzida a partir de sinais de voz originários de desenvolvimento do SiSEC2010 em [28]. Os ganhos por canal para as fontes favorecem uma das fontesem cada canal.

12 A função resample(⋅) do Matlab® foi utilizada. A função aplica um filtro passa-baixa antia-liasing e compensa os atrasos do filtro.

13Não há pausa e nem intervalo de nenhuma das fontes, todos os segmentos da mistura possuemtodas as fontes.

104

Page 134: métodos para separação de vozes a partir de misturas pré-gravadas

2 vozes s/ predominância: uma mistura estéreo instantânea de 10 segundos comduas fontes de voz simultâneas13, uma masculina e outra feminina. A misturafoi produzida a partir de sinais de voz originários de desenvolvimento do SiSEC2010 em [28]. Os ganhos da mistura não favorecem uma fonte em nenhum dosdois canais.

3 vozes simultâneas fem.: uma mistura estéreo instantânea de 10 segundos comtrês fontes de voz feminina simultâneas13. Os arquivos são disponibilizadosnos dados de desenvolvimento do SiSEC 2008 em [28].

3 vozes simultâneas masc.: uma mistura estéreo instantânea de 10 segundos comtrês fontes de voz masculina simultâneas13. Os arquivos são disponibilizadosnos dados de desenvolvimento do SiSEC 2008 em [28].

As implementações das NTFs irão considerar os dois canais das misturas, en-quanto as NMFs irão considerar apenas o primeiro canal. Os parâmetros normali-zados das matrizes de mistura estão exibidos na Figura 5.4. Perceba que misturascom maior predominância de fontes por canais possuem vetores de parâmetros demistura com maior separação entre si, até o caso extremo de uma separação denoventa graus.

Resultados

As Figuras 5.5, 5.6 e 5.7 exibem a SDR média das estimativas de fontes porimplementação e as Tabelas 5.9, 5.10 e 5.11 exibem os resultados de cada estimativa.O Apêndice A contém informações para acessar a página de resultados e ouvir ossinais de áudios estimados e originais. E abaixo são apresentadas observações ediscussões sobre os resultados.

Para as misturas simulando uma conversa com e sem interseção dos sinais,destacam-se as seguintes observações.

1. Melhores resultados foram obtidos com as implementações MU/NTFclus-IS eMU/NTFclus-KL.

2. As implementações com clusterização durante a fatoração tiveram resultadossuperiores aos da NTF, apenas elas foram capazes de separar completamenteos dois sinais de voz. A restrição de ganho comum a todas as componentes deuma mesma fonte durante a fatoração permitiu a separação dos sinais.

3. As estimativas das outras implementações apresentaram muita interferência.

4. A NTF com solução EM teve estimativas piores do que a versão de um canal.

105

Page 135: métodos para separação de vozes a partir de misturas pré-gravadas

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(a) Conversa s/ interseção

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a(b) Conversa c/ interseção

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(c) 2 vozes c/ predominância

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(d) 2 vozes s/ predominância

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(e) 3 vozes simultâneas fem.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esquerd

a

(f) 3 vozes simultâneas masc.

Figura 5.4: Ganhos normalizados de fontes por canais para misturas da Seção 5.4.5.Vetores azul, vermelho e verde representam, respectivamente, primeira, segunda eterceira fonte.

106

Page 136: métodos para separação de vozes a partir de misturas pré-gravadas

5. As implementações com clusterização conseguiram estimar as fontes com umainterferência muito baixa, e percebe-se apenas uma espécie de ruído quando afonte sendo estimada não está presente.

6. As misturas com interseções das fontes de voz se mostraram mais difíceis deserem separadas. Nelas, mesmo as melhores estimativas ainda possuem algumainterferência de outras fontes, resultando em SDR e SIR inferiores.

Para as misturas de duas vozes simultâneas com e sem predominância, destacam-se as seguintes observações.

1. Os algoritmos sem clusterização durante a fatoração parecem ter um melhordesempenho na separação de fontes simultâneas ou com grandes interseçõesem vez de alternadas. Esse pior desempenho dos algoritmos com clusterizaçãodurante a fatoração pode ser atribuído a uma maior dificuldade de estimar osganhos por canais de fontes em misturas com grandes interseções.

2. Para misturas com predominância de fontes em canais, as implementaçõesMU/NTFclus-IS e MU/NTFclus-KL geraram os melhores resultados. Entre-tanto, para a mistura sem predominância por canal, a implementação de umcanal MU/NMF-KL gerou a melhor estimativa.

3. A implementação EM multicanal teve desempenho inferior à de um canal nasduas misturas.

4. Apesar do desempenho superior de algumas implementações, todas as estima-tivas ainda possuem alguma interferência de outras fontes.

Para as misturas de três vozes masculinas ou femininas, destacam-se as seguintesobservações.

1. Apesar do desempenho um pouco superior de algumas, nenhuma das imple-mentações conseguiu estimar adequadamente as fontes nas misturas com fon-tes simultâneas e com pouca predominância por canal. Todas as estimativaspossuem grande interferência de outras fontes.

2. O problema de separação sem a predominância por canais e com fontes si-multâneas parece ser de complexidade elevada demais para solução cega (semdados a priori e treinamento) de implementações NMF ou NTF.

De [15], sabemos que para a NMF num contexto cego14 ser capaz de separaras componentes desejadas, é preciso que os padrões apareçam isolados em algum

14Com pouca informação a priori e inicialização aleatória.

107

Page 137: métodos para separação de vozes a partir de misturas pré-gravadas

lugar da representação tempo-frequencial. Em fontes musicais, em geral, os eventossão melhor determinados no tempo (por exemplo, para um instrumento percussivo)ou na frequência (por exemplo, para notas fixas); sinais de voz variam muitomais rapidamente na frequência e alternam rapidamente informações transitórias(por exemplo, um ‘t’), tonais (por exemplo, um ‘a’) e ruidosas (por exemplo,um ‘s’). Uma mistura com fontes de voz alternadas permite a determinação dospadrões de cada fonte devido ao isolamento no tempo; entretanto, a representaçãotempo-frequencial adotada parece não ser o melhor domínio para caracterizar umamistura de fontes de voz simultâneas.

As implementações multicanais propostas nesse trabalho mostraram desem-penho superior às de um canal quando há a predominância de fontes por canal;entretanto, as implementações EM mostraram resultados inferiores. OZEROV eFÉVOTTE [26] observam que as implementações EM geram resultados superioresquando adequadamente inicializadas. Os autores utilizam estimativas de outrosmétodos de separação para inicializar as implementações EM.

A partir dos experimentos, as implementações com a divergência KL parecemser mais adequadas para casos gerais. FÉVOTTE et al., em [23], observam queimplementações NMF com uso de divergência IS apresentam melhor desempenhona separação de fontes de voz; entretanto, isso só foi observado em misturas comfontes alternadas ou com pouca interseção.

108

Page 138: métodos para separação de vozes a partir de misturas pré-gravadas

−5 0 5 10 15 20 25 30

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(a) Conversa s/ interseção

−4 −2 0 2 4 6 8 10 12 14 16

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(b) Conversa c/ interseção

Figura 5.5: SDR média de estimavas de fontes por implementação para misturas daSeção 5.4.5. Barras azuis representam a SDR média, triângulos verdes representama estimativa de fonte com maior SDR e triângulos vermelhos, com menor SDR (1/3).

109

Page 139: métodos para separação de vozes a partir de misturas pré-gravadas

Conversa s/ interseçãos1 s2

Voz 1, Fem. Voz 2, Masc.MU/NMF-IS

SDR 1.5 -4.2SIR 12.8 -4.2SAR 4.0 10.6

MU/NTF-ISSDR 0.2 -3.6SIR 12.1 -3.6SAR 2.2 18.1

MU/NTFclus-ISSDR 26.1 22.3SIR 31.4 34.0SAR 28.1 24.2

MU/NMF-KLSDR 3.5 9.2SIR 5.2 21.3SAR 8.5 12.3

MU/NTF-KLSDR 17.3 13.5SIR 29.7 17.2SAR 19.9 16.1

MU/NTFclus-KLSDR 16.5 20.4SIR 20.6 33.7SAR 18.8 22.6

EM/NMF-ISSDR 0.2 5.9SIR 1.9 6.0SAR -2.9 20.9

EM/NTF-ISSDR 0.5 -3.4SIR 13.0 -3.2SAR -0.4 14.9

Conversa c/ interseçãos1 s2

Voz 1, Fem. Voz 2, Masc.MU/NMF-IS

SDR 1.5 -3.5SIR 8.4 -4.4SAR 1.9 9.2

MU/NTF-ISSDR 2.3 -0.9SIR 15.1 -0.9SAR 2.3 9.0

MU/NTFclus-ISSDR 10.9 14.0SIR 16.5 24.0SAR 12.7 16.6

MU/NMF-KLSDR 2.8 7.7SIR 3.3 20.9SAR 8.0 11.4

MU/NTF-KLSDR 10.5 6.7SIR 13.8 11.9SAR 15.0 9.9

MU/NTFclus-KLSDR 14.5 11.7SIR 23.7 16.6SAR 18.4 14.6

EM/NMF-ISSDR 0.0 6.2SIR 0.1 5.8SAR 0.3 23.8

EM/NTF-ISSDR 0.4 -2.8SIR 6.1 -3.8SAR -0.4 18.8

Tabela 5.9: SDR, SIR e SAR das estimativas das fontes consideradas para as duasmisturas do experimento. Melhores resultados selecionados de 10 execuções com5000 iterações cada. Maiores valores indicam melhores resultados. Valores em ne-grito indicam resultados com melhor SDR média para uma base de dados. Experi-mento descrito na Seção 5.4.5 (1/3).

110

Page 140: métodos para separação de vozes a partir de misturas pré-gravadas

0 2 4 6 8 10 12

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(a) 2 vozes c/ predominância

0 1 2 3 4 5 6 7 8

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(b) 2 vozes s/ predominância

Figura 5.6: SDR média de estimavas de fontes por implementação para misturas daSeção 5.4.5. Barras azuis representam a SDR média, triângulos verdes representama estimativa de fonte com maior SDR e triângulos vermelhos, com menor SDR (2/3).

111

Page 141: métodos para separação de vozes a partir de misturas pré-gravadas

2 vozes c/ predominâncias1 s2

Voz 1, Fem. Voz 2, Masc.MU/NMF-IS

SDR 0.1 6.8SIR -0.7 11.3SAR 1.5 9.5

MU/NTF-ISSDR 1.9 4.8SIR 12.7 5.0SAR 4.4 12.6

MU/NTFclus-ISSDR 9.5 5.8SIR 12.8 16.8SAR 12.0 8.5

MU/NMF-KLSDR 1.1 7.8SIR 0.7 12.9SAR 3.2 10.8

MU/NTF-KLSDR 4.6 6.1SIR 5.3 13.1SAR 8.8 9.0

MU/NTFclus-KLSDR 6.3 10.3SIR 14.0 13.9SAR 10.6 13.6

EM/NMF-ISSDR 0.9 9.1SIR 5.1 10.0SAR 0.7 15.6

EM/NTF-ISSDR 2.2 1.4SIR 2.9 -0.4SAR 4.3 6.8

2 vozes s/ predominâncias1 s2

Voz 1, Fem. Voz 2, Masc.MU/NMF-IS

SDR 1.0 5.0SIR 2.6 5.4SAR 2.6 10.7

MU/NTF-ISSDR 1.6 4.5SIR 10.7 4.0SAR 3.6 12.9

MU/NTFclus-ISSDR 2.1 3.9SIR 4.3 5.0SAR 3.3 7.2

MU/NMF-KLSDR 3.9 7.2SIR 6.7 11.0SAR 6.4 11.0

MU/NTF-KLSDR 4.1 4.8SIR 4.2 10.9SAR 8.5 7.8

MU/NTFclus-KLSDR 5.5 3.7SIR 7.3 6.6SAR 9.7 6.9

EM/NMF-ISSDR 1.5 6.2SIR 10.8 6.0SAR 3.8 14.4

EM/NTF-ISSDR 1.9 3.8SIR 4.2 4.1SAR 4.1 8.0

Tabela 5.10: SDR, SIR e SAR das estimativas das fontes consideradas para asduas misturas do experimento. Melhores resultados selecionados de 10 execuçõescom 5000 iterações cada. Maiores valores indicam melhores resultados. Valoresem negrito indicam resultados com melhor SDR média para uma base de dados.Experimento descrito na Seção 5.4.5 (2/3).

112

Page 142: métodos para separação de vozes a partir de misturas pré-gravadas

−5 −4 −3 −2 −1 0 1 2 3 4 5

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(a) 3 vozes simultâneas fem.

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(b) 3 vozes simultâneas masc.

Figura 5.7: SDR média de estimavas de fontes por implementação para misturas daSeção 5.4.5. Barras azuis representam a SDR média, triângulos verdes representama estimativa de fonte com maior SDR e triângulos vermelhos, com menor SDR (3/3).

113

Page 143: métodos para separação de vozes a partir de misturas pré-gravadas

3 vozes simultâneas fem.s1 s2 s3

Voz 1 Voz 2 Voz 3MU/NMF-IS

SDR 0.1 -4.7 1.3SIR 2.6 -7.9 1.8SAR 2.1 4.7 8.2

MU/NTF-ISSDR 1.1 0.1 -2.0SIR 5.9 2.4 -1.9SAR 0.8 -0.4 11.8

MU/NTFclus-ISSDR -0.5 0.2 2.1SIR -1.8 -1.0 5.7SAR 5.0 3.4 3.1

MU/NMF-KLSDR -0.1 1.8 3.2SIR -1.1 5.0 3.9SAR 4.7 4.4 9.8

MU/NTF-KLSDR 2.2 2.0 1.3SIR 3.4 2.8 3.1SAR 7.7 6.8 3.4

MU/NTFclus-KLSDR 1.2 1.2 4.1SIR 2.9 0.9 7.4SAR 3.5 9.6 7.1

EM/NMF-ISSDR -0.1 1.2 1.9SIR -3.4 6.5 2.2SAR -0.1 2.6 12.2

EM/NTF-ISSDR 1.6 0.1 -1.9SIR 5.3 3.5 -2.8SAR 2.6 3.0 11.0

3 vozes simultâneas masc.s1 s2 s3

Voz 1 Voz 2 Voz 3MU/NMF-IS

SDR -1.5 1.1 -0.6SIR -7.0 1.4 -2.0SAR 0.9 3.5 5.9

MU/NTF-ISSDR 0.5 0.3 -1.9SIR 2.0 0.4 -1.8SAR 0.1 0.0 13.1

MU/NTFclus-ISSDR 0.7 -0.2 0.0SIR 0.3 -1.9 -1.4SAR 1.6 2.9 3.7

MU/NMF-KLSDR -1.8 0.9 2.8SIR -6.1 1.2 7.6SAR 2.0 8.9 6.2

MU/NTF-KLSDR 0.4 0.7 2.0SIR -0.6 0.3 4.8SAR 7.7 4.6 5.3

MU/NTFclus-KLSDR 0.4 1.4 -0.1SIR -0.8 0.6 -2.6SAR 5.9 5.0 5.3

EM/NMF-ISSDR 0.1 0.6 1.7SIR -6.1 1.1 1.4SAR -2.7 2.7 14.8

EM/NTF-ISSDR 1.9 0.0 -0.9SIR 2.4 2.6 -1.9SAR 3.0 -1.3 11.2

Tabela 5.11: SDR, SIR e SAR das estimativas das fontes consideradas para asduas misturas do experimento. Melhores resultados selecionados de 10 execuçõescom 5000 iterações cada. Maiores valores indicam melhores resultados. Valoresem negrito indicam resultados com melhor SDR média para uma base de dados.Experimento descrito na Seção 5.4.5 (3/3).

114

Page 144: métodos para separação de vozes a partir de misturas pré-gravadas

5.4.6 Separação cega de misturas subdeterminadas formadas

por sistemas variantes no tempo

Este experimento busca avaliar as implementações em misturas com processo demistura variando no tempo. Por exemplo, uma observação pode ser realizada de umponto de uma sala em que duas fontes se locomovem espacialmente em relação aosensor. Com isso, a mistura vista por este irá variar com o tempo.

Base de dados

A complexidade de misturas variantes no tempo para implementações multi-canais foi decomposta em dois fatores: ao se considerar os ganhos de mistura dedois canais formando um vetor como na Figura 5.8, os fatores considerados foramalterações de módulo do vetor ao longo do tempo e alterações de fase (ver Figura 5.8).

As seguintes misturas são consideradas com uma amostragem de 16 kHz e comsinais de voz iguais a mistura conversa s/ interseção da Seção 5.4.5.

Conversa c/ mistura variando em módulo: uma mistura estéreo instantâneade 9 segundos com duas fontes de voz de modo alternado e sem interseçãoentre si. Uma voz é masculina e outra é feminina. Os sinais separados foramgravados pelo GPA e são apresentados em [71]. A mistura multicanal é criada apartir dos parâmetros de mixagem variantes no tempo exibidos na Figura 5.8.

Conversa c/ mistura variando em fase: uma mistura estéreo instantânea de 9segundos com duas fontes de voz de modo alternado e sem interseção entre si.Uma voz é masculina e outra é feminina. Os sinais das fontes são os mesmosda primeira mistura. A mistura multicanal é criada a partir dos parâmetrosde mixagem variantes no tempo exibidos na Figura 5.8.

Resultados

A Figura 5.9 exibe a SDR média das estimativas de fontes por implementaçãoe a Tabela 5.12 exibe os resultados de cada estimativa. O Apêndice A contéminformações para acessar a página de resultados e ouvir os sinais de áudios estimadose originais.

A MU/NTFclus-IS apresentou melhores estimativas para as fontes das duas mis-turas. Os resultados desse experimento podem ser comparados com os apresentadosna Tabela 5.9 da mistura de fontes alternadas. Destacam-se as seguintes observa-ções.

115

Page 145: métodos para separação de vozes a partir de misturas pré-gravadas

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esq

ue

rda

(a) Conversa c/ mistura variando em mó-dulo

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Direita

Esq

ue

rda

(b) Conversa c/ mistura variando em fase

Figura 5.8: Ganhos normalizados de fontes por canais para misturas da Seção 5.4.6.Azul e vermelho representam, respectivamente, primeira e segunda fonte. O vetorrepresenta o ganho no início da mistura, o círculo representa o ganho no últimoquadro da mistura e a linha tracejada, os ganhos intermediários. A variação deganho por canal no tempo é linear.

1. O sinal da fonte com ganho por canal variando no tempo é pior estimado doque as fontes estacionárias.

2. Embora a SDR para a segunda fonte esteja baixa até nos melhores desempe-nhos, a SIR é alta. Isso indica que as melhores estimativas conseguem eliminarrazoavelmente a interferência entre fontes; entretanto, falham ao modelar o si-nal corretamente.

3. As estimativas da mistura com ganho variando em módulo são melhor estima-das, já que a matriz H consegue incorporar ganhos em módulo.

4. Os modelos não são preparados para ganhos por canal variando em fase, ouvariando relativamente entre canais. Portanto, a estimativa produzida possuiganho fixo relativo entre os canais.

Conclui-se que os modelos podem conseguir separar sinais de fontes em umamistura variante, mas falham em modelar corretamente sinais. O desempenho dasimplementações é reduzido significativamente quando a mistura não envolve fontespontuais e estacionárias. As implementações podem não produzir estimativas ade-quadas em misturas mais complexas devido ao modelamento incorreto dos sinaiscom ganho de mistura variando relativamente entre os canais.

116

Page 146: métodos para separação de vozes a partir de misturas pré-gravadas

−5 0 5 10 15 20 25 30

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(a) Conversa c/ mistura variando em módulo

−5 0 5 10 15 20 25 30

MU/NMF−IS

MU/NTF−IS

MU/NTFclus−IS

MU/NMF−KL

MU/NTF−KL

MU/NTFclus−KL

EM/NMF−IS

EM/NTF−IS

SDR (dBs)

(b) Conversa c/ mistura variando em fase

Figura 5.9: SDR média de estimavas de fontes por implementação para misturas daSeção 5.4.6. Barras azuis representam a SDR média, triângulos verdes representama estimativa de fonte com maior SDR e triângulos vermelhos, com menor SDR.

117

Page 147: métodos para separação de vozes a partir de misturas pré-gravadas

Conversa c/ mist. variando em mód.s1 s2

Voz 1, Fem. Voz 2, Masc.MU/NMF-IS

SDR 1.0 0.2SIR 4.9 0.0SAR 2.5 10.4

MU/NTF-ISSDR 0.4 -4.0SIR 18.2 -8.1SAR 1.3 15.6

MU/NTFclus-ISSDR 27.8 7.5SIR 35.2 29.1SAR 29.2 20.5

MU/NMF-KLSDR 6.7 5.0SIR 8.8 16.1SAR 11.3 10.8

MU/NTF-KLSDR 15.3 5.9SIR 31.2 9.1SAR 18.7 10.6

MU/NTFclus-KLSDR 20.7 7.1SIR 38.1 16.1SAR 22.9 14.4

EM/NMF-ISSDR 0.3 3.5SIR 4.1 1.2SAR -0.7 18.8

EM/NTF-ISSDR 4.1 -0.7SIR 29.2 -3.1SAR 4.5 5.2

Conversa c/ mist. variando em fases1 s2

Voz 1, Fem. Voz 2, Masc.MU/NMF-IS

SDR 0.2 0.9SIR 3.9 3.4SAR 2.6 0.0

MU/NTF-ISSDR 0.4 -4.3SIR 17.9 -8.1SAR 1.3 15.6

MU/NTFclus-ISSDR 27.8 2.5SIR 34.9 29.1SAR 29.3 19.6

MU/NMF-KLSDR 6.7 2.0SIR 12.0 12.9SAR 8.5 -0.9

MU/NTF-KLSDR 15.3 2.0SIR 30.9 9.1SAR 18.8 10.6

MU/NTFclus-KLSDR 20.7 2.4SIR 37.6 16.1SAR 22.9 14.2

EM/NMF-ISSDR 0.3 0.0SIR 7.2 -2.0SAR -1.9 3.5

EM/NTF-ISSDR 4.1 -1.6SIR 29.1 -3.1SAR 4.5 5.2

Tabela 5.12: SDR, SIR e SAR das estimativas das fontes consideradas para asduas misturas do experimento. Melhores resultados selecionados de 10 execuçõescom 5000 iterações cada. Maiores valores indicam melhores resultados. Valoresem negrito indicam resultados com melhor SDR média para uma base de dados.Experimento descrito na Seção 5.4.6.

118

Page 148: métodos para separação de vozes a partir de misturas pré-gravadas
Page 149: métodos para separação de vozes a partir de misturas pré-gravadas

Capítulo 6

Conclusões

Verificou-se que os métodos de decomposição e agrupamento baseados na NMFpodem ter seu desempenho aprimorado quando as misturas exibem característicasfacilitadoras como predominância ou alternância de fontes entre múltiplos canais.De todos os experimentos realizados neste trabalho, as seguintes observações podemser destacadas:

1. Implementações possuem ótimo desempenho na separação de sinais de instru-mentos percussivos dos de outras fontes.

2. Implementações com uso da divergência KL estimam uma separação adequadapara uma maior variedade de problemas.

3. Implementações com uso da divergência IS tiveram melhor desempenho emmisturas envolvendo pelo menos um instrumento percussivo. Embora a litera-tura comente sobre o melhor desempenho da NMF-IS com misturas de sinaisde voz, isso só foi observado em misturas de fontes de voz alternadas, seminterseções.

4. Confirma-se dos experimentos que as implementações baseadas na NMF apre-sentam um melhor desempenho na separação quando os padrões aparecemisolados em algum lugar da representação tempo-frequencial.

5. O desempenho de todas as implementações na separação de misturas contendosinais de voz é inferior ao de misturas contendo somente sinais de instrumentosmusicais. O desempenho inferior é atribuído a maior complexidade do sinal devoz e da pior determinação dos eventos na representação tempo-frequência.

6. A clusterização de componentes em fontes pode ser feita durante a fatoraçãoatravés da restrição de ganho único para componentes de uma fonte; entre-tanto, as fontes precisam ser pontuais e não devem variar no tempo. Casocontrário, a clusterização posterior é mais adequada.

120

Page 150: métodos para separação de vozes a partir de misturas pré-gravadas

7. Implementações multicanais NMF são capazes de separar adequadamente mis-turas de sinais de voz não simultâneas e com alguma predominância de fontespor canais.

8. Implementações foram desenvolvidas para estimar fontes estacionárias e pon-tuais, com isso lidando com misturas estacionárias. Embora tenha sido ob-servado que as implementações falham ao modelar fontes não estacionárias(no caso de misturas variantes no tempo), a interferência entre estimativas defontes pode ser minimizada, como visto no caso de duas fontes.

Nos problemas de separação de sinais de voz, as implementações multicanaisconseguiram separar adequadamente misturas com fontes alternadas ou compredominância por canal. Os métodos se mostraram aplicáveis em cenários cegos,com fontes de diferentes tipos e quando se procura não modelar o conteúdo como,por exemplo, na recuperação de fontes de uma gravação de programa de televisãoou rádio.

O problema envolvendo sinais de voz simultâneos ou sem a predominância defontes por canal mostrou ser, durante os experimentos, de complexidade elevadapara solução por NMF ou NTF.

Note que as observações foram feitas a partir da avaliação dos experimentosvia critérios objetivos de qualidade, baseados na comparação das estimativas dasfontes com os sinais originais. Ao se lidar com sinais de voz, há um contraste entreas medidas objetivas e a inteligibilidade da estimativa. Um bom desempenho naavaliação objetiva implica boa inteligibilidade, mas boa inteligibilidade pode seralcançada ainda com um baixo desempenho na avaliação objetiva.

A literatura, para problemas de fontes simultâneas, busca maximizar a inteligibi-lidade1 das estimativas, o que sugere trabalhar com implementações especializadaspara sinais de voz; enquanto este trabalho buscou a melhor separação dos sinais devoz, sem se importar com o conteúdo.

Portanto, existem diversas oportunidades para melhorar a separação de sinais devoz, mas precisa-se sempre definir se o objetivo é buscar a máxima inteligibilidadeatravés de um interpretador automatizado, ou a máxima qualidade do sinal estimadoatravés de uma métrica como SDR. A Tabela 6.1 resume as principais oportunidadesencontradas para melhora do desempenho na separação de sinais de voz.

1Em vez de qualidade do sinal estimado em comparação com original.

121

Page 151: métodos para separação de vozes a partir de misturas pré-gravadas

Oportunidades Melhores práticas encontradas na literatura1 Especialização: Em contraste com as implementações trabalhadas

que não restringem o tipo de sinais sonoros esti-mados, separadores especializados conseguem termelhor desempenho por explorar características fa-cilitadoras específicas de um tipo. Para separaçãode sinais de voz, uma implementação NMF podetreinar as bases espectrais envolvidas no discurso[72] ou, um separador por modelagem de fontespode utilizar a informação contida no próprio dis-curso num instante passado para melhor estimar apróxima palavra [31, 49].

2 Inicialização: Implementações foram desenvolvidas num cenáriocego, em que as inicializações foram feitas de modoaleatório. Entretanto, as implementações podemser aplicadas na saída de estimadores menos cus-tosos para procurar refinar o desempenho [26]. Nocaso multicanal, a matriz de ganho por compo-nente ou fonte para canal pode também ser esti-mada a priori para facilitar a fatoração.

3 Separação supervisionada: O treinamento a partir de um pré-conhecimentosobre as fontes pode ser aplicado às bases espec-trais contidas na matriz W das implementaçõesNMF; em aplicações de separação de sinais de voz,por exemplo, bases podem ser treinadas por pessoapara formar dicionários sonoros [73].

4 Separação assistida: A separação de sinais de fala a partir da observaçãode múltiplos microfones é dificultada por caracte-rísticas como ruído e reverberação. Além disso,a separação é limitada, já que geralmente não háinformação suficiente para discriminar completa-mente os sinais presentes na mistura. A separaçãoaudiovisual busca combinar observações da mis-tura de áudio com imagens capturadas [74].

Tabela 6.1: Principais oportunidades encontradas para melhora de desempenho naseparação de sinais de voz.

122

Page 152: métodos para separação de vozes a partir de misturas pré-gravadas
Page 153: métodos para separação de vozes a partir de misturas pré-gravadas

Referências Bibliográficas

[1] BREGMAN, A. S. Auditory Scene Analysis: The Perceptual Organization ofSound. London, England, MIT Press, 1994.

[2] CHERRY, E. C. “Some experiments on the recognition of speech, with one andwith two ears”, Journal of the Acoustical Society of America, v. 25, n. 5,pp. 975–979, September 1953.

[3] HYVÄRINEN, A., OJA, E. “Independent component analysis: algorithms andapplications”, Neural Networks, v. 13, n. 4-5, pp. 411–430, May-June 2000.

[4] YU, D., SATTAR, F., MA, K.-K. “Watermark detection and extraction usingindependent component analysis method”, EURASIP Journal on AppliedSignal Processing, v. 2002, n. 1, pp. 92–104, January 2002.

[5] CAYRE, F., FONTAINE, C., FURON, T. “Watermarking security: theory andpractice”, IEEE Transactions on Signal Processing, v. 53, n. 10, pp. 3976–3987, October 2005.

[6] LI, Y., CICHOCKI, A. “Non-negative matrix factorization and its application inblind sparse source separation with less sensors than sources”, COMPEL–The International Journal for Computation and Mathematics in Electricaland Electronic Engineering, v. 24, n. 2, pp. 695–706, 2005.

[7] MONGA, V., MIHCAK, M. K. “Robust image hashing via non-negative matrixfactorizations”. In: Proceedings of the 2006 IEEE International Confe-rence on Acoustics Speech and Signal Processing Proceedings (ICASSP2006), v. II, pp. 225–228, Toulouse, France, May 2006. IEEE.

[8] SMARAGDIS, P. “Non-negative matrix factor deconvolution; extraction of mul-tiple sound sources from monophonic inputs”. In: Proceedings of the 5thInternational Conference on Independent Component Analysis and BlindSignal Separation (ICA 2004), pp. 494–499, Granada, Spain, September2004. Springer.

124

Page 154: métodos para separação de vozes a partir de misturas pré-gravadas

[9] VIRTANEN, T. Sound Source Separation in Monaural Music Signals. Phdthesis, Tampere University of Technology, Tampere, Finland, 2006.

[10] WANG, B., PLUMBLEY, M. D. “Musical audio stream separation by non-negative matrix factorization”. In: Proceedings of the Digital Music Rese-arch Network Summer Conference (DMRN-05), pp. 23–24, Glasgow, UK,July 2005.

[11] SCHMIDT, M. N., LARSEN, J., HSIAO, F.-T. “Wind noise reduction usingnon-negative sparse coding”. In: Proceedings of the 2007 IEEE Workshopon Machine Learning for Signal Processing (MLSP 2007), pp. 431–436,Thessaloniki, Greece, August 2007. IEEE.

[12] PAATERO, P., TAPPER, U. “Positive matrix factorization: A non-negativefactor model with optimal utilization of error estimates of data values”,Environmetrics, v. 5, n. 1, pp. 111–126, June 1994.

[13] SEUNG, H. S., LEE, D. D. “Learning the parts of objects by non-negativematrix factorization”, Nature, v. 401, pp. 788–791, October 1999.

[14] BERRY, M. W., BROWNE, M., LANGVILLE, A. N., et al. “Algorithms andapplications for approximate nonnegative matrix factorization”, Compu-tational Statistics & Data Analysis, v. 52, n. 1, pp. 155–173, September2007.

[15] DONOHO, D., STODDEN, V. “When does non-negative matrix factorizationgive a correct decomposition into parts?” In: Proceedings of the 17th An-nual Conference on Neural Information Processing Systems (NIPS 2003),pp. 1141–1148, Vancouver, Canada, December 2003. MIT.

[16] TYGEL, A. F. Métodos de Fatoração de Matrizes Mão-negativas para Separa-ção de Sinais Musicais. Dissertação de mestrado, PEE/COPPE, Univer-sidade Federal do Rio de Janeiro, Rio de Janeiro, Brasil, 2009.

[17] ALMEIDA, R. M. Separação de Fontes Sonoras por Fatoração DuplamenteDeconvolutiva de Matrizes Não-Negativas com Uso de Restrições. Disser-tação de mestrado, PEE/COPPE, Universidade Federal do Rio de Janeiro,Rio de Janeiro, Brasil, 2014.

[18] QUINTANILHA, I. M. Algoritmos para Fatoração de Matrizes Não-Negativascom Aplicação em Transcrição de Instrumentos Percursivos. Projeto degraduação, DEL/Poli, Universidade Federal do Rio de Janeiro, Rio deJaneiro, Brasil, 2016.

125

Page 155: métodos para separação de vozes a partir de misturas pré-gravadas

[19] DAVY, M. “An introduction to statistical signal processing and spectrum esti-mation”. In: Klapuri, Anssiand Davy, M. (Ed.), Signal Processing Methodsfor Music Transcription, cap. 2, pp. 21–64, Boston, USA, Springer, 2006.

[20] OPPENHEIM, A. V., SCHAFER, R. W., BUCK, J. R., et al. Discrete-TimeSignal Processing. New Jersey, USA, Pearson Higher Education, 2010.

[21] BISHOP, C., JORDAN, M., KLEINBERG, J., et al. Pattern Recognition andMachine Learning. New York, USA, Springer, 2006.

[22] PRESS, W. H., TEUKOLSKY, S. A., VETTERLING, W. T., et al. NumericalRecipes in C, The Art of Scientific Computing. Cambridge, England,Cambridge University Press, 1992.

[23] FÉVOTTE, C., BERTIN, N., DURRIEU, J.-L. “Nonnegative matrix factoriza-tion with the Itakura-Saito divergence: with application to music analy-sis”, Neural Computation, v. 21, n. 3, pp. 793–830, March 2009.

[24] FEVOTTE, C., OZEROV, A. “Notes on nonnegative tensor factorization of thespectrogram for audio source separation: Statistical insights and towardsself-clustering of the spatial cues”, Lecture Notes in Computer Science(including subseries Lecture Notes in Artificial Intelligence and LectureNotes in Bioinformatics), v. 6684, pp. 102–105, June 2011.

[25] FITZGERALD, D., CRANITCH, M., COYLE, E. “Extended non-negativetensor factorisation models for musical sound source separation”, Compu-tational Intelligence and Neuroscience, v. 2008, May 2008.

[26] OZEROV, A., FÉVOTTE, C. “Multichannel nonnegative matrix factorizationin convolutive mixtures for audio source separation”, IEEE Transactionson Audio, Speech, and Language Processing, v. 18, n. 3, pp. 550–563,March 2010.

[27] SCHMIDT, M. N. Single-channel source separation using non-negative matrixfactorization. Msc dissertation, Technical University of Denmark (DTU),Lyngby, Denmark, 2008.

[28] “Under-determined speech and music mixtures task, Signal Sepa-ration Evaluation Campaign (SiSEC)”. 2013. Disponível em:<http://sisec.wiki.irisa.fr/tiki-indexbfd7.html?page=Underdetermined+speech+and+music+mixtures>.

[29] CASEY, M. A., WESTNER, A. “Separation of mixed audio sources by in-dependent subspace analysis”. In: Proceedings of the 2000 International

126

Page 156: métodos para separação de vozes a partir de misturas pré-gravadas

Computer Music Conference (ICMC 2000), pp. 154–161, Berlin, Germany,August–September 2000. ICMA.

[30] Klapuri, A., Davy, M. (Eds.). Signal Processing Methods for Music Transcrip-tion. New York, USA, Springer, 2006.

[31] HERSHEY, J. R., RENNIE, S. J., OLSEN, P. A., et al. “Super-human multi-talker speech recognition: a graphical modeling approach”, Elsevier Com-puter Speech & Language, v. 24, n. 1, pp. 45–66, January 2010.

[32] RENNIE, S. J., HERSHEY, J. R., OLSEN, P. A. “Hierarchical variational loopybelief propagation for multi-talker speech recognition”. In: Proceedings ofthe 2009 IEEE Workshop on Automatic Speech Recognition & Understan-ding (ASRU 2009), pp. 176–181, Merano, Italy, December 2009. IEEE.

[33] VIRTANEN, T. “Speech recognition using factorial hidden Markov models forseparation in the feature space”. In: Proceedings of the 9th InternationalConference on Spoken Language Processing (Interspeech 2006 - ICSLP),Pittsburgh, USA, September 2006.

[34] HYVÄRINEN, A., KARHUNEN, J., OJA, E. Independent Component Analy-sis. New York, USA, Wiley, 2001.

[35] COMON, P. “Independent component analysis, a new concept?” Elsevier SignalProcessing, v. 36, pp. 286–314, April 1994.

[36] HELÉN, M., VIRTANEN, T. “Separation of drums from polyphonic music usingnon-negative matrix factorization and support vector machine”. In: Pro-ceedings of the 13th European Signal Processing Conference (EUSIPCO2005), pp. 1091–1094, Antalya, Turkey, 2005. EURASIP.

[37] BACH, F. R., JORDAN, M. I. “Learning spectral clustering, with applicationto speech separation”, The Journal of Machine Learning Research, v. 7,pp. 1963–2001, October 2006.

[38] BACH, F. R., JORDAN, M. I. “Learning spectral clustering”. In: Proceedingsof the 17th Annual Conference on Neural Information Processing Systems(NIPS 2003), pp. 305–312, Vancouver, Canada, December 2003. MIT.

[39] BACH, F. R., JORDAN, M. I. “Blind one-microphone speech separation: Aspectral learning approach”. In: Proceedings of the 18th Annual Confe-rence on Neural Information Processing Systems (NIPS 2004), pp. 65–72,Vancouver, Canada, December 2004. MIT.

127

Page 157: métodos para separação de vozes a partir de misturas pré-gravadas

[40] CLIFFORD, G. Chapter 15 - Blind Source Separation: Principal & Indepen-dent Component Analysis. Course materials for hst.582j / 6.555j / 16.456j,biomedical signal and image processing, Massachusetts Institute of Tech-nology, Massachusetts, USA, 2007.

[41] JANG, G. J., LEE, T.-W., OH, Y.-H. “Single-channel signal separation usingtime-domain basis functions”, IEEE Signal Processing Letters, v. 10, n. 6,pp. 168–171, June 2003.

[42] JANG, G. J., LEE, T.-W., OH, Y.-H. “Blind separation of single channelmixture using ICA basis function”. In: Proceedings of 3rd InternationalConference on ICA and BSS (ICA 2001), pp. 595–600, San Diego, USA,December 2001. ICA.

[43] BOŸLL, P., ZIBULEVSKY, M. “Underdetermined blind source separationusing sparse representations”, Elsevier Signal Processing, v. 81, n. 11,pp. 2353–2362, November 2001.

[44] ROWEIS, S. “Factorial models and refiltering for speech separation and de-noising”. In: Proceedings of 8th European Conference on Speech Com-munication and Technology (Eurospeech 2003), pp. 1009–1012, Geneva,Switzerland, September 2003.

[45] BEIERHOLM, T., PEDERSEN, B., WINTHER, O. “Low complexity Bayesiansingle channel source separation”. In: Proceedings of the 2004 IEEE Inter-national Conference on Acoustics, Speech and Signal Processing (ICASSP2004), v. V, pp. 529–532, Montreal, Canada, May 2004. IEEE.

[46] REDDY, A. M., RAJ, B. “A minimum mean squared error estimator for sin-gle channel speaker separation”. In: Proceedings of the 8th InternationalConference on Spoken Language Processing (Interspeech - ICSLP), JejuIsland, Korea, October 2004.

[47] GHAHRAMANI, Z., JORDAN, M. I. “Factorial hidden Markov models”, Ma-chine Learning, v. 29, pp. 245–275, November 1997.

[48] ROWEIS, S. T. “One microphone source separation”. In: Proceedings of the14th Annual Conference on Neural Information Processing Systems (NIPS2000), pp. 793–799, Denver, USA, November–December 2000. MIT.

[49] RENNIE, S. J., HERSHEY, J. R., OLSEN, P. A. “Single-channel multitalkerspeech recognition”, IEEE Signal Processing Magazine, v. 27, n. 6, pp. 66–80, November 2010.

128

Page 158: métodos para separação de vozes a partir de misturas pré-gravadas

[50] LEE, D. D., SEUNG, H. S. “Algorithms for non-negative matrix factorization”,Advances in Neural Information Processing Systems, v. 13, pp. 556–562,2001.

[51] ITAKURA, F., SAITO, S. “Analysis synthesis telephony based on the maxi-mum likelihood method”. In: Reports of the 6th International Congresson Acoustics, v. C, pp. 17–20, Los Alamitos, USA, August 1968.

[52] EGUCHI, S., KANO, Y. “Robustyfing maximum likelihood estimation by psi-divergence”, ISM Research Memoranda, v. 802, 2001.

[53] CICHOCKI, A., AMARI, S.-I., ZDUNEK, R., et al. “Extended SMART al-gorithms for non-negative matrix factorization”. In: Proceedings of theInternational Conference on Artificial Intelligence and Soft Computing(ICAISC 06), pp. 548–562, Calgary, Canada, June 2006. Springer.

[54] BOYD, S., VANDENBERGHE, L. Convex Optimization. Cambridge, England,Cambridge University Press, 2004.

[55] BEZDEK, J. C., HATHAWAY, R. J., HOWARD, R. E., et al. “Local conver-gence analysis of a grouped variable version of coordinate descent”, Jour-nal of Optimization Theory and Applications, v. 54, n. 3, pp. 471–477,1987.

[56] BEZDEK, J. C., HATHAWAY, R. J. “Some notes on alternating optimization”.In: Proceedings of the 2002 AFSS International Conference on Fuzzy Sys-tems (AFFS 2002), pp. 288–300, Berlin, Germany, February 2002. Sprin-ger.

[57] DHILLON, I. S., SRA, S. “Generalized nonnegative matrix approximationswith bregman divergences”, Advances in Neural Information PocessingSystems, v. 19, pp. 283–290, 2005.

[58] CICHOCKI, A., ZDUNEK, R. “Multilayer nonnegative matrix factorization”,Electronics Letters, v. 42, n. 16, pp. 947–948, August 2006.

[59] GRIFFIN, D. “Signal estimation from modified short-time Fourier transform”,IEEE Transactions on Acoustics, Speech, and Signal Processing, v. 32,n. 2, pp. 236–243, April 1984.

[60] CAMPOS, C. V. C. Algoritmos para Reconstrução de Fase de Sinais de Áudio.Projeto de graduação, DEL/Poli, Universidade Federal do Rio de Janeiro,Rio de Janeiro, Brasil, 2011.

129

Page 159: métodos para separação de vozes a partir de misturas pré-gravadas

[61] VIRTANEN, T. “Monaural sound source separation by nonnegative matrix fac-torization with temporal continuity and sparseness criteria”, IEEE Tran-sactions on Audio, Speech and Language Processing, v. 15, n. 3, pp. 1066–1074, March 2007.

[62] VINCENT, E., GRIBONVAL, R., FEVOTTE, C. “Performance measurementin blind audio source separation”, IEEE Transactions on Audio, Speech,and Language Processing, v. 14, n. 4, pp. 1462–1469, July 2006.

[63] FÉVOTTE, C., GRIBONVAL, R., VINCENT, E. BSS Eval Toolbox User Guide- Revision 2.0. Technical Report 1706, Institut de Recherche en Informa-tique et Systèmes Aléatoires, Rennes, France, April 2005.

[64] GRIBONVAL, R., BENAROYA, L., VINCENT, E., et al. “Proposals for perfor-mance measurement in source separation”. In: Proceedings of the 4th Int.Symp. on Independent Component Analysis and Blind Signal Separation(ICA 2003), pp. 763–768, Nara, Japan, April 2003. Springer.

[65] “Professionally produced music recordings task, Signal Separa-tion Evaluation Campaign (SiSEC)”. 2013. Disponível em:<http://sisec.wiki.irisa.fr/tiki-index165d.html?page=Professionally+produced+music+recordings>.

[66] PARRY, R. M., ESSA, I. “Estimating the spatial position of spectral com-ponents in audio”. In: Proceedings of the 2006 International Conferenceon Independent Component Analysis and Signal Separation, pp. 666–673,Berlin, Germany, March 2006. Springer.

[67] FITZGERALD, D., CRANITCH, M., COYLE, E. “Non-negative tensor fac-torisation for sound source separation”. In: Proceedings of the 2005 IrishSignals and Systems Conference (ISSC 2005), Dublin, Ireland, January2005.

[68] FEDER, M., WEINSTEIN, E. “Parameter estimation of superimposed signalsusing the EM algorithm”, IEEE Transactions on Acoustics, Speech, andSignal Processing, v. 36, n. 4, April 1988.

[69] CARDOSO, J. F., SNOUSSI, H., DELABROUILLE, J. “Blind separation ofnoisy Gaussian stationary sources. Application to cosmic microwave back-ground imaging”. In: Proceedings of the 2015 European Signal ProcessingConference (EUSIPCO 2015), pp. 561–564, Nice, France, March 2015.EURASIP.

130

Page 160: métodos para separação de vozes a partir de misturas pré-gravadas

[70] DEMPSTER, A. P., LAIRD, N. M., RUBIN, D. B. “Maximum likelihood fromincomplete data via the EM algorithm”, Journal of the Royal StatisticalSociety. Series B (Methodological), v. 39, n. 1, pp. 1–38, January 1977.

[71] DE LIMA, A. A., NETTO, S. L., BISCAINHO, L. W. P., et al. “Qualityevaluation of reverberation in audioband speech signals”. In: Proceedingsof 2009 International Conference on E-Business and Telecommunications,pp. 384–396, Berlin, Germany, July 2009. Springer.

[72] SCHMIDT, M. N., OLSSON, R. K. “Single-channel speech separation usingsparse non-negative matrix factorization”. In: Proceedings of the 9th In-ternational Conference on Spoken Language Processing (Interspeech 2006- ICSLP), pp. 2614–2617, Pittsburgh, USA, September 2006.

[73] ASARI, H. Non-negative Matrix Factorization: A Possible Way to Learn SoundDictionaries. Technical report, Preprint, August 2005.

[74] RIVET, B., WANG, W., NAQVI, S. M., et al. “Audiovisual speech sourceseparation: an overview of key methodologies”, IEEE Signal ProcessingMagazine, v. 31, n. 3, pp. 125–134, May 2014.

131

Page 161: métodos para separação de vozes a partir de misturas pré-gravadas

Apêndice A

Estrutura da Página de Resultados

A página de resultados exibe as tabelas de SDR, SIR e SAR das estimativasdas fontes para os experimentos do Capítulo 5. Além das métricas de avaliaçãoobjetiva, são disponibilizados os arquivos .WAV de áudio da mistura, das fontesoriginais e das estimativas das fontes de cada implementação.

As implementações e o ambiente de simulações utilizado neste trabalho podemser obtidos através da página de resultados ou através de contato com o autor peloendereço eletrônico na página de resultados.

A página de resultados pode ser acessada através do seguinte endereço:http://www.smt.ufrj.br/~igor.chame/.

132