Correção de desvios na velocidade de reprodução de...

86

Transcript of Correção de desvios na velocidade de reprodução de...

Page 1: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

CORREÇÃO DE DESVIOS NA VELOCIDADE DE REPRODUÇÃO DE

GRAVAÇÕES DE MÚSICA

Luís Felipe Velloso de Carvalho

Projeto de Graduação apresentado ao Curso

de Engenharia Eletrônica e de Computação

da Escola Politécnica, Universidade Federal

do Rio de Janeiro, como parte dos requisitos

necessários à obtenção do título de Engenheiro.

Orientadores: Luiz Wagner Pereira Biscainho

Hugo Tremonte de Carvalho

Rio de Janeiro

Agosto de 2015

Page 2: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

CORREÇÃO DE DESVIOS NA VELOCIDADE DE REPRODUÇÃO DE

GRAVAÇÕES DE MÚSICA

Luís Felipe Velloso de Carvalho

PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO

CURSO DE ENGENHARIA ELETRÔNICA E DE COMPUTAÇÃO DA ESCOLA

POLITÉCNICA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO

PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU

DE ENGENHEIRO ELETRÔNICO E DE COMPUTAÇÃO.

Examinado por:

Prof. Luiz Wagner Pereira Biscainho, D.Sc.

Prof. Hugo Tremonte de Carvalho, M.Sc.

Prof. Marcello Luiz Rodrigues de Campos, Ph.D.

Prof. Diego Barreto Haddad, D.Sc.

RIO DE JANEIRO, RJ BRASIL

AGOSTO DE 2015

Page 3: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

de Carvalho, Luís Felipe Velloso

Correção de desvios na velocidade de reprodução de

gravações de música/Luís Felipe Velloso de Carvalho.

Rio de Janeiro: UFRJ/ Escola Politécnica, 2015.

XI, 75 p.: il.; 29, 7cm.

Orientadores: Luiz Wagner Pereira Biscainho

Hugo Tremonte de Carvalho

Projeto de Graduação UFRJ/ Escola Politécnica/

Curso de Engenharia Eletrônica e de Computação, 2015.

Referências Bibliográcas: p. 74 75.

1. Restauração de áudio. 2. Análise senoidal. 3.

Reamostragem não-uniforme. I. Biscainho, Luiz Wagner

Pereira et al. II. Universidade Federal do Rio de Janeiro,

Escola Politécnica, Curso de Engenharia Eletrônica e de

Computação. III. Título.

iii

Page 4: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Agradecimentos

Em primeiro lugar, gostaria de agradecer à minha família, pela paciência comigo

durante esses anos de graduação. Agradeço todo o carinho, força, apoio e amor que

me deram. O alcance de todos meus objetivos se deve a vocês.

Gostaria de agradecer ao meu orientador e amigo Luiz Wagner Pereira Biscai-

nho, pela sugestão do tema, pela orientação exercida com maestria durante este

projeto, e pela paciência, dedicação e disponibilidade. Pode ter certeza que todo es-

forço empregado para concluir este trabalho foi recompensado, e você foi o principal

responsável por eu ter o terminado a tempo.

Gostaria de agradecer ao meu co-orientador e amigo Hugo Tremonte de Carvalho,

pela orientação, pelas sugestões ao longo do projeto, e pelas inúmeras vezes que sua

ajuda foi pontual quando eu me encontrava diante de adversidades e pensava que não

havia solução. Espero que esta seja sua primeira de muitas orientações de projeto

de graduação. Desejo boa sorte nestes últimos anos de doutorado.

A todos os amigos que tive o prazer de conhecer ao longo da graduação, pelos

momentos de descontração e pela companhia em todas as matérias feitas.

Aos amigos, companheiros e professores do Laboratório de Sinais, Mutimídia e

Telecomunicações, por sempre tornar o ambiente de trabalho agradável e descon-

traído.

Por m, é importante dizer que o conhecimento adquirido durante este trabalho

acrescentou bastante à minha formação, e indubitavelmente servirá como base para

outros projetos no futuro.

iv

Page 5: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como

parte dos requisitos necessários para a obtenção do grau de Engenheiro Eletrônico

e de Computação.

Correção de desvios na velocidade de reprodução de gravações de música

Luís Felipe Velloso de Carvalho

Agosto/2015

Orientadores: Luiz Wagner Pereira Biscainho

Hugo Tremonte de Carvalho

Curso: Engenharia Eletrônica e de Computação

Este trabalho apresenta um conjunto de técnicas de processamento digital de si-

nais para detecção e restauração de uma classe especíca de degradações de áudio:

desvios na velocidade de reprodução de gravações de música.

Tal tipo de degradação possui como efeito variações indesejáveis no tempo musi-

cal e consequentemente na altura da frequência percebida. Algumas de suas causas

são defeitos de fabricação ou desgaste de meios de armazenamento, e utuações na

velocidade de rotação durante a gravação ou reprodução.

Uma possível forma de corrigir tais defeitos é, a partir de uma versão digitalizada

da gravação degradada, localizar trechos nos quais ocorreram os desvios, e realizar

uma reamostragem com o objetivo de compensá-los.

A localização dos trechos é caracterizada por meio de uma análise tempo-

frequência do sinal degradado: picos espectrais ao longo do sinal são detectados

e rastreados, de forma a determinar as principais linhas de frequência do sinal.

Feito isso, uma curva global é obtida a partir deste rastreamento, e nela possíveis

desvios de velocidade podem ser detectados.

Um algoritmo que realiza reamostragem de sinais por fatores variantes no tempo

é então empregado para a correção dos desvios.

Por m, o sistema completo é apresentado na forma de uma interface gráca,

de modo a facilitar testes de desempenho e permitir uma melhor interação com o

usuário.

Palavras-chave: Restauração de áudio, Análise senoidal, Reamostragem não-

uniforme.

v

Page 6: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulllment

of the requirements for the degree of Engineer.

RESTORATION OF SPEED VARIATIONS IN PLAYBACK OF MUSIC

RECORDINGS

Luís Felipe Velloso de Carvalho

August/2015

Advisors: Luiz Wagner Pereira Biscainho

Hugo Tremonte de Carvalho

Course: Electronic Engineering

This work investigates a set of digital signal processing techniques applied to the

detection and restoration of a specic class of audio degradation: speed variations

in playback of music recordings.

The consequences of this degradation are undesirable variations in time and

consequently in the signal pitch. Some of their causes are manufacture defects or

wear and tear of the storage medium, and uctuations of rotation speed during

either recording or playback.

A possible way of correcting such defects is, from a digital version of the degraded

recording, nd parts in which these deviations occurred and resample the signal, in

order to compensate them.

The localisation of these degraded parts are characterised by a time-frequency

analysis of the degraded recording: spectral peaks within the signal are detected

and tracked, in order to nd the main frequency lines of the signal. A global curve

is then obtained from this tracking, and possible speed variations can be detected

from it.

An algorithm which realises a time-varying resampling of the signal is then im-

plemented to correct such deviations.

Lastly, a detection/correction system is presented as a graphical interface, in

order to make performance tests easier and allow some interactivity with the user.

Keywords: Audio Restoration, Sinusoidal Analysis, non-uniform Resampling.

vi

Page 7: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Sumário

Lista de Figuras ix

Lista de Tabelas xi

1 Introdução 1

1.1 História da gravação musical . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Restauração de sinais de áudio . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Tipos de degradação . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.1 Restauração analógica vs restauração digital . . . . . . . . . . 6

1.4 Gravações com desvios de velocidade . . . . . . . . . . . . . . . . . . 7

1.4.1 Restauração digital do defeito . . . . . . . . . . . . . . . . . . 7

1.4.2 Proposta do trabalho . . . . . . . . . . . . . . . . . . . . . . . 8

1.5 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Extração da curva de desvio 10

2.1 Método escolhido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Análise senoidal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 A transformada de Fourier de tempo curto - STFT . . . . . . 12

2.2.2 Detecção de picos . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.3 Rastreamento de trajetórias senoidais . . . . . . . . . . . . . . 22

2.2.4 Rastreamento de alguns sinais de teste . . . . . . . . . . . . . 25

2.3 Estimativa da curva de desvio . . . . . . . . . . . . . . . . . . . . . . 28

2.3.1 Extração da média global das trilhas . . . . . . . . . . . . . . 28

2.3.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Modicação da velocidade de reprodução 32

3.1 Amostragem uniforme de sinais contínuos . . . . . . . . . . . . . . . . 33

3.1.1 Interpretação espectral da amostragem . . . . . . . . . . . . . 34

3.1.2 Reconstrução de um sinal a partir de suas amostras . . . . . . 36

3.2 Mudança da taxa de amostragem . . . . . . . . . . . . . . . . . . . . 38

3.2.1 Aumento por um fator L . . . . . . . . . . . . . . . . . . . . . 39

vii

Page 8: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

3.2.2 Redução por um fator M . . . . . . . . . . . . . . . . . . . . . 41

3.2.3 Mudança por um fator racionalL

M. . . . . . . . . . . . . . . 42

3.2.4 Mudança por um fator arbitrário . . . . . . . . . . . . . . . . 44

3.2.5 Caso variante no tempo . . . . . . . . . . . . . . . . . . . . . 47

3.3 Testes de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.3.1 Desempenho da reamostragem por um fator arbitrário . . . . 53

3.3.2 Desempenho da reamostragem por fatores variantes no tempo 54

3.4 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Um sistema de detecção e correção 55

4.1 Implementação de uma interface gráca . . . . . . . . . . . . . . . . . 55

4.1.1 Funcionalidades da interface . . . . . . . . . . . . . . . . . . . 56

5 Resultados 60

5.1 Testes com gravações articialmente degradadas . . . . . . . . . . . . 60

5.1.1 Sinal clar.wav . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.1.2 Sinal gspi.wav . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.3 Sinal orchestra.wav . . . . . . . . . . . . . . . . . . . . . . . 65

5.2 Teste com uma gravação com uma degradação natural . . . . . . . . 66

5.3 Comentários sobre os resultados obtidos . . . . . . . . . . . . . . . . 68

6 Conclusão 71

Referências Bibliográcas 74

viii

Page 9: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Lista de Figuras

2.1 Esquema do janelamento de fase zero com preenchimento com zeros. . 17

2.2 Esquema de detecção dos picos usando limiar variável TPSW. . . . . 20

2.3 Esquema do algoritmo de rastreamento. . . . . . . . . . . . . . . . . . 25

2.4 Trilhas senoidais do sinal gspi.wav. . . . . . . . . . . . . . . . . . . . 26

2.5 Trilhas senoidais do sinal flute.wav. . . . . . . . . . . . . . . . . . . 27

2.6 Curva de desvio do sinal gspi.wav. . . . . . . . . . . . . . . . . . . . 30

2.7 Curva de desvio do sinal flute.wav. . . . . . . . . . . . . . . . . . . 30

3.1 Amostragem de um sinal contínuo. . . . . . . . . . . . . . . . . . . . 34

3.2 Interpretação espectral da amostragem. . . . . . . . . . . . . . . . . . 36

3.3 Reconstrução de um sinal. . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4 Diagrama de blocos do sistema para aumento de taxa de amostragem. 39

3.5 Espectros que descrevem o aumento da taxa de amostragem de um

sinal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.6 Diagrama de blocos do sistema para redução de taxa de amostragem. 41

3.7 Espectros que descrevem a redução da taxa de amostragem de um sinal. 42

3.8 Diagrama de blocos da reamostragem por um fator racional. . . . . . 44

3.9 Computação de amostras de sa[m] na reamostragem por fatores reais. 45

3.10 Convolução do ltro implementado com o sinal a ser reamostrado. . . 47

3.11 Esquema da transição entre fatores adjacentes. . . . . . . . . . . . . . 50

3.12 Desvio de fase entre blocos adjacentes. . . . . . . . . . . . . . . . . . 52

4.1 Layout da interface gráca. . . . . . . . . . . . . . . . . . . . . . . . 56

5.1 Rastreamento do sinal degradado clar_step.wav. . . . . . . . . . . . 62

5.2 Rastreamento do sinal restaurado clar_restored.wav. . . . . . . . . 62

5.3 Curvas teórica, degradada e corrigida das modicações do sinal

clar.wav. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.4 Rastreamento do sinal degradado gspi_sin.wav. . . . . . . . . . . . 63

5.5 Rastreamento do sinal restaurado gspi_restored.wav. . . . . . . . . 64

5.6 Curvas teórica, degradada e corrigida das modicações do sinal

gspi.wav. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

ix

Page 10: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

5.7 Rastreamento do sinal degradado orchestra_sin.wav. . . . . . . . . 65

5.8 Rastreamento do sinal restaurado orchestra_restored.wav. . . . . . 66

5.9 Curvas de desvio teórica, degradada e corrigida das modicações do

sinal orchestra.wav. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.10 Rastreamento do sinal degradado paulistana.wav. . . . . . . . . . . 67

5.11 Rastreamento do sinal restaurado paulistana_restored.wav. . . . . 68

5.12 Curvas de desvio dos sinais paulistana.wav e paulistana_-

restored.wav. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

x

Page 11: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Lista de Tabelas

2.1 Parâmetros do rastreamento do sinal gspi.wav. . . . . . . . . . . . . 26

2.2 Parâmetros do rastreamento do sinal flute.wav. . . . . . . . . . . . 27

5.1 Parâmetros do rastreamento do sinal clar.wav e suas modicações. . 61

5.2 Parâmetros do rastreamento do sinal orchestra.wav e suas modi-

cações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.3 Parâmetros do rastreamento do sinal paulistana.wav. . . . . . . . . 68

xi

Page 12: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Capítulo 1

Introdução

A arte de combinar sons sempre conquistou e emocionou o ser humano. Impul-

sionadas pela tecnologia digital, a cada dia surgem novas maneiras de enxergar a

música, que permitem investigar a mística existente por detrás dela, bem como sua

capacidade de contagiar as pessoas. Este trabalho consiste em uma contribuição

para o tema.

1.1 História da gravação musical

Para situar historicamente a delimitação deste trabalho, é apresentado um breve

resumo da história do áudio gravado até as primeiras gravações digitais.

O primeiro aparelho capaz de registrar sons foi o Fonoautógrafo, patenteado em

1857 por Léon Scott1. Neste aparelho, um cone acústico conectado a um diafragma

captava as ondas sonoras. O diafragma vibrava com a intensidade das ondas e uma

agulha conectada nele ia gravando as informações na forma de uma linha riscada

sobre um cilindro rotatório com uma capa de fuligem.

Duas décadas depois, em 1877, Thomas Edison2 inventou o primeiro aparelho

que registrava e reproduzia sons: o Fonógrafo. A gravação era feita de maneira

parecida com o Fonoautógrafo: com um cone acústico conectado a um diafragma

1Edouard-Leon Scott de Martinville, 1817 - 1879.2Thomas Alva Edison, 1847 - 1931.

1

Page 13: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

que registrava os sons sulcando um cilindro metálico. A reprodução era feita girando

o cilindro no sentido que foi gravado, e a agulha lia as informações previamente

gravadas.

A tecnologia de gravação em cilindros era um tanto inconveniente, pois mesmo

após a eliminação da restrição de se imprimir um cilindro único por registro pela

adoção de materiais maleáveis que podiam ser gravados a partir de uma forma em

negativo, a produção em série era dicultada pela própria geometria da mídia.

Em 1888 surgiu o gramofone de Berliner3, que gravava e reproduzia sons através

de discos planos. A gravação era feita de maneira análoga ao Fonógrafo, mas a

agulha conectada ao diafragma riscava o disco plano, criando um sulco em espiral

em sua superfície. A reprodução era realizada rotacionando o disco já riscado no

sentido que foi gravado, e uma agulha lia os riscos e transmitia as vibrações para

o diafragma, cujas vibrações amplicadas pelo cone acústico emitiam o som. Os

discos eram cobertos por substâncias como goma-laca, vinil ou cera, de forma que a

replicação de estampas em maior escala era mais simples.

Os aparelhos até agora apresentados tinham todo seu funcionamento puramente

mecânico: a amplicação era realizada por meio de um cone acústico; e a rotação

das mídias era impulsionada por uma manivela, mais adiante aperfeiçoada por uma

corda como de relógio. Além disso, durante a gravação todos os músicos tinham

que se agrupar junto ao cone acústico, desta forma nem todos os instrumentos eram

gravados adequadamente. Na década de 1920 surgiram as primeiras gravações elétri-

cas, introduzindo os conceitos de amplicador e microfone elétricos. Esta tecnologia

permitiu uma melhora signicativa na qualidade do material gravado, estendendo

sua largura de faixa dos 164-2000 Hz nos gramofones para 20-5000 Hz, e reduzindo

o ruído da gravação. Além disso, agora os músicos podiam gravar confortavelmente

com microfones, sem a necessidade de se agruparem na frente de um cone acústico.

Mais adiante, em 1935, foi realizada a primeira gravação estéreo.

No mesmo ano de 1935, ocorreu a primeira demonstração pública da ta magné-

3Emil Berliner, 1851 - 1929.

2

Page 14: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

tica, idealizada por Peumer4. Sua estrutura consiste de uma ta plástica coberta

por um material magnetizável, como algum óxido de ferro ou de cromo. As infor-

mações são gravadas de forma sequencial ao longo da ta, ionizando as partículas

magnéticas do material de cobre a ta. A tecnologia das tas magnéticas evoluiu

bastante, e a partir da década de 50 elas se tornaram um padrão para a indústria

de gravação.

O primeiro LP (Long Play) foi lançado em 1948 pela Columbia Records. Com

microssulcos, o disco inicialmente tinha 10 (depois 12) polegadas de diâmetro, ope-

rava numa velocidade de rotação de 33 1/3 rpm e podia gravar até 14 (depois 23 e

além...) minutos em cada lado. O primeiro vinil EP (Extended Play) foi lançado no

ano seguinte pela Radio Corporation of America (RCA). O disco tinha 7 polegadas

de diâmetro e operava numa velocidade de rotação de 45 rpm.

Com os signicativos avanços da tecnologia digital nos anos 1970, foi desenvol-

vida nesta década a gravação digital e, em 1982, começou a ser comercializada a

primeira mídia digital doméstica: o CD (Compact disc); assim foi introduzido o

conceito de áudio digital. A tecnologia digital permitiu pela primeira vez gerar

cópias exatas de uma gravação. Com uma taxa de amostragem de 44,1 kHz e pro-

fundidade de 16 bits por amostra (com isso uma faixa dinâmica de 90 dB), os CDs

deram início à revolução digital, introduzindo novos patamares no que diz respeito

à qualidade de gravações. Nos dias atuais o conceito de áudio sobre mídia parece

estar se desconstruindo, podendo uma gravação ser armazenada na nuvem, ou estar

disponível por streaming.

Para um estudo mais detalhado da história das gravações musicais até os dias

atuais, consultar [1]5.

4Fritz Peumer, 1881 - 1945.5Página visitada pelo autor em 28/08/2015

3

Page 15: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

1.2 Restauração de sinais de áudio

Até meados do século XX, as tecnologias de gravação e reprodução de áudio eram

todas analógicas. Como consequência dessa limitação, vários tipos de degradação

podiam ocorrer com o material gravado, comprometendo assim sua qualidade. Além

disso, os próprios processos analógicos de gravação da época podiam não resultar

em uma gravação el à execução original.

O acesso a registros sonoros antigos e com boa qualidade tem interesses que

vão da preservação de manifestações folclóricas étnicas já extintas até o estudo de

aspectos interpretativos musicais através de locais e épocas distintos, abrangendo

história, cultura e arte.

A degradação de um sinal de áudio pode ser denida como qualquer modicação

indesejável e perceptível do sinal original. Essas modicações podem se originar na

gravação, no armazenamento e manuseio da mídia, ou na reprodução do áudio. Por

exemplo, um meio de gravação mal fabricado tem altas chances de degradar o sinal

original durante a cópia; e danos posteriores, como o desgaste do meio causado pelo

uso, também podem degradar o sinal original.

A restauração ideal de um sinal degradado deveria reconstruir o sinal exatamente

como ele era antes da degradação. Isto é impossível de realizar, mas ca mais

fácil chegar perto da restauração ideal classicando-se as degradações em tipos, e

desenvolvendo-se métodos para a restauração de cada um.

1.3 Tipos de degradação

As muitas formas de degradação de áudio observadas em gravações analógicas podem

ser divididas em dois grupos principais: degradações localizadas e distribuídas. As

degradações localizadas são caracterizadas por descontinuidades na forma de onda

do som em apenas um trecho especíco da gravação. Elas podem ser classicadas

em dois tipos:

1. Cliques: Também chamados de ruídos impulsivos, são caracterizados por

4

Page 16: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

curtas interferências (cuja duração é inferior a 1 ms) aleatórias tanto em seu

instante como na sua amplitude. Tais ruídos se apresentam sob a forma de

leves tiques ou estalos secos percebidos ao longo da gravação, podendo ser cau-

sados por pequenos danos na superfície de discos ou cilindros, como arranhões,

rugosidades, ou resíduos sobre ela depositados.

2. Ruídos de pulso longo: São degradações mais fortes que os cliques, causa-

das por danos mais sérios na superfície do meio de reprodução, como fendas,

arranhões mais profundos ou rupturas. As consequências disso são pulsos de

longa duração e elevada amplitude, percebidos como fortes baques na gravação.

Por excitarem violentamente o sistema que reproduz a mídia, frequentemente

suscitam uma resposta não linear; em geral, esta possui um longo transiente

semelhante a oscilações amortecidas de baixa frequência. Por causa disso,

tal tipo de degradação é também chamada de ruído de pulso longo de baixa

frequência.

Já as degradações distribuídas são caracterizadas por modicações indesejáveis que

abrangem o sinal todo. Elas podem ser classicadas em:

1. Ruído de fundo: Este tipo de degradação é bastante comum em todos os

tipos de gravações analógicas, apresentando-se sob a forma de um chiado sem

tonalidade especíca ao longo de todo o sinal. Pode ser causada por muitos

fatores, dentre eles os ruídos nos circuitos elétricos dos aparelhos de gravação

ou pelas características físicas do meio de armazenamento, como no caso da

ta magnética.

2. Distorções não-lineares: São uma classe de degradações caracterizadas por

uma ampla gama de características não-lineares, como saturação e distorções

harmônicas em amplicadores elétricos, dentre outras.

3. Desvios na velocidade de reprodução: São variações indesejáveis nas

frequências presentes nas gravações, causadas principalmente por defeitos de

5

Page 17: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

fabricação ou degradação de meios de armazenamento e utuações na veloci-

dade de rotação durante a gravação ou reprodução. São defeitos frequente-

mente encontrados em qualquer tipo de meio analógico de gravação.

A restauração de áudio é então realizada primeiramente identicando-se os tipos

de degradações presentes na gravação, e então aplicando-se métodos especícos para

restaurá-las.

1.3.1 Restauração analógica vs restauração digital

As primeiras técnicas analógicas de restauração de áudio foram aplicadas a tas

magnéticas. A remoção de cliques era feita manualmente, com o simples método de

cortar a ta e uni-la novamente de forma a retirar os trechos em onde ocorria o de-

feito, enquanto que a redução do ruído de fundo era feita através de uma equalização

das bandas de frequência. Obviamente, tais procedimentos comprometiam a integri-

dade do sinal gravado subjacente. Mais adiante, foram desenvolvidos métodos mais

sosticados para a remoção de cliques, que utilizavam ltros passa-altas para sua

detecção e ltros passa-baixas para seu mascaramento. Estas técnicas entretanto

não eram sosticadas o suciente para preservar a qualidade original da gravação.

O desenvolvimento de técnicas de processamento digital de sinais a partir da

década de 70 permitiu uma revolução no tema de restauração de áudio. As novas

ferramentas permitem abordar uma maior gama de defeitos, assim despertando in-

teresse em centros de pesquisa do mundo todo. Estas ferramentas se apresentam sob

a forma de algoritmos, que podem ser implementados em computadores pessoais e

realizar uma restauração mais conável do que os métodos analógicos. Boas revisões

sobre tipos de degradação e métodos digitais para corrigi-los são encontradas em [2]

e [3].

6

Page 18: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

1.4 Gravações com desvios de velocidade

Conforme mencionado na seção anterior, uma forma de degradação bastante obser-

vada são variações, não presentes na execução original, nas frequências em certos

trechos ao longo da gravação. Esse tipo de degradação ocorre em muitos tipos de

meios analógicos de gravação, como tas magnéticas, discos planos, trilhas sonoras

em rolos de lme e cilindro.

Este problema pode ser causado por mudanças na velocidade de rotação do

meio de reprodução/gravação do material, que ocorriam geralmente em gravações

de gramofone e ta magnética. Um furo central mal posicionado, ou seja, o eixo

de rotação de um disco ou cilindro colocado fora de seu centro, também é uma das

causas deste tipo de degradação. As tas magnéticas são propensas a deformar-se

por causa de um armazenamento mal feito, também causando desvios na velocidade

de reprodução. Uma outra causa de tais desvios são interrupções ao longo das

gravações, onde poderiam ocorrer trocas de gravadores com velocidades ligeiramente

diferentes.

Existem dois termos que classicam os tipos de degradação em questão: as

variações mais lentas correspondem ao fenômeno denominado wow (expressão em

inglês que se assemelha ao efeito percebido); e as que variam mais rapidamente,

utter, termo em inglês que signica trepidação.

1.4.1 Restauração digital do defeito

A princípio, o caso em que o furo do disco foi mal posicionado pode ser corrigido

mecanicamente por meio de uma nova furação, mas esse método não é muito prático.

Para os outros casos não há uma ferramenta analógica de correção dos desvios; sendo

assim, a melhor forma de restaurar tais gravações se dá por meio do processamento

digital de sinais.

O defeito causado por desvios de velocidade pode ser modelado como uma distor-

ção do eixo temporal de um sinal de áudio. Considere o sinal contínuo não degradado

sC(t). Suponha que ele sofreu uma distorção temporal dada pela função fd(t). O

7

Page 19: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

sinal distorcido é dado por:

sCd(t) = sC(fd(t)). (1.1)

Supondo a função de distorção fd(t) conhecida e inversível, é possível recuperar o

sinal original, por meio da seguinte operação:

sC(t) = sCd

(f−1

d (t)). (1.2)

Como o processamento para restaurar sCd(t) é digital, devem ser utilizadas versões

discretas dos sinais original e degradado e da função de distorção.

A principal referência acerca de restauração de desvios de velocidade durante uma

gravação é o trabalho [2], que detecta os desvios utilizando ferramentas bayesianas,

e os corrige por meio de uma reamostragem não-uniforme do sinal. Tais ferramentas

possuem a desvantagem de exibirem uma alta demanda computacional, sendo assim

de execução demorada. Por isso, há o interesse em realizar a detecção dos desvios

de uma maneira menos custosa, que é o objetivo deste trabalho.

1.4.2 Proposta do trabalho

O objetivo geral deste trabalho é, portanto, a partir da versão digital de uma grava-

ção analógica ao longo da qual ocorreram desvios de velocidade, detectar os trechos

nos quais ocorreram tais desvios e, por m, corrigi-los mediante o uso de técnicas

de reamostragem. Desta forma, têm-se como objetivos especícos:

1. Realizar uma análise tempo-frequencial do sinal digital de áudio e detectar

variações globais nas componentes tonais do espectro de frequência;

2. Realizar uma reamostragem do sinal em questão para compensação nos trechos

onde foram detectadas as variações.

8

Page 20: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

1.5 Organização do trabalho

O Capítulo 2 trata do estudo e da implementação de técnicas para detectar varia-

ções globais nas componentes ressonantes do sinal. O método é apresentado, e são

descritas técnicas para a detecção e rastreamento de picos espectrais. Por m, é

proposta uma técnica de detecção de mudanças de anação ao longo do sinal.

O Capítulo 3 propõe a reamostragem por fatores variantes no tempo como uma

ferramenta para corrigir os desvios detectados. No Capítulo 4 as etapas de detecção

e correção de desvios são tratadas como um único sistema e é proposta uma interface

gráca para a interação com o usuário.

Por m, no Capítulo 5 são apresentados resultados de testes realizados com sinais

com variações articiais e sinais reais degradados.

9

Page 21: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Capítulo 2

Extração da curva de desvio

Uma consequência das variações na velocidade de reprodução de sinais musicais

consiste no desvio de todas as suas componentes de frequências por um mesmo fator

percentual, que produz uma alteração na sua altura. Assim, a primeira etapa do

processo de restauração desse tipo de problema consiste em obter uma curva que

aponte tais desvios ao longo do sinal musical, denominada curva de desvio. De posse

desta informação, é possível identicar onde ocorreram tais desvios, quanticá-los

e, por m, corrigi-los.

Este capítulo trata do estudo e da implementação de técnicas de extração da

curva de desvio da gravação musical. Na Seção 2.1 o método adotado para obter o

modelo de representação do sinal é especicado, a Seção 2.2 descreve como o método

funciona, e na Seção 2.3 é descrita uma técnica para extrair a curva de desvio.

2.1 Método escolhido

Sinais de áudio provenientes de gravações musicais podem ser representados por

sequências das notas musicais tocadas. Tais notas, acompanhadas de seus harmô-

nicos, estão associadas às principais componentes ressonantes do sinal, e possuem

suas informações caracterizadas por frequências fundamentais, referentes às notas, e

por múltiplos delas, referentes aos seus harmônicos. Como as frequências presentes

não duram o tempo todo, um sinal de áudio é denido como quase-periódico.

10

Page 22: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Tendo em vista tais componentes ressonantes que devem ser extraídas do sinal,

foi necessário empregar um método que fosse favorável ao atendimento dos objetivos

da primeira parte do trabalho. O modelo senoidal foi escolhido porque expressa as

componentes determinísticas do sinal como um somatório de senoides moduladas em

amplitude e frequência. Tais parâmetros podem ser estimados utilizando-se métodos

e algoritmos que serão explicados a seguir.

2.2 Análise senoidal

A análise senoidal [4] modela um sinal de áudio contínuo sC(t) como uma soma de

senoides:

sC(t) =∑i

Ai(t) cos(θi(t)). (2.1)

O termo Ai(t) representa a envoltória variante no tempo de cada componente, e

θi(t) a fase, dada por

θi(t) =

∫ t

0

Ωi(τ)dτ + θi(0), (2.2)

onde θi(0) é a fase inicial e Ωi(t) denota a frequência instantânea da i-ésima senoide

no instante t.

Considerando que durante intervalos curtos de tempo as envoltórias e frequências

instantâneas possam ser consideradas constantes, temos num desses intervalos:

sC(t) =∑i

Ai cos(Ωit+ θi). (2.3)

A análise é realizada sobre a versão discreta do sinal s[n] = sC(nTs), sendo Ts o

intervalo de amostragem (ver Seção 3.1), que então deve seguir a forma:

s[n] =∑i

Ai cos(ωin+ θi), (2.4)

sendo ωi = ΩiTs. Seu objetivo é obter os parâmetros Ai, θi e ωi dos pequenos trechos

de áudio da forma mais el possível. A ferramenta para isso é a transformada

11

Page 23: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

de Fourier1 de tempo discreto (DTFT, do termo em inglês discrete-time Fourier

transform) [5]. A DTFT do sinal de análise s[n] é dada por:

S(ejω) =∞∑

n=−∞s[n]e−jωn, (2.5)

onde S(ejω) ∈ C é denominado espectro de s[n].

O processo de obtenção do modelo senoidal de um sinal de áudio é dividido em

algumas etapas, que serão descritas nas subseções seguintes. Todo esse processo foi

baseado em [6], onde é descrito com mais detalhes. O primeiro reside na multiplica-

ção do sinal de áudio por janelas de curta duração, seguido de um pré-processamento

para posterior obtenção de seus respectivos espectros. Os segmentos provenientes do

janelamento processados são denominados quadros. Depois, as principais ressonân-

cias, isto é, as frequências mais proeminentes de cada quadro, são identicadas num

processo denominado detecção de picos. Por último, um algoritmo de rastreamento

de trilhas é implementado para acompanhar a evolução das principais componentes

frequenciais do sinal. Ao longo destas etapas, são implementados renamentos que

contribuem para melhorar o desempenho dos algoritmos, os quais também serão

descritos nas subseções seguintes.

2.2.1 A transformada de Fourier de tempo curto - STFT

A aplicação da DTFT em um sinal inteiro de áudio extrai a contribuição média de

todas as componentes senoidais presentes nele. Entretanto, ao longo de uma música

há o surgimento e desaparecimento de diversas componentes senoidais em vários

instantes, que correspondem a notas sendo tocadas nos instrumentos musicais ou

sendo cantadas. Em outras palavras, suas características espectrais variam com o

tempo, e sinais assim são denominados não-estacionários. Portanto, realizar análise

espectral de uma música é uma tarefa que requer algumas precauções.

Para observar a evolução das componentes ao longo do sinal, é implementada uma

1Jean-Baptiste Joseph Fourier, 1768 - 1830.

12

Page 24: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

ferramenta derivada da DTFT, a transformada de Fourier de tempo curto (STFT,

do termo em inglês short-time Fourier transform). Esta ferramenta é caracterizada

por segmentar o sinal e obter o espectro de cada trecho, ou seja, realizar uma análise

tempo-frequência. As etapas da implementação desta ferramenta e suas motivações

são descritas a seguir.

Segmentação do sinal e janelamento

A despeito da não estacionariedade do sinal a ser modelado, é possível assumir que

em trechos de curta duração as características espectrais não variam tão rapida-

mente; esta propriedade dá a estes segmentos a qualidade de quase-estacionários.

Em sinais de áudio e voz podem ser assim considerados segmentos com uma duração

aproximada entre 10 e 30 ms [6]. Em um sinal com taxa de amostragem de 44100

Hz, isso se traduz em uma segmentação em porções de 500 a 1200 amostras.

Matematicamente, a segmentação é realizada multiplicando-se o sinal por uma

função-janela, num processo conhecido como janelamento. Como o produto no

tempo equivale à convolução na frequência, o janelamento sempre impõe uma dis-

torção ao espectro original do sinal, determinada pelo espectro da função-janela. Os

parâmetros mais importantes de uma função-janela são a duração, a largura de seu

lobo principal em torno da origem e a altura de seus lobos secundários laterais. A

largura do lobo principal deve ser pequena, pois determina a distância mínima entre

dois picos do espectro do trecho a ser analisado que ainda conseguem ser resolvidos; e

a altura dos lobos secundários deve ser a menor possível, para evitar o aparecimento

de picos espúrios no espectro. É o tamanho da janela que determina a resolução

frequencial da representação de Fourier: quanto mais longa a janela selecionadora,

mais próximo de um impulso é seu espectro.

O procedimento mais simples de janelamento seria utilizar janelas retangulares

unárias contíguas. A janela retangular é a que apresenta lobo primário mais estreito

dentre todas, mas em contrapartida contém lobos secundários altos. Intuitivamente,

isso decorre do corte abrupto do sinal em suas extremidades. Para contornar isto,

13

Page 25: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

são adotadas usualmente janelas suaves, com lobos secundários reduzidos ao custo de

um lobo principal mais largo. Exemplos destas janelas são as de Hann, de Hamming,

e de Kaiser [5].

Salto entre segmentos

A utilização de uma janela suave melhora o problema da distorção espectral, porém

atenua as extremidades do segmento no domínio do tempo. Isto gera uma perda de

informação em cada segmento, além de impossibilitar a ressíntese perfeita do sinal

a partir de seus trechos. Uma forma de contornar isto é realizar uma sobreposição

de janelas, representada pela diferença entre os instantes das primeiras amostras de

segmentos consecutivos. Além disso, com segmentos mais perto um dos outros, a

resolução do tempo na análise tempo-frequência melhora.

Em geral, como o espectro de sinais de áudio não varia tão rapidamente, é su-

ciente usar um salto correspondente à metade do comprimento do segmento, resul-

tando numa sobreposição entre segmentos adjacentes de 50 %. Matematicamente,

uma segmentação de um sinal discreto com sobreposição pode ser escrita como

sm[n] = s[n+mR]w[n], n = 0, 1, ...,M − 1, (2.6)

onde m representa o índice do segmento, M é seu comprimento, R é o salto entre

segmentos consecutivos, e w[n] é a função-janela escolhida.

Computação da DFT e preenchimento com zeros

Para analisar a transformada de Fourier de tempo discreto, que é contínua na

frequências, por meio de um processador digital, é necessário o uso de uma re-

presentação discreta da mesma. Uma forma de amostrar a DTFT de um sinal de

duração nita reside no cômputo de sua transformada discreta de Fourier (DFT, do

termo em inglês discrete Fourier transform) [5]. Para um sinal s[n] de comprimento

14

Page 26: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

N , sua DFT é denida por:

S[k] =N−1∑n=0

s[n]e−j2πkn/N , 0 ≤ k ≤ N − 1, (2.7)

onde a sequência S[k] ∈ C é o espectro discreto de s[n].

Ao utilizar a DFT, o tamanho da janela em questão determina a resolução de

seu espectro. Para um segmento resultante da multiplicação por uma janela de

comprimento M e amostrado a uma taxa Fs = 1/Ts Hz, a resolução de frequência é

Fs/M Hz.

É possível melhorar a resolução espectral preenchendo o quadro a ser analisado

com zeros até o comprimento desejado N , produzindo melhor resolução: Fs/N .

Além disso, a introdução de zeros não adiciona componentes espectrais inexistentes

no segmento original. Vale ressaltar que o preenchimento com zeros não revela

informação antes não encontrada no espectro do quadro ainda não preenchido, mas

somente aumenta a resolução da amostragem da DTFT na forma da DFT. Por

exemplo, o preenchimento com zeros não resolve o caso em que dois picos foram

incorporados em um só, como consequência decorrente do janelamento.

Outro motivo para adicionar zeros no quadro é estender seu comprimento para

uma potência de 2. A classe de algoritmos para a computação eciente da DFT,

chamada transformada rápida de Fourier (FFT, do termo em inglês fast Fourier

transform), é bastante eciente para sinais com comprimento igual a alguma potên-

cia de 2. Assim, o preenchimento com zeros também pode tornar a computação da

DFT para cada quadro mais eciente.

Janelamento de fase zero

Ao associar um dado segmento a um instante especíco de tempo, ocorre um desloca-

mento no tempo dependente da janela, que acaba afetando as informações referentes

à fase, medidas no domínio da frequência. O janelamento de fase zero tem o objetivo

de reverter esta situação.

A implementação do janelamento de fase zero deve ser feita exatamente antes

15

Page 27: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

do preenchimento com zeros, e consiste das etapas a seguir. Primeiramente inicia-se

um buer (armazenamento temporário de dados na memória do computador du-

rante operações) vazio com tamanho igual ao desejado após o preenchimento com

zeros. Supondo um segmento de comprimento M , a primeira metade das amostras

é armazenada no m do buer, a outra metade em seu início, e zeros são adicio-

nados no meio. Ao nal, o buer passa a constituir um quadro, sobre o qual sua

DFT é computada; passando para o próximo segmento, repete-se o procedimento.

Por convenção, o tamanho nal do quadro após o janelamento de fase zero com

preenchimento de zeros será representado por N a partir de agora.

Para os objetivos deste trabalho, em nenhum momento a informação da fase

do trecho é utilizada. Apesar disso, a análise senoidal tem outras aplicações nas

quais a informação da fase é importante, como na síntese de um sinal a partir dos

parâmetros de seu modelo. Assim, o janelamento de fase zero foi implementado para

que a rotina desenvolvida possa ser empregada para outros objetivos, e não somente

corrigir variações de velocidade.

Aspectos de implementação

A segmentação foi realizada dividindo-se o sinal em trechos de mesma duração. A

função-janela escolhida foi a de Hann, pois resultados satisfatórios foram obtidos com

seu uso. O valor escolhido para o comprimento da janela foiM = 512 amostras, que

para sinais de áudio com frequência de amostragem de Fs = 44100 Hz corresponde a

aproximadamente 12 ms, garantindo que a hipótese de estacionariedade dos trechos

consista numa aproximação adequada. Para o salto entre os segmentos foi escolhida

uma sobreposição de 50 % (R = 256), de modo que a distância entre segmentos

consecutivos seja de aproximadamente 6 ms.

Para o janelamento de fase zero com o preenchimento com zeros, o tamanho

escolhido do buer foi N = 1024 amostras, assim dobrando a resolução do espectro

e mantendo seu comprimento como uma potência de 2. A Figura 2.1, adaptada de

[6], ilustra o processo até agora descrito para um segmento especíco de um sinal

16

Page 28: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

de áudio. O primeiro gráco mostra o segmento a ser processado, e o segundo o

resultado de sua multiplicação pela função-janela, referenciada pela linha tracejada.

Por m, o terceiro gráco ilustra o janelamento de fase zero e o preenchimento

com zeros, onde a primeira metade do produto do segmento pela função-janela

é armazenada no nal do buer, a segunda metade em seu início, e seu meio é

preenchido com zeros.

100

100

200

200 300

300 400

400 500

500-1

-1

1

1

200 400 600 800 1000-1

1

Tempo (amostras)

Amplitude

Figura 2.1: Esquema do janelamento de fase zero com preenchimento com zeros.

Após a computação da DFT do conteúdo do buer para om-ésimo segmento, seu

espectro S[k] é obtido. Como um sinal de áudio é representado no domínio do tempo

por valores reais, o módulo do seu espectro é simétrico, ou seja, |S[m, k]| = |S[m,N−

1−k]|. Desta forma, basta armazenar somente as N2primeiras amostras do espectro.

Após o processamento de todos os segmentos do sinal, eles são armazenados e estão

prontos para a próxima etapa da análise senoidal, descrita na subseção a seguir.

2.2.2 Detecção de picos

Feita a análise espectral do sinal através da STFT, é implementado agora um algo-

ritmo para detectar as principais ressonâncias de cada quadro. Elas são representa-

das pelos picos mais proeminentes ao longo do espectro dos quadros, pois sinais de

17

Page 29: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

áudio tonais (i.e., com altura denida) exibem concentrações de energia em torno

de suas principais componentes.

O processo de detecção de picos é descrito com mais detalhes abaixo. Primeira-

mente, todos os possíveis picos do espectro são identicados. Depois, apenas os mais

importantes são separados dos restantes, descartando picos espúrios. Por m, estes

picos passam por um renamento para uma melhor estimação de seus parâmetros,

ou seja, os valores de suas amplitudes e frequências.

Obtenção de todos os picos

A obtenção dos picos do espectro de um quadro é implementada de uma maneira

simples. Para não carregar a notação, xado um quadro m, denotemos por S[k] seu

espectro. Um pico S(k) é denido como um máximo local da magnitude do espectro

do sinal, e ocorre quando os critérios

|S[k − 1]| < |S[k]| (2.8a)

|S[k + 1]| < |S[k]| (2.8b)

são satisfeitos. Uma forma de detectar estes máximos é analisar a inclinação da

sequência |S[k]|. Para isto, são inicialmente denidas as sequências auxiliares

D1[k] ≡ sign(|S[k + 1]| − |S[k]|) (2.9a)

D2[k] ≡ D1[k + 1]−D1[k], (2.9b)

onde sign(x) é a função sinal. Caso D2[k] = −2 para um dado k, então S[k + 1] é

um pico espectral.

Filtragem dos picos mais proeminentes - TPSW

O algoritmo descrito acima acaba detectando inevitavelmente picos que não corres-

pondem a componentes ressonantes genuínas, sendo necessário descartá-los. Dentre

estes picos indesejáveis estão aqueles de pequena magnitude ou causados por ruído,

18

Page 30: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

os quais não devem ser levados em conta, além de picos espúrios decorrentes do

processo de segmentação do sinal.

Uma forma simples de separar os picos mais proeminentes dos demais é estipu-

lar um limiar de decisão. Os picos cuja magnitude seja inferior ao limiar seriam

descartados, e os que não o forem seriam armazenados para as próximas etapas da

análise senoidal. Entretanto, a não estacionariedade entre os quadros torna a ado-

ção de um único limiar para o sinal todo uma escolha não eciente, pois pode haver

signicativas variações no espectro dos quadros ao longo do sinal.

Para contornar essa desvantagem, é adotada uma técnica de limiar variável cha-

mada de ltragem TPSW (do termo em inglês two-pass split window), comparada

com outras alternativas em [7]. Nesta técnica, um limiar é calculado para cada qua-

dro a partir de uma estimativa do chamado chão de ruído (região suave abaixo dos

picos) de seu espectro.

A ltragem TPSW consiste de três etapas. Primeiramente, a magnitude do

espectro S[k] de um dado quadro é ltrada através de uma janela com uma lacuna

(split), descrita como

hSW[n] =

0, |n| < MSW, |n| ≥ NSW

1, MSW ≤ |n| < NSW,(2.10)

satisfazendo 0 ≤MSW < NSW, onde NSW e MSW são inteiros positivos que contro-

lam, respectivamente, o comprimento da janela e a largura da lacuna.

Depois, o sinal resultante desta ltragem, denotado por S[k], passa por uma

modicação de acordo com as seguintes especicações:

S[k] =

S[k], se S[k] ≤ αS[k]

S[k], se S[k] > αS[k],(2.11)

onde α > 1 é um parâmetro ajustável que controla a rejeição dos picos, chamado

fator de rejeição.

19

Page 31: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Na última etapa o sinal S[k] é processado por um ltro de média móvel, com

largura igual à da janela da primeira etapa, e depois deslocado para cima por um

fator ∆ (também conhecido como fator de oset do TPSW ), promovendo uma

regulagem adicional na rejeição de picos. A saída desta ltragem, denotada por

ETPSW[k], é o limiar que vai decidir quais picos serão descartados ou aproveitados.

Esta técnica é computacionalmente mais complexa do que adotar um limiar xo,

pois cumpre calcular ETPSW[k] para cada quadro, afetando diretamente o tempo de

execução da etapa de detecção de picos. Entretanto, uma boa calibração de seus

parâmetros é capaz de descartar picos indesejáveis com bastante eciência. Além

disso, esses parâmetros são de grande utilidade para controlar a sensibilidade da

detecção, assim contribuindo para a versatilidade e robustez do algoritmo. Pode-se

dizer então que as vantagens compensam a complexidade da técnica.

A Figura 2.2, adaptada de [7], ilustra o esquema de detecção dos picos do espec-

tro do segmento mostrado no primeiro gráco da Figura 2.1, por meio da ltragem

TPSW. Nota-se a presença de muitos picos espectrais, porém nem todos são im-

portantes. Após todos os picos serem encontrados, apenas aqueles acima do limiar,

destacados por círculos, são considerados genuínos.

0 10 20

-80

-60

-40

-20

0

20 S[k]

Frequencia (kHz)

Magnitude(dB)

ETPSW[k]

Figura 2.2: Esquema de detecção dos picos usando limiar variável TPSW.

20

Page 32: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Estimação dos parâmetros

Após a ltragem TPSW, os parâmetros dos picos são submetidos a técnicas de

renamento para melhorar sua localização, já que o espectro está limitado a uma

resolução de Fs

NHz. Como a região no entorno de um pico se assemelha a uma

parábola, é conveniente implementar uma interpolação parabólica para estimar os

parâmetros dos picos. A proposta deste trabalho não requer uma análise da fase do

sinal, então serão estimadas apenas as frequências e amplitudes dos picos.

A interpolação parabólica consiste em ajustar um pico e suas amostras adjacentes

a uma parábola. As coordenadas do máximo desta parábola são então associadas

aos valores de amplitude e frequência do pico em questão.

Experimentalmente, implementar a interpolação parabólica em escala de decibéis

(dB) apresenta melhores resultados [6]. As magnitudes dos três pontos são denotadas

por

A1 = SdB[kp − 1] (2.12a)

A2 = SdB[kp] (2.12b)

A3 = SdB[kp + 1], (2.12c)

onde SdB[k] = 20 log10 |S[k]|, e kp é o índice do pico em questão. Ajustando uma

parábola a estes valores, a frequência correspondente ao máximo da curva é dada

por:

fkp = (kp + d)Fs

N, (2.13)

onde

d =A1 − A3

2(A1 − 2A2 + A3), (2.14)

e a amplitude do pico é estimada por:

Xkp,dB = A2 −d

4(A1 − A3). (2.15)

Esta etapa nal de estimação dos parâmetros conclui o processo de detecção de picos,

21

Page 33: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

e os valores de suas frequências e amplitudes para cada quadro são armazenados.

2.2.3 Rastreamento de trajetórias senoidais

Até agora, somente a localização dos principais picos e seus parâmetros foram obtidos

para cada quadro. Para obter uma visão detalhada da evolução das componentes

de frequência de tais picos, importa implementar um método para rastreá-las, que

consiste em associar os parâmetros de um pico do quadro de índice m a outro do

quadro m + 1, e assim por diante. Uma trajetória formada por picos espectrais ao

longo de quadros consecutivos recebe o nome de trilha senoidal. A técnica utilizada

para a criação de trilhas é abordada com mais detalhes em [8].

Nesta técnica, as trilhas podem ser iniciadas, permanecer ativas ao longo do

tempo, ou desaparecer. Uma trilha surge quando um pico não é associado a nenhuma

trilha já existente, permanece ativa ao passo que a ela vão se associando picos, e

desaparece quando não encontra nenhum pico compatível para incorporar. Para

descrever o algoritmo com detalhes, suponha que foram detectados p picos no quadro

de índicem, com frequências denotadas por f1, f2, ..., fp. Já no quadro seguintem+1,

r picos foram detectados com frequências g1, g2, ..., gr.

1. Para cada pico gi do quadro m+1 é feita uma busca para encontrar uma trilha

j que permaneceu ativa até o quadrom, satisfazendo a condição |fj−gi| < ∆fj.

O parâmetro ∆fj determina o máximo que a frequência de uma trilha pode

variar de um quadro para o outro. Neste trabalho, ∆fj foi ajustado para

valores entre um quarto de tom e um semitom em torno de fj, correspondendo

a variações entre 3% e 6%.

2. Caso o pico gi encontre uma trilha no quadro anterior satisfazendo a condição

descrita no passo 1, ele se associa a esta trilha e ela permanece ativa. En-

tretanto, pode haver disputa entre dois ou mais picos para se associar a uma

trilha especíca. Neste caso, o pico cuja frequência gi estiver mais próxima da

trilha fj ganha a disputa, e o outro irá procurar outra trilha.

22

Page 34: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

3. Caso uma trilha j não seja encontrada por nenhum pico satisfazendo a con-

dição, ela deixa de permanecer ativa e poderá ser terminada. Métodos para

decidir se uma trilha deve ser garantidamente terminada são discutidos mais

adiante.

Estes passos são realizados em todas as trilhas do quadro em questão, até que

se possa ter o conhecimento do destino de todas elas. Com exceção do primeiro

quadro, onde todos os picos invariavelmente iniciam novas trilhas, esse algoritmo é

repetido até o último quadro, criando então um conjunto de trajetórias senoidais.

O número de trilhas rastreadas pode variar consideravelmente ao longo do sinal;

assim, a estrutura que as armazena pode mudar de tamanho a cada passagem de

quadro. Isto afeta diretamente o desempenho do rastreamento em termos de eciên-

cia computacional, e uma forma de contornar isso é predenir um número máximo

de trilhas por quadro. Este método é implementado priorizando os picos de maior

amplitude; assim, a cada passagem, os picos são postos em ordem decrescente de

amplitude, e a busca é feita começando pelo maior pico, e assim por diante. Caso

seja atingido o número máximo de trilhas e ainda haja picos remanescentes, estes

são descartados. Testes subjetivos informais apontaram que predenir o limite para

100 trilhas por quadro é suciente para não haver perda de informação relevante.

Para tornar o rastreamento de senoides mais robusto são implementados dois

aperfeiçoamentos no algoritmo, que são descritos a seguir.

Remoção de trilhas curtas

Mesmo após a ltragem TPSW, alguns picos espúrios não são descartados, geral-

mente quando são processados trechos ruidosos ou percussivos. Isto ocasionalmente

cria pequenas trilhas que não deveriam existir. Uma maneira de contornar isto é de-

nir um comprimento mínimo para as trilhas. No nal do processo de rastreamento,

as trajetórias com comprimento menor que um valor estipulado são removidas do

conjunto de trilhas. Esse parâmetro é denido empiricamente, pois leva em conside-

ração a natureza do sinal, a duração dos segmentos e o salto entre eles. Resultados

23

Page 35: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

satisfatórios foram obtidos denindo-se o comprimento mínimo das trilhas entre 5

e 15 quadros, em torno de 30 e 90 ms, respectivamente, para segmentos com 512

amostras de sinais amostrados a 44100 Hz.

Implementação de histerese

Há casos em que a detecção de picos falha em identicar um pico verdadeiro, gerando

descontinuidades ao longo de uma trajetória que teoricamente seria formada por

apenas uma trilha. Esta detecção errônea pode ser causada por um mau ajuste dos

parâmetros de detecção, ou quando algum trecho sofre modulação de amplitude.

A solução para este problema é permitir que uma trilha que ativa por alguns

quadros, mesmo após não ser encontrada por um pico para se associar. Esse processo

recebe o nome de histerese, e o parâmetro que indica por quantos quadros uma trilha

pode car dormente (ainda ativa, mas na iminência de desaparecer) é chamado de

memória.

O algoritmo implementado consiste em iniciar um contador sempre que uma

trilha ativa no quadrom não for associada a nenhum pico do quadrom+1. Enquanto

a trilha não tiver um candidato para continuação ao longo dos quadros, picos virtuais

são criados com mesma amplitude e frequência que o último pico detectado, e o

contador incrementa uma unidade a cada quadro. Caso um pico candidato seja

identicado, o contador é zerado e a trilha permanece ativa, com os valores dos picos

virtuais. Se o contador atingir o limite de memória sem encontrar um candidato, os

picos virtuais são zerados e a trilha desaparece.

O algoritmo de rastreamento é ilustrado na Figura 2.3, adaptada de [6]. Nela

é possível observar trilhas ativas, emergentes, dormentes à espera de um pico, e na

iminência de desaparecer. Por exemplo, na passagem do quadro m − 1 para o m,

a trilha f1 se associou ao pico g1; portanto, permanece ativa no quadro m. Já a

trilha f2, dormente há alguns quadros, não foi encontrada por nenhum pico e corre

o risco de desaparecer caso atinja o valor máximo da histerese. O pico g2 do quadro

m encontrou a trilha f4, porém perdeu a disputa para o pico g3; logo, inicia uma

24

Page 36: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

nova trilha f6.

g2

g3

g3

g2

g1g1

g1

g4 g4 g6

g4

g2

g5

g3

f4

g1

g3f6

f1

f2

f5

g2g2

g1

f3Frequencia

Indicedo quadro

dormente

ativa

desaparecendo

ativa

surgindo

ativa

m+ 1m− 3 mm− 1m− 2

Figura 2.3: Esquema do algoritmo de rastreamento.

Isto conclui a etapa de mapeamento das principais componentes de frequência

ao longo de um sinal de áudio. A próxima subseção apresenta alguns resultados da

implementação desse mapeamento.

2.2.4 Rastreamento de alguns sinais de teste

Esta subseção tem como objetivo vericar o desempenho do algoritmo de rastrea-

mento proposto. Foram escolhidos 2 sinais musicais simples de curta duração e com

poucas variações em frequência, de forma a vericar o comportamento do algoritmo

para gravações que não sofreram desvios em sua velocidade de reprodução. Os sinais

citados podem ser encontrados em [9].

O primeiro sinal de teste, gspi.wav, consiste em uma sequência de notas sendo

tocadas por um xilofone. Este sinal possui uma duração de 5,94 segundos e foi amos-

trado a 44100 Hz com uma resolução de 16 bits por amostra. Os parâmetros usados

no rastreamento são exibidos na Tabela 2.1, que tiveram como resultado 96 trilhas

rastreadas em um total de 1021 quadros. Para o desvio máximo de frequência, foi

25

Page 37: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

escolhido o valor ∆f = 1 %, pois o sinal não apresentava nenhuma variação natural

de frequência, pelas características do instrumento considerado. Como a amplitude

das amostras do sinal no domínio do tempo em média era baixa, o valor do oset do

limiar TPSW escolhido foi bem pequeno, de modo a não rejeitar picos verdadeiros.

A Figura 2.4 mostra as trajetórias senoidais rastreadas no sinal gspi.wav.

Tabela 2.1: Parâmetros do rastreamento do sinal gspi.wav.

Parâmetro Valor

Tamanho da janela da DFT (N) 1024 amostras

Tamanho da janela (M) 512 amostras

Sobreposição de quadros 50 %

Desvio máximo de frequência ∆f 1 %

Tamanho mínimo da trilha 15 quadros

Duração da memória da trilha 2 quadros

Oset do limiar TPSW 0,005

0 1 2 3 4 5 60

2

4

6

8

10

Tempo (segundos)

Frequ

encia(kHz)

Figura 2.4: Trilhas senoidais do sinal gspi.wav (cores arbitrárias para facilitar avisualização).

O segundo sinal de testes, flute.wav, consiste em uma nota lá tocada por uma

auta com vibrato. Este sinal possui uma duração de 3 segundos e foi amostrado

a 44100 Hz com uma resolução de 16 bits por amostra. A Tabela 2.2 mostra os

26

Page 38: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

parâmetros utilizados para o rastreamento do sinal, que tiveram como resultado 37

trilhas rastreadas em um total de 514 quadros. Como o sinal apresenta um leve

vibrato, efeito no qual ocorre uma modulação de frequência provocada intencional-

mente pelo intérprete durante a sustentação da nota, sendo escolhido um desvio

máximo de frequência ∆f = 3 %. O valor do oset do limiar TPSW foi esco-

lhido empiricamente, de modo a rejeitar picos não genuínos. As trilhas senoidais

rastreadas no sinal flute.wav são mostradas da Figura 2.5.

Tabela 2.2: Parâmetros do rastreamento do sinal flute.wav.

Parâmetro Valor

Tamanho da janela da DFT (N) 2048 amostras

Tamanho da janela (M) 512 amostras

Sobreposição de quadros 50 %

Desvio máximo de frequência ∆f 3 %

Tamanho mínimo da trilha 20 quadros

Duração da memória da trilha 5 quadros

Oset do limiar TPSW 0,06

0 0,5 1 1,5 2 2,5 3 0

1

2

3

4

5

Tempo (segundos)

Frequ

encia(kHz)

Figura 2.5: Trilhas senoidais do sinal flute.wav (cores arbitrárias para facilitar avisualização).

27

Page 39: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

2.3 Estimativa da curva de desvio

Uma consequência de variações de velocidade em sinais musicais reside no desvio de

todas as suas frequências por um mesmo fator percentual, ou seja, uma alteração na

anação. Por exemplo, se na passagem do quadro m para o quadro m+ 1 todas as

trilhas forem modicadas por um mesmo valor percentual, é bastante provável que

tenha havido um desvio naquela passagem.

Por razões estéticas, é bastante comum em gravações de música a presença de

notas tocadas com vibrato, conforme ilustrado no sinal flute.wav. Tal efeito tam-

bém é encontrado em gravações de voz cantada. Desta forma, no rastreamento de

uma gravação de um instrumento com tal efeito, o trecho em que houve um vibrato

poderia ser detectado erradamente como contendo um desvio de velocidade. Entre-

tanto, se o instrumento estivesse numa gravação com muitos instrumentos musicais,

que não estariam sincronizados com seu vibrato, tal efeito seria atenuado pela média

das trilhas.

O método implementado consiste então em calcular uma curva média das tra-

jetórias senoidais criadas, assim exibindo um comportamento geral de como elas

variam com o tempo. Uma variação global de frequência em um trecho do sinal é

um forte indicativo de um desvio de velocidade.

2.3.1 Extração da média global das trilhas

Para calcular a média global, primeiramente é obtida a média percentual de cada

trilha i:

fmi =fmi − fifi

, (2.16)

onde fmi é o valor da frequência da i-ésima trilha referente ao quadro m, e fi é a

média aritmética das frequências da i-ésima trilha.

Depois, é calculada a média global de cada quadro m:

fm =

∑i f

mi

Nm

, (2.17)

28

Page 40: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

onde Nm representa a quantidade de trilhas presentes no quadro em questão. A

curva de desvio é então o vetor fm formado pelas médias globais de cada quadro.

É esperado então que um sinal tenha sua curva de desvio com valores em torno

de zero. Para uma melhor interpretação desta curva, é interessante normalizá-la,

deslocando sua média para 1. Esta é uma notação mais vantajosa quando há a

necessidade de adotar uma referência de altura de frequência. Por exemplo, tre-

chos nos quais não houve desvio de velocidade têm agora sua curva em torno de 1,

indicando que as frequências de suas trilhas foram todas multiplicadas por 1. Se

em uma passagem houver um desvio de 0,6%, ela será representada na curva como

1,006, ou seja, todas as frequências nesta passagem em média foram multiplicadas

por 1,006.

2.3.2 Exemplos

Esta subseção apresenta testes de cálculo de médias globais, apresentando as cur-

vas encontradas. Os sinais escolhidos foram os mesmos da Subseção 2.2.4, cujas

trajetórias rastreadas são exibidas nas Figuras 2.4 e 2.5.

A Figura 2.6 mostra a curva de desvio do sinal gspi.wav. Como não houve va-

riações de velocidade, a curva obtida possui um comportamento bastante próximo

do esperado: valores em torno de 1 ao longo dos quadros. É possível ainda suavi-

zar esta curva de modo a amenizar os efeitos causados por algumas adversidades:

erros decorrentes do cálculo da curva de desvio via média das trajetórias normali-

zadas; trilhas curtas não verdadeiras formadas por picos espúrios não rejeitados; e

descontinuidades de trajetórias.

A curva de desvio do sinal flute.wav é mostrada na Figura 2.7. As oscilações

em torno de 1 são esperadas, pois representam o leve vibrato presente no som. Elas

seriam consideradas como desvios de velocidade, sem um conhecimento prévio da

natureza do sinal.

29

Page 41: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 1 2 3 4 5 60,995

1

1,005

1,01

Tempo (segundos)

Frequenciarelativa

Figura 2.6: Curva de desvio do sinal gspi.wav.

0 0,5 1 1,5 2 2,5 3 0,98

0,985

0,99

0,995

1

1,005

1,01

1,015

Tempo (segundos)

Frequenciarelativa

Figura 2.7: Curva de desvio do sinal flute.wav.

2.4 Conclusão

Este capítulo conclui a implementação de uma ferramenta para rastreamento de

trajetórias e extração da curva de desvio de um sinal de áudio. Os resultados

obtidos foram satisfatórios, dada a diculdade de calibração dos vários parâmetros.

A análise senoidal requer a segmentação do sinal em pequenos trechos, que em

30

Page 42: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

seguida são processados, e os picos detectados em seus espectros são rastreados. O

capítulo seguinte discorre sobre mudança na taxa de amostragem e como reamostrar

um sinal com fatores variantes no tempo.

31

Page 43: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Capítulo 3

Modicação da velocidade de

reprodução

No capítulo anterior, foi proposto e implementado um método para a extração da

curva de desvio do sinal de áudio degradado, que indica os trechos onde possivel-

mente ocorreram erros na velocidade de reprodução. Este capítulo apresenta uma

ferramenta eciente para corrigir os desvios a partir da curva extraída: a reamos-

tragem.

Neste capítulo os conceitos teóricos são apresentados em uma ordem intuitiva

paralelamente a aspectos de implementação, com o intuito de facilitar a compre-

ensão do leitor de como funciona a reamostragem implementada para os ns deste

trabalho. Primeiramente, a Seção 3.1 descreve conceitos básicos sobre o processo

de amostragem uniforme de um sinal contínuo no tempo. A Seção 3.2 apresenta

soluções para a alteração da taxa de amostragem por fatores inteiros (3.2.1 e 3.2.2),

racionais (3.2.3) e arbitrários (3.2.4), assim como por fatores arbitrários variantes

no tempo (3.2.5). Por m, na Seção 3.3 são apresentados testes de desempenho das

rotinas implementadas.

32

Page 44: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

3.1 Amostragem uniforme de sinais contínuos

O som é uma onda acústica que se propaga ao longo de um meio material. Na

linguagem de processamento de sinais, uma onda acústica é um sinal analógico,

pois sua amplitude pode assumir qualquer valor real, e contínuo, uma vez que ele é

denido para todo instante de tempo.

Para manipular o sinal por meio de um processador digital, é preciso convertê-lo

para uma versão discreta no tempo, num processo que recebe o nome de amostragem.

A forma mais simples de realizar a amostragem de um sinal contínuo é denir um

intervalo constante de tempo Ts, e adquirir amostras do sinal em múltiplos inteiros

deste valor. Este valor Ts é chamado período de amostragem, e seu inverso Fs = 1/Ts,

frequência de amostragem.

Considere um sinal contínuo no tempo sC(t). O processo de amostragem com

um período uniforme Ts pode ser interpretado no domínio do tempo contínuo como

uma multiplicação de sC(t) por um trem de impulsos p(t):

sD(t) = sC(t)p(t), (3.1)

onde

p(t) =∞∑

n=−∞δ(t− nTs). (3.2)

Esse sinal virtual sD(t) tem, como veremos, o mesmo conteúdo espectral da sequência

discreta que efetivamente será processada:

s[n] = sC(nTs), (3.3)

cujas amostras são proporcionais às áreas dos respectivos impulsos de sD(t). As

Figuras 3.1a, 3.1b e 3.1c mostram respectivamente os sinais sC(t), p(t) e s[n].

33

Page 45: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

sC(t)

t0

p(t)

t0

s[n]

n0

Ts 2Ts

. . .. . .

3Ts 4Ts 5Ts 6Ts−Ts−2Ts

1 2

3 4 5

6−1−2

(a)

(b)

(c)

Figura 3.1: Amostragem de um sinal contínuo.

3.1.1 Interpretação espectral da amostragem

Dado que o sinal sC(t) foi amostrado com um período Ts, é importante saber quais

implicações a amostragem tem no domínio da frequência, ou seja, qual a relação

entre os espectros de sC(t) e de s[n], e a frequência de amostragem Fs.

Sejam SC(jΩ) e P (jΩ) as transformadas de Fourier de sC(t) e p(t), respecti-

vamente, onde Ω denota a frequência angular analógica em radianos por segundo.

Aplicando a denição da transformada de Fourier em 3.2, obtém-se o seguinte re-

sultado (consultar [10] para demonstração):

P (jΩ) =

∫ ∞−∞

p(t)e−jΩtdt = Ωs

∞∑k=−∞

δ (Ω− Ωsk) , (3.4)

ou seja, a transformada de Fourier de p(t) é um trem de impulsos uniformemente

espaçados de Ωs = 2πFs, que é a frequência angular analógica de amostragem.

Lembre pelas Equações 3.1 a 3.3 que o processo de discretizar um sinal pode

ser interpretado em 2 etapas: a multiplicação por um trem de impulsos, e de fato a

discretização deste produto. As implicações no domínio da frequência de cada uma

destas etapas serão analisadas separadamente.

Como a multiplicação de dois sinais no domínio do tempo é equivalente à con-

volução de suas transformadas de Fourier no domínio da frequência, a amostragem

34

Page 46: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

corresponde à convolução entre SC(jΩ) e P (jΩ):

(SC ∗ P )(jΩ) =

∫ ∞−∞

[sC(t)p(t)]e−jΩtdt, (3.5)

onde o símbolo ∗ representa a operação de convolução.

Agora é interpretada a etapa de discretização no domínio da frequência. Con-

forme visto na Equação 2.7, a representação de sinais discretos no domínio da

frequência é dada pela DTFT. Para um sinal s[n], ela é dada por

S(ejω) =∞∑

n=−∞s[n]e−jωn, (3.6)

onde ω denota a frequência em radianos relativa à Fs, chamada de frequência angular

digital, que é denida como

ω = ΩTs =Ω

Fs

. (3.7)

Feitas estas denições, é possível obter uma relação entre os espectros dos sinais

contínuo e discreto. A partir de 3.3, 3.5 e 3.6 é possível obter (consultar [10] para

demonstração) a relação entre S(ejω) e SC(jΩ):

S(ejω) =1

Ts

∞∑k=−∞

SC(j(Ω + kΩs)) =1

Ts

∞∑k=−∞

SC

(j

Ts

(ω + 2πk)

), (3.8)

ou seja, o espectro S(ejω) do sinal discreto consiste de repetições periódicas de SC(jΩ)

multiplicadas por um fator 1/Ts, centradas em múltiplos inteiros de Ωs.

Supondo o espectro de sC(t) limitado em banda por uma frequência angular

máxima ΩM = 2πFM mostrado na Figura 3.2a, as Figuras 3.2b e 3.2c mostram

respectivamente P (jΩ) e o espectro resultante da amostragem S(ejω).

35

Page 47: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

1SC(jΩ)

Ω0

. . .. . .

(a)

(b)

(c)

ΩM−ΩM

0 Ω

P (jΩ)

S(ejω)

ω0−ωM

. . . . . .

Ωs−Ωs

2π−2π π−π ωM

1Ts

Figura 3.2: Interpretação espectral da amostragem.

3.1.2 Reconstrução de um sinal a partir de suas amostras

Dado um sinal discreto s[n], muitas vezes é desejável convertê-lo de volta para sC(t),

ou seja, reconstruir sua versão contínua. Observando a Figura 3.2c, nota-se que é

possível ltrar S(ejω) com o intuito de eliminar todas as repetições do espectro

original, conforme mostrado na Figura 3.3a. As especicações do ltro passa-baixas

correspondente devem ser tais que

|H(jΩ)| =

Ts, se |Ω| ≤ ΩC

0, para demais valores de Ω,(3.9)

onde ΩC é sua frequência de corte, a qual pode assumir valores entre ΩM e Ωs−ΩM.

Nota-se entretanto que, dependendo do valor de Fs, as repetições de SC(jΩ)

podem car tão próximas a ponto de se sobreporem umas às outras, conforme mostra

a Figura 3.3b; tal fenômeno é denominado aliasing ou recobrimento de espectro. Caso

isso ocorra, torna-se impossível reconstruir elmente o sinal contínuo a partir de suas

amostras, pois o espectro ltrado será diferente do original.

O teorema da amostragem [10] diz que a reconstrução perfeita só pode ser rea-

36

Page 48: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

(a)S(ejω)

ω0−ωM

. . . . . .

2π−2π π−π ωM

1Ts

Ts

(b) S(ejω)

ω0

. . . . . .

2π−2π π−π ωM

1Ts

3π−3π

Figura 3.3: Reconstrução de um sinal.

lizada se for satisfeito o critério

Fs ≥ 2FM, (3.10)

ou seja, a reconstrução sem erros de um sinal contínuo só é possível se o sinal discreto

tiver sido amostrado com uma frequência de amostragem que seja ao menos o dobro

da largura de banda do sinal contínuo. Esse resultado também é conhecido como

teorema de Nyquist1-Shannon2.

Satisfeitas as condições para evitar o aliasing, a expressão nal do sinal recons-

truído é dada por

sCrec(t) =∞∑

n=−∞s[n]h(t− nTs). (3.11)

A resposta ao impulso do ltro passa-baixas ideal em 3.9 é a transformada de

Fourier inversa de H(jΩ), dada por

h(t) = sinc(2πFCt) ,sin(2πFCt)

(2πFCt). (3.12)

Escolhendo FC = Fs/2, de 3.11 e 3.12 a expressão do sinal reconstruído com o ltro

ideal pode ser obtida:

sCrec(t) =∞∑

n=−∞s[n] sinc(π (tFs − n)) . (3.13)

Entretanto, a implementação dessa reconstrução é impraticável, pois seriam necessá-

1Harry Nyquist, 1889 - 1976.2Claude Shannon, 1916 - 2001.

37

Page 49: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

rias innitas amostras de h(t) para computar um único valor de sCrec(t). Na prática,

isto é contornado aproximando-se h(t) por alguma função de implementação possí-

vel, quando todo o sinal s[n] é conhecido.

3.2 Mudança da taxa de amostragem

A velocidade de reprodução de um sinal de áudio contínuo no tempo pode ser re-

presentada, por exemplo, pela velocidade de rotação do aparelho que o reproduz.

Já para um sinal digital, ela é representada pela taxa na qual ele é reproduzido.

Portanto taxa pela qual o sinal foi originalmente amostrado deve ser especicada

para o equipamento digital que o reproduz, e é geralmente padronizada de acordo

com o tipo de mídia utilizada.

Se um sinal de áudio for reproduzido com uma taxa diferente da qual foi amos-

trado, sua altura percebida e sua duração sofrerão alterações. Por exemplo, considere

um sinal originalmente amostrado a uma taxa F1 = 48000 Hz. Se ele for reprodu-

zido a uma nova taxa igual a F2 = 44100 Hz, será percebido um sinal mais grave

e longo que o original, pois suas componentes de frequência foram multiplicadas

por F2/F1. Agora, se o mesmo sinal for convertido para uma nova taxa, porém

reproduzido com sua taxa original, por exemplo, se o sinal originalmente amostrado

com F1 for reamostrado para a nova taxa F2 e reproduzido com a taxa antiga F1,

será percebido um sinal mais agudo e curto, com suas componentes de frequência

multiplicadas por F1/F2. Portanto, caso um sinal originalmente amostrado com Fs

tenha as frequências de seu espectro acidentalmente deslocadas por um fator fr,

basta reamostrá-lo para uma nova taxa F ′s = Fs × fr e reproduzi-lo com sua taxa

original Fs para recuperá-lo em sua forma original.

Como desvios na velocidade de reprodução produzem variações correspondentes

na altura, uma forma de corrigir tal tipo de degradação consiste em realizar uma

reamostragem não-uniforme do sinal degradado proporcional a tais variações. O

sinal reamostrado seria reproduzido com sua taxa original de amostragem, com o

intuito de compensar os desvios.

38

Page 50: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

A seguir são apresentadas soluções para alguns tipos de reamostragem, que in-

cluem desde alterações por um fator inteiro até o caso desejado, arbitrário e variante

no tempo.

3.2.1 Aumento por um fator L

O aumento da taxa de amostragem por um fator inteiro L envolve uma etapa cha-

mada de interpolação e uma etapa de ltragem passa-baixas, como se vê na Figura

3.4. Após essa mudança, a nova taxa de amostragem será F ′s = LFs, e o novo

período,

T ′s =Ts

L. (3.14)

s[n] u[m]hu[m]L

su[m]

Figura 3.4: Diagrama de blocos do sistema para aumento de taxa de amostragem.

No domínio do tempo, a operação de interpolação por L (representada pelo

elemento esquerdo da Figura 3.4) consiste em acrescentar L − 1 amostras iguais a

zero entre cada duas amostras contíguas do sinal original s[n].

Supondo s[n] com o espectro da Figura 3.5a, o sinal interpolado será

u[m] =

s[mL

], m = kL, k ∈ Z

0, nos demais valores.(3.15)

A Figura 3.5b mostra seu espectro, que contém imagens da banda base de s[n]

escaladas por um fator 1/L centradas em múltiplos inteiros de 2π/L. Para recuperar

a banda base do sinal e com isso concluir o procedimento de aumento de sua taxa de

amostragem, é preciso ltrá-lo com um ltro passa-baixas com resposta ao impulso

hu[m] (elemento direito da Figura 3.4), cuja resposta em frequência Hu(ejω′) atenda

39

Page 51: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

às seguintes especicações:

|Hu(ejω′)| =

L, |ω′| ≤ π

L

0, nos demais valores,(3.16)

produzindo assim o sinal su[m], cujo espectro é exibido na Figura 3.5c.

(b)U(ejω

′)

ω′0

. . . . . .

2π−2π π−π

(a)S(ejω)

ω0

. . . . . .

2π−2π π−π

(c)Su(e

jω′)

ω′0

. . . . . .

2π−2π π−π

Figura 3.5: Espectros que descrevem o aumento da taxa de amostragem de um sinal.

A relação entre s[n] e su[m] é, portanto, dada por

su[m] =∞∑

k=−∞hu[m− k]u[k]

=∞∑

k=−∞hu[m− k]s

[k

L

],

k

L∈ Z

=∞∑

r=−∞hu[m− rL]s[r]. (3.17)

Se um sinal de áudio sofrer um aumento em sua taxa de amostragem por um

fator inteiro L e for reproduzido com sua taxa original, haverá a percepção de um

som mais grave e com maior duração. No caso em que L = 2, por exemplo, o som

será ouvido uma oitava abaixo de sua altura e com o dobro de sua duração original.

40

Page 52: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

3.2.2 Redução por um fator M

A redução da taxa de amostragem por um fator inteiro M envolve uma etapa de

ltragem passa-baixas e uma etapa chamada de decimação, como se vê na Figura

3.6. Após esta mudança, o novo período de amostragem será T ′s = MTs, e a nova

taxa de amostragem,

F ′s =Fs

M. (3.18)

s[n] d[n] sd[m]hd[n] M

Figura 3.6: Diagrama de blocos do sistema para redução de taxa de amostragem.

No domínio do tempo, a operação de decimação por M (representada pelo ele-

mento direito da Figura 3.6) consiste em preservar a primeira e descartar as M − 1

amostras seguintes de cada grupo de M amostras de um sinal d[n].

O processo de decimação gera um esticamento do espectro pelo fator M [10];

portanto, se o sinal a ser decimado contiver frequências acima de F ′s/2, haverá

sobreposição das repetições da banda base do sinal (i.e., aliasing). Para evitar isto,

o sinal deve ser pré-ltrado de modo a rejeitar todas componentes acima deste valor.

Supondo s[n] com o espectro da Figura 3.7a, primeiramente produz-se o sinal

intermediário d[n] pela ltragem de s[n] por um ltro passa-baixas hd[m] (elemento

esquerdo da Figura 3.6), cuja resposta em frequência Hd(ejω) atenda às especica-

ções:

|Hd(ejω)| =

1, |ω| ≤ π

M

0, nos demais valores.(3.19)

A Figura 3.7b mostra o espectro de d[n] para um ltro hd[m] não-ideal. Completa-se

a redução da taxa de amostragem do sinal original pela decimação do sinal interme-

diário, gerando a saída

sd[m] = d[Mm], (3.20)

41

Page 53: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

cujo espectro é mostrado na Figura 3.7c. Note que o espectro de sd[m] contém

imagens da banda base de d[n] escaladas por um fator M .

(a)S(ejω)

ω0

. . . . . .

2π−2π π−π

(b)D(ejω)

ω0

. . . . . .

2π−2π π−π

(c)Sd(e

jω′)

ω′0

. . . . . .

2π−2π π−π

π/M

Figura 3.7: Espectros que descrevem a redução da taxa de amostragem de um sinal.

A relação entre sd[m] e s[n] é dada por

sd[m] = d[Mm]

=∞∑

k=−∞hd[k]s[Mm− k]

=∞∑

n=−∞hd[Mm− n]s[n]. (3.21)

Se um sinal de áudio sofrer uma redução em sua taxa de amostragem por um

fator inteiro M e for reproduzido com sua taxa original, haverá a percepção de um

som mais agudo e de menor duração. No caso em que M = 2, por exemplo, o som

será ouvido uma oitava acima de sua altura e com metade de sua duração original.

3.2.3 Mudança por um fator racionalL

M

Até agora foram apresentadas soluções para realizar mudanças de taxa de amos-

tragem somente por fatores inteiros. Uma maneira intuitiva de se realizar uma

reamostragem por um fator não-inteiro é fazer uma cascata dos blocos anterior-

42

Page 54: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

mente apresentados, aproximando-o desta forma por um fator racional irredutível.

Assim, a nova taxa de amostragem será

F ′s =L

MFs, (3.22)

e o novo período

T ′s =M

LTs, (3.23)

onde L e M são respectivamente as ordens do interpolador e do decimador.

Uma consideração importante neste tipo de reamostragem é a ordenação dos

blocos. Independentemente de o fator racional ser maior ou menor que 1, o bloco

de aumento de taxa sempre deve preceder o de redução de taxa. Esta condição deve

ser seguida pelos seguintes motivos:

• A redução de taxa sempre estreita a banda base do sinal com a pré-ltragem.

No caso de um fator LM, essa redução será pelo fator M > M

L, o que resultará

necessariamente em perda desnecessária de informação;

• Com o aumento de taxa antes da redução de taxa, os dois ltros hu[n] e hd[n]

podem ser combinados em um único ltro h[n] que atenda simultaneamente

às especicações dos ltros hu[n] e hd[n], reduzindo assim a complexidade do

processo.

Dessa forma, o projeto do ltro h[n] deve satisfazer as seguintes condições:

|H(ejω′)| =

1, |ω′| ≤ mín

( πM,π

L

)0, demais valores.

(3.24)

O arranjo eciente dos blocos da reamostragem por um fator racional é mostrado

na Figura 3.8. A relação entre os sinais de entrada s[n] e saída sr[m] é dada por:

sr[m] =∞∑

n=−∞h[Mm− Ln]s[n]. (3.25)

43

Page 55: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

s[n] u[k] sr[m]h[k]L M

v[k]

Figura 3.8: Diagrama de blocos da reamostragem por um fator racional.

3.2.4 Mudança por um fator arbitrário

A ideia de se combinar sistemas de redução e aumento de taxa de amostragem em

série para reamostrar um sinal por um fator não-inteiro é intuitiva, porém às ve-

zes não eciente. Primeiro, ela está limitada a somente fatores racionais; caso seja

desejado um fator irracional arbitrário, é necessário aproximá-lo para um racional

próximo. Além disso, dependendo da acurácia requerida do fator, podem ser neces-

sários numerador e/ou denominador muito altos, elevando correspondentemente a

complexidade do ltro passa-baixas da Figura 3.8. Por exemplo, para um aumento

da taxa de amostragem por um fator exatamente igual a fr = 2, 377, seria necessário

cascatear um interpolador por L = 2377 com um decimador por M = 1000, o que

exigiria o difícil projeto de um ltro com frequência de corte ωC = π/2377.

Existem outras formas de se resolver esse problema. A mais direta conceitu-

almente seria utilizar a interpretação analógica de reamostragem: reconstruir a

versão contínua do sinal discreto, e depois reamostrá-la pelo novo fator desejado

F ′s = fr×Fs. Conforme visto anteriormente em 3.11, o sinal analógico sC(t) recons-

truído é dado por

sCrec(t) =∞∑

n=−∞s[n]hi(t− nTs), (3.26)

onde hi(t) é o ltro passa-baixas ideal com FC = Fs/2, preservando a banda base do

sinal original. O sinal discreto sa[m] amostrado com a nova taxa é dado por

sa[m] = sCrec(mT′s). (3.27)

Assim, de 3.26 e 3.27 é possível obter a relação entre o sinal na nova taxa sa[m] e o

44

Page 56: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

sinal original s[n]:

sa[m] = sCrec(mT′s) =

∞∑n=−∞

s[n]hi(mT′s − nTs). (3.28)

A Figura 3.9, adaptada de [10], ilustra o processo de obtenção de três amostras

de um sa[m] aproximado utilizando um ltro passa-baixas ha(t) genérico. Cada nova

amostra é resultado da convolução de s[n] pelo ltro com centro deslocado para o

instante referente a tal amostra. Note que, como para computar uma amostra de

sa[m] são utilizadas apenas algumas amostras de ha(t), ele pode ser aproximado

para um ltro digital ha[n], para não ser preciso recuperar o sinal s[n] na forma

contínua e depois reamostrá-lo pelo novo fator. Entretanto é válido notar que,

para cada amostra obtida de sa[m], são necessários diferentes valores da resposta ao

impulso do ltro. Assim, para calcular cada valor de sa[m] é necessário realizar uma

amostragem diferente de ha(t).

(b)

(a)

n

s[n]

ha(MT ′s − t)

m = M

n

s[n] ha((M + 1)T ′s − t)

m = M + 1

n

s[n]ha((M + 2)T ′

s − t)

m = M + 2

(c)

Figura 3.9: Computação de amostras de sa[m] na reamostragem por fatores reais.

45

Page 57: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Implementação

A implementação da reamostragem por um fator real arbitrário teve como referência

o trabalho [11]. Conforme visto anteriormente em 3.13, o sinal analógico sC(t)

reconstruído com o ltro ideal hi[n] é dado por

sCrec(t) =∞∑

n=−∞s[n]hi(t− nTs) =

∞∑n=−∞

s[n] sinc(π (tFs − n)) . (3.29)

A partir de 3.27 e 3.29 é possível obter a relação entre sa[m] e s[n]:

sa[m] = sCrec(mT′s)

=∞∑

n=−∞s[n] sinc(π (mT ′sFs − n))

=∞∑

n=−∞s[n] sinc

(m

fr

− n))

(3.30)

O ltro ideal é impraticável, portanto será adotada uma aproximação digital ha[n]

do mesmo, que é constituída de amostras de uma versão do próprio hi(t) truncado.

O sinal reamostrado é então dado por:

sa[m] =

NT∑n=−NT

s[n] sinc

(m

fr

− n))

, (3.31)

onde 2NT + 1 é o número de pontos do truncamento da amostragem de hi(t).

A reamostragem por fatores arbitrários foi implementada considerando intuitiva-

mente o período de amostragem no domínio discreto igual a Ts = 1 amostra. Isto se

dá pelo fato de o sinal a ser reamostrado ser um vetor de amostras, e seus instantes

serem justamente os índices deste vetor. Desta forma, o novo período de amostra-

gem é 1/fr. A Figura 3.10, adaptada de [11], ilustra o processo de obtenção do sinal

reamostrado, onde a função sinc truncada se movimenta com passos iguais ao novo

período de amostragem 1/fr, e o instante da nova amostra é denido pelo centro da

sinc. Note que este é um ltro de Nyquist, ou seja, quando o centro da sinc coincide

com uma amostra m0 de s[n], as amostras restantes do sinal são canceladas pelos

46

Page 58: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

zeros da sinc, preservando o valor em m0 no sinal reamostrado. O caso geral em que

o centro do ltro não coincide com nenhuma amostra do sinal original é ilustrado

na Figura 3.10a, enquanto o caso em que a amostra original é preservada é ilustrado

na Figura 3.10b.

(b)

s[n]

n

h[mT ′s − t]

. . .. . .

m

s[n]

n

(a)

m0

h[m0T′s − t]

. . . . . .

Figura 3.10: Convolução do ltro implementado com o sinal a ser reamostrado.

3.2.5 Caso variante no tempo

Conforme dito no início desta seção, desvios de velocidade de reprodução podem ser

corrigidos por meio da reamostragem não-uniforme do sinal degradado, ou seja, por

fatores que variam no tempo.

Em geral, sinais que sofreram desvios de velocidade apresentam pequenas vari-

ações de anação, raramente ultrapassando um semitom, que corresponde a apro-

ximadamente 6%. Por causa destas variações sutis, os fatores precisam ser espe-

cicados com alta precisão, de forma a obter uma reamostragem el aos desvios

encontrados. Desta maneira, a abordagem para realizar a mudança da taxa de

amostragem por fatores variantes no tempo é a mesma da realizada por fatores reais

arbitrários, fundamentando-se na interpretação analógica da reamostragem descrita

na Subseção 3.2.4.

47

Page 59: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Implementação

Os métodos aqui implementados tiveram como referência o trabalho [11]. Para

lidar com mais de um fator, este tipo de reamostragem foi realizada em blocos de

amostras da seguinte forma: cada fator age sempre sobre dois blocos consecutivos; e

cada amostra do sinal a ser reamostrado deve pertencer a um, e somente um bloco.

Esta abordagem levou a duas principais considerações de difícil implementação:

1. Foi preciso modelar a transição entre dois fatores consecutivos, que deve ser

suave para gerar resultados satisfatórios. Para isto, foi realizada uma inter-

polação linear entre eles, modicando de amostra em amostra o deslocamento

do ltro de reconstrução;

2. A abordagem adotada acima gera inevitavelmente erros de aproximação, que

se propagam e acumulam a cada passagem de blocos. Tais erros se traduzem

em desvios de fase entre blocos, comprometendo desta forma a sincronia entre

eles.

A seguir, detalha-se como este tipo de reamostragem foi implementado, e como os

problemas mencionados acima foram contornados.

Primeiro, é preciso obter os fatores de reamostragem a partir das informações

até agora apresentadas, e obter os blocos de amostras referentes a tais fatores. Uma

informação de grande utilidade que atende aos objetivos desta implementação é a

curva de desvio normalizada, descrita na Seção 2.3. Esta curva consiste de um vetor

cujo tamanho é a quantidade de quadros resultantes da análise senoidal, e cujos

elementos são justamente os fatores pelos quais as frequências de cada bloco foram

multiplicadas. Portanto, os fatores de reamostragem são exatamente os valores da

curva de desvio normalizada.

Obtidos os fatores, agora é preciso associá-los a blocos de amostras. Na curva de

desvio, um fator especíco representa todas as amostras de seu respectivo segmento

obtido do sinal original. Se quisermos fazer este fator representar um único instante

discreto do sinal, é válido associá-lo à média dos instantes do segmento, ou seja, ao

48

Page 60: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

instante de sua amostra central. Feito isso, é possível construir uma matriz R2×Q tal

que suas primeira e segunda linhas são formadas, respectivamente, pelos fatores da

curva de desvio e seus respectivos instantes; e Q representa a quantidade de quadros

obtidos na análise senoidal do sinal a ser reamostrado. Tal matriz é então dada por:

R =

f1 f2 · · · fA fB · · · fQ−1 fQ

N1 N2 · · · NA NB · · · NQ−1 NQ

, (3.32)

onde fA e fB são os fatores referentes respectivamente aos quadros consecutivos de

índices A e B. Um bloco é então denido como o conjunto de amostras de instante

NI até NI+1 − 1. Por exemplo o bloco de transição de fA para fB é formado pelas

amostras de instante NA até NB − 1.

Após obter os fatores de reamostragem e denir seus blocos, são modeladas as

transições entre cada dois fatores consecutivos. Cada amostra de um bloco rea-

mostrado é resultado da convolução de s[n] com o ltro formado pela função sinc

truncada, com seu centro deslocado para o instante referente à amostra em questão,

conforme mostra a Equação 3.31. Entretanto, o centro do ltro se desloca agora em

passos variantes no tempo, que são calculados por meio de uma interpolação linear.

Considere a transição de fA para fB, cujo bloco associado é denotado pelas

amostras de s[NA] a s[NB − 1]. No instante NA, o período de amostragem deve ser

TA = Ts/fA, e no instante NB, o período é TB = Ts/fB. A interpolação deve ser

feita de forma a variar TA até TB linearmente incrementando um passo k a cada

passagem, como mostra a Figura 3.11.

É valido mencionar que, apesar de estarem sendo tratados apenas sinais discre-

tos, a noção do intervalo de tempo entre amostras é de extrema importância, pois

o tamanho dos intervalos varia com o tempo, e erros causados por aproximações

geram desvios de fase. Por este motivo, a partir de agora serão tratados de forma

diferente o número de amostras de um bloco e o intervalo de tempo que tais amos-

tras representam. Assim, denindo-se N = NB − NA, são obtidas do bloco duas

49

Page 61: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

informações essenciais. Uma é que o bloco em análise possui N amostras, fato este

intuitivo. A outra é uma informação não intuitiva que pode causar alguma estra-

nheza: o bloco representa um intervalo de tempo de Tbloco = (N − 1)Ts, diferente do

tradicional NTs. Esta consideração é feita pois o intervalo entre blocos, que dene

sua sincronia, deve ser tratado separadamente. O tratamento de erro do cálculo do

intervalo entre blocos será abordado mais adiante.

nNA NB

· · ·

· · ·

TA

TA + k

TA + 2k

TA + nk

TA + (n− 1)kTB = TA + (n+ 1)k

Figura 3.11: Esquema da transição entre fatores adjacentes.

Feitas essas considerações, é possível agora criar um modelo para o cálculo do in-

cremento k da interpolação. Uma vez que os períodos contidos no bloco reamostrado

vão ser diferentes de Ts, seu número de amostras será diferente de N , e denotado

por n. Como é desejado chegar em TB a partir de TA, vale a seguinte relação:

TA + k(n+ 1) = TB. (3.33)

Lembre que a amostra em NB não está contida no bloco em questão, ela é a primeira

amostra do bloco seguinte; seu instante só é utilizado para obter n e k. Com o

objetivo de lidar com a sincronia entre os blocos, o cálculo de k será feito de tal forma

que todas as n novas amostras do bloco reamostrado estejam dentro do intervalo

Tbloco. Isto é feito forçando o novo intervalo de tempo o qual o bloco reamostrado

representa ser igual a Tbloco. Então, a soma de todos os períodos até o m do bloco

50

Page 62: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

deve ser igual a Tbloco = N − 1, obtendo a expressão:

N − 1 = TA + (TA + k) + (TA + 2k) + · · ·+ [TA + (n− 1)k]

= nTA + k[1 + 2 + 3 + · · ·+ (n− 2) + (n− 1)]

= nTA + kn(n− 1)

2. (3.34)

Substituindo 3.33 em 3.34, é obtido um polinômio de segundo grau para calcular n,

dado por

(TA + TB)n2 + (3TA − TB − 2N + 2)n+ (2− 2N) = 0. (3.35)

Este polinômio possui duas soluções. Entretanto, para valores típicos dos parâmetros

que denem os coecientes do polinômio acima, é fácil ver que uma das raízes é

sempre negativa. Denindo a = TA + TB, b = 3TA − TB − 2N + 2 e c = 2 − 2N , o

número de amostras do bloco reamostrado é dado pelo menor inteiro mais próximo

da solução positiva, dado por:

n =

⌊−b+√b2 − 4ac

2a

⌋. (3.36)

Por m, o incremento k é calculado substituindo-se n em 3.33:

k =TB − TA

n+ 1(3.37)

É valido mencionar que k pode assumir valores tanto positivos como negativos. O

incremento será positivo se TB > TA, e negativo se TA > TB.

A aproximação de n para n gera inevitavelmente um erro de truncamento, con-

forme mostra a Figura 3.12. Nesta gura, as amostras do sinal original são denotadas

pelas linhas pontilhadas, e as do sinal reamostrado pelas linhas contínuas. A última

amostra do bloco foi projetada para coincidir com NB − 1, mas aproximação para

um fator inteiro a deslocou para o instante MB − 1. Esse erro se propaga para o

início do bloco seguinte, gerando um desvio de fase δA,B entre os blocos A e B. Pela

51

Page 63: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Figura 3.12 e pela Equação 3.34 é possível calcular esse desvio, que é dado por:

δA,B = N − (n+ 1)

(TA + k

n

2

). (3.38)

Com isso, a primeira amostra do bloco seguinte, que antes deveria ser s[NB], agora é

s[NB + δA,B]. Portanto, o bloco seguinte deve ser iniciado deslocando todas as suas

amostras por δA,B, para garantir a sincronia. Como o erro se acumula ao longo das

passagens, é possível obter uma expressão geral do desvio acumulado ∆I,I+1 a ser

compensado na passagem do bloco genérico I para o I + 1, que é dada por:

∆I,I+1 =I∑i=1

δi,i+1. (3.39)

nNB

· · ·

Ts

erroA,B

NB − 1 MBMB − 1

TA + nk

δA,B

Intervalo de tempo entre os blocos

· · ·

Bloco A Bloco B

Figura 3.12: Desvio de fase entre blocos adjacentes.

Isto conclui a implementação da reamostragem por fatores variantes no tempo.

Basta repetir os passos acima descritos para todos os pares adjacentes de fatores

da matriz R, lembrando sempre de compensar os desvios acumulados. A seguir, o

desempenho dos algoritmos implementados é avaliado.

52

Page 64: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

3.3 Testes de desempenho

O objetivo desta seção é avaliar o desempenho dos programas desenvolvidos para

realizar os dois últimos tipos de reamostragem descritos na subseção anterior: a

mudança por um fator real arbitrário; e a mudança por fatores variantes no tempo.

Para isso, será avaliada a qualidade sonora dos sinais sintetizados. Todos os sinais

de áudio gerados estão disponíveis em [9].

3.3.1 Desempenho da reamostragem por um fator arbitrário

Para os testes, foram escolhidos os mesmos sinais processados no Capítulo 2,

gspi.wav e flute.wav. O ltro de reconstrução, mostrado na Equação 3.31, foi

truncado com 201 amostras, ou seja, NT = 100. Com isto foram geradas as seguin-

tes modicações do sinal gspi.wav:

• gspi_up.wav: Corresponde ao sinal gspi.wav reamostrado com fr = 0, 9439,

ou seja, aumentado de um semitom e consequentemente com duração reduzida;

• gspi_down.wav: Corresponde ao sinal gspi.wav reamostrado com fr =

1, 0595, ou seja, decrescido de um semitom e consequentemente com duração

aumentada;

e as seguintes modicações do sinal flute.wav:

• flute_up.wav: Corresponde ao sinal flute.wav reamostrado com fr =

0, 9439, ou seja, aumentado de um semitom e consequentemente com dura-

ção reduzida;

• flute_down.wav: Corresponde ao sinal flute.wav reamostrado com fr =

1, 0595, ou seja, decrescido de um semitom e consequentemente com duração

aumentada.

Os resultados obtidos foram perceptivamente satisfatórios, e a qualidade dos

sinais sintetizados foi considerada idêntica à dos sinais originais. Conclui-se então

que a implementação foi realizada com sucesso.

53

Page 65: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

3.3.2 Desempenho da reamostragem por fatores variantes no

tempo

Para os testes foram escolhidos vetores de fatores de forma a realizar mudanças tanto

abruptas quanto suaves de anação. O ltro de reconstrução foi truncado com 201

amostras, ou seja, NT = 100. Foi gerada a seguinte modicação do sinal gspi.wav:

• gspi_sin.wav: Corresponde ao sinal gspi.wav reamostrado com fatores mo-

delados por uma senoide, de forma a simular um desvio global do eixo de

rotação de um dispositivo analógico;

e a seguinte modicação do sinal flute.wav:

• flute_shift.wav: Corresponde ao sinal flute.wav reamostrado com fatores

de forma a impor um salto de anação, simulando um desvio de velocidade

localizado.

Os resultados obtidos foram perceptivamente satisfatórios, e a qualidade dos

sinais sintetizados foi considerada idêntica à dos sinais originais, sem a presença de

artefatos ruidosos e desvios de fase entre blocos. Isto mostra que a compensação

dos desvios acumulados foi implementada corretamente. Conclui-se então que a

implementação foi realizada com sucesso.

3.4 Conclusão

Este capítulo conclui o estudo e implementação de rotinas que realizam dois tipos

de mudança de taxa de amostragem: por fatores reais arbitrários; e por fatores reais

arbitrários variantes no tempo. Os resultados obtidos foram satisfatórios, dada a

diculdade de implementação dos algoritmos, principalmente para o caso variante

no tempo. Como este caso lida com muitas aproximações, é necessária uma imple-

mentação que corrija os erros de truncamento, evitando desvios de fase entre blocos

adjacentes. O capítulo seguinte une as duas técnicas até agora estudadas separada-

mente, para criar uma ferramenta interativa de correção de desvios de velocidade.

54

Page 66: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Capítulo 4

Um sistema de detecção e correção

Neste trabalho, o processo de correção de desvios na velocidade de reprodução foi di-

vidido em duas etapas: a detecção de desvios e sua consequente correção. Até agora,

essas etapas foram discutidas separadamente. No Capítulo 2 foi implementado um

método para obter uma curva a partir de um sinal degradado que exiba tais desvios

e no Capítulo 3 foram implementados métodos de reamostragem não-uniforme com

o intuito de corrigir o sinal degradado a partir de sua curva de desvio.

Este capítulo aborda estas duas etapas como uma única ferramenta, que detecta

e corrige sinais degradados. Com este objetivo, é proposta uma interface gráca

de modo a permitir uma interação com o usuário que deseja realizar correções de

desvio de velocidade. Na Seção 4.1 a interface implementada e suas funcionalidades

são descritas.

4.1 Implementação de uma interface gráca

Uma interface gráca é uma ferramenta que permite a interação do usuário com

dispositivos digitais, como por exemplo o computador, de modo a substituir as linhas

de comando. A proposta deste trabalho consiste em implementar uma interface no

programa MatLab (MathWorks, USA), de forma a aproveitar as rotinas descritas

nos capítulos anteriores, que também foram desenvolvidas neste programa.

O layout da interface implementada é exibido na Figura 4.1. Ela contém janelas,

55

Page 67: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

painéis, botões e caixas de texto estáticas e dinâmicas, com as quais o usuário

interage através do mouse e do teclado. Suas funcionalidades e parâmetros são

descritas a seguir

Figura 4.1: Layout da interface gráca.

4.1.1 Funcionalidades da interface

Ao abrir a interface, o usuário se depara com uma janela principal contendo cinco

painéis, cujos títulos são:

1. Entrada;

2. Análise senoidal;

3. Oset de velocidade;

56

Page 68: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

4. Corrigir desvio;

5. Salvar arquivo.

A interação com o usuário deve ser feita na ordem apresentada acima. A seguir os

elementos de cada painel são detalhados.

Entrada

No painel de entrada, o usuário pode carregar o arquivo de áudio desejado clicando

no botão Abrir arquivo. Uma caixa de diálogo é aberta e o usuário pode navegar

pelos diretórios até encontrar o arquivo de interesse. Tanto a interface quanto as

rotinas foram implementadas de forma a processar somente arquivos no formato de

áudio digital wave, com quaisquer taxa de amostragem e profundidade de bits, e

com até dois canais. No caso de uma gravação estéreo, a análise senoidal é realizada

com a média dos dois canais. Ao abrir o arquivo, os campos Nome e Duração exibem

as informações do arquivo propriamente ditas. O campo Taxa exibe a taxa de

amostragem do sinal, o campo Canais indica se a gravação é mono ou estéreo,

e o botão Ouvir reproduz o arquivo carregado. Caso o usuário deseje reiniciar a

interface, ele pode a qualquer momento clicar no botão Limpar dados, e a interface

é reinicializada.

Análise senoidal

Carregado o arquivo, o usuário pode realizar a análise senoidal do sinal, que consiste

no rastreamento de picos e na extração da curva de desvio. Os parâmetros da análise

senoidal que o usuário pode ajustar são:

• Tamanho do buer da FFT: Número de amostras de cada quadro do

sinal após o preenchimento com zeros. Para um bom desempenho, considere

escolher valores iguais a potências de 2.

• Tamanho da janela: Número de amostras da janela que irá multiplicar o

sinal para gerar os segmentos.

57

Page 69: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

• Desvio máximo de frequência: Percentual máximo que uma trajetória

pode variar de um quadro para o seguinte no processo de rastreamento.

• Tamanho mínimo da trilha: Número mínimo de quadros que podem formar

uma trilha. Trilhas menores que esse valor são removidas.

• Tamanho da memória da trilha: Número máximo de quadros que uma

trajetória pode esperar sem ter picos a ela assinalados, antes de desaparecer.

• Oset do ltro TPSW: Fator que regula a rejeição de picos na ltragem

TPSW.

A interface é iniciada automaticamente com valores padrão para os parâmetros

acima, os quais são exibidos na Figura 4.1.

Feito o ajuste de parâmetros o usuário pode então clicar no botão Análise para

realizar a análise senoidal. Enquanto o processo estiver rodando, a caixa de status

exibe o texto Realizando análise..., e quando o processo é encerrado, exibe o

texto Pronto!. Com isso, é possível visualizar as trajetórias rastreadas e a curva de

desvio ainda não normalizada ao clicar respectivamente nos botões Exibir Trilhas

e Curva de Desvio.

Oset de velocidade

Conforme mencionado na Seção 2.3, a curva deve ser normalizada para os valores

carem em torno de 1; isto deve ser feito manualmente. O usuário precisa adotar

uma referência no eixo das ordenadas da curva de desvio exibida no painel Análise

senoidal, e passar este valor para a caixa de texto Offset de velocidade. Es-

colhendo valores diferentes de zero, o usuário pode denir uma velocidade de re-

produção diferente pela qual o sinal foi originalmente gravado (este valor é aditivo

em relação a zero). Por exemplo, caso o usuário queira, além de corrigir desvios de

velocidade, elevar o sinal de um semitom, ele deve escolher ao invés de zero o valor

correspondente ao desvio percentual de frequência de um semitom. Ajustada a re-

ferência, o usuário deve atualizar a curva de desvio clicando no botão Atualizar, e

58

Page 70: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

conferir se o valor foi adequado clicando em Curva Atualizada, para exibir a curva

de desvio com o ajuste.

Corrigir desvio

Ajustada a curva, o usuário pode corrigir os desvios via reamostragem ao clicar

no botão Corrigir. No caso de uma gravação estéreo, cada canal é processado

independentemente com a mesma curva de desvio. Enquanto a correção ocorre,

a caixa de status exibe o texto Corrigindo..., e quando o processo é encerrado,

exibe o texto Pronto!. Por m, o usuário pode conferir o resultado da restauração

clicando no botão Ouvir.

Salvar arquivo

Caso o resultado seja satisfatório para o usuário, ele pode escolher um nome para

o arquivo restaurado e salvá-lo em seu computador clicando em Salvar. O arquivo

é salvo no mesmo diretório em que estava o arquivo original, também no formato

wave, com sua frequência de amostragem original e preservando o número de canais

e profundidade de bits.

Isto conclui o capítulo sobre o sistema completo implementado via interface

gráca. No capítulo seguinte serão apresentados alguns resultados da utilização

da interface e das rotinas até agora descritas para detecção e correção de desvios na

velocidade de reprodução.

59

Page 71: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Capítulo 5

Resultados

Este capítulo tem como objetivo mostrar resultados de testes de desempenho das

ferramentas implementadas. Os primeiros testes foram feitos impondo-se articial-

mente variações de anação a sinais simples de curta duração. Por m, os métodos

foram testados em gravações com degradações naturais, e um desses testes será

descrito aqui. Todos os sinais descritos neste capítulo estão disponíveis em [9]. É

válido mencionar que a interface gráca foi de grande utilidade na fase de obtenção

de resultados, dada a quantidade de testes realizados.

5.1 Testes com gravações articialmente degrada-

das

Com o intuito de testar os algoritmos sem o incômodo de artefatos ruidosos ou efeitos

naturais, como vibrato, foi realizada uma sequências de testes com sinais simples,

de curta duração, e com pouca ou nenhuma variação de frequência; e alguns destes

testes serão descritos nesta seção. Foram impostos aos sinais variações articiais

de anação, assim simulando gravações com desvios de velocidade de reprodução.

Primeiro será restaurado um sinal que simula um salto de velocidade durante sua

reprodução, e depois serão restaurados sinais que simularam erros senoidais de rota-

ção. No m de cada teste é feita uma comparação entre as curvas de desvio teóricas,

60

Page 72: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

do sinal articialmente degradado e do sinal restaurado. A curva do sinal degradado

é mostrada com o intuito de validar a conabilidade dos métodos de extração da

curva de desvio. Já a curva do sinal restaurado é mostrada de forma a avaliar o

desempenho da correção mediante a curva do sinal degradado.

5.1.1 Sinal clar.wav

Este teste simula o caso em que, durante a edição de uma ta, um trecho da gravação

é cortado e substituído por outro. Caso o outro trecho tenha sido proveniente

de outra sessão, ou gravado com instrumentos diferentes, pode ocorrer um desvio

localizado de anação.

O sinal original clar.wav corresponde a uma nota sendo tocada por um clarone

durante três segundos. A ele foi imposto um salto correspondente a 2% da anação

original, seguido de uma queda para o nível original, assim criando o sinal clar_-

step.wav. Foi então realizada a análise senoidal com os parâmetros da Tabela 5.1,

e as trilhas rastreadas são mostradas na Figura 5.1. O sinal foi restaurado e salvo

como clar_restored.wav, e suas trajetórias são mostradas na Figura 5.2.

Por m, a Figura 5.3 compara as curvas de desvio teórica, e dos sinais clar_-

step.wav e clar_restored.wav. A curva de desvio de clar_step.wav é referenci-

ada pela linha contínua, e a de clar_restored.wav pela tracejada.

Tabela 5.1: Parâmetros do rastreamento do sinal clar.wav e suas modicações.

Parâmetro Valor

Tamanho da janela da DFT (N) 2048 amostras

Tamanho da janela (M) 512 amostras

Sobreposição de quadros 50 %

Desvio máximo de frequência ∆f 2 %

Tamanho mínimo da trilha 20 quadros

Duração da memória da trilha 2 quadros

Oset do limiar TPSW 0,2

61

Page 73: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 0,5 1 1,5 2 2,5 3 0

1

2

3

4

Tempo (segundos)

Frequen

cia(kHz)

Figura 5.1: Rastreamento do sinal degradado clar_step.wav.

0 0,5 1 1,5 2 2,5 3 0

1

2

3

4

Tempo (segundos)

Frequ

encia(kHz)

Figura 5.2: Rastreamento do sinal restaurado clar_restored.wav.

5.1.2 Sinal gspi.wav

Já apresentado na Seção 2.2.4, o sinal gspi.wav foi articialmente degradado na

Seção 3.3, de modo a simular um desvio global do eixo de rotação de um dispositivo

analógico. A análise senoidal do sinal gspi_sin.wav foi feita com os parâmetros da

Tabela 2.1, e suas trajetórias rastreadas são mostradas na Figura 5.4. O sinal foi

restaurado e salvo como gspi_restored.wav, e suas trajetórias são mostradas na

Figura 5.5.

62

Page 74: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 0,5 1 1,5 2 2,5 3 0,98

1

1,02

0 0,5 1 1,5 2 2,5 3 0,98

1

1,02

Frequenciarelativa

(a) Curva de desvio teorica

(b) Curvas de desvio dos sinais degradado e restaurado

Tempo (segundos)

Figura 5.3: Curvas teórica, degradada e corrigida das modicações do sinalclar.wav.

0 1 2 3 4 5 60

2

4

6

8

10

Tempo (segundos)

Frequ

encia(kHz)

Figura 5.4: Rastreamento do sinal degradado gspi_sin.wav.

Por m, a Figura 5.6 compara as curvas de desvio teórica, e dos sinais gspi_-

sin.wav e gspi_restored.wav. A curva de desvio de gspi_step.wav é referenciada

pela linha contínua, e a de gspi_restored.wav pela tracejada. Note que as varia-

63

Page 75: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 1 2 3 4 5 60

2

4

6

8

10

Tempo (segundos)

Frequen

cia(kHz)

Figura 5.5: Rastreamento do sinal restaurado gspi_restored.wav.

ções senoidais, embora não totalmente corrigidas, foram atenuadas. Isto motiva a

realizar a restauração do sinal duas ou mais vezes, de sorte a reaplicar o processo de

restauração num sinal já previamente restaurado. O próximo teste simula este caso.

0 1 2 3 4 5 6

0,98

1

1,02

0 1 2 3 4 5 6

0,98

1

1,02

Frequenciarelativa

(b) Curvas de desvio dos sinais degradado e restaurado

(a) Curva de desvio teorica

Tempo (segundos)

Figura 5.6: Curvas teórica, degradada e corrigida das modicações do sinalgspi.wav.

64

Page 76: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

5.1.3 Sinal orchestra.wav

O sinal original orchestra.wav corresponde a um trecho de 13 segundos de uma

gravação orquestral. A ele foi imposta uma variação senoidal de amplitude de 1

% da velocidade original, criando o sinal orchestra_sin.wav, cujas trajetórias se-

noidais são exibidas na Figura 5.7. Este sinal foi restaurado com o emprego dos

parâmetros da Tabela 5.2, criando o sinal intermediário orchestra_inter.wav. O

sinal intermediário foi então restaurado, gerando orchestra_restored.wav, cujas

trilhas rastreadas são mostradas na Figura 5.8.

Tabela 5.2: Parâmetros do rastreamento do sinal orchestra.wav e suas modica-ções.

Parâmetro Valor

Tamanho da janela da DFT (N) 2048 amostras

Tamanho da janela (M) 512 amostras

Sobreposição de quadros 50 %

Desvio máximo de frequência ∆f 1 %

Tamanho mínimo da trilha 20 quadros

Duração da memória da trilha 5 quadros

Oset do limiar TPSW 0,002

0 2 4 6 8 10 12 140

2

4

6

8

10

12

14

Tempo (segundos)

Frequ

encia(kHz)

Figura 5.7: Rastreamento do sinal degradado orchestra_sin.wav.

65

Page 77: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 2 4 6 8 10 12 140

2

4

6

8

10

12

14

Tempo (segundos)

Frequ

encia(kHz)

Figura 5.8: Rastreamento do sinal restaurado orchestra_restored.wav.

Por último, a Figura 5.9 compara as curvas de desvio teórica, e dos si-

nais orchestra_sin.wav e orchestra_restored.wav. A curva de desvio de

orchestra_sin.wav é referenciada pela linha contínua, e a de orchestra_-

restored.wav pela tracejada. Note que realizando a restauração duas vezes as

variações senoidais são atenuadas mais ainda, obtendo assim um melhor desempe-

nho.

5.2 Teste com uma gravação com uma degradação

natural

Para avaliar o desempenho das ferramentas desenvolvidas com sinais naturalmente

degradados, foi escolhida a obra Paulistana No3, do compositor brasileiro Claudio

Santoro1. A gravação original contém desvios distribuídos ao longo de sua repro-

dução, que se assemelham a variações senoidais. O sinal paulistana.wav contém

8 segundos iniciais da obra, e será o objeto de restauração. Suas trilhas senoidais

são rastreadas empregando-se os parâmetros da Tabela 5.3, e são exibidas na Fi-

gura 5.10. O sinal foi restaurado e salvo como paulistana_restored.wav, cujas

1Claudio Franco de Sá Santoro, 1919 - 1989.

66

Page 78: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 2 4 6 8 10 12 14

0,99

1

1,01

0 2 4 6 8 10 12 14

0,99

1

1,01

Frequenciarelativa

(a) Curva de desvio teorica

(b) Curvas de desvio dos sinais degradado e restaurado

Tempo (segundos)

Figura 5.9: Curvas de desvio teórica, degradada e corrigida das modicações dosinal orchestra.wav.

trajetórias são mostradas na Figura 5.11.

0 2 4 6 8 0

1

2

Tempo (segundos)

Frequ

encia(kHz)

Figura 5.10: Rastreamento do sinal degradado paulistana.wav.

Por último, a Figura 5.12 compara as curvas de desvio dos sinais paulistana.wav

e paulistana_restored.wav. A curva de desvio de paulistana.wav é referenciada

67

Page 79: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Tabela 5.3: Parâmetros do rastreamento do sinal paulistana.wav.

Parâmetro Valor

Tamanho da janela da DFT (N) 1024 amostras

Tamanho da janela (M) 512 amostras

Sobreposição de quadros 50 %

Desvio máximo de frequência ∆f 1 %

Tamanho mínimo da trilha 20 quadros

Duração da memória da trilha 5 quadros

Oset do limiar TPSW 0,002

0 1 2 3 4 5 6 7 8 90

1

2

Tempo (segundos)

Frequen

cia(kHz)

Figura 5.11: Rastreamento do sinal restaurado paulistana_restored.wav.

pela linha contínua, e a de paulistana_restored.wav pela tracejada.

5.3 Comentários sobre os resultados obtidos

Como cada sinal tem suas características próprias, é crucial a etapa de calibração

dos parâmetros da análise senoidal, dos quais podem ser destacados o oset da

ltragem TPSW e a duração da memória, que são os mais difíceis de ajustar.

No primeiro teste, envolvendo simulações de saltos de velocidade, o resultado

obtido foi perceptivamente satisfatório, devido à forma como o método proposto

calcula a curva. Como é feita uma média das trilhas, a curva só detectaria o momento

68

Page 80: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

0 2 4 6 80,995

1

1,005

Tempo (segundos)

Frequenciarelativa

Figura 5.12: Curvas de desvio dos sinais paulistana.wav e paulistana_-

restored.wav.

do salto de uma gravação com muitos instrumentos, mas não se sustentaria durante

ele. Isto ocorre porque, após o salto, outras notas vão surgindo e assim criando

novas trilhas, cujo algoritmo não sabe se estão com altura acima da média. Testes

de salto de anação com sinais mais longos e com mais instrumentos comprovaram

isto, não obtendo resultados satisfatórios. Já em um sinal simples composto de

somente uma nota, se o instrumento for (como um piano) de anação xa e incapaz

de realizar efeitos como vibrato, é esperado um melhor resultado, pois não existem

outros instrumentos sendo tocados após o salto para confundir a detecção. Ouvindo

o resultado, só é possível notar um leve salto suave no instante do salto original, e

ele se mantém até o nal do sinal.

Nos testes que simularam uma variação senoidal, os sinais ainda mantiveram al-

guns resquícios das variações, que puderam ser ainda mais atenuadas mediante outra

etapa de restauração. Outros testes realizados revelaram que este tipo de degrada-

ção é mais bem corrigido em sinais cheios, com muitos instrumentos e com notas de

longa sustentação, como pode ser notado no sinal orchestra_restored.wav.

O teste com o sinal naturalmente degradado obteve um resultado perceptiva-

mente mediano, pois ainda foram percebidas variações não corrigidas, mesmo após

sucessivas restaurações. Entretanto, percebe-se que algumas notas foram muito bem

69

Page 81: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

restauradas, enquanto outras nada mudaram.

Outros testes foram realizados com sinais originalmente contaminados com ruído

de fundo. Os resultados não foram satisfatórios, falhando consideravelmente no

processo de rastreamento. Uma solução para este problema consiste na extração da

curva de desvio de uma versão ltrada do sinal ruidoso (de forma a amenizar tais

artefatos), e usá-la para reamostrar o sinal original.

70

Page 82: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Capítulo 6

Conclusão

Neste trabalho, foram tratados métodos para a correção de desvios na velocidade

de reprodução de gravações de música, os quais foram divididos em duas partes

principais: a detecção dos desvios e a correção deles. Os objetos de estudo foram

sinais digitais de áudio provenientes de gravações analógicas que sofreram o tipo de

degradação supracitado.

A etapa de detecção de desvios foi implementada de forma a rastrear as informa-

ções mais relevantes ao longo do sinal. Como sinais musicais podem ser represen-

tados por sequências de componentes caracterizadas por frequências, foi adotado o

modelo senoidal de representação. A partir disso, o sinal foi segmentado em trechos

de curta duração, os quais tiveram seus picos espectrais detectados e rastreados.

Por m, foi adotada uma métrica que converte todas as trajetórias de frequência

rastreadas no sinal em uma única curva que apontava desvios de anação em relação

às suas principais componentes.

Na etapa seguinte, foram estudados métodos para corrigir os desvios a partir da

curva calculada na primeira etapa. Como mudanças na taxa de amostragem de um

sinal geram alterações na altura de frequência, a reamostragem foi escolhida como

forma de compensar os desvios observados. Foram então implementadas técnicas

de reamostragem por fatores reais e variantes no tempo, de modo a compensar

diferentes intensidades de desvios ao longo do sinal.

Para facilitar testes de desempenho e proporcionar uma melhor interação com

71

Page 83: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

um possível usuário interessado neste tema, foi implementada uma interface gráca

no software MatLab. Esta interação foi feita de forma a uma pessoa com algum

conhecimento técnico sobre o tema poder ter capacidade de observar e corrigir este

tipo de degradação.

Por m, foram mostrados resultados de alguns testes realizados, tanto com sinais

articialmente defeituosos, como com um que realmente sofreu desvios. Apesar

da complexidade do tema e da diculdade de implementação das ferramentas, os

resultados obtidos foram de certa forma satisfatórios, mas merecem mais tempo de

dedicação para a implementação de renamentos, os quais serão discutidos adiante.

Diculdades

Foram encontradas muitas diculdades ao longo da implementação das ferramentas

utilizadas neste projeto, que devem ser mencionadas.

Como cada sinal tem suas particularidades, a escolha dos parâmetros de análise

senoidal é uma tarefa árdua. Uma análise mal calibrada pode tanto rejeitar picos

importantes como deixar passar picos espúrios, assim comprometendo a extração da

curva de desvio.

Outra diculdade encontrada ocorreu durante a implementação da reamostragem

variante no tempo. Este tema envolve muitas sutilezas, como o desvio de fase entre

blocos, e a forma de lidar com a transição dos períodos de amostragem ao longo de

um bloco.

Tópicos de trabalhos futuros

O trabalho apresentado ainda precisa de muitos renamentos, que podem vir a ser

temas de trabalhos futuros:

• Por possuir uma abordagem totalmente determinística, é sugerida a imple-

mentação de métodos estatísticos para detecção e rastreamento de picos que,

combinados com os métodos aqui implementados, podem extrair curvas de

desvios mais éis;

72

Page 84: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

• A interface não interage com alguns tipos de desvios, como o caso em que

é desejável restaurar apenas um trecho especíco do sinal. Esta modicação

deixa a interface mais versátil para os diferentes tipos de desvios encontrados;

• Gravações antigas podem possuir muito ruído de fundo, o que prejudica a de-

tecção de desvios. É interessante uma modicação do projeto para se adequar

a este tipo de problema.

Considerações nais

O autor se esforçou ao máximo em deixar clara a descrição de todos os algoritmos

implementados, e espera que este texto seja de utilidade para aqueles interessados

neste tipo de restauração de áudio.

73

Page 85: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

Referências Bibliográcas

[1] SCHOENHERR, S. Recording Technology History. 2005.

http://www.aes.org/aeshc/docs/recording.technology.history/notes.html.

[2] GODSILL, S. J., RAYNER, P. J. W. Digital Audio Restoration. London, Sprin-

ger, 1998.

[3] BISCAINHO, L. W. P. Restauração Digital de Sinais de Áudio Provenientes de

Gravações Musicais Degradadas. Tese de D.Sc., COPPE/UFRJ, Rio de

Janeiro, RJ, Brasil, 2000.

[4] QUATIERI, T. F., MCAULAY, R. J. Audio Signal Processing Based on Si-

nusoidal Analysis/Synthesis. In: Kahrs, M., Brandenburg, K. (Eds.),

Applications of Digital Signal Processing to Audio and Acoustics, Kluwer,

cap. 8, Norwell, 2002.

[5] DINIZ, P. S. R., DA SILVA, E. A. B., NETTO, S. L. Digital Signal Processing:

System Analysis and Design. 2 ed. New York, Cambridge, 2010.

[6] ESQUEF, P. A. A., BISCAINHO, L. W. P. Spectral-Based Analysis and Synthe-

sis of Audio Signals. In: Pérez-Meana, H. M. (Ed.), Advances in Audio

and Speech Signal Processing: Technologies and Applications, Idea Group,

cap. 3, Hershey, 2007.

[7] NUNES, L. O., ESQUEF, P. A. A., BISCAINHO, L. W. P. Evaluation of

Threshold-Based Algorithms for Detection of Spectral Peaks in Audio,

Anais do 5o. Congresso de Engenharia de Áudio, pp. 6673, fevereiro

2007.

[8] SMITH, J., SERRA, X. PARSHL: An Analysis/Synthesis Program for non- Har-

monic Sounds Based on a Sinusoidal Representation. In: International

Computer Music Conference, pp. 290297, Champaign/Urbana, August

1987. ICMA.

[9] DE CARVALHO, L. F. V. Exemplos de sinais de áudio. 2015.

www.smt.ufrj.br/∼luis.carvalho/.

74

Page 86: Correção de desvios na velocidade de reprodução de ...monografias.poli.ufrj.br/monografias/monopoli10015201.pdf · A arte de combinar sons sempre conquistou e emocionou o ser

[10] CROCHIERE, R. E., RABINER, L. R. Multirate Digital Signal Processing.

Upper Saddle River, Prentice-Hall, 1983.

[11] DE CARVALHO, G. L. A. Variação de Velocidade, Tempo e Anação em

Gravações Musicais. Monograa de B.Sc., POLI/UFRJ, Rio de Janeiro,

2005.

75