Padrões de compactação de áudio

51
LUCAS FRANÇOLIN DA PAIXÃO GRR20062344 PADRÕES DE COMPACTAÇÃO DE ÁUDIO Monografia apresentada à disciplina HA 093 - Trabalho de Graduação II como requisito parcial à conclusão do Curso de Produção Sonora, Departamento de Artes, SCHLA, Universidade Federal do Paraná. Orientador: Prof. Dr. Hugo S. Melo Curitiba 2009

description

Esse trabalho abrange dois processos: compreender os principais formatos de áudio digital existentes e detalhar suas diferenças.Os formatos são categorizados em três tipos: Sem compactação, compactado sem perdas e compactado com perdas. São apresentados quatro métodos para estabelecer comparações entre os padrões. Vários testes foram aplicados confrontando codificadores MP3, os resultados foram gravados num CD anexo com inúmeros programas para experiências e os resultados em áudio e respectivos espectrogramas.Monografia escrita por Lucas F. Paixão e orientada por Dr. Hugo S. Melo

Transcript of Padrões de compactação de áudio

Page 1: Padrões de compactação de áudio

LUCAS FRANÇOLIN DA PAIXÃO GRR20062344

PADRÕES DE COMPACTAÇÃO DE ÁUDIO

Monografia apresentada à disciplina HA

093 - Trabalho de Graduação II como

requisito parcial à conclusão do Curso de

Produção Sonora, Departamento de

Artes, SCHLA, Universidade Federal do

Paraná.

Orientador: Prof. Dr. Hugo S. Melo

Curitiba 2009

Page 2: Padrões de compactação de áudio

ii

RESUMO

Esse trabalho abrange dois processos: compreender os principais formatos de

áudio digital existentes e detalhar suas diferenças. Para isso é explicado sinteticamente

como é feita a digitalização do sinal de áudio analógico através do padrão PCM. Os

formatos são categorizados em três tipos: Sem compactação, compactado sem perdas e

compactado com perdas. Por fim, são apresentados quatro métodos para estabelecer

comparações entre os padrões e exemplos escolhidos para este trabalho, alguns

resultados de aplicações dos métodos foram armazenados num CD-ROM anexo.

ABSTRACT

This monograph includes two processes: to understand the main existent digital

audio formats and detail the differences among them. It includes an explanation about

how analog audio is converted to digital using PCM. The digital formats are categorized

in three types: No compression, lossless compression and lossy compression. At last,

are presented four methods to determine a comparison among the standards and are

included examples of the comparisons. Some results of the methods are included in the

attached CD-ROM.

Page 3: Padrões de compactação de áudio

iii

SUMÁRIO

1. INTRODUÇÃO.................................................................................................................... 1

2. NOÇÕES DE SISTEMAS DIGITAIS ................................................................................. 6

2.1 Modulação por código de pulsos.............................................................................. 7

2.2 Quantização ............................................................................................................. 7

2.3 Taxa de amostragem ................................................................................................ 8

2.3.1 Teorema de Nyquist ..................................................................................... 9

2.3.2 Anti-aliasing ................................................................................................. 9

2.3.3 Jitter ............................................................................................................ 10

2.4 Conversores Analógico/Digital e Digital/Analógico ............................................. 11

2.5 Compactação de dados .......................................................................................... 12

2.5.1 Compactação de áudio com auxílio de codificação perceptiva.................. 14

3. FORMATOS DE ÁUDIO ................................................................................................. 17

3.1 Sem compactação ................................................................................................... 17

3.2 Compactação com perdas ...................................................................................... 18

3.3 Compactação sem perdas ...................................................................................... 20

4. CODIFICADORES E DECODIFICADORES .................................................................. 22

5. METODOLOGIA .............................................................................................................. 24

5.1 Processos de comparação ....................................................................................... 24

5.1.1 Verificação de bits ...................................................................................... 24

5.1.2 Verificação de artefatos.............................................................................. 25

5.1.3 Teste ABX .................................................................................................. 26

5.1.4 Análise de espectrogramas ......................................................................... 27

5.2 Fatores de influência............................................................................................... 30

5.2.1 Taxa de compactação.................................................................................. 30

5.2.2 Consumo de recursos do sistema................................................................ 30

5.3 Métodos de comparação ......................................................................................... 30

6. CONCLUSÃO ................................................................................................................... 33

7. REFERÊNCIAS ................................................................................................................. 45

7.1 Livros ..................................................................................................................... 45

7.2 Internet ................................................................................................................... 45

7.3 Periódicos .............................................................................................................. 45

8. ANEXOS ............................................................................................................................ 47

Page 4: Padrões de compactação de áudio

1. INTRODUÇÃO

O desenvolvimento de novas tecnologias para armazenamento de dados reduziu

o custo de armazenar informações digitais e a popularização dos computadores

viabilizou digitalizar inúmeras formas de informações: publicações em papel (que

abrangem jornais, revistas, livros, gráficos, gravuras, fotografia) e registros de sons e

imagens em movimento (por fotogramas e vídeo).

São vantagens de armazenar informações em formato digital:

• Redução do espaço físico (“bits ocupam menos espaço que átomos”)1;

• Menor custo;

• Maior duração do registro;

• Facilidade e rapidez em transmitir e copiar fielmente;

• Ausência de desgaste em sua manipulação.

São desvantagens em armazenar informações em formato digital:

• Possível perda de qualidade no processo de digitalização;

• Necessidade de fonte energética para acesso às informações;

• Maior dificuldade em controlar a pirataria (cópia ilegal de informações);

• Incompatibilidade entre formatos, mídias e equipamentos;

• Obsolescência das tecnologias.

A digitalização de grandes acervos foi bastante explorada na década de 1990 e o

volume armazenado aumenta conforme o custo em armazenar diminui e são

estabelecidos padrões de mídia (material físico para armazenar dados). As mídias mais

usadas para armazenar informações são: eletromagnéticas (fitas, disquetes e discos-

rígidos), ópticas (CD, DVD2 e Blu-Ray) e de “memórias flash”3 (chips de cartão e

aparelho celular, pen-drive e SSD)4. Conforme aumenta o uso padrão de tecnologias,

1 Adaptado, forma abstrata para comparar as diferentes naturezas físicas entre bits e átomos (NEGROPONTE, 1995, Cap. 1) 2 Acrônimos de Compact Disc e Digital Video Disc. (HOLMES, 2006, p. 55 – 56) 3 Memória de computador não volátil (não perde informações quando desligada) que pode ser apagada e reprogramada. 4 Chip termo informal para circuito integrado, pen-drive é o termo popular para dispositivo flash com barramento serial universal (USB) e SSD é acrônimo de Solid Stage Drive, dispositivo que possivelmente substituirá os discos rígidos em equipamentos portáteis devido a sua melhor eficiência energética e ausência de partes mecânicas móveis.

Page 5: Padrões de compactação de áudio

2

seu custo é barateado, a incompatibilidade entre formatos diminui e sua capacidade

aumenta. Novos formatos de armazenamento em circuito integrado estão diminuindo

muito o consumo de energia para acesso dos dados. Uma importante desvantagem é a

dificuldade em controlar a distribuição5 e verificar autenticidade das informações6.

É cada vez mais comum a geração de informações diretamente num padrão

digital que são transmitidas principalmente pela Internet. A Internet é o veículo de

comunicação que mais integrou diferentes padrões de informação digital, além de

possibilitar maior uso e tráfego de informações digitais. A geração de dados diretamente

em padrão digital começou principalmente para informações de texto, depois passou a

ser utilizada para gráficos, fotos, áudio e vídeo. Isso se deve ao fato de que armazenar

informações de texto consome muito menos bits que informações de áudio e vídeo.

No início da era de informações digitais, em particular com o advento do CD no

início da década de 19807, o alto consumo de bits para armazenar tais informações foi o

fator que inviabilizou o armazenamento das informações em código binário. O custo de

armazenamento digital de material fotográfico em alta resolução era demasiado caro em

comparação com impressão das fotos em papel de alta qualidade. No entanto, com a

popularização e adoção das novas tecnologias, o custo por bit diminuiu muito a ponto

de se tornar viável o registro de fotos diretamente em formato digital.

Juntamente com o barateamento dos bits, outro aspecto muito importante

viabilizou o aumento significativo na velocidade de adoção e uso das informações

digitais: a tecnologia de compactação de dados.

A compactação de dados está presente em diversas mídias. As imagens exibidas

em páginas da internet são em maioria nos formatos JPEG e GIF, modems usam

compactação, receptores de sinal digital de TV usam MPEG-2 e sites de

compartilhamento de vídeos usam vários padrões de compactação.

5 A dificuldade de controle de distribuição de arquivos digitais facilitou a prática de cópias e distribuição ilegal de material de propriedade autoral em redes como a Internet. 6 O fato de não haver uma forma confiável de verificar a autenticidade das informações digitais sem consulta ao autor é um dos motivos pelos quais as informações digitais ainda não são consideradas seguras como única forma de divulgação. 7 A referência ao início da década de 1980 também é realizada como “revolução de música digital” no período em que a distribuição de músicas em CD superou a de vinis. (FRIES, 2000, Cap. 1. HOLMES, 2006, p. 53)

Page 6: Padrões de compactação de áudio

3

Comprimir é diferente de compactar. Por exemplo, ao pressionar o êmbolo de

uma seringa vedada preenchida por ar, as moléculas de ar são amontoadas num menor

volume, o que podemos chamar de compressão do ar. A mesma quantidade de ar passou

a ocupar menos espaço.

Já a compactação implica em mudar os parâmetros de representação, para que os

dados originais possam ser representados por um número menor de informações, e que

possa ser revertido, fornecendo de volta a informação original. Na compactação de

dados digitais, pode ocorrer um grau variável de arredondamento de valores, o que

resulta em uma compactação ainda mais eficiente, mas com leve alteração nos dados,

que é a compactação com perdas. Pode-se perceber os efeitos arredondamento de

valores em compactação de imagens como na compressão de fotos em formato JPEG,

muito usada em câmeras digitais. No céu, por exemplo, centenas de diferentes tons de

azul podem ser aproximados para um número de menor de tons de azul, que dão mais

homogeneidade à imagem, assim como em fotos de pessoas em que o arredondamento

de valores pode homogeneizar tons de cores da pele, não representando com detalhes

imperfeições como veias, espinhas e pequenos pelos, “melhorando” seu aspecto final.

Esses são exemplos de artefatos de compactação com perdas que não prejudicam a

qualidade do produto final, podendo até ser considerados como efeitos desejados.8 Em

arquivos de áudio, até certo grau, a compactação pode não provocar efeitos perceptíveis.

A existência de artefatos no processo de compactação é evidência de uso de um

algoritmo que possibilita perdas de dados com intuito de aumentar intensidade da

compactação.9

Nesse trabalho de graduação o termo compactação é usado no lugar de

compressão para evitar ambiguidade com o processo de controle de dinâmica em áudio

conhecido como “compressão de áudio”. A compressão de dinâmica do áudio pode ter

relações indiretas com o tema “compactação de áudio” como efeito colateral

(artefato10).11

8 Existem filtros específicos para manipular imagens digitais e causar efeitos como ocultar imperfeições indesejadas. Nesse caso o processo é intencional e dirigido, e não um artefato causado por compressão de imagens. 9 No capítulo 2.3 estão categorizados os tipos de compactação de dados e no capítulo 3 são tratados os formatos de compactação de áudio. 10 O termo artefato designa ao resultado de imperfeição artificial. 11 O uso dos termos “compressão”, “compactação de áudio” está adaptado conforme o guia de tecnologia. (HOLMES, 2006, p. 55 – 56)

Page 7: Padrões de compactação de áudio

4

Foram desenvolvidos nos últimos 30 anos diversos padrões de compactação de

dados, cada padrão tem eficiências diferentes para cada determinado tipo de

informação. Existem algoritmos codificadores que podem ser aplicados a qualquer tipo

de informação e algoritmos restritos a informações armazenadas em formatos de

arquivos específicos. Os algoritmos de compactação específicos têm melhor eficiência

que os “genéricos”. Existem algoritmos específicos para diversos tipos de arquivos que

envolvem desde texto formatado até áudio e vídeo.

Uma informação compactada demanda menor capacidade de armazenamento,

mas requer a existência de um sistema capaz de decodificar a compactação de forma

que ele seja descompactado para que a informação possa ser utilizada. Pode-se

comparar a qualquer móvel, como uma cadeira que pode ser armazenada e transportada

ocupando pouco espaço físico ao ser empilhada, mas não pode ser utilizada antes de ser

desfeito o empilhamento. Assim como nos arquivos, a cadeira pode ser empilhada de

formas diferentes, sendo que uma pode ser mais eficaz que outras e também aplicável

ou não a outros móveis ou diferentes formatos de cadeiras. Cada diferente maneira de

empilhar objetos requer uma específica maneira de desfazer o empilhamento. Cada

diferente compactador de arquivos requer um descompactador compatível para acessar

os dados.

Assim como informações de áudio e vídeo são mais complexas que informações

de texto, a compactação dessas informações também é mais complexa. A quantidade de

informações requerida para armazenar áudio e imagens é muito maior que a quantidade

requerida para texto. A maior necessidade de espaço de armazenamento requereu

desenvolver tecnologias específicas para compactação de áudio e vídeo. Na verdade, as

primeiras pesquisas para compactação de áudio estavam atreladas à compactação de

vídeo com objetivo de alcançar um padrão para transmissão de sinal de áudio e vídeo

digitais para televisão com menor uso da banda de frequências.

As pesquisas resultaram em alguns padrões que puderam isolar informações de

áudio das de vídeo e permitiu que elas fossem utilizadas independentes uma da outras.

Foi assim que surgiu o formato MP312, formato que se tornou muito popular juntamente

12 MPEG Layer III. Desenvolvido por Instituto Fraunhofer. (ISO/IEC 11172-3, ISO/IEC 13818-3)

Page 8: Padrões de compactação de áudio

5

com o surgimento de aparelhos reprodutores desse formato como o iPod13. A adoção em

massa de arquivos de áudio compactados para armazenamento e audição de material

musical em aparelhos portáteis alterou substancialmente a relação do ouvinte e a música

abrangendo a maneira como é tocada, apreciada, organizada, distribuída e está a alterar

processos de produção musical desde sua composição até processos finais de pós-

produção que são pensados particularmente para a maior probabilidade em audição

específica para equipamentos portáteis e pequenos fones de ouvido em ambientes

ruidosos.14

Atualmente há inúmeros formatos e padrões diferentes para representar

informações de áudio em menos bits. São esses formatos e padrões que esse trabalho

busca comparar, estabelecer diferenças e orientar quanto a seu uso. Para tal serão

abordados sinteticamente alguns processos relacionados à digitalização de sinal de

áudio, as diferentes formas de compactação confrontando suas diferenças. É importante

salientar que nesse trabalho não são abordadas assuntos relacionados à representação

elétrica de sinal mecânico sonoro (áudio).

13 iPod é um reprodutor portátil de mídias de autoria da empresa Apple Inc. 14 A influência causada por reprodutores de música portáteis e disseminação de música pela Internet na maneira como as pessoas adquirem e ouvem música é também referenciada por vários autores. (KAHNEY, 2005, p. 5. MOSTERT; APOLZON, 2007 p. 144. FRIES, 2000, p. 9 - 40)

Page 9: Padrões de compactação de áudio

6

2. NOÇÕES DE SISTEMAS DIGITAIS

Todo e qualquer sistema digital entende apenas dois tipos de informação: 0 e 1.

Ele é chamado de sistema (ou código) binário. Para entender como esse sistema

funciona, a Tabela 1 compara representações em sistema binário e em sistema decimal:

Decimal Binário Decimal Binário 0 = 0 16 = 10000 1 = 1 32 = 100000 2 = 10 64 = 1000000 3 = 11 128 = 10000000 4 = 100 256 = 100000000 5 = 101 512 = 1000000000 6 = 110 1024 = 10000000000 7 = 111 2048 = 100000000000 8 = 1000 4096 = 1000000000000 9 1001 8192 = 10000000000000

10 = 1010 16384 = 100000000000000 11 = 1011 32768 = 1000000000000000 12 = 1100 65536 = 10000000000000000 13 = 1101 131072 = 100000000000000000 14 = 1110 262144 = 1000000000000000000 15 = 1111 524288 = 10000000000000000000

Tabela 1: Sistemas binário e decimal

Assim como o sistema decimal, o sistema binário agrupa números para

representar mais valores. Para representar 16 valores usamos 4 bits, para representar 256

usamos 8 bits e assim por diante conforme a lógica matemática 2n=V em que “2”

representa o uso dos bits 0 e 1, “n” representa a quantidade agrupada e “V” a quantidade

de valores. Nos equipamentos há diferentes tipos de agrupamentos, os mais usados são:

8, 16, 24, 32 e 64 bits. O número representa a quantidade de bits agrupada.

A primeira mídia fabricada em larga escala especificamente para o

armazenamento de música em formato digital foi o CD. Este formato representa o áudio

em um padrão de 16 bits, ou seja, pode representar até 65.536 valores por agrupamento.

A codificação do áudio armazenado no CD é feita através do processo PCM15. Esse

processo também é utilizado por outros padrões de mídia e diversos formatos de

arquivos de áudio.

15 Acrônimo em inglês Pulse Code Modulation. (HOLMES, 2006, p. 231)

Page 10: Padrões de compactação de áudio

7

2.1 Modulação por código de pulsos

A modulação por código de pulsos (PCM) é a maneira de representar o áudio em

informações digitais, a informação é amostrada em intervalos de tempo regulares. É

dessa forma que o áudio é representado em mídia como o CD16 e o DAT.

Em PCM o método de quantização é feito por tempo distinto e amplitude

distinta sem auxílio de memória, portanto não utiliza critérios de análise de dados para

representação.17

A representação do sinal é constante e independente do som a ser gravado, ou

seja, não importa se o som a ser representado possui grandes variações dinâmicas ou é

composto por formas de ondas bastante diferentes, a quantidade de informação será

sempre a mesma variando apenas de acordo com a quantidade de tempo registrado.

Em PCM a quantização do formato da onda é realizada de forma escalar, cada

amostra é quantizada individualmente, e não paramétrica, o sinal atual é quantizado

independente do sinal anterior e posterior.

2.2 Quantização

Figura 1: Representações gráfica e binária da amostragem e quantização

de sinal analógico em padrão PCM 4bits

A Figura 1 representa os processos de amostragem e quantização do sinal de

áudio num padrão PCM em 4 bits. O número da taxa de bits é o expoente sobre base 2.

Logo, um sistema de 4 bits possibilita 16 valores (representados de 0 até 15). Os valores

7, 9, 11, 12, 13, 14, 14, 15, 15, 15, etc representam a quantização do sinal contínuo,

16 Compact Disc (red book) e Digital Audio Tape.(HOLMES, 2006, p. 53 – 55 e p. 67 – 68) 17 São exemplos de quantizadores que utilizam memória: DPCM, DM e ADPCM. (SPANIAS, PAINTER, ATTI. 2007, p.51)

Page 11: Padrões de compactação de áudio

8

esses valores são convertidos para o código binário. Os números decimais estão

representados em binários agrupados em 4 bits. Verifica-se que mesmo que o valor

possa ser representado com apenas 1 bit (como os valores 0 ou 1) todos são

representados sempre com 4 bits. No entanto, 16 valores são insuficientes para desenhar

formas de ondas que se assemelhem com o sinal acústico.

Sistemas de 4 bits apenas são usados para produzir sinais sonoros tipicamente

eletrônicos como beeps. Sistemas de 8 bits possibilitam desenhar ondas mais

complexas, sintetizadores de 8 bits foram muito utilizados nos primeiros jogos

eletrônicos e em campainhas sofisticadas. Num sistema 16 bits são possíveis 65.536

valores, isso possibilita desenhar formas de onda bastante complexas e com isso

registrar satisfatoriamente material musical. Existem sistemas de 24 e 32 bits18 usados

utilizados no processo de digitalização do áudio para garantir melhor representação das

formas de ondas. Quanto maior a taxa de bits, maiores são as possibilidades de

representação dos sons e mais aproximada é a representação do sinal analógico em

digital.

O sinal quantizado juntamente com o sinal discreto formam o sinal digital que

representa o áudio.19

2.3 Taxa de amostragem

Figura 2: Exemplo de conversão de sinal contínuo para sinal discreto

Taxa de amostragem define o número de amostras que são registradas de um

sinal contínuo de áudio por segundo para gerar um sinal discreto. No padrão PCM a

taxa de amostragem é sempre fixa e independe do sinal contínuo a ser representado.

Mesmo que um som de baixa frequência possa ser representado com uma baixa

18 Sistemas 24 e 36 bits são capazes de representar respectivamente 16 milhões e 4,3 bilhões de valores. 19 WATKINSON, 1994b, p. 199

Page 12: Padrões de compactação de áudio

9

quantidade de amostras, o padrão PCM a representa de acordo com a configuração

determinada, o mesmo ocorre para sinais de alta frequência que passam a ser ignorados.

A Figura 2 apresenta um exemplo de amostragem com taxa fixa arbitrária de um

sinal contínuo para um sinal discreto. A taxa de amostragem é sempre medida em

amostras por segundo e representado em Hertz20. Caso o sinal contínuo possua espectro

frequecial acima da taxa de amostragem essas informações não são registradas

corretamente podendo até interferir no processo gerando falsas frequências.

2.3.1 Teorema de Nyquist21

O teorema de Nyquist é uma representação matemática que prova que a maior

frequência possível de ser representada em um sistema digital é a correspondente à

metade da taxa de amostragem. Qualquer frequência maior que a metade da taxa irá

provocar perda de ciclos, pois ciclos completos podem acabar sendo representados por

apenas um ponto, o que impediria sua recuperação na reconversão para analógico.

Pode-se entender o teorema como o valor da taxa de amostragem digital

necessária para obter um sinal sem distorções sendo a metade dessa frequência, todas as

frequências abaixo da metade da taxa de amostragem podem ser representadas. Esse

teorema é usado para determinar a frequência na qual os filtros analógicos devem cortar

antes de iniciar a amostragem do sinal de áudio.

2.3.2 Anti-aliasing22

No CD o sinal contínuo de áudio (analógico) passa por um circuito-filtro (low-

pass filter) que corta frequências mais altas que 20 kHz (frequência de Nyquist mais

10% de margem23) antes de ser codificado em digital. Essa é a maneira mais simples de

evitar que a energia dessas frequências interfira no processo de conversão do sinal

analógico para digital gerando falsas frequências. Essa técnica se chama anti-aliasing.

20 Unidade de medida em homenagem ao físico alemão Heinrich Rudolf Hertz (unidade também representada por Hz). 21 Explicação do teorema está suficientemente reduzida apenas para adequar as propostas desse trabalho. O teorema de Nyquist é composto por inúmeras operações algébricas aqui não mencionadas. 22 Conceituração conforme os autores. (WATKINSON, 1994b, p. 198-202. HOLMES, 2006, p. 5) 23 Atualmente a margem de corte de frequências em reprodutores de CD varia de acordo com o fabricante e tecnologia empregada.

Page 13: Padrões de compactação de áudio

10

O aliasing ocorre quando a taxa de amostragem é menor que o dobro da maior

frequência a ser registrada. Devido à impossibilidade de fabricar filtros analógicos

perfeitos, foram desenvolvidos também outros procedimentos usados em conjunto para

melhorar a técnica de anti-aliasing como oversampling24.

O efeito aliasing não é percebido apenas em áudio digital podendo ser

facilmente notado também em equipamentos de vídeo com câmeras ou monitores de

baixa resolução (baixa nitidez).

Figura 3: Exemplo de aliasing em equipamentos gráficos

A Figura 3 mostra um exemplo de aliasing gráfico em que a imagem à esquerda

teve sua resolução diminuída sem o uso de um filtro anti-aliasing, revelando a

existência do efeito.

2.3.3 Jitter25

Jitter é uma distorção causada pela instabilidade de um sinal sincronizador, ou

seja, os conversores de sinais digital para analógico e analógico para digital não

capturam amostras com exatamente a mesmo tempo como deveriam, então é gerada

uma distorção no sinal. Quanto mais instáveis são os conversores de sinal maior a

quantidade de Jitter do sistema.

Em vídeo podem ser percebidos pequenas flutuações e vibrações na imagem

causando irregularidades na exibição, normalmente são linhas horizontais tão finas

quanto as próprias linhas do monitor de vídeo ou da televisão.

24 Método utilizado para aumentar a amostragem acima da amostragem do teorema de Nyquist, isso permite que o sinal seja filtrado digitalmente ao invés de usar filtros como o low-pass analógico. O resultado é uma maneira mais efetiva de eliminar as frequências acima da faixa audível. (HOLMES, 2006, p. 220) 25 Representação resumida de Jitter conforme a conceituação dos autores. (WATKINSON, 1994b, p. 211-215. ZÖLZER, 2008, p. 80)

Page 14: Padrões de compactação de áudio

11

Figura 4: Gráfico mostrando a variação do Jitter conforme a amplitude

Em áudio a distorção gera ruído sempre em frequências mais altas e a relação de

amplitude (dinâmica) entre o sinal e o ruído é mais próxima quanto maior for a

frequência amostrada. Logo, equipamentos capazes de registrar e reproduzir altas

frequências com alta variação dinâmica necessitam ter conversores mais estáveis.

Existe uma forma de minimizar a incidência de Jitter na reprodução com um sistema de

correção de tempo com uso de RAM26. Esse sistema é capaz de corrigir a instabilidade

de geração de frequências do cristal27 rejeitando totalmente a incidência de Jitter.

2.4 Conversores Analógico/Digital e Digital/Analógico

Os conversores A/D e D/A são os circuitos responsáveis por transformar

informações digitais em analógicas e vice-versa. Basicamente o que um conversor

digital analógico faz é transformar tensão elétrica em números binários e o conversor

analógico digital realiza o processo contrário.

Um exemplo simples de A/D: Um conversor pode ser fabricado para trabalhar

com tensão elétrica variando de 0 a 5 volts e representar as variações em um sistema 8

bits (256 níveis) em que o valor 00000000 (nível 0) representará 0 volts e 11111111

26 Acrônimo de Random Acess Memory, memória volátil (perde informações ao ser desligada) de computador capaz de armazenar informações. 27 Componente eletrônico composto por uma lâmina de cristal comprimida com características piezoelétricas que tende a ressonar em determinada frequência. A frequência depende do material, dimensões e temperatura.

Page 15: Padrões de compactação de áudio

12

(nível 255) representará 5 volts, logo 2,5 volts será representado por 10000000 (nível

128) e assim por diante.

Os conversores podem ser calibrados para trabalhar com uma infinidade de

equipamentos. Os conversores são fundamentais para que as pessoas possam usar

computadores de uma forma mais intuitiva. Os computadores têm uma grande

quantidade de conversores A/D que conhecemos como câmera de vídeo, escâner, leitor

de impressão digital, sensores de temperatura e movimentos, entrada da placa de áudio,

entre outros. Conversores D/A também são conhecidos como monitores de vídeo,

impressoras, LEDs no painel e no teclado, bipes emitidos pela placa-mãe, saída da placa

de áudio, movimentos de um robô entre outros. Sem esses conversores o uso de

computadores só seria possível através de cartões perfurados, talvez o conversor mais

rústico existente.

Em áudio os conversores intermediam informações digitais (da maioria das

vezes codificada em PCM) para áudio analógico. A eficácia dos conversores interfere

diretamente na qualidade de gravação e reprodução do sinal de áudio.

2.5 Compactação de dados

A compactação de dados é um processo que codifica a informação usando

menos bits, em outras palavras, a informação é representada com menos dados. Esse

processo reduz o tamanho e economiza quantidade de informação digital. A

compactação de dados pode ser realizada com todo tipo de informação digital, sendo

mais eficiente em algumas do que outras.

Existem várias formas de diminuir a quantidade de dados ao registrar uma

informação. A maneira mais simples de compactação é representar dados redundantes

por códigos. Por exemplo: O valor 27,99999999 pode ser representado como 27,[8]9 ou

simplesmente como 28.

A primeira representação conta a quantidade de números repetidos e coloca o

valor entre colchetes (oito algarismos 9). A segunda representação simplesmente

considera que o valor é próximo de 28 e o arredonda. Vê-se que a primeira

representação contém exatamente o valor real, mas a segunda não, apenas o representa

de uma maneira aproximada. Ambos processos registram a informação com menos

dados. A diferença entre os processos é conhecida respectivamente como:

Page 16: Padrões de compactação de áudio

13

“compactação sem perdas” (lossless compression) e “compactação com perdas” (lossy

compression), sendo que o processo de decodificação da primeira informação revela a

informação idêntica a original e a segunda representa a informação original sem

preservar todos seus aspectos, mas a segunda é capaz de representar a informação com

menos dados que a primeira, pois seu algoritmo possibilita arredondar ou truncar alguns

valores.

É possível distinguir compactação sem perdas, pois esta permite reconstruir o

original de forma idêntica, já a compactação com perdas permite apenas reconstruir uma

aproximação do original. A compactação sem perdas é frequentemente usada em textos,

pois a perda de informações em texto pode comprometer demasiadamente seu conteúdo.

Compactação com perdas é frequentemente usada para transmissão de som e imagem

em meios de comunicação como a Internet.

É cada vez mais comum o armazenamento de gravações musicais em formatos

compactados. A facilidade em transmitir os arquivos pela Internet e a popularização do

formato MP3 tornou o formato padrão para transmissão de músicas via Internet. No

final da década passada surgiram alguns tocadores portáteis de música no formato MP3

e pouco depois, com o lançamento e sucesso do iPod, mais formatos de compactação de

áudio foram popularizados e também estabeleceu uma tendência de substituição dos

acervos de músicas em discotecas28 para discos rígidos em formatos compactados.29

É importante referir que várias empresas desenvolviam seus próprios padrões e

algoritmos de codificação perceptivo de áudio como Philips, AT&T, Lucent, Dolby e

Sony. Alguns formatos foram desenvolvidos juntamente com um novo padrão de mídia.

O ATRAC, por exemplo, foi lançado em 1992 juntamente com a mídia MD.30 No

entanto essa mídia não se popularizou tanto como o CD obtendo sucesso principalmente

no Japão. O ATRAC ainda existe e continua em desenvolvimento.

28 O termo discoteca aqui se refere ao acervo de gravações em discos . 29 Desenvolvimento do MP3 a partir da década de 1980. Lançamento do IPOD em Setembro de 2001. MP3 como padrão para músicas na Internet e datas de desenvolvimento e comercialização de novas tecnologias conforme as referências. (SPANIAS, PAINTER, ATTI. 2007) 30 ATRAC (Adaptive Transform Acoustic Coding) e MD (MiniDisc) são marcas em desenvolvimento e de propriedade de Sony Corporation. ATRAC é um formato de compactação de áudio com perdas.

Page 17: Padrões de compactação de áudio

14

Figura 5: Esquema simplificado do processo de codificação e decodificação

A saída de compactação de áudio é chamada de corrente elementar e ainda é

informação binária, mas não um sinal PCM, portanto não pode ser encaminhada a um

conversor digital analógico de áudio. A informação precisa antes ser decodificada para

um sinal PCM para então alimentar o conversor. Os processos de codificação e

decodificação utilizam recursos de sistema.

2.5.1 Compactação de áudio com auxílio de codificação perceptiva

As codificações perceptivas de áudio usam algoritmos com modelos criados de

acordo com estudos psicoacústicos. A finalidade desses algoritmos criados a partir de

estudos psicoacústicos é ignorar apenas informações potencialmente não perceptíveis

pela audição humana.

All audio data reduction relies on an understanding of the hearing mechanism and so is a form of perceptual coding. The ear is only able to extract a certain proportion of the information in given sound. This could be called the perceptual entropy, and all additional sound is redundant. An ideal system would remove all redundancy, leaving only the entropy; thus there is a limit to the degree of data reduction which can be achieved even with an ideal coder.

(WATKINSON, 1994a, p. 131)

De acordo com Watkinson, a codificação perceptiva faz uso da limitação da

capacidade humana de audição. Nosso sistema auditivo é capaz de extrair apenas uma

parte das informações dos sons e a essa informação selecionada o autor chama de

entropia31. Portanto, a codificação de áudio pode ignorar informações redundantes de

31 No que se refere a uma informação particular, mensagem ou linguagem.

Page 18: Padrões de compactação de áudio

15

modo a aumentar a proporção de compactação sem causar diferenças perceptivas desde

que não realize perdas de dados em informações de entropia.

Um dos fenômenos psicoacústicos mais utilizados por codificadores perceptivos

é o “mascaramento”. O mascaramento consiste na habilidade que um som tem de

impedir a percepção de outros. O efeito de mascaramento é influenciado por quatro

elementos: tempo, frequência, nível e natureza do som.

Figura 6: Gráfico ilustrativo do efeito de mascaramento espectral

O mascaramento espectral ocorre quando um som de grande nível torna

inaudíveis sons de níveis mais baixos de frequências vizinhas. A Figura 6 representa um

gráfico em que a frequência com maior nível (500 Hz) cria o efeito de mascaramento

nas 3 frequências de menor valor assinaladas. O espectro frequencial inaudível está

representado na área interna ao triângulo gerado pela linha que limita o efeito de

mascaramento e a base. Nota-se que o efeito possui maior coeficiente nas frequências

mais próximas.

Há também o mascaramento temporal que ocorre quando um som torna

inaudíveis momentos imediatamente anteriores e posteriores a ele. O mascaramento de

sons posteriores dura cerca de 50 a 200 milisegundos e o mascaramento anterior dura

cerca de um décimo da duração posterior.32

32 SOLARI, 1997

Page 19: Padrões de compactação de áudio

16

At each layer, MPEG Audio coding allows input sampling rates of 32, 44.1 and 48 kHz and supports output bit rates of 32, 48, 56, 64, 96, 112, 128, 192, 256 and 384 kbits/s. The transmission can be mono, dual-channel (e.g. bilingual), or stereo. Another possibility is the use of joint stereo mode in which the audio becomes mono above a certain frequency. This allows a lower bit rate with the obvious penalty of reduced stereo fidelity.

(WATKINSON, 1994b, p. 303)

Outro aspecto psicoacústico muito utilizado por codificação perceptiva está

relacionado ao efeito estereofônico. Nos momentos em que o sinal chega aos ouvidos

alinhados com o mesmo valor de amplitude e mesma fase nossa audição percebe o som

como vindo de um fonte posicionada em algum ponto equidistante de nossos ouvidos

(central). Nessa caso não há necessidade de representar independentemente o sinal em

cada canal.

Vários formatos utilizam essa habilidade para compactação com diferentes

nomes terminologias e técnicas, no caso dos formatos AAC, FLAC, MP3 e Vorbis o

termo usado é “Joint stereo”. Os codificadores seguem padrões diferentes para

aplicação desta técnica, alguns possibilitam configurar manualmente o modo Joint

stereo com técnicas chamadas de MS e LR.

Page 20: Padrões de compactação de áudio

17

3. FORMATOS DE ÁUDIO

Podemos categorizar didaticamente em três os formatos de áudio atualmente

existentes: sem compactação, com compactação com perdas e com compactação sem

perdas.

3.1 Sem compactação

Na época em que foram criados os primeiros formatos de áudio digital as

limitações da tecnologia inviabilizavam qualquer forma de compactação do áudio.

Portanto, foram desenvolvidos primeiro formatos de áudio desprovidos de algoritmos

compactadores. Diversos padrões e formatos de áudio digital foram desenvolvidos com

tecnologias diferentes. Alguns deles ainda são encontrados, mas são cada vez menos

utilizados, como o SD233 e AU34. Os formatos WAVE35 e AIFF36 foram estabelecidos

em meados da década de 1980 e são os formatos mais comumente usados para gravação

e armazenamento de áudio sem compactação.

Esses formatos são usados por profissionais que editam e processam áudio, pois

esses usam o mínimo de recursos do computador para serem acessados, em

contrapartida ocupam bastante espaço. O espaço a ser ocupado por um formato de áudio

não comprimido depende diretamente de quatro fatores: número de canais, taxa de

amostragem (Hz), agrupamento de bits e duração. A multiplicação dos três fatores

sempre resultará no tamanho em bytes do arquivo.

Ambos formatos WAVE e AIFF codificam o áudio em PCM por padrão.37 Mas,

suas codificações são diferentes, devido a isso possuem algumas diferenças. O formato

WAVE é capaz de representar áudio em PCM em diferentes configurações de taxa de

amostragem e quantização que o AIFF, mas o WAVE possui limitação de tamanho

atrelado ao seu integrador de 32 bits que AIFF não tem.

33 Sound Design 2, autoria de Digidesign 34 Audio Unit, autoria de Sun Microsystems 35 Resource Interchange File Format, autoria de Microsoft e IBM 36 Audio Interchange File Format, autoria de Apple e Electronic Arts 37 Existem formatos AIFF e WAVE compactados (normalmente mencionados como AIFC e WAVPACK)

Page 21: Padrões de compactação de áudio

18

Os formatos WAVE e AIFF não podem conter informações de metadados38, ou

seja, informações que descrevem o arquivo e não são áudio. Para suprir essa

necessidade foi criado o BWF (Broadcast Wave Format, European Broadcasting

Union) que é uma extensão do formato WAVE que pode conter informações de

metadados. BWF é compatível com os decodificadores WAVE padrão.

3.2 Com compactação com perdas

Os primeiros formatos de compactação específica de áudio criados utilizam

algoritmos que arredondam ou truncam valores específicos conforme a codificação

perceptiva já explanada no capítulo 2.5.1. A esse tipo de processo é dado o nome de

compactação de áudio com perdas.

A compactação de áudio tornou-se bastante comum com a comercialização de

pequenos dispositivos eletrônicos capazes de reproduzir músicas armazenadas em áudio

compactado (principalmente em formato MP3). Outro fator que contribuiu foram as

redes gratuitas de compartilhamento de arquivos na Internet. Os dois motivos que

popularizaram formatos de compactação de áudio estão extremamente atrelados ao

surgimento do MP3:

• Distribuição livre via Internet. O MP3 foi o primeiro padrão de áudio

comprimido distribuído transmitido de forma gratuita pela Internet

(iniciada na “era Napster”)

• Permitiu a existência de um novo segmento de tocadores de música

portáteis, os tocadores de MP3 são fabricados por diversas empresas

desde o lançamento do primeiro chip capaz de decodificar MP3 criado

pela empresa alemã Intermetall Micronas.39

A popularização do formato MP3 fez com que várias empresas licenciassem as

tecnologias de codificação e decodificação do Instituto Fraunhofer para uso em

produtos como telefones celulares, tocadores de música portáteis, aparelhos domésticos

e aparelhos para automóveis.

38 Os metadados podem conter nome da música, do compositor, dos músicos participantes, número da faixa, título do álbum, letra da música, informações sobre direito de cópia e até foto ou arte do álbum. 39 A criação do primeiro chip decodificador de MP3 foi liderada pelo engenheiro alemão Otto Witte. (Fraunhofer Magazine 2.2000 p. 22 - 25 e 39)

Page 22: Padrões de compactação de áudio

19

O lançamento do Ipod é considerado por muitos40 como o aparelho mais

responsável pela difusão de música em formatos de compactação de áudio.

Na década de 1980 o Moving Picture Experts Group (MPEG) era formado

principalmente por engenheiros do instituto Fraunhofer (Alemanha), laboratórios

AT&T-Bell e Thomson (Estados Unidos) com interesse comum em criar um padrão de

compressão eficaz para transmissão de sinal digital de áudio e vídeo. A necessidade de

desenvolver compressão de dados foi necessária porque a largura de banda para tráfego

de dados era limitada e incapaz de trafegar o fluxo de informações de áudio e vídeo não

comprimidos em tempo real.

A compactação conseguida na camada 3 de áudio do formato MPEG-1

desenvolveu-se satisfatoriamente, pois possibilitou uma grande variedade de

amostragens e taxas de transmissão. Esse padrão é capaz de diminuir de 4 a 40 vezes o

tamanho original, sempre usando compactação com perdas de dados. Logo, essa camada

de áudio foi isolada num arquivo que se tornou conhecido como MP3.

Os formatos de áudio com compactação com perdas de dados usam critérios

psicoacústicos para minimizar a distorção audível. Em compactação de dados e em

psicoacústica é dado o termo transparência ao resultado ideal de compactação de dados

com perdas. Ou seja, caso o som da compactação com perdas seja perceptivamente

indistinguível comparado ao som original, então a compactação tem resultado ideal e é

considerada transparente.

É importante lembrar que qualquer processo de digitalização de sinal de áudio

já contém perdas de espectro sonoro por natureza, ou seja, nenhuma gravação de áudio

digital é perfeitamente fiel à sua fonte sonora.

Apesar do formato MP3 possuir um algoritmo de decodificação padronizado,

não há algoritmo definido para codificação. Isso possibilitou a existência de vários

codificadores MP3 com algoritmos e qualidades diferentes. LAME, FhG41, Xing. A

Mesmo se tratando apenas do formato MP3, existem diversos codificadores

diferentes que realizam com mesmas configurações, mas por diferentes algoritmos que

resultam em diferentes tamanhos de arquivos MP3 e com sonoridades distintas.

40 KAHNEY, 2005 41 FhG é o acrônimo registrado do codificador de propriedade do Instituto Fraunhofer.

Page 23: Padrões de compactação de áudio

20

Assim como o MP3 existem inúmeros outros formatos de compactação sem

perdas em uso, poucos criados antes e muitos após o sucesso do MP3, sendo uma

continuação do grupo MPEG (como o AAC42 e Musepack) ou por outros grupos (como

ATRAC, Dolby AC-3, OGG e WMA).

3.3 Com compactação sem perdas

A compactação de dados sem perdas representa informação de um modo a

utilizar menor quantidade de dados desde que seu processo de descompactação revele a

informação inicial de forma idêntica. Nessas condições os algoritmos que trabalham as

informações não causam arredondamentos de valores, toda a informação inicial pode ser

reconstituída integralmente.

Os formatos de compactação de áudio sem perdas são de desenvolvimento mais

recente, pois ao contrário dos formatos de compactação com perdas que objetivaram

inicialmente a transmissão em tempo real de áudio, sua principal finalidade é gerar

formas de diminuir a quantidade de informação de áudio preservando todas as

informações originais. As instruções para realizar esse trabalho são mais específicas e

complexas de realização.

A informação compactada não é reconhecida como a informação original sem

antes ser decodificada para seu formato original. Tanto os processos de codificação e

decodificação utilizam recursos do sistema.43

Os formatos de compactação de áudio sem perdas foram idealizados tanto para

serem usados como um formato de arquivamento de áudio como para padrões de

transmissão específicos que precisem manter intactas todo o conteúdo sem perda de

qualidade. Transmitir áudio compactado sem perdas é bastante útil para interligação de

estúdios de gravação possibilitando desde envio transferência de arquivos gravados

previamente como realizar gravações em tempo real a distância.44

42 AAC é acrônimo de Advanced Audio Coding. Um formato compactado com perdas de áudio parte do família de padrões MPEG-2 (ISO/IEC 13818-7 e HOLMES, 2006, p. 4). 43 Mais informações sobre os processos de codificação e decodificação são encontrados no capítulo 4. 44 Sistema de transmissão de áudio multicanal via Internet para gravação disponível pelo software Source-connect (http://www.sourceelements.com)

Page 24: Padrões de compactação de áudio

21

Em 1965, Gordon Moore, que mais tarde fundou a Intel45 ao lado de Bob Noyce, previu que a capacidade de um chip de computador dobraria anualmente. (...) Até hoje46 as previsões para os chips se mantiveram e a média – uma duplicação a cada dois dezoito meses – é chamada, entre os engenheiros, de Lei de Moore.

(GATES, 1995, p. 48)

Devido ao crescente aumento da capacidade de processamento dos dispositivos

(e barateamento consequente), a tendência será que todo tipo de produto final contendo

áudio digital passe a adotar algum formato de compactação sem perdas. No entanto,

equipamentos reprodutores de mídia portáteis só poderão reproduzir os formatos se o

dispositivo o reconhece como áudio, para que isso seja possível é necessário que os

fabricantes desses equipamentos introduzam componentes e conjunto de informações

capazes de decodificar em tempo os formatos compactados específicos. Do contrário,

para serem reproduzidos no equipamento haverá necessidade de um computador capaz

de converter os formatos.

Devido ao recente desenvolvimento de formatos de compactação de áudio sem

perdas não foram encontradas bibliografias que tratem especificamente desse segmento,

mas há uma vasta quantidade de informações na Internet que o populariza. No site

Hydrogenaudio.org há um wiki47 com grande acervo sobre esses novos formatos. Foi

mencionado que um dos mais antigos formatos de compactação de áudio sem perdas e o

primeiro a se tornar popular é o SHORTEN.

A partir de então passaram a ser desenvolvidos paralelamente muitos outros

formatos. No wiki, até o fechamento dessa versão de monografia, foram catalogados e

comparados os 14 formatos a seguir: ALAC, FLAC, LA, LPAC, MONKEY’S, MPEG-

4 ALS, MPEG-4 SLS, OPTIMFROG, REAL LOSSLESS, SHORTEN, TAK, TTA,

WAVPACK, WMA LOSSLESS. Estão disponibilizadas várias tabelas comparativas no

anexo deste trabalho.

45 Empresa fabricante de circuitos integrados e processadores mais presentes nos computadores até hoje. 46 A “lei de Moore” não é mais verdadeira a partir de meados da década de 2000, pois a capacidade dos chips de computador alcançou um nível complicado de ser aumentado devido a limitações diversas. Hoje os chips continuam a ser melhorados, mas não seguem as previsões de Moore. 47 Wiki (ou Wikiweb) é um modelo de página da Internet que possui um sistema capaz de ser atualizado coletivamente pelos usuários, assim como a enciclopédia Wikipédia. No entanto, o modelo wiki passou a ser adotada por vários outros sites especializados (principalmente por programadores de software) com fim de tornar mais fácil o uso da Internet desse sistema para desenvolver um banco de informações dinâmico sobre pesquisas em andamento principalmente na área da informática e tecnologia. (http://wiki.hydrogenaudio.org/)

Page 25: Padrões de compactação de áudio

22

4. CODIFICADORES E DECODIFICADORES

Qualquer arquivo de mídia precisa de um conjunto de informações capaz de

reconhecer sua estrutura e informar ao sistema como o arquivo deve ser acessado e

processado. A esse conjunto de informações é dado o nome de “decodificador”.

Para registrar qualquer arquivo de mídia é necessário um conjunto de

informações que estabelece a maneira como os dados irão compor o arquivo. A esse

conjunto de informações é dado o nome de “codificador”.

Pode-se compreender que os codificadores e decodificadores são interpretadores

de informações. Num formato compactado a compactação e descompactação compõem

os processos de codificação e decodificação do formato. Portanto, num formato

compactado seus codificadores e decodificadores são mais complexos que num formato

não compactado. A complexidade do processo é proporcional ao consumo de recursos

do sistema.

A cada formato os processos de codificação e decodificação são diferentes e

podem ou não ser compatíveis. Em alguns formatos a proporção de complexidade entre

codificação e decodificação são diferentes, de forma que a maioria dos formatos são de

grande complexidade para sua codificação, mas a complexidade de decodificação é

menor, o que garante que o material pode ser reproduzido em diversos sistemas de

poucos recursos, mas exige que o sistema a codificar do formato possua grande

quantidade de recursos para ser realizado em tempo real.

A codificação para padrões compactados é mais complexa que para padrões sem

compactação. Nem todos os sistemas capazes de codificar áudio em tempo real em

formatos sem compactação são capazes de fazê-lo em formatos compactados. Nesses

sistemas é necessário realizar primeiro a codificação em um formato sem compactação

para depois recodificá-lo em um formato compactado.

Existem formatos de compactação de áudio específicos para codificação de voz

que não foram abordados nesse trabalho. A existência desses formatos possibilita que

equipamentos portáteis de poucos recursos de sistema sejam capazes de realizar a

gravação de voz diretamente em formato compactado. Os gravadores digitais portáteis

de baixa qualidade são muito utilizados por profissionais como jornalistas.

Page 26: Padrões de compactação de áudio

23

Pode-se adquirir, ou baixar gratuitamente via Internet, pacotes contendo

codificadores e decodificadores conhecidos por codecs (codificador/decodificador).

Como já foi mencionado no capítulo 3.2, podem existir diversos codificadores para um

mesmo formato.

Existem testes comparativos entre decodificadores de um mesmo formato e

também de diferentes formatos. Em busca de melhorar sua eficiência os decodificadores

existentes continuam em desenvolvimento, mesmo dentre os formatos antigos como o

MP3. A existência de vários decodificadores de um mesmo formato e a continuidade de

seu desenvolvimento dificultam estabelecer comparações de eficiência entre diversos

formatos.

Neste trabalho de graduação foram realizados vários testes com os codificadores

de MP3 LAME e Fhg. Um outro codificador do formato MP3 chamado Xing, de

desenvolvimento já descontinuado, tinha a virtude de codificar mais rapidamente e

usava menos recursos de sistema, mas gerava arquivos MP3 com qualidade inferior,

com mais perdas que os outros de modo que não era adequado para compactar

músicas.48

48 De acordo com vários fóruns (http://wiki.hydrogenaudio.org/index.php?title=Xing)

Page 27: Padrões de compactação de áudio

24

5. METODOLOGIA

Um dos propósitos deste trabalho é comparar diferentes tipos de compactação de

áudio com e sem perdas, estabelecendo critérios de comparação e verificar as diferenças

entre cada padrão comparado.

Basicamente serão comparados formatos de áudio de duas categorias:

compactados com e sem perdas. Dessa forma a comparação deve ser realizada

distintamente de acordo com sua categoria, os formatos compactados com perdas

seguirão uma metodologia diferente dos formatos sem perdas.

Nos formatos sem perdas a comparação pode ser realizada entre a taxa de

redução e uso dos recursos do computador no processo de escrita e leitura. Nos

formatos com perdas é necessário mensurar a quantidade de perdas do formato e

comparar sua redução de tamanho, também pode ser verificado o uso de recursos do

computador.

Além dessas, pode-se verificar a compatibilidade dos formatos com dispositivos

de reprodução sonora. Os fabricantes de equipamentos projetam equipamentos contendo

um circuito capaz de ler e reproduzir arquivos de áudio comprimidos diretamente da

mídia sem a necessidade de um computador para convertê-lo. Normalmente, mesmo

que existam formatos considerados melhores49, os fabricantes desenvolvem

equipamentos compatíveis com os formatos mais popularmente utilizados.

5.1 Processos de comparação

Foram estabelecidos quatro processos para comparação de formatos de áudio

compactados e sem compactação.

5.1.1 Verificação de bits

Existem programas de computadores capazes de comparar dois arquivos e

revelar se há e quais são as diferenças. Essa forma basicamente detecta, bit por bit, se os

arquivos comparados são idênticos, e se não forem apresentam suas diferenças, essa

49 O uso do termo “melhores formatos” considera os que possuem maior redução de tamanho, menor uso de recursos do sistema e menor perda de informações (aplicável a formatos com perdas).

Page 28: Padrões de compactação de áudio

25

técnica é útil para provar cientificamente que o formato de compactação sem perdas é

realmente eficaz.

A verificação mais simples é observar se o áudio apresenta exatamente o mesmo

tamanho inicial ao ser compactado e descompactado pelo formato em questão. Caso

apresente alguma diferença de tamanho em bits o formato necessariamente o modificou

e isso o tira da categoria de formato de sem perdas.

Mesmo apresentando o mesmo tamanho em bits os processos de codificação e

decodificação podem ter alterado alguma informação. Pode-se verificar se o arquivo

final é idêntico ao original usando software de comparação binária50, esse método

compara os arquivos bit por bit e mostra se há diferenças. Caso sejam encontradas

diferenças o processo de codificação e decodificação alterou o conteúdo do arquivo.

Existem programas que comparam especificamente o conteúdo PCM de vários

formatos de áudio como o software gratuito “libsndfile”51.

Esse software é capaz de comparar o conteúdo PCM dos seguintes formatos:

AIF, AIFC, CAF, FLAC, HTK, MAT4, MAT5, PAF, PVF, RAW, SD2, SF, SND,

SVX, VOC, W64 e WAV. A comparação do conteúdo PCM é útil e bastante direta, pois

permite comparar diretamente o formato original e compactado. “libsndfile” não possui

interface gráfica e opera somente em modo de comando.

5.1.2 Verificação de artefatos

Esse processo é capaz de verificar acusticamente a existência de resíduos

artificiais (artefatos) no som de forma acústica e também verificar a quantidade de nível

desses artefatos. Nesse método um dos sinais do áudio tem sua fase invertida e depois

somada com o outro áudio. É necessário que os arquivos de áudio possuam exatamente

a mesma duração e que o som esteja perfeitamente alinhado.

Caso os arquivos possuam exatamente a mesma informação de áudio deverá

obter-se um sinal nulo. Se houver qualquer sinal nessas circunstâncias ele é um resíduo

50 Há comandos que realizam comparação binária que são partes de sistemas operacionais como o “fc” que é parte dos sistemas Microsoft Windows NT, os comandos “diff” e “cmp” são parte dos sistemas operacionais UNIX/Linux. Para sistemas Apple MacOS não há comandos de comparação incluídos, mas podem ser utilizados softwares compiláveis em OSX como o “KDiff”, software livre (GNU/GPL) de autoria de Joachim Eibl. (http://kdiff3.sourceforge.net/) 51 libsndfile é software livre registrado sob GNU/LGPL pelo programador Australiano Erik de Castro Lopo. (http://www.mega-nerd.com/libsndfile/)

Page 29: Padrões de compactação de áudio

26

artificial. Quanto maior o nível desse resíduo mais diferentes são os sinais de áudio

entre os dois arquivos.

5.1.3 Teste ABX52

Forma subjetiva de teste que utiliza um método que compara dois estímulos

sensoriais para identificar se há diferenças detectáveis. Pode ser utilizado para comparar

dois registros sonoros como arquivos de áudio. O teste compreende em escutar os dois

sons em momentos distintos sendo que o ouvinte não é informado sobre a ordem de

execução, o ouvinte identifica então se há diferença entre os dois sons.

O uso desse método pode ser aplicado para comparar auditivamente o som

gerado pelo áudio original e o compactado com perdas e permite que pessoas

identifiquem se há diferenças. No entanto, esse tipo de experiência implica em inúmeros

fatores que influenciam o teste: a qualidade do decodificador de áudio, conversor digital

para analógico, pré-amplificador, amplificador de potência, conectores e cabos de som,

fones-de-ouvido (ou alto-falantes e acústica do ambiente).

Outros fatores subjetivos podem influenciar negativamente o teste. É possível

que o ouvinte identifique diferenças nos sons mesmo que os dois sons usados no teste

sejam o mesmo. Logo, é recomendado que o teste seja realizado no mínimo 10 vezes e

no máximo 25 vezes por cada ouvinte. O número mínimo de acertos no teste deve ser

igual ou superior a 95% para que os resultados sejam considerados estatisticamente

significantes53.

Todo cuidado que evita possíveis interferências no som deve ser atendido. Para

que o equipamento não interfira na comparação durante as audições é preciso usar

sempre as mesmas configurações e se faz necessário uso de equipamentos referenciados

com alta qualidade e resposta linear para possibilitar reprodução nítida de detalhes. O

ambiente em que o teste é realizado precisa ser acusticamente isolado e de reverberação

adequada para audição de material musical.

52 Também conhecido como “teste cego”. 53 A Estatística usa níveis de significância para garantir que o resultado não aconteça por acaso, a significância de um teste é a probabilidade máxima de rejeitar acidentalmente uma hipótese nula.

Page 30: Padrões de compactação de áudio

27

Existem programas de computador que escritos para aplicar o teste ABX. A

existência desses programas permite que uma pessoa sozinha possa efetuar o teste

intermediado pelo computador.54

5.1.4 Análise de espectrogramas

Pode-se gerar uma imagem de espectrogramas de um arquivo de áudio para

mensurar quais as frequências existentes no formato sem a necessidade de reproduzi-las.

Com essa análise é possível determinar graficamente a quantidade de perdas

comparando arquivos originais com os formatos comprimidos com perdas.

O espectrograma representa a quantidade de energia do áudio num gráfico com

eixos vertical em frequências (função logarítmica) e horizontal em tempo (função

linear).

Figura 7: Espectrograma de arpejo de duas oitavas em Dó maior

As áreas com cores55 mais intensas representam concentrações de energia. Na

Figura 7 (aqui resumida em escala cinza) é possível verificar graficamente as notas do

arpejo tocado por um sintetizador analógico de onda senoidal. É possível também

verificar energia em frequências superiores, são harmônicos gerados pelo amplificador e

alto-falante do sintetizador.

O processo que representa áudio em gráfico depende do algoritmo Fast Fourier

Transform. O FFT é uma forma mais rápida de calcular a Discrete Fourier Transform

na qual é necessária para obter as funções matemáticas do gráfico do espectrograma.

54 Exemplos de softwares para aplicação do teste ABX: ABX comparator (foobar plug-in), LinABX, MacABX, PCABX e WinABX. 55 Os espectrogramas fazem uso de mais cores (e também de legenda) para detalhar melhor as variações de intensidade de energia, as cores estão mantidas nos espectrogramas contidos no CD-ROM em anexo a esse trabalho.

Page 31: Padrões de compactação de áudio

28

Existem diversos softwares que possibilitam gerar espectrogramas:

• Há um plug-in embutido no “foobar2000” que gera espectrograma em

tempo real (conforme a música é reproduzida) e com resolução

configurável, mas não fornece a possibilidade de salvar o gráfico;56

• O software “Spectro”57 gera um espectrograma com resolução limitada,

mas gera também um gráfico adicional “intensidade x frequências” e

dados relevantes sobre o formato, é possível salvar o gráfico facilmente;

• A coleção de softwares “sndfile-tools”58 contém “sndfile-spectrogram”

que é capaz de gerar espectrogramas com qualquer resolução e salvá-lo.

É possível gerar espectrogramas de altíssima resolução para análise

detalhada. Este software não possui interface gráfica e opera somente em

modo de comando, é necessário um outro software para visualização do

gráfico.

Normalmente quando um formato de compactação possui perdas verifica-se que

a intensidade de nível em frequências mais altas é diminuída ou cortada. O corte ou

diminuição de nível em frequências altas é comum entre os diferentes formatos com

perdas em baixas resoluções.

56 foobar2000 é gratuito e compatível com sistemas NT. É possível gerar espectrogramas de qualquer formato de áudio compatível com foobar2000. (http://www.foobar2000.org/) 57 Spectro é compatível com sistemas NT. Na versão 1.0.93 é possível gerar espectrogramas de resolução limitada a partir dos formatos: APE, FLAC, MP3 e WAV. (http://spectro.enpts.com/) 58 sndfile-tools é software livre registrado sob GNU LGPL pelo programador Australiano Erik de Castro Lopo Esse pacote de softwares é de fácil compilação na maioria dos sistemas UNIX e LINUX (bem como Mac OSX) e pode ser portado para sistemas NT. (http://www.mega-nerd.com/libsndfile/tools/)

Page 32: Padrões de compactação de áudio

29

Figura 8: Gráfico do limiar absoluto de audição de um jovem no silêncio59

A Figura 8 mostra o limiar absoluto de audição humana de um jovem num

ambiente livre de ruídos. Este limiar absoluto está associado ao estímulo de um tom

puro. Pode-se perceber um grande aclive no gráfico a partir de frequências próximas a

10 kHz. É possível verificar que sons em frequências próximas a 20 kHz necessitam de

muito mais energia para serem percebidas.

As altas frequências requerem maior quantidade de informações para serem

representadas em comparação com frequências mais baixas.

Estudos da anatomia da audição humana revelam que é necessário grande

energia para perceber sons acima de 15 kHz, mostram ainda que apenas uma pequena

parte da população percebe sons próximos a 20 kHz e que também existe uma perda

natural de audição dos sons em altas frequências principalmente para homens. Além

disso, a maior parte dos sistemas de som comumente utilizados em computadores,

automóveis e aparelhos portáteis são incapazes de reproduzir frequências próximas de

20 kHz.

59 Gráfico adaptado (SPANIAS; PAINTER; ATTI, figura 5.1 p. 114)

Page 33: Padrões de compactação de áudio

30

5.2 Fatores de influência

Os fatores que influenciam o uso dos formatos de compactação de dados são:

taxa de compactação e consumo de recursos do sistema.

5.2.1 Taxa de compactação

Um dos aspectos de grande importância para identificar a eficiência da

compactação de dados é mensurar sua taxa de compactação. É um simples

procedimento que divide o número em bytes do arquivo compactado pelo arquivo não

compactado. A razão obtida é a taxa de compactação.

5.2.2 Consumo de recursos do sistema

Outro aspecto importante para mensurar a eficácia do compactador é obter dados

do consumo de recursos do sistema, ou seja, quanto os procedimentos de codificação e

decodificação exigem do computador para serem realizados.

Para obter maior taxa de compactação muitos compactadores têm algoritmos que

analisam com usando diversos critérios complexos para estabelecer a melhor forma de

reduzir a informação. Quanto mais complexo é o algoritmo de compactação mais

recursos do sistema o processo necessita e mais tempo é necessário para sua realização.

Caso o tempo do processo de decodificação no sistema seja superior a duração do áudio

o sistema é incapaz de reproduzi-lo ininterruptamente sem conversão anterior.

Obviamente, quanto mais eficaz é um algoritmo (melhor relação entre o

consumo de recursos e compactação proveniente) maior tende a ser sua adoção e uso.

5.3 Métodos de comparação

Compreendidos as formas de comparação e os fatores de influência é necessário

estabelecer um método para comparar os diferentes formatos de compactação de áudio.

A relação entre a quantidade de redução de dados e a quantidade de consumo de

recursos do sistema nos processos de codificação e decodificação estabelece o quanto

eficaz é o formato.

Page 34: Padrões de compactação de áudio

31

Para comparar entre o formato original e de compactação sem perdas pode ser

usado o método de verificação de bits apenas para constatar que a compactação

realmente é capaz de decodificar exatamente o sinal de áudio original.

Para comparar entre o formato original e de compactação com perdas podem ser

usados os métodos de verificação de artefatos, teste ABX e análise de espectrogramas.

A verificação de artefatos revela a diferença entre o som do áudio original para o

som compactado com perdas, ou seja, as perdas no processo de compactação resultarão

em sons artificiais no momento em que forem confrontados os áudios em que algum

está em inversão de fase. Quanto maior a quantidade de artefatos maior a perda de

informações. Se esse processo é utilizado em formatos de compactação sem perdas o

resultado é obrigatoriamente um sinal nulo, ou seja, não existem artefatos.

O teste ABX possibilitará a verificação acústica e perceptiva de quão

transparente é a compactação com perdas. Desta forma é possível verificar o quanto o

som é prejudicado e estabelecer referências entre os formatos que possuem perdas

perceptivas.

Com análise de espectrograma é preciso gerar o gráfico do arquivo fonte e do

arquivo comprimido com perdas. A comparação entre os dois gráficos mostrará maior

ou menor perda de energia em determinados momentos. Quanto maior a diferença entre

os gráficos, maior é a perda de dados. Pode ser usado qualquer software que gere

gráficos para análise de espectrogramas.

Para essa pesquisa foi utilizado o software gratuito Spectro. Esse software foi

escolhido por ser capaz de ler diretamente formatos APE, FLAC, MP3 e WAV,

evitando a necessidade de um software intermediador para recodificar os formatos ou

visualizar o gráfico, Spectro também foi escolhido por sua facilidade de uso. Spectro

ainda foi capaz de identificar o codificador nos arquivos gerados por LAME, mas não

nos arquivos gerados pelo FhG usado no teste, felizmente isso não altera a eficácia dos

gráficos.

Também foi realizado um teste suplementar para verificação do corte de

frequências dos codificadores LAME e FhG em diferentes configurações. Para isso foi

Page 35: Padrões de compactação de áudio

32

gerado um som com forma de senóide que varia de 0.1 Hz até 20 kHz durante 20

segundos em função gráfica linear com ajuda do software livre sndfile-generate-chirp60.

O som gerado foi compactado nos padrões 320, 256, 128 e 96 kbps. A configuração de

geração do som foi realizada de modo que o som aumente em 1 kHz a cada segundo,

facilitando a identificação da frequência de corte auditivamente.61 Também foram

realizados gráficos com o software Spectro.

60 O software sndfile-generate-chirp faz parte do pacote de softwares sndfile-tools já mencionado no capítulo 5.1.4. 61 Existem várias outras experiências realizadas para verificar corte de frequências entre codificadores. (http://sombrasil.ig.com.br/centralmp3/teste_frequencias.htm)

Page 36: Padrões de compactação de áudio

33

6. CONCLUSÃO

Conforme os resultados das comparações já efetuadas, os arquivos com

compactação sem perdas realmente reduzem o tamanho do arquivo sem causar perdas

de dados, no entanto utilizam maior quantidade de recursos do computador tanto no

processo de escrita quanto leitura de dados. Seu uso é eficiente para transferência de

dados em redes de computadores com limitação de banda e mesmo transferência de

dados em mídias com pouca capacidade, mas não se recomenda uso diretamente em

edição e processamento de áudio devido a sua utilização maior de recursos do

computador.

As perdas no processo de compactação restringem-se às diferenças entre o áudio

do arquivo compactado e do arquivo original. Mas, é importante lembrar que qualquer

representação digital de informação sonora é infiel ao som gravado original e que

qualquer áudio digitalizado já pode apresentar perdas em relação ao áudio original.

Pode-se dizer que as gravações são um registro, uma lembrança, do som

executado. Em teoria, por mais desenvolvido que seja um registro sonoro ele nunca

alcançará absoluta fidelidade, pois sempre conterá perdas e distorções. O som

reproduzido de gravações em alto-falantes pode apresentar um efeito melhor ou pior que

o som gravado, mas nunca fiel.

A compactação sem perdas é eficiente para manter a qualidade sonora e,

portanto, eficiente para reprodução de som “high-end” 62. Com a evolução da capacidade

de processamento dos computadores o uso de compactação de áudio sem perdas deve

aumentar, as mídias de armazenamento de dados também terão suas capacidades

aumentadas, de modo que surgirão formatos sem compactação e com compactação sem

perdas, com mais qualidade.

62 “High-end”: Termo usado comercialmente para designar equipamentos de áudio doméstico com componentes de alta performance usados para audiófilos. A qualidade dos componentes pode interferir no resultado sonoro. (também referido como “Hi-end”)

Page 37: Padrões de compactação de áudio

34

A compactação com perdas é naturalmente um processo que pode diminuir mais

o tamanho do arquivo de áudio em comparação as compactações sem perdas devido ao

fato de representarem menor quantidade de informações. No entanto, a qualidade do

som pode ser prejudicada a ponto de ser perceptível. Logo não é apropriado usar

compactação com perdas em equipamentos fabricados com componentes de alto

desempenho.

Devido à existência do fator de arredondamento de informações, mesmo que

sejam imperceptíveis acusticamente, não é apropriado o uso de áudio compactado com

perdas em processos de pós-produção. Ao se arredondar valores são perdidos detalhes

regularmente usados no processamento. O resultado do processamento com áudio

compactado com perdas não alcança a mesma qualidade que o processamento com

formato original. Outro fator que também não favorece o uso de qualquer compactação

em pós-produção é o maior consumo de recursos do sistema para a decodificação do

áudio.

Um cabo de fibra ótica de longa distância que transmite 1,7 bilhão de bits de informação de uma estação repetidora (algo como um amplificador) para outra tem largura de banda suficiente para fazer 25 mil ligações telefônicas simultâneas. O número de ligações possíveis cresce significativamente se elas forem comprimidas63, pela remoção de informação redundante, tais como as pausas entre palavras e frases, de forma que cada ligação consuma menos bits.

(GATES, 1995, p. 128)

Para Gates, em seu livro que tratou da adoção de comunicação intermediada por

computador, o uso de tecnologia de compactação de dados aumenta a capacidade de

ligações simultâneas numa mesma infra-estrutura. E, de fato, grande parte das

comunicações telefônicas digitais já utilizam compactação de dados de áudio em tempo

real em suas centrais.

Vários softwares de vídeo-conferência via Internet utilizam compactadores de

áudio e vídeo que adequam a transmissão de dados de acordo com a largura de banda do

dinamicamente a fim de possibilitar intercomunicar usuários com diferentes condições

63 Aqui o termo compression foi traduzido como compressão, o uso do termo não se refere ao controle dinâmico de nível (compressor de áudio), mas sim à compactação de áudio como utilizado nessa monografia.

Page 38: Padrões de compactação de áudio

35

de acesso à Internet. O primeiro software de grande repercussão mundial que deu acesso

ao serviço de vídeo-conferência e a VOIP64 foi o Skype65.

Where there is a practical or economic restriction on channel bandwidth or storage capacity, data reduction becomes essential. In broadcasting, bandwidth is at a premium as sound radio has to share the spectrum with other services. In DCC66 it was a goal that the cassette would use conventional oxide tape for low cost, and a simple transport mechanism was a requirement. In MiniDisc data reduction allows a smaller player for portable use.

(WATKINSON, 1994a, p. 131)

O uso de áudio em formatos de compactação com perdas é essencial em

situações que há limitação de armazenamento ou de banda para transferência de dados

ou ainda em situações em que a fidelidade sonora não representa importância como

escutar música em ambientes ruidosos ou em equipamentos portáteis de baixo consumo

energético como aparelhos celulares, reprodutores de música móveis, e outros

equipamentos que usam amplificadores classe “H”67 para adaptar-se a condições de

baixo consumo e portabilidade.

Mesmo os registros de informações em alta-definição tornar-se-ão mais

detalhados e de fácil indexação com ajuda das novas capacidades de compactação de

dados com catalogação automatizada.

A tecnologia de compactação de dados é utilizada para a transmissão de dados

digitais. Isso envolve comunicação entre computadores via Internet, rádio digital,

televisão digital e telefonia. Ela é usada tanto para imagens quanto para sons e torna

possível maior tráfego de informações em menor quantidade de cabos e conexões. O

uso da tecnologia de compactação de dados barateia significativamente a implantação

de infra-estrutura para telecomunicações e economiza recursos naturais, pode-se dizer

que também é uma alternativa ecologicamente viável.

Compactação é essencial para serviços de transmissão digital de som, pois a

largura de banda necessária para transmitir sinais PCM sem compactação seria

64 Acrônimo de “voz sobre protocolo de Internet”. Sistema que possibilita intercomunicar computadores com o sistemas telefônicos externos à Internet. 65 Skype é propriedade de Skype Limited 66 Acrônimo de Digital Compact Cassette gravador e reprodutor digital de fita com direitos registrados por Philips e Matsushita (HOLMES, 2006, p. 75) 67 Amplificador de classe H corresponde a uma categoria de projeto eletrônico de baixo consumo elétrico, leve e possível de ser miniaturizado.

Page 39: Padrões de compactação de áudio

36

excessiva, reduziria bastante a quantidade de canais e tornaria o custo de implantação

desses sistemas muito mais alto.68

A compressão de dados tornou possível realizar registros e trafegar mais

informações com menos dados economizando infra-estrutura e permitindo melhor vazão

de informações. A compressão de dados também tornou possível a implantação rápida

de tecnologias que alteraram a maneira como as pessoas se comunicam, ouvem músicas

e assistem filmes, provavelmente tornará possível tecnologias que influenciarão outros

hábitos.

A tendência ao barateamento do armazenamento de informações digitais aliada à

tendência em desenvolver circuitos integrados cada vez menores e mais eficientes, a

tecnologia de compressão de dados será constantemente modificada a fim de adequar-se

aos novos padrões. O barateamento em ter informações digitais possibilitará que

façamos registros de som e imagem cada vez mais realistas e duradouros. A compressão

dos dados tornará viável transferência de informações em meios de infra-estruturas com

diferentes capacidades, de forma a uniformizar a maneira como as pessoas experienciam

e compartilham seus registros com outros.

O registro de material sonoro, seja em um sistema rudimentar que desenha

mecanicamente o som em um disco de cera ou num sistema complexo que digitaliza as

informações e as codifica em um sistema de distante interpretação humana, não é

exatamente idêntico ao original. A quantidade de interferências nos processos que

envolvem o registro do som causam modificações inerentes de cada método e cada

equipamento.

Mesmo dispondo de alta tecnologia pode-se dizer que a música gravada é uma

lembrança do que foi realizado sonoramente. É possível fazer uma relação com a

origem da fotografia, os registros de imagens e de sons foram criados primeiramente

para possibilitar a existência de uma lembrança material possível de ser armazenada e

perpetuada. Mas, assim como a fotografia, a produção do registro sonoro passou a

anexar ao material gravado um valor artístico. É esse valor em que as pessoas mais

68 WATKINSON, 1994b, p. 21

Page 40: Padrões de compactação de áudio

37

identificam quando reproduzem em seu equipamento preferido alguma música de sua

“discoteca”.

Desde a existência da indústria fonográfica é dado ao material sonoro gravado

um valor que viabilizou economicamente o desenvolvimento de tecnologias específicas

para aumentar a proximidade entre o registro sonoro e o som original. A possibilidade

em manipular o material sonoro após seu registro foi desenvolvida inicialmente para

corrigir deficiências do registro sonoro original. Mas, paralelamente a isso, possibilitou

manipulação do material sonoro registrado de forma a torná-lo extra-realista, mais do

que realista ou simplesmente diferente do acústico (do som original).

Os primeiros trabalhos de manipulação do material sonoro registrado que

obtiveram valor artístico foram classificados como eletroacústicos. Os compositores

eletroacústicos não têm a intenção em estabelecer uma proximidade dos sons acústicos,

mas sim usar de uma forma ordenada sons modificados ou gerados eletronicamente para

serem identificados com artificialidade.

A compactação de áudio usa como fonte um registro infiel ao som original. Ou

seja, o registro já possui perdas na sua concepção. O processo de compactar áudio pode

adicionar perdas ou manter exatas as informações. Entretanto, é importante

compreender que todo processo de digitalização de áudio já possui perdas na sua

concepção.

Teoricamente, nenhum processo pode, de forma alguma, recuperar perdas

originais da digitalização do áudio ou da compactação do áudio. A compactação do

áudio pode apenas causar mais perdas. O único processo capaz de recuperar parte das

perdas decorrentes da digitalização é a re-digitalização do mesmo material por um

sistema melhor que o primeiro.

Processos que aparentemente recuperam informações originais a partir de um

sinal digitalizado são, na verdade, ações de filtros aditivos diversos regulados para

amenizar eventuais perdas acústicas. É comum o uso de filtros geradores de harmônicos

que adicionam altas frequências a partir do som registrado. Nesse caso as altas

frequências não foram recuperadas, mas sim criadas a partir de um fragmento. O

resultado acústico do processo pode ser considerado melhor, mas é diferente da

informação original.

Page 41: Padrões de compactação de áudio

38

A magnitude da perda em formatos compactados depende do algoritmo usado e

sempre pode ser identificada por processos de comparação de áudio. Entretanto, a

magnitude da perda é difícil de ser mensurada, um dos processos mais eficazes para

identificação das perdas é humana e portanto variável e subjetiva69. Existem vários

fatores de influência que alteram significativamente o resultado da identificação

humana, os mais comuns são fatores psicológicos, fisiológicos, de capacidade auditiva,

etc...

Se, mesmo considerando as perdas dos processos de digitalização e compactação

for possível identificar o evento sonoro original, em outras palavras, se as perdas do

material gravado não interferirem na identificação do evento sonoro original, o registro

sonoro é capaz de representar o evento.

É possível isolar acusticamente os resultados da perda causada pela compactação

comparando o som original como o compactado. A esse resultado acústico é dado o

nome de artefato do processo de compactação. O processo de isolar os artefatos

compreende inverter a fase do sinal de áudio do áudio compactado ou do áudio original

e somá-los, para isso é preciso que a duração dos dois sejam idênticos e que o sinal

esteja alinhado (sem defasagem no tempo).

Figura 9: Gráfico mostrando a falha repentina em compactação com perdas70

69 Identificação humana refere-se ao processo de identificar as perdas do processo de compactação de áudio por comparação das percepções acústica entre o material original e o de compressão com perdas. 70 Gráfico adaptado (WATKINSON, 1994b, figura 5.7, p. 286)

Page 42: Padrões de compactação de áudio

39

Até certo ponto a compactação com perdas pode diminuir o tamanho do arquivo

removendo sons adicionais fora da entropia perceptiva, ou seja, sem que a qualidade do

som seja afetada de forma sensível a audição humana. Após esse ponto a qualidade é

cada vez mais degradada e cada vez mais audível.

Em alguns algoritmos, principalmente usados por codificadores configurados no

modo rápido, a queda de qualidade é repentina e bastante acentuada como mostrada no

gráfico da Figura 9. Compactadores com perdas mais eficientes são capazes de realizar

maiores taxas de compactação causando menos distorções perceptíveis, dessa forma o

gráfico resultante possui uma curva menos intensa. Compactadores sem perdas realizam

compactação sem afetar a qualidade perceptível, dessa forma a resultante do gráfico

será uma linha reta paralela ao eixo horizontal.

Existe um limite para compactação sem perdas, esse limite é diferente para cada

algoritmo específico. Na maioria dos casos quanto maior a compactação sem perdas,

mais uso de recursos de sistema faz e mais lento é o processo. Há diversas tabelas no

CD-ROM anexo a esse trabalho. Dentre as tabelas há uma com uma grande quantidade

de resultados comparando diferentes gêneros musicais, é possível verificar que músicas

que contém elementos constantes (como a constante batida comum em músicas

eletrônicas) foram mais eficazmente compactadas que outras com menos constâncias.

A realização dos testes de espectrograma mostraram visualmente a quantidade

de perda de informações entre formatos originais e compactados com perdas. A maior

parte das perdas de informações acontece na área superior do gráfico, área que

representa as frequências agudas. Quanto mais o formato compacta o áudio, maior é o

corte de frequências nas regiões agudas.

Os resultados variaram significativamente com a música usada. As músicas com

captação de instrumentos acústicos como sopros e coro possuem menos quantidade de

agudo que músicas com instrumentos elétricos e grande quantidade de compressão

dinâmica. Nas músicas com maior interferência de recursos de pós-produção em estúdio

notavelmente são alteradas de forma a garantir uma sonoridade mais presente em nível e

frequências, principalmente em gravações mais recentes.

A menor existência de altas frequências em músicas com instrumentos acústicos

apresentaram menores diferenças gráficas comparadas ao som original que as músicas

Page 43: Padrões de compactação de áudio

40

com maior quantidade de altas frequências. É possível constatar que, os critérios

psicoacústicos adotados pelos formatos de compactação com perdas testados descartam

primeiramente informações de frequências mais altas.

Comparações entre os testes de corte de frequências dos codificadores LAME e

FhG usados nesse trabalho de graduação mostraram que o primeiro obteve uma pequena

vantagem ao representar frequências maiores principalmente nas configurações 96 e 128

kbps, mas obteve pior resultado em 256 kbps Todos espectrogramas obtidos foram

gravados no CD-ROM anexo a esse trabalho.

Os resultados dos testes realizados com análise de espectrograma revelaram que

existem diferenças consideráveis entre os codificadores LAME e FhG de formato MP3.

A comparação dos gráficos resultante das codificadores, ambos com mesmas

configurações, mostraram que em todos os casos o codificador LAME gerou resultados

que graficamente eram mais semelhantes ao original que o codificador FhG. Os dois

codificadores criaram arquivos com o mesmo tamanho em bytes e quase o mesmo

tempo de processo e uso de recursos de sistema.

Pode-se dizer que o codificador LAME mostrou ser mais eficiente nos

resultados de análise de espectrograma quando comparado ao FhG. Uma possível

justificativa para esse fator é que o codificador LAME continua a ser desenvolvido e

atualizado, esse desenvolvimento continuado pode aproveitar estudos mais recentes

sobre psicoacustica e utilizar novos pacotes de instruções dos novos modelos de

processadores que diminuem o tempo de realização de um mesmo trabalho.

Noise shaping & psycho acoustic algorithms:

-q <arg> <arg> = 0...9. Default -q 5

-q 0: Highest quality, very slow

-q 9: Poor quality, but fast

-h Same as -q 2. Recommended.

-f Same as -q 7. Fast, ok quality

Figura 10: Reprodução de parte da resposta ao comando “lame –longhelp”71

De fato, de acordo com as pesquisas realizadas e com a Figura 10, pode-se

identificar uma razão inversamente proporcional comum para os codificadores com

71 Resposta ao comando exibida pelo codificador LAME 3.98.2 em terminal de comando em sistema Microsoft Windows NT.

Page 44: Padrões de compactação de áudio

41

perdas entre “velocidade versus qualidade”. Também se aplica a codificadores sem

perdas na razão inversa “velocidade versus redução de informação”

Os testes de verificação de bits obtiveram resultados que confirmaram a

diferença entre compactação com perdas e sem perdas. O teste é útil sempre que o

usuário desconhecer ou desconfiar da natureza do formato de áudio compactado.

A verificação de artefatos é um processo eficiente para revelar acusticamente o

nível de diferenças entre o formato compactado com perdas e o original, para que ele

seja eficaz é preciso que os dois sinais de áudio estejam perfeitamente alinhados.

Pode haver grande dificuldade no alinhamento manual que quase sempre é

necessário antes de realizar o teste, pois muitos formatos de compactação com perdas

alteram a duração da mídia adicionando uma certa quantidade de amostras no início e

no final.72 Portanto, o simples fato de compactar e descompactar um áudio altera sua

duração total e inviabiliza a comparação de bits ou conteúdo PCM por computador sem

correção manual.

A ausência de um padrão entre cada codificador torna necessário o alinhamento

manual que também é bastante prejudicado devido a dificuldade em localizar um sinal

que sirva de referência para o alinhamento já que os formatos com perdas modificam o

aspecto das formas de ondas. É necessário analisar com cautela os formatos de onda ou

identificar se há sempre um padrão constante de amostras adicionadas no codificador.

Se descoberto um padrão, é possível gerar um código que automaticamente retira as

amostras adicionadas.

Nos testes de verificação de artefatos realizados neste trabalho de graduação

foram confrontados os codificadores LAME e FhG.73 Ambos obtiveram sempre um

resultado sonoro ruidoso e distorcido do material original. Também foi identificado que

72 A quantidade de amostras adicionadas varia conforme o codificador e decodificador, foram verificados valores entre 528 (LAME) e 1160 (FhG). 73 Foi utilizada a música “Communication” do grupo “Bela Fleck & The Flecktones” extraída do álbum “Greatest Hits of the 20th Century” de 1999.

Page 45: Padrões de compactação de áudio

42

ambos obtiveram proporcionalmente mais nível74 de artefatos em compactadores

configurados com menor taxa de bits comparados com maior taxa de bits.

Dentre as diferenças constatou-se que, em média, o codificador LAME produziu

menor nível de artefatos que o FhG e que o som dos artefatos é significativamente

diferente. O primeiro obteve sonoridade mais aproximada do som original que o

segundo, o segundo apresentou muito mais ruídos em altas frequências em comparação

ao primeiro e também ao áudio original.

Para comprovação experimental, também foram verificados os artefatos dos

compactadores sem perdas FLAC e Monkey’s Audio e ambos geraram um áudio nulo

(sem nível, mudo). A experiência comprovou que esses formatos realmente não geram

artefatos e que não foram perdidos dados nos processos de codificação e decodificação.

O computador, através de análises de dados, é capaz de perceber qualquer

mínima diferença entre dois arquivos, essa diferença percebida não significa que há

diferenças sonoras e mesmo se as diferenças são percebidas auditivamente por pessoas.

Pois essa diferença pode ser relacionada a informações de metadados ou ainda amostras

adicionadas pelo codificador no início e fim do áudio. Para verificar de fato se as

diferenças são perceptível ao ouvido pode ser efetuado o teste ABX.

O teste ABX possibilita que seja verificado acusticamente se há diferenças

perceptivas nos formatos de compactação com perdas. Devido a natureza dos testes o

resultado é variável de acordo com o participante. A adoção do critério estatístico de

95% de acertos mínimos é importante para descartar resultados casuais.

É importante salientar que o teste ABX é vulnerável também as condições

técnicas do equipamento usado para reprodução das músicas. Um equipamento bem

ajustado pode revelar mais diferenças auditivas no teste ABX que outro. Por esse

motivo, é importante que os testes sejam realizados sempre no mesmo equipamento e

no mesmo ambiente.

As tecnologias de compactação de áudio são relativamente novas e estão sendo

desenvolvidas simultaneamente em diversos países por empresas, comunidades de

74 Nível de dB Full Scale. Escala usada para mensurar o nível em áudio digital, varia de 0 (valor máximo) até menos infinito (valor mínimo)

Page 46: Padrões de compactação de áudio

43

audiófilos e pessoas independentes. Os testes entre codificadores podem se tornar

obsoletos como já abordado nas desvantagens de armazenar informações em formato

digital no Capítulo 1. Porém, mesmo com o lançamento de novos formatos de

compactação conhecidamente mais eficazes como o AAC, o formato MP3 continua a

ser o mais comum dentre o acervo musical circulante na Internet e continua a ter alguns

codificadores melhorados. Possivelmente, assim como ocorre em marcas de produtos

que popularmente representam uma espécie de produto, mesmo que outro formato se

torne mais usado o termo MP3 pode ter seu uso continuado para representar

genericamente qualquer formato de música compactada ou de equipamento portátil

capaz de reproduzir música.

Em suma, não é possível afirmar que um formato de compactação é mais

apropriado que outro para determinada música. Sabe-se que sons de fácil previsibilidade

como o barulho de um relógio podem ser representados com menos informações que

sons de difícil previsão como o barulho da chuva ou de aplausos.

Sabe-se também que músicas com menor gama de frequências podem ser

representadas com menos informações, portanto, é possível afirmar que músicas cujo

áudio foi trabalhado por processos de pós-produção para criar uma sonoridade extra-

realista são mais complexas de ser compactadas que um música cujo áudio é

essencialmente acústico.

Audiófilos sempre estão em busca de “sons perfeitos” e investem grandes

quantidades de dinheiro em equipamentos de áudio. Em contrapartida, grande parte da

população se contenta em ouvir música em mínimas e deficientes caixas de som

amplificadas para computador. Fora isto, há ainda uma parte que confunde

deliberadamente nível de potência sonora com nível de qualidade de som.

Um formato de compactação não é escolhido de acordo com a música a ser

apreciada, mas sim de acordo com a “ideologia” do público.

No CD-ROM anexo podem ser verificados os resultados gráficos comparativos

entre os codificadores de MP3 LAME e FhG com o formato original extraído de CD

Page 47: Padrões de compactação de áudio

44

através do software Exact Audio Copy75, programa capaz de extrair áudio de CDs com

verificação de precisão exata. Durante o processo de extração de áudio de CDs podem

ocorrer perdas de informações devido à erros normalmente não reportados pela maioria

dos programas que efetuam esse procedimento.

Estão armazenados também diversos pacotes de softwares gratuitos como

foobar2000, KDiff3, libsndfile, sndfile-tools, Spectro e os codificadores FLAC e

LAME.

75 Exact Audio Copy (EAC) é um software alemão gratuito sob a licença Postcartware e está disponível em: http://www.exactaudiocopy.de/

Page 48: Padrões de compactação de áudio

45

7. REFERÊNCIAS

7.1 Livros ALDRICH, Nika. Digital audio explained: For the audio engineering. 2ª ed. –

BookSurge. 2004 - 403 p. ISBN: 141960001X FRIES, Bruce. The mp3 and internet audio handbook: your guide to the digital music

revolution, 1.ª ed., Burtonsville: Teamcom books, 2000 - 268 p. ISBN 1-928791-10-7

GATES, Bill. A Estrada para do futuro. Tradução de Beth Vieira. São Paulo:

Companhia das Letras. 1995 – 347 p. ISBN: 85-7164-509-4 HOLMES, Thom. The routledge guide to music technology. 1.ª ed. New York: Taylor

and Francis Group. 2006 – 373 p. ISBN: 0-415-97324-4 KAHNEY, Leander. The cult of ipod. 1.ª ed. San Francisco: No starch press. 2005 – 151

p. ISBN: 1-59327-066-6 MOSTERT, Frederick W.; APOLZON, Lawrence E. From Edison to iPod. New York:

DK Publishing. 2007 – 288 p. ISBN: 978-0-7566-2602-0 NICHOLAS, Negroponte. Being digital. 1.ª ed. New York: Vintage Books. 1996 – 255

p. ISBN: 0-679-76290-6 RATTON, Miguel. Dicionário de áudio e tecnologia musical. 2.ª ed. Rio de Janeiro:

Música & Tecnologia. 2009 – 190 p. ISBN: 978-85-89402-13-2 _____. Midi total: Fundamentos e aplicações. 1.ª ed. Rio de Janeiro: Música &

Tecnologia 2005 - 369 p. ISBN: 85-89402-05-3 SOLARI, Stephen J. Digital vídeo and áudio compression. 1.ª ed. New York:McGram-

Hill Professional. 1997 – p. 187 – 211 ISBN: 0-07-059538-0 SPANIAS, Andréas; PAINTER, Ted; ATTI, Venkatraman. Audio signal processing and

coding. 1.ª ed. New Jersey: John Wiley & Sons, Inc. 2007 – 464 p. ISBN: 978-0-471-79147-8

WATKINSON, John. An introduction to digital audio. Woburn: Focal Press. 1994a –

392 p. ISBN: 0-240-51378-9 _____. The art of digital audio. 3.ª ed. Woburn: Focal Press. 1994b – 753 p. ISBN: 0-

240-51587-0

Page 49: Padrões de compactação de áudio

46

_____. The mpeg handbook. 1.ª ed. Woburn: Focal Press. 2001 – p.130-131 ISBN: 0-240-51656-7

ZÖLZER, Udo. Digital audio signal processing. 2.ª ed. Hamburg: Helmut Schmidt

University. 2008 – 334 p. ISBN: 978-0-470-99785-7 7.2 Internet Boston Audio Society – ABX Testing article: http://www.bostonaudiosociety.org/bas_speaker/abx_testing.htm Acessado em 17 de maio de 2009 Exact Audio Copy: http://www.exactaudiocopy.de/ Acessado em: 10 de Outubro de 2009 FLAC – Free Lossless Audio Codec: http://flac.sourceforge.net/ Acessado em: 10 de Outubro de 2009 Hydrogenaudio Knowledgebase – the audio technology enthusiast’s resource: http://wiki.hydrogenaudio.org/ Acessado em: 10 de Outubro de 2009 KDiff3: http://kdiff3.sourceforge.net/ Acessado em: 10 de Outubro de 2009 LAME MP3 Encoder: http://lame.sourceforge.net/ Acessado em: 10 de Outubro de 2009 libsndfile: http://www.mega-nerd.com/libsndfile/ Acessado em: 10 de Outubro de 2009 Spectro - Freeware Audio File Analyzer: http://spectro.enpts.com/ Acessado em: 10 de Outubro de 2009 7.3 Periódicos

Fraunhofer magazine – Research, technology and innovation. Munich: Fraunhofer-Gesellschaft – N.º 2.2000 - 48 p. – ISSN: 1615-7028 - Também disponível na internet: http://www.fraunhofer.de/archiv/magazin/pflege.zv.fhg.de/english/publications/df/df2000/magazine2_2000.pdf (Acessado em 9 de Outubro de 2009)

Page 50: Padrões de compactação de áudio

47

8. ANEXOS

Existem diversos anexos gravados em uma mídia CD-ROM como parte

integrante desse trabalho. Nesse capítulo apenas como foi feita a organização e cito o

conteúdo do disco.

Na raiz do disco há 3 pastas (Software, Tabelas e Testes) e 1 arquivo de texto

identificando a mídia.

• Software - estão cópias de vários softwares de uso gratuito usados nesse trabalho

de graduação para realização dos experimentos como mencionados nos capítulos

anteriores:

o FLAC o Foobar2000 o KDiff3 o LAME o libsndfile o sndfile-tools o Spectro

• Tabelas – Estão arquivos em formato PDF de vários testes publicados em sites

específicos sobre compactação de áudio na Internet;

• Testes – Estão os arquivos dos testes divididos em 7 pastas, todos as músicas

foram extraídas dos CDs de áudio originais pelo software Exact Audio Copy sem

apresentar erros.

o “Beatles - Here Comes The Sun“; o “Bela Fleck & The Flecktones – Communication”; o “Haggard - Chapter V – Courante” e “Haggard - Chapter V -

Rachmaninov-Choir”; o “Bach - Toccata and Fugue in D minor, BWV 565 Toccata”; o “John Mayer – Daughters”; o “Pink Floyd – Money”; o Sweep linear – Som de teste gerado pelo software sndfile-generate-chirp.

Page 51: Padrões de compactação de áudio

48

Em “Testes” os arquivos de áudio compactados estão divididos em pastas

categorizadas:da seguinte maneira:

o Nome do compositor ou grupo � Espectrogramas � MP3

♦ FhG encoder ⇒ 128kbps ⇒ 256kbps ⇒ 320kbps

♦ LAME encoder ⇒ 128kbps ⇒ 256kbps ⇒ 320kbps