Psicoacústica
Estuda como as pessoas percebem os sons. Tenta explicar a resposta subjetiva de tudo o que ouvimos.
Relaciona as propriedades físicas dos sons (que podem ser medidas cientificamente de forma objetiva) com as respostas fisiológicas e psicológicas evocadas por elas.
Para isto, utiliza conhecimentos sobre a anatomia do ouvido humano, os processos neurológicos de transporte de informações, e até a interpretação da informação aural pelo cérebro.
Características do ouvido humano
Os dois ouvidos são fisiologicamente semelhantes, mas percebem os sons de formas diferentes devido ao seu acoplamento com hemisférios diferentes do cérebro.
Resposta em frequência logaritmica.
Frequência (objetiva) vs pitch (subjetivo)
Faixa dinâmica extremamente larga (120 dB SPL) aproximadamente 1000000000000 vezes.
Características do ouvido humano (cont.)
Capacidade de localização espacial da fonte sonora por meio de diferenças de intensidade, complexidade da forma de onda, e atraso.
A sensibilidade do ouvido é dependente da frequência.
Curvas “equalloudness”
[K. C. Pohlmann, Principles of Digital Audio, (McGrawHill, New York, 1995), pp. 360, 113.]
Entropia perceptual
O ouvido percebe apenas uma porção da informação de um sinal de áudio ⇒ entropia perceptual.
Sinais de baixa entropia perceptual podem ser reduzidos de forma eficiente, sinais de alta entropia, não.
Codificador deve ter taxa de bits variável para aproveitar estas características. Neste ponto entra a psicoacústica.
O sinal é codificado de forma a manter a sua entropia perceptual e não a sua forma de onda.
Preserva a sensação auditiva causada no ouvinte.
Funções de cada parte do ouvido
Ouvido externo: coleta o som. Suas dobras ajudam na direcionalidade.
Canal: tem frequência de ressonância em torno de 3kHz. Ajuda na percepção da voz.
Ossículos: transformam a energia acústica em energia mecânica. Alcançam a máxima excursão por volta de 120 dB SPL. Casadores de impedância para maximizar a transferência dos sons do ar para o ouvido interno cheio de líquido.
Funções de cada parte do ouvido (cont.)
Canais vestibulares: não influenciam na audição, mas são importantes no equilíbrio.
Membrana basilar: detecta a amplitude e frequência dos sons, convertendoos em impulsos elétricos.
A cóclea
Preenchida por um fluido, e sua superfície interna tem cerca de 20.000 células nervosas em forma de cabelos em uma membrana, chamada de membrana basilar.
Estas células nervosas possuem comprimentos diferentes, por diferenças minúsculas, e também possuem diferentes graus de elasticidade.
À medida que uma onda de compressão se move através do líquido da cóclea, as células nervosas entram em movimento.
Membrana Basilar
Cada célula capilar possui uma sensibilidade natural a uma vibração de frequência particular . Quando a frequência da onda de compressão casa com a frequência natural da célula nervosa, a célula irá ressoar com uma grande amplitude de vibração.
Esta vibração ressonante induz a célula a liberar um impulso elétrico que passa ao longo do nervo auditivo para o cérebro.
As frequências nas quais as células vibram com mais intensidade são chamadas de bandas críticas, um conceito introduzido por Harvey Fletcher.
Resposta em frequência da membrana basilar
F. Winckel, Music,Sound and Sensation, Dover, 1967, p. 90, used by permission; after L.A. deRosa, J.A.S.A, 1947, p. 623
Bandas críticas
O sistema auditivo humano processa os sons em subbandas, chamadas de bandas críticas.
Cada banda corresponde a uma seção de aproximadamente 1,3 mm da cóclea.
A largura de cada banda crítica difere de acordo com a faixa de frequência: abaixo de 500 Hz as bandas são constantes e iguais a 100 Hz. Acima de 500 Hz a largura da próxima banda crítica é 20% maior que a da anterior.
Criada uma unidade psicoacústica especial: o bark. Um bark corresponde à largura de uma banda crítica.
Escala Bark
Bark=13atan 0 . 76 f1000 3.5atan f 2
7500 2
101
102
103
104
1050
5
10
15
20
25
30
freq u ên cia (H z)
Tax
a de
ban
da c
rític
a (B
ark)
Mascaramento
Mascaramento de tons baixos por tons altos
Mascaramento simultâneo (ou em frequência)Um instrumento pode ser mascarado por outro se um produz um som alto (mascarante) e o outro permanece fraco (mascarado).
Mascaramento Temporal Prémascaramento: antes do sinal mascarante acontecerPósmascaramento: depois que o sinal mascarante terminou
Limiar Absoluto
Um tom ou ruído é inaudível se cai abaixo do Limiar Absoluto
0.05 0.1 0.2 0.5 1 .0 2 .0 5 .0 10 20
Frequência de m ascaram ento
N íve l deÁ ud io
L im ia r des ilêncio
kH z
Mascaramento em amplitude
Um tom que ocorre em determinada frequência deforma a curva de mascaramento em sua vizinhança.A ocorrência de um tom de menor intensidade nesta região não é audível (mascaramento em amplitude).
N íve l deÁud io
L im ia r dem ascaram ento
S ina l m ascaran tede 500 H z
0.05 0.1 0.2 0 .5 1 .0 2 .0 5 .0 10 20
Frequênc ia de m ascaram ento
kH z
Porque ocorre o mascaramento?
Na membrana basilar, Uma resposta alta em uma região da membrana irá mascarar respostas mais suaves na banda crítica ao redor dela.
http://www3.labc.usb.ve/EC4514/AUDIO/Sistema%20Auditivo/LA_COCLEA.html
Canal semicircular
Vestíbulo
Membrana basilar
Escala vestibular
Cóclea “desenrolada”
Altas frequências Baixas frequências
Curvas de mascaramento
As curvas de mascaramento não são simétricas.
Quando ocorre um tom mascarante, a curva é mais inclinada no lado de baixo do que no lado de cima.
É mais fácil um tom mais baixo mascarar um tom mais alto do que o contrário.
Sinal mascarante
20 a 5 dB/Bark
frequência
amplitude
27 dB/Bark
Mascaramento e intensidade sonora
Sinais de baixa intensidade apresentam uma curva de mascaramento mais estreita do que sinais de maior intensidade.
0,05 0,1 0,2 0,5 1 2 5 10 200,02
0
20
40
60
80
100
frequência (kHz)
Níve
l de
inte
nsida
de s
onor
a (d
B SP
L) 100 dB
80 dB
60 dB
40 dB
20 dB
Mascaramento temporal
Ocorre quando os tons são ouvidos em instantes de tempo bastante próximos.
mascaramentosimultâneo
~20ms ~200ms ~150ms
sinal mascaranteativo
pósmascaramentoprémascaramento
tempo
dB
Considerações sobre o mascaramento temporal
H1: o cérebro integra o som sobre um período de tempo, e processa a informação em rajadas.
H2: o cérebro processa os sons mais intensos mais rapidamente.
O mascaramento temporal é importante para os codificadores no domínio da frequência pois estes operam sobre blocos de amostras, e portanto possuem baixa resolução temporal.
Quantificação dos efeitos de mascaramento
Limiar de mascaramentoNível de pressão sonora de um som de teste, necessário para ser audível na presença de um tom mascarante.
Sons de testeTom senoidal para mascaramento em frequênciaRajada curta ou som impulsivo para mascaramento temporal
Ação conjunta dos mascaramentos temporal e em frequência
[K. C. Pohlmann, Principles of Digital Audio 4th Ed. (McGrawHill, New York, 2000), p. 314.]
Mascaramento em sistemas multicanal
Os canais compartilham uma parte das informações, e estas redundâncias intercanal são utilizadas para aumentar a eficiência da codificação.
Usando os modelos psicoacústicos, as componentes inaudíveis podem ser codificadas com menos bits. Por exemplo, um tom de alta intensidade em um canal pode mascarar tons mais suaves em outros canais.
De forma geral, o número de bits para codificar um sistema multicanal com estes princípios é proporcional à raiz quadrada do número de canais.
Exemplo: para 5.1 canais, seriam necessários 2,26 vezes o número de bits para codificar um único canal.
Codificação Perceptual
Sistema de redução de dados: diminuir a taxa de bits (fs x comprimento de palavra).
redução de fs: redução da banda do sinal.
redução do comprimento de palavra: aumento do ruído de quantização.
Codificação perceptual: uso de modelos psicoacústicos para redução da taxa de bits.
Mantémse fs e mudase dinamicamente o número de bits de acordo com o limiar de mascaramento.
Estratégias de alocação de bits
Alocação adaptativa direta (Forward Adaptive allocation).
Alocação adaptativa reversa (Backward Adaptive allocation).
Alocação adaptativa direta
Toda o esquema de alocação é realizado no codificador.
Informação de codificação é também transmitida.
Vantagens:O modelo psicoacústico está apenas no codificador. O receptor não precisa ter acesso a ele.
Permite um aprimoramento constante do modelo psicoacústico, sem alterar o decodificador.
Desvantagemuma parte dos bits disponíveis deve ser reservada para transmitir o esquema de alocação.
Alocação adaptativa reversa
A informação para alocação de bits é derivada a partir do áudio codificado, sem informação explícita fornecida pelo codificador.
Vantagem:Não há necessidade de reservar bits para transmitir o esquema de alocação de bits.
Desvantagens:Como a taxa de vits é determinada a partir do áudio codificado, a precisão pode ser reduzida.
O decodificador é mais complexo, e deve ser modificado toda vez que houver uma melhoria no codificador
Aplicação em cascata
Ruídos de codificação vão se acumulando com as sucessivas codificações e decodificações.
Quando o ruído passa a ser audível, o codificador passará a alocar bits para este, roubandoos de outras partes.
Podem gerar préecos audíveis.
Quando os codificadores são colocados em cascata é importante começar com o de mais alta qualidade, pois a qualidade final será sempre a do pior codificador.
música(mp3)
mixagem c/ voz do locutor
transmissão(via rádio p. ex.)
reproduçãogravaçãocaseira
codificaçãodecodificação
Codificação para redução de dados
Objetivo: representar o sinal de áudio a uma taxa de bits reduzida, enquanto tenta minimizar o erro de quantização.
Codificadores no domínio do tempomodulação delta, NICAM, etc.
não são muito eficientes (2,5:1).
Codificadores no domínio da frequênciacodificadores de subbanda e por transformada
conseguem taxas de 4:1 a 12:1
Codificadores no domínio da frequência
mapeamentotempo/frequência
Quantizadore codificador
Empacotamentode frames
Modelopsicoacústico
sinal de aúdiodigital (PCM)
feixe de bitsa baixas taxas
Desempacotamentode frames
Reconstruçãomapeamento
frequência/tempofeixe de bitsa baixas taxas
sinal de aúdiodigital (PCM)
Codificador
Decodificador
Codificação de subbanda
Blocos consecutivos de amostras no domínio do tempo são coletados durante um curto período de tempo.
Estes blocos são aplicados a um banco de filtros digitais, que divide o sinal em mútiplos canais para aproximar a resposta do ouvido humano (bandas críticas).
As amostras em cada subbanda são analisadas e comparadas com um modelo psicoacústico.
O codificador quantiza as amostras de forma adaptativa, baseado no limiar de mascaramento daquela subbanda.
Codificação das amostras no domínio do tempo.
Diagrama de Blocos (SBC)
C od 1
C od 2
C od M
Mul
tiple
xado
r
Dem
ultip
lexa
dor
D ecod 1
D ecod 2
D ecod M
Σx (t)
fSM =2∆W M
fS2=2∆W 2
fS1=2∆W 1
x 1(t)
x 2(t)
xM (t)
x'1(n )
x'2(n )
x'M (n )
u 1(n )
u 2(n )
u M (n )
v1(n )
v2(n )
vM (n )
y 1(n )
y 2(n )
yM (n )
y 1(t)
y 2(t)
yM (t)
y (t)
T ransm issor C ana l R ecep to r
Largura dos filtros
1,,2,1 ,1 −=∆>∆ + MkWW kk
1 2 3 41234
)(ΩXXS
WΩWΩ−
42 WW
Ω=∆π=∆Ω
1 2 3 41234
)(ΩXXS
WΩWΩ−
33 2 W∆π=∆Ω
W k=W=WM
, k=1,2 , , M
Resposta em amplitude dos bancos de filtros
1 2 3 4
M = 4
4WΩ
2WΩ
43 WΩ
WΩ
|)(| ΩjH
0
1 2 3 4
|)(| ΩjH
0
Considerações
Os filtros podem ter larguras iguais ou variáveis.
Podem ter respostas que se sobrepõem ou não contíguas.
As respostas do tipo do segundo banco requerem filtros com rolloffs extremamente rápidos, que minimizam os gaps entre as bandas.
Possibilitam uma diminuição nas taxas de amostragem (fsk) e consequentemente uma taxa de codificação (I) menor.
Na prática, os gaps inter bandas não tem energia nula. o que causa um efeito de reverberação no sinal reconstruído para SBCs de biaxa taxa de bits.
Taxa de Transmissão
Cada sub banda xk(t) é amostrada a uma frequência fsk e codificada usando Rk bits por amostra.
Taxa de transmissão total: soma das taxas necessárias para codificar cada uma das sub bandas
∑=
=M
kksk RfI
1
b/s
Para o caso de sub bandas de larguras iguais:
MW
WfkMW
W kskk 22 , =∆=∀=∆
Taxa de Transmissão
Desde que cada sub banda k pode ser amostrada à freqüência 2∆Wk , podemos reescrever I como
b/s 2
1∑
=
=M
kkR
MW
I
Esquema de alocação de bits
Saída de um banco de 24 subbandas
Cálculo do nível médio de cada subbanda
Cálculo do limiar de mascaramento para cada subbanda
Bandas abaixo do limiar não são codificadas
Alocação de bits de acordo com o nível de picoacima do limiar de mascaramento
[K. C. Pohlmann, Principles of Digital Audio 4th Ed. (McGrawHill, New York, 2000), p. 321.]
Exemplo
A: inaudível
B: tom mascarante
C: inaudível devido a B
D: audível
AA B C
Limiar de audibilidade Efeito de
mascaramento
Sinais audíveis
Sinais inaudíveis
10 b
its
4 bi
ts
frequência
Nív
el S
PL
C D
Relação sinal/máscara
O sinal B precisa ser codificado.
Entretanto sua presença criou uma curva de mascaramento.
A porção do sinal B entre a curva mínima e a curva de mascaramento corresponde aos bits que podem ser economizados na codificação.
Desta forma, ao invés de usar a relação sinal/ruído, usase a relação sinal/máscara (SignaltoMask Ratio, SMR).
A SMR é recalculada para cada subbanda, e é utilizada para decidir quantos bits serão alocados para a codificação.
Codificação por transformada
Um bloco de amostras no domínio do tempo é convertido para o domínio da frequência (via DFT, FFT ou MDCT).
Esta transformação aproxima o comportamento de como a membrana basilar analisa o conteúdo de frequências das vibrações ao longo de seu comprimento
Os coeficientes espectrais são quantizados de acordo com um modelo psicoacústico:
Eliminação de componentes inaudíveis.
Alocação dinâmica de bits baseada em audibilidade.
Quantiza os sinais no domínio da frequência.
Considerações sobre a codificação por transformada
Blocos grandes de amostras no domínio do tempo fornecem uma boa resolução espectral, mas levam a uma perda na resolução temporal.
Problema: préecos em regiões de transientes.
Soluções:Sobreposição de blocos sucessivos em 50% para melhorar a resolução temporal.
Comprimento do bloco muda adaptativamente de acordo com as condições do sinal.
Top Related