Sistemas de Áudio - dca.fee.unicamp.brrafael/ee840/Minicurso_SomEspacial.pdf · Sistemas de...
Transcript of Sistemas de Áudio - dca.fee.unicamp.brrafael/ee840/Minicurso_SomEspacial.pdf · Sistemas de...
Sistemas de Áudio: do monoaural ao ambisonics
(passando pelo binaural)
Prof. Dr. Bruno Masiero
Fonógrafo (1877)
CODEC
Localização de sonsFisiologia e Psicoacústica
O sistema auditivo
O Sistema auditivo (expandido…)
Percepção de direção do som
Interaural Time Delay (ITD)
Interaural Time Delay (ITD)
• sin 𝜃 sin 𝜃 𝜃 + sin 𝜃 𝑟 𝜃 +sin 𝜃 𝑐 𝑟 𝜃 + sin 𝜃 𝑐
• 𝑐𝑐𝜃𝜃𝑛𝑖 sin 𝜃 𝑠 𝑟 𝜃 +sin 𝜃 𝑐 𝜃 + sin 𝜃 +
𝜃𝜃𝑟𝑟𝑡𝑡 = Δ𝑡 =𝑟 𝜃+sin 𝜃
𝑐
Interaural Time Delay (ITD)
• 𝑚𝑐81 𝑟𝑟 ≈ 2 sin 𝜃 sin 𝜃 𝜃 +sin 𝜃 𝑟 𝜃 + sin 𝜃 𝑐 𝑟 𝜃 +sin 𝜃 𝑐
• 𝑑 = 2𝑟 ≈ 18cm
Interaural Time Delay (ITD)
• 0,67ms
• 𝑚𝑐81 𝑟𝑟 ≈ 2 sin 𝜃 sin 𝜃 𝜃 +sin 𝜃 𝑟 𝜃 + sin 𝜃 𝑐 𝑟 𝜃 +sin 𝜃 𝑐
• 𝑑 = 2𝑟 ≈ 18cm
• 𝐼𝑇 𝐷 𝑚𝑎𝑥 ≈ 𝑚𝑎𝑥 𝑥 𝑚𝑎𝑥 ≈ 0,67ms
Interaural Time Delay (ITD)
• 740Hz
• 𝜋𝜋
• 0,67ms
• 𝑚𝑐81 𝑟𝑟 ≈ 2 sin 𝜃 sin 𝜃 𝜃 + sin 𝜃 𝑟 𝜃 +sin 𝜃 𝑐 𝑟 𝜃 + sin 𝜃 𝑐
• 𝑑 = 2𝑟 ≈ 18cm
• 𝐼𝑇 𝐷 𝑚𝑎𝑥 ≈ 𝑚𝑎𝑥 𝑥 𝑚𝑎𝑥 ≈ 0,67ms• 𝐼𝑇 𝐷 𝑚𝑎𝑥 ≈ 𝑚𝑎𝑥 𝑥 𝑚𝑎𝑥 ≈ 740Hz
Interaural Level Difference (ILD)
Efeito de precedência
Summinglocalization
Cone de confusão
Resolvendo o cone de confusão
Head-Related Transfer Function
Head-Related Transfer Function
Head-Related Transfer Function
ILD
Head-Related Transfer Function
ILD ITD
Medindo HRTF
Balão de cor
Amplitude Cor
1kHz 8kHz
Balão de dados
Amplitude raioFase Cor
HRTF (esquerda)
Medindo HRTF
Áudio Espacial
CODEC
Paradigmas
•Paradigmas de gravação
•Paradigmas de reprodução
•Paradigmas de codificação
Gravação
Técnicas de gravação
•Dois paradigmas principais:1. Gravação independente de fontes e
pós-produção/auralização2. Arranjo de microfones
Arranjo de microfones
• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)
Arranjo de microfones
• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)
• AB (dois omni distantes)
Arranjo de microfones
• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)
• AB (dois omni distantes)
• MS (um direcional e um figura de oito)
Arranjo de microfones
• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)
• AB (dois omni distantes)
• MS (um direcional e um figura de oito)
• Arranjos concêntricos• 5.1 (cardióides apontando para as posições dos falantes)
Arranjo de microfones
• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)
• AB (dois omni distantes)
• MS (um direcional e um figura de oito)
• Arranjos concêntricos• 5.1 (cardióides apontando para as posições dos falantes)
• Eigenmic (Usados para descrever campo sonoro chegando a um ponto do espaço)
Arranjo de microfones
• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)• AB (dois omni distantes)• MS (um direcional e um figura de oito)
• Arranjos concêntricos• 5.1 (cardióides apontando para as posições dos falantes)• Eigenmic (Usados para descrever campo sonoro
chegando a um ponto do espaço)
• Possível outros arranjos com outras configurações
Captação próxima/individual
• O áudio proveniente de cada fonte sonora é captado individualmente (close miking)
• As trilhas são mixadas posteriormente para cada tipo de sistema de reprodução.
Reprodução espacial
Técnicas de reprodução espacial
• Três paradigmas1. Panorama
2. Síntese de campo
3. Binaural
Panorama 2D
SomaVetorial
Posição da fonte
Efeito de precedência
Summinglocalization
Panorama de amplitude
Jens Blauert and Rudolf Rabenstein, Schallfeldsynthese mit Lautsprechern I − Beschreibung und Bewertung. ITG-Fachtagung „Sprachkommunikation“ – Bochum, October 2010
Panorama: Lei das Tangentes
𝑔𝐿 𝑔𝑅
tan 𝜃
tan 𝜃0=𝑔𝑅 − 𝑔𝐿𝑔𝑅 + 𝑔𝐿
𝜃
−𝜃0 𝜃0
Panorama 2D
Surround Sound
• Extensão do PANORAMA DE AMPLITUDE para um formato envolvente e comercialmente viável
Panorama 3D
Ville Pulkki, Virtual sound source positioning using vector base amplitude panning, Journal of the Audio Eng. Society,1997
Karl-Heinz Stockhausen, Spherical Concert Hall, World Expo in Osaka, 1970
VBAP: Triângulo ativo
Ville Pulkki, Virtual sound source positioning using vector base amplitude panning, Journal of the Audio Eng. Society,1997
𝑔1 𝑔2 𝑔3
= 𝑝𝑥 𝑝𝑦 𝑝𝑧
𝑙𝑥 1
𝑙𝑥 2
𝑙𝑥 3
𝑙𝑦 1
𝑙𝑦 2
𝑙𝑦 3
𝑙𝑧 1
𝑙𝑧 2
𝑙𝑧 3
−1
IEM-CUBE (Graz, Austria)
24 Loudspeakers, ~4th Order
Ambisonics
• Enquanto VBAP propõem usar 3 altofalantes por direção, AMBISONICS propõem o uso de todos os altofalantes para sintetizar um fonte virtual.
• Baseado no conceito de análise harmônica (esféricas)
Conhecemos Fourier no tempo...
1a a 3a harmônicas
1a e 2a harmônicas
Primeira harmônica
Séries de Fourier (notação complexa)
𝑠 𝑡 =
𝑚=−∞
∞
𝐶𝑚𝑒𝑗𝑚𝜔0𝑡 𝜔0 =
2𝜋
𝑇
𝐶𝑚 =1
𝑇
−𝑇/2
𝑇/2
𝑠(𝑡)𝑒−𝑗𝑚𝜔0𝑡𝑑𝑡
Séries de Fourier (notação complexa)
Domínio do tempo
Domínio da frequência
𝑠 𝑡 =
𝑚=−∞
∞
𝐶𝑚𝑒𝑗𝑚𝜔0𝑡 𝜔0 =
2𝜋
𝑇
𝐶𝑚 =1
𝑇
−𝑇/2
𝑇/2
𝑠(𝑡)𝑒−𝑗𝑚𝜔0𝑡𝑑𝑡
Harmônicas Esféricas (SH)
E. Williams, Fourier Acoustics
𝑑 𝜗, 𝜑 =
𝑛=0
∞
𝑚=−𝑛
𝑛
𝐷𝑛,𝑚 ∙ 𝑌𝑛𝑚(𝜗, 𝜑)
Soundfield TM
1st OrderEigenmic TM
~4th Order
Aquisição Ambisonics
• Propõem uma cadeia completa de gravação, transmissão e reprodução ESCALÁVEL de som espacial
Spherical microphone arraysPetersen, Moller-Juhl,
B&K, 2003-2010
Jin, v.Schaik, 2006-2010
Li, Duraiswami, O‘Donavan, Grassi, 2004-2010
Rafaely&Park, 2004/2010
Takashima, Nakagawa,Williams,2008
Meyer, Elko 2000-2010
Spherical (or platonic) sound sources
IEM Graz, Austria
CNMAT Berkeley, USA
IRCAM Paris, France
Unicamp, Campinas, Brazil
Aproximando uma onda plana
𝑒𝑗𝑘𝑟 cos 𝜃 =
𝑛=0
∞
𝑖𝑛 2𝑛 + 1 𝑗𝑛 𝑘𝑟 𝑃𝑛 cos 𝜃
• 𝑗𝑛 𝑘𝑟 é a função de Bessel esférica
• 𝑃𝑛 cos 𝜃 é o polinômio de Legendre
Aproximando uma onda plana
𝑛 = 0
Componentes de primeira ordem
𝑛 = 1
Componentes de segunda ordem
𝑛 = 2
Aproximando uma onda plana
𝑛 = 2
Aproximando uma onda plana
𝑛 = 5
Aproximando uma onda plana
𝑛 = 10
Aproximando uma onda plana
𝑛 = 20
Ambisonics
PANORAMA?
ou
SÍNTESE DE CAMPO?
Ambisonics
PANORAMA?
ou
SÍNTESE DE CAMPO?
• Ambisonics permite transição suave entre os dois paradigmas.• De acordo com seu criador M. Gerzon, para baixas
ordens Ambisonics funciona baseado em princípios psicoacústicos.
• High Order Ambisonics (HOA): síntese de campo.
Síntese de Campo: WFS
• Baseado no princípio de Huygens
Síntese de Campo: WFS
• Involve solução da integral de Kirchhoff-Helmholtz
Síntese de Campo: WFS e HOA
• Controlam o campo sonoro
• Pode sintetizar fontes pontuais a distâncias menores que a dos falantes
• Necessitam de centenas de altofalantes
• Artefatos ocorrem nas altas frequências• (depende da distância entre falantes)
Binaural
Blauert, J., 1995, "An Introduction to Binaural Technology“
Fones Falantes
Reprodução binaural
Binaural
J. Blauert. Communication Acoustics. Springer-Verlag, 2005
Individual
77
Binaural
J. Blauert. Communication Acoustics. Springer-Verlag, 2005
Individual
77
Binaural
J. Blauert. Communication Acoustics. Springer-Verlag, 2005
Individual
Individual
77
Binaural
J. Blauert. Communication Acoustics. Springer-Verlag, 2005
Individual
77
Binaural
J. Blauert. Communication Acoustics. Springer-Verlag, 2005
Individual
77
Binaural: Equalização
Equalização individual de fones
Masiero B, Fels J. Perceptually Robust Headphone Equalization for Binaural Reproduction. 130th AES Convention. London, England; 2011.
Equalização individual de fones
média
Masiero B, Fels J. Perceptually Robust Headphone Equalization for Binaural Reproduction. 130th AES Convention. London, England; 2011.
Equalização individual de fones
média
Vales suavizados
Masiero B, Fels J. Perceptually Robust Headphone Equalization for Binaural Reproduction. 130th AES Convention. London, England; 2011.
Diafonia (crosstalk)sL
sR
eReL
Crosstalk Cancellation (CTC)
I1'
t
1
t
I
t
I1
I
Left Ear
Right SpeakerLeft Speaker
Right Ear
t
Crosstalk Cancellation (CTC)
I1'
t
1
t
I
t
I1
I
Left Ear
Right SpeakerLeft Speaker
Right Ear
t
22'
2
Crosstalk Cancellation (CTC)
I1'
t
1
t
I
t
I1
I
Left Ear
Right SpeakerLeft Speaker
Right Ear
t
22'
2
3'3
3
Crosstalk Cancellation (CTC)
•
• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
82
Crosstalk Cancellation (CTC)
•
• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
82
Crosstalk Cancellation (CTC)
•
• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
𝑒𝐿𝑒𝑅
=𝐻𝐿𝐿 𝐻𝑅𝐿
𝐻𝐿𝑅 𝐻𝑅𝑅
𝑯
𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅
𝑪
𝑠𝐿𝑠𝑅
82
Crosstalk Cancellation (CTC)
• in min 𝑪 𝑪𝑪min 𝑪 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑯𝑪𝑪𝒔𝒔−𝒔𝒔𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 2 2 𝑯𝑪𝒔−𝒔2 + 𝛽 𝑪𝒔 2 𝛽𝛽 𝑪𝒔 𝑪𝒔 𝑪𝑪𝒔𝒔 𝑪𝒔 𝑪𝒔 𝛽𝑪𝒔 2 2 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2
• Goal: • 𝒎in 𝑪 min 𝑪 𝑯𝑪𝒔 − 𝒔 2 +
𝛽 𝑪𝒔 2
• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
𝑒𝐿𝑒𝑅
=𝐻𝐿𝐿 𝐻𝑅𝐿
𝐻𝐿𝑅 𝐻𝑅𝑅
𝑯
𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅
𝑪
𝑠𝐿𝑠𝑅
82
Crosstalk Cancellation (CTC)
• 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗ 𝑯𝑯+𝑰𝑰𝛽𝛽 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯+𝑰𝛽 −1 −1 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗
• in min 𝑪 𝑪𝑪 min 𝑪 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑯𝑪𝑪𝒔𝒔−𝒔𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 2 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝛽𝛽 𝑪𝒔 𝑪𝒔 𝑪𝑪𝒔𝒔 𝑪𝒔 𝑪𝒔 𝛽 𝑪𝒔 2 2 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 min 𝑪𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2
• Goal: • 𝒎in 𝑪 min 𝑪 𝑯𝑪𝒔 − 𝒔 2 +
𝛽 𝑪𝒔 2
• Result• 𝑪 = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
𝑒𝐿𝑒𝑅
=𝐻𝐿𝐿 𝐻𝑅𝐿
𝐻𝐿𝑅 𝐻𝑅𝑅
𝑯
𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅
𝑪
𝑠𝐿𝑠𝑅
82
Crosstalk Cancellation (CTC)
• 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗ 𝑯𝑯+𝑰𝑰𝛽𝛽 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯+𝑰𝛽 −1 −1 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗
• in min 𝑪 𝑪𝑪 min 𝑪 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑯𝑪𝑪𝒔𝒔−𝒔𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 2 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝛽𝛽 𝑪𝒔 𝑪𝒔 𝑪𝑪𝒔𝒔 𝑪𝒔 𝑪𝒔 𝛽 𝑪𝒔 2 2 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 min 𝑪𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2
• Goal: • 𝒎in 𝑪 min 𝑪 𝑯𝑪𝒔 − 𝒔 2 +
𝛽 𝑪𝒔 2
• Result• 𝑪 = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗
𝑒𝐿𝑒𝑅
=𝐻𝐿𝐿 𝐻𝑅𝐿
𝐻𝐿𝑅 𝐻𝑅𝑅
𝑯
𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅
𝑪
𝑠𝐿𝑠𝑅
82
Individual
CTC individual
83
#5 - #5(matched)
#6 - #2(mismatched)
Majdak P, Masiero B, Fels J. Sound localization in individualized and non-individualized crosstalk cancellation systems. J Acoust Soc Am. 2013 Apr;133(4):2055–68.
Binaural
• Estático VS Dinâmico
Masiero B, Vorländer M. A Framework for the Calculation of Dynamic Crosstalk Cancellation Filters. IEEE/ACM Trans Audio, Speech, Lang Process. 2014. 22(9):1345–54.
Binaural Dinâmico
Áudio orientado a objetoE seus desafios...
CODEC
CODEC
Sopa de letrinhas...
• MPEG-7:• padrão de descrição de conteúdo multimídia
• MPEG-4:• padrão mais comumente utilizado para compressão de
dados digitais de áudio e vídeo
• MP3:• MPEG-1/2 Audio Layer 3: um dos primeiros tipos de
compressão de áudio com perdas
Padrões MPEG
1. Parametric Stereo
2. MPEG Surround
3. Spatial Audio Object Coding (SAOC)
Parametric Stereo Coding
MPEG Surround Coding
• Usado para transmissão eficiente de formato 5.1 comprimido em stereo ou mono e metadados espaciais
• Codificação baseada em CANAIS
Stereo Upmixing
Stereo Upmixing
MPEG Spatial Audio Oriented Coding
• ISO/IEC 23003-2:2010 Standard
• SAOC utiliza o conceito de OBJETOS SONOROS, istoé, sinais monofônicos não-correlacionados, que sãofornecidos ao CODEC para compressão e podem sermixados no receptor de acordo com o sistema de reprodução disponível e as informaçõesparamétricas enviadas
MPEG Spatial Audio Oriented Coding
MPEG Spatial Audio Oriented Coding
• Mas e se não tenho as gravações individuais de cada objeto da cena?
• É aqui que entram novos paradigmas de processamento de sinais!
• Modelo da audição espacial
• Arranjos densos de microfones
• Separação cega de fontes
• Desconvolução com esparsidade
DirAC (Aalto Univ. & Fraunhofer IIS)
Agora só falta vocês botarem a boca no trombone...
Imagens extraídas dePulkki, Karjalainen, Communication Acoustics, John Wiley & Sons, 2015