00的 XR 周刊 05 - 听觉的空间感知
前面几篇文章讲解了空间视觉相关的技术基础知识,接下来,我们一起了解与视觉一样神奇的人类听觉。
我们如何听见声音?
声音是声波在空气中的传播现象。声源(如人声、乐器等)振动形成波动,也就是声波,我们通过听觉感受声波的存在,并将其解读成声音。
我们的耳朵由外耳、中耳和内耳组成。耳廓收集声波并传送到中耳转换为鼓膜振动。鼓膜振动通过耳骨传到耳蜗,由耳蜗中的感觉细胞将声波转换成电信号,最终通过听觉神经传输到大脑。
与视觉感官相比,声音的空间分辨率要低得多。声音的频率是指每秒钟传播的声波数,单位是赫兹(Hz)。人类可以听到的声音的频率范围一般在 20 Hz 到 20,000 Hz 之间。声音的高低取决于声波的频率,频率越高,声音就越高。声音的强度是指声波的能量,单位是分贝(dB)。声音的强度越大,声音就越大。人类耳能感知的声音强度范围一般在 0~140 dB 之间。
更多关于声音基础技术知识,请阅读 00 的专栏 Make Noise 。
我们如何推断声音的位置?
想象一下,你正在智能手机上使用一个 AR 增强现实地图应用。当你移动手机时,地图会更新当前的位置,并且有一个声音指示附近餐馆的位置。这时候如果继续拿着手机继续向前走,声音的音量会发生变化——接近餐厅时声音会变大,而远离时声音会变小。这些听觉线索能够帮助你在地图上找到餐厅的位置。
在这个例子中,声音提供了环境中物体的位置和距离的提示。你也许没有想过,这种「听音辨位」的能力是人类听觉了不起的成就。如果想在 XR 中模拟这种能力,就需要我们进一步了解它背后的原理。
来自空间中不同位置的声音构成了听觉空间,在听觉空间中定位声源的位置被称为听觉定位。在现实世界中我们依靠许多线索来推断声音的位置,如时间、相位、波形等。听音辨位的两个关键要素是:方向和距离。
根据声音方向定位
我们的两只耳朵所听到的声音会有细微的差别,声音的定位线索,可以建立在对到达两耳声音信号的比较之上。当声音在右边时,右耳会比左耳更早听到,而且听起来更响亮。可以根据以下两种双耳线索来定位声音:
- 双耳强度差:到达两只耳朵的声音的声音强度差异
- 双耳时间差:声音到达左耳和到达右耳的时间差
双耳强度差主要来自头部作为障碍能够产生「声影」,从而降低到达远端耳朵的音量。这种现象主要发生在高频段的声音。如果声音低于一定的频率(500~800 Hz),很难根据强度来区分。不过这个频率范围内声音的半波长,会大于一般人的头部宽度,我们还是能够根据耳朵之间的时间差来分辨。而如果声音频率高于 1500Hz,它的半波长一般会比头部小,这时声音定位的线索,更多来自头部遮挡使离声源较远的耳朵听到的声音要小一些。
信号的时间差也很重要。哪只耳朵先听到一个声音,对确定它的位置起着很大作用。
以上介绍的是横向的声音定位,它相对简单,而来自正面与背面的声音定位要比侧面的定位困难得多。因为声音从前/后方传来时,两只耳朵接收到的音量和时间差异,可能都微乎其微,起不到判断方向的作用。如果下图所示,来自 A 和 B 的声音与两只耳朵的距离相同,音量和时间几乎没有差异,也就无法实现「听音辨位」。

当然,现实并非这样简单。每个人的身体都不一样,头、颈、肩、躯干的形状都会对声音传播形成一定的遮挡、干涉或反射,大脑会利用这些修正线索来推断声音的来源方向。
更重要的是,我们的头部不会总是静止。一旦产生运动,就有更多的线索可以协助定位。比如稍微转动头部,就可以产生一些耳间时间差或者强度差。如下图所示,稍微转动头部使得 D1 比 D2 更近,有助于确定声音靠近头顶而不是下方。

根据音源距离定位
除了声源的方向,我们还会依靠这些因素来确定声音的远近离:响度、时间延迟、直达声与混响的比例、运动视差、高频衰减等。
1.响度
响度是最明显的距离线索,距离越远的声音音量越小。对那些常听见的声音,如乐器、人声、动物、车辆等等,都能较好地预测距离。对于合成的或不熟悉的声音,我们需要依靠其他线索或相对的音量变化来预测声音是在接近或消退。
2.时间延迟
初始时间延迟是指直达声和第一次反射之间的间隔。如果声源很近,直达声会立即到达,而第一次反射的声音会延迟到达。但是在开放环境如开阔平地中,可能不会产生明显的回声,就难以估计距离。

via https://developer.oculus.com/resources/audio-intro-localization/
3.直达声与混响的比例
在混响环境中,回声会相互作用并慢慢消逝。如果我们听到的直接声音越多而混响很少,就认为它越靠近。
4.运动视差
附近的声音通常比远处的声音移动得更快。例如,一只飞虫可以很快地从头的左边飞到右边,但一架远处的飞机可能需要很久。因此,如果一个声源移动得很快,我们往往会认为这个声音离我们不远。
5.高频衰减
高频的声音衰减速度比低频快,我们可以根据高频的衰减程度来推断距离,不过距离足够远时衰减才明显。

Ref
- Localization and the Human Auditory System | Oculus Developers
- Make Noise
- Goldstein, E. B., & R.Brockmole, J. (2018). 感觉与知觉(第十版) (张明, Trans.).中国轻工业出版社
- Perception: 10.2 - Localizing Sounds - YouTube
- What is Virtual Surround? - Spatial Audio Explained - YouTube