00的 XR 周刊 03 - 视觉空间感知的限制因素
在《视觉的空间三维感知》一文中,我们知道人类的三维视觉依赖很多深度线索。但是在 XR 中很难模拟所有线索,例如,系统性能不支持计算实时阴影,其中一些深度线索可能是错误的,甚至相互矛盾。这会给体验带来负面的影响,如对空间中物体位置的误判,破坏沉浸感,还可能引起疲惫和头痛。
除了对深度线索的计算和呈现不足,XR 的头戴设备(以下简称 HMD)的视觉输出部分还受限于许多硬件参数,包括分辨率、视场角、亮度、自由度、可用性、位置等等。
分辨率
空间计算虽然大大增加了感知和互动的范围,但是人眼所见依然依靠屏幕来显示。视觉显示器的分辨率可以用总像素数或分别指定水平和垂直像素数来表示。输出设备的分辨率对可以显示的细节至关重要,所以我们会很关注 HMD 的显示器部分,比如分辨率、刷新率、对比度等参数。然而,位于屏幕前方的透镜同样重要。
对 VR 头显来说,我们并不是直接看着显示屏,而是通过透镜看到一个尺寸被放大后的屏幕。这个透镜本质上是个放大镜,提供更宽的视场,可以让我们用一个小屏实现大屏才有视觉覆盖率,但也带来了画面被透镜放大后拉伸变形的问题。畸变校正可以靠组合镜片式的硬件方案,但难以做到理想的体积、可视角度也很难增大,现在也使用算法逆向修正画面的技术。除了分辨率参数,还有很多影响 VR 头显清晰度的要素,比如子像素配置和排列方式、放大后的虚拟屏尺寸等。
FOV
HMD 的视场角(Field of View)是指在不移动眼睛或头部的情况下可以看见视野范围。视野的大小对沉浸感有很大的影响,因此,评价视觉输出设备的一个重要标准是 FOV 的大小。
FOV 通常用水平和垂直角度值来表示,有时候也使用对角线。人类的视野在水平方向约为 214°(施夫曼,2014),垂直方向一般要小得多,约 130°~150°。单眼 FOV 可以分为两部分,鼻子和瞳孔之间大约是 60°,瞳孔与头部之间约为 100°~110°。 双眼叠加的可以感知区域大约为 120°(水平)(Broll et al., 2022)。

目前市面上主流 HMD 的 FOV 都只能覆盖部分视野,AR 设备的 FOV 一般比 VR 设备要小。
- Quset 2 FOV:100°
- Pico 4 FOV:105°
- Nreal X FOV:46°
- HoloLens 2 FOV:43°

瞳距和垂直偏移
使用 HMD 时,观看者眼睛的位置尤其是瞳距 (IPD , Interpupillary Distance) 和垂直偏移 (VO, Vertical Offset) 对于观看的舒适度很重要。
瞳孔间距离是两眼中心之间的距离,成年人的瞳孔距离通常在 45~75 毫米之间,平均是 64 毫米,个体差异很大(Doerner 等,2022)。VO 是指虚拟内容相对于眼睛水平轴的垂直偏移。
瞳孔距离的微小变化可以导致深度感知的巨大变化,对虚拟内容的大小和距离的感知也有直接影响。如果 HMD 的两块镜片之间的距离恰好等于使用者的瞳距时,观看体验最为舒适。如果两者之间存在小幅度差异,人眼可以一定程度上调节和自适应。但是当使用者瞳距过大或者过小时,双眼会较难对焦到物体上,从而产生眩晕感。如果偏离太大,可能会加剧辐辏调节冲突引起的不适。
许多 VR 眼镜可以手动调整瞳孔间距以适应个性化需要。另外一些 VR 眼镜因为要降低重量和简化机械结构,会将镜片中心距离固定在人类瞳距的平均值(~64mm)位置。
亮度、光照度和动态范围
亮度(Brightness)是对感觉到的光量的主观衡量。受限于 XR 设备的硬件限制,用户感受到的亮度,会受到视野的大小和场景内容等等的影响。描述平面光源亮度更好的方法是照度(illuminance) ,即每单位面积所接收的光通量。
动态范围(Dynamic Range)描述了显示设备的最小亮度与最大亮度之间的比率,能够反映对各种亮度、对比度和颜色的支持。亮度会影响 XR 应用的使用场景:如果亮度太低,只能在较暗的地方使用;如果亮度足够大,就可以在较强光照甚至日光下使用。环境光代表显示器环境中的光线,包括场景中的所有光线,除了从显示器本身发出的光。明亮的环境光通常会导致显示器的亮度降低。即使光源的亮度并没有改变,由于对比度的降低,感知到的光量也会变少。
分辨率、畸变校正和变焦都是高级视觉真实感的关键,但高动态范围(HDR)是与增强真实感和深度联系最紧密的技术。
尼特(nit)是描述对象发出多少光的单位,室内环境的典型值远远超过 10000 nit,如下所示。

来源:Meta VR 视觉图灵征途:深度分享变焦、畸变、高分辨率、HDR 等原型设计和研发 - 映维网资讯
Quest 2 的峰值亮度约为 100 nit,在 VR 头显的功率、散热和形状参数限制下,要想大幅提升 HDR 并不容易。正如扎克伯格 2021 年在一次采访中所说:“在显示器和使其变得超级逼真方面,最困难的挑战可能是 HDR 问题。与眼睛在现实世界中看到的屏幕相比,我们所看到的屏幕逼真度尚差一个数量级或更多。”
2022 年 6 月 Meta Reality Lab 推出的一款名为 Starburst 的原型,展示了在 HDR 方面的进展。

Meta VR 视觉图灵测试:Starburst_哔哩哔哩_bilibili
渲染率 Rendering rates
为了让虚拟对象看起来像在现实世界中一样稳定流畅,应用程序需要从用户的位置渲染图像。不管 HMD 转向任何方向,都能看到视图准确及时地更新,这是用户最自然的期望,也是沉浸感的基础。以每秒至少 60 帧的速度渲染,并保持帧率稳定,有助于实现这一目标。帧率以赫兹(Hz)或每秒帧数(FPS)为单位。以如果设备支持高于 60 FPS 的帧率,则有可能进一步提升用户体验。
一致的帧率使摄像机的视角尽可能与用户的物理姿势相匹配。如果帧率变化,虚拟画面与物理摄像机的位置不一致时,画面可能会抖动。也就是说,尽管 HMD 继续进行物理运动,但用户看见的却是过去某个时间的历史渲染帧,能够感受到运动不均匀和重影。虚拟对象运动速度越快、渲染速率越低,用户感知到的抖动就越明显。
由于图像渲染需要时间,HMD 可以预测当图像显示时用户的头部位置。预测算法得到一个近似值,算法和硬件会调整渲染图像,以减少预测位置与实际头部位置之间的偏差。这个过程使用户看到的图像似乎是从正确的位置渲染的,并且感觉稳定。这个技术最适合调整头部位置的微小变化,但对其他一些渲染差异,例如由运动视差引起的偏差则用处不大。
始终保持 60 FPS 以上的帧率有助于避免抖动,但这也会带来大量的计算压力。现在很多显示设备分辨率可达 1920×1080 像素,如果图像每秒要重绘 60 次,那么每秒就要计算将近 1.25 亿个像素。实时输出高分辨率的图像需要非常强大的硬件。
延迟
输出设备需要一定的时间来输出所传输的数据。行动和系统响应之间的时间跨度被称为延迟,更具体来说,是用户头部运动和屏幕上显示的更新图像之间的所用时间。在 XR 中,只有当用户行为及时响应并被感知,才有可能获得沉浸式体验。当使用 HMD 时,低延时尤其重要,因为要显示的场景与用户当前的头部方向相关。
延迟是造成 VR 不适感的主要原因之一。因为头部运动和图像更新之间的滞后,会导致感觉冲突和前庭-眼球反射的错误。AR 应用有更高的延迟要求,因为虚拟物体需要锚定在现实世界中,而现实世界不存在延迟。
XR 设备的延迟包括传感器响应、跟踪系统计算、融合、网络通信、渲染、图像传输和显示等时间(Buhr et al., 2022)。
- 追踪延迟:各种传感器捕捉的运动数据需要汇集与融合,响应最慢的传感器,决定了追踪环节的整体延时。
- 传输延迟:数据、图像、指令等传输时表现出的延迟。
- 模拟延迟:传入的追踪事件被处理以模拟用户交互,包括模拟所需的计算和等待时间,可能因应用不同而变化很大。
- 渲染延迟:在模拟计算出新的状态后,渲染成适合的输出格式也会引起延迟。渲染不仅包括视觉,也包括如听觉和触觉输出。
- 显示延迟:渲染数据显示在输出设备上的延迟。1/60 秒通常已经让用户无法察觉出图像序列的间隔。但对 XR 系统来说,还需要保证恒定的延迟。但是只要用户稍微改变视角,就会导致重新计算,在场景复杂的情况更是如此。
应该尽量保证延迟低于人类的感知阈值。当延迟超过 60ms 时,头部运动和虚拟世界运动之间的脱节开始导致不适,建议 HMD 的延迟应低于 50 毫秒(Ellis,2009)。Meta Reality Lab 的负责人 Michael Abrash 曾在 2012 年提到,15 毫秒延迟可能是阈值,甚至是 7 毫秒(Abrash,2012)。超过这个范围,用户对环境的沉浸感和舒适感就会降低。
When it comes to VR and AR, latency is fundamental – if you don’t have low enough latency, it’s impossible to deliver good experiences, by which I mean virtual objects that your eyes and brain accept as real.
By “real,” I don’t mean that you can’t tell they’re virtual by looking at them, but rather that your perception of them as part of the world as you move your eyes, head, and body is indistinguishable from your perception of real objects. […]
I can tell you from personal experience that more than 20 ms is too much for VR and espe- cially AR, but research indicates that 15 ms might be the threshold, or even 7 ms. (Abrash 2012).
Perma | Latency – the sine qua non of AR and VR | Valve
对延迟的容忍如此之低,可能会让人感到惊讶。虽然动画的帧率通常是 24 帧,但实际上人们能感知或区分更高频率的图像。这里需要区分刷新率和帧率。一个人不会感知到图像序列的临界刷新率约为 50 Hz,但只有当刷新率超过 100 Hz 时,图像才被认为是真正的无闪烁。对于 HMD 来说,帧率起着更大的作用,更重要的是屏幕的延迟要低,这样内容就能在最短的时间内更新。同样重要的是帧率的变化。如果延迟是不可避免的,它的变化越大,就越让人不舒服。**我们要做的是尽可能降低延迟,以及让延迟的变化最小。**人们最终会习惯于持续的、可预测的延迟,但波动的、不可预测的延迟,时间越长就越令人感到不适。(Buhr et al., 2022)
如果你愿意支持 00 持续创作,欢迎到爱发电给我充电 😊

Ref
-
哈维·理查德·施夫曼. (2014). 感觉与知觉(第 5 版) (李乐山 等, Trans.). 西安交通大学出版社.
-
Broll, W., Grimm, P., Herold, R., Reiners, D., & Cruz-Neira, C. (2022). VR/AR Output Devices. In R. Doerner, W. Broll, P. Grimm, & B. Jung (Eds.), Virtual and Augmented Reality (VR/AR): Foundations and Methods of Extended Realities (XR) (pp. 149–200). Springer International Publishing.
-
Buhr, M., Pfeiffer, T., Reiners, D., Cruz-Neira, C., & Jung, B. (2022). Real-Time Aspects of VR Systems. In R. Doerner, W. Broll, P. Grimm, & B. Jung (Eds.), Virtual and Augmented Reality (VR/AR): Foundations and Methods of Extended Realities (XR) (pp. 245–289). Springer International Publishing.
-
Meta VR Headset Research Prototypes: Butterscotch, Starburst, Holocake 2 - YouTube
-
Understanding Performance for Mixed Reality - Mixed Reality | Microsoft Learn
-
Ellis SR (2009) Latency and user performance in virtual environments and augmented reality. Distributed Simulation and Real Time Applications, DS-RT 09, p. 69