到底什么样的音频体验才能被称得上是真正的空间音频?
Q: 昨天晚上用苹果Vision Pro看NBA,空间音频效果特逼真,能听出欢呼声像海浪一样环绕球场一圈,你说空间音频这么牛的技术,在VR生产力场景会不会也很有用?
A: 不一定。空间音频,主要是为了创造“沉浸感”,先天为娱乐而生,如果用在生产力场景,你可能反而很痛苦。
我们用AVP构建过多屏虚拟办公的环境,对30多名软件工程师做过行为观察。多屏开发环境,采用这样的典型布局:左侧是代码编辑器,中间是开发文档,右侧是Slack/钉钉等协作工具,还有一个始终播放音乐的小组件,被锚定在虚拟办公室右边的墙上。
我们想观察:在用户多屏办公的过程中,哪些因素会干扰他们的注意力? 结果让人震惊。
在工作状态下,用户的视线会在三个窗口之间频繁地切换,伴随着无意识的、小幅度的头部转动,大约平均每分钟10-15次。最想不到的是:空间音频,本来应该锦上添花,结果成了最严重的干扰。 当用户转头看左边代码的时候,右边的音乐声会迅速“滑”过右耳,平衡被打破了;当他的视线回到中间文档的时候,声场也随着“滑”回来。每一次轻微转头,都会触发一次声场漂移,完全不受控制,你的大脑也一直在跟着声场来回跑,引起了一种 “声音的眩晕”。
Q: 空间音频,本来就是模拟真实场景,怎么反而成了干扰呢?
A: 确实很反直觉,我后来想明白了。VR其实有两种完全不同的体验模式:
沉浸模式:目标是 “融入” 。比如VR游戏串流、沉浸式电影、沉浸式转播(体育比赛、演唱会),用户希望视觉和听觉被360度包围。你听到的声音和你看到的对象,两者在3D空间中的位置是完全紧密耦合的,才有可信的感觉。这时候,空间音频是沉浸感的基础。
专注模式:目标是 “投射” 。比如2D游戏投屏、虚拟多屏办公,用户把虚拟屏幕看成是一个巨大的平面窗口,用户需要 “清晰的、稳定的信息流” 和 “不分散注意力的背景”,才能高效的工作。
多屏办公时,空间音频不重要,反而可能掉入 “拟物化陷阱” (这里借用一下乔纳森·艾维的说法)。
因为在真实办公时,如果想看旁边的显示器,我们不用转头,只需要转动眼球。但在虚拟办公时,VR屏幕边缘的画质会下降,转动眼球也看不清楚,所以我们会更频繁的转头。这时候,把音频锚定在虚拟空间的一个固定位置,声场随着转头不断变化,就费力不讨好了,相当于用真实世界的物理规则,惩罚虚拟世界的高效行为。
Q: 你的解决方案是啥?关闭空间音频?
A: 最好是有两种 “音频模式”,支持自动切换。
- 空间锚定模式:适用于沉浸场景(娱乐:VR游戏、全景视频),声音和音源绑定。
- 屏幕跟随模式:适用于专注场景(生产力:2D游戏、多屏办公),声音和屏幕绑定。无论用户的头怎么转,音乐播放器的声音都稳定地来自“相对于屏幕”的某一个固定方向(比如屏幕右侧),声场的平衡不随着转头剧烈变化。
Q: 如果每个场景都定制,会不会太复杂了?
A: 也没那么多场景,简单分就是两大类:沉浸、专注。把这两个解决好了,体验就上了一个台阶。就是让声音变得更懂事,知道什么时候做360度环绕的“气氛组”,什么时候当透明无感的“背景板”。
就这么简单。