视觉冲击音频缺失的vr虚拟现实怎样创造沉浸感

关注+2016-03-22作者：张瑞博

视觉冲击音频缺失的VR虚拟现实怎样创造沉浸感？VR 头显厂商为了营造沉浸感，挖空心思提升关键技术参数，刷新率、头部追踪延迟、视场角、分辨率等，但唯一缺少的就是音频。

VR 音频的价值究竟在哪儿？VR 视频制作公司、著名导演 David Marlett 的一句话或许能让我们找到答案。他说，VR 影视作品和传统影视的本质区别在于——大信息量选择性摄入。对于大脑而言，听觉和视觉，一开始就是协同工作而非单独分析，只有通过声音的判断，我们才能够做出现实世界中的反应。VR 头显厂商为了营造逼真沉浸感，挖空心思提升关键技术参数，比如刷新率、头部追踪延迟、视场角、分辨率等，但这些参数中，唯一缺少的就是音频。

为什么音频对沉浸感有这么重要的作用？我们来把美国哲学家希拉里·普特南曾提出的 “缸中之脑” 的概念套用在 VR 中。如果想获得完全的沉浸感，那么你在 VR 世界中获取信息后作出的反应，就应该与现实世界中获取信息后的反应保持一致。比如：当一位美女在你左侧拍手，你在现实中正常的反应就应该是向左侧转身，然后获取拍手的人是美女这个信息，即：听到拍手声（判断行为依据）—— 转身（行为动作）——看见美女（信息获得）。可见，声音在这里起到的作用是行为产生的最初始依据。这就是全景音频对 VR 体验的价值，它是引导用户获取信息的 “线索”。

VR 的一个重要问题就是信息的选择性摄入，在传统显示方式中所有的信息都在用户的面前，没法选择。但 VR 不同，它提供了全景的观看模式，有更丰富的画面供选择，但反而迷失了方向，不知道按照什么顺序观看。所以，你会看到，大部分人带上头盔后都是上下左右看一圈，然后就不知道看哪儿了，这种体验只能带来观感的丰富性，但并无沉浸感可言。而有了 VR 音频，就完全不同。我们通过声音信息，来指引用户观看的顺序和逻辑，尤其是 VR 影视，导演需要引导关注点在不同的信息点上移动。而大量无序的并发信息，在没有引导的情况下，最终就会把用户搞得晕头转向，产生观感混乱。

其实，这个问题，国内外各大 VR 厂商早就心里有数。Oculus Rift 集成了数字 HRTF（人头相关函数）算法，可以实时计算出游戏世界中声源的方位与距离信息。在影视制作方面 Core Sound、Nokia、3Dio 也推出了解决 VR 音频的技术方案。大名鼎鼎的森海塞尔也在 2015年CES 上宣布进入 VR 音频行业。

目前主流的 VR 音频采集方案，主要涉及到声场还原技术和 HRTF 人头传递函数：

声场还原技术

这是一项十多年前就成熟的技术，最出名的应用就是 Sound Field Digital Surround Sound Microphone Systems，通过 4 个方向的麦克风采集的信息分离开，模拟出 5.1 ;7.1; 10.1 甚至更多方向的声道，然后通过家庭影院或者影院的音响系统回放还原。

HRTF（人头传递函数）

人们听到的声音和空间中实际发出的声音其实是不同的，声音在传到鼓膜之前会受到人头部以及头部上各种结构以及材质的干扰，而些干扰可以被大脑察觉并且成为空间判断的依据，这就是为什么人可以分辨声音方向与距离的原因。HRTF 可以理解为这些干扰的统称，它从实现方式上可以分为数字 HRTF 和自然 HRTF。Oculus Rift 和很多游戏中采用的就是数字 HRTF，而自然 HRTF 是基于双耳录音（Binaural recording）的实现方式，但是因为实现方式不能像数字 HRTF 那样自由，所以主要应用在影视以及音乐制作中。目前数字 HRTF 由于各种限制，还无法达到自然 HRTF 的真实效果。

目前，市面上能解决 VR 音频的技术方案各有各的优势，主要包括以下几张实现方式：

一是，4 向采集---声场还原---数字 HRTF 模拟---全景回放，包括 SoundField Digital Surround Sound Microphone Systems、Core Sound TetraMic 等。这种解决方案的最大优点在于体积小方便携带，但缺点是方向信息是通过模拟产生，与实际声场有很大区别，通过后期数字 HRTF 加工，来还原出音源方向。

二是，立体 8 向采集---声场还原---数字 HRTF 模拟---全景回放，目前只有 NOKIA、OZO 使用这种技术方式，主要采用数字 HRTF 方案。NOKIA 使用了按照等边多边形方式摆放的 8 个声音传感器来收集数据，然后通过声场还原出 360 度各个方位的声音信息，再通过数字 HRTF 运算来加工为人可以感受的 VR 音频。不足之处在于，将所有的声场运算与 HRTF 运算全部在终端设备中完成，这个运算量对使用手机设备作为终端的 VR 设备来说，压力巨大，且价格较高，约 6 万美元。

三是，自然 HRTF 采集---声场优化---全景回放，包括 3dio、Omnia（OculusVR 音频技术合作商）在内的 VR 音频采集设备。这种解决方案由双耳录音（Binaural recording）技术发展而来，采用自然 HRTF 而非数字 HRTF，在声音的逼真度上较高，用户可以清楚的辨认出方位和距离，对于要求较高的 VR 拍摄团队或企业来说，性价比较高。目前，Oculus VR 与三星 Gear VR 的 Demo 视频就是采用这种方案制作的。这种方案的技术难点在于如何保持自然 HRTF 采集的仿真度，3Dio 采用简化 Binaural 的方式，损失大量的面部以及轮廓干扰，Omnia 保持了轮廓与面部特征，但是由于所有特征都挤在了一个水平面上，所以各个方向上的特征会互相干扰影响效果。而另一种技术则采用同轴 X Binaural 技术，采集 8 个方向的信息，可以避免干扰，最大限度还原了人耳的声音效果。

根据 Digi-Capital 的数据，VR 音频市场预计 2016年将超过 7000 万美元，到 2020年达到 5 亿美元。对大众来说，VR 领域中有太多的陌生概念需要理解，相比 VR 视频来说，音频的关注度还相对较好。但我们发现，近期多家创业公司完成融资，进入发展快车道，这也显示出资本市场的投资新方向，随着人们对 VR 音频重要性认知的逐步成熟，这个领域前景可期。