不再错过精彩瞬间！VR预判直播的智能化设计-清华大学未来实验室

不再错过精彩瞬间！VR预判直播的智能化设计

2022-02-24

以冰球为例，虚拟现实直播的镜头预判及视听语言等影像设计来了！

01 ——

VR技术在冰雪赛事

VR in the Winter Olympics

美国著名媒介理论家保罗·莱文森在《数字麦克卢汉》中提出了“补偿性媒介”理论，认为任何一种后继出现的媒介，都是对于过去的某一种媒介先天不足的补救和补偿。VR 技术的出现有效地补足了线上观赛的“临场性”“沉浸性” 和“交互性”等体验的不足。[1]目前，国内外主流技术路径，多采用多路摄像机进行全景视频的多视角安装、多角度采集、图像缝合与重叠等技术。代表性技术有：

Google公司提出的Sim2Real系统（2018）[2]，可以对自由视点运动视频沉浸式导航的摄像机完成自动校准，实现了体育赛事中沉浸式自由视点的导航；
Sabirin H等人（2018）[3] 通过自动相机校准、对象提取、对象跟踪和对象分离等方式，实现了VR沉浸式体育赛事的“即时回放”；
Inter与NFL（2019)）合作搭建38台5K超高清摄像头，实现了沉浸式6DoF精彩直播。

迄今为止，国内外利用 VR 技术围绕赛事直播和观赛体验有关的应用成果丰硕，但同时也存在明显的挑战。

1 - 应用 : 交互“沉浸感”与判罚“无死角”

从1948年瑞士圣莫里茨冬奥会首次使用狭缝摄影机来解决判罚失误，到1960年美国斯阔谷冬奥会开发“慢速回放”来定格精彩瞬间，再到2018年平昌冬奥会首次使用VR直播实现技术来实现360度沉浸性观赏，追溯冬季赛事运动的历史，每一次都与科技创新休戚相关。

在平昌冬奥会中，欧洲体育频道首次提供了“冬奥VR”App，成功实现了高山滑雪、花式滑冰、冰球和闭幕式等的直播。[4] VR冬奥会的结合，加速了虚拟沉浸式体验布局，冰雪爱好者可以利用VR媒介“亲身经历”冬季赛事的全程，人们在“零距离”感受冰雪赛事的同时，还可以跟随自己喜爱的运动员任意切换视角。此外，由于冰雪场地的特殊性和运动高速性，裁判在判别上存在着一定的困难，通过VR全景回放，可以在很大程度上帮助裁判解决传统直播媒介技术难以解决的“死角”问题。

2 - 挑战：镜头设计中“精彩瞬间”与“镜头美学” 的缺失

相比夏季赛事，冬季赛事受运动员速度过快等影响，人的眼睛很难对其进行移动性的捕捉和追踪，这导致多数直播都采用固定全景以上的机位。2018年平昌冬奥会就采用了多个固定VR机位完成，虽然用户可以自由交互选择不同的机位和视角，但由于运动速度过快，用户还来不及反应，就可能已经错过了精彩瞬间，对于一些强调观赏性的用户而言，完整地再现运动员的比赛瞬间才是关键，但是当下的VR直播缺乏对比赛事件的引导与关注。此外，冰雪运动的极速性还导致VR镜头语言的美学缺失。以冰球为例，冰球从被击打到进球的时间介于0.3秒到1秒之间，这导致导播人员无法在短时间内进行镜头语言的设计。综上所述，已有研究仅关注VR影像的交互性、沉浸性、虚拟性和临场性等特质，缺乏对“精彩瞬间”预判机制的处理，忽视了将视听语言与镜头美学纳入VR直播中的设计考究。

02 ——

VR 直播的智能化设计

Intelligent design for VR live broadcast

基于以上VR技术在冰雪赛事中的应用与挑战分析，我们基于大数据和人工智能设计了面向冰球赛事的VR直播智能化系统，该系统主要由两个部分组成：镜头预判系统和镜头语言系统。

1 - 镜头预判系统设计

镜头预判系统，即帮助用户可以快速完成“即时性精彩瞬间”的捕捉，通过对海量冰球赛事中运动员的体态进行深度学习，对可能发生的“精彩瞬间”提前准备好机位。我们的设计思路是，首先将运动员行动的“功能”与“回合”作为叙事事件的结构。在《论艺术中的现实主义》一书中，罗·雅科布松（Roman Jakobson）认为，叙事究其本质构成都是一样的，都是以某种行动因作为驱动故事事件的触发。[5] 俄国形式主义作家拉基米尔·雅科夫列维奇·普罗普（Vladimir Propp）认为，所有的叙事形态应当具备一种深层结构，这些结构如同一种“公式组合”完成不同故事的建构，功能（function）可以视为叙事中最小的构成单位，功能上的单位是“回合”，即由一系列“功能”单位组合而成的叙事单位。[6] 因此，如果把冰球的一次比赛作为“回合”单位，我们可以依次划分出碰撞、防守、传球、击球、运球、战术队形等关键“功能”，从而在冰球比赛的众多姿态中，完成关键姿态的划分。

在关键姿态的划分后，我们针对性地对冬奥测试赛的VR原始视频进行了逐帧提取，共计切割出原始素材 64210个，并进一步对其进行有效素材的筛选，最终完成标记数据12489个，并以此作为神经网络训练和测试的基础数据集。基于以上数据集，我们采用YOLOv5神经网络模型[7]，来对冰球比赛中的“功能”单元进行深度学习。YOLOv5神经网络在模型的快速部署上具有极强优势，往往应用于自动驾驶之中，对快速的多目标识别推理速度可以达到7毫秒，这对于冰球比赛而言，可以快速进行捕捉。通过使用最终训练完成的多目标识别系统，我们能够通过计算机实时定义VR比赛中的运动员的姿态事件。

Figure 3. 利用人工智能完成对冰球比赛的“功能”识别

在完成对于运动员关键姿态的识别和捕捉后，我们又进一步尝试了预判功能的设计。通常而言，身体的肢体形态往往映射出下一个连贯性的动作，而这种连贯性动作受到人体自身结构的影响，不会出现大幅度的肢体改变，因此我们基本可以预测出动作轨迹。例如，当一个人蓄力向前方跳跃时，通过采集大量的数据，我们可以通过第 2、4 帧关键姿态持续的时间，来完成对于第 6 帧的预测。因为动画制作中只要完成关键帧的绘制，就可以利用软件完成中间帧的生成。利用这一点，我们利用训练好的神经网络对冰球比赛进行“功能”事件持续事件的采集和训练，并依次得出碰撞、防守、传球、击球、运球、战术队形等关键“功能”所持续的时间。

通过以上工作，我们成功地完成了冰球比赛中关键姿态的“功能”划分、深度学习、多目标姿态检测与识别，以及对于不同“功能”持续时间的采集，让系统可以基于某一个关键姿态持续时间的捕捉快速预判出下一个“功能”事件的发生轨迹和时间点。这样，人工智能预判系统就可以辅助现场的 VR 摄影机完成“精彩瞬间”的切换，突破了肉眼捕捉的局限性。

2 - 镜头语言设计

除了对于VR直播精彩瞬间的预判性捕捉，在VR镜头设计中也应给予美学考虑。1964年，克里斯蒂安·麦茨在《电影：语言还是言语》中对电影符号学的美学价值进行了梳理，并对视听语言的八大组合段赋予了不同叙事话语的解读，认为镜头语言的组接方式是一种对于影像的修辞手法。导演谷克多和阿历山大·阿尔诺也认为电影是用画面写的书法，是一种画面语言，有自己的“单词”和“造句措辞”。[8] VR作为一种新的媒体形式，在叙事表达、空间表现等因素上具有更多的新特质，表现出有别于传统镜头语言的独特模式。

使用VR进行镜头语言的设计面临着两个问题：首先，如何消除“眩晕感”？我们认为，VR 360度的沉浸观影会导致物理空间与影像空间的脱节，人们在观看冰球比赛的时候，什么样的镜头角度、景别和运镜可以更加符合生理感受？对此，我们提出了一套VR直播语言的设计方案，基于传统视听语言基础，针对7种功能事件，单独对其设计VR镜头方案，力图保证每一个事件本身的表达既有美学考究，又符合观众的影像预期，而不产生眩晕感。

以“碰撞”事件为例，运动员之间的碰撞瞬间及肢体反应是画面需要关注的重点，由于该事件持续时间相比其他几种事件更长，且视觉冲突更加强烈，我们在首选运镜中会采用“前跟+仰角”。一方面，前跟镜头可以遮蔽其他外来要素，在较长时间范围内有效突出一个具体的运动主体。一般而言，从事件的开始到结束都处于相对稳定的景别，观众可以有效关注碰撞的瞬间，在保持其他运动员介入所带来的神秘感和戏剧冲突前提下，利于表现VR画面空间完整性和连贯性。另一方面，仰角可以适当增强运动员的形变透视，突出碰撞时的视觉冲击，增强透视的流动感，详尽地表现运动员在行动中的动作和表情。下表中我们为每一个事件类别进行基础镜头语言设计，包括运镜方式和语言特质。

Table 1. 面向冰球基础事件的 VR 镜头语言设计

其次，在每一个功能事件自洽后，针对7种不同功能事件的不同组合来进行语法设计，即从第一个问题的“单词”转向第二个问题中“语句”和“段落”的设计，特别是针对现场的导播人员在何种情况下采用哪种“语句”和“段落”更加具有观赏性进行设计。对此，我们对按功能事件的镜头选取方式进行叠加、排列等组合，即完成从“功能”（单词）到“回合”（语句/段落）的组合，并将不同的组合放置在VR虚拟动画场景中进行仿真模拟，利用仿真视频进一步检验，从而根据不同的“回合”找到最优方案。在VR直播时，我们可进一步通过镜头的预判系统，实时模拟出若干潜在可能的比赛路径，即可能发生的“回合”，然后根据实时的数据结果辅助现场导播人员选择出最优的组合方案。

未来展望

我们认为在冰雪赛事中采用人工智能和大数据技术路径构建新一代VR智能直播系统，通过“预判系统”和“镜头语言”的底层设计可以解决VR直播中存在的问题。我们希望VR直播的智能化设计可以在未来应用在更多的体育赛事直播中，助力冬奥会以及未来体育赛事、大型活动的VR全景展现。