不再错过精彩瞬间!VR预判直播的智能化设计

2022-02-24

以冰球为例,虚拟现实直播的镜头预判及视听语言等影像设计来了!

top.png

01 ——

VR技术在冰雪赛事

VR in the Winter Olympics

美国著名媒介理论家保罗·莱文森在《数字麦克卢汉》中提出了“补偿性媒介”理论,认为任何一种后继出现的媒介,都是对于过去的某一种媒介先天不足的补救和补偿。VR 技术的出现有效地补足了线上观赛的“临场性”“沉浸性” 和“交互性”等体验的不足。[1]目前,国内外主流技术路径,多采用多路摄像机进行全景视频的多视角安装、多角度采集、图像缝合与重叠等技术。代表性技术有:

  • Google公司提出的Sim2Real系统(2018)[2],可以对自由视点运动视频沉浸式导航的摄像机完成自动校准,实现了体育赛事中沉浸式自由视点的导航;

  • Sabirin H等人(2018)[3] 通过自动相机校准、对象提取、对象跟踪和对象分离等方式,实现了VR沉浸式体育赛事的“即时回放”;

  • Inter与NFL(2019))合作搭建38台5K超高清摄像头,实现了沉浸式6DoF精彩直播。

迄今为止,国内外利用 VR 技术围绕赛事直播和观赛体验有关的应用成果丰硕,但同时也存在明显的挑战。


1 - 应用 : 交互“沉浸感”与判罚“无死角”

从1948年瑞士圣莫里茨冬奥会首次使用狭缝摄影机来解决判罚失误,到1960年美国斯阔谷冬奥会开发“慢速回放”来定格精彩瞬间,再到2018年平昌冬奥会首次使用VR直播实现技术来实现360度沉浸性观赏,追溯冬季赛事运动的历史,每一次都与科技创新休戚相关。


在平昌冬奥会中,欧洲体育频道首次提供了“冬奥VR”App,成功实现了高山滑雪、花式滑冰、冰球和闭幕式等的直播。[4] VR冬奥会的结合,加速了虚拟沉浸式体验布局,冰雪爱好者可以利用VR媒介“亲身经历”冬季赛事的全程,人们在“零距离”感受冰雪赛事的同时,还可以跟随自己喜爱的运动员任意切换视角。此外,由于冰雪场地的特殊性和运动高速性,裁判在判别上存在着一定的困难,通过VR全景回放,可以在很大程度上帮助裁判解决传统直播媒介技术难以解决的“死角”问题。


2 - 挑战:镜头设计中“精彩瞬间”与“镜头美学” 的缺失

相比夏季赛事,冬季赛事受运动员速度过快等影响,人的眼睛很难对其进行移动性的捕捉和追踪,这导致多数直播都采用固定全景以上的机位。2018年平昌冬奥会就采用了多个固定VR机位完成,虽然用户可以自由交互选择不同的机位和视角,但由于运动速度过快,用户还来不及反应,就可能已经错过了精彩瞬间,对于一些强调观赏性的用户而言,完整地再现运动员的比赛瞬间才是关键,但是当下的VR直播缺乏对比赛事件的引导与关注。此外,冰雪运动的极速性还导致VR镜头语言的美学缺失。以冰球为例,冰球从被击打到进球的时间介于0.3秒到1秒之间,这导致导播人员无法在短时间内进行镜头语言的设计。综上所述,已有研究仅关注VR影像的交互性、沉浸性、虚拟性和临场性等特质,缺乏对“精彩瞬间”预判机制的处理,忽视了将视听语言与镜头美学纳入VR直播中的设计考究。



02 ——

VR 直播的智能化设计

Intelligent design for VR live broadcast

基于以上VR技术在冰雪赛事中的应用与挑战分析,我们基于大数据和人工智能设计了面向冰球赛事的VR直播智能化系统,该系统主要由两个部分组成:镜头预判系统镜头语言系统

figure1.png

1 - 镜头预判系统设计

镜头预判系统,即帮助用户可以快速完成“即时性精彩瞬间”的捕捉,通过对海量冰球赛事中运动员的体态进行深度学习,对可能发生的“精彩瞬间”提前准备好机位。 我们的设计思路是,首先将运动员行动的“功能”与“回合”作为叙事事件的结构。在《论艺术中的现实主义》一书中,罗·雅科布松(Roman Jakobson)认为,叙事究其本质构成都是一样的,都是以某种行动因作为驱动故事事件的触发。[5] 俄国形式主义作家拉基米尔·雅科夫列维奇·普罗普(Vladimir Propp)认为,所有的叙事形态应当具备一种深层结构,这些结构如同一种“公式组合”完成不同故事的建构,功能(function)可以视为叙事中最小的构成单位,功能上的单位是“回合”,即由一系列“功能”单位组合而成的叙事单位。[6] 因此,如果把冰球的一次比赛作为“回合”单位,我们可以依次划分出碰撞、防守、传球、击球、运球、战术队形等关键“功能”,从而在冰球比赛的众多姿态中,完成关键姿态的划分。

figure2.png

在关键姿态的划分后,我们针对性地对冬奥测试赛的VR原始视频进行了逐帧提取,共计切割出原始素材 64210个,并进一步对其进行有效素材的筛选,最终完成标记数据12489个,并以此作为神经网络训练和测试的基础数据集。基于以上数据集,我们采用YOLOv5神经网络模型[7],来对冰球比赛中的“功能”单元进行深度学习。YOLOv5神经网络在模型的快速部署上具有极强优势,往往应用于自动驾驶之中,对快速的多目标识别推理速度可以达到7毫秒,这对于冰球比赛而言,可以快速进行捕捉。通过使用最终训练完成的多目标识别系统,我们能够通过计算机实时定义VR比赛中的运动员的姿态事件。

figure3.png

Figure 3. 利用人工智能完成对冰球比赛的“功能”识别

在完成对于运动员关键姿态的识别和捕捉后,我们又进一步尝试了预判功能的设计。通常而言,身体的肢体形态往往映射出下一个连贯性的动作,而这种连贯性动作受到人体自身结构的影响,不会出现大幅度的肢体改变,因此我们基本可以预测出动作轨迹。例如,当一个人蓄力向前方跳跃时,通过采集大量的数据,我们可以通过第 2、4 帧关键姿态持续的时间,来完成对于第 6 帧的预测。因为动画制作中只要完成关键帧的绘制,就可以利用软件完成中间帧的生成。利用这一点,我们利用训练好的神经网络对冰球比赛进行“功能”事件持续事件的采集和训练,并依次得出碰撞、防守、传球、击球、运球、战术队形等关键“功能”所持续的时间。

figure4.png通过以上工作,我们成功地完成了冰球比赛中关键姿态的“功能”划分、深度学习、多目标姿态检测与识别,以及对于不同“功能”持续时间的采集,让系统可以基于某一个关键姿态持续时间的捕捉快速预判出下一个“功能”事件的发生轨迹和时间点。这样,人工智能预判系统就可以辅助现场的 VR 摄影机完成“精彩瞬间”的切换,突破了肉眼捕捉的局限性。

figure5.png

2 - 镜头语言设计

除了对于VR直播精彩瞬间的预判性捕捉,在VR镜头设计中也应给予美学考虑。1964年,克里斯蒂安·麦茨在《电影:语言还是言语》中对电影符号学的美学价值进行了梳理,并对视听语言的八大组合段赋予了不同叙事话语的解读,认为镜头语言的组接方式是一种对于影像的修辞手法。导演谷克多和阿历山大·阿尔诺也认为电影是用画面写的书法,是一种画面语言,有自己的“单词”和“造句措辞”。[8] VR作为一种新的媒体形式,在叙事表达、空间表现等因素上具有更多的新特质,表现出有别于传统镜头语言的独特模式。


使用VR进行镜头语言的设计面临着两个问题:首先,如何消除“眩晕感”?我们认为,VR 360度的沉浸观影会导致物理空间与影像空间的脱节,人们在观看冰球比赛的时候,什么样的镜头角度、景别和运镜可以更加符合生理感受?对此,我们提出了一套VR直播语言的设计方案,基于传统视听语言基础,针对7种功能事件,单独对其设计VR镜头方案,力图保证每一个事件本身的表达既有美学考究,又符合观众的影像预期,而不产生眩晕感。


以“碰撞”事件为例,运动员之间的碰撞瞬间及肢体反应是画面需要关注的重点,由于该事件持续时间相比其他几种事件更长,且视觉冲突更加强烈,我们在首选运镜中会采用“前跟+仰角”。一方面,前跟镜头可以遮蔽其他外来要素,在较长时间范围内有效突出一个具体的运动主体。一般而言,从事件的开始到结束都处于相对稳定的景别,观众可以有效关注碰撞的瞬间,在保持其他运动员介入所带来的神秘感和戏剧冲突前提下,利于表现VR画面空间完整性和连贯性。另一方面,仰角可以适当增强运动员的形变透视,突出碰撞时的视觉冲击,增强透视的流动感,详尽地表现运动员在行动中的动作和表情。下表中我们为每一个事件类别进行基础镜头语言设计,包括运镜方式和语言特质。


table1-1.png Table 1. 面向冰球基础事件的 VR 镜头语言设计

其次,在每一个功能事件自洽后,针对7种不同功能事件的不同组合来进行语法设计,即从第一个问题的“单词”转向第二个问题中“语句”和“段落”的设计,特别是针对现场的导播人员在何种情况下采用哪种“语句”和“段落”更加具有观赏性进行设计。对此,我们对按功能事件的镜头选取方式进行叠加、排列等组合,即完成从“功能”(单词)到“回合”(语句/段落)的组合,并将不同的组合放置在VR虚拟动画场景中进行仿真模拟,利用仿真视频进一步检验,从而根据不同的“回合”找到最优方案。在VR直播时,我们可进一步通过镜头的预判系统,实时模拟出若干潜在可能的比赛路径,即可能发生的“回合”,然后根据实时的数据结果辅助现场导播人员选择出最优的组合方案。

figure6.png


未来展望

我们认为在冰雪赛事中采用人工智能和大数据技术路径构建新一代VR智能直播系统,通过“预判系统”和“镜头语言”的底层设计可以解决VR直播中存在的问题。我们希望VR直播的智能化设计可以在未来应用在更多的体育赛事直播中,助力冬奥会以及未来体育赛事、大型活动的VR全景展现。