腾讯B站纷纷入局,虚拟人热火朝天!谁才是真元宇宙入口?

智东西(公众号:zhidxcom)
作者 | 徐珊
编辑 | 云鹏

注意,虚拟数字人已经开始“入侵”我们的生活了!

不知道你有没有发现,我们的生活中出现了不少虚拟数字人的身影。9月22日,小红书推出了“潮流数字时代”计划,推广一批虚拟数字人作为博主发布笔记;B站专门为虚拟主播开设了分区;湖南卫视的小漾将作为首个虚拟主持人出现在电视屏幕上,这些信息都透露着虚拟数字人市场正在升温。

▲虚拟数字人CELIX走秀现场

不仅如此,近一个月在科技圈内不但有OPPO发布了自己的首个虚拟数字人小布,而且腾讯也推出了3D超写实等五种数智人,国外英伟达甚至还“偷偷”造了个迷你版的黄世勋——虚拟数字人Toy-Me。

▲从左到右分别为英伟达Toy-Me;OPPO虚拟数字人小布;腾讯五款数智人;乐华娱乐旗下的虚拟偶像女团A-SOUL

这些形态各异的虚拟形象都属于虚拟数字人吗?事实上目前行业内关于虚拟人、数字人又或者是虚拟数字人这些概念,还处于一个各自为战的状态。

目前,比较官方的定义来自中国人工智能产业发展联盟首次发布的《2020年虚拟数字人发展白皮书》报告。报告提到,虚拟数字人指具有数字化外形的虚拟人物,将依赖显示设备存在,并且拥有人的外貌(长的像人)、人的行为(能说话、能举手、能做鬼脸)以及人的思想(能与人交流)。

有行业报告显示,2020年中国虚拟数字人行业市场规模约2000亿元,未来随着市场接受度拓宽,2030年中国虚拟数字人市场规模将达2700亿元。

虚拟数字人不但成为科技公司角逐的蓝海市场,而且也成为文娱行业“接轨”元宇宙的新方向。虚拟数字人到底指什么?它的背后有哪些技术成为支撑?虚拟数字人真的会是元宇宙赛道的新风口吗?

带着这些问题,智东西与国内动捕巨头公司诺亦腾CTO戴若犁、虚拟数字人公司创幻科技CEO陈坚等相关的行业人士进行了深入交流,看到了虚拟数字人背后的技术支撑和落地情况。

一、真假虚拟数字人,你分得清吗?

谈起虚拟数字人,你的脑海里会呈现出谁的样子,是出现在春晚上的虚拟歌姬洛天依,还是清华的虚拟学生华智冰,又或者是你手机里软萌可爱的虚拟语音助手,甚至还有可能是B站上唱跳俱佳的虚拟主播们。

▲不同类型的虚拟数字人代表

虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互5个模块构成,其中,人物形象分为卡通、拟人、写实、超写实等风格,像虚拟网红翎Ling这类就属于超写实虚拟人,而交互模块中可以分成交互型虚拟数字人和非交互型虚拟数字人。

▲智东西整理 来源:《2020年虚拟数字人发展白皮书》

根据虚拟数字人不同的核心交互方式,虚拟数字人分为智能驱动型虚拟数字人和真人驱动型虚拟数字人。

智能驱动型虚拟数字人是以深度学习技术为主,本质上还是某种算法,但会拥有一个定制化的虚拟外表。他们主要以“数字化”为核心,像是初音未来、小布以及华智冰分别在文娱、语音助手、教学领域应用的成果。

▲英伟达CEO黄世勋的虚拟形象Toy-Me正在与人交流

真人驱动型虚拟数字人是以真人为核心,用户可以通过3D建模、动作捕捉技术、渲染等技术,在网络上形成一个自己的虚拟化身。比如说,B站里的部分虚拟主播们通过动作捕捉平台,建立自己的虚拟形象,并以虚拟形象的方式与其他用户互动或者表演。

▲B站虚拟主播超次元次元酱表演秀

在创幻科技CEO陈坚看来,只有能完成实时互动的才能称的上是虚拟数字人。“现在一些虚拟数字人的概念还是通过视频和照片为主,这种不能算作真正的虚拟数字人。”

他同时还说道,只要具有实时互动功能的数字人都有价值空间,也会成为元宇宙的重要组成部分。从短期来看,智能驱动型虚拟数字人,像虚拟客服、虚拟主持人、虚拟导游都在企业市场拥有广泛的应用空间,但是从长远的爆发力来说,以真人驱动的虚拟数字人才是元宇宙的核心入口。

他举了个例子,日本Virtual Market用了三年的时间举办了六届虚拟漫展,参与人数远高于国内的China Joy动漫展。“未来每个人都会在3D互联网中拥有自己的虚拟身份,当大家可以开始虚拟逛街、虚拟逛展时,就会拥有(比智能驱动型数字人)更大的应用空间”。

▲日本虚拟漫展Virtual Market6展会现场

讲完了虚拟数字人的基本概念,我们来看看虚拟数字人究竟是什么样子?

在虚拟数字人刚起步的阶段,由于渲染技术、网速等原因常常会出现虚拟数字人突然“死机”,又或者呈现表情生硬、肢体不协调等情况,导致虚拟数字人往往都走在各类“翻车”的路上。

比如说,在天气预报的直播现场虚拟主持人突然360度来了个失败的“托马斯全旋”。

又或者是这样,在虚拟偶像综艺现场,由于计算能力和渲染能力的不足,几个虚拟偶像突然开始表演“千手观音”,场面一度很鬼畜。

▲国内虚拟偶像综艺直播现场

从这些事故画面中能看到,尽管虚拟数字人已经在不同领域拥有了自己的应用场景,但是在技术上还仍未成熟。

后来,随着研发人员不断尝试新的技术,尤其是在动作捕捉技术上的突破,现在的虚拟数字人可以借助VR设备,与用户实时互动交流,不但能唱歌聊天,还能跳舞,在互动上呈现了多样的方式。

▲虚拟偶像远程互动

比如说,用户可以通过佩戴VR设备(左上角),直接与虚拟偶像泠鸢yousa实时互动。而上面这个二次元人物的背后,正是虚拟泠鸢yousa佩戴者相应的动捕设备,做出相应的举动。

我们可以看到,虚拟数字人目前可以简单分为以真人驱动和以数字驱动的两种形式。其中,以真人驱动的虚拟数字人逐步克服了此前的肢体语言单一,面部表情单一等特点,开始拥有更加活灵活现的数字形象。

据目前落地的结果来看,打造一个虚拟数字人,不仅在创建准备环节有所难度,而且如何在多个虚拟人演出的时候实现实时渲染、以及及时调整人物渲染的细节等方面同样面临着一定的挑战。

二、打破两大技术壁垒,虚拟数字人如何更像“人”?

倒退十年,你如果想给自己打造一个虚拟形象,可能需要花费数十万元去买专门的设备,聘请专门的拍摄团队才能拥有一个活灵活现的虚拟形象,但现在你可能通过一台电脑就能为自己打造一个简易的虚拟化身。

B站CEO陈睿在哔哩哔哩周年演讲时提到,在过去的一年里共有超过32000名虚拟主播在B站开播,同比增长40%,虚拟主播已经成为B站直播领域增长最快的品类。

这一切都要归功于研发人员在制造虚拟数字人的两大重要环节——动作捕捉技术和渲染技术上做出的突破。

▲B站虚拟主播分区

1、解构四大动作捕捉方案,最高可实现毫米级误差

如何让虚拟数字人更加生动?动作捕捉方案是其中的关键要点。动作捕捉是指通过数字手段记录现实人们的运动过程。过去的一些科幻电影和游戏中,人们常常通过基于摄像机的动作捕捉系统完成对于一些科幻角色的塑造。同时,动作捕捉系统根据实现原理的不同,可以分成光学动作捕捉、惯性动作捕捉、Track设备+IK算法的动作捕捉、以人工智能为主的动作捕捉方案。

光学动作捕捉方案是当动捕演员在特定的部位粘上特殊材料,摄像机通过反光来捕捉这些特殊材料的位置变化,从而完成对演员的动作捕捉。

目前,光学动作捕捉方案能通过高帧率的捕捉,实现毫米级误差精度,能对人物动作还原最为精细,但这类捕捉方案对于背景环境的要求较高,技术门槛也同样较高。

▲光学动作捕捉技术

在光学动作捕捉设备和方案上,国内外都涌现出一些较为优秀的公司代表,比如说影视动捕巨头VICON公司以及国内利亚德集团下的北京虚拟动点科技有限公司。

北京虚拟动点科技有限公司的成立与美国光学巨头公司NaturalPoint离不开关系。利亚德集团在2016年11月4日宣布,计划通过旗下的子公司平达公司,以8.44亿元人民币全资收购了美国光学巨头公司NaturalPoint,同时也收下了其旗下OptiTrack产品系列,随后成立了北京虚拟动点科技有限公司。

OptiTrack的光学动作捕捉方案可以通过两个以上的高速智能摄像头对于移动目标进行定位,并记录相应数据,从而“复现”人物的动作和表情。

据利亚德集团COO、虚拟动点董事长姜毅介绍,当两个人戴上VR眼镜进行传球动作,OptiTrack运动捕捉系统可以及时抓取一人动作,并传送到另一个人的VR眼中,整个传输过程中,OptiTrack实现了高精度、低延迟、以及稳定可靠的传输过程。

而惯性动作捕捉方案,主要是通过人物在各个关键佩戴的惯性传感器,并且对一些主要的部分进行实时测量,是比较主流的动作捕捉方案之一。

我们常见的动作捕捉服、手套等设备都是属于这类惯性动作捕捉范围内。

▲《指环王》动作捕捉演员Andy Serkis

甚至现在也出现了人们通过惯性动作捕捉技术打造一个虚拟数字人来直播带货。

▲卡通形象的虚拟数字人直播带货现场

在惯性动作捕捉的赛道里,国内厂商诺亦腾、国外厂商XSens都拥有比较成熟的产品。其中,诺亦腾通过全身17节点惯性传感器、全身绑带、传感器充电盒以及EVA便携箱等组成部分打造了入门级无线动作捕捉系统Perception Neuron 3。

第三种则是以Track设备+IK算法的动作捕捉方案,主要通过Track设备以及IK算法相结合,模拟出一定的动作姿态。这种动作捕捉方案在一些消费级的产品上运用较多,也颇受硬核技术流玩家们的喜爱,他们可以搭建自己的动作捕捉设备方案。

此前,英国实时动作捕捉技术开发商IKinem也基于这样的模式推出了Orion 2.0产品,该产品通过与不同的硬件设备兼容,实现跟踪数字化身的全身运动轨迹,后来该公司以及其产品线被苹果收购。

最后一种则是近期大火的以人工智能为核心的动作捕捉方案,借助设备上自带的摄像头,如iPhone里搭载的深感摄像头实现面部捕捉功能,并且通过深度学习,训练算法将2D图像转换成3D图像,从而让一些坐着的主播可以拥有一个活灵活现的虚拟形象。

由于这种动作捕捉方案对硬件要求较低,多数依靠软件层的算法,因此具有较为广泛的应用空间和利润空间。

▲以人工智能为核心的面部捕捉技术方案

“如果对自由度和视角的要求不高的话,这类基于计算机视觉关键点识别的动捕方案,会是消费者和从业者比较容易接触到的,因为不会涉及到新的成本,好一点的手机上的摄像头就可以实现基础的身体与面部捕捉”,国内动捕巨头公司诺亦腾CEO戴若犁说道。

对于动作捕捉技术未来的发展,戴若犁提到,之前动作捕捉系统主要是面对科研、影视等专业领域,因此,在系统复杂度以及成本上基本上不太适用消费级市场。“在大家都过了新鲜劲之后,如果虚拟人赛道不再适用于消费者市场的话,未来的动捕技术还是会为面向专业领域的从业者服务”。

2、主打Unreal和Unity渲染引擎,颜值和交互性成虚拟数字人渲染关键

除此之外,当人们通过不同的设备记录下自己的动作方案之后,还需要通过渲染引擎,对毛发、衣物等细节尽量还原。如果单从引擎性能上来说,游戏领域的渲染引擎达到最好的渲染效果。目前,国内虚拟数字人主要通过Unreal、Unity游戏引擎对人物形象进行渲染。

据陈坚介绍,渲染成果主要关注好看和好用两个方面。其中,好看是指视觉效果上能做到什么样的精细程度,而好用功能上,首先要考虑多个角色同台时渲染的效果,在直播过程中能否及时调整细节。“这些才是决定你的虚拟数字人产品化程度的关键”。

同时,据国外媒体报道,Epic Games推出了云端流式应用MetaHuman Creator,可以让用户在一小时时间内,不但能实现实时动作捕捉,还能完成人物的渲染,让用户可以轻松上手创建虚拟数字人。

总而言之,目前的虚拟数字人主要依靠光学动作捕捉、惯性动作捕捉、Track设备+IK算法动作捕捉方案和以人工智能为核心的动作捕捉方案为主。

并且,在渲染引擎上,厂商们主要通过Unreal、Unity完成人物渲染,在时间成本上也将渲染的时间缩短到一两天左右。

三、制造难、交互难、成本高,虚拟数字人爆发还需解决三大难题

近期,元宇宙概念爆火,不少行业人士提到元宇宙的落地可能会分为几个阶段,其中用户的数字分身可能会在第一阶段率先落地,因为无论是在虚拟世界里还是在物理世界中,人都是不可缺少的组成部分。

尽管目前虚拟数字人赛道上已经逐渐升温,但距离虚拟数字人赛道爆发还差了一些“火候”,比说在制造门槛等问题上,虚拟数字人发展仍然面临一些挑战。

一方面,虚拟数字人的制造门槛仍是将绝大部分的用户拒之门外,不但无法让虚拟数字人赛道拥有更多样的玩法,同时也无法创造新的价值空间。

另一方面,降低硬件的成本门槛也同样重要。在交流的过程中,陈坚告诉智东西为什么动作捕捉设备价格这么高。他谈到尽管看起来近期虚拟数字人概念比较火热,但产业上并没有太大的改变。

戴若犁也同样提到这一点。他认为,现在市场上并没有成功的案例来证明虚拟数字人赛道存在一种可行的商业模式。“多数虚拟数字人还处于创新的阶段,主要依托于现有真人已经摸索出的商业模式。”

“我觉得当虚拟人市场的活跃用户数量达到上万,甚至是数十万,并且有相当比例的用户愿意为虚拟人二次复购的时候,虚拟人市场才能称上有比较稳定的商业模式。”

他举了个例子,当某个虚拟数字人群体拥有上万的用户群体,每次某个虚拟人开播可以有百人左右的在线用户,并且能拿下五十个左右的订单。当这种商业模式可持续发展时,虚拟数字人的商业模式才算成功。

此外,VR/AR设备将会为虚拟数字人带来全新的交互方式。陈坚提到,“虚拟数字人可能会成为元宇宙的入口,因为只有当人人都拥有虚拟数字人之后,元宇宙才初见雏形”。

但在这其中,VR设备将是连接虚拟数字人和元宇宙之间的重要桥梁。“当我们通过VR/AR设备把社交聊天、剧本杀这类活动移到在虚拟空间完成,并且所有的用户都能拥有自己的虚拟分身时,元宇宙可能会迎来一轮新的爆发。”

结语:虚拟数字人能成为元宇宙的“入口”吗?

根据现有的资料看来,虚拟数字人在概念上、商业盈利模式上以及市场规模上都处于比较早期的阶段。无论是动作捕捉技术,还是渲染技术方面,如今的虚拟数字人行业仍是面对企业市场为主,但部分业务也开始尝试在C端市场落地。

尽管虚拟数字人领域借着元宇宙热潮逐渐升温,但是目前并没有一个真正围绕虚拟人衍生出的新的商业模式成功运行。各路巨头的涌入将推动虚拟数字人的商业模式更加清晰,同时,有着相关技术积累的虚拟人公司也将为元宇宙的生态发展提供技术基石。

虚拟数字人能否在创造出自己在下一代互联网的新玩法,最先为元宇宙创造一个“入口”?我们期待着“人人都可虚拟化”的时代,会带来新的惊喜。

宇宙前传:什么元宇宙,吹的神乎其神,不就是可交互的动画片嘛。高科技己经开始堕落无聊了。

G1714312319:让我想到了 氪金玩家

网友a424d4ab2:以腾讯的尿性凡是跟他们有关的都别碰

枫秋叶飞:元宇宙的核心是意识沉浸式技术,就是用技术实现意识在数字世界中的全息全真式体验。 它的核心功能不是游戏社交,而是借发展此类技术实现我们对意识的破解 既然我们可以从技术上实现意识在数字虚拟世界的全息全真体验,那我们可不可以反过来,如缸中之脑,将我们需要的信息知识技术通过数字世界创造出来的信息反哺给真实世界的我们了?比如我想学编程,可不可以通过在数字世界创造的虚拟意识体(角色)学习由他逆向反哺给真实世界的本体(我),从而获得编程这项技能了? 这是元宇宙可以存在的功能之一 当然还可以创造各种版本的游戏世界,修仙机甲丧尸世界都可以创造岀来,并可以调整时空感,游戏里一万年的信息量,可能只是现实世界的一小时