虚拟数字人几近真人？“造假”过程大公开

互推小编 2024-01-30

近来虚拟人呈现井喷式发展，银行、媒体、美妆等不同行业纷纷推出自己的虚拟人，一时之间AYAYI、Ling、柳夜熙等各式各样风格鲜明的虚拟人类走进了大众视野。那么到底什么是虚拟数字人？根据中国人工智能产业发展联盟发布的《2020年虚拟数字人发展白皮书》，虚拟数字人是具有数字化外形的虚拟人物，应具备人的外观、人的行为、人的思想。

虚拟数字人形象上分为2D和3D两大类，外形风格上又分为卡通、拟真、写实等类型。比如Ling、柳夜熙等就是典型的3D超写实虚拟数字人。超写实是指人物外观仿真度高，栩栩如生，这种虚拟人需要面部面数在1万面以上，高精度经得起360度无死角的怼拍。面部材质不仅十分接近真实皮肤的质感，还可以根据相机的距离进行自动优化，皮肤、五官、头发、肢体几近真人。

大家是不是很好奇，这种3D超写实虚拟数字人是怎么创造出来的？简单来说，一个3D虚拟数字人的制作需要经过形象生成、动画生成、语音生成三个环节。形象生成决定了虚拟人的长相，动画生成能够让虚拟人灵活地动起来，而语音生成则是让虚拟人开口说话，进行表达和交互。

一、形象生成

形象生成部分最重要的是建模，常见的建模方式有手工建模，扫描建模和AI建模。随着科技的发展，效率更高的扫描建模和Al建模技术逐渐成为人物建模的主流方式。央视网数字虚拟小编小C就是采用了相机阵列扫描方式进行建模，在集成了100多台相机的扫描棚中，只需很短的采集时间，大量的面部和身体数据被采集到系统中，通过算法处理获得最原始的三维人物模型数据。另外为了采集的形象更加精准还可以采用更为先进的4D扫描技术，相比3D扫描能捕捉面部更细微的动作，采集更丰富的动态数据。

建模完成后要想让冰冷的模型动起来，还需要进行一系列绑定和驱动。骨骼和肌肉绑定决定了模型后续的肢体动作和面部表情的自然度和流畅性。目前有骨骼绑定和混合变形绑定两种主流方式，而驱动分为真人驱动和智能驱动，真人驱动是指通过捕捉技术采集真人演员的动作和面部表情数据之后将这些数据迁移合成到虚拟数字人身上，光学捕捉和惯性捕捉是常见的动捕方式，但都需要穿戴动捕设备，使用门槛较高。而近年来基于计算机视觉的捕捉技术发展迅猛，超写实虚拟数字人的面部表情捕捉还可以通过一个景深摄像头采集真人的面部3D点阵云图，然后实时地将面部动作和表情迁移到虚拟人的身上，相比需要穿戴动捕设备、租赁动捕棚的方式，驱动虚拟人只需要一台手机，使操作流程更加方便。

二、动画生成

有了绑定和驱动，还需要通过渲染来生成动画，渲染分为实时渲染和离线渲染，为实现虚拟数字人的实时操控与实时交互各大渲染引擎一直在发力突破算法，提升实时渲染效率，希望在实时渲染的画面质量、渲染速度、计算资源三者中取得最优解。

三、语音生成

形象和动作都完成后就是让虚拟人开口说话，虚拟数字人的语音可以使用合成语音或者真人语音，经过人工智能技术加上持续训练合成语音会越来越类似真人语音的声调、节奏和抑扬顿挫，并能实时对应唇型，而真人语音就是直接使用中之人的声音或者声优配音，还可以通过声音变声器，把中之人的声音转换为同一种声音，这样即使中之人怎么变换，声音也不会变，为虚拟人形象人设的稳定提供了一定的便利。

虚拟数字人是科技与艺术的完美结合，不知不觉间，越来越多的数字虚拟人逐渐走进社会的各个环节，通过不同的形象、性格、功能给大家习以为常的工作和生活带来更新鲜、更具温度的体验。这得益于整个行业对数字虚拟人技术的一次次创新和推动，以及玩家们不断尝试打破技术疆界，促进技术融合的尝试，在未来充满想象的虚拟空间中虚拟数字人也是更自由、更理想化的人类的投射，而七维科技和增拓作为行业内虚拟人技术的提供者，也正努力地朝着智能化、个性化的路径发展，用技术为各行各业实现创新赋能。

内容来源于网络

[注：本文部分图片来自互联网！未经授权，不得转载！每天跟着我们读更多的书]