▎数字人或将成为虚拟世界的“身份证”——百度Create大会,从当前的平面计算阶段进化到元宇宙的空间计算阶段,百度数字人的目标是成为用户信息消费的主要基础设施、用户获取服务的主要入口。
(本文首发钛媒体App,作者 | 韩敬娴), 原文链接
2021年12月27日,一年一度的百度Create大会召开,与往年不同的是今年大会现场数字人元素随处可见。比如大会开场主持的是李彦宏的数字人,在演讲结束,李彦宏的数字人还“秀”了一把在太空舱漂浮的画面。
同大会一样,今年整个数字人赛道也是一片火热。最直接的反映便是数字人的可见度提高。比如王老吉、中国联通等品牌直播间的数字人,欧莱雅、花西子等品牌的数字代言人,火星车数字人“祝融号”,迷你版黄世勋——虚拟数字人Toy-Me……
一是,落地场景愈加丰富。数字员工、虚拟代言人、虚拟主播等在社交、传播、营销、传统产业等领域的价值正在逐渐显现。
二是,市场开始出现明显的细分趋势,更接近人形的“超写实数字人”出现。
三是,数字人更智能。不仅能听能说能交互,而且交互时既能够1对N,也能够1对1。
然而,热潮之下,行业也面临一个不可跨越的发展规律,即发展初期,各路玩家都面临着同样的时间窗口,也就是谁能率先落地,积累案例,就会抢占先机。
那么,如何才能保证迭代领先?百度给出的答案是:百度智能云曦灵。
大会上,百度首席技术官王海峰发布了智能数字人平台“百度智能云曦灵”。这是一款集数字人生产、内容创作、业务配置服务为一体的平台级产品,可以为广电、互娱、金融、政务、运营商、零售等行业提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。
“过去几年,百度打造了系列数字人。我们的数字人,正在各行各业发挥价值,24小时无休为用户提供贴心服务。”王海峰说道。在现场,他还介绍了一款新推出的专为听障朋友提供手语服务的AI手语主播。
作为行业内为数不多的数字人平台,百度智能云曦灵的布局逻辑和竞争优势是什么?数字人要走向更多的场景产生价值,机会又在哪里?钛媒体App在百度Create大会召开之际,对话了百度ACG AI人机交互实验室负责人李士岩。
热潮背后
今年赛道回暖,至少说明了一个问题:各玩家都看到了数字人的前景。
随着新时代消费者对虚拟化内容与服务的需求不断增长,加之元宇宙概念在全球兴起。各行各业都将数字人视为未来用户交互的重要载体。业内人士指出,数字人本质上是适用于各行各业的新型网络应用服务,如同社交、电商、外卖等,需要一个提供专门服务的强大平台。
除了长期的“前景”支撑之外,数字人赛道之所以会在今年爆发根本原因在于:市场和技术的双向磨合,导致了行业拐点。
据行业报告显示,我国当前虚拟数字人市场规模约2000亿元,到2030年,这个市场规模将达到2700亿。
浦发银行副行长潘卫东曾公开表示,“未来的金融服务将让每个用户都有一个虚拟私人金融助理,随时可以向他咨询金融问题,甚至他还可以为你主动提供建议、管理收支平衡,金融服务将与用户场景合二为一。”
在文化娱乐领域,现实世界的娱乐艺人接连发生人设崩塌事件,风险难控,但运营一位拟人化的数字人风险则相对低很多。
只是昂贵的制作成本、差强人意的驱动效果,让众多公司一度很难找到更优方案。行业的需求在等待供给能力的“一声水花”,尤其是技术能力。
人工智能技术的不断突破正好为此提供了基础。我们看到现在的数字人可以不再局限于卡通风格,并且后端不再局限于中之人驱动,而是通过AI来驱动,交互更自然更顺畅,既能够1对N交互,也能够1对1交互。
市场够大、技术也在提高,产业上下游纷纷从自己擅长的角度切入市场。
第一类跳进来的是内容公司,比如游戏公司Epic Games为写实虚拟人制作了MetaHuman Creator工具;燃麦科技推出超写实数字人AYAYI;创壹视频推出虚拟人物柳夜熙。
只是内容公司虽然在形象设计上有较强能力,但这些能力可替代性强,而数字人需要同时具备语音技术、视觉技术、自然语言处理等技术能力,才能呈现接近真人的互动效果。
其中一种是AI技术公司。比如今年10月科大讯飞推出了虚拟人交互平台;商汤在年初也已经开始宣传数字人产品落地金融领域。
4月,随着中国首次火星探测任务的执行,百度联合航天发布全球首个火星车数字人“祝融号”,该数字人将被应用于知识科普、虚拟主持等多个场景来传递航天知识;
9月,华为发布了首个数字人“云笙”,参与到为华为云内部员工提供技术内容宣讲、答疑解惑等工作。并随后又推出了一款数字人开放平台;
10月,OPPO推出了小布虚拟人和小布虚拟人定制平台;
11月4日,腾讯发布了5款数智人产品,拥有文旅导览、金融客服、多语种主播、手语主播等不同职业身份和技能,可提供定制化角色服务;
11月29日,百度代言人龚俊的虚拟数字人“俊俊”正式在百度APP上线,可以在APP内实现与用户的互动;
12月2日,网易云音乐上市现场,29岁的数字人“丁磊”和真实的丁磊,通过网易伏羲开发的沉浸式活动系统“瑶台”共同敲锣。
虽然同是掌握技术的公司,与大厂相比,AI技术公司缺乏C端入口和客户渠道的劣势依旧明显。大厂拥有更多的资源和资金,采取的打法一般是一边推出基于自身优势场景的数字人来打造应用标杆,一边推出数字人平台将产品继续落地到更细化的场景中,点、线互相推进。
面对众多玩家纷纷布局的现状,百度李士岩也向钛媒体APP阐述了选择平台化打法的思考:当下国内数字人发展存在着产业链效率较低、上下游生态未完全打通、缺乏标准化体系、缺乏平台等痛点,这也造成应用门槛居高不下。
百度智能云曦灵以平台为切入口,一方面通过平台化的方式让越来越多的数字人进入平台来均摊前期的投入成本;另一方面基于平台打造完整的生态链服务,助力破解行业痛点,将数字人的高门槛、高投入真正降下来。
四大AI引擎、三大平台
目前基于曦灵平台的数字人已经在民生银行、交通银行,中国联通、央视网、中国航天局等多场景落地。在众多竞争者中,各家为什么会选择曦灵平台?
在回答这个问题之前,我们要先弄清楚什么才是数字人的本质?从最开始通过音频合成软件生成数字人到利用中之人驱动数字人再到现在的AI驱动,纵观数字人的发展路径不难发现:数字人的每一次迭代,本质上都是技术驱动的。
因此,更多落地场景和更逼真形象的背后是对技术更高的要求:
首先,在交互维度上,要保证数字人在真实环境下能听能说能交互。
这也就揭开了曦灵的第一层优势:四大AI引擎。通过人像驱动引擎、自然对话引擎、语音交互引擎、智能推荐引擎实现数字人能听能说能理解能互动。
能听能说。目前百度语音识别ASR(Automatic Speech Recognition)的准确性能够达到98%以上,语音合成TTS(Text To Speech)方面既支持用20句话定义一个新的声音,还支持用更多的数据来进行更精细化的训练,这样既可以轻量化的满足需求,又能保证声音还原度。李士岩透露,今年百度还最新研发了人工智能变声器,可以将一个人的声音音色特征保留下来,这样就可以发挥更多“人”的创造性。
能理解。百度基于多年的搜索及知识图谱积累研发了基于百亿级训练参数的开放域对话平台PLATO-XL。这是当前最大规模的中英文对话模型,并再次刷新了开放域对话效果。
能互动。在传统的动画生产流程中,最难做的就是说话的部分,尤其是3D人像说话。但曦灵平台基于面部4D数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达98.5%。比如a和e这样发音非常接近的字母,都可以有细致的区分。
这些能力就像一个强大的底座,为百度数字人快速发展提供了底层支撑。
第二层优势,在于人像资产的生产维度。由于每一个人说话的样子跟表情是不一样的,如果依旧通过传统流程,即每一个面目表情都通过艺术家手雕或者线下扫描流程来做,既费人力也费物力,因此如何实现低成本、个性化且丰富的还原至关重要。
对此,百度在AI技术底座上,创建了3D写实、2D写实、3D卡通三条资产生产线,让曦灵较其它竞争者可以“多快好省”地支持更多风格的数字人。
客户可以根据需求快速选择不同的脸型、五官、发型、服装,通过组合搭配,在一定程度上解决3D资产创建成本较高的问题。现在曦灵平台上以AI驱动的2D数字人的生产周期已经从一个星期降到了几个小时,而AI驱动的3D虚拟偶像也从原来的两三个月缩短到一两个星期。
百度在2019年开始布局数字人业务,初期主要以金融、政务类客户为主,因此产品主要是服务型数字人,包括数字客服、数字理财专员、数字大堂经理、数字展厅讲解员等。
但随着发展,包括虚拟主播、虚拟偶像及数字孪生产品在内的演艺型数字人的需求也在增长,“原来我们只做金融领域,现在广电客户、互联网娱乐客户也纷纷找到我们,甚至一些品牌商找我们做虚拟代言人。”李士岩对钛媒体APP描述了客户类型的变化。经过三年积累,现在曦灵平台已经完成了全场景的覆盖。
全场景覆盖的背后也就对应着企业对数字人更高的要求,即每个客户业务流程不一样,而且业务流程随着业务的发展不断离散,如果让工程师直接开发肯定不现实,尤其是当客户有敏捷型需求的时候,如何帮助其快速实现也是一个关键问题。
对此,曦灵提供了在AI引擎和资产生产线的基础上设置的三大平台:
人设管理平台——比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高,客户可以在人设管理平台上根据不同的场景搭配设置不同的人设。
业务编排与技能配置平台——通过一些简单的拖拽,实现业务流程的创新。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力。
内容创作与IP孵化平台——偏向于演艺型数字人。比如虚拟代言人需要做海报、短视频等内容触达不同平台的客户,或者直播数字人需要做直播推流等,该平台也可以提供相应能力。
目前曦灵同时具备标准平台的快速交付能力和满足个性化需求的定制化交付能力,也就是说客户既可以选择定制化开发,也可以直接选择使用既有的三大平台。
从技术、产品到运营的打通,既依赖百度在AI技术上多年的积累,背后的团队同样重要。百度数字人业务团队是一个综合的团队,包含了研究员、设计师、算法工程师、软件工程师、硬件工程师等角色,主要任务就是以人机交互设计与底层能力研发为基础,负责AI平台型产品尤其是软硬一体化产品的孵化、设计以及商业化。“我们希望通过服务型数字人与演艺型数字人方面的技术赋能和平台支持,实现对客户的定制服务,帮助他们降低成本、提高效率、提升满意度。”李士岩说。
结语
今年元宇宙的火热给行业带来了突变因子,也为数字人描绘了更大的发展空间。
首先,数字人最基本的应用就在于对游戏、影视作品沉浸感的提升,而元宇宙的一大特征便是“沉浸感”,两者在技术上会有部分重叠;
其次,我们讨论的元宇宙“分身” ,其实都是元宇宙数字化特性下身份数字化的展现。也就是说数字人会成为虚拟世界的“身份证”,人们通过数字人就可以在数字世界里进行相关活动。
元宇宙虽然还处于初级阶段,但拉长时间轴来看,对于数字人的发展是利好。“在任何计算平台下,用户的活动主要有四种场景,第一是社交;第二是购买商品;第三是信息消费,比如看短视频、看文章、看电影;第四是获取服务,比如去银行办银行卡等。这四大场景中,数字人至少是三大场景的基础设施。”
在李士岩看来,从当前的平面计算阶段进化到元宇宙的空间计算阶段,百度数字人的目标是成为用户信息消费的主要基础设施、用户获取服务的主要入口。