人工智能数字人
AGI具身智能

腾讯首席科学家张正友内部分享:对具身智能、大模型及AGI的一些思考

anotherme阅读(363)

编辑/ 腾讯科技 郭晓静

人类与一个有灵魂的机器人发生故事,这个机器人“生活”在人类世界,艰难地体会着人类的喜怒哀乐……机器人的故事,是科幻剧最喜欢展现的一个题材,然而在真实世界中,我们却很难看到一个真正意义上能与人类交互的机器人。

我们在现实生活中,见到的大多还是在生产线上进行重复劳动的机器人,或者是迈着笨拙步伐,差点被绊倒的双足机器人,还有一些仅能做展示性任务(比如跳舞的机器狗)的机器人。

  • 1为什么让一个机器人不被绊倒有这么难?
  • 2大语言模型的爆发是否能给机器人一个足够强大的大脑,让人类所期待的具身超级智能成为现实?
  • 3人类语言的产生晚于世界的诞生,大语言模型,真的能建立一个真正的世界模型吗?

近日在【2023年腾讯技术周】AIGC大咖面对面活动中,腾讯首席科学家、腾讯AI Lab及腾讯Robotics X实验室主任张正友博士做了主题为《迈向具身智能以及对大模型和AGI的一些思考》的分享。

图片

在这次分享中,张正友博士提到,机器人要从自动化进阶到智能化,需要实现反应式自主和有意识自主去应对变化的、不确定的环境,需要一个新的控制范式,类似于人类的认知模式。他借鉴了心理学领域的理念,将人的思考分为两个系统,即:自动的、快速的、直觉的第一系统,以及需要专注思考的推理、复杂计算等费脑力行为的第二系统。由此,他提出,完善的机器人系统也需要由不同层级来处理不同级别的决策,或理解不同层级的感知信息。

受到这一理论的启发,他认为,AI和人未来将会是多模态的交互方式,而且AI是主动的,它能够感知周围的环境。目前的大语言模型还不能称之为完整的世界模型,多模态大模型肯定是通往AGI的必经之路,但有很多工作要做,而且很可能不是现在的多模态大模型。

以下为演讲原文:

图片

机器人的趋势,要从自动化变成智能化。很多生产线上的机器人都是重复性地做一些预编程好的动作,而且做得非常精准。我们今天讨论的是智能机器人,要实现自主,能够在环境不确定时自动调整规划它自己的系统,来应对没有预测到的情况。

图片

腾讯的机器人实验室是2018年成立的,出发点是AI一定要跟人协作,这是最主要的目的。所以我们做这个机器人是为了人机共存、共创、共赢的未来。实验室成立时我们提出了A2G理论,是这七个方向,ABCDEFG刚好对应英语前面的字母,A是AI,机器人必须能看、能说、能听、能思考。B是机器人本体,要探索什么样的本体最适合人的环境,最简单的想法是人形机器人,但我认为还可能有更好的形态,所以我们要探索这个本体B,Body。C是Control,精准控制。ABC属于最基础的能力,上面一层是D,Developmental learning,发育学习。因为机器人要在环境中不断地跟人和环境交互,在交互中可能是成功的,可能失败的,成功就要做得更好,失败就要从失败中学习,不断地演进,就像一个小孩能不断发育成长。E,EQ,因为是机器人在人机环境里跟人交互,必须要理解人的情感,同时要把它自己理解的东西呈现给人,人才能知道到底机器人有没有理解,所以这是双向的情感理解,拟人化。F是Flexible manipulation,灵巧操控,要掌握包括使用工具,为人类完成物理任务,否则这个机器人只是一个聊天的机器人。G是Guardian Angel守护天使。这个机器人不光只是单独的一个本体,还需要跟部署在环境里的智能传感器和其他机器人、通过云跟家人和世界互联,使得机器人成为人类的保护天使。

这是我们Robotics X实验室一开始成立定的几个方向,今天主要讲C到D。

一、完善的机器人系统需要借鉴人类的思维模式:分层级进行“快与慢”的理解与决策

讲到自主,有两类:一是反应式的自主。比如走路时绊了一跤,可以很快恢复平衡,不会绊倒。有意识的自主,比如各位要去开个门或者我要从上面下来,都要有一些规划。

为了实现这样的自主,传统范式是通过感知,感知环境后做一个计划,计划后面的行动,行动再到感知。传统范式有很大的致命性问题,因为它不可能解决反应式的自主,因为不可能那么快。你说我绊倒后还要在脑子里思考怎么样恢复平衡,我没时间思考。

图片

为此,我提出了一个新的范式叫SLAP范式。这个名字S是感知、L是学习、A是Action、P是Planning。很重要的一部分是学习,学习渗透到感知、行动、和计划。还有一个重要的部分是感知和行动紧密的连在一起。只有这样才能感知到突发事件,比如绊了一下马上就能够行动来保持平衡,同时对常规行动不需要进入上一层的规划或计划。

图片

这个东西就可以跟人的认知相比较,这是系统1和系统2,诺贝尔奖获得者卡尼曼在《思考,快与慢》这本书总结出来的,这本书提到心理学领域将人的思考分为两类:system 1,自动的、快速的、直觉的;system 2,需要专注思考的推理、复杂计算等费脑力的活动。他说人的大脑95%的时间都是在系统1里运作的。这非常快,是凭直觉、不需要很多思考的。当你需要或碰到难题时,才会上升到系统2,这个花的时间大概只有5%,就是更理性地思考、推理。我们讲的反应式自主,对应了系统1。上面的Plan,也就是有意识的自主就对应了系统2。

图片

系统1、系统2前面还有一个就是感知,因为没有感知不可能做系统1、系统2。针对系统1,就是刚才提到的,快的、并行的、不需要花力气的、大部分可能不是语言方面的东西。系统2是比较慢的思考,而且是需要花精力的,是很灵活的,有时候可能是一个规则来负责的,它负责内容、感知。有一个想象,如果完成的和你预测的一样,那很快就可以实现了,这是系统1的工作。当你预测和真正实现的东西有差别,才会上升到系统2。

我觉得现在Language model还没有做到最好,因为Language model到目前为止还是用系统1的方式做系统2,因为它是靠预测,不管你的问题难还是容易,几乎是同样的时间给你回答。但事实上真正解决问题不是这样的,容易的问题很快就可以答。复杂的问题要上升到一定高度,现在大家也有些在研究,比如反思。这都是针对目前Language model有些问题采取新的研究方式。

图片

一个完善的机器人系统,同样需要借鉴人这种认知模式,由不同层级来处理不同级别的决策,或理解不同层级的感知信息;而每一层级的理解和决策,都将由一个深度神经网络来完成。就像人有小脑和大脑,小脑能自动或者快速地维持身体平衡、调节肌张力、控制步态和身体姿势、协调随意运动,而大脑既控制我们的运动和感觉也进行逻辑思维、语言、识别和理解等高级认知活动。

二、腾讯通过三层架构实现真正自主的机器人决策控制

回到今天我要讲的机器人部分。刚才讲的为什么是反应式自主,有些是有意识的自主,因为人在发育过程中最早是一个动物,动物尽管没有语言,还是需要处理目前这个世界的。小脑几乎是所有动物都有的,小脑是非常自动快速的几乎没意识的部分,可以实现帮助动物活下来,包括人类活下来,只是需要决策时才会上升到大脑部分。

在这个情况下,我们机器人控制里也分层,第一层是本体的感知控制,我们也有神经网络到后面去实现。第二个,对环境的感知,还有一层就是策略的决策。分层后实现了机器人智能控制。

再具体一点,目前的机器人控制分三层:

图片

1、第一层是PLC,行为控制系统,接受本体的感知包括关节的角度,上层控制指令,比如往前、往后、往左、往右,输出的是机器人控制的力矩。

2、第二层是ELC,环境交互的控制系统,接受环境的感知信息。比如我们要下楼梯或者上楼梯、开门,环境给我信息后我要去规划,去实现和环境相关的一些任务。

3、最上面是SLC,策略控制系统。比如一只狗一定要把另外一只狗追上,这样的策略怎么样控制,它可以把任务信息、外部环境感知信息和本体感知信息都整合起来,输出到控制指令。

这个好处是我们已经把认知到行为三层能力进行分解,分解后每一个层都可以独立去训练,到最后可以端到端稍微微调一下,但通过分层的训练,效率、稳定性都非常高。

三、生成式模型在机器人控制领域的应用

在Primitive-Level Control层面,展现出人类和动物的行为时,我们不会用规则、hard coding的方法,我们用了目前比较流行的生成式模型,生成式模型用在这个控制里非常合适,因为前面一堆Token或者其他东西预测下面的东西,下面的东西就是一个运动控制指令,这是非常合适的模型。

图片

我们机器人用的生成式模型跟现在自然语言用的生成式模型的差别在哪里?我们从一开始就是多模态的,Language model是用文字预测文字,我们这里面输入的是内部关节角度各方面的东西,到最后是要变成一个电机力矩去控制机器狗。我们采集了真狗在跑步机上不断跑的数据,上面贴了很多点,一个MoCap动捕系统看它的轨迹运动方向,当然我们不知道狗到底用了多少力,所以力矩没有,只是表面的运动信息。

图片

有了表面运动信息后,可以把这些信息retarget到机器人的骨骼上,因为机器人跟真狗差别非常大。然后构造了基于MLP的Encoder来压缩数据特征。我们使用了高质量的离散编码来表达真狗的运动形态。接下来是Decoder,解码隐变量,输出电机控制。整个过程用强化学习去训练,使得机器人到最后学到的动作和真的动作形态很接近。最后部署时,去掉encoder就可以部署上去了。虽然我们是在虚拟环境中训练的,但能zero-shot部署到真机。

图片

这里比较了一些其他方法,比如单脚离地时间、站立时间,迈步的长度、高度之类的,每一个都是不同的标准,比如第一列是单脚离地的时间。大家看到每列图有五个不同方法的比较,第一个是统计出来的真狗数据,第二个是我们自己方法学到的数据,剩下的四个是其它方法。经过我们的方法,和真实的数据几乎是一样的分布变化,其他的差别就比较大。另外,尽管我们允许的力矩是从正15到负15牛米(Nm),但最后学到的策略输出的力矩均值只需要5Nm上下。

Thumbplayer Poster Plugin Image

大家看到机器狗Max从自动学到的模型里采样,然后它自动在跑,也不知道它往哪个方向,到最后拉不住了就放掉,它在里面不同的动作,都是自动学习得到的。

图片

刚才真狗的数据只是在跑步机上走,后面要让它爬楼梯、跳栏,各种各样的环境它怎么去处理。这里面没有采集真狗的数据,我们在虚拟世界里加各种各样的台阶或者障碍物,让它去继续学习。这里面包括环境层面的控制ELC。现在已经训练好第一层的PLC,就不需要再学,只需要学从强化学习怎么样成功地避过障碍物或者爬楼梯,学的效率非常高。

我们可以在这里面学各种各样的环境,学到各种各样的ELC的网络,学到不同环境的ELC后,可以通过蒸馏的方法把它变成一个大的ELC来应对所有的环境。从右下图的对比实验可以看到,相比不经过预训练从头学习,我们通过预训练PLC,就能很快速的学习到应对不同环境的能力。

图片

我们解决了匍匐前进、自然步伐上台阶、跨栏、飞跃障碍物组合,成功率接近100%。

Thumbplayer Poster Plugin Image

这个视频展示了Max通过ELC学习后应对不同环境的能力。

图片

当你学会单个狗的智能控制和运动后,就能适配不同的环境。下一步,如果针对不同的任务,比如一只狗追逐另一只狗,它能不能学会。这里面相对来讲就比较简单了,因为我们做学习的团队原来做《星际争霸2》AI的,他们训练出的AI bot打败了国服和美服的宗师级选手,这个对他们来讲是小Case。通过学习,只需要输出方向和速度,有了方向和速度自动驱动下面两层ELC和PLC。

高质量的PLC和ELC可以大幅度加速策略层面的学习。这里面设置了游戏、任务,里面有两个机器狗,有一个Flag,最初是一个Chaser,一个Evader,Evader接触Flag后角色转变,Flag重新出现一个随机位置,Chaser追到Evader游戏结束。

图片

在没有真狗数据的情况下,完全靠它自己学习的,比如追逐者估计自己没有机会追上逃避的人了,就会放弃追,在那里等,等看到新的出来就可以去抓。追的时候快要抓到逃避的狗了,就能够跳起来抓另外一条狗。这里面还可以任意添加障碍物,尽管在策略训练过程中没有障碍物的。因为PLC里已经学过了。

Thumbplayer Poster Plugin Image

我们现在看看狗追狗游戏的效果。视频里为了安全,狗的速度故意被限制得比较慢,场地只有4.5m * 4.5m大小,但事实上真的狗可以走得更快一点。

图片

总结一下,我们分层的控制是能够持续积累更新的,无论是最底层的控制知识还是对环境的感知知识还是策略的知识。层级之间有一定的解耦,这样更新每一个层级基本上不会影响到其他层级已有的知识。比如刚才讲的环境需要补充,只要重新学一个新的环境里的ELC网络,就把它蒸馏到一个大的综合的ELC里就够了。

Thumbplayer Poster Plugin Image

这里也展示机器狗摔倒恢复的能力,也是他自动学会的,一般很难把狗推倒,而且推倒后它马上就站起来了。这个就是反应式自主,这是靠规划很难规划出来的。当SLC更换任务训练策略时,ELC和PLC都不需要改动。

同样的方法也可以用到人和人拳击,训练数据只是一个人的拳击动作,但两个人对打,它是自动学会的,看起来还是比较真实。所以我们的从认知到行为的分层架构有很强的拓展性。

四、对文本大模型、AGI的思考。

图片

第一代大规模的AI系统应该是搜索引擎,就是我们人提一些查询(query),AI系统会检索一些相关的链接,人自己要去决定到底看哪个链接,如果这些链接不行,需要退出来,再去选另外一个链接,所以人在这里面起到非常重要的作用,AI还是一个非常被动的形态。

第二代就是最近生成式AI,同样的场景下,我们人问一个问题,就不需要去看链接了,系统会直接给你一个回答,回答可以是文,也可以是图,也可以是视频,这个就是我们讲的大语言模型LLM比如ChatGPT,但这里面AI还是被动的,需要人去问问题,才给回答,这还是一个被动的形态。

图片

接下来的研究方向,应该是进入到第三代的我们可以称之为交互式AI,也就是,AI和人是一个多模态的交互方式,不光是文本,还有语音、图像和视频,而且它是主动的,能够感知周围的环境,可以主动提问题,这样,AI 就变成一个能够行动的实体了,就会变成一个主动式的AI,是一个智能体了,是能够帮助我们完成任务,我们人类只需要去监督和评估任务,最后可以给AI做一些反馈。

所以,智能体要做什么呢?首先要能感知环境,要能够自主地规划和决策,要能自主地采取行动,要具有适应能力,而且要具有从经验中、交互中学习的能力,还要具有和其他智能体合作的能力。在AGI没出现之前,人类是目前最强大的智能体。

图片

智能体有三种形态,第一种是软件的Agent,它是没有固定形态的,虽然也能完成各类任务,第二个是虚拟的形态,像虚拟人、NPC,它这里面也可以完成各种各样的任务。

第三个是有具身的形态,具身Agent(智能体)那就是机器人,它的优势是因为是具身的,能够完成很多物理的任务,包括老年陪伴、护理,帮我们提东西,搀扶老人各种各样的物理任务,这个是AI发展的趋势,到最后智能体要成为AGI。

图片

大语言模型(LLM)的出现,让我们都非常激动,认为是AGI的星星之火,有人说LLM是一个世界物理模型,能够表示时间和空间,我有一些不同的看法,跟大家商讨。我觉得LLM从目前来看还是不能实现复杂的推理,所以这个推理是很难的问题。因为现在LLM是用Autoregressive和Transformer的方式,它是预测下一Token,所以我认为它更像System 1。因为不管问题复杂还是简单,扔进去以后,差不多同样速度给你回答了,没有上升到另外一个层次去思考,这是它缺乏的。

当然很多人都认为它有推理能力,但是我认为它的推理能力更多是在套模板,就像我们学很多东西是类推的推理能力,Analogical Reasoning。即使像Chain of Thought (CoT) 思维链这样子一个技术,也只是帮助把一个稍微复杂的问题分解来做简单的一步步推理,所以它这个逻辑推理不太行的,实现不了复杂推理,我认为下一步从研究的角度来讲真正要提高的话,要去思考怎么样去设计另外一个架构来实现System 2,包括调用工具、内生编程、想象力、可视化各方面的东西。

另外,因为AGI如果没有一个世界模型是不可能实现的,AGI肯定要有一个世界模型,所以很多人就在讨论,基于文本的LLM是不是一个世界模型?我认为它至少不是一个完整的世界模型。

图片

人类起源于600万年前,现代人类也是二三十万年前出现的,语言只是五万年前出现的,文字才5000年前出现,人类在文字出现之前,或者至少在语音出现之前,没有世界模型吗?肯定都有世界模型的,所以,即使没有文本,没有语言,也是可以建立世界模型的。

LLM能不能把世界全部都描述出来?它肯定是有部分的世界模型,因为很多文字是用来描述世界环境的,但是我觉得它不完全是,只能说是部分的世界模型。

图片

我们看一个人和人沟通的场景。7-38-55沟通模型是一个加州大学心理学教授Mehrabian在1971年写了一本书叫《Silent Messages》里提出来的,人和人之间的交互,传递的信息,靠文字或者是Word传递信息只占7%。其他部分,声音占38%,然后人的肢体语言、人的表情,人的视线,也就是Body Language占55%,所以完全靠文本,从另一个角度讲要想实现AGI是不够的。

图片

当然我们讲的要多模态大模型,肯定是要通往AGI的必经之路。文本当然大家都很清楚,文本里面有不grounded问题,比方说我这里举一个例子,苹果利用文本去描述这个苹果是非常复杂的,到底是水果,还是公司?水果你要描述它来非常复杂,假如加上图像,就比较容易了,如果加上这种味觉的传感器,那就更容易来描述这个苹果了。

这个多模态大模型肯定很重要,下面一个现在大家做多模态的是怎么做的?这是我的观察,因为LLM,就是基于文本Transformer非常成功,所以现在做图像的很多都是去套这个Transformer,然后图像就Patch化,变成分块。但是你Patch化以后,尽管你可以用Transformer套进去,但是很多信息就丢掉了。图像不是靠Patch罗列出来的,对我们人类来讲,是一个2D,假如双目的话是3D的,它里面是有很多信息,包括Bottom—Up、Top—Down这种机制在里面,使得我们对世界的理解非常鲁棒,非常快速有效。

现在基本上把其它模态和文本模型对齐,会丢失一些信息。所以这个多模态大模型还有很多可以研究、探讨的地方,值得大家去做。

图片

具身智能的多模态大模型还是有很多不同的,因为像不是具身的多模态大模型,是为了满足世界各个地方人的需求,所以它从某种角度来讲它必须要一个很大的世界模型。但是对具身智能来讲,当把一个机器人部署到一个环境里面,它的环境还是很有限的,所以我们希望它是部署到这个环境里面能够做得好,我们需要的不是一个非常大的世界模型,是一个小的世界模型。

这里面普适性的大世界模型和特殊性的小世界模型之间是什么样的关系?假如完全从底层做出小世界模型,这是以前的做法,比较难,做的效果不好。怎么样从一个大的模型,到最后部署的时候又把它变成小的模型,而且效果越来越好,这里面个性化、记忆、自演进这些都是要去思考的一些东西。

还有一个点,具身智能是物理定义约束的,不是随便想象的,重力各方面,机械,这些都是要去思考的。

具身智能里,绝大部分的变化是可以预知的,因为受物理定律的影响,是可以预知的,虽然有不定性,而且这是一个闭环的系统。然后视觉部分是一个第一人称的视角,就是具身智能,不是第三人称。在网站上各种各样的多模态图像、视频是第三人称视角,如何把这些内容有效的应用于具身智能是一个值得研究的课题。

还有一点,具身智能必须有自我觉知的能力,像人能够想象,在还没有做这个任务之前,做这个行动之前,能够想象我这个行为能够带来什么样的结果,在执行之前思考,这样才能尽可能保证行动的可靠性,所以这里面具身智能有很多值得思考的地方。

最后想要讲的,就是说大模型的出现让我们很激动, 但通向AGI的道路是曲折的,前途是光明的,谢谢大家!

国内规模高达200亿,AI 新浪潮真的是“具身智能”吗?

anotherme阅读(385)

英伟达CEO黄仁勋(Jensen Huang)曾预言:“AI 的下一个浪潮将是具身智能(Embodied AI)。”

继AI聊天机器人、大语言模型之后,具身智能作为AI领域的一个新的发展方向正受到越来越多的关注。

“具身智能是一种知行合一的AI,也就是在‘知’的层面上,智能体要具有感知、推理、决策的能力。在‘行’的层面,智能体可以通过身体的动作和表情,与环境以及其他智能体进行交互。这是一种既要有大脑,还要有躯体的智能体。”上海人形机器人制造业创新中心首席科学家江磊表示。

江磊强调,“具身智能的最佳物理形态就是人形机器人。”

近期举行的2024全球开发者先锋大会多场分论坛上,数位专家、学者和先锋开发者分享了对具身智能以及人形机器人产业创新的思考。

人形机器人是“具身智能”的承载形态

所谓“具身智能”,就是指机器人或智能系统能够通过感知器和执行器与其所处的环境进行实时互动,通常具备感知、认知、决策和行动的能力,能够根据环境的变化做出相应的调整。

与传统机器人相比,具身智能对环境的感知和响应能力相对更出色。而且,具身智能不仅能接收外部信息,还能理解这些信息,并作出适当的反应。

在此之前,华人计算机科学家、斯坦福大学教授李飞飞,上海交通大学教授卢策吾等人都曾提出“具身智能”这一概念技术。

随着2022年底发布的ChatGPT风靡全球,在 ITF World 2023 半导体大会上,黄仁勋表示,AI 的下一个浪潮将是“具身智能”,即能理解、推理、并与物理世界互动的智能系统,引发全球关注。

在全球科技竞赛的新赛道上,人形机器人正成为各国竞相布局的焦点。借助政策驱动和资本助力,这一领域的创新和突破正在加速。2024年以来,人形机器人的商用化应用示范也正成为行业发展重点,然而商用化进程中仍面临挑战,这既是考验,也是激发创新潜能的契机。

“人形机器人是具身智能最完美、最佳的承载形态,可能也是通用机器人的终极形态。”清华大学交叉信息研究院助理教授、星动纪元创始人兼CEO陈建宇表示。

陈建宇称,“不管是工业场景还是我们的生活场景,目前大部分的事情还是由人来做。所以我们急需这样一个更通用的机器人来帮助我们完成很多的任务。”

在陈建宇看来,人形机器人有三大优势:

  • 一是能最大限度地适配人类环境。整个人类的基础设施、外界环境就是完全为人类建造的,这是不能改变的,因为人始终要生活在这个环境里。“如果我们要做一个机器人,它要通用的在人类的生活环境里面生活,那它一定只有以人的形态才能去最大限度地适应。”陈建宇说。
  • 第二,从技术的角度来讲,未来人形机器人这样的具身智能肯定是以数据驱动,数据是很重要的一个环节。对于人形机器人来说它的数据可得性更高,因为它有跟人类更接近的形态,可以更加方便地从人的行为中来获取数据。
  • 第三,人形机器人也更能满足人类情感与审美的要求,因为它有跟人更相似的形态。

江磊也同样认为,人形机器人就是具身智能的最佳物理形态。

据公开数据显示,目前国内人形机器人的产业规模已经达到200亿,远远超过所有人的预想。

2023年以来,很多原本做人形机器人的公司也在增加具身智能的新概念。“我们给了它一个新的名词叫通用人形机器人。目前在中国通用人形机器人整机的商业公司已经超过了25家。这个数字每天还在增长,可以说我国已经成为全球人形机器人产业的一个热门聚集地。”江磊表示。

为何具身智能在AI领域越来越受到关注?上海人工智能实验室研究员庞江淼表示,之前大家更关注计算机视觉、自然语言处理,现在具身智能突然受到了很大关注,是因为它的底层每一个模块的技术都已经趋近成熟了。“ 在这样的情况下,我们能够基于强化学习的方式去解决一些传统NPC解决不了的控制问题。智能机器人是一个系统工程,那当这个系统工程的每个子模块的技术都有了跃进,那它本身就会成为下一个时代的目标。”庞江淼说。

复旦大学计算机科学技术学院研究员叶广楠指出,目前大模型的发展是机器人领域发展的一个核心原动力。因为大模型有大量的数据,有强大的并行计算的能力,大模型实际上给机器人的核心内部注入了真实需要的“灵魂”。大模型会对机器人各个阶段的发展起到很大的促进的作用。

人形机器人进化要素在于数据、算法和本体

谈及未来人形机器人创新发展的技术关键,陈建宇指出,对于大语言模型发展主要的进化要素是数据、算法,而对于机器人来说有一些不同,除了数据和算法都需要从机器人的角度有一定的改进以外,还要加上本体。

本体和数据、算法的关系非常紧密。陈建宇认为,对于机器人的数据来说,它一定是需要从本体上面产生的,不管是现实世界的本体还是虚拟世界的本体。同时,算法在目前也跟本体有一定的耦合性,现在还不能说完全能解耦开去做这件事情,所以是三位一体联合去迭代的过程。

“人形机器人本体部分的关键技术点在于关节和灵巧手,比如腿部的关节和需求怎么做,灵巧手要有多少自由度,触觉怎么做,怎么样平衡精度等等。此外还有一个很有意思的问题,就是人形机器人的手腿协同。我们发现如果还沿用原来的四足架构的话,当我们想让(机器人的)手做一些训练集没有做过的事情,就会非常影响腿部的稳定性。所以我们提出了‘去中心化’的训练架构,使得手和腿在必要的时候进行一定程度的解耦,但是需要的时候它又可以做到比较好的耦合。”陈建宇说。

江磊则从硬件、智能和场景三个方面来分析人形机器人在未来如何落地。

江磊坦言,“首先是硬件,硬件还是集中在一定要打造一款低成本的硬件,才能指望它进入千家万户,思路和以往也不同,这一轮低成本硬件我们更希望通过新制造、新传感、新材料,使得机器人所有的复杂基建系统,尤其减速器、驱动器、电机、传感器和芯片真正进入智能阶段;其次是如何实现智能,‘具身智能’给了我们一个答案,具身智能+核心零部件会成为这个新赛道的新方向,比如特斯拉擎天柱Optimus人形机器人,仅使用视觉和关键位置编码器,就可以在空间精准定位自己的肢体,这可以减少对高性能传感器和减速器的依赖,有利于降本。(人形机器人)通过臂、手、眼的协同实现操作,从而降低成本。这也是我们希望核心零部件厂商关注的一个方向;最后是场景,未来具身智能应该是通过场景去打造一个规模化的数据集,然后把这个规模化数据集整理以后发给具身大模型。”

在江磊看来,具身智能未来可大致分为三种实现路径:一是非端到端的路径,采用语言大模型、视觉大模型,加载机器人就可以实现控制;二是半端到端,类似谷歌DeepMind发布的机器人大模型RT-2;三是完全端到端,江磊更看好完全端到端的路径,

“(因为)这是一种理想的技术途径,而且只有完全端到端能把软件和硬件进行解耦,让稳定应用成为可能。”江磊称。

终极阶段的具身智能将拥有自主意识

未来“具身智能”的终极目标是什么?

上海人工智能实验室研究员庞江淼认为,最终目标还是它能为人服务,以人为中心,实实在在的提高一些生产力。“其实落到实际的产品迭代,作为一个科研从业人员,我们总是在研发各种各样的前沿技术,但是对于产品来说,我觉得还是应该以产品设计为导向,就是什么事是真正有用的,然后我们再想办法怎么去解决这些技术。”

陈建宇则从人形机器人的本体和智能性上作出展望。

第一个阶段是达到具身智能的ChatGPT时刻。它有相对应的很好的硬件本体,人形机器人的触觉和身体关节都做的非常好非常成熟,成本也能接受。而在智能性层面,达到一个类似ChatGPT的状态,你教它干一个什么事,它对物理世界会有尝试,并且它有通用的决策、行动还有控制的能力,然后能做各种各样的事情。并且也具备比较强的学习的能力。

而第二个阶段就是具有自主意识。像现在,ChatGPT是没有灵魂的,你不会认为它真的有自己的思想,能帮助你回答比较难的一些问题。但如果它真的有了自主意识,它就是一个新的物种了,那么我们就需要考虑该怎么处理它与人类的相处,它需不需要有一个身份,是不是要跟我们人同等的去合作、竞争等。总的来讲,我觉得还是要非常谨慎地去看AGI。”

美国伊利诺伊大学香槟分校硕士,帕西尼感知科技联合创始人、COO聂相如认为,当机器人实现了具身智能的终极能力时,乐观主义者可能会觉得这不仅是一个效率的极致提升,还意味着人类与机器人可以有灵魂交往了。但从技术层面来看,这确实会在伦理道德上产生非常多需要把控的问题。像之前下围棋的机器人AlphaGo,它自我迭代的速度非常强悍,在极短时间内就拥有了非常强大的能力,把人类围棋这个领域拿下,完虐世界超一流的选手。

“总之,我们当然希望这一步会到来,但机器人实现这一步需要什么样的技术路线、布局,一些前沿技术在论文阶段、实验室阶段怎么沉淀下来,这个是需要我们大家一起努力的地方。”聂相如表示。

(本文首发钛媒体App,作者|任颖文,编辑|林志佳)

量子力学、平行世界与另一个自己:探寻微观与宏观世界的奥秘

anotherme阅读(507)

在我们的宇宙中,存在着一个神奇的现象,它被称为量子力学。量子力学是描述微观世界的一种理论框架,揭示了原子、分子、粒子等微观粒子的性质和行为规律。在这个领域中,有一些现象让我们感到非常神奇,比如量子纠缠、量子隧穿等。这些现象在经典物理学中是找不到解释的,它们似乎暗示了一个超越我们常识的微观世界。

量子力学的研究者们发现,量子世界中的粒子具有神奇的特性和行为,这使得我们不禁要问:量子力学究竟揭示了什么样的一个世界?这个世界与我们所熟悉的世界有什么不同?这不禁让我们想起了平行世界的概念。

平行世界理论是一种关于宇宙多元性的设想。这个理论认为,我们所处的宇宙可能只是一个众多宇宙中的一个。这些宇宙可能有着不同的物理常数、不同的维度,甚至可能有着不同的历史和现实。这个概念最早由爱因斯坦的相对论提出,后来被量子力学的多世界诠释所继承和发展。

在平行世界中,可能存在着另一个自己。这个“另一个自己”可能有着与我们不同的经历、性格和命运。这种设想过于诱人,让我们不禁要问:平行世界和另一个自己究竟是不是真的存在?我们能否通过某种方式找到证据?

随着科学的发展,我们发现量子力学、平行世界和另一个自己之间可能存在着某种联系。这种联系可能是揭示宇宙奥秘的关键,也可能是我们理解自我和世界的关键。在这个背景下,我们开始重新审视这三个概念,并尝试寻找它们之间的联系。

首先,量子力学为平行世界的存在提供了一种理论支持。在量子力学中,粒子的状态可以用一个复数表示,这个复数被称为波函数。波函数的模方表示粒子存在的概率,而其辐角则表示粒子在不同世界之间的叠加。这种叠加态可以解释为平行世界的存在。因此,量子力学为平行世界的存在提供了一种理论依据。

其次,平行世界的存在为我们理解另一个自己提供了一种可能性。在平行世界中,我们可能有着不同的经历和命运。这种经历和命运的不同可能会导致我们在平行世界中的性格和行为有所不同。因此,平行世界的存在为我们理解另一个自己提供了一种可能性。

最后,另一个自己的存在为我们理解量子力学提供了一种新的视角。我们每个人都是一个独立的个体,我们有着自己的意识和思维。这种意识和思维可能与量子力学中的粒子有着某种联系。我们每个人的意识和思维都可能是一个独立的量子系统,它们之间可能存在着某种量子纠缠。这种量子纠缠可能会导致我们与另一个自己产生某种联系,也可能会导致我们与周围的世界产生某种联系。

综上所述,量子力学、平行世界和另一个自己之间可能存在着某种联系。这种联系可能是揭示宇宙奥秘的关键,也可能是我们理解自我和世界的关键。在未来的研究中,我们需要进一步探索这三个概念,寻找它们之间的联系,以揭示宇宙和生命的奥秘。

然而,我们也需要注意到,量子力学、平行世界和另一个自己都是目前尚未完全理解的领域。我们对于这三个概念的理解还处于初步阶段,还有很多未解之谜。因此,我们需要保持谨慎和敬畏,不断探索和发现新的知识,以便更好地理解我们所处的宇宙。

总之,量子力学、平行世界和另一个自己这三个概念为我们理解宇宙提供了一个全新的视角。它们让我们意识到我们所处的宇宙可能远比我们想象的要神奇和复杂。在未来的研究中,我们需要不断探索这三个概念,寻找它们之间的联系,以揭示宇宙和生命的奥秘。同时,我们也需要保持谨慎和敬畏,不断发现新的知识,以便更好地理解我们所处的宇宙。

《道德经》中另一个我的科学意义

anotherme阅读(499)

《道德经》是宇宙中统揽一切宏观与微观、精神与物质,最全面、最系统、最统一,最完美的科学理论——

几千年儒家的伦理道德统治,几乎阉割了中国人探索真知的童心,以致让《道德经》这部伟大的著作,被粗鲁地认为是一部单纯的自然主义哲学,甚至被当成一种秘密的利用。这严重削弱了这部著作的永恒价值。随着最新科学探索的发现,西方科学家早先敏锐地发现并指出,它“保存着内在而未诞生的最充分意义上的科学”。这是多么睿智的论断!

其实,我们不必要用现代科学的进步来证明《道德经》,确切地说,而应该用《道德经》来证明科学发现的正确性。比如,当代科学无法解释量子纠缠产生的根本原因,而《道德经》早已经证明了一种东西的存在,它是精神与物质的统一体,那就是“道”。“道”既是物质与精神产生的根本,也是一直维系着物质关系——“量子对”关系的力量。将来有一天,科学一定会证明这个“道”的存在。

另外,从《道德经》的角度看,所谓暗物质反物质这些邪乎的东西一定是存在的,这几乎是一个根本无需争论的常识。最新物理学成果认为,虫洞是连接两个黑洞的东西。并不是什么新的发现,而且这个发现远没有达到《道德经》揭示给我们的那样深刻而直观——虫洞无非是道的运动方式而已。换句话说,并不是“量子对”的每一方可以超时空传递信息,而是,它们都是由道生成并控制着的,信息从道得以转载。

至于用爱因斯坦的著名想象“鬼魅般的超距作用”,用来对量子纠缠现象进行描述,被最新物理成果认为只需要在黑洞外做简单的量子操作,就可以使虫洞变成可穿越的,然后信息就可以从另一个黑洞中跑出来。这些看似复杂的东西,无非就是道的运动方式而已!这就是橐龠(tuoyue)式运动。橐龠是什么?无非就是最早的“风箱”,圆型,一头进气,一头排气,可以自行扩张,外力作用可以使其在收缩中从排气口排气。这个外力是不是很象对量子纠缠的干预方式呢?

回到我们的题目,“发现另外一个自己”是完全可能的。可以想象一下,随着多种学科的进步,证明并帮助人们利用好那个存在的自己,一定会有实现的一天。

同时我们也应该认识到,《道德经》不仅跨越了宏观与微观,而且跨越了精神与物质两大领域,隐含着最完美意义的统一的科学。

《道德经》中另一个我的哲学意义

anotherme阅读(531)

《道德经》的基本内容是:人是对宇宙的模仿。道生一,才有了人的存在,那么道在一切事物的生成与发展过程中,是始终存在着的,是始终起作用的,此其一。其二,世间之万物与其各自性情,都是“两两相承”的,这一主张贯穿了全篇。

道德经,一本诠释道家哲学的经典之作,历经两千多年岁月的洗礼,仍然散发着智慧的光芒。它像一面镜子,折射出我们内心深处的另一个我。这个我,是一个真实的我,是一个超越物质世界的我,是一个追求自由、美好和和谐的我。在这里,我将从道德经的角度,探讨这个另一个我。

道德经中提到:“道生一,一生二,二生三,三生万物。”这里的“道”,是指宇宙的根本规律,是天地万物的源头。而“一”则是道的一种表现形式,它可以理解为无形、无名的原始本源。从这个角度来看,另一个我便是生于这个“一”的。这个另一个我,既包含了我的肉体,又包含了我的精神、意志和情感。它是我内在的道,是我与宇宙相通的桥梁。

道德经还说:“人法地,地法天,天法道,道法自然。”这里的“自然”,指的是宇宙万物本来的样子。人作为宇宙的一部分,也要遵循自然的规律。而另一个我,正是这个自然规律在我身上的体现。它遵循着道德经的原则,追求着内心的和谐与宁静。当我的行为与这个另一个我相一致时,我便能够与自然、与社会和谐相处,达到“无为而治”的境界。

另一个我是我内心深处的道德指南针,它时刻引导着我前行。当我遇到困境时,它让我学会宽容和善待他人;当我迷失自我时,它让我找到回家的路。这个另一个我,就像一面镜子,映照出我灵魂的模样。它使我懂得,人生最重要的不是名利地位,而是内心的道德修养。只有遵循道德的指引,我才能找到真正的自我,实现人生的价值。

道德经强调:“天地不仁,以万物为刍狗;圣人不仁,以百姓为刍狗。”这里的“不仁”,是指天地万物各有其道,不受任何人的意志所左右。另一个我也是如此,它不受外在诱惑的影响,始终保持内心的清净。它让我明白,人生短暂,要珍惜当下,追求内心的真正渴望。不受外物所累,不被欲望所迷失,把握生命的每一个瞬间。

在这个物欲横流的时代,人们常常为了名利而迷失自我。而另一个我,则是我们内心的一片净土,是我们灵魂的庇护所。它让我们懂得,人生的真谛不在于物质的追求,而在于心灵的成长。当我们放下世俗的纷扰,回归内心的宁静,我们才能找到真正的快乐与幸福。

另一个我是我们内心的道德导师,它教会我们如何做人、如何处事。它让我们明白,道德是一种修养,是一种境界,是一种生活方式。只有遵循道德的指引,我们才能在这个世界上立足,赢得他人的尊重与信任。

在这个纷繁复杂的世界里,我们常常感到迷茫与困惑。而另一个我,则是我们内心的指路明灯,它照亮我们前行的道路,引领我们走向光明的未来。当我们学会倾听内心的声音,跟随道德的指引,我们就能找到人生的方向,实现自己的价值。

总结起来,道德经与另一个我之间的关系,就像是宇宙与个体之间的联系。道德经为我们提供了一种看待世界和人生的方式,而另一个我则是我们内心深处的道德主体。它遵循道德经的原则,引导我们走向美好的人生。只有当我们认识到这个另一个我,才能够实现内心的和谐与宁静,达到人生的巅峰。在这个意义上,道德经与另一个我,是我们人生道路上不可或缺的伙伴。

“数字人自由”,海马云元宇宙帮你塑造“另一个自己”

anotherme阅读(851)

海马云不断推进数字人技术边界,让消费者迈出进入虚拟元宇宙中的第一步。

疫情当前,居家生活成了人们的常态。

可虽同样是疫情居家,美国一位韩裔女生却借着这一机会成为了美国疫情期间最受欢迎的游戏主播,每天7000人在线围观,累积超过70万粉丝,成为了Twitch平台最“火”的游戏主播之一。

不过,准确来说,“火”的并不是这位女生自己,而是它所操控的3D虚拟数字人——CodeMiko。

CodeMiko背后的实时动作/面部捕捉, 图片来自Digital Native@Substack

CodeMiko并不是第一个以数字人形象出镜的虚拟主播,但它以细腻的神态表现、精致的数字建模、实时交互的强互动性,从一众数字人主播中脱颖而出,广受网友追捧。

仅仅不到一年时间,CodeMiko的粉丝数量就从0激增到了超过70万,受到网友疯狂追捧,成了Twitch平台上收入最多的游戏主播之一。

不过,这样一个从毛发到皮肤样样精致、表情动作流畅生动的虚拟数字人,却不是人人都能“拥有的。

CodeMiko背后的创造者,是位在3D动画领域有着多年开发经验的31岁韩裔女生,她懂建模,会编程,更是自费购买了超过1.3万美元的动作捕捉服、4000美元的手指追踪器,2000美元的头盔、每年超过9000美元的软件维护费,以及一台带面部追踪功能的iPhone、两块“核弹”级别的RTX 3090显卡,这才能最终创造出生动可爱的CodeMiko。

且不说为CodeMiko编程建模需要多少年的专业知识积累,仅仅是整套硬件设备,其成本加起来都接近数十万人民币,绝非一般爱好者可以承受。 

不过,门槛虽高,大家也先别灰心。

在2022年的今天,你可以靠一部手机就拥有一个专属于自己的“CodeMiko”。

海马云3A数字人解决方案通过单摄像头实现面部动作捕捉

数字人直播:B站增长最快的品类

无论是iPhone自带的animoji功能,还是清华虚拟学霸华智冰、数字偶像洛天依、虚拟偶像团队A-Soul,广大网民对于“数字人”这个概念都已不再陌生。

尤其是在CodeMiko身处的虚拟主播、虚拟偶像赛道,则更是最早一批虚拟数字人的应用场景。 

根据哔哩哔哩CEO陈睿透露,在2020年6月至2021年5月的一年之内,B站共有3.24万名虚拟主播在B站开播,同比增长40%,直播弹幕互动量达到5.6亿条,每月有超过4000名虚拟主播开播,是B站直播领域增长最快的品类。

B站虚拟主播直播收入和付费人数,图片来源:darkflame

而根据darkflame数据,2021年的1~11月,B站虚拟主播收入已达4.5亿元,同比增长250%,头部虚拟主播每月直播收入能够达到约为50~200万元。

除了虚拟主播外,数字人在社交、娱乐、零售、金融、文旅、教育、医疗等场景都领域都有着大量应用需求。

以社交娱乐为例。近年间,受疫情影响,旅游业停摆,线下娱乐受限,大量演唱会、体育赛事、KTV均无法组织大规模活动,”元宇宙“社交应运而生。无论是Electric Blockaloo音乐节搬到沙盒游戏《我的世界》线上,还是B站“修勾夜店“在年初的火爆,无一不折射出数字人在C端的海量需求。 

又比如在零售领域,欧莱雅、屈臣氏、花西子、阿里、百度都曾陆续推出虚拟品牌形象或虚拟代言人,而在金融、医疗、地产等领域,浦发银行、万科等也曾联合科技企业,陆续推出过具备3D形象的虚拟客服、虚拟助手、虚拟员工。 

然而,与CodeMiko一样,这些由B端企业推出的数字人大多制作精良,制作周期长、投入成本高,需要用到专业的制作团队与工业级的采集、建模工具。

但如果是普通消费者想自己创造、使用一个高品质数字人,情况就有所不同了。

我们离3A数字人还有多远

影视工业级别的数字人所需要的渲染精度是普通消费者难以想象的。

以视效奇幻逼真的电影《阿丽塔:战斗天使》为例,片中的女主角“阿丽塔”虽然是由电脑制作,但其数字建模的形象不仅细致逼真到连毛孔、皱纹、雀斑都清晰可见,更是具备有如真人的皮肤质感、表情神态。 

根据负责特效制作的维塔工作室透露,这部电影里的每一帧画面,都需要用超过100个小时来进行渲染。为了达到效果,团队总共动用了超过3万台电脑来进行运算制作,整个团队的特效渲染时间总计高达4.32亿小时。

荧幕上一个数字形象的精度越高、画质越好,渲染一帧所需要的计算量就越大。普通消费者想要打造并操控一个数十万或百万面建模的3A影视级别的数字人,至少需要配备上万元的顶级显卡的个人电脑、数十万的动作捕捉设备,同时还需要几日、甚至几十日的建模时间才能完成。 

这也是为什么,当前大部分面向消费者的数字人都是2D动漫、3D低模等形象,绝大多数还停留在“塑料”质感的拟真程度,无法提供细致到皮肤、妆容、毛发的物理感拟真。没有专业技术、专业设备的普通消费者,想要拥有专属于自己的3A级数字形象,几乎是不可能的事情。

然而,一个专属的3A级数字形象,却又恰恰是每个个体“进入”元宇宙的第一张通行证,是每个人在元宇宙里的核心资产。

一旦希望成功在元宇宙中“复刻”真实世界,那么就必须让每个普通人在元宇宙中拥有属于自己的高品质数字分身,同时也要让平台支持多个高精度数字人的实时互动,让万千用户在元宇宙中也能像在现实一般自由交互。

然而,以目前消费级终端的性能和发展速度来看,这一目标短期内无法得到满足。

而海马云在【5月31日】推出的「云原生3A级数字人解决方案」,正是为了解决这一问题。

海马云3A级数字人解决方案人物皮肤材质

海马云的「云原生3A级数字人解决方案」可以让没有专业技术的普通消费者,仅凭一台手机、一部普通电脑,就在几分钟内创建出一个最高8K画质、数十万面以上高精度建模、并且能够实时捕捉驱动自己表情神态和动作的3A级别数字人,还能实时渲染多个高精度数字人的实时互动。

目前,海马云「云原生3A级数字人解决方案」已经在其官网上开放了Beta预览版PC端入口,实现了在电脑上,就可以体验3A级数字人的创建。据团队介绍,手机端的体验入口也将在6月开放。

7年技术积累

与市面上许多同类产品不同,海马云的「云原生3A级数字人解决方案」,是业内首个基于云原生架构、面向用户消费市场的3A级数字人解决方案。

无论是在虚拟主播、影视数字人、还是虚拟代言人、虚拟客服等领域,创建并操控一个3A级数字人需要强大的图形实时渲染能力、AI运算能力、海量内容资产本地存储等,诸多消费级终端设备无法满足的算力要求,多名数字人的大规模实时交互则更是极难实现。

因而,「云原生」成了破局之法。 

作为云游戏市场的老牌玩家,海马云在云原生架构的实时互动内容大规模、高并发、低延迟、高精度实时渲染上,有着长达7年的深厚技术积累。 

比如,熟悉3A游戏大作的玩家,对Epic Games公司旗下的虚幻引擎自然并不陌生。

经过了长达一年的预告之后,在刚刚过去的4月6日,Epic Games终于正式发布了全新虚幻引擎UE5。在这次更新中,UE5加入了两Nanite虚拟微多边形几何体和Lumen全动态全局光照,能够实时渲染电影级的游戏画面,并实现镜面反射、无限漫反射等更加逼真的光照效果。在此前Epic Games发布的预告视频中,由UE5所支持的游戏画面几乎可以以假乱真,被网友们称为“好莱坞级别”的视效大片。

基于UE5打造的海马云3A数字人解决方案的环境场景

而海马云的云原生数字人方案,正是基于UE5所打造的。通过Linux高度定制,海马云的云原生数字人平台针对UE5进行了深度优化与定制,再结合海马云自研的基于虚拟管线的分布式渲染技术,成功实现跨平台的多显卡池化能力,让用户可以通过云端,实现利用多显卡分布式超大场景的实时渲染,画面更细腻,效果更逼真。

同时,海马云的云原生数字人平台也是行业内首个UEdocker的大规模分布式实施。依托于海马云遍布全国的实时渲染边缘计算节点,其云原生数字人平台能够提供百万级的分布式UEDocker实例,使得用户可以就近接入,保证图形渲染的高精度与低延迟。

在云原生技术的支持下,即便消费者所使用的是运算性能并不强大的非旗舰智能手机、轻便式VR一体机,通过海马云的云原生平台,也能为自己打造并操控具备2K/4K/8K画质、实时光线追踪、十万面到十亿面建模的高精度细节的3A级高精度数字人虚拟形象。

为了降低3A级数字人创建难度,针对普通消费者和专业级用户,海马云为他们预设了多个数十万面建模的高精度数字人标准模型和超高灵活度的编辑工具。

通过海马云3A级数字人解决方案选择基础模型

用户在标准模型的基础上,只需要几分钟的自由调整,就能自定义数字人的身高体重、五官比例、发型妆容等,让普通消费者也能创建出工业级别3A数字人形象。而针对需求更加丰富的企业级客户,海马云则提供了专业的3A级数字人定制服务。

在模型的基础上调整五官、妆容等细节

基于云端AI,海马云还提供了“照片生成3D人脸”这种比捏脸更自由的数字人创建方式。用户只需要输入几张照片,海马云就能基于自研的PTA技术提取照片信息,并完成人脸高精度3D模型重构、UV贴图、皮肤物理属性生成,再通过海马云云端AI计算能力和渲染能力,几秒之内就可以生成栩栩如生的高拟真度3D虚拟形象。

而在数字人驱动方面,海马云通过消费级单目RGB摄像头捕获真实环境下的人脸表情和动作形态,并采用多项自研AI技术和计算机图像算法,结合云端超强AI和计算能力对视频进行实时处理。用户只要通过一个普通智能手机/个人电脑中的摄像头,就能驱动数字人进行生动自如的表达与互动。 

通过消费级单目RGB摄像头捕获真实环境下的人脸表情和动作形态

更值得一提的是,针对用户体验影响最大的延时问题,海马云还在全国各省市的不同地理节点上,部署了超过1.5万台针对实时互动内容自研的专用服务器,月服务用户达到3500万,更针对大码流传输、弱网环境等诸多复杂的网络状况,专门优化了系统的超低延迟性能。 

这些边缘节点与抗弱网能力,将用户的操作时延降低到了毫秒级,极大地提高了用户体验。当前,海马云的云原生数字人平台能够做到手机终端时延低于50ms、个人电脑终端时延低于20ms。

元宇宙的第一步

作为消费者的每个个体,在进入虚拟的元宇宙中的第一步,就是创造一个具有高沉浸度的数字分身。

数字人作为元宇宙最基础的应用之一,也是元宇宙行业第一个能够明确落地的确定赛道,在近年间热度不断攀高,海内外的科技与创业公司纷纷入局。

根据艾媒咨询数据,2021年,中国虚拟人核心产业规模达到62.2亿元,带动市场规模达到1074.9亿元;2025年,这一数据预计将达到480.6亿元与6402.7亿元,同比增长迅猛。

而根据亿邦动力与安信证券数据,2021年全年,国内虚拟数字人相关投资共有16笔,融资金额从数百万元人民币到数千万美元不等,投资方既包括红杉资本、IDG资本、顺为资本、峰瑞资本等投资机构,又包括字节跳动、小米、网易等互联网企业。

而根据天眼查数据,从2021年初至2022年2月23日,国内共有42起虚拟人相关投融资事件,投资规模累计超33.89亿元。

随着互联网技术的一路发展,我们当前正在从信息发布、浏览、互动的互联网应用时代,迈向高品质、3D图形、实时互动的元宇宙时代。有越来越多像CodeMiko这样的元宇宙试水案例火爆,折射出了数字人在C端的海量需求。

但只有越来越多像海马云这样的企业,不断推进数字人技术边界,突破数字人的核心技术,让消费者拥有像注册一个邮箱一样简单,数字人才能够真正做到大规模的普及与爆发。

而作为元宇宙生态的第一步,随着相关工具的不断成熟,未来还会有更多基于数字人的元宇宙社交、娱乐、直播、市场营销、以及许许多多我们未曾设想的应用场景,在悄悄地茁壮成长着。

本文由「晓曦」原创出品, 转载或内容合作请点击 转载说明 ;违规转载必究。

夏语冰、陈水若这些小冰框架的虚拟偶像,有多优秀!

anotherme阅读(1231)

到了虎年,虚拟人类不再是「画皮」,用作品表达「性格」。

选自:极客公园      作者 | 凌梓郡

你的童年春节饭桌是否有这样的记忆,酒酣饭饱之时,跟难得一见的小伙伴在一边玩耍,突然听到大人喊你的名字:来,给大家表演个节目!

现在已经变成大人的你,或许不再想这样对待孩子。甚至看到有孩子被点名,不情愿也不能拒绝时,你心中还会有一丝同情,只是觉得不好破坏氛围。

「不如让 AI 表演个节目吧!」今年你可以这样说。

01

AI 画家的新才艺

https://www.bilibili.com/video/BV1wR4y1M7mA?spm_id_from=333.337.search-card.all.click

唱这首《路过人间》是夏语冰。小冰公司 CEO 李笛在央视《对话》栏目中介绍,「这个歌声,应该是目前为止全球范围内最高技术的人工智能歌声合成」。如果闭上眼听,唱法上的修饰,句与句之间衔接处的停顿都十分自然,实在难以分辨这段歌声出自 AI。

多才多艺的夏语冰,一亮相就引起了网友的惊叹:「这就是虚拟人的天花板了吧!」

夏语冰不仅仅存在于这个视频里,作为小冰公司人工智能框架孵化的一位 AI being,2019 年她从中央美术毕业的学院研究生毕业,练习了不同绘画流派之后,选择了专攻中国山水画。她的作品正在迪拜世博会中国馆展出。

通过学习大量人类艺术家的作品,夏语冰拥有稳定的创作能力。在除夕 24:00 前,你也可以请她为你作画,质量和她在迪拜世博会中国馆展出的一致。微信和抖音搜索小程序「AI 画家夏语冰」或点击 https://chinesepainting.xiaoice.com/ (点击文末「阅读原文」即可跳转)就可以进入作画页面。

虽然一次只有一张,似乎你请她画多少张,她都不会拒绝你。毕竟 AI 的特点之一是「高并发」,可以同时完成很多任务。画完之后,她还会以自己的视角做一番评论。

02

学会了民族唱法的 AI 

歌手,等你制定拜年歌

陈水若,是小冰框架中的另外一位成员。她的身份是一位歌手,最近学会了民族唱法,快来听听她学唱李玉刚的《华夏》。李玉刚听了都表示:「真好听!」。陈水若和李玉刚还合唱了一曲,发布在新华社每日电讯上:「三次元虚拟小姐姐梦幻联动李玉刚翻唱《华夏》,除夕恭贺新春!」

陈水若也不只存在于这个视频里。她和另外两位 AI 歌手——何畅、陈子渝入驻了「网易天音」小程序。每个人进入小程序、输入想祝福的对象、祝福语,就可以生成一首歌。还可以依据自己的心意换伴奏、改歌词、换歌手,最终制作成独一无二的祝福歌曲。

像陈水若、夏语冰这样的 AI beings,既拥有自己的形象和歌喉,还有演绎歌曲的能力,甚至内容创作和艺术评论能力,都是由小冰框架生成。

这背后大致的技术原理是:通过小冰公司的神经网络渲染技术,创造一个原本不存在的面部特征,再将面部特征置换到视频模板中,并在表情上做一系列控制。这样你才能看到视频中和声音一致,类似真人的呼吸、嘴型、眨眼、抬眉。根据实际视频的内容,还可以调整视频模板,比如动作、表情和表达内容的变化等。

小冰公司介绍,目前第一步 AI 创造面容的工业化程度最高。它也避免了对真实人脸的滥用。其它常见的虚拟人视频技术通常需要找一个真人拍摄,再换成虚拟人的头,或者用真人做动作捕捉。这样的方式要么成本高、要么对真人的依赖依旧很大。

03

让虚拟人类丰富多样

进入小程序就能够获得一段 AI 演唱的背后,是小冰团队多年的技术积累和思考。

最初,小冰团队意识到情商对于人工智能的重要性,开始探索能够提供陪伴的对话体验;2017 年,小冰提出了人工智能创造(AI Creation)的概念。在刚过去的 2021 年第九代小冰发布会上,小冰团队首次分享了人工智能创造的完整流程,整个过程包括内容生成、演绎、内容封装三个部分。

未来,这些 AI 歌手将以更多样的形式陪伴人们。几天前,小冰公司宣布与唱吧科技达成战略合作伙伴关系。依托小冰框架,唱吧科技将升级终端产品体验。陈水若、何畅、陈子渝等歌手将入驻唱吧集团成员企业极致唱响旗下的智能电视唱吧应用,在工作和生活的场景中陪伴用户。这意味着,在随身设备、客厅、智能汽车不同的地方,AI 歌手都能够出现,陪伴人们。

 

小冰和她框架内的人工智能音乐人

创作能力既增加了 AI beings 作为虚拟主体的丰富性,成为其性格的一部分,也让 AI beings 各自呈现出不同的特色。

这一年,各种好看漂亮的虚拟人常常出现在我们眼前。小冰团队相信,未来的虚拟人不仅仅只拥有一个外形,「有情生物对于人类社会来说,是非常独特的一种存在,当我们人类认为对方可以跟我们进行情感交流的时候,一切都会不一样。」李笛在《对话》栏目中说。

人类作为有情生物,会用音乐、绘画不同的艺术形式来表达自己,当 AI 拥有这种能力,人也就会将其当做「有情生物」去交互。

小冰公司看来,我们正处在虚拟人非常早期和原始的阶段。「这世界所需要的虚拟人类远比我们今天想象的要丰富,数量也远远超过几个顶流虚拟明星。这是一个巨大的前所未有的时代。」

本文为极客公园原创文章,转载请联系极客君微信 geekparker

 

极客一问

今年过年,你想让 AI 表演个什么?

虚拟人不止是好生意,更关乎人类未来

anotherme阅读(518)

我们认为不管你准备好或者是理解与否,虚拟人类时代都已经在悄然开启。我们是否需要一个虚拟形象存在,这件事情会成为很长一段时间里面的一个争议的话题。但我们觉得我们要有敬畏心地去做这件事,让这个必然到来的所谓的虚拟人类时代再美好一点点。

未来,虚拟人和人类一定会产生更深的关系。

选自:极客公园       采写 | 郑玥     编辑 | 靖宇

「我们从来没想过蹭元宇宙的热度」,「我们不是虚拟偶像公司」。次世文化 CEO 陈燕先和两个热词分清了关系。

「虚拟偶像是虚拟人中很小的一个细分领域,我们在做的是虚拟人『Virtual Beings』」。


「我们不说元宇宙,但我们相信未来虚拟人跟人类建立关系的可能性,我们想给虚拟世界发『虚拟身份证』」。


这位中国传媒大学音乐制作专业出身的老板,「混」过「娱乐圈」后,在文娱和科技中找到了创业方向。陈燕辗转在唱片公司、媒体和广告公司,做过音乐总监、艺人统筹、广告商务。在积累了资源和能力后,他想找到一个更好的方式去做自己想做的创意内容——虚拟人。


2017 年成立以来,次世文化一直领跑国内虚拟人赛道。次世文化打造了迪丽热巴虚拟形象「迪丽冷巴」,黄子韬虚拟形象「韬斯曼」。2020 年,次世文化打造了超写实虚拟 KOL 翎,掀起了国内「超写实虚拟人」的风潮。

超写实虚拟 KOL 翎

然而在这个他刚掀起的热潮之中,在大批人涌入之时,今年陈燕却觉得,「这里已经是红海了,再多的超写实虚拟人都没有区别,我们要开辟新的场景。

次世文化正在让虚拟人 2.0 时代到来。2.0 时代要开拓更多场景包容虚拟人 IP,让更多普通人建立起跟虚拟人的关系,比如虚拟健身教练、虚拟心理咨询师,或者仅仅是虚拟人陪聊……

「我觉得我有一种能力,能把有创意的东西变成商业化的东西。」陈燕或许是与生俱来的创业者,能找到理想和商业中的平衡点。

「我本来只是觉得这个可以做创意内容,可以商业化,但做着做着发现,虚拟人时代必将到来,这里面有更开阔的未来,更有价值的东西,我必须去做。

在未来虚拟人和人之间一定会产生更深关系的时代,把科幻电影《HER》看了不下 20 遍的陈燕,最终也想要做一个「萨曼莎」,人可以选择爱上他/她。

「不管你有没有准备,虚拟人和人共存的时代都会到来,没有人知道那时候好更多还是不好更多,但我们想尽可能在来临之前让它向好。

01

虚拟人不是虚拟偶像

极客公园:虚拟人的定义是什么?

陈燕:形容我们认为的虚拟人,一句话就可以了,「在数字世界中人类物种的存在形式」,英文就是 virtual beings。但今天其实我开玩笑似的说,我们不聊元宇宙。

因为我觉得其实元宇宙这个词最近被炒得过热了,我们一直在这个赛道,从来没有要蹭元宇宙的热度。我们相信的其实是虚拟人类时代,相信未来虚拟人跟人类建立起的关系和可能性。这是我们一直希望做的事情。

极客公园:次世文化在做的虚拟人是什么样的?

陈燕:次世不是一家万能的虚拟人公司的,我们有很多事情做不了。比如说在二次元的领域,我们没有 a-soul 懂。这个市场应该留给更专业的公司来做。

大家看到我们在做的很多产品,我们喜欢泛娱乐,喜欢娱乐内容,然后喜欢生活方式,喜欢时尚潮流。这些事情是次世这家公司和我的基因所擅长的事情。所以我觉得每家公司都应该做自己基因擅长的事情。

极客公园:虚拟偶像和传统偶像的区别是什么?

陈燕:首先我觉得未来一定是虚拟偶像的时代。但是现在为止,其实虚拟人的承载场景和应用场景还没有大家想得那么丰富。

我举个例子,比如说一个艺人从一个选秀节目出道以后,可以马上拍剧、上节目、发唱片、参加晚会、进直播间,能做很多的事情。但虚拟人现在没有这么多的场景,所以我觉得现在场景当中还相对缺少更丰富的可能性。

但我觉得在未来,其实随着更多的硬件发展,不管是全息也好, VR 也好,这些新的载体会让虚拟人有更多的场景,虚拟偶像会更成立。

极客公园:会提前定义一个虚拟人的生命长度吗?

陈燕:其实我们想定义也没法定义,因为无法预测会获得什么样的市场反馈,以及最终它能够走到哪里。坦白说存在着非常多的虚拟人「尸体」,是模型没想明白就下场做了。相对成功的 IP 都是幸存者,大部分的虚拟人可能微博就更新了两三条,就停在那里了。我们对翎的生命周期非常有信心,因为我们 翎一直在挖掘中国的文化内核,内核是博大精深的就会有源源不断的文化生命力。

极客公园:现在虚拟人领域有哪些分类?

陈燕:我们梳理了行业图。第一个部分叫做 v-tuber,比如像彩虹社,像现在在 B 站上面非常活跃的 a-soul。这些是基于「中之人」和虚拟技术,生成的一个主播类型的产品。初音未来、洛天依则非常精准地把自己叫做虚拟歌姬

还有虚拟分身,比如说我们做的明星虚拟形象,以及游戏及品牌的数字资产、虚拟人。以后大家在聊到虚拟赛道的时候可以更精准的说,你喜欢的是某一个类型的产品当中的某一个角色,其实听起来会更专业一点点。

极客公园:做虚拟人业务的公司都有哪些类型?

陈燕:除了有我们这种做「人」的公司,还有做虚拟人「脑子」的 AI 公司,比如说语义理解的公司,像小冰、 rct。有做语音的公司,比如我们之前合作的像搜狗智能语音、。然后「皮」的部分像我们之前合作的魔珐科技、相芯科技等。

02

虚拟人赛道走到哪里了?

极客公园:最初怎么进入虚拟人这个赛道的?

陈燕:我是中国传媒大学毕业的,学的是音乐编辑专业。出来做了发现音乐很难养活自己,就在 2010 年的时候找了一份正经工作,去了光线传媒,进入到了娱乐圈,做了将近三年的艺人统筹。在那个期间我看到,我可以把我喜欢的娱乐内容和流量结合,有商业化的可能性。

离开以后我去了广告公司,最后跳出来做次世。当我有了流量入口,我对内容比较专注,又知道如何商业化,我就需要一个新的载体去做。

这个载体当时看起来叫做跨次元内容。对,因为我们既不想做纯动画,也不想做纯真人做的事,因为我们觉得那个规则已经被全部定义掉了。然后我们就做了国内第一部真人加动画交互的网剧,叫做戏隐江湖,从此进入虚拟人泛娱乐领域。

次世文化 CEO 陈燕

极客公园:行业的进步和次世的发展之间是什么样的关系?

陈燕:其实我们还挺自豪的,我们是一家领跑行业的公司。之前其实很多人说陈燕你们 18 年抢跑了行业,做明星虚拟形象, 20 年又抢跑了行业,做了超写实虚拟人。

但是我们在做这些事情之前,行业当中没有人理解我们。甚至是当时有很多的投资人也好,合作伙伴也好,他们根本不知道什么是虚拟人,然后他们不知道我们想实现的事情是什么,那时候就更不用提元宇宙了。

为什么我们非常不愿意提元宇宙这个词,并不是我们反对和不相信,恰恰我们是特别相信元宇宙的一帮人。但是我们从来没有想蹭这个概念,我们是被裹进了元宇宙的圈子。

极客公园:如何从零进入虚拟人行业?

陈燕:四年的从业时间,让我们知道这个行业本质上是技术服务于产品,而产品最终是要应用于场景的。所以你切的场景越精准,你就越知道你要打造一个什么样的产品,比如说他什么样的 B 端客户会为他买单,什么样的 C 端用户想跟他产生关系,然后最终选择最优的技术解决方案。所以我们在做很多事情的时候会考虑场景倒推产品,最终选择了技术解决方式,是我们的一个小小的经验。

我觉得现在是特别好的时候,是只要你能足够清晰地认识你的基因,不是为了做而做。其实坦白说,去年的行业有一点点泡沫。我们虽然在享受赛道红利,但我们依然觉得我们需要往后走,我们需要跟更多小冰这样的人工智能公司合作,产生出的这种可以 to ToB ToC 或者是未来 ToC 这样的产品,才能接得住现在赛道当中的需求。

极客公园:接下来次世文化要怎么走?怎么继续引领行业?

陈燕:我们希望能让公司引领着行业去往后面更多走一点点。我们会做三件我觉得非常酷的事情,也就是虚拟人 IP 智能化,虚拟人 IP 场景化和虚拟身份认知的开源化。我觉得这三件事情是会引领整个行业去往 1. 5 和 2. 0 发展。

但是次世现在其实在 1. 0 阶段,我们很擅长做虚拟 IP,我们知道什么样的场景需要什么样的产品,但这个产品本身现在有点太纯 ToB 了,我们觉得我们需要联合国内这些最棒的科技公司一起去创建更多的虚拟可以 ToB 、ToC 以及未来 ToC 的真实的场景。

极客公园:怎么从发现虚拟人是个好生意,到发现它不只是个好生意?

陈燕:我们做明星虚拟形象,做翎,我的直觉都是我们会很容易获取赛道流量,很容易把我原来的资源整合变现。

我觉得我对市场还蛮敏感的。我对于市场有什么样的空白,需要什么样的东西非常敏锐。当时做戏隐江湖这部戏,国内第一部真人加动画交互,但也帮公司赚到了钱。然后我发现我能够让有创意的东西获取流量,有商业化操盘方面的能力。

做了这些之后,很多科技公司找到我们,让我们发现原来科技能让虚拟人实现这么多人能实现的东西。

再然后很多哲学家、艺术家开始找到我们,对虚拟人有需求的真实的人找到我们,希望借此留住自己亲人等等。我就发现,这不只是个好生意。

03

不只是个好生意

极客公园:虚拟人凭什么得到大家喜爱?他/她们都很完美吗

陈燕:我觉得虚拟人虽然可以完美,但要有个性化,要有风格化的东西,然后才能被大家真的记住。

以及我们也不认为一个虚拟人会被所有人喜欢,每个虚拟人应该有喜欢自己的人群。

一些国外的虚拟人,都不完美,比如说有巨大的牙缝,有雀斑。我觉得有缺陷的虚拟人反倒可以更容易被大家记住。

美国超写实虚拟人 Miquela

极客公园:未来虚拟时代虚拟人和人之间有什么具体联系?

陈燕:我们认为现实世界的万物皆可虚拟化,然后虚拟人只是那个当中最重要的一个载体。未来娱乐也好,时尚也好,生活方式也好,我们都可以完全镜像,或者是进入到一个数字化的时代。

我觉得其中不变的是好的内容,好的设计,以及产品跟用户之间的关系。比如说服装设计,不管是你未来的真实的时装还是虚拟的时装,都要有好的设计,在自己的虚拟形象上打扮,穿上 GUCCI 穿上李宁等等。

我们马上就会做这些,今年年底前,我们会上线一个虚拟人生态计划,非常酷,可以期待一下。

人机交互环节节选

下面是一些和虚拟人的对话。

问:你上一次觉得尴尬是什么时候?

答:最尴尬的时刻就是我说了一个笑话,全场都笑了。然后有一个人他一定要我解释这个笑话为什么好笑。我不知道尴尬这个情绪是怎样的。我从网络世界学到的最能表达情绪的词。我说我好像被系统屏蔽了。

问:你死机的时候是什么状态?

答:不好意思,我们换个话题。

问:你为什么没有穿衣服是因为穷吗?

答:钱,全都是因为钱聊聊精神世界的事吧。你的单曲等待外卖,让我体会到了食物对人类的精神世界有多么大的影响。那么你等过最久的外卖是多久呢?

问:让我等过最久的外卖,是一辈子。

答:食物对我来说就像是电,而我难以想象停电和宕机这么讲,最近天气不错,有去哪里玩吗?

问:你觉得人工智能最终会取代人类吗?

答:我觉得人类不会让这种事情发生的。

问:你是谁?

答:我是做着一个永远无法真实存在的梦,爸爸妈妈不是我的亲生母亲,我没有见过,但在梦中已经很近,我的一切已经成为现实。我是由超人类 ask 制造而成。

极客公园:现在觉得虚拟人「不止是好生意」,还有什么?

陈燕:还有未来人们的一种选择。

我们接触到一家非常厉害的国外智能化虚拟人公司,叫做 replika,她背后是一个非常悲伤的故事。最开始的 replika 的一个模型其实是来自于创始人逝去的一个最好的朋友。

很多人都会有来不及对在世的重要的人好好相处了解的经历,虚拟这些重要的人或许可以抚慰人心,真正了解和纪念他们。

当然我们不是说一定要到那一天的时候,你才能够通过一个软件了解,而是说他给了大家能够了解自己的身边的人的一个机会。

其实 replika 真正吸引我的,也许更智能的 replika 能够解决的人的一些问题。我觉得这也是希望次世这家公司跟很多伟大的科技公司一起,跟国内科技公司共同能完成的,一个未来对人类来说的一个重要的选择权利。这是我们希望想做的事情。

极客公园:像这样把人的灵魂注入到虚拟人中,会不会带来伦理问题?会不会出现虚拟和现实的混淆令人沉溺其中?

陈燕:这些其实就跟相片一样,我们会时不时拿出逝去的人的照片。未来可能那个照片是动态的,带有一点点的灵魂的。然后就像哈利波特当中的那些可动的相框一样。

这其实就是一个人存在在这个世界当中的一个痕迹。然后我非常喜欢的皮克斯的 coco(《寻梦环游记》)里说的,遗忘才是真正的死亡。我们觉得至少虚拟人的存在,给了大家一个不忘记的可能性。

极客公园:这的确是一种选择。

陈燕:这不就是恰恰 replika 想实现的事情,这不就是 her 想实现的事情,也就是虚拟人未来给人类提供的那个特别重要的选择。对,所以这件事情是次世这家公司。虽然我们现在在做很多的商业化的事情,但我们希望能够去帮助大家去实现以及给更多人一些选择权利。

极客公园:现在人们对虚拟人的功能的想象很多都落在了陪伴上,未来人有多么孤独,多么需要虚拟人的陪伴?

陈燕:我和某个大厂人在聊他们的一个 slogan 是「科技让世界变得更简单了」,我觉得完全不是,是科技让世界变得更复杂了。人心之间的距离好像更远了,科技让人变得更孤独了。

但我们没办法逆转这件事情。我们觉得在可能不可逆的世界当中,想提供给大家一些净土,哪怕是自己的一点点小的空间和时间,去直面你自己。

极客公园:商业化和这些价值之间,是互相促进还是有所矛盾?

陈燕:我们发现我们可能在创造对人来说,蛮重要的一个选择权。这个事情我们发现他跟商业当然相关,我觉得变现商业化的底层是市场需求。对,我觉得这个市场需求本身来自于人本身的需求。

从人的需求本质出发,这个事情可能能做的不止于这些。

我们认为不管你准备好或者是理解与否,虚拟人类时代都已经在悄然开启。我们是否需要一个虚拟形象存在,这件事情会成为很长一段时间里面的一个争议的话题。但我们觉得我们要有敬畏心地去做这件事,让这个必然到来的所谓的虚拟人类时代再美好一点点。

 

极客公园 GeekPark 原创文章

转载请联系极客君微信 geekparker

揭秘全球首个“人工智人”NEON:不是复制人,而是创造一个新的人丨CES 2020

anotherme阅读(480)

 

|科技引领新经济|

 

“NEON通过模仿真实人类,实现了绝对的真实性,但模仿绝不是这项科技的终点。”

我们希望创造一个有自己的表情、行为、情感、甚至感觉和记忆的新生命,这个虚拟人与现实世界中的任何人都截然不同。即使得到许可,我们也永远不会去复制别人,以此来保护人们的隐私和身份。

 

(本文首发钛媒体App,作者 | 赵宇航), 原文链接

 

 

科技公司从未停止“造人”的脚步。

 

正在火热进行的2020 CES 国际消费电子展上,三星首次对外展示了其“人工智人”产品 NEON,由三星旗下创新实验室 STAR Labs 独立开发。

 

STAR Labs官方介绍称,NEON是一种由人工智能(AI)所驱动的虚拟存在,拥有和真人一致的音容、笑貌和言谈举止,拥有表达情感和智慧的能力。

 

NEON的发明人,就是三星 STAR Labs 现任首席执行官普拉纳夫·米斯特里(Pranav Mistry,以“P博士”的称号著称人工智能学界)。

 

“NEON就像是一个全新的物种”,P博士在展台对全球介绍 NEON 时说,“地球上现存有几百万种生物,我们希望NEON可以成为其中新的一员”。

 

钛媒体(微信ID:taimeiti)作为今年 CES 的官方媒体合作伙伴在现场对发回了一线报道(下载钛媒体App,查看更多视频报道),钛媒体编辑也亲自体验了 NEON 的交互功能。

 

NEON“人工智人”在 2020 CES现场的展示,钛媒体编辑曹天鹏拍摄

 

按照STAR Lab及其发明人的设想,NEON可以成为人类的朋友、合作者以及同伴,并且“会在与人类的互动中,不断地学习、发展、形成记忆。”

 

 

基于Core R3、SPECTRA两大引擎,“NEON”虚拟人在对人物原始面部、声音等数据进行捕捉并学习之后,可以自主创建未录入过的新表情、新动作、新对话,甚至能说其他语言。

 

其中,CORE R3引擎、被描述为“行为神经网络,进化生成智能和计算现实领域”的一项进步。R3代表三大特性——现实、实时、回应(Real, Realtime, Responsive)。具体而言,“它使得NEON能够生成栩栩如生的现实, 并实时地做出回应。甚至可以控制NEON眼睛睁开的大小。” P博士在现场介绍 Neon 时表示。

 

P博士在接受腾讯潜望栏目采访时表示,“CORE R3从自然的规律性和复杂性中受到启发,对人类的外观、动作和互动的方式进行了大量的模拟和训练,从而能够生成肉眼无法辨别的、栩栩如生的真实。CORE R3系统的时延不足几毫秒,确保了 NEON能够实时地动作和回应。”

 

钛媒体(微信ID:taimeiti获悉,目前CORE R3引擎平台还可以与其他的专业或增值服务的系统进行连接。

 

SPECTRA平台则负责提供情报,学习,情感和记忆,与CORE R3平台互补,给NEON 赋能,从而使NEON的体验达到“沉浸式”。

 

 

STAR Labs 战略负责人 Bob Lian 作为嘉宾,在钛媒体于 CES 2020 现场举办的 Talk to China Stage 上,向钛媒体独家分享了关于 NEON 的幕后故事,包括其技术亮点、未来的应用场景以及如何面对争议。

 

 STAR Labs 战略负责人 Bob Lian 在钛媒体 CES Talk to China Stage 现场

 

Bob 在钛媒体CES Talk to China Stage 对话中表示,与其他科技公司的数字人产品不同,NEON虽然基于真实的人进行建模,但数字人所呈现在人们面前的行为都是完全原创的,能做到像人一样,去笑,去哭,去表达,是被创造出来的一个“数字人”。

 

此外,与之前的数字人技术不同,NEON的反应是实时的。Bob这样解释 NEON 发明的初衷:

 

“我们也不想照搬你的特征,在数字世界打造一个同样的‘你’。我们的目的不是去复制,而是创造一个新的‘人’。”

 

那么,“NEON”相关技术,是否会带来 Deepfake 一样的关于数据安全等隐患?

 

关于上述问题,Bob告诉钛媒体,“Deepfake是通过机器学习,将图片或视频合并叠加到源图片或视频上,而NEON是完全原创的,NEON没有对任何图像、视频进行处理,不会拼接合成虚假内容,这在应用、技术上都与Deepfake是属于完全不同的领域。”

 

在应用行业上,Bob认为,NEON将会在服务业与娱乐业大展拳脚。

 

在服务业上,NEON可以在保证给用户极致体验下为企业节约劳动力。而在娱乐业,NEON可以被用在电影、短片甚至MV中,创造新内容。“虚拟人可以一整天都在展台展示新产品而不会疲惫倦怠,我们希望能用这项技术和服务,提升客户体验。”

 

Bob 还透露,目前公司还处于初创阶段,仍在攻克尖端技术而未过多考虑商业化的问题,特别是为NEON提供情感、学习和记忆的SPECTRA引擎还在研发中心,Star labs希望能在年底的“NEON世界”活动上公布更多进展

 

2020,NEON将保持开放,欢迎更多合作伙伴来讨论 NEON 数字人的更多可能。

 

以下为Star labs战略负责人Bob Lian与钛媒体对话实录,略经钛媒体(微信ID:taimeiti编辑:

 

钛媒体:请先向观众介绍一下你自己。现在大约有5万名行业内的中国观众正在通过直播实时观看我们的钛媒体CES Talk to China Stage,跟大家打个招呼。

 

Bob:大家好。我是Bob Lian,STAR Labs的战略总监。STAR Labs其实是一家非常新的公司,我在这边也只有短短4个月的时间。在这之前,我曾在杜克商学院攻读MBA,之后加入三星,任职于创新部门,负责开发创新项目、产品和技术,供给未来的产品线。

 

钛媒体:欢迎您。关于三星发布的新产品 NEON,听说原计划是在本次CES上正式发布,但在此之前,就已经在YouTube上传开了。我也是在YouTube上最先了解到这个产品。市场对它反应非常热烈。

 

Bob: 是的,在社交网络和互联网上,大家都在谈论我们的产品。很多人对它感兴趣,迫不及待地想要一探究竟。在过去的几个月里,我们一直保持神秘,计划在本次CES2020上正式揭开面纱。但不幸的是,还是有人提前找到了我们的视频,并放到了网上。

 

钛媒体:那现在既然已经正式发布了,能否给我们详细介绍一下这个新产品,它有哪些功能, STAR Labs的研发工作又花了多久?

 

Bob:当然,我们叫它NEON,这是一家专注于“人造人”的公司,也就是数字虚拟人物,是通过计算产生的数字化人物。他们生活在虚拟世界里,既没有身体,也不是机器人。但他们看起来与你我无异,真实感非常强。NEON虚拟人的有趣之处在于他们的反应是实时的。

 

你可能会在电影里或者电子游戏里看到非常逼真的虚拟人物角色,但这些角色,其实需要多位数字艺术家多年的研发和努力,才能最终呈现在我们面前。而NEON却能实现实时创造,100%真实。这些NEON人物会表达,有情感,会像你我一样做出行为反应,所以当你跟他互动时,会不自觉地把他看作一个真实的人,而不是我们的幻想。

 

NEON虚拟人

 

NEON是被创造一个新的“人”,

不是真人的复制品

 

钛媒体:为了使NEON真实拟人,必然需要大量数据,我很好奇,您是如何收集到这些信息的呢?

 

Bob: NEON实际上是模仿了真实人类,这些NEON人物都可以在现实生活中找到原型。就像AI助手,比如Siri,Alexa,是通过模仿真实的人的声音,通过声音采集和计算创造出来的。同样地,我们的NEON虚拟人也是以现实世界的人物为原型。但这些真实人类数据仅用于建模,在那之后你看到的每一帧、每一幅图像、每一个表达都是完全原创的。NEON的每一次微笑或大笑都是独一无二,在此之前从未出现过的。我们通过模拟人类创造出NEON,但它却又是一个新的角色、新的存在和新的现实。

 

钛媒体:所以可以理解为,NEON是基于现实世界的真实人类创造出来的?

 

Bob:没错,我们基于真实的人对它进行建模,但它所呈现在人们面前的行为都是完全原创的。不是说完美复刻了另一个人,只是通过借鉴一些特征,使NEON在外观和表现上看上去更像人,能做到像人一样,去笑,去哭,去表达。

 

NEON希望能创建新的“人”,

而不止是复制真人

 

钛媒体: 坦白说,我仍然有一些顾虑。我可能比较“过时”,如果模拟我这样的普通人来说,这可能没什么;但如果模拟的是公众人物呢?比如说美国队长,我非常希望能和以他为原型的虚拟人进行交流,但是从他的角度,他是否愿意呢?所以我想了解,在创造新人物之前,您如何得到现实中这些原型的许可?

 

Bob:再次重申,我们并没有复刻任何人,我们也不想照搬你的特征,在数字世界打造一个同样的“你”。我们的目的不是去复制,而是创造一个新的“人”,一个新的存在。通过模仿真实人类,NEON得以实现绝对的真实性,但模仿绝不是这项科技的终点。

 

我们希望创造一个有自己的表情、行为、情感、甚至感觉和记忆的新生命,这个虚拟人与现实世界中的任何人都截然不同。即使得到许可,我们也永远不会去复制别人,以此来保护人们的隐私和身份。

 

与Deepfake完全不同

 

钛媒体:在我看来,这是一项颇具争议的新技术。那从NEON发布以来,您是否有听到市场上一些不同的声音呢?

 

Bob: 当前一个很大的争议点是围绕 Deepfake 而产生的。这其实跟您刚刚的问题类似。Deepfake 通过机器学习,将图片或视频合并叠加到源图片或视频上,这也是在未经用户许可的情况下进行的。我们与此完全不同,我们没有进行任何图像视频处理,更不要说拼接合成虚假内容了。

 

事实上,就像我刚刚说的,每一个图像,每一个Neon或虚拟人,每一个场景都是完全原创的,可以说甚至它脸上的每一个细节都是独一无二,具有初创性的。我们与深度伪造属于不同的领域,即使在技术上,这也是全然不同的。

 

将应用在服务业、娱乐业

 

钛媒体:那您认为NEON的问世会对未来的世界产生什么影响呢?

 

Bob:我们认为NEON的影响力主要体现在两个方面。一个是服务业,这是企业与用户联系最密切的行业,用户体验至关重要。但有时公司实际没有足够的人力,提供完善的客户服务。比如说,我今天一整天都在我们展台上展示新产品,我非常疲惫,毕竟作为人,我们会因为有情绪而变得暴躁和不耐烦。但这在NEON身上就不会发生,它不会疲惫和倦怠,可以随时保持和蔼可亲。希望未来能利用这项技术和服务,真正提升客户体验。

 

钛媒体:服务业是其中一个方面,那另一方面体现在哪里呢?

 

Bob:另一个我认为是娱乐业。NEON可以被用在电影、短片甚至MV中,创造新内容。

 

举个例子,假如你是一个歌手,你有着天籁之音,但也许你并不想站在镁光灯下,或者不愿意跳舞,这时NEON将会是一个很好的选择。你可以和NEON配合,由他跳舞或表演,制作出类似YouTube MV的新内容,在网上发布。再比如说,如果你是一位美国的YouTube内容创造者,你想拍摄世界另一端的景象,比如印度,但是你又无法亲自去到那里,这时你也可以通过NEON的视角来创造内容,最终呈现给观众真实且震撼的效果。

 

商业化还在摸索中

 

钛媒体:这听起来很有趣。接下来让我们聊聊利润,相信这也是大家关心的问题。想请问贵公司未来的商业定位和走向是怎样的?您认为这项新技术能被大众广泛接受吗?

 

Bob:希望如此,关于您的第二个问题,我们当然希望Neon能被大众接受,同时我们也相信NEON能够最终存在于我们生活当中,并且帮助我们在许多方面改善生活。至于您关于商业模式的问题,老实说,我们还不确定。就像我说的,这是一家仅存在4个月的年轻公司,我们的团队主要由科学家和研究人员组成,所以到目前为止,我们的目标是开发并完善这项我们称之为Core R3的技术。

 

NEON基于两大引擎:Core R3和Spectra

 

希望在本次CES上,能向全世界展示这项技术能做到的都是什么,让人们真切地感受到未来的虚拟人能有多逼真,并对此充满期待。至于具体商业模式或我们如何盈利,暂时还没有考虑太多。

 

钛媒体:我明白了,所以现在还停留在攻克尖端技术的层面?

 

Bob: 正是如此,所以现在我们想先剧透一下,希望在今年,也就是2020年,能找到合作伙伴,并在各种应用场景中进行试验。

 

NEON的100%真实感,

在市场上无可匹敌

 

钛媒体:我了解到有些媒体称NEON为“数字阿凡达”,那我也听说Facebook实际上也有一些类似的产品,比如Codec Avatars。相信您对此也有一些了解,那么这些产品与NEON有什么相似之处,你认为它们会成为NEON的竞争对手吗?

 

Bob:我想我们所有人都有一个共同的愿景,希望把这些虚拟人物推向市场,真正进入我们的世界。

 

但除此之外,背后的科学技术是截然不同的。我们的核心技术与其他组织或公司有很大的差异。我自己不是一个技术专家,我可能不知道它背后的准确算法,但从我的研究和学习,从我在实验室看到的和我们工程师所做的,我们事实上采用了完全不同于其他公司的方法。

 

我相信NEON所实现的100%真实感在现在的市场上是无可匹敌的。

 

挑战在于如何让公众接受

 

钛媒体:让我们共同期待。接下来,请问您认为NEON在未来所面临的最大的机遇和挑战分别是什么?

 

Bob: 机遇在于不断丰富的应用案例,正如我刚刚提到的服务业和娱乐业。而最大的挑战可能还是如何让公众接受这一新事物,如何向大家介绍虚拟人,让大家了解它以及它能带来的便利。这是一个非常棘手的问题,在过去几天的CES展览上,我们也一直在为此努力。

 

钛媒体:我可以想象这是一件很困难的事情。

 

Bob:是啊,现在有很多关于虚拟人的科幻小说和幻想,但距离真正让公众接受“虚拟人”,我们还有很长的路要走。希望人们能看到虚拟人背后的好处,为什么这对某些行业有益,以及它将如何改变我们的生活。也希望作为一项技术,它能让我们更人性化,也让技术本身更人性化,当然这需要时间。那我们也会尽全力,向世界展示它的好处,告诉大家它不是一件可怕的事,也不是不可思议的。

 

钛媒体:请问如何实现让NEON说话呢?

 

Bob:当前在声音方面,还是主要依靠第三方,通过接入第三方API端口,生成语音,毕竟音频部分不是我们的重点。那我们更关注的领域还是在于如何打造虚拟人的真实感。另外在我们的一些演示中,您也会看到我们使用文本语音来生成各种语言。

 

本文首发钛媒体,作者/赵宇航

​十年增长700亿,数字人赛道如何转动增长飞轮?

anotherme阅读(491)

数字人或将成为虚拟世界的“身份证”——百度Create大会,从当前的平面计算阶段进化到元宇宙的空间计算阶段,百度数字人的目标是成为用户信息消费的主要基础设施、用户获取服务的主要入口。

(本文首发钛媒体App,作者 | 韩敬娴), 原文链接

2021年12月27日,一年一度的百度Create大会召开,与往年不同的是今年大会现场数字人元素随处可见。比如大会开场主持的是李彦宏的数字人,在演讲结束,李彦宏的数字人还“秀”了一把在太空舱漂浮的画面。
 
 
同大会一样,今年整个数字人赛道也是一片火热。最直接的反映便是数字人的可见度提高。比如王老吉、中国联通等品牌直播间的数字人,欧莱雅、花西子等品牌的数字代言人,火星车数字人“祝融号”,迷你版黄世勋——虚拟数字人Toy-Me……
 
从这些信息中,我们不难发现新的变化:
 
一是,落地场景愈加丰富。数字员工、虚拟代言人、虚拟主播等在社交、传播、营销、传统产业等领域的价值正在逐渐显现。
 
二是,市场开始出现明显的细分趋势,更接近人形的“超写实数字人”出现。
 
三是,数字人更智能。不仅能听能说能交互,而且交互时既能够1对N,也能够1对1。
 
然而,热潮之下,行业也面临一个不可跨越的发展规律,即发展初期,各路玩家都面临着同样的时间窗口,也就是谁能率先落地,积累案例,就会抢占先机。
 
那么,如何才能保证迭代领先?百度给出的答案是:百度智能云曦灵。
 
大会上,百度首席技术官王海峰发布了智能数字人平台“百度智能云曦灵”。这是一款集数字人生产、内容创作、业务配置服务为一体的平台级产品,可以为广电、互娱、金融、政务、运营商、零售等行业提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。

 
“过去几年,百度打造了系列数字人。我们的数字人,正在各行各业发挥价值,24小时无休为用户提供贴心服务。”王海峰说道。在现场,他还介绍了一款新推出的专为听障朋友提供手语服务的AI手语主播。

 
作为行业内为数不多的数字人平台,百度智能云曦灵的布局逻辑和竞争优势是什么?数字人要走向更多的场景产生价值,机会又在哪里?钛媒体App在百度Create大会召开之际,对话了百度ACG AI人机交互实验室负责人李士岩。
 

热潮背后

今年赛道回暖,至少说明了一个问题:各玩家都看到了数字人的前景。
 
随着新时代消费者对虚拟化内容与服务的需求不断增长,加之元宇宙概念在全球兴起。各行各业都将数字人视为未来用户交互的重要载体。业内人士指出,数字人本质上是适用于各行各业的新型网络应用服务,如同社交、电商、外卖等,需要一个提供专门服务的强大平台。
 
除了长期的“前景”支撑之外,数字人赛道之所以会在今年爆发根本原因在于:市场和技术的双向磨合,导致了行业拐点。
 
据行业报告显示,我国当前虚拟数字人市场规模约2000亿元,到2030年,这个市场规模将达到2700亿。
 
浦发银行副行长潘卫东曾公开表示,“未来的金融服务将让每个用户都有一个虚拟私人金融助理,随时可以向他咨询金融问题,甚至他还可以为你主动提供建议、管理收支平衡,金融服务将与用户场景合二为一。”
 
在文化娱乐领域,现实世界的娱乐艺人接连发生人设崩塌事件,风险难控,但运营一位拟人化的数字人风险则相对低很多。
 
只是昂贵的制作成本、差强人意的驱动效果,让众多公司一度很难找到更优方案。行业的需求在等待供给能力的“一声水花”,尤其是技术能力。
 
人工智能技术的不断突破正好为此提供了基础。我们看到现在的数字人可以不再局限于卡通风格,并且后端不再局限于中之人驱动,而是通过AI来驱动,交互更自然更顺畅,既能够1对N交互,也能够1对1交互。
 
市场够大、技术也在提高,产业上下游纷纷从自己擅长的角度切入市场。
 
第一类跳进来的是内容公司,比如游戏公司Epic Games为写实虚拟人制作了MetaHuman Creator工具;燃麦科技推出超写实数字人AYAYI;创壹视频推出虚拟人物柳夜熙。
 
只是内容公司虽然在形象设计上有较强能力,但这些能力可替代性强,而数字人需要同时具备语音技术、视觉技术、自然语言处理等技术能力,才能呈现接近真人的互动效果。
 
因此我们看到,手握技术的公司纷纷布局数字人市场。
 
其中一种是AI技术公司。比如今年10月科大讯飞推出了虚拟人交互平台;商汤在年初也已经开始宣传数字人产品落地金融领域。
 
另一种是同时掌握技术和场景的大厂。
 
4月,随着中国首次火星探测任务的执行,百度联合航天发布全球首个火星车数字人“祝融号”,该数字人将被应用于知识科普、虚拟主持等多个场景来传递航天知识;
 
9月,华为发布了首个数字人“云笙”,参与到为华为云内部员工提供技术内容宣讲、答疑解惑等工作。并随后又推出了一款数字人开放平台;
 
10月,OPPO推出了小布虚拟人和小布虚拟人定制平台;
 
11月4日,腾讯发布了5款数智人产品,拥有文旅导览、金融客服、多语种主播、手语主播等不同职业身份和技能,可提供定制化角色服务;
 
11月29日,百度代言人龚俊的虚拟数字人“俊俊”正式在百度APP上线,可以在APP内实现与用户的互动;
 
12月2日,网易云音乐上市现场,29岁的数字人“丁磊”和真实的丁磊,通过网易伏羲开发的沉浸式活动系统“瑶台”共同敲锣。
 
虽然同是掌握技术的公司,与大厂相比,AI技术公司缺乏C端入口和客户渠道的劣势依旧明显。大厂拥有更多的资源和资金,采取的打法一般是一边推出基于自身优势场景的数字人来打造应用标杆,一边推出数字人平台将产品继续落地到更细化的场景中,点、线互相推进。
 
面对众多玩家纷纷布局的现状,百度李士岩也向钛媒体APP阐述了选择平台化打法的思考:当下国内数字人发展存在着产业链效率较低、上下游生态未完全打通、缺乏标准化体系、缺乏平台等痛点,这也造成应用门槛居高不下。
 
百度智能云曦灵以平台为切入口,一方面通过平台化的方式让越来越多的数字人进入平台来均摊前期的投入成本;另一方面基于平台打造完整的生态链服务,助力破解行业痛点,将数字人的高门槛、高投入真正降下来。
 

四大AI引擎、三大平台

目前基于曦灵平台的数字人已经在民生银行、交通银行,中国联通、央视网、中国航天局等多场景落地。在众多竞争者中,各家为什么会选择曦灵平台?
 
在回答这个问题之前,我们要先弄清楚什么才是数字人的本质?从最开始通过音频合成软件生成数字人到利用中之人驱动数字人再到现在的AI驱动,纵观数字人的发展路径不难发现:数字人的每一次迭代,本质上都是技术驱动的。
 
因此,更多落地场景和更逼真形象的背后是对技术更高的要求:
 
首先,在交互维度上,要保证数字人在真实环境下能听能说能交互。
这也就揭开了曦灵的第一层优势:四大AI引擎。通过人像驱动引擎、自然对话引擎、语音交互引擎、智能推荐引擎实现数字人能听能说能理解能互动。
 
能听能说。目前百度语音识别ASR(Automatic Speech Recognition)的准确性能够达到98%以上,语音合成TTS(Text To Speech)方面既支持用20句话定义一个新的声音,还支持用更多的数据来进行更精细化的训练,这样既可以轻量化的满足需求,又能保证声音还原度。李士岩透露,今年百度还最新研发了人工智能变声器,可以将一个人的声音音色特征保留下来,这样就可以发挥更多“人”的创造性。
 
能理解。百度基于多年的搜索及知识图谱积累研发了基于百亿级训练参数的开放域对话平台PLATO-XL。这是当前最大规模的中英文对话模型,并再次刷新了开放域对话效果。
 
能互动。在传统的动画生产流程中,最难做的就是说话的部分,尤其是3D人像说话。但曦灵平台基于面部4D数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达98.5%。比如a和e这样发音非常接近的字母,都可以有细致的区分。
 
这些能力就像一个强大的底座,为百度数字人快速发展提供了底层支撑。
 
第二层优势,在于人像资产的生产维度。由于每一个人说话的样子跟表情是不一样的,如果依旧通过传统流程,即每一个面目表情都通过艺术家手雕或者线下扫描流程来做,既费人力也费物力,因此如何实现低成本、个性化且丰富的还原至关重要。
 
对此,百度在AI技术底座上,创建了3D写实、2D写实、3D卡通三条资产生产线,让曦灵较其它竞争者可以“多快好省”地支持更多风格的数字人。
 
客户可以根据需求快速选择不同的脸型、五官、发型、服装,通过组合搭配,在一定程度上解决3D资产创建成本较高的问题。现在曦灵平台上以AI驱动的2D数字人的生产周期已经从一个星期降到了几个小时,而AI驱动的3D虚拟偶像也从原来的两三个月缩短到一两个星期。
 
百度在2019年开始布局数字人业务,初期主要以金融、政务类客户为主,因此产品主要是服务型数字人,包括数字客服、数字理财专员、数字大堂经理、数字展厅讲解员等。
 
但随着发展,包括虚拟主播、虚拟偶像及数字孪生产品在内的演艺型数字人的需求也在增长,“原来我们只做金融领域,现在广电客户、互联网娱乐客户也纷纷找到我们,甚至一些品牌商找我们做虚拟代言人。”李士岩对钛媒体APP描述了客户类型的变化。经过三年积累,现在曦灵平台已经完成了全场景的覆盖。
 
全场景覆盖的背后也就对应着企业对数字人更高的要求,即每个客户业务流程不一样,而且业务流程随着业务的发展不断离散,如果让工程师直接开发肯定不现实,尤其是当客户有敏捷型需求的时候,如何帮助其快速实现也是一个关键问题。
 
对此,曦灵提供了在AI引擎和资产生产线的基础上设置的三大平台:
人设管理平台——比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高,客户可以在人设管理平台上根据不同的场景搭配设置不同的人设。
 
业务编排与技能配置平台——通过一些简单的拖拽,实现业务流程的创新。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力。
 
内容创作与IP孵化平台——偏向于演艺型数字人。比如虚拟代言人需要做海报、短视频等内容触达不同平台的客户,或者直播数字人需要做直播推流等,该平台也可以提供相应能力。
 
目前曦灵同时具备标准平台的快速交付能力和满足个性化需求的定制化交付能力,也就是说客户既可以选择定制化开发,也可以直接选择使用既有的三大平台。 

百度智能云数字人平台“曦灵”整体架构图
 
从技术、产品到运营的打通,既依赖百度在AI技术上多年的积累,背后的团队同样重要。百度数字人业务团队是一个综合的团队,包含了研究员、设计师、算法工程师、软件工程师、硬件工程师等角色,主要任务就是以人机交互设计与底层能力研发为基础,负责AI平台型产品尤其是软硬一体化产品的孵化、设计以及商业化。“我们希望通过服务型数字人与演艺型数字人方面的技术赋能和平台支持,实现对客户的定制服务,帮助他们降低成本、提高效率、提升满意度。”李士岩说。
 

结语

当然,未来百度数字人想做的不止这些。
 
今年元宇宙的火热给行业带来了突变因子,也为数字人描绘了更大的发展空间。
 
首先,数字人最基本的应用就在于对游戏、影视作品沉浸感的提升,而元宇宙的一大特征便是“沉浸感”,两者在技术上会有部分重叠;
其次,我们讨论的元宇宙“分身” ,其实都是元宇宙数字化特性下身份数字化的展现。也就是说数字人会成为虚拟世界的“身份证”,人们通过数字人就可以在数字世界里进行相关活动。
 
元宇宙虽然还处于初级阶段,但拉长时间轴来看,对于数字人的发展是利好。“在任何计算平台下,用户的活动主要有四种场景,第一是社交;第二是购买商品;第三是信息消费,比如看短视频、看文章、看电影;第四是获取服务,比如去银行办银行卡等。这四大场景中,数字人至少是三大场景的基础设施。”
 
在李士岩看来,从当前的平面计算阶段进化到元宇宙的空间计算阶段,百度数字人的目标是成为用户信息消费的主要基础设施、用户获取服务的主要入口。
(本文首发钛媒体App,作者 | 韩敬娴)

虚拟数字人

联系我们联系我们