您的位置: 首页 > 米乐电竞

米乐6-米乐电竞

米乐6

联系人:任经理

手机:187-3816-1163

邮箱:3180485908@qq.com

地址:郑州市郑东新区绿地之窗尚峰座7层712室

米乐电竞:对话商汤科技栾青:数字人还没自我意识 但不代表未来不会

浏览次数: 33 发布日期: 2024-01-29 20:19:34 来源:米乐电竞 作者:米乐官网

返回列表

  软件公司商汤科技数字空间事业群数字文娱事业部总经理栾青接受红星资本局专访,就目前

  从我的理解。目前的大模型或模拟人脑的系列人工智能技术,被一致认为还没产生自我意识,是数据的汇总和演绎,而不是自我意识的某种形态。

  如果上升到哲学观点,自我意识是什么?其实是脑结构对信息处理后的演绎。从这个方面,很难解释说机器人会不会产生自我意识。人工智能的物理结构在模拟大脑,未来富余的电信号也可以去运转,不能说这种情况未来不会发生。但现在来说,AI是为人的目的而存在。

  栾青:数字人技术包含好几个维度,一种原因是人机交互,就是数字人用人的方式去说话、动作、表情,模拟人和人之间交互的感知和体验。这里面包含了两块主要技术,一是人形视频的生产,二是用AI去生成人声。

  除了人机交互,另一个技术是模拟大脑,是未来慢慢的被关注的。数字人除了拟人化,大脑非常厉害,计算能力比普通人脑更强。可以自然体会人的感情,还能处理和计算信息,给出最佳回复,甚至提供情绪价值。

  红星资本局:商汤科技将数字人分成L1至L5五个等级,将L4和L5等级的数字人统称为“AI数字人”。目前商汤的数字人能完成最复杂的互动是什么?背后的技术难点在于?

  栾青:目前数字人最常用的,一个是人机交互的界面模块,用来生成视频、直播,以人性化的方式去展示信息和内容。

  随着大模型的突破,现在到了“辅助驾驶”阶段。因为大模型生成的内容还需要人去审阅、调整,就不是“无人驾驶”,还是“辅助驾驶”。这在L3和L4之间,能生成完整内容,但还需要修正。现在常用的短视频和直播领域,就在L3和L4之间,是规模最大的应用。

  另一个客服类场景应用更偏L4阶段,达到信息级别的交互。比如说现在打开工商银行APP,切换为数字人模式,所有业务可以直接在APP里去和数字人客服交互。这个场景的体验是L4级,但智能性还有一定差距,所以数字人下一步想达到线发展,还需要技术的突破。

  包括现在大模型比以前厉害很多,不像以前是傻的,现在很聪明。但是情感类的互动,提供情绪价值还是蹩脚,没有自然到怎么沟通都分辨不出来。

  这种技术的突破有三点要做,一是数字人需要跟行业更深入结合。在行业领域里的知识、习惯、技术信息,还需要专业性大模型帮助理解。

  数据打通之外,第二步是接口打通。比如,操作理解了要做这件事,系统能不可以真正去做到?办一张信用卡,假如没有连接银行办信用卡的接口,就拿不到实体信用卡,这就需要接口打通。

  这两点做到了,还有需要仔细考虑的地方。比如数字人现在可以做医疗建议,但不可以真正开药。从逻辑上,从权责上,不能做。数字人目前在某些行业里,只能给建议,不能实操。

  现在行业达到了千亿级参数,等到GPT 4的时候,可能到万亿级参数,数字人可以更全面地在情绪价值方面更自然地互动。目前还不清楚此阶段一定要通过什么方式达成,是修改网络结构,还是增加算力和网络节点数,这是现在还在不断研究的核心突破点。

  栾青:是模型里的节点数,可以认为是模拟大脑的神经元,人脑应该在万亿级。所以按理论来讲,目前的GPT 4已达到了人脑的参数级别。但从智能角度来讲,和人脑还有差距。

  红星资本局:商汤介绍,AI数字人主要使用在于虚拟偶像、虚拟客服和超级助手三个方向,现在依然如此吗?

  栾青:这三大应用场景是前几年数字人最多的应用,其实今天,数字人最大的应用是短视频和直播内容生成。

  现在很多短视频,大家并不知道是数字人制作的。比如女主播在直播间里,展示汉堡王的招牌套餐;招聘电工的短视频等等。还有一些专业技术人员,律师、医生、老师都有使用数字人来生成一些内容。

  4、5年前,制作一个数字人所需数据量比较大,一般要十几个小时的视频素材,同时需要满足多角度和动作的要求,制作完成后会发现效果僵硬。当时有许多电视台在日常新闻报道中,使用数字人主播,尤其是突发型事件报道,很有价值。不过因为制作难度和成本的限制,无法在普通大众营销场景下推广,难以形成规模效应。

  现在大模型突破后,数字人的制作变得容易许多,十几秒的素材就能制作一个数字人。这两年,技术在不断的提高,去年、前年还要三五分钟,今年一两分钟、甚至几十秒都可以。

  表现包括可不可以自由做动作?能不能跳舞?没有录入的动作能不能更丰富?能不能直接AI生成数字人,不用找人录,就没有版权问题。

  最近也常说可不可以让数字人在任何设备上跑起来?现在很多还是在好一点的硬件设备跑,或者在云端跑,客户觉得太贵了,可不可以在他自己的手机上跑?

  背后的技术上的支持包括芯片适配,性能优化。技术推向产品化的过程,就是不断适用于更多场景,更复杂的条件。说到底还是考验AI视频生成的复杂度问题,这也是我认为人工智能下一个要过的坎。

  栾青:现在经常有电影导演跟我说,何时数字人能实现剧本出来就生成影片?

  现在一些所谓的数字人出演,还只是“换脸”,就是人类演完,把脸画绿幕抠掉。这样其实并没有节省成本,是噱头。我觉得行业真正应该做的,是让一些内容彻底AI化,缩短制作时间,降低试错成本。

  目前电影级的数字人还面临很大的挑战,我们也在和一些明星做初步尝试,发现在短视频、短剧领域有希望,但真正的高质量屏幕还没有突破。目前在为动画电影做努力,通过人工智能技术,将真人内容转化成具体风格的动画,我觉得短时间内这是最有希望的。