21世纪经济报道记者 董静怡 杭州报道
在OpenAI发布ChatGPT后的22个月里,AI发展速度超过任何历史时期。
在过去的一年多时间里,大模型技术进步迅速,现在能处理文本、语音、视觉等多模态任务,并执行复杂编程和高难度学科问题;推理成本指数级降低,已经远远超过摩尔定律,阿里云的API价格一年内下降97%。
尽管发展迅速,但依然处于AGI(通用人工智能)变革的早期。19日,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在云栖大会上表示,生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
“当前,众多企业在应用大模型时,已经远远不限于一个手机了。”阿里云智能集团首席技术官周靖人向21世纪经济报道记者表示,企业在整合模型能力与业务场景方面,已经拓展到更广泛的设备和平台,信息的输入输出与各种终端设备之间的交互日益增多。
本届云栖大会,阿里云的重点从模型本身扩展到物理世界的应用落地,端侧大模型的应用带来更大的想象力。在论坛上,吴泳铭特别强调了自动驾驶和机器人这两个热门应用场景,大模型技术的赋能将为行业落地带来变革。
“人们对新技术革命,往往对短期高估,又对长期低估。”吴泳铭表示,“但新技术革命会在人们的怀疑中成长,让很多人在迟疑中错过。”
站在AGI的起点
在这一年多里,生成式AI加速发展。
投融资数据显示,尽管去年人工智能私人投资整体下降,但对生成式人工智能的投资激增,该领域投资金额比2022年(约30亿美元)增长近九倍,达到252亿美元。生成式人工智能领域的主要参与者,包括OpenAI、Anthropic、Hugging Face和Inflection,都获得了一轮可观的融资。
国内外大模型加速迭代,呈现出以下特点:其一,参数量持续攀升,从百亿到千亿,甚至万亿,大模型的参数量不断刷新纪录;其二,多模态处理能力提升,大模型在处理文本、图像、声音等多种模态数据方面的能力不断进步;其三,应用领域不断拓展,大模型在医疗、金融、教育等众多领域都展现出广泛应用前景。
算力作为推动大模型持续迭代的关键因素,也在持续突破。英伟达、AMD等芯片制造商相继发布了新一代GPU产品,这些高性能计算芯片为大模型的训练和推理提供了强大动力。国内,以阿里云为代表的云计算巨头纷纷升级其计算服务,推出了基于最新AI芯片的云计算实例,大幅提升了大模型训练的效率。
“全世界先进模型竞争的投入门槛,将达到数十亿、数百亿美元的级别。”吴泳铭在论坛上表示,AI具备创造能力、帮助人类解决复杂问题的路径清晰可见,也打开了AI在各行业场景中广泛应用的可能性。
“很长一段时间,AI的焦点主要集中在模拟人类的感知能力,比如自然语言理解、语音识别、视觉识别。但是生成式AI的崛起,带来了质的飞跃,AI不再仅仅局限于感知,而是首次展现了思考推理和创造的力量。”吴泳铭表示。
过去三十年,互联网连接了人、信息、商业和工厂,通过连接提高了世界的协作效率,创造了巨大的价值,改变了人们的生活方式。而生成式AI是通过生产力的供给创造了新的价值,提高了整个世界的生产力水平。这种价值创造,可能是移动互联网连接价值的十倍、几十倍。
吴泳铭认为,AI最大的想象力不在手机屏幕,而是接管数字世界,改变物理世界。“我们认为生成式AI将逐渐渗透数字世界,并接管数字世界,物理世界的大部分事物都会具备AI能力,形成下一代的具备AI能力的全新产品,并与云端AI驱动的数字世界连接产生协同效应。”吴泳铭表示。
在他看来,AI模型可以通过对物理世界数据的Token化,理解真实世界的方方面面,比如人类行走、奔跑、驾驶车辆、使用工具,绘画、作曲、写作、表达、教学、编程的技巧,甚至是开公司创业。理解之后,AI就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。
“可以想见,AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响。”吴泳铭表示。
突破自动驾驶的上限
如何改变物理世界?自动驾驶是一个重要领域。
9月19日,小鹏汽车董事长CEO何小鹏驾驶“全球首款AI汽车”P7+亮相2024云栖大会,这款车搭载了业内领先的端到端大模型。过去2年,小鹏汽车与阿里云共建的AI算力规模提升超4倍。
大模型渗透端侧,汽车行业正在发生这样的变革。
自动驾驶技术,包括现有算法,主要基于规则。NVIDIA全球副总裁、汽车事业部负责人吴新宙表示,现有的算法栈通常包含许多由人类工程师设计的信号,例如,自动驾驶系统需要知道其他车辆的位置、速度和加速度,甚至需要精确到极高的程度,以便在三维空间中进行规划。然而,这种基于人类设计的信号或特征往往会限制算法栈的性能上限。
其一,行为量化。吴新宙表示,人类驾驶行为具有高度的灵活性,而基于规则的自动驾驶算法栈往往会过度量化人类行为。尽管算法栈可能包含多种行为状态,但量化的行为往往导致车辆驾驶显得机械。
其二,通用性限制。为了训练模型,尤其是感知模型,需要大量的数据集来快速修复特定的Corner case(边缘情况),这导致了巨大的工程量和测试量。而算法的通用性在面对未见过的数据时会受到挑战,当遇到数据覆盖不足的罕见场景,车辆可能无法正确反应。
其三,逻辑推理能力。驾驶主要涉及小脑问题,通常不需要复杂的逻辑推理。但在处理Corner case时,逻辑推理是必要的。现有的算法栈在时间记忆和逻辑推理方面的能力较弱。
通过“端到端”大模型的应用,上述限制可以得到有效解决。吴泳铭在论坛上表示,人工智能模型能够直接从海量的人类驾驶视觉数据中学习,从而赋予汽车超越大多数驾驶员的驾驶技能。
吴新宙表示,数据驱动的方法可以使车辆行为更加拟人化。大模型通过互联网量级的数据训练,对物理世界的理解远超汽车驾驶场景,从而显著提升自动驾驶的性能上限。此外,大模型在时序和空间上的强关联能力,能够形成强大的记忆能力,有效解决逻辑推理问题。
“端到端的大模型帮助我们可以将未来的自动驾驶的高度做得更高,且下限也可以得到提高。”何小鹏在论坛上表示,“对于最普通的用户,从现在到未来的36个月,可以让我们每一个人在每一个城市都像老司机一样开车,这是端到端大模型对于用户的一个强感知。”
今年5月,小鹏汽车就在国内率先实现端到端自动驾驶量产上车,并在全国范围内迅速落地。业界普遍认为,未来端到端智驾的算力需求还将进一步扩大,上亿元投入仅是智驾算力的入场券。
机器人泛化的基础
机器人行业也是下一个迎来巨变的行业。
事实上,在一些特定领域,如工业机器人、服务机器人等,其应用已经非常成熟,可以通过编好的程序替代人力高效完成工作。但业内对于机器人的期待显然不止在于特定场景的特定任务,更高的泛化性、更强的智能能力是机器人大规模应用的基础。
“为什么现在具身智能还是感觉这么智障,就是因为它没有灵魂,它没有脑子。”个人开发者、知名技术博主张子豪向21世纪经济报道记者表示。
尽管一些机器人的神经系统、控制系统、感知系统以及骨骼、关节和电机可能非常先进,但它们缺少类似于人脑的高级认知功能。因此,许多机器人只能停留在基础的操作层面,无法执行更复杂的任务,常常需要外部控制,无法实现真正的自主应用。
而大模型的融入则使得机器人的“大脑”更加智能,与人类的交互更加顺畅。张子豪向记者表示,传统机器人缺乏泛化能力、多样性和对通用指令的理解,而AGI能够将任意指令转换为机器人的动作。简而言之,大模型可以直接调用程序接口,给机器人发指令,调度机器人执行动作。
同时,它们能够理解大量世界的先验知识,并具备对三维物理世界的理解。张子豪举例称,曾试验让机械臂将一个绿色方块移动到“李云龙”的脸上,而机器人真的能够识别出“李云龙”。
在以往的模型中,这是不可能实现的,因为要让机器人识别需要专门训练一个模型,并使用特定的数据集进行训练。但现在,借助多模态大模型,机器人天生就具备了这种能力。
这种泛化和通用性是机器人规模应用的基础。吴泳铭在论坛上表示,未来,所有可移动的物体都可能转变为智能机器人,这些机器人可能包括工厂中的机械臂、建筑工地上的起重机、仓库内的搬运工、火灾现场的消防员,以及家庭中的宠物狗、保姆和助理等。
不过,把机器人完全交给大模型做“甩手掌柜”也是行不通的。某初创机器人企业负责人向记者表示,很多时候大模型的意图理解是不稳定的,很多任务还是依托于局部小模型。
“小模型目的就是提升具体场景下某些任务执行的精确可靠,大部分都是定制化的。它们场景明确,数据可靠,有针对性的训练。”该负责人表示,这也考验着不同机器人企业的能力。
而大模型可以与小模型结合应用,更好地发挥小模型能力。北京大学助理教授、北大-银河通用具身智能联合实验室主任王鹤在论坛上表示,大型模型可以充当监控器(Monitor),在小型模型执行任务的过程中,实时监控其表现,确保任务正确无误地进行。“比如药盒不慎掉落,大模型能够及时识别问题,并采取措施,指导机器人捡起药盒。”
未来,业内仍然期待能将通用感知、规划和执行能力融合在一起的大模型赋能机器人,使其能够更智能、更灵活地执行各种任务。
正如吴泳铭所设想,“未来,工厂里会有很多机器人,在AI大模型的指挥下生产机器人。现在每个家庭里有一两辆车,未来每个家庭可能会有两三个机器人,帮助人们提升生活当中的效率。”
AI阿里云云栖大会人工智能 新浪科技公众号“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
相关新闻