专家观点 | 于海斌、王耀南、张钹三位院士解读具身智能

发布时间:2025-08-11 08:54  浏览量:1

导读:具身智能作为人工智能领域的前沿方向,正从技术验证迈向实际应用,并深度融入各类实体场景,展现出广阔的产业革新潜力。当前,全球主要国家均已将具身智能纳入科技发展战略,推动相关技术突破与产业化落地。具身智能不仅是技术发展的必然趋势,更是推动社会智能化转型的重要力量。随着应用场景的不断拓展和产业生态的完善,它将在全球范围内掀起新一轮科技革命,为经济高质量发展注入强劲动能。本篇将分享中国工程院院士于海斌、中国工程院院士王耀南、中国科学院院士张钹对于“具身智能”的见解。

2025具身智能与智能机器人技术演进、挑战与未来趋势研判

人工智能的历史脉络与具身智能的诞生

人工智能(AI)自1956年达特茅斯会议正式提出以来,经历了数次技术浪潮与寒冬。于海斌院士指出,AI的发展可分为四个阶段:符号逻辑推理阶段(1950s-1980s):以知识表达和专家系统为核心,但受限于知识获取的困难,最终因实用性不足进入第一次寒冬。 神经网络连接阶段(1980s-2000s):辛顿(Geoffrey Hinton)等人提出反向传算法,推动神经网络发展,但受限于算力和数据,应用场景有限。 深度学习阶段(2010s至今):以卷积神经网络(CNN)和斯坦福大学李飞飞团队构建的ImageNet数据库为标志,AI在图像识别等领域实现突破,识别率从60%提升至超越人类水平。具身智能(Embodied AI)阶段(2020s起):AI从纯数据驱动转向与物理世界交互,强调智能体通过身体、环境与任务的协同实现认知与行为进化。

图灵早在计算机理论初期即提出两种智能路径——“离身智能”(如ChatGPT依赖纯数据推理)与“具身智能”(需与物理设备结合)。然而,具身智能因技术复杂度高长期滞后,直到机器人学、神经科学和心理学的交叉融合为其提供了新思路。

具身智能的核心内涵与科学依据

环境交互与智能发育的必然性:以一项科学实验来印证环境交互与智能发育呈现正相关性,该实验反馈了智能的成长依赖与环境的动态互动作用。 来自麻省理工学院两位研究人员,把两只小猫放进了一个圆桶内,两只小猫都在圆筒内部绕圈运动。第一只小猫是自己走的;第二只小猫则被放在与柱体中心轴相连的小盒子里。两只小猫看到的东西完全相同。结果显示只有靠自己身体运动的小猫发育出了正常的视力。这进一步印证了“心灵手巧”的逆向逻辑——肢体动作的灵活性(如操作工具)会反向促进认知能力的提升。

具身智能三位一体的智能框架:具身智能强调“大脑-身体-环境”三位一体。其中大脑负责高层决策与意图理解(如大语言模型),身体通过传感器与执行器实现物理交互(如机械臂、仿生关节),环境提供动态反馈与训练场景(如仿真平台、真实物理空间)。三者协同构成闭环,使智能体能够通过试错学习适应复杂任务。

从“感知智能”到“行动智能”的跨越:传统AI擅长静态感知(如图像识别),但缺乏对物理世界的动态响应能力。波士顿动力(Boston Dynamics)的Atlas机器人通过深度学习与强化学习结合,实现了翻越障碍、适应地形变化等复杂动作,标志着具身智能在运动控制领域的突破。

围绕具身智能四大热点的思考与技术挑战

数字人:中国通用人工智能研究院开发的“数字人通通”模拟人类从婴儿期开始的成长过程,通过与虚拟环境的交互(如听觉、触觉反馈)实现认知进化。这一尝试为研究人类智能发育提供了新范式,但也引发伦理争议——若机器人通过环境交互自主进化,人类是否可能失去控制?

机械臂与大语言模型的融合:谷歌RT-X平台将大语言模型(LLM)与机器人操作结合,使机械臂能够理解自然语言指令(如“整理房间”),并自主分解任务步骤(识别杂物、分类归置)。这一技术已在叠衣服、精细装配等场景中展现潜力,但其泛化能力仍受限于物理规则与数据多样性。

人形机器人的争议与前景:马斯克力推的Optimus人形机器人引发两极评价。支持者认为人形是通用化的终极形态,可适配人类环境(如楼梯、工具),而质疑者指出其成本高昂、技术冗余(如多关节驱动难题)。

人形机器人的核心价值在于“本体硬件”与“智能算法”的协同突破。例如,开源算法(如波士顿动力的运动控制模型)大幅降低了本体研发门槛,而黄仁勋(英伟达CEO)布局的具身智能训练平台,或将推动行业标准化。

智能驾驶与低空经济:尽管全无人驾驶面临地面环境的极端复杂性(如突发行人、不规则道路),但网联汽车的辅助驾驶(如车道保持、自动泊车)和低空经济(无人机物流、巡检)已成为更可行的商业化方向。

技术路径:肢体、小脑与大脑的协同进化

在机器人技术路径未来发展趋势探讨方面,于海斌院士表示未来人形机器人肢体部分有很大的提升空间,如基于高能量密度的仿生驱动肢体。仿照人类心脏的高效供能机制,研发微型液压驱动与仿生肌肉,如德国费斯托的气动机械臂就是一个很好的参考方向,该机械臂核心优势在于其高精度控制与仿生设计的融合,拥有12个自由度,动作柔性且稳定,部分型号搭载AI技术实现自我学习优化,电磁阀寿命超3000万次,具备良好的性能和耐用性。

此外,生物融合也是未来机器人发展趋势。未来,我们可以通过培养生物细胞构建具有感知与驱动能力的“类器官”产品,尽管其生存环境要求苛刻,但为软体机器人提供了新思路。

小脑主要作用在于提升人形机器人的运动协调能力,运动控制依赖海量物理数据,而真实环境训练成本过高。目前国内已经有相对成熟的平台进行机器人的模拟训练,如国家地方共建人形机器人创新中心开发的,异构人形机器人训练场通过“虚拟-现实”迁移学习(Sim2Real),使机器人能在低成本场景中预训练动作(如行走、跳跃),再迁移至真实环境微调。

大脑提供决策模型与机器人的认知能力,目前多模态感知技术是主要方案,该方案融合视觉、触觉、力觉传感器,提升环境理解的全面性。在具体案例方面,北京大学电子学院程翔教授团队提出的“机器联觉”系统,通过智能融合通信与多模态感知信息,有效提升了机器人在复杂环境中的感知、决策与通信能力。

如何解决大模型“灾难性遗忘”问题,实现机器人的终身学习方式。爱丁堡大学提出的增量强化学习框架是一个很好的解决“灾难性遗忘”的解决方案。它能够在保持已有知识的基础上,通过逐步增量式地更新策略,快速适应新环境或新任务,从而显著提升机器人在动态变化环境中的学习效率和性能表现,无需从头开始重新训练整个模型。

未来十年技术趋势研判与产业启示

未来十年,具身智能的算法与训练平台将快速发展,而硬件(如高精度传感器、仿生关节)受限于材料与工艺,进步速度相对缓慢。企业需优先布局软件生态(如仿真平台、数据链),而非盲目投入硬件研发。

此外具身智能缺乏统一理论体系(如认知科学的世界模型),但场景驱动的工程化应用(如仓储机器人、医疗外骨骼)将率先落地。国家需推动跨机构协作,解决数据确权与模型共享难题。

在通用终端的终极形态方面,人形机器人未必是唯一答案,具身智能可能通过“一脑多机”模式赋能多样化设备(如工业机床、家用电器)。例如,同一AI核心可同时调度无人机群与地面机器人,实现任务协同。

在伦理与安全方面,若具身智能体通过环境交互自主进化,可能超出人类预设的边界。行业需提前建立伦理规范(如行为约束算法、人机权责界定),避免技术失控风险。

结语与未来

具身智能正在让AI从“虚拟大脑”向“物理实体”迭代,在技术演化的道路上,需要更加关注技术创新的有效性与产业化的可落地性。正如于海斌院士所言:“蓝海的意义在于未知,而未知需要勇气与智慧并存。”对产业从业者而言,打破学科壁垒、深化理论突破,聚焦场景刚需、参与生态共建或将成为抢占先机的关键。

AI大模型驱动的具身智能人形机器人与展望

我们正处于智能化时代,从机械化时代的工业1.0,到电气化时代的工业2.0,再到信息化的工业3.0,现在我们正迈向工业4.0智能化的时代。在这个时代背景下,工业机器人、服务机器人和特种机器人发挥着越来越重要的作用。智能机器人已广泛应用于工业制造、国防安全、智能服务和智慧农业等各个行业,呈现出同步发展的趋势,并具有广阔的应用前景。

在过去的几十年里,工业机器人发挥了重要作用。而为了解决服务机器人的问题,人类与我们共同走向了人形机器人的研发之路。

那么,为什么要发展人形机器人?人形机器人主要模仿人的形态、运动和功能,可以与人进行交流。它不仅模仿了人的外形、外观和行为,还是一种通用的智能机器人,是国际公认的人工智能、高端制造新材料等尖端技术的集成者,也是科技竞争的制高点和未来的新赛道。

我们预判人形机器人将成为继个人计算机、手机和智能汽车之后新一代智能终端,可能形成万亿级市场。因此,我们关注产业化路径,提出了人形机器人发展的主要动力来自于需求牵引和整机带动。应用场景,如智慧农业、医疗、家庭服务等,是推动人形机器人发展的关键。整机研发是主攻方向,软件和硬件必须协同,以培育一个完整的生态,进而带动产业链、创新链和人才链的发展转型升级。

在关键技术突破方面,我们将人形机器人的发展划分为大脑、小脑和肢体三个方面。大脑主要解决复杂环境感知决策、人机交互以及提升机器人的学习适应能力。小脑,即过去的控制系统,主要负责运动建模、复杂控制以及各种形态的控制。而肢体方面则是整机和部件的共同发展。

未来,人形机器人开发工具要形成大产业,必须具备大模型训练数据标注软件和应用软件。这样我们可以将机电一体化考虑在内,形成人形机器人的发展路线。

我们2020年提出的人形机器人架构是一个云网端架构的系统,大脑负责多模态模型建模、强化学习、地图创建和数据训练。数据训练端作为云端大脑,训练完成后,通过网络高速互联互通进入人形机器人机构本体。机构本体的小脑则重点管理表情计算、视觉控制、感知信息等各种驱动手和关节的控制,形成一体的小脑控制。

目前,人形机器人国内外研发重点主要包括:

环境感知:人形机器人的环境感知部分主要涉及各种传感器的研发,包括内部传感器、惯导传感器、立位传感器、皮肤传感器、外部传感器、视觉传感器、激光雷达传感器以及声学传感器等。

执行器:执行器部分涉及驱动电机和灵巧手等执行机构。研发动力部件、驱动减速器等关键零部件对于人形机器人的发展至关重要。

小脑开发:小脑负责机器人的运动控制,从传统的模型驱动转向数据驱动。通过强化学习,机器人小脑变得更加灵活,加速了控制器的开发。

大脑开发:大脑负责感知、控制、传感和控制一体,涉及高级决策核心。通过多模态模型建模、强化学习、地图创建和数据训练,大脑能够管理和协调机器人的各种功能。

近年来,人形机器人发展迅速。通过感知、传动、算一体的端到端大模型学习和训练大脑,人形机器人得到了更多的活力。大模型使人形机器人可以解决复杂规划问题,具备情感、精准执行能力和理解人的意图等优势。此外,具身智能的发展也加速了人形机器人的多模态交互和学习能力。

经过研判,今年人形机器人规模发展非常迅速,但仍处于艰苦的爬坡过坎阶段。从市值分析,目前中国在人形机器人产值尚未达到预期。从分布角度来看,国内人形机器人的地域分布相对集中,主要集中在沿海发达地区,包括重庆中部地区和南部地区。我们更多地需要通过形成产业生态链、创新链和上下游联动,以推动人形机器人的大发展,形成真正的新三板。

回顾过去,我们团队在1985年就开始研发机器人,主要采用模型驱动,如神经网络模型驱动的机器人智能控制。然而,开发周期缓慢,需要完成多个程序。为了改善控制能力,我们设计了模糊神经网络控制系统作为辅助修正学习。现在,我们需要融入新技术,如深度强化学习和大模型驱动,以加速人形机器人的开发周期。

那么,AI大模型如何赋能人形机器人开发?将AI大模型赋能到人形机器人,需要注意几个方面。首先,通过这个模型提升人形机器人的自然语言交互,使机器人能够与人进行自然语言的交互理解。其次,需要识别复杂场景视觉感知。第三,需要对动作和规划进行精准把控。最后,需要进行自主学习提升来完成任务。

人形机器人与其他机器人的最大不同,在于它需要具备情感计算和表达能力。大模型为机器人注入了新的活力,使人形机器人具备了情感表达和分析能力。

未来,人形机器人行业还有很多工作需要完成。我们应该联合企业、政府、高校和研究所,共同梳理和发力,让人形机器人真正走向生活、智能制造和国防等领域。

首先,我们需要打破训练数据大模型之下的壁垒,充分利用他人的优势进行开发。其次,我们可以采用小模型进行分布式开发。最后,我们需要探讨如何高效地应对大模型的多模态企业特征、提升端到端控制的通用性和训练效率、保障模型的泛化能力和可解释性等问题。

为了实现这些目标,我们需要研究人工智能大模型,推动人形机械一体化发展。我们需要设立一个开源数字底座,涵盖计算智能、感知智能、认知智能、决策智能、行为智能以及真正的具身智能。这个底座应该具备感知、认知、思考、分析、判断、推理和交互功能,以推动人形机器人具备智能自主操控性。

此外,未来的人形机器人还需要具备情商和智商兼备的特点。数字人与机器人的有机结合将是未来的发展趋势。数字人已经在各个领域广泛应用并形成产业化,我相信实体人形机器人也将与数字人一样在数字空间和实际中发挥作用。为了实现这一目标,我们需要取得突破,在数字人具备群智兼备的基础上,还需要解决脑认知驱动的情感激励、多模态前置大模型融合的解释建议以及个性化情感的表征与动态等科学问题。

总之,通用人形机器人的发展需要多学科交叉协同创新,突破运动、操作、智能三大专业技术。我们应该携手共进,无论是企业、高校还是科研院所,都应该共同努力推进人形机器人的发展。让我们携手艰苦攻关,实现通用人形机器人的梦想!

具身智能 ——人工智能与机器人发展的重要

具身智能是指一种思想或者理论。它强调认知受智能体的感知与动作的影响,主张智能或智能行为来自智能体身体与周围环境的交互,而不仅仅是大脑的功能。这种思想与建立在笛卡尔身心二元论基础上的离身智能不同,后者没有考虑大脑与身体之间的联系。具身智能理论对认知科学、心理学、人类学、艺术等都产生了深刻的影响,由此诞生了具身认知、具身心理学等分支学科。当前,具身智能理论深入到大众关注的人工智能、机器人技术等领域,并产生重大影响。

推动人工智能迈向更高水平的通用人工智能

早期人工智能研究者认为,机器可以通过对符号的操作实现对人类思考(理性行为)的模拟,即让机器像人类那样思考,无需考虑身体和环境。他们把人工智能定义为模拟人类的智能行为,除了模拟思考之外,还包括感知、动作,以及情感与灵感等。由于他们认为思考和身体、环境是分离的,因此在模拟这些行为时,是各自独立进行,没有考虑行为之间的相互联系。人工智能的另一学派内在主义,主张人工智能应该模拟人类大脑的工作原理,我们通常称之为类脑计算。这个学派也没有考虑思考、感知与身体的关系。因此传统人工智能中的两大学派都属于离身智能。

具身智能则认为人类的智能行为不仅依赖大脑的思考,还需要通过与物理环境的交互来进行学习和决策,最后通过感知将执行的结果反馈到大脑,形成闭环,构成一个智能体,这样才能真正实现模拟人类智能行为的目标。具身智能这种思想的提出,与传统人工智能不同,将推动人工智能向更高的水平——通用人工智能发展。

人工智能的发展历史,经历过三个阶段。第一代人工智能提出以知识与经验为基础的推理模型,通过这一模型来模拟人类的思考。这一模型具有可解释性与可理解性的优点,但由于知识表示与获取的困难,该模型在应用和产业化上受到很大限制。第二代人工智能提出数据驱动的模型,通过基于大数据的机器学习,实现对人类感性和情感行为的模拟。由于模型的图像、语音等输入数据来自客观世界,因此具有很大的应用潜力,但由于模型本身存在不安全、不可靠、不可信(不可解释)、不可控和不易推广等缺陷,因此应用范围有限。虽然科学家在这期间也进行过模拟人类动作,比如手的操作与脚的步行等研究,但没有将这些研究与思考、感知等其他方面联系起来。总之,这两代人工智能都有很大的局限性,而且只针对特定领域、利用特定模型去解决特定任务。

2020 年大语言模型的出现,把人工智能推向新的发展阶段——第三代人工智能。大语言模型具有强大的语言生成能力,使机器能够在开放领域下实现与人类的自由交互,这表明机器已经完全掌握了人类的语言。此事意义重大。正如哲学家维特根斯坦所言:“我的语言界限,就是我的世界界限。”机器一旦掌握了人类的语言,也就在某种程度上理解了人类的世界。大语言模型向通用人工智能迈出了关键一步。

尽管人工智能在语言生成上取得成功,在许多其他任务上还不能实现领域的通用性。比如医疗诊断,目前我们还没有开发出适用于各种疾病的计算机医疗诊断系统。另外,大语言模型只会说(生成语言),不会干(行动)。还有大量的任务,特别是复杂的任务,人工智能目前还无法完成。我们离真正的通用人工智能仍有一定距离,其原因就在于,传统人工智能对人类(大脑)的思考、感知与动作等方面的模拟是相互分开的,而且与环境隔离。具身智能则强调物理身体、环境感知与反馈的重要性,并通过它们实现与外部世界的交互。这正好弥补了传统人工智能的不足,使机器通过与环境的反复交互,逐渐学习适应环境并优化其决策和行动,不断迭代,完成更多、更复杂的任务,这就是新的学习范式——强化学习。由此可见,具身智能将使人工智能在更广泛的环境下,完成更多的任务,向通用人工智能迈进。

推动机器人领域三方面的技术进步

机器人的研究远在人工智能诞生之前。 1954 年,科学家发明数字控制可编程的机械臂,为现代工业机器人打下基础,也预示着现代机器人的真正诞生。 在人工智能的发展过程中,虽然也将模仿人类动作纳入研究范围,但由于当时研究的重点是思考与感知,动作(身体)并没有受到很大关注。 后来,机器人研究慢慢形成一个新领域——机器人学,与人工智能中的动作研究同时存在。 机器人学研究的范围更宽,也更多关注技术、实际应用和产业化。 1986 年,移动机器人的先驱罗德尼·布鲁克斯提出了行为主义机器人学的主张,他认为传统的符号主义人工智能过于依赖复杂的推理系统,忽视了身体与环境的互动对智能行为的关键性贡献。 可以说,这是在机器人领域首次提出具身智能思想。

总的来看,具身智能推动了机器人领域三方面的技术进步

其一是推动机器人技术从单一感知(如视觉或触觉)向多模态感知发展。 自动驾驶汽车需要在各种气候条件和复杂环境下行驶,全天候的环境感知极为重要。目前除了利用单一的摄像机之外,人们更多地考虑多传感器融合,即除摄像机之外,还要综合利用激光扫描仪、雷达、声呐、卫星定位等不同传感器,以保证感知的可靠性。同样,对机械手来讲,也需要利用触觉、力觉、力矩觉等多传感器的融合,以便在复杂环境下实现复杂操作,比如,装配、抢险救灾、排雷等。

其二是推动机器人技术更加关注软件与硬件的高度整合。 为了适应不同工作任务的需求,我们需要设计不同类型的机器人,如为家庭服务的人形机器人,拥有灵巧双手的装配机器人,拥有特殊功效的仿生机器人等。不同类型的机器人需要不同的控制技术,也会导致不同的学习和感知方式,这反过来又影响机器人形态的设计。这些都属于机器人软硬件协同的问题。

其三,具身智能中的智能体概念对机器人技术也将产生重要影响。 根据智能体这一概念,机器人将思考、感知和动作连为一体,既可以在数字世界中也可以在物理世界中完成任务,利用数字世界又可以对物理世界进行仿真,这些对推动机器人的发展意义重大。比如,无人车的实验如果在物理世界中进行,就要受到气候条件、突发事件等诸多因素限制,利用仿真模拟则会大大提高效率,节省时间与费用。利用智能体理论,我们可以让机器人相互之间进行博弈,实现机器的自我进化(迭代),使机器人的性能不断提高。