谷歌推出本地具身智能模型

发布时间:2025-06-25 16:56  浏览量:2

Gemini Robotics On-Device模型可以完全在机器人设备本地运行,无需依赖云端连接。

6月24日,谷歌DeepMind正式发布了Gemini Robotics On-Device模型,这是一个专为机器人设计的人工智能系统,最大的特点是可以完全在机器人设备本地运行,无需依赖云端连接,从而赋予机器人前所未有的自主性与灵活性。

这其实是今年3月发布的Gemini Robotics模型的延伸版本。不同的是,新的On-Device版本完全脱离云端,能独立完成任务,开发者可以通过自然语言指令操控和微调模型,适配不同需求。DeepMind表示,这款本地模型在多项测试中表现接近云端版本,整体水平超过了市面上其他同类本地模型。

此前的多数机器人系统都采用一种混合架构:在机器人上部署一个较小的模型以处理快速响应,同时将需要复杂推理和规划的“重脑力活”交由云端强大的服务器处理。这种方式虽然可行,但其弊端也显而易见。它不仅对网络连接的稳定性和速度提出了极高要求,任何网络延迟或中断都可能导致机器人反应迟缓甚至停摆;同时,将传感器数据上传至云端,也引发了持续的隐私和安全顾虑。

而Gemini Robotics On-Device模型是一个完全集成的视觉语言动作(VLA,vision-language-action model)模型,能够同时处理视觉输入、自然语言指令和动作输出。这一切复杂的“思考”过程,如今都可以在机器人自身的计算单元上完成。

与需要云端协同的前代系统Gemini Robotics相比,On-Device模型在自主性上实现了质的飞跃。它让机器人摆脱了网络的束缚,能够在网络信号不佳甚至完全没有网络的“离线”环境中独立工作。这为其在一些特殊场景的应用打开了想象空间,例如在偏远地区的勘探、信号被屏蔽的工厂车间,或是在对数据隐私有极高要求的医疗保健环境中辅助病人。

评测数据显示,On-Device版本在泛化性能测试中表现亮眼。在视觉泛化、语义理解和行为泛化等多个维度上,虽然比云端版本的Gemini Robotics略有差距,但已经大幅超越了之前最好的本地模型。

在处理分布外任务(out-of-distribution tasks)和复杂多步骤指令时,Gemini Robotics On-Device对比此前的本地模型也展现出了碾压级的优势。这种指令跟随能力,让机器人真正能够理解人类的自然语言指令,而不是简单地执行预设程序。

Gemini Robotics On-Device 也是 DeepMind 推出的首个可供微调的 VLA 模型。虽然许多任务可以开箱即用,但开发者也可以选择调整该模型,从而获得更佳性能。该模型只需 50 到 100 个演示即可快速适应新任务,这表明该模型能够将其基础知识泛化到新任务。

Gemini Robotics On-Device 模型还在尝试适应不同的机器人。虽然这个模型最初只在ALOHA机器人上训练,但团队成功将其迁移到了完全不同的机器人平台上,例如双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。

在双臂机器人 Franka 上,该模型可以执行通用指令,包括处理之前未见过的物体和场景、完成诸如折叠连衣裙之类的灵巧任务,或执行需要精准度和灵活性的工业皮带装配任务。

在Apollo人形机器人上,面对截然不同的机械结构,模型同样展现出了强大的泛化能力。它能够遵循自然语言指令,操作各种物体,包括训练时从未见过的新物体。

为了让更多开发者能够使用这项技术,谷歌同时发布了Gemini Robotics SDK。

这个SDK不仅能让开发者轻松评估模型在自己任务和环境中的表现,还提供了MuJoCo物理模拟器的测试功能。开发者可以先在模拟环境中验证想法,再部署到真实机器人上,大大降低了开发成本和风险。

目前,SDK正在通过可信测试者计划(trusted tester program)逐步开放。感兴趣的开发者可以在官网上申请加入,抢先体验这项技术。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!