LLM+Tool Use 还能撑多久?下一代 AI Agent 在 self-evolving 的技术探索上行至何方?
发布时间:2025-08-17 09:30 浏览量:2
机器之心PRO · 会员通讯 Week 33
--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---
1. LLM+Tool Use 还能撑多久?下一代 AI Agent 在 self-evolving 的技术探索上行至何方?
通用智能体对 Self-Evolving 能力的需求为何与日俱增?基于奖励的自进化范式需要关注哪些反馈信号?模仿与演示学习为什么更关注「解释」而非「解决」?如何理解通用智能体会是一个生态系统?Yoshua Bengio 和 Noah Goodman 等 4 月提出的自进化 Agent 设想得到实现了吗?...
2. 从流量积累到商业变现,AI 互联网时代下的新一轮巨头之争开始了吗?
AI 应用公司,能否复刻甚至超越移动互联网时代的商业奇迹?AI 原生应用如何突破传统流量红利,打造新型变现模式?AI 与移动互联网时代的用户生态和商业边界到底有多大差异?当 AI 成为平台能力,用户还需要装那么多 App 吗?从技术能力到商业价值,AI 公司还缺什么才能立得住?中美互联网巨头在 AI 上的投入态度差异,会不会影响未来竞争力?...
3. Dario Amodei:账面亏损?大模型照样生钱!
为什么在账面巨亏的情况下,每代大模型仍能盈利?把每一代大模型当成独立「初创公司」算损益表,这种逻辑能撑到 AGI 吗?大模型能力跃升为何会自然驱动资金、算力和数据投入?大模型的「资本主义冲动」如何运作?Scaling Law 的持续生效对 AI 企业增长意味着什么?Scaling Law 失效会如何影响企业?为什么现有 AI 界面仍无法释放模型的全部能力?原生界面设计的最大挑战在哪里?...
本期完整版通讯含 3 项专题解读 + 32 项 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 10 项,国外方面 13项。
本期通讯总计 29929 字,可免费试读至 7 %
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读①LLM+Tool Use 还能撑多久?下一代 AI Agent 在 self-evolving 的技术探索上行至何方?
引言:近期,一种思潮认为 AI 正处于一个矛盾的阶段。一方面,以 LLM 为代表的 AI 技术通过海量数据训练得到能力的突破,而另一方面,处于「静态」的模型,无法在面对新任务、不断演化的知识领域或动态变化的交互情境时进行实时、根本性的自我调整。这一局限带来的是最近 AI 领域对如何构建「自进化智能体」的探索和热议。
从静态 LLM+工具调用,到 Self-Evolving,下一代 AI Agent 的进化框架如何?
1、2025 年 4 月,ICLR 2025 首次设置了关注基础模型自我改进能力(Scaling Self-Improving Foundation Models)的研讨会主题,探讨没有人类监督的情况下如何通过生成合成数据来持续提升模型性能。
① 彼时,该场研讨会将自进化范式作为缓解基础模型规模和能力增长趋势下的「数据瓶颈」问题的潜在解决方案。(详见 Pro 会员通讯 2025 Week 28 期)
2、随着人工智能智能体越来越多地被部署到现实世界的动态环境中,业界察觉到本质上仍处于「静态」的 LLM 无法在遇到新任务、知识领域演变或动态交互环境时调整其内部参数,这种局限使模型的自我进化能力的必要性日益凸显。
3、自进化范式作为一种新兴的研究方向,其研究涉及基础模型、强化学习和在线学习、认知神经科学等领域的不同实践和交叉影响,在具备巨大潜力的同时存在诸多悬而未决的根本性问题。[1-1]
① 在 ICRL 2025 研讨会的圆桌对话中,Noah Goodman(斯坦福&GoogleDeepMind)、姚顺雨(OpenAI)和 Yoshua Bengio(MILA)等多位研究者就自进化智能体应有的能力和未来的机会展开探讨。
② 该场对话涵指向了几个关键挑战:我们是否拥有能够真正利用海量算力的算法?我们如何定义和衡量「好的想法」以引导进化?以及,我们如何构建能够激励技术发展的「好的任务」?
4、在近期的思潮中,构建自进化智能体不仅是一项技术挑战,同样是一个需要系统性理论框架来引导的科学探索。在此背景下,普林斯顿、清华和 CMU 等十多家高校的研究者在近期发布了一篇综述,通过三个关键的基础问题梳理了用于分析和设计自进化智能体的完整框架。[1-2]
①《A SURVEY OF SELF-EVOLVING AGENTS: ON PATH TO ARTIFICIAL SUPER INTELLIGENCE》将智能体系统描述为由架构、模型、上下文和工具集四个核心组成整体,并将复杂的进化过程解构为「What、When、How」三个基本维度。
② 进化什么(What to Evolve)的维度剖析了智能体的内部结构,明确了哪些组件可以成为进化的对象,包括其核心模型、塑造行为的上下文(记忆与提示)、可供使用的工具集,乃至智能体系统自身的整体架构 。
③ 何时进化(When to Evolve)的维度关注进化的时机,主要分为测试内(Intra-test-time)自进化和测试间(Inter-test-time)自进化两大模式,每种模式下都可以运用上下文学习(ICL)、监督微调(SFT)和强化学习(RL)等范式。
④ 如何进化(How to Evolve)的维度则深入探讨了驱动进化的核心算法和技术路径。
5、在「What、When、How」中,「如何进化」的问题触及了实现自进化智能体的实践方法,因而相关章节在综述中所占篇幅最大。研究者将其归纳为三大范式,它们共同构成了当前智能体进化机制的技术图景。
① 「How」的三大范式分别为基于奖励的进化(Reward-Based Evolution)、基于模仿与演示的进化(Imitation and Demonstration Learning)和基于种群与演化的进化(Population-based and Evolutionary Methods)。
② 值得注意的是,这三大范式并非相互排斥,而是代表了实现智能体自主改进的不同哲学理念与技术路径。在实际应用中,混合使用这些范式已成为一种趋势。