帮助中心

「微调已死」再添实锤:谷歌ReasoningBank开启AI自我进化新范式

作者:海森大数据     时间:2025-10-13 08:33:34

近日,学术圈围绕“微调已死”的讨论愈演愈烈。斯坦福等机构提出的“主动式上下文工程”技术,展示了让大模型无需微调即可自我提升的潜力。而事实上,谷歌早前一篇关于《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的研究,已率先提出了类似的创新框架——通过构建一个能够从成功与失败中双向学习的“推理记忆库”,使AI智能体实现了在任务执行中的持续自我进化。

这一突破的核心在于,谷歌研究者摒弃了传统依赖海量标注数据与重复微调的模式,转而让智能体在真实环境中通过实践积累经验,并从中提炼可复用的思维模式。正如论文所展示,ReasoningBank作为一个结构化记忆框架,能够从智能体自身的成功策略与失败教训中抽象出可操作的原则,形成“经验-提炼-应用-再提炼”的完整闭环。

深度进化:从“记忆库”到“思维引擎”

ReasoningBank的创新性体现在多个层面。其记忆单元经过精心设计,包含标题、描述与内容三部分,既保留了推理精髓,又具备高度可移植性。当智能体面对新任务时,它能快速检索相关记忆指导决策,有效避开已知陷阱,提升解决效率。

更值得关注的是,谷歌在此基础上提出了“记忆感知的测试时扩展”(MaTTS)技术,通过并行与顺序两种扩展模式的巧妙结合,实现了记忆质量与探索深度的正向循环。在并行扩展中,智能体通过多路径探索对比不同解决方案,筛选出最可靠的推理模式;而在顺序扩展中,它则通过迭代优化,将中间修正过程也转化为宝贵的学习素材。

这种设计使得AI不再仅仅是执行任务的工具,而是拥有了类似人类的“经验学习”能力——它能够从错误中反思,从成功中总结,并将这些洞察系统化地融入后续的决策过程。

实践验证:效率与效果的双重提升

在WebArena、Mind2Web和SWE-Bench等具有挑战性的测试环境中,ReasoningBank展现出了显著优势。实验数据显示,该方法在部分任务上实现了高达34.2%的性能提升,同时将交互步骤减少了16.0%。这种“既好又快”的表现,充分证明了基于记忆的自我进化路径的可行性。

特别值得注意的是,当ReasoningBank与MaTTS协同工作时,产生了“1+1>2”的效果。研究者发现,高质量的記憶能够引导扩展过程走向更有前景的探索方向,而丰富的扩展经验又反过来锤炼出更精炼的记忆内容——这种正反馈循环为AI能力的持续提升打开了新的可能性。

范式转变:AI进化进入“自主驱动”时代

谷歌这项研究的深远意义在于,它为大模型的进化提供了一条全新的路径。传统的“预训练-微调”范式虽然有效,但依赖大量人工干预与标注数据,成本高昂且灵活性不足。而ReasoningBank展示的自我进化能力,让AI能够更自主地适应复杂多变的环境需求。

这不仅是技术层面的进步,更代表着AI研发理念的转变:从依赖外部“投喂”到激发内部“成长”,从静态的知识库到动态的思维体系。正如网友所期待的,这种能够实时从错误中学习并调整策略的AI,更接近我们理想中智能体的形态——具备持续成长的生命力。

随着“微调已死”的呼声渐起,ReasoningBank等技术的出现,正在重新定义AI系统的学习方式。在不久的将来,我们或许会见证一个由自我进化智能体主导的新时代——那里的AI不再是被动执行指令的工具,而是能够在实践中不断反思、总结、超越的自主认知主体。

联系我们
咨询反馈