Technology

GAIR Paper 104｜Agent 真的能自我进化吗？我们造了一把它骗不过去的尺子

我们用 GDPevo，衡量出 AI 自进化的真实价值。作者丨PrismShadow AI 编辑丨岑峰 01 为什么“自进化”突然成了所有人都在抢的赛道？想象一下，你有一个新入职的员工。他一开始什么都不会，需要你手把手教。但几周后，他开始自己总结经验、优化工作流程，甚至能独立应对从未见过的新问题。如果把这个场景里的员工换成AI，这就是眼下人工智能领域最前沿、也最令人兴奋的方向：自进化Agent（Self-evolving Agent）。先说一句这两年在 AI 圈被反复验证的“铁律”：在 AI 时代，一件事一旦能被清晰地评估、又能被自动化地去做，那它离被做到极致就不远了。围棋是这样，写代码是这样，做数学题也是这样——只要有一把靠谱的尺子，模型就能顺着这把尺子一路爬到顶。自进化Agent做的，就是这样的事情。那么下一个被这把尺子盯上的，是什么？越来越多人把答案押在了自进化（Self-evolution）上。所谓自进化，说白了就是 Agent 能像人一样“越干越熟练”：做完一批任务，它会自己总结经验、更新内部状态，下次遇到相似的活儿，干得更准、更快、更省。学术上和它沾亲带故的概念还有持续学习（Continual Learning）和递归自我改进（Recursive Self-Improvement，RSI）。这件事为什么现在这么火？因为它戳中了当前 Agent 最别扭的一个点：今天的 Agent 大多是“一次性”的——这一单做得再漂亮，经验也带不到下一单去，每次都从零开始。而自进化想做的，是让 Agent 真正“长记性”。资本已经先一步用脚投票了：围绕 AI 自进化的创业公司，比如 [NeoCognition](https://neocognition.io/)、[Recursive](https://www.recursive.com/) 等，在 2026 年募到了数十亿美元的资金。但这里有个被很多人跳过的前提：想优化自进化，你得先能测量自进化。回到开头那条铁律——如果连“这个 Agent 到底有没有进化、进化了多少”都说不清，那后面所有“更强的进化策略”都是空中楼阁。这正是我们想动手解决的地方。 02 痛点：真实的企业活儿，几乎没人能给“进化能力”打分评估听起来简单，真到了企业场景就处处是坑。发票审核、展会事务、保险合规、信贷审批……这些“值钱的活儿”（和 GDP 直接挂钩）有几个共同特点：规则又多又碎、藏在一堆上下文里、还经常需要把好几条规则揉在一起判断。偏偏就是这类任务，几乎没有专门的基准能评估 Agent 的自进化能力，更别提自动化地评估了。更要命的是评估自进化时一个绕不开的陷阱：在测试集上训练。如果你拿去“喂经验”的训练样本和最后考核的测试样本长得太像，那 Agent 只要把答案背下来就能拿高分——这压根不是进化，是作弊。一把会被轻易糊弄的尺子，比没有尺子还危险。于是我们做了 GDPevo。据我们所知，这是第一个在具有真实经济价值（GDP 相关）的任务上、专门评估 Agent 自进化能力的基准。它有两个身份：既是一套自动化的基准构建流程，又是这套流程跑出来的产物——一份开箱即用的基准。目前它覆盖客户关系管理（CRM）、企业资源计划（ERP）和金融（Finance）三大场景，一共 120 个真实企业任务。每个任务都缠着好几条复杂规则，Agent 必须先从过往样本里“学到东西、改进自己”，才有可能答得让人满意。 03 这套基准是怎么“自己长出来”的构建一个企业级的自进化基准，我们主要跟两个硬骨头死磕。难点一：让 AI 来造题，跑赢“数据泄露” 第一个想法是——构建过程必须能端到端全自动。人只负责设计一遍流程，剩下没完没了地跑流程、出题、批改，全交给 AI（这套思路和 [Loop Engineering](https://addyosmani.com/blog/loop-engineering/) 是一脉相承的）。这么做有两个实打实的好处。其一，能跑赢数据泄露：基准这东西最怕被模型“背”过去，但只要我们出新题的速度比模型记住泄露答案的速度快，基准就永远领先半步、永远有效。其二，可扩展（Scalable）：基准的大小不再被人力卡脖子，它能自己往大里长。 GDPevo 数据流水线：从种子场景 → 多 Agent 任务工厂 → 质量审核 → 发布具体怎么跑（见上图）：人设计流程，Agent 持续不断地执行。我们先从公开的真实业务基准里取种子场景——[GDPval](https://arxiv.org/abs/2510.04374)、[SOP-Bench](https://arxiv.org/abs/2506.08119)、[JobBench](https://arxiv.org/abs/2605.26329)，再批量生成候选任务组。每个任务组会搭一个共享环境，配 5 个训练样本 + 5 个测试样本，每个样本都自带一份基于规则的评分脚本。接着，一个专门的 Agent 来校准难度，确保“进化后”的表现明显高于“进化前”——把那些根本测不出进化能力的样本筛掉，让基准聚焦在真正需要跨任务自我进化的活儿上。最后，6 个互相独立的 Reviewer Agent 端到端审计每一组数据，至少拿到 5 票通过才会被采用。这些 Reviewer 的存在就是为了防止造题的 Agent 偷懒——检查文件结构全不全、该藏的规则有没有真的埋进去。一路筛下来，最终 12 个任务组、120 个任务通过了考验，组成了今天的这套基准。难点二：用“规则杂交”逼出真本事，而不是死记硬背第二个硬骨头，就是前面提到的“在测试集上训练”陷阱。训练集和测试集得有关联，但又不能太像——理想状态是：Agent 能把训练集里的规则泛化到测试集，而不是把训练集背下来。我们的解法叫规则杂交，灵感来自遗传算法里的交叉进化。做法分两步：第一步，把规则拆碎、藏进训练集。我们先把复杂的业务逻辑拆成一条条“元规则”，再分散藏到训练样本里。比如在 CRM 里，我们会埋下“赞助商身份的优先级”和“黑名单策略”；在 ERP 里，则藏进“供应商风控规则”和对应的应对措施。关键在于——这些规则被打散到 5 个训练样本中，每个样本只露出一部分。第二步，把规则重新组合成测试题。 5 个测试样本被设计成这些规则的组合，比如让“优先级”和“黑名单”同时触发。这样一来：没有自进化能力的 Agent，只能看到一地散落的碎规则、拼不出全貌；而真正会自进化的 Agent，能把这些碎片归纳成规律、再迁移到全新的任务上。一道题，就把“背答案”和“学规则”分得清清楚楚。 04 我们怎么给 Agent 打分评估环节，我们守两条规矩：分数必须可复现；成本和准确率，一样重要。规矩一：规则打分，不用 LLM-as-a-Judge GDPevo 用的是确定性的规则打分器，而不是让一个大模型来当裁判（LLM-as-a-Judge）。每个分数都由多个具体的打分点（rubrics）拼成。这带来两个好处：第一，分数是可复现的——同一份答案跑十遍，得分都一样；第二，每一次失败都是可追溯的——你看到的不是一句含糊的“总体还行”，而是清清楚楚地告诉你哪条规则没过、扣了几分。这种可追溯性，直接把基准变成了一个 Agent 诊断工具。你可以反过来读 Agent 的操作记录，定位它到底栽在哪一步，再拿这些短板当作下一轮优化的靶子。规矩二：成本和准确率，同等重要一个好的自进化策略，不该只是“越来越准”，还得“越来越省”——就像一个人活儿越干越熟，时间更短、效果更好。所以每次测试，我们都会同时记录总 Token 消耗和任务准确率两笔账。详细的过程日志还能帮我们复盘 Agent 的行为、定位问题，反哺策略优化。极高易用性：一句话就能跑评估，不用学任何框架整个评估不依赖任何评估 SDK，是纯自然语言驱动的。你用 Claude Code 或 Codex 打开一个评估工作区（其实就是个装着 Markdown 指南和说明的文件夹），然后用自然语言描述一句“我要跑什么实验、想要什么样的图”，整套评估流程就能自动跑完、直接吐出结果报告和图表——全程不用写一行适配代码，也不用啃任何框架文档。 05 结果：今天的 Agent，已经会“无师自通”了我们在 12 个任务组、共 120 个任务上，测了三个不同的 Agent。每个任务跑 3 遍取平均，对比三种方案： base（不进化）：Agent 不碰训练集，直接上手做测试题。 fewshot（少样本进化，类似 SFT）：Agent 先把训练集的题目和标准答案过一遍、归纳经验，再去做测试题。 reflect（反思进化，类似 RL）：Agent 先不看答案、自己硬做训练题，然后被告知对错，借此反思总结出规则，再去做测试题。三个 Agent 给出了高度一致的结论：自进化能把测试集准确率提升约 17–22%，而且其中两个 Agent（Claude Code 和 Codex）连 Token 消耗都更低了——又准又省，鱼和熊掌兼得。几个亮眼的单点，拿“运营建模（operational financial modeling）”这个场景举例：Codex 从 42.76% 飙到 92.47%，花的 token 还比基线少；Claude Code 的 fewshot 直接干到 100%（起点是 51.76%）；Panofy 的 reflect 也冲到了 92.47%（起点 62.39%）。三个 Agent 的整体表现（12 个任务组均值）大致如下：说白了，这组数据传递了一个挺鼓舞人的信号：当前的 Agent 已经具备了一定的自进化能力——它们真的能从过往经验里学到东西，并把这份本事迁移到全新的任务上。这个发现，和已有的一些工作（[1](https://trinkle23897.github.io/learning-beyond-gradients/)、[2](https://www.recursive.com/articles/first-steps-toward-automated-ai-research)）也是不谋而合的。 06 GDPevo 是一颗种子，不是一个结果这个项目里完整的流程、产物和结果，全部对外开放。我们特别欢迎你带上自己的 Agent、或者自己的业务场景，来一起玩。我们的目标从来不是再搞一个排行榜，而是给“自进化 Agent”这件事添一把柴。我们真心希望，能借这个项目让 Agent 的自进化真正实现规模化，最终把人从重复劳动里解放出来。 GitHub开源项目：https://github.com/Prism-Shadow/GDPevo 博客链接：https://prism-shadow.github.io/GDPevo/blog.html 雷峰网正在策划自进化 Agent相关主题的圆桌讨论。如果你对自进化 Agent的技术实现或者安全把控等有一定心得且愿意分享，欢迎添加微信：MS_Yahei（备注：自进化 Agent）上车，带你看遍全球 AI 顶会精华可独家畅览：专家演讲PPT 大会报告全文热门论文解读学术新星访谈扫描上方二维码或点击「阅读原文」关注专区。

雷峰雷峰网Updated 1d ago2 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.