我们用 GDPevo,衡量出 AI 自进化的真实价值。 作者丨PrismShadow AI 编辑丨岑峰 01 为什么“自进化”突然成了所有人都在抢的赛道? 想象一下,你有一个新入职的员工。他一开始什么都不会,需要你手把手教。但几周后,他开始自己总结经验、优化工作流程,甚至能独立应对从未见过的新问题。 如果把这个场景里的员工换成AI,这就是眼下人工智能领域最前沿、也最令人兴奋的方向:自进化Agent(Self-evolving Agent)。 先说一句这两年在 AI 圈被反复验证的“铁律”:在 AI 时代,一件事一旦能被清晰地评估、又能被自动化地去做,那它离被做到极致就不远了。围棋是这样,写代码是这样,做数学题也是这样——只要有一把靠谱的尺子,模型就能顺着这把尺子一路爬到顶。自进化Agent做的,就是这样的事情。 那么下一个被这把尺子盯上的,是什么? 越来越多人把答案押在了自进化(Self-evolution)上。所谓自进化,说白了就是 Agent 能像人一样“越干越熟练”:做完一批任务,它会自己总结经验、更新内部状态,下次遇到相似的活儿,干得更准、更快、更省。学术上和它沾亲带故的概念还有持续学习(Continual Learning)和递归自我改进(Recursive Self-Improvement,RSI)。 这件事为什么现在这么火?因为它戳中了当前 Agent 最别扭的一个点:今天的 Agent 大多是“一次性”的——这一单做得再漂亮,经验也带不到下一单去,每次都从零开始。而自进化想做的,是让 Agent 真正“长记性”。资本已经先一步用脚投票了:围绕 AI 自进化的创业公司,比如 [NeoCognition](https://neocognition.io/)、[Recursive](https://www.recursive.com/) 等,在 2026 年募到了数十亿美元的资金。 但这里有个被很多人跳过的前提:想优化自进化,你得先能测量自进化。 回到开头那条铁律——如果连“这个 Agent 到底有没有进化、进化了多少”都说不清,那后面所有“更强的进化策略”都是空中楼阁。这正是我们想动手解决的地方。 02 痛点:真实的企业活儿,几乎没人能给“进化能力”打分 评估听起来简单,真到了企业场景就处处是坑。发票审核、展会事务、保险合规、信贷审批……这些“值钱的活儿”(和 GDP 直接挂钩)有几个共同特点:规则又多又碎、藏在一堆上下文里、还经常需要把好几条规则揉在一起判断。偏偏就是这类任务,几乎没有专门的基准能评估 Agent 的自进化能力,更别提自动化地评估了。 更要命的是评估自进化时一个绕不开的陷阱:在测试集上训练。如果你拿去“喂经验”的训练样本和最后考核的测试样本长得太像,那 Agent 只要把答案背下来就能拿高分——这压根不是进化,是作弊。一把会被轻易糊弄的尺子,比没有尺子还危险。 于是我们做了 GDPevo。据我们所知,这是第一个在具有真实经济价值(GDP 相关)的任务上、专门评估 Agent 自进化能力的基准。 它有两个身份:既是一套自动化的基准构建流程,又是这套流程跑出来的产物——一份开箱即用的基准。目前它覆盖客户关系管理(CRM)、企业资源计划(ERP)和金融(Finance)三大场景,一共 120 个真实企业任务。每个任务都缠着好几条复杂规则,Agent 必须先从过往样本里“学到东西、改进自己”,才有可能答得让人满意。 03 这套基准是怎么“自己长出来”的 构建一个企业级的自进化基准,我们主要跟两个硬骨头死磕。 难点一:让 AI 来造题,跑赢“数据泄露” 第一个想法是——构建过程必须能端到端全自动。人只负责设计一遍流程,剩下没完没了地跑流程、出题、批改,全交给 AI(这套思路和 [Loop Engineering](https://addyosmani.com/blog/loop-engineering/) 是一脉相承的)。 这么做有两个实打实的好处。其一,能跑赢数据泄露:基准这东西最怕被模型“背”过去,但只要我们出新题的速度比模型记住泄露答案的速度快,基准就永远领先半步、永远有效。其二,可扩展(Scalable):基准的大小不再被人力卡脖子,它能自己往大里长。 GDPevo 数据流水线:从种子场景 → 多 Agent 任务工厂 → 质量审核 → 发布 具体怎么跑(见上图):人设计流程,Agent 持续不断地执行。我们先从公开的真实业务基准里取种子场景——[GDPval](https://arxiv.org/abs/2510.04374)、[SOP-Bench](https://arxiv.org/abs/2506.08119)、[JobBench](https://arxiv.org/abs/2605.26329),再批量生成候选任务组。每个任务组会搭一个共享环境,配 5 个训练样本 + 5 个测试样本,每个样本都自带一份基于规则的评分脚本。接着,一个专门的 Agent 来校准难度,确保“进化后”的表现明显高于“进化前”——把那些根本测不出进化能力的样本筛掉,让基准聚焦在真正需要跨任务自我进化的活儿上。 最后,6 个互相独立的 Reviewer Agent 端到端审计每一组数据,至少拿到 5 票通过才会被采用。这些 Reviewer 的存在就是为了防止造题的 Agent 偷懒——检查文件结构全不全、该藏的规则有没有真的埋进去。一路筛下来,最终 12 个任务组、120 个任务通过了考验,组成了今天的这套基准。 难点二:用“规则杂交”逼出真本事,而不是死记硬背 第二个硬骨头,就是前面提到的“在测试集上训练”陷阱。训练集和测试集得有关联,但又不能太像——理想状态是:Agent 能把训练集里的规则泛化到测试集,而不是把训练集背下来。 我们的解法叫规则杂交,灵感来自遗传算法里的交叉进化。做法分两步: 第一步,把规则拆碎、藏进训练集。 我们先把复杂的业务逻辑拆成一条条“元规则”,再分散藏到训练样本里。比如在 CRM 里,我们会埋下“赞助商身份的优先级”和“黑名单策略”;在 ERP 里,则藏进“供应商风控规则”和对应的应对措施。关键在于——这些规则被打散到 5 个训练样本中,每个样本只露出一部分。 第二步,把规则重新组合成测试题。 5 个测试样本被设计成这些规则的组合,比如让“优先级”和“黑名单”同时触发。这样一来:没有自进化能力的 Agent,只能看到一地散落的碎规则、拼不出全貌;而真正会自进化的 Agent,能把这些碎片归纳成规律、再迁移到全新的任务上。一道题,就把“背答案”和“学规则”分得清清楚楚。 04 我们怎么给 Agent 打分 评估环节,我们守两条规矩:分数必须可复现;成本和准确率,一样重要。 规矩一:规则打分,不用 LLM-as-a-Judge GDPevo 用的是确定性的规则打分器,而不是让一个大模型来当裁判(LLM-as-a-Judge)。每个分数都由多个具体的打分点(rubrics)拼成。这带来两个好处:第一,分数是可复现的——同一份答案跑十遍,得分都一样;第二,每一次失败都是可追溯的——你看到的不是一句含糊的“总体还行”,而是清清楚楚地告诉你哪条规则没过、扣了几分。 这种可追溯性,直接把基准变成了一个 Agent 诊断工具。你可以反过来读 Agent 的操作记录,定位它到底栽在哪一步,再拿这些短板当作下一轮优化的靶子。 规矩二:成本和准确率,同等重要 一个好的自进化策略,不该只是“越来越准”,还得“越来越省”——就像一个人活儿越干越熟,时间更短、效果更好。所以每次测试,我们都会同时记录总 Token 消耗和任务准确率两笔账。详细的过程日志还能帮我们复盘 Agent 的行为、定位问题,反哺策略优化。 极高易用性:一句话就能跑评估,不用学任何框架 整个评估不依赖任何评估 SDK,是纯自然语言驱动的。你用 Claude Code 或 Codex 打开一个评估工作区(其实就是个装着 Markdown 指南和说明的文件夹),然后用自然语言描述一句“我要跑什么实验、想要什么样的图”,整套评估流程就能自动跑完、直接吐出结果报告和图表——全程不用写一行适配代码,也不用啃任何框架文档。 05 结果:今天的 Agent,已经会“无师自通”了 我们在 12 个任务组、共 120 个任务上,测了三个不同的 Agent。每个任务跑 3 遍取平均,对比三种方案: base(不进化):Agent 不碰训练集,直接上手做测试题。 fewshot(少样本进化,类似 SFT):Agent 先把训练集的题目和标准答案过一遍、归纳经验,再去做测试题。 reflect(反思进化,类似 RL):Agent 先不看答案、自己硬做训练题,然后被告知对错,借此反思总结出规则,再去做测试题。 三个 Agent 给出了高度一致的结论:自进化能把测试集准确率提升约 17–22%,而且其中两个 Agent(Claude Code 和 Codex)连 Token 消耗都更低了——又准又省,鱼和熊掌兼得。 几个亮眼的单点,拿“运营建模(operational financial modeling)”这个场景举例:Codex 从 42.76% 飙到 92.47%,花的 token 还比基线少;Claude Code 的 fewshot 直接干到 100%(起点是 51.76%);Panofy 的 reflect 也冲到了 92.47%(起点 62.39%)。 三个 Agent 的整体表现(12 个任务组均值)大致如下: 说白了,这组数据传递了一个挺鼓舞人的信号:当前的 Agent 已经具备了一定的自进化能力——它们真的能从过往经验里学到东西,并把这份本事迁移到全新的任务上。这个发现,和已有的一些工作([1](https://trinkle23897.github.io/learning-beyond-gradients/)、[2](https://www.recursive.com/articles/first-steps-toward-automated-ai-research))也是不谋而合的。 06 GDPevo 是一颗种子,不是一个结果 这个项目里完整的流程、产物和结果,全部对外开放。我们特别欢迎你带上自己的 Agent、或者自己的业务场景,来一起玩。 我们的目标从来不是再搞一个排行榜,而是给“自进化 Agent”这件事添一把柴。我们真心希望,能借这个项目让 Agent 的自进化真正实现规模化,最终把人从重复劳动里解放出来。 GitHub开源项目:https://github.com/Prism-Shadow/GDPevo 博客链接:https://prism-shadow.github.io/GDPevo/blog.html 雷峰网正在策划自进化 Agent相关主题的圆桌讨论。如果你对自进化 Agent的技术实现或者安全把控等有一定心得且愿意分享,欢迎添加微信:MS_Yahei(备注:自进化 Agent) 上车,带你看遍全球 AI 顶会精华 可独家畅览: 专家演讲PPT 大会报告全文 热门论文解读 学术新星访谈 扫描上方二维码 或点击「阅读原文」关注专区。
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.
