SLIM:让模型判断外部能力的去留,在复杂任务中保留真正有用的支撑。 作者丨郑佳美 编辑丨马晓宁 大模型智能体正在从“会聊天”走向“会做事”。 在网页搜索、工具调用、自动办公、软件操作、具身机器人等场景中,智能体面对的不再是单轮问答,而是连续决策:它要理解任务目标,选择合适工具,执行多个步骤,并根据环境反馈不断调整行动。 例如,一个家庭服务机器人要完成“把冷却后的物品放到指定位置”,不能只知道“冷却”是什么意思,还要先找到正确物体,判断物体状态,完成冷却操作,再确认是否放置成功;一个搜索问答智能体也不能只生成答案,而要先判断问题类型,检索证据,筛掉无关信息,再组织最终回答。 在这种行业背景下,外部技能逐渐成为 LLM agent 的重要能力来源。它们像是可复用的操作经验,能够帮助智能体处理复杂流程、长尾任务和容易出错的步骤。 但问题也随之出现:技能是不是越多越好?如果一直把技能塞进系统,智能体可能检索到错误技能,被无关信息干扰;如果追求“零技能推理”,又可能把一些低频但关键的能力删掉,导致复杂任务中失误增加。也就是说,行业真正需要解决的不是“要不要技能”,而是“技能应该怎样被管理”。 针对这个问题,香港中文大学团队提出了《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》,简称 SLIM。这项研究把外部技能看成一个有生命周期的能力系统,而不是固定不变的提示材料。SLIM 会在训练过程中判断每个技能的真实贡献:有用的技能继续保留,贡献变小的技能逐渐退休,当前能力覆盖不到的失败场景再扩展新技能。 这让智能体的训练方式更接近真实工作中的能力管理。比如在 ALFWorld 这类长流程任务中,一些清洁、加热、冷却、状态检查相关技能仍然需要保留在外部,帮助智能体完成连续动作;而在 SearchQA 这类搜索问答任务中,部分搜索和推理策略可能更容易被模型吸收,最终对外部技能的依赖就会降低。 SLIM 想回答的核心问题,正是大模型智能体走向复杂任务时绕不开的问题:哪些能力应该写进模型,哪些能力应该留在外部,哪些能力又应该在失败中被重新补上。 论文地址:https://arxiv.org/pdf/2605.10923 01 从「堆技能」到「管技能」 研究团队的实验结果显示,SLIM 在整体表现上最好,平均超过最佳对比方法 7.1 个百分点,这说明提升不是偶然来自某一个任务,而是来自训练过程中对技能集合的动态管理。 SLIM 的优势不是固定使用同一批技能,也不是单纯增加技能数量,而是根据每个技能在不同阶段的作用变化,决定哪些技能继续保留,哪些技能删除,哪些技能需要新增。 在 ALFWorld 上,SLIM成功率为 87.5,最强基线方法 SkillRL 为 75.0,提升较明显。ALFWorld 的任务步骤长、动作多、状态变化明显,智能体需要持续观察环境、判断物体状态、选择正确动作,并按顺序完成多个操作,所以这类任务仍然需要一部分外部技能辅助。 SLIM 在这个任务上表现更好,说明经过筛选后留下的外部技能,能够帮助智能体处理复杂流程和状态变化。在 SearchQA 上,SLIM无论是否携带技能都为 41.0,最强非 SLIM 方法 Skill0 为 39.3,虽然也有提升,但不如 ALFWorld 明显。 SearchQA 主要围绕搜索、推理和回答展开,任务重点在于找到信息、组织推理路径并输出答案,所以外部技能更像训练阶段的辅助,最终依赖较弱。带技能和不带技能的结果也能体现这种差异,ALFWorld 中带技能明显更好,说明它更依赖外部过程技能,SearchQA 中带不带技能差距很小,说明模型更容易把技能中的搜索和回答策略吸收到自身能力中。 训练过程中,不同方法的技能变化也很有代表性。SkillRL 的技能持续增加,说明它偏向不断累积技能,但技能多并不一定更好,因为过多技能可能带来检索噪声和上下文干扰。Skill0 的技能持续减少,最后变成零技能,说明它偏向把技能全部内化到模型中,但这种方式可能会丢失低频、长尾或复杂流程能力。雷峰网 SLIM 则先增加技能,再筛选技能,最后保留少量有效技能,并最终保留 21 个技能,说明最优状态不是技能越多越好,也不是技能全部删除最好,而是保留仍然有实际贡献的技能。 消融实验进一步证明了这一点,去掉“退休”机制后性能明显下降,说明只增加技能而不删除无效技能会影响效果;去掉“扩展”机制后性能也下降,说明只筛选已有技能还不够,还需要补足当前技能无法覆盖的失败情况;随机管理技能效果更差,说明技能增删不能随意进行。 固定技能数量也不如 SLIM,说明关键不是简单控制技能数量,而是根据技能贡献决定保留、删除和扩展。案例分析结果也支持这个结论,有些技能使用频率高,但贡献已经很小,可能已经被模型学会或被其他技能替代;有些技能使用频率不高,但在特定任务中非常关键,不能因为低频就删除。 还有些新扩展出来的技能,后期也可能变得冗余,说明新增技能并不代表永久保留。因此,是否保留技能不能只看使用次数,更重要的是看禁用某个技能后,任务表现是否明显变差。 02 SLIM 把技能管理做成一个循环 研究团队的实验目标,是验证 SLIM 是否优于传统技能使用方式。实验主要对比了三种思路,一种是普通 RL,重点放在训练 policy 上,一种是技能累积,也就是不断增加外部技能,还有一种是技能内化,也就是逐渐删除外部技能。雷峰网 围绕这些对比,研究真正想回答的问题是,LLM agent 在训练过程中,外部技能到底要怎样变化。实验使用的基础模型是 Qwen3-4B,任务包括 ALFWorld 和 SearchQA,其中 ALFWorld 是模拟家庭环境任务 ,更偏动作执行,SearchQA 是搜索问答任务,更偏信息检索和推理。 这样设置的目的,是观察 SLIM 在不同类型任务中是否都能发挥作用。实验对比对象也比较全面,包括提示类方法 Zero-Shot、Few-Shot,agent 类方法 ReAct、Reflexion,memory 类方法 Mem0、ExpeL,RL 类方法 GRPO、EvolveR,技能类方法 SkillRL、Skill0,以及研究提出的 SLIM。对比范围较广,所以能够说明 SLIM 不是只比某一类较弱的 baseline 好,而是在多种方法体系中都有竞争力。 SLIM 的基本训练流程可以理解为一个不断循环的过程。首先,系统会根据当前任务检索相关技能,然后让 agent 带着这些技能去执行任务,接着用 GRPO 更新 policy。训练一段时间后,系统会进入技能审计阶段,也就是检查不同技能在当前训练状态下还有没有价值。 审计完成后,再决定技能是继续保留、删除,还是新增。技能检索时,技能被分成两类,一类是通用技能,适合多种任务中的策略,另一类是任务专属技能,针对某类任务中的具体操作方法。每次任务只会从当前 active skill set 里检索相关技能,而不是把所有技能全部塞进 prompt,这样可以减少无关技能带来的干扰。 在判断技能贡献时,SLIM 使用的核心方法是 leave-one-skill-out 验证,即临时禁用某个技能,然后比较禁用前后的验证表现。如果禁用后表现明显下降,说明这个技能仍然有价值。如果禁用后表现几乎不变,说明相关能力可能已经被模型学会。如果禁用后表现变好,说明这个技能可能产生干扰。 通过这种方式,研究团队可以估计技能的边际外部贡献。根据贡献结果,SLIM 会执行三种操作。Retain 指保留技能,适用于技能仍然明显提高任务表现的情况,作用是让有用的外部能力继续参与后续任务,尤其适合步骤复杂、容易出错的任务流程。 Retire 指退休技能,适用于技能贡献长期很低的情况,可能原因包括模型已经学会相关能力,其他技能已经覆盖它,技能信息过时,或者技能会干扰决策,作用是减少无效技能带来的噪声和上下文负担。Expand 指扩展技能,适用于某些任务区域持续失败的情况,这说明当前技能库覆盖不足,所以系统会从失败案例中总结新技能,用来补足原有技能库没有覆盖到的能力。 这个扩展过程不是盲目增加技能,而是根据失败模式进行补充。最终推理时,训练已经完成,系统会使用最终保留下来的技能集合,只检索相关技能,不再继续执行保留、退休和扩展。实验中对比了 SLIM 携带技能和没有携带技能两种情况,两者对比可以观察模型最终是否仍然依赖外部技能。 03 技能管理走向动态化 研究的意义首先在于重新思考“技能持续累积”这种做法。SkillRL 一直增加技能,表面上看外部知识变多了,但实际使用时可能带来新的问题。技能过多会让检索更容易选错,prompt 中也会出现更多无关信息,agent 甚至可能被错误技能误导,所以技能库并不是越大越好。 其次,研究也反思了“零技能推理”这种做法。Skill0 试图把技能全部内化进模型,一部分技能确实可以被模型学会,但并不是所有技能都适合且能够放进模型参数里。低频技能、长尾技能和复杂流程技能,可能仍然需要保留在外部,如果强制删除全部技能,就容易损失一些局部但关键的能力。 SLIM 的核心价值就在于,它不假设技能必须一直增加,也不假设技能最终必须全部消失,而是让技能根据贡献动态变化,有用的继续保留,无用的逐渐删除,缺失的重新扩展,这更接近真实 agent 训练中的能力管理过程。 从模型参数和外部技能的分工来看,常见能力适合被模型参数吸收,重复出现的简单流程适合逐渐内化,低频但重要的流程适合外部保留,当前技能库没有覆盖的能力则适合新增技能。因此,SLIM 实际上是在学习“哪些能力放进模型,哪些能力留在外部”。 这也给 agentic RL 带来启发,传统 RL 主要优化 policy,而 SLIM 同时优化 policy 和外部技能集合,使 agent 不只是学会做任务,还学会什么时候需要外部帮助,因此更适合复杂任务、长流程任务和工具使用任务。 不同任务也需要不同的技能管理方式,ALFWorld 更需要保留外部技能,因为任务涉及连续动作、环境状态和顺序约束,SearchQA 更容易把技能转化为模型策略,因为任务更偏搜索与回答模式,所以不能统一采用“全保留”或“全删除”。 总体来看,SLIM 提供了一种更灵活的技能生命周期管理方法,在训练过程中动态调整外部技能,最终形成一个精简但有效的技能集合,既避免技能过多造成干扰,也避免技能过少导致能力缺失。研究的核心贡献,是把外部技能集合从固定辅助工具,变成可以和 policy 一起优化的训练对象。

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.