Technology

港中文团队提出 Skill 生命周期管理 SLIM，让大模型智能体不再盲目堆积 Skill ！

SLIM：让模型判断外部能力的去留，在复杂任务中保留真正有用的支撑。作者丨郑佳美编辑丨马晓宁大模型智能体正在从“会聊天”走向“会做事”。在网页搜索、工具调用、自动办公、软件操作、具身机器人等场景中，智能体面对的不再是单轮问答，而是连续决策：它要理解任务目标，选择合适工具，执行多个步骤，并根据环境反馈不断调整行动。例如，一个家庭服务机器人要完成“把冷却后的物品放到指定位置”，不能只知道“冷却”是什么意思，还要先找到正确物体，判断物体状态，完成冷却操作，再确认是否放置成功；一个搜索问答智能体也不能只生成答案，而要先判断问题类型，检索证据，筛掉无关信息，再组织最终回答。在这种行业背景下，外部技能逐渐成为 LLM agent 的重要能力来源。它们像是可复用的操作经验，能够帮助智能体处理复杂流程、长尾任务和容易出错的步骤。但问题也随之出现：技能是不是越多越好？如果一直把技能塞进系统，智能体可能检索到错误技能，被无关信息干扰；如果追求“零技能推理”，又可能把一些低频但关键的能力删掉，导致复杂任务中失误增加。也就是说，行业真正需要解决的不是“要不要技能”，而是“技能应该怎样被管理”。针对这个问题，香港中文大学团队提出了《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》，简称 SLIM。这项研究把外部技能看成一个有生命周期的能力系统，而不是固定不变的提示材料。SLIM 会在训练过程中判断每个技能的真实贡献：有用的技能继续保留，贡献变小的技能逐渐退休，当前能力覆盖不到的失败场景再扩展新技能。这让智能体的训练方式更接近真实工作中的能力管理。比如在 ALFWorld 这类长流程任务中，一些清洁、加热、冷却、状态检查相关技能仍然需要保留在外部，帮助智能体完成连续动作；而在 SearchQA 这类搜索问答任务中，部分搜索和推理策略可能更容易被模型吸收，最终对外部技能的依赖就会降低。 SLIM 想回答的核心问题，正是大模型智能体走向复杂任务时绕不开的问题：哪些能力应该写进模型，哪些能力应该留在外部，哪些能力又应该在失败中被重新补上。论文地址：https://arxiv.org/pdf/2605.10923 01 从「堆技能」到「管技能」研究团队的实验结果显示，SLIM 在整体表现上最好，平均超过最佳对比方法 7.1 个百分点，这说明提升不是偶然来自某一个任务，而是来自训练过程中对技能集合的动态管理。 SLIM 的优势不是固定使用同一批技能，也不是单纯增加技能数量，而是根据每个技能在不同阶段的作用变化，决定哪些技能继续保留，哪些技能删除，哪些技能需要新增。在 ALFWorld 上，SLIM成功率为 87.5，最强基线方法 SkillRL 为 75.0，提升较明显。ALFWorld 的任务步骤长、动作多、状态变化明显，智能体需要持续观察环境、判断物体状态、选择正确动作，并按顺序完成多个操作，所以这类任务仍然需要一部分外部技能辅助。 SLIM 在这个任务上表现更好，说明经过筛选后留下的外部技能，能够帮助智能体处理复杂流程和状态变化。在 SearchQA 上，SLIM无论是否携带技能都为 41.0，最强非 SLIM 方法 Skill0 为 39.3，虽然也有提升，但不如 ALFWorld 明显。 SearchQA 主要围绕搜索、推理和回答展开，任务重点在于找到信息、组织推理路径并输出答案，所以外部技能更像训练阶段的辅助，最终依赖较弱。带技能和不带技能的结果也能体现这种差异，ALFWorld 中带技能明显更好，说明它更依赖外部过程技能，SearchQA 中带不带技能差距很小，说明模型更容易把技能中的搜索和回答策略吸收到自身能力中。训练过程中，不同方法的技能变化也很有代表性。SkillRL 的技能持续增加，说明它偏向不断累积技能，但技能多并不一定更好，因为过多技能可能带来检索噪声和上下文干扰。Skill0 的技能持续减少，最后变成零技能，说明它偏向把技能全部内化到模型中，但这种方式可能会丢失低频、长尾或复杂流程能力。雷峰网 SLIM 则先增加技能，再筛选技能，最后保留少量有效技能，并最终保留 21 个技能，说明最优状态不是技能越多越好，也不是技能全部删除最好，而是保留仍然有实际贡献的技能。消融实验进一步证明了这一点，去掉“退休”机制后性能明显下降，说明只增加技能而不删除无效技能会影响效果；去掉“扩展”机制后性能也下降，说明只筛选已有技能还不够，还需要补足当前技能无法覆盖的失败情况；随机管理技能效果更差，说明技能增删不能随意进行。固定技能数量也不如 SLIM，说明关键不是简单控制技能数量，而是根据技能贡献决定保留、删除和扩展。案例分析结果也支持这个结论，有些技能使用频率高，但贡献已经很小，可能已经被模型学会或被其他技能替代；有些技能使用频率不高，但在特定任务中非常关键，不能因为低频就删除。还有些新扩展出来的技能，后期也可能变得冗余，说明新增技能并不代表永久保留。因此，是否保留技能不能只看使用次数，更重要的是看禁用某个技能后，任务表现是否明显变差。 02 SLIM 把技能管理做成一个循环研究团队的实验目标，是验证 SLIM 是否优于传统技能使用方式。实验主要对比了三种思路，一种是普通 RL，重点放在训练 policy 上，一种是技能累积，也就是不断增加外部技能，还有一种是技能内化，也就是逐渐删除外部技能。雷峰网围绕这些对比，研究真正想回答的问题是，LLM agent 在训练过程中，外部技能到底要怎样变化。实验使用的基础模型是 Qwen3-4B，任务包括 ALFWorld 和 SearchQA，其中 ALFWorld 是模拟家庭环境任务，更偏动作执行，SearchQA 是搜索问答任务，更偏信息检索和推理。这样设置的目的，是观察 SLIM 在不同类型任务中是否都能发挥作用。实验对比对象也比较全面，包括提示类方法 Zero-Shot、Few-Shot，agent 类方法 ReAct、Reflexion，memory 类方法 Mem0、ExpeL，RL 类方法 GRPO、EvolveR，技能类方法 SkillRL、Skill0，以及研究提出的 SLIM。对比范围较广，所以能够说明 SLIM 不是只比某一类较弱的 baseline 好，而是在多种方法体系中都有竞争力。 SLIM 的基本训练流程可以理解为一个不断循环的过程。首先，系统会根据当前任务检索相关技能，然后让 agent 带着这些技能去执行任务，接着用 GRPO 更新 policy。训练一段时间后，系统会进入技能审计阶段，也就是检查不同技能在当前训练状态下还有没有价值。审计完成后，再决定技能是继续保留、删除，还是新增。技能检索时，技能被分成两类，一类是通用技能，适合多种任务中的策略，另一类是任务专属技能，针对某类任务中的具体操作方法。每次任务只会从当前 active skill set 里检索相关技能，而不是把所有技能全部塞进 prompt，这样可以减少无关技能带来的干扰。在判断技能贡献时，SLIM 使用的核心方法是 leave-one-skill-out 验证，即临时禁用某个技能，然后比较禁用前后的验证表现。如果禁用后表现明显下降，说明这个技能仍然有价值。如果禁用后表现几乎不变，说明相关能力可能已经被模型学会。如果禁用后表现变好，说明这个技能可能产生干扰。通过这种方式，研究团队可以估计技能的边际外部贡献。根据贡献结果，SLIM 会执行三种操作。Retain 指保留技能，适用于技能仍然明显提高任务表现的情况，作用是让有用的外部能力继续参与后续任务，尤其适合步骤复杂、容易出错的任务流程。 Retire 指退休技能，适用于技能贡献长期很低的情况，可能原因包括模型已经学会相关能力，其他技能已经覆盖它，技能信息过时，或者技能会干扰决策，作用是减少无效技能带来的噪声和上下文负担。Expand 指扩展技能，适用于某些任务区域持续失败的情况，这说明当前技能库覆盖不足，所以系统会从失败案例中总结新技能，用来补足原有技能库没有覆盖到的能力。这个扩展过程不是盲目增加技能，而是根据失败模式进行补充。最终推理时，训练已经完成，系统会使用最终保留下来的技能集合，只检索相关技能，不再继续执行保留、退休和扩展。实验中对比了 SLIM 携带技能和没有携带技能两种情况，两者对比可以观察模型最终是否仍然依赖外部技能。 03 技能管理走向动态化研究的意义首先在于重新思考“技能持续累积”这种做法。SkillRL 一直增加技能，表面上看外部知识变多了，但实际使用时可能带来新的问题。技能过多会让检索更容易选错，prompt 中也会出现更多无关信息，agent 甚至可能被错误技能误导，所以技能库并不是越大越好。其次，研究也反思了“零技能推理”这种做法。Skill0 试图把技能全部内化进模型，一部分技能确实可以被模型学会，但并不是所有技能都适合且能够放进模型参数里。低频技能、长尾技能和复杂流程技能，可能仍然需要保留在外部，如果强制删除全部技能，就容易损失一些局部但关键的能力。 SLIM 的核心价值就在于，它不假设技能必须一直增加，也不假设技能最终必须全部消失，而是让技能根据贡献动态变化，有用的继续保留，无用的逐渐删除，缺失的重新扩展，这更接近真实 agent 训练中的能力管理过程。从模型参数和外部技能的分工来看，常见能力适合被模型参数吸收，重复出现的简单流程适合逐渐内化，低频但重要的流程适合外部保留，当前技能库没有覆盖的能力则适合新增技能。因此，SLIM 实际上是在学习“哪些能力放进模型，哪些能力留在外部”。这也给 agentic RL 带来启发，传统 RL 主要优化 policy，而 SLIM 同时优化 policy 和外部技能集合，使 agent 不只是学会做任务，还学会什么时候需要外部帮助，因此更适合复杂任务、长流程任务和工具使用任务。不同任务也需要不同的技能管理方式，ALFWorld 更需要保留外部技能，因为任务涉及连续动作、环境状态和顺序约束，SearchQA 更容易把技能转化为模型策略，因为任务更偏搜索与回答模式，所以不能统一采用“全保留”或“全删除”。总体来看，SLIM 提供了一种更灵活的技能生命周期管理方法，在训练过程中动态调整外部技能，最终形成一个精简但有效的技能集合，既避免技能过多造成干扰，也避免技能过少导致能力缺失。研究的核心贡献，是把外部技能集合从固定辅助工具，变成可以和 policy 一起优化的训练对象。

雷峰雷峰网Updated 7h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.