ROMI:离线强化学习新突破,探索对抗式模型学习范式全新实现路径,破解保守性难控与训练不稳的深层困局。 作者丨乔钟健 离线强化学习(offline RL)的目标,是在不与环境继续交互的前提下,仅依赖已有数据集学习策略。相比无模型(model-free)方法,基于模型的离线强化学习(model-based offline RL)会额外训练一个环境动力学模型,让策略在该模型上生成轨迹,借此扩展离线训练数据、提升算法的样本效率与泛化能力。 然而,基于模型的离线强化学习并非完全理想,主要原因在于:模型预测的环境动态不可能完全准确,一旦策略在生成轨迹过程中探索到模型预测偏差较大但价值较高的区域,就可能利用这些误差,朝着“在模型里看起来价值高、在真实环境里却表现差”的方向优化。这就是经典的模型利用(model exploitation)问题。 为了解决这一问题,以往研究通常会引入某种形式的保守性(conservatism)。其中,一条主流路线是利用不确定性估计来给模型增加惩罚项;另一经典范式则是对抗式模型学习(adversarial model learning),即把环境模型看作一个“最坏情况”的对手,在一定不确定性集合内寻找对策略最不利的动力学模型,从而抑制策略对模型误差的投机利用 [1]。 尽管该范式在理论分析层面已积累较为丰富的结果,但如何设计实际训练算法实现该范式仍面临挑战,有待进一步探索。其中 RAMBO [2] 是该研究方向中最具代表性的经典工作之一。 本论文旨在探索对抗式模型学习范式的全新实现路径,进一步弥合理论与实际实现性能之间的鸿沟,设计更有效的实际算法,并在标准数据集上验证其实用性能。 通过深入分析,本文作者发现,RAMBO 在实践中往往面临两个难以回避的问题:保守程度很难控制,以及训练过程容易不稳定,这源于 RAMBO 使用了容易导致过度保守和梯度爆炸的模型梯度(model gradient)方法来更新环境模型。 针对这一瓶颈,本文的研究者提出了(RObust Value-aware Model learning with Implicitly differentiable adaptive weighting)方法。 该方法不再直接沿用RAMBO的模型更新方式,而是提出一种鲁棒价值感知的模型学习框架,并进一步引入隐式可微的自适应加权双层优化机制,同时兼顾价值保守性与分布外泛化能力。 在 D4RL 与 NeoRL 多个基准任务上,ROMI 显著超越同属对抗式模型学习路线的 RAMBO,更在多数任务上达到甚至超越无模型与基于模型带惩罚项的离线强化学习 SOTA 方法的性能。 本文作者来自香港城市大学、腾讯、芝加哥大学、香港科技大学(广州)等机构。作者包括乔钟健、吕加飞、吕博翔、舒瑶、高思阳、邱爽。其中,第一作者为香港城市大学乔钟健,通讯作者为香港城市大学助理教授邱爽。该论文已被国际机器学习顶会ICLR 2026接收。 论文题目:Model-based Offline RL via Robust Value-aware Model Learning with Implicitly Differentiable Adaptive Weighting 文章链接:https://openreview.net/pdf?id=yxx6XiXwx2 01 研究背景:对抗式模型学习和RAMBO算法 为缓解模型利用问题,一类主流方法依赖不确定性估计,对模型施加额外惩罚;相比之下,对抗式模型学习提供了另一条路径:不再显式估计不确定性,而是将离线强化学习表述为一个策略与动力学模型之间的博弈问题。该范式目标是求解一个最大化最小值(max-min)问题 [1]: 其中, 是动态不确定性集合, 是分布距离度量, 为通过最大似然估计学习到的数据集动态。 RAMBO 算法则是对抗式模型学习的一种经典实现方式,将原问题转化为优化求解以下问题 [2]: 其中,第一项是对抗损失,以最小化模型在分布外(OOD)区域的价值,通过模型梯度进行优化;第二项是标准的最大似然损失。 是拉格朗日乘子,在实际中对于每个任务设置为常数。 02 核心痛点:RAMBO 为什么不够理想 本文指出,RAMBO 虽然提供了一个可落地的对抗式模型学习实现,但它依赖一个对抗权重系数 去平衡最大似然学习与对抗训练。问题在于, 在原始算法中往往被设得极小,例如 ,这意味着对抗项的作用其实被压得很弱。基于此观察,论文首先探索了不同 值对训练的影响。论文发现,当 很小时,如 , 对训练的影响区别并不大。然而,一旦把 略微调大一些,如 0.05 或 0.1,训练可能会导致 Q 值严重低估,甚至出现梯度爆炸,从而导致训练崩溃。这背后反映的是两个更本质的问题: 保守性难以精细控制。RAMBO 中的 本质上应视为对偶变量,并需要通过梯度算法来进行更新优化。但在实际训练中,往往在同一个任务中将 设定为一个常数,因此很难稳定地决定“到底该有多保守”。 模型梯度更新本身容易过于激进。RAMBO 借助模型梯度(model gradient)去主动寻找“值函数更低”的区域,这种机制在实际实现中往往会把模型推向一些数值上极不稳定的方向,进而带来 Q 值低估与梯度爆炸。 03 解决方案:ROMI 算法 针对以上两个核心痛点,本文的研究者提出 ROMI 算法作为解决方案,ROMI 的核心包括鲁棒价值感知的模型学习框架,以及隐式可微的自适应加权双层优化机制。 鲁棒价值感知的模型学习 为了解决 RAMBO 中“保守性难以控制”以及“模型梯度更新不稳定”的问题,ROMI 不再直接用模型梯度去压低分布外区域的价值,而是回归对抗式模型学习的离线强化学习范式中原始的最大化最小值目标,从单步价值误差(one-step value estimation error)的角度构造一个更稳定、也更可控的模型学习目标。具体来说,ROMI将原问题改写为: 即,将原始的最大化最小值问题转换成“使模型对应的价值与不确定性集合下的最坏情况价值保持对齐”的优化目标。为了实现这个目标,需要最小化价值感知的模型误差(value-aware model error): 根据价值函数的定义进行单步展开,进一步得到: 然而,直接最小化 会带来一个关键问题:由于动作是从当前策略采样的,而 只在离线数据集 中有定义,因此,一旦产生了分布外动作,最小化 会驱使模型在分布外区域内追求任意低的价值,这也是 RAMBO 会过度保守的本质原因。为了解决这个问题,ROMI将目标改为只在分布内区域显式学习保守性:将动作分布从策略 换成行为策略 ,并把价值函数替换成训练过程中的价值 ,得到新的优化目标: 即,在分布内区域学习一个“温和保守"的模型,而分布外区域的保守性则通过模型的泛化性实现。优化 的主要困难在于计算 ,因为 是一个无法直接得到的动力学集合。为了解决这个问题,论文选择Wasserstein距离作为分布距离度量,并定义Wasserstein动力学不确定集: 其中 代表两个分布之间的Wasserstein距离。在Wasserstein距离度量下,论文给出了一个关键的对偶形式转换: 其中 为状态不确定集。在这样的转换下,ROMI 不再依赖无法得到的动力学不确定集,而只需要在显式的状态空间中进行最小值函数的搜索即可。将以上对偶形式代入 的表达式,得到: 训练目标转化为:让当前模型预测的下一个状态的价值,贴近局部邻域中的最小价值。进一步,由于离线数据中已经有 的样本,而 正是由这些样本通过最大似然拟合得到的,因此在可以使用数据集中的 作为邻域中心,并在其附近加噪构造 ,并将 参数化为 ,得到最终的鲁棒价值感知的模型损失(robust value-aware model loss,RVL): 其中, 是从 中随机采样得到的 个扰动状态。这套构造有两个最大优点: 保守程度的可控性。保守性由 直接控制,而非由拉格朗日系数隐式控制。 越大,状态不确定集越大,局部最小值越低,保守性增强;反之, 越小,保守性减弱。 模型更新的稳定性。RAMBO 的风险在于它用模型梯度直接把预测推向价值陡降区域,很容易导致梯度爆炸;而 ROMI 只是在一个邻域里做最小值逼近,因此训练稳定性显著增强。 隐式可微的自适应加权双层优化 由于 仅仅约束了模型预测状态的价值,并没有考虑模型预测动态的误差,可能会导致策略在多步轨迹生成时被迫探索分布外区域,增加分布外泛化的误差。因此,还需要一个能够平衡价值约束和动态约束的机制。ROMI 使用双层优化来实现这一目标。具体来说,ROMI 引入了一个动态加权网络 对每一个状态转移对 分配独立的权重,并优化以下目标函数: 其中, 为加权监督学习损失。ROMI 在内层通过加权监督学习来更新环境动态模型,以实现动态约束;同时在外层利用隐式微分通过最小化 来优化 ,以实现价值约束。 内层优化:固定 ,使用梯度下降最小化 来优化环境动态模型 : 其中, 是环境动态模型在第 步的学习率。 外层优化:通过链式法计算动态加权网络 的梯度: 其中, 接着,使用Pytorch框架的自动微分来更新 其中, 是动态加权网络在第 步的学习率。 最终的 ROMI 算法通过鲁棒价值感知的模型学习以及隐式可微的自适应加权双层优化框架更新环境动态模型 ,同时使用 SAC 算法更新策略 完成训练流程。 04 实验验证 基准性能测试 论文在标准的 D4RL 以及 NeoRL 基准的多个数据集上验证了 ROMI 的有效性,并与多个代表性离线强化学习方法进行了充分对比:包括与 ROMI 同属基于模型的对抗式模型学习路线的 RAMBO,无模型离线强化学习算法 CQL 与 IQL,以及基于模型且带惩罚项的离线强化学习方法 MOPO、Count-MORL 和 MOBILE。 D4RL. 在 D4RL 基准上,论文选择了三种机器人控制任务(halfcheetah,hopper,walker2d),每种任务包含四种数据集(random,medium,medium-replay,medium-expert)。下表展示了在各个数据集下,ROMI 和基线算法的标准化得分(Normalized Score)对比结果。可以看出,ROMI 在绝大部分数据集上都取得了相比基线算法更优秀的性能。具体来说,ROMI 的总得分达到了953.5,相比于 RAMBO 算法提升了18.6%。即使相比于 MOBILE 和 Count-MORL 算法,ROMI 也在12个数据集中的11个达到了最优的性能。 NeoRL.在 NeoRL 基准上,论文选择了三种机器人控制任务(halfcheetah,hopper,walker2d),每种任务包含三种数据质量的数据集(low,medium,high)。论文同样展示了在每个数据集上 ROMI 和基线算法的标准化得分对比结果。可以看出,ROMI在9个数据集中的6个达到了最优的性能,并取得了最高的总得分。 消融实验 论文通过消融实验探究了动态约束对 ROMI 算法性能以及模型预测误差的影响。下图对比了在加入动态约束和去掉动态约束下,算法性能以及模型预测误差对比。可以看出,在加入动态约束之后,算法的性能得到提升,而模型预测误差大大降低,这验证了动态约束的重要性。 参数敏感性实验 论文探究了ROMI对于不确定集尺度 的敏感性。下图对比了在不同 值下的ROMI的Q值估计、标准化得分、内层梯度范数、外层梯度范数。可以看出:(1)对于所有选择的 ,均未发生严重 Q 值低估以及梯度爆炸;(2)对于不同的 ,Q 值估计清晰可分, 越大,Q值越低。这说明 ROMI 能够提供可控的保守性并保证训练的稳定性。 05 总结 本论文聚焦于基于模型的离线强化学习,首先探究了 RAMBO 算法的局限性:倾向于过度保守以及训练不稳定。针对这个局限,论文提出 ROMI 算法,通过鲁棒价值感知的模型学习,以及隐式可微的自适应加权双层优化,实现了可控的保守性,以及增强了训练的稳定性。在多个基准和数据集下的实验结果表明,ROMI 都展示了比基线算法更高的性能,充分验证了其有效性。 [1] Masatoshi Uehara and Wen Sun. Pessimistic model-based offline reinforcement learning under partial coverage. ICLR 2022 [2] Marc Rigter, Bruno Lacerda, and Nick Hawes. RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning. NeurIPS 2022 上车,带你看遍全球 AI 顶会精华 可独家畅览: 专家演讲PPT 大会报告全文 热门论文解读 学术新星访谈 扫描上方二维码 或点击「阅读原文」关注专区。 雷峰网

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.