腾讯混元团队近日联合中国人民大学高瓴人工智能学院等机构推出并开源 PlanningBench:一个面向大语言模型规划能力评测与训练的可扩展、可验证数据生成框架。 根据介绍,PlanningBench从真实规划场景出发,系统抽象任务、约束与难度因素,构建覆盖30+规划任务类型的数据生成与验证体系,既能评测模型是否真的“会规划”,...
正在拉取原文正文,下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。
腾讯混元团队近日联合中国人民大学高瓴人工智能学院等机构推出并开源 PlanningBench:一个面向大语言模型规划能力评测与训练的可扩展、可验证数据生成框架。 根据介绍,PlanningBench从真实规划场景出发,系统抽象任务、约束与难度因素,构建覆盖30+规划任务类型的数据生成与验证体系,既能评测模型是否真的“会规划”,...
腾讯混元团队近日联合中国人民大学高瓴人工智能学院等机构推出并开源 PlanningBench:一个面向大语言模型规划能力评测与训练的可扩展、可验证数据生成框架。 根据介绍,PlanningBench从真实规划场景出发,系统抽象任务、约束与难度因素,构建覆盖30+规划任务类型的数据生成与验证体系,既能评测模型是否真的“会规划”,...
正在拉取原文正文,下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。