IT之家 5 月 9 日消息,在人工智能领域,一个大模型能够准确“复述”特定名词,看似是一项基础能力,却也可能因训练机制的细微偏差而“失灵”。 稀宇科技(MiniMax)今日发布官方技术报告,就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答,并宣布已通过全词表合成数据覆盖完成性能修复。 据介绍,该问题的核心在于大模型处理文字的“分词器”(Tokenizer)机制。与传统逐字处理不同,大模型在读写文本时会先将文字切分为若干“词元”(Token)。 在 MiniMax 模型的词表中,“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中,作为一个人名整体,“嘉祺”被合并为一个独立的词元。 IT之家注:大模型训练通常分为两个阶段:预训练阶段接触海量互联网文本,让模型掌握广泛词汇;而后训练(即指令微调)阶段则使用精选对话数据来教会模型如何与人交流。 MiniMax 团队排查发现,在其后训练所使用的对话数据中,含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏,导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。 与此同时,大量高频词元(如工具调用标记、编程符号等)在训练中不断更新其向量参数,持续“挤压”“嘉祺”这类低频词元的向量空间,最终将其推离了原本正确的生成概率区域。当模型需要输出这一名字时,只得退而求其次,选择了发音相近的高频词元,例如“佳琪”或“琪琪”。 ▲ 统计分布检查:对比全词表的 embed_tokens norm 分布,token 190467(“嘉祺”)的向量范数落在正常分布范围内,未出现未训练 token 常见的异常小值的现象,表明该 token 在预训练阶段已被充分学习 ▲ “嘉祺”对应的权重向量在后训练过程中发生了显著偏移,余弦相似度大幅下降且 Norm 变化很大 值得关注的是,这并非孤立个案。为了系统性地评估这一现象的普遍性,MiniMax 团队对模型全部约 20 万个词元进行了参数扫描。 结果发现,约有 4.9% 的词元在模型后训练后发生了显著退化。这些退化的词元大致可分为四类:预训练阶段使用的特殊标记(如代码填充符号)、LaTeX 公式与维基百科源码标记、中文 SEO 垃圾关键词(如“传奇私服”、“无痛人流”等),以及占比最大的日文口语和博客模板表达。 这一发现直接解释了该模型另一个长期存在的疑难问题:在日语对话中偶尔会混入俄语或韩语字符。统计数据显示,日语词元的退化比例高达 29.7%,远超中文(3.9%)和英文(3.5%)等其他语种。这说明,数据稀疏的后果是全局性的 —— 当后训练数据对不同语种的覆盖率不均衡时,模型在生成响应时就可能误入歧途。 ▲ 小语种混淆率实验评测(核心指标,100 次采样,temperature=1.0):分别使用韩语和日语 prompt,统计输出中非目标语言字符的出现率。 在确认根因后,修复思路随之变得清晰:确保每个词元在后训练阶段都能获得最低限度的训练。为此,MiniMax 构造了一份覆盖全词表的合成数据,通过让模型完成“复读”任务,为所有词元建立起生成频率的下限保障。 官方基准数据显示,修复后模型的全词表输出参数稳定度(余弦相似度)最低值已大幅提升至 0.97 以上;同时,日语回答中混入俄文字符的比例由修复前的 47% 降至 1%。 除此之外,MiniMax 团队目前仍在同步探索更多优化方向,包括在指令微调数据中混入预训练语料、针对未覆盖词元定向合成对话样本、以及从源头裁撤词表中业务场景永不启用的特殊标记等。 MiniMax 反思道,这一问题的深层原因在于分词器设计与下游使用场景之间的脱节。毕竟,大模型的分词器通常基于大规模的网络语料训练而成,其中不可避免地包含大量仅出现在特定领域或小众语言中的词元。这些词元在预训练阶段尚能获得充分训练,一旦进入后训练阶段,就会因数据分布差异而失去其生成能力。这起看似简单的个案,最终暴露出一个影响深远的结构性问题:在后训练阶段,团队不仅要保证语义层面的多样性,更需要从底层的统计视角保障词元层面的数据覆盖。
This page shows a summary and AI analysis only. For the full original article, use the “Read Original” button above.
