MiniMax 不认马嘉祺？稀宇科技公布大模型“失语”原因：特定词元后训练不足导致

IT之家 5 月 9 日消息，在人工智能领域，一个大模型能够准确“复述”特定名词，看似是一项基础能力，却也可能因训练机制的细微偏差而“失灵”。稀宇科技（MiniMax）今日发布官方技术报告，就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答，并宣布已通过全词表合成数据覆盖完成性能修复。据介绍，该问题的核心在于大模型处理文字的“分词器”（Tokenizer）机制。与传统逐字处理不同，大模型在读写文本时会先将文字切分为若干“词元”（Token）。在 MiniMax 模型的词表中，“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中，作为一个人名整体，“嘉祺”被合并为一个独立的词元。 IT之家注：大模型训练通常分为两个阶段：预训练阶段接触海量互联网文本，让模型掌握广泛词汇；而后训练（即指令微调）阶段则使用精选对话数据来教会模型如何与人交流。 MiniMax 团队排查发现，在其后训练所使用的对话数据中，含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏，导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。与此同时，大量高频词元（如工具调用标记、编程符号等）在训练中不断更新其向量参数，持续“挤压”“嘉祺”这类低频词元的向量空间，最终将其推离了原本正确的生成概率区域。当模型需要输出这一名字时，只得退而求其次，选择了发音相近的高频词元，例如“佳琪”或“琪琪”。 ▲ 统计分布检查：对比全词表的 embed_tokens norm 分布，token 190467（“嘉祺”）的向量范数落在正常分布范围内，未出现未训练 token 常见的异常小值的现象，表明该 token 在预训练阶段已被充分学习 ▲ “嘉祺”对应的权重向量在后训练过程中发生了显著偏移，余弦相似度大幅下降且 Norm 变化很大值得关注的是，这并非孤立个案。为了系统性地评估这一现象的普遍性，MiniMax 团队对模型全部约 20 万个词元进行了参数扫描。结果发现，约有 4.9% 的词元在模型后训练后发生了显著退化。这些退化的词元大致可分为四类：预训练阶段使用的特殊标记（如代码填充符号）、LaTeX 公式与维基百科源码标记、中文 SEO 垃圾关键词（如“传奇私服”、“无痛人流”等），以及占比最大的日文口语和博客模板表达。这一发现直接解释了该模型另一个长期存在的疑难问题：在日语对话中偶尔会混入俄语或韩语字符。统计数据显示，日语词元的退化比例高达 29.7%，远超中文（3.9%）和英文（3.5%）等其他语种。这说明，数据稀疏的后果是全局性的 —— 当后训练数据对不同语种的覆盖率不均衡时，模型在生成响应时就可能误入歧途。 ▲ 小语种混淆率实验评测（核心指标，100 次采样，temperature=1.0）：分别使用韩语和日语 prompt，统计输出中非目标语言字符的出现率。在确认根因后，修复思路随之变得清晰：确保每个词元在后训练阶段都能获得最低限度的训练。为此，MiniMax 构造了一份覆盖全词表的合成数据，通过让模型完成“复读”任务，为所有词元建立起生成频率的下限保障。官方基准数据显示，修复后模型的全词表输出参数稳定度（余弦相似度）最低值已大幅提升至 0.97 以上；同时，日语回答中混入俄文字符的比例由修复前的 47% 降至 1%。除此之外，MiniMax 团队目前仍在同步探索更多优化方向，包括在指令微调数据中混入预训练语料、针对未覆盖词元定向合成对话样本、以及从源头裁撤词表中业务场景永不启用的特殊标记等。 MiniMax 反思道，这一问题的深层原因在于分词器设计与下游使用场景之间的脱节。毕竟，大模型的分词器通常基于大规模的网络语料训练而成，其中不可避免地包含大量仅出现在特定领域或小众语言中的词元。这些词元在预训练阶段尚能获得充分训练，一旦进入后训练阶段，就会因数据分布差异而失去其生成能力。这起看似简单的个案，最终暴露出一个影响深远的结构性问题：在后训练阶段，团队不仅要保证语义层面的多样性，更需要从底层的统计视角保障词元层面的数据覆盖。

This page shows a summary and AI analysis only. For the full original article, use the “Read Original” button above.