稀宇科技 MiniMax 宣布已开源了 MiniMax M3 的模型权重,并同步发布了 MSA(MiniMax Sparse Attention)技术论文。MSA 的架构设计让 M3 在长上下文下的计算成本大幅降低,论文中完整披露了架构与工程实现细节。 公告称,M3 是 MiniMax 的原生多模态旗舰模型,总参数 428B,激活参数 23B;也是第一个从 Step 0 开始做多模...
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.
