Technology

何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026

2025 年到 2026 年，如果要问生成式 AI 领域最值得关注的研究方向，流匹配（Flow Matching）是一个无法绕开的答案。从去年起，这个名字开始频繁出现在顶会论文里、被工业界反复讨论、被拿来和统治了图像生成领域长达五年的扩散模型正面比较。所谓流匹配，本质上是用常微分方程路径（ODE path）替代扩散模型的随机微分方程路径，让数据从噪声到图像的转变不再依赖数百步迭代，从而在理论上实现更高效的生成。但从理论可行到工程落地，中间隔着无数技术细节——训练目标怎么设计、架构怎么选、速度和质量如何兼顾，每一步都是坑。何恺明团队正是在这个节点上，密集地交出了一份多角度的答卷。 AI科技评论总结了何恺明团队近期在CVPR大会上发表上的论文： 2025 年 5 月，他们提出了均值流（MeanFlow），首次将"均值速度场"引入生成建模；同年年底，BiFlow 在归一化流框架上实现了 700 倍加速，将 FID 推到 2.39；几乎同一时间，Improved MeanFlow（iMF）则以三个系统性修复将单步 FID 降至 1.72，首次在无蒸馏条件下超越所有蒸馏方法。生成模型之外，团队在视觉推理（VARC，CVPR 2026）和自监督学习（Pixo，CVPR 2026）上也同时出击，共同勾勒出一个清晰的战略意图：扩散模型并不是图像生成的终点，流匹配这条路，值得全力押注。这五篇论文之间没有直接的方法传承，方向各有侧重，但贯穿其中的核心问题始终如一：在每一个被默认的技术选择背后，到底藏着多少被低估的优化空间？让"去噪"模型真正做一次去噪理解 JiT 的工作，需要从扩散模型一个被忽视已久的痛点说起。当前的扩散模型在训练时，网络学习预测的目标是噪声 ε 或速度 v，而非干净图像 x。这个细节在大多数论文里被一笔带过，但它有一个容易被忽视的含义：噪声和速度并不在自然图像的流形上。用大白话说，网络在试图预测一个"不属于这个世界"的东西——它不在图像分布内，是离群的量。这种预测天然地不稳定，网络需要额外的表达能力来处理那些本不应该出现在预测目标里的高维噪声。也就是说，预测噪声和预测干净图区别很大。流形示意图 JiT 的核心洞察正是从这里切入的。既然 x（干净图像）在图像流形上，那就让网络直接预测 x。直觉上这是一个退步——流形外的东西更难预测，流形内的东西反而应该更容易。但团队指出，这个逻辑在扩散模型里是反的：噪声 ε 分布在高维空间，目标分布极广，网络需要一个很强的先验来"猜测"噪声的真实值；而 x 就在流形上，是网络见过的、理解的、可以自然逼近的东西。为了让这个朴素的想法在工程上成立，JiT 采用了标准 Vision Transformer，但做了一个看似大胆的调整：patch 尺寸可以非常大——16×16、32×32 甚至 64×64，而不像标准扩散模型那样在高分辨率下被迫使用极小的 patch。原因在于：x 在流形上，网络不需要处理流形外的高维噪声干扰，因此 patch 大小的增加不会导致信息缺失，也没有带来灾难性的效果退化。这是一种返璞归真，直接预测目标图像，对传统认知发起了一次直接挑战. JiT模型生成的图像样本 JiT 还完全去掉了 VAE Tokenizer，不需要预训练的潜空间，不需要 GAN 损失或感知损失，就是最朴素的 Transformer 在像素上做去噪。模型规模 86M 参数，从 256 到 1024 分辨率，计算量几乎不变——只需要调整 patch 大小。这意味着一个原生模型可以在任意分辨率上生成，而不需要借助潜空间的压缩-解压机制。最终结果在 ImageNet 512×512 上实现了 FID 1.78，且 JiT-G 版本在更高分辨率下依然保持了竞争力的 FID。更值得关注的是，这个性能是在没有任何蒸馏、没有任何外部模型辅助的前提下从零训练得到的。 JiT 证明了"让扩散模型真正做去噪"这件事本身，就足以带来显著的质量提升——不需要更多的工程技巧，只需要把预测目标换回那个理所当然却被忽视了五年的选项。论文链接：https://arxiv.org/abs/2511.13720 ARC：跳出语言模型的舒适圈 ARC是 AI 领域历史最久的推理能力测试之一，包含数百个"视觉谜题"，要求模型从少数示例中推断规则并泛化到新样本。物体对称、重力方向、颜色连续性、反射变换——这些概念本质上是对物理世界的抽象，本不应该和语言有任何关系。然而长期以来，整个社区把 ARC 当成了一个语言问题。GPT-4、Claude、Deepseek 几乎都在 ARC 上刷过榜，原因是 ARC 的任务描述可以自然地翻译成文字，语言模型恰好擅长这类文字推理。这在工程上无可厚非，但它制造了一个隐性的假设：视觉抽象推理，必须借助语言才能完成。 VARC 要挑战的正是这个假设。它把 ARC 任务重新建模为图像到图像的翻译问题，用一个只有 18M 参数的 ViT 从头训练，不依赖任何语言能力，在 ARC-1 上达到了单模型 54.5%、集成 60.4% 的准确率。60.4% 是什么水平？人类平均水平是 60.2%，顶级大语言模型也在这个区间。这意味着，一个参数量只有顶级 LLM 几千分之一的纯视觉模型，在视觉推理任务上达到了与人类相当的水平。 VARC框架的实现路径也非常直接，没有把输入网格直接 token 化，而是使用了“画布”，将网格嵌入到一个足够大的预定义画布（32×32）上，背景用第 11 种颜色填充。然后像处理一张普通图片一样，被ViT模型进行端到端的处理。这带来一个关键效果：token 数量从有限的网格大小扩展到了更大的空间，让 ViT 的注意力机制有了充足的施展余地，能够捕捉远程的视觉关系。 WARC的画布另外，测试时训练（TTT）在推理阶段利用测试任务的少量示例做快速微调，是性能逼近人类水平的关键——模型不是"记住"了 ARC 的规则，而是在看到新任务时快速学习规则本身。 VARC 的出现给整个 ARC 社区泼了一盆冷水：大家花了大量工程资源在语言模型上刷榜，却忽视了纯视觉方法在这个任务上的潜力。这个潜力的释放需要两个条件：一个足够大的视觉画布，以及一个让模型在推理时继续学习的机制。一旦这两个条件被满足，视觉推理不需要语言模型这件事，变得异常清晰。论文链接： https://arxiv.org/abs/2511.14761 突破归一化流限制，图像单步生成加速归一化流是生成式建模中历史最悠久的框架之一。它最大的理论优势是可以用精确的数学形式同时完成生成和似然估计，训练过程透明、可解释，不像扩散模型那样依赖多次采样来近似对数似然。但长期以来，它在性能上被扩散模型压得喘不过气来。原因出在两个结构性约束上。第一，传统归一化流为了保证前向变换的精确可逆性，必须采用受限的网络架构，无法使用 Transformer 等更强大的序列模型。第二，逆向过程依赖自回归因果解码，每一步必须顺序计算，无法并行，生成一张图的时间成本极高。这两个约束几乎从根子上限制了归一化流在大规模图像生成上的竞争力。 BiFlow 的解题思路初看有些反直觉：逆向过程不需要是前向过程的精确逆。前向过程保持可逆，这是数学上的保证，确保分布映射的准确性不受损害；但逆向过程单独训练一个独立的模型来近似逆映射，不要求它在数学上等于前向的解析逆。这个"放弃精确逆"带来了一个巨大的解放：逆向过程可以使用完全并行的 Transformer 架构，实现真正的单步生成，不再受自回归解码的顺序瓶颈约束。但这还不够。逆向模型单独训练，意味着它学到的表示空间可能与前向过程完全不同——两者可能在不同的隐空间里各说各话。 BiFlow 引入了隐藏层对齐机制，利用前向过程的中间状态轨迹监督逆向模型，确保两者在表示空间中对齐，防止逆向模型"跑偏"。对齐之后，逆向模型既能受益于 Transformer 的强大表达能力，又能保持前向过程的分布结构完整。标准化流与BiFlow的概念对比最终结果在 ImageNet 256×256 上实现了 FID 2.39，这是归一化流方法的历史新纪录。但更有冲击力的是速度数据：单张图像生成时间从 TARFlow 的 0.7 秒缩短到 0.001 秒，加速约 700 倍。 BiFlow与SOTA流模型的效率对比这不再是理论推演，而是一个可以直接在工程中落地的效率跃迁。归一化流长期被视为"理论上优美、工程上鸡肋"的框架，BiFlow 至少把后半句的错误认知打破了。论文地址：https://arxiv.org/abs/2512.10953 快进生成，无需蒸馏如果说 BiFlow 是把归一化流从困境中拉了出来，那么 iMF（Improved Mean Flows）的目标更彻底：把"快进生成"这条路的瓶颈彻底打通。 "快进生成"的核心目标是让扩散模型用 1 步而不是 250 步完成图像生成。此前的工业界解法几乎都依赖蒸馏——用一个大而慢的扩散模型作为"教师"，训练一个小的"学生"在 1-2 步内近似教师的输出。蒸馏效果不错，但代价也明显：训练流程极其复杂，学生的性能上限被教师锁死，一旦教师本身有缺陷，学生无论如何都超不过去。何恺明团队在 2025 年 5 月提出了均值流（MeanFlow），首次将"均值速度场"引入生成建模，目标是实现真正的单步高质量生成。方向正确，但初代 MF 有三个系统性的训练缺陷，导致最终性能距离当时的 SOTA 有明显差距。ImageNet 256×256 的 FID 停留在 3.43，而最好的扩散模型已经在 1.x 徘徊了。第一个缺陷是训练目标的"自依赖"。MF 的训练目标是"平均速度损失"（u-loss），目标函数里包含了一个由网络自身输出推导出的项——这就好比让一个人预测"自己说的话会造成什么后果"，优化器在闭环里反复震荡，训练方差极大，收敛不彻底。第二个缺陷是引导机制的"死板"。无分类器引导（CFG）是提升生成质量的关键技术，但 MF 训练时把 CFG 强度固定了，推理时用户无法调节质量-多样性的权衡——这等于剥夺了生成器最重要的一个调参手段。第三个缺陷是架构效率的"肥胖"。MF 依赖的 adaLN-zero 机制在处理多条件（时间步 t、类别标签 c、CFG 强度 ω）时把所有条件向量简单求和，条件多了之后互相干扰，参数利用率极低。 iMF 成功解决了这三个缺陷目标，通过将训练目标重新表述为更稳定的瞬时速度损失，同时引入灵活的无分类器指导（CFG）和高效的上下文内条件作用，大幅提升了模型性能。论文链接： https://arxiv.org/abs/2512.02012 针对训练目标，iMF 利用 MeanFlow 的数学恒等式，将平均速度损失（u-loss）等价转换为瞬时速度损失（v-loss）。瞬时速度 v 等于网络在 t 时刻的瞬时导数，它的特点是：目标 v 与网络自身的输出完全无关，是一个纯粹的标准回归问题。这个看似简单的数学变换，把 MF 训练不稳定的根因直接消除了。针对 CFG 灵活性，iMF 把 CFG 强度 ω、引导区间 t_min 和 t_max 一起编码为显式的条件变量作为额外输入传入网络。训练时从幂分布中随机采样不同引导强度，让网络学习不同 CFG 强度下的速度场分布；推理时，用户可以自由调节 CFG 强度，就像使用普通扩散模型一样自然。这个设计让 iMF 支持了 CFG 区间控制——只有当 t 落在某个区间内时才启用引导，超出区间自动关闭，给了研究者更多调控手段。针对架构效率，iMF 摒弃了把条件向量求和的粗暴做法，转而将每类条件转化为多个可学习的 token，类别 8 个、时间步 4 个、CFG 强度 4 个、引导区间 4 个，与图像 latent token 沿序列维度拼接后联合处理。Base 模型参数从 133M 降至 89M，减少了三分之一，同时 FID 反而改善。 iMF 和MF对比图三条改进的效果是叠加的。iMF 的消融链路清晰地记录了每一步的贡献：原 MF 基线 6.17 FID → v-loss 替换 5.68 → 灵活 CFG 4.57 → 多 token 条件 4.09 → Transformer 架构改进 3.39 → 640 epoch 长训练 1.72。每一步都有据可查，每一步的改善都可以归因到具体的修改点。最终 iMF-XL/2 实现了 1-NFE FID 1.72，且这是从零训练、不依赖任何蒸馏取得的成绩。iMF 的 FID 优于所有依赖蒸馏的单步生成方法，包括 FACM-XL/2（蒸馏，FID 1.76）和 DMF-XL/2+（蒸馏，FID 2.16）。扩散模型领域的一个默认假设被打破了：高质量单步生成，不需要蒸馏。更值得关注的是 2-NFE 时 iMF 的 FID 降至 1.54，已经非常接近主流多步扩散的水平（SiT-XL/2+REPA 为 1.42 @ 数百步）。单步模型与多步模型的性能差距，第一次缩小到了这个量级。像素监督：从边缘到正面竞争自监督视觉预训练领域近年来有一个明显的主流叙事：像素空间已经过时，潜空间才是未来。 DINOv3 是这个方向的代表——将图像通过 VAE Tokenizer 压缩到低维潜空间，再进行对比学习，在多项视觉任务上达到了 SOTA，逐渐被视为"正确答案"。这个叙事的隐含前提是：在大规模训练场景下，像素级自监督天然不如潜空间方法，因为像素空间的高维、冗余、多噪声特性让学习效率更低。 Pixo（pixel supervision）要检验的正是这个前提。 MAE 已经证明，像素空间的掩码自编码器在大规模训练下是一个简单而高效的选择。Pixo 则把这个思路推向极致：在 20 亿张网络爬取图像上，系统性地探索像素监督的上限，并在预训练任务、模型架构和训练策略三个层面对 MAE 做了全面增强。预训练任务设计得更具挑战性，架构针对大规模高效训练做了优化，训练策略引入了自筛选机制自动过滤低质量数据，最小化人工干预。 Pixio 对 MAE 进行的关键更新结果没有出现预期的"像素完败"局面。在深度估计、前馈 3D 重建、语义分割、机器人操控等多个下游任务上，Pixo 与 DINOv3 正面竞争，各有胜负。这意味着像素监督在大规模场景下并非不如潜空间方法，只是需要更强的任务设计、更大规模的优质数据和更精细的训练策略。两种范式各有其适合的场景：像素监督在需要保留完整视觉细节的任务上可能更有优势，而潜空间方法在语义理解类任务上更占优。两种范式的竞争才刚刚开始，Pixo 的价值在于证明了像素监督的边界还远未到达——在 20 亿规模的数据上，它依然是一个有力的竞争者，而非被淘汰的遗产。论文链接： https://arxiv.org/abs/2512.15715 结语盘点完何恺明近期的五篇论文，一个值得深思的问题浮现出来：扩散模型统治图像生成五年，这个"统治"到底有多扎实？归一化流在效率上的结构性缺陷，是可以通过放弃"精确逆"来修复的；扩散模型的训练目标不稳定，是可以通过换掉噪声预测目标来改善的；单步生成必须依赖蒸馏的假设，是被 iMF 用从零训练的 FID 1.72 直接打破的。甚至在视觉推理和自监督学习领域，何恺明团队也在用最小化的视觉架构挑战语言模型的传统领地，而且赢了。他们不是在已有的游戏规则里优化指标，而是在重新定义问题本身的前提。他们用返璞归真的方式、"大道至简"的风格提出新的思路，这些思路对于传统方案来说，是颠覆性的改变。同时，这五篇论文也反映了他们一个连贯的战略判断。扩散模型不是终点，而是某个更高效范式出现之前的过渡阶段。流匹配是他们的答案，iMF 和 BiFlow 是这个答案最有力的支撑。他们从底层基础（归一化、去噪目标函数、流模型设计）出发，重构视觉生成与理解的理论框架。接下来的问题是，这个判断会不会在 2026 年成为整个生成式 AI 领域的共识——而这一次，何恺明的团队已经把路标立好了。雷峰网

雷峰雷峰网Updated 5h ago2 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

This page shows a summary and AI analysis only. For the full original article, use the “Read Original” button above.