Technology

ICML 2026 REViT 发布 | 这可能是这个 Transformer 时代，CNN最后的体面

原文作者：公众号“集智实验室” 原文链接：https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw 雷峰网转载你是否有过这样的经历：在医疗影像分析中，仅仅因为细胞切片旋转了一个角度，AI诊断模型就给出了截然不同的判断？在自动驾驶场景里，摄像头角度稍有倾斜，目标检测就开始漏检误报？这背后是传统视觉模型的核心痛点——它们对物体的旋转、翻转等空间变换过于敏感。虽然旋转变换等变网络（Equivariant Networks）早在CNN时代就被提出，但当主流模型转向视觉Transformer（ViT）时，实现这种“等变性”却变得异常棘手。因为Transformer赖以成名的“位置编码”，恰恰成了破坏旋转对称性的元凶。今天我们要深挖的这篇文章，提出了一种极简却极为优雅的方案——不需要复杂的位置编码，直接利用卷积投影和群自注意力机制，让ViT天然具备旋转反射等变性（Roto-reflection Equivariance）。这不仅砍掉了传统方法中繁琐的相对位置编码，还在多个数据集上碾压了前辈方法。让我们一探究竟。核心痛点：位置编码的“紧箍咒” 要理解这项工作的价值，我们得先回到Transformer的基本原理。自注意力机制（Self-Attention）本质上是“排列等变”的——它把输入token当成一个无序的集合。对于处理图像来说，这无异于灾难：模型会完全忽略像素的空间位置关系。于是，位置编码（Position Encoding）应运而生。绝对位置编码给每个位置一个唯一ID，但这破坏了平移等变性；相对位置编码（RPE）通过编码位置间的差异来保持平移等变，看似完美，却带来了计算复杂度的飙升——每一层、每个注意力头都要额外计算RPE，让模型变得臃肿。更棘手的是，为了在自注意力中引入旋转等变性，现有的群等变方法（如G-SA）不得不进一步叠加复杂的旋转群编码和方向相关的RPE项：这个公式背后，是每层大量的额外计算，让网络的训练和推理不堪重负。那么问题来了：有没有可能，我们干脆扔掉位置编码，让模型自己“感受”到空间和旋转的结构？这正是REViT的核心破局思路。原理拆解：REViT如何实现“无招胜有招”？ REViT的架构设计非常直观。我们先通过一张整体框架图来建立全局认知。图3：REViT整体架构。(a)

输入图像经过Lifting层提升到群表示空间，然后依次通过L个包含Group Conv. Attention的Transformer Block；(b) 针对p4群（0°/90°/180°/270°）的Lifting层详解；(c) 3D群卷积自注意力机制，在空间和群维度上联合计算Softmax注意力。从图中可以清晰看到，REViT的关键在于两个核心模块：Lifting层和分组卷积自注意力（G-CSA）。它们共同让模型在没有任何显式位置编码的情况下，天然具备了旋转等变性。 ? Lifting层：从2D图像到3D群空间 Lifting层的任务，是将一张普通的2D输入图像“提升”到一个更高维的表示空间，这个空间不仅包含空间位置信息，还显式编码了离散的方向（或旋转）通道。想象一下，你拿到一张照片，然后用Photoshop生成了它的4个副本，分别旋转0°、90°、180°、270°。你把它们叠在一起，形成一个“多通道”的立体表示。Lifting层做的正是这件事，只不过它通过旋转卷积来完成。对于输入图像和一组可学习的卷积核，Lifting操作定义为：这里的关键在于。我们不再用固定的卷积核，而是对每个离散旋转群元素（比如），都应用一个预先旋转好的卷积核。这样一来，Lifting层的输出不再是一个2D特征图，而是一个3D的张量：。其中第三个“深度”维度，就对应着不同的旋转方向。这个操作自然地引入了离散旋转对称性——如果输入图像被旋转，那么Lifting层的输出只是在群维度上发生了循环位移，而不会破坏特征的数值分布。这正是等变性的基础。 ? G-CSA：3D群空间中的自注意力如果说Lifting层完成了从平面到立体世界的跃迁，那么G-CSA模块则是在这个3D空间中执行自注意力，确保将等变性质传递到网络的每一层。传统的卷积自注意力（如CvT）在2D空间上，通过卷积投影生成Query、Key和Value序列，替代了线性投影。图2：基于卷积投影的Q、K、V生成机制。输入特征经滑动卷积核局部感知后，由三路并行的卷积投影分别提取特征，再展平得到query、key和value，在自注意力中引入局部归纳偏置。 REViT的G-CSA则将这一思想推广到了Lifting后的3D空间。它通过3D群等变卷积来计算Q、K和V：这里的表示群等变卷积。由于我们在空间维度和群维度上同时执行卷积操作，生成的Q、K、V本身也都是群等变的——输入被旋转，Q、K、V也会跟着旋转。接下来，G-CSA的注意力计算在空间邻域和群结构上联合进行：注意力权重通过Q与K的点积计算softmax得到。与普通自注意力不同，这里的点积在所有空间位置和所有群元素上归一化。这意味着模型不仅关注“空间上哪里重要”，还关注“在哪个旋转方向上重要”。论文中给出了严格的数学证明：对于任何群变换，G-CSA满足。通俗地说：先旋转输入再计算注意力，等同于先计算注意力再旋转输出。这正是等变性的核心定义。这种设计如此优雅：它不需要任何位置编码，因为卷积操作天然捕获了局部空间结构，而群卷积则将这种结构感知能力扩展到了旋转维度。整个网络就像一个精密的齿轮系统，转动输入，所有中间表示都会同步转动，信息不会丢失或混淆。 ? 为什么必须剔除位置编码？这里有一个微妙但关键的点。可能你会问：如果位置编码能帮助模型感知空间结构，我们为什么不能保留它，同时再加入群等变设计？答案隐藏在Lifting层引入的群维度中。一旦我们将输入提升到了空间，我们处理的不再是“这个像素在(50, 100)”这样的绝对位置，而变成了“这个像素在旋转了90°后的(25, 30)”。标准的位置编码无法编码这种群变换下的相对关系。强行添加绝对位置编码，反而会破坏Lifting层辛辛苦苦建立起来的群等变性。而已经被证明会带来沉重计算负担的RPE，其最初目的正是在自注意力中恢复平移等变性。REViT通过转用卷积自注意力，天然内建了平移等变性，因此RPE变得多余。这真是一个一石二鸟的精巧设计。实验验证：数据不会说谎原理讲得再漂亮，最终还得用数据说话。让我们看看REViT在实际数据集上的表现。 ? 决战SOTA：碾压级性能优势首先，我们将G-CSA与传统群等变自注意力G-SA进行直接对比。表1：G-CSA与G-SA在Rotated MNIST和PatchCamelyon上的性能对比。G-CSA在Rotated MNIST上取得了全面领先，更关键的是在PatchCamelyon上用不到一半的参数(94.35K vs 205.66K)实现了大幅性能反超。从表1可以清晰看到，在Rotated MNIST和PatchCamelyon两个数据集上，G-CSA在各个群结构（Z2, p4, p8, p4m）下均优于G-SA。最重磅的是PatchCamelyon上的结果：G-CSA只用了94.35K参数，而G-SA需要205.66K，但准确率却实现了反超。这种参数效率的碾压，充分证明了卷积投影替代RPE在性能和效率上的双重胜利。接下来，我们看看REViT相比传统群等变CNN（G-CNN）的提升有多大。图1：REViT与现有群等变方法的气泡图对比。横纵轴为Rotated MNIST和PatchCamelyon的准确率。REViT（蓝色）在多个群结构下均占据右上角最优区域，性能全面领先于G-SA（红色）、G-CNN（黄色）与α-G-CNN（绿色）。图1用气泡图直观展现了REViT的统治力：在多个离散群下，REViT在两个数据集上的准确率都占据了右上角的最优位置。再看与群等变CNN基线的具体数据对比。表3：CSA变体与群等变CNN的性能比较。在Rotated MNIST、CIFAR-10和PatchCamelyon上，CSA变体全面优于对应的G-CNN基线模型。p8-CSA在Rotated MNIST上达到98.92%，p4m-CSA在CIFAR-10上达到92.68%，改进效果稳健。 CSA变体在所有三个数据集上全面优于对应CNN基线。p8-CSA在Rotated MNIST上达到98.92%，比p8-CNN提升0.42个百分点；而p4m-CSA在PatchCamelyon上达到90.75%，反超SOTA方法α_F-p4m-CNN†的89.12%。这些数据表明，G-CSA能稳定提升群等变网络的性能上限。最残酷的对比来了：REViT vs 普通ViT。表4：REViT与vanilla ViT、CvT在Rotated MNIST上的对比。vanilla ViT即使使用随机旋转+平移数据增强，准确率也只有91.67%，而REViT的p8CSA达到98.03%，Z2CSA也达到95.97%，差距极为悬殊。即使vanilla ViT使用了离散随机45°旋转和平移的数据增强，其准确率也仅为91.67%。而REViT的p8CSA达到98.03%，Z2CSA达到95.97%，将数据增强的非等变模型远远甩在身后。这再次说明了将对称性直接编码进架构，远比依赖数据增强去“学习不变性”更加有效和本质。 ⚡ 效率奇迹：砍掉一半运算量和内存高性能常常以高开销为代价。但REViT反其道而行之。表2：G-CSA与G-SA w/ RPE的效率对比。在相同骨干网络和输入规模下，G-CSA的乘加运算量和内存占用约为G-SA的一半甚至更低，p8-CSA的Mul-Add仅为15.98M，而p8-SA高达48.32M。在相同的batch size和输入图像下，G-CSA的乘加运算量（Mul-Add）和峰值模型内存（Total Size）几乎是G-SA with RPE的一半甚至更低。例如，p8-CSA的Mul-Add仅为15.98M，而p8-SA则需要48.32M。这种级别的效率提升，意味着在相同的硬件条件下，你可以训练更深的模型，或者处理更大分辨率的图像。这是REViT能够成功扩展到ImageNet-1K的硬件基础。 ? 关键超参数消融：什么决定了性能上限？ G-CSA有两个关键的超参数：群的阶数（即包含多少个离散旋转）和卷积核尺寸。它们如何影响最终性能？表5：G-CSA的消融实验。(a)群阶数由p4增至p12时准确率从98.73%升至99.01%，继续增大至p16则下降，显示并非越大越好；(b)卷积核5×5达到峰值98.73%，过大或过小均导致精度损失。实验发现，增加群阶数并不总是好事。从p4增至p12，准确率从98.73%提升至99.01%；但继续增至p16时，准确率反而下降。这是因为更高阶的群包含非网格对齐的旋转（如22.5°），双线性插值会引入近似误差，损害等变精度。卷积核尺寸同样存在最优值。5×5的核达到峰值98.73%。太小的核感受野受限，无法捕捉足够的邻域信息；太大的核可能破坏局部的平移等变性特性，并带来过拟合风险。这些消融实验为实际应用中的模型调优提供了明确指导。 ? 等变性实证：严苛的数学检验一个模型声称自己是“等变的”，就必须接受严格的数学检验。作者通过等变误差（Equivariance Error）和预测一致性（Prediction Consistency）来量化这一点。表6：G-CSA的等变误差。在p4、p4m群下，REViT的等变误差极低（约1e-5至1e-2），与G-CNN处于同一量级，显著优于vanilla ViT（约1e-1），证实了其架构的严格等变性。表6的结果令人信服：在p4和p4m群下，REViT的Lifting层和G-CSA块后的等变误差低至1e-5到1e-2量级，与G-CNN持平，而vanilla ViT则高达1e-1。这证明REViT的架构确实在执行严格的群等变。对于包含45°旋转的p8群，等变误差略有上升。这并非架构缺陷，而是输入阶段的插值伪影在捣鬼。图4：离散旋转下的插值近似误差。90°旋转因像素与网格精确对齐而保持数值精度；45°旋转则导致像素落入网格间隙，双线性插值引入混合数值和伪影，成为提升等变误差(p8)的根源。图4清晰地解释了这一现象：90°旋转与像素网格完美对齐，只需重排像素；但45°旋转却迫使像素点落在网格间隙，必须通过双线性插值来估算，从而引入了无法完全消除的近似误差。这是一个预处理器层面的固有局限，而非REViT自身的设计问题。在随机连续变换的泛化测试中，REViT再次展现了非凡的鲁棒性。表11：REViT与vanilla ViT在随机变换下的泛化对比。REViT总体预测一致性达96.99%，相比ViT提升11.61%；平均概率差异也大幅降低，表明其对训练群外的连续变换仍保持高度预测稳定性。面对训练时从未见过的任意角度连续旋转，REViT的平均预测一致性高达96.99%，比普通ViT提升了11.61%，平均概率差异也大幅降低。这表明，从离散等变性中学习到的结构化对称性，能够很好地泛化到连续的变换空间。 ? 扩展ImageNet-1K：从玩具到工业级最后，作者证明了REViT完全可以扩展到ImageNet-1K这样的工业级数据集。表7：REViT在ImageNet-1K上的性能。以18M参数量取得79.27% Top-1和94.45% Top-5准确率，显著优于RE-ResNet(77.37%/11M)和ViT-S w/ aug(72.08%/22M)，达到了精度与效率的优秀平衡。 REViT以18M参数取得了79.27%的Top-1和94.45%的Top-5准确率，完胜RE-ResNet的77.37%（11M）和ViT-S w/ aug的72.08%（22M）。这个结果的意义非凡：一个严格的等变架构，在没有额外数据增强，也没有预训练蒸馏的情况下，就在大规模数据集上击败了经过高度混合增强的非等变Transformer。这充分展示了将几何对称性作为归纳偏置的巨大潜力。 ⚖️ 客观评价与反思尽管REViT表现惊艳，我们也必须正视其固有的局限。计算与内存代价：群等变架构的计算和内存开销与底层群的阶数（元素数量）成比例。例如p12群包含12个变换，意味着理论上要比普通模型多处理12倍的特征映射。这导致推理延迟的增加，使其在资源极度受限或延迟极度敏感的场景下部署依然面临挑战。虽然作者通过窗口化G-CSA缓解了这个问题，但其根本性的开销结构并未改变。高阶群的非理想等变性：如前所述，对于包含非网格对齐旋转的高阶群，插值伪影会在输入阶段就引入误差。虽然这并非REViT网络本身的设计失误，且误差依然保持在很低水平（10^-2），但对于追求理论完美等变性的场景，这仍是一个需要感知的因素。未来方向：作者计划将REViT扩展到更大规模的ViT架构，以及将其作为预训练Backbone应用于方向性目标检测和图像分割。我个人也非常期待看到它在3D点云处理、分子结构预测等更广泛的几何深度学习任务中的表现。 ? 总结与行动号召总的来说，REViT这项工作给我们上了精彩一课：巧妙的设计比复杂的公式更强大通过用卷积投影替代位置编码，REViT在简化实现的同时，实现了更强的等变性和更高的效率。等变性不是玄学，而是可检验的工程目标严格的等变误差和预测一致性分析，用数据证明了架构设计的有效性。归纳偏置的价值在大规模数据下依然闪光 ImageNet的实验证明，将已知的物理规律（旋转对称性）直接编码进模型，其收益甚至在充满混合增强的数据环境中依然显著。深度思考：你正在从事的目标检测、医学影像或机器人视觉任务中，是否也存在类似“旋转让模型犯糊涂”的痛点？REViT的设计思路，是否为你打开了一扇新的大门？欢迎在评论区分享你的见解和落地思考！ REViT: Roto-reflection Equivariant Convolutional Vision Transformer

雷峰雷峰网Updated 4h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.