Home ›
Technology ›
ICML 2026 REViT 发布 | 这可能是这个 Transformer 时代,CNN最后的体面
Technology
ICML 2026 REViT 发布 | 这可能是这个 Transformer 时代,CNN最后的体面
原文作者:公众号“集智实验室” 原文链接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw 雷峰网转载 你是否有过这样的经历:在医疗影像分析中,仅仅因为细胞切片旋转了一个角度,AI诊断模型就给出了截然不同的判断?在自动驾驶场景里,摄像头角度稍有倾斜,目标检测就开始漏检误报? 这背后是传统视觉模型的核心痛点——它们对物体的旋转、翻转等空间变换过于敏感。虽然旋转变换等变网络(Equivariant Networks)早在CNN时代就被提出,但当主流模型转向视觉Transformer(ViT)时,实现这种“等变性”却变得异常棘手。因为Transformer赖以成名的“位置编码”,恰恰成了破坏旋转对称性的元凶。 今天我们要深挖的这篇文章,提出了一种极简却极为优雅的方案——不需要复杂的位置编码,直接利用卷积投影和群自注意力机制,让ViT天然具备旋转反射等变性(Roto-reflection Equivariance)。这不仅砍掉了传统方法中繁琐的相对位置编码,还在多个数据集上碾压了前辈方法。让我们一探究竟。 核心痛点:位置编码的“紧箍咒” 要理解这项工作的价值,我们得先回到Transformer的基本原理。自注意力机制(Self-Attention)本质上是“排列等变”的——它把输入token当成一个无序的集合。对于处理图像来说,这无异于灾难:模型会完全忽略像素的空间位置关系。 于是,位置编码(Position Encoding)应运而生。绝对位置编码给每个位置一个唯一ID,但这破坏了平移等变性;相对位置编码(RPE)通过编码位置间的差异来保持平移等变,看似完美,却带来了计算复杂度的飙升——每一层、每个注意力头都要额外计算RPE,让模型变得臃肿。 更棘手的是,为了在自注意力中引入旋转等变性,现有的群等变方法(如G-SA)不得不进一步叠加复杂的旋转群编码和方向相关的RPE项: 这个公式背后,是每层大量的额外计算,让网络的训练和推理不堪重负。 那么问题来了:有没有可能,我们干脆扔掉位置编码,让模型自己“感受”到空间和旋转的结构? 这正是REViT的核心破局思路。 原理拆解:REViT如何实现“无招胜有招”? REViT的架构设计非常直观。我们先通过一张整体框架图来建立全局认知。 图3:REViT整体架构。(a)
输入图像经过Lifting层提升到群表示空间,然后依次通过L个包含Group Conv. Attention的Transformer Block;(b) 针对p4群(0°/90°/180°/270°)的Lifting层详解;(c) 3D群卷积自注意力机制,在空间和群维度上联合计算Softmax注意力。 从图中可以清晰看到,REViT的关键在于两个核心模块:Lifting层和分组卷积自注意力(G-CSA)。它们共同让模型在没有任何显式位置编码的情况下,天然具备了旋转等变性。 ? Lifting层:从2D图像到3D群空间 Lifting层的任务,是将一张普通的2D输入图像“提升”到一个更高维的表示空间,这个空间不仅包含空间位置信息,还显式编码了离散的方向(或旋转)通道。 想象一下,你拿到一张照片,然后用Photoshop生成了它的4个副本,分别旋转0°、90°、180°、270°。你把它们叠在一起,形成一个“多通道”的立体表示。Lifting层做的正是这件事,只不过它通过旋转卷积来完成。 对于输入图像 和一组可学习的卷积核 ,Lifting操作定义为: 这里的关键在于 。我们不再用固定的卷积核,而是对每个离散旋转群元素 (比如 ),都应用一个预先旋转好的卷积核。这样一来,Lifting层的输出不再是一个2D特征图,而是一个3D的张量: 。其中第三个“深度”维度,就对应着不同的旋转方向。 这个操作自然地引入了离散旋转对称性——如果输入图像被旋转,那么Lifting层的输出只是在群维度上发生了循环位移,而不会破坏特征的数值分布。这正是等变性的基础。 ? G-CSA:3D群空间中的自注意力 如果说Lifting层完成了从平面到立体世界的跃迁,那么G-CSA模块则是在这个3D空间中执行自注意力,确保将等变性质传递到网络的每一层。 传统的卷积自注意力(如CvT)在2D空间上,通过卷积投影生成Query、Key和Value序列,替代了线性投影。 图2:基于卷积投影的Q、K、V生成机制。输入特征经滑动卷积核局部感知后,由三路并行的卷积投影分别提取特征,再展平得到query、key和value,在自注意力中引入局部归纳偏置。 REViT的G-CSA则将这一思想推广到了Lifting后的3D空间。它通过3D群等变卷积来计算Q、K和V: 这里的 表示群等变卷积。由于我们在空间维度和群维度上同时执行卷积操作,生成的Q、K、V本身也都是群等变的——输入被旋转,Q、K、V也会跟着旋转。 接下来,G-CSA的注意力计算在空间邻域和群结构上联合进行: 注意力权重 通过Q与K的点积计算softmax得到。与普通自注意力不同,这里的点积在所有空间位置 和所有群元素 上归一化。这意味着模型不仅关注“空间上哪里重要”,还关注“在哪个旋转方向上重要”。 论文中给出了严格的数学证明:对于任何群变换 ,G-CSA满足 。通俗地说:先旋转输入再计算注意力,等同于先计算注意力再旋转输出。这正是等变性的核心定义。 这种设计如此优雅:它不需要任何位置编码,因为卷积操作天然捕获了局部空间结构,而群卷积则将这种结构感知能力扩展到了旋转维度。整个网络就像一个精密的齿轮系统,转动输入,所有中间表示都会同步转动,信息不会丢失或混淆。 ? 为什么必须剔除位置编码? 这里有一个微妙但关键的点。可能你会问:如果位置编码能帮助模型感知空间结构,我们为什么不能保留它,同时再加入群等变设计? 答案隐藏在Lifting层引入的群维度中。一旦我们将输入提升到了 空间,我们处理的不再是“这个像素在(50, 100)”这样的绝对位置,而变成了“这个像素在旋转了90°后的(25, 30)”。标准的位置编码无法编码这种群变换下的相对关系。强行添加绝对位置编码,反而会破坏Lifting层辛辛苦苦建立起来的群等变性。 而已经被证明会带来沉重计算负担的RPE,其最初目的正是在自注意力中恢复平移等变性。REViT通过转用卷积自注意力,天然内建了平移等变性,因此RPE变得多余。这真是一个一石二鸟的精巧设计。 实验验证:数据不会说谎 原理讲得再漂亮,最终还得用数据说话。让我们看看REViT在实际数据集上的表现。 ? 决战SOTA:碾压级性能优势 首先,我们将G-CSA与传统群等变自注意力G-SA进行直接对比。 表1:G-CSA与G-SA在Rotated MNIST和PatchCamelyon上的性能对比。G-CSA在Rotated MNIST上取得了全面领先,更关键的是在PatchCamelyon上用不到一半的参数(94.35K vs 205.66K)实现了大幅性能反超。 从表1可以清晰看到,在Rotated MNIST和PatchCamelyon两个数据集上,G-CSA在各个群结构(Z2, p4, p8, p4m)下均优于G-SA。最重磅的是PatchCamelyon上的结果:G-CSA只用了94.35K参数,而G-SA需要205.66K,但准确率却实现了反超。这种参数效率的碾压,充分证明了卷积投影替代RPE在性能和效率上的双重胜利。 接下来,我们看看REViT相比传统群等变CNN(G-CNN)的提升有多大。 图1:REViT与现有群等变方法的气泡图对比。横纵轴为Rotated MNIST和PatchCamelyon的准确率。REViT(蓝色)在多个群结构下均占据右上角最优区域,性能全面领先于G-SA(红色)、G-CNN(黄色)与α-G-CNN(绿色)。 图1用气泡图直观展现了REViT的统治力:在多个离散群下,REViT在两个数据集上的准确率都占据了右上角的最优位置。 再看与群等变CNN基线的具体数据对比。 表3:CSA变体与群等变CNN的性能比较。在Rotated MNIST、CIFAR-10和PatchCamelyon上,CSA变体全面优于对应的G-CNN基线模型。p8-CSA在Rotated MNIST上达到98.92%,p4m-CSA在CIFAR-10上达到92.68%,改进效果稳健。 CSA变体在所有三个数据集上全面优于对应CNN基线。p8-CSA在Rotated MNIST上达到98.92%,比p8-CNN提升0.42个百分点;而p4m-CSA在PatchCamelyon上达到90.75%,反超SOTA方法α_F-p4m-CNN†的89.12%。这些数据表明,G-CSA能稳定提升群等变网络的性能上限。 最残酷的对比来了:REViT vs 普通ViT。 表4:REViT与vanilla ViT、CvT在Rotated MNIST上的对比。vanilla ViT即使使用随机旋转+平移数据增强,准确率也只有91.67%,而REViT的p8CSA达到98.03%,Z2CSA也达到95.97%,差距极为悬殊。 即使vanilla ViT使用了离散随机45°旋转和平移的数据增强,其准确率也仅为91.67%。而REViT的p8CSA达到98.03%,Z2CSA达到95.97%,将数据增强的非等变模型远远甩在身后。这再次说明了将对称性直接编码进架构,远比依赖数据增强去“学习不变性”更加有效和本质。 ⚡ 效率奇迹:砍掉一半运算量和内存 高性能常常以高开销为代价。但REViT反其道而行之。 表2:G-CSA与G-SA w/ RPE的效率对比。在相同骨干网络和输入规模下,G-CSA的乘加运算量和内存占用约为G-SA的一半甚至更低,p8-CSA的Mul-Add仅为15.98M,而p8-SA高达48.32M。 在相同的batch size和输入图像下,G-CSA的乘加运算量(Mul-Add)和峰值模型内存(Total Size)几乎是G-SA with RPE的一半甚至更低。例如,p8-CSA的Mul-Add仅为15.98M,而p8-SA则需要48.32M。这种级别的效率提升,意味着在相同的硬件条件下,你可以训练更深的模型,或者处理更大分辨率的图像。这是REViT能够成功扩展到ImageNet-1K的硬件基础。 ? 关键超参数消融:什么决定了性能上限? G-CSA有两个关键的超参数:群的阶数(即包含多少个离散旋转)和卷积核尺寸。它们如何影响最终性能? 表5:G-CSA的消融实验。(a)群阶数由p4增至p12时准确率从98.73%升至99.01%,继续增大至p16则下降,显示并非越大越好;(b)卷积核5×5达到峰值98.73%,过大或过小均导致精度损失。 实验发现,增加群阶数并不总是好事。从p4增至p12,准确率从98.73%提升至99.01%;但继续增至p16时,准确率反而下降。这是因为更高阶的群包含非网格对齐的旋转(如22.5°),双线性插值会引入近似误差,损害等变精度。 卷积核尺寸同样存在最优值。5×5的核达到峰值98.73%。太小的核感受野受限,无法捕捉足够的邻域信息;太大的核可能破坏局部的平移等变性特性,并带来过拟合风险。这些消融实验为实际应用中的模型调优提供了明确指导。 ? 等变性实证:严苛的数学检验 一个模型声称自己是“等变的”,就必须接受严格的数学检验。作者通过等变误差(Equivariance Error)和预测一致性(Prediction Consistency)来量化这一点。 表6:G-CSA的等变误差。在p4、p4m群下,REViT的等变误差极低(约1e-5至1e-2),与G-CNN处于同一量级,显著优于vanilla ViT(约1e-1),证实了其架构的严格等变性。 表6的结果令人信服:在p4和p4m群下,REViT的Lifting层和G-CSA块后的等变误差低至1e-5到1e-2量级,与G-CNN持平,而vanilla ViT则高达1e-1。这证明REViT的架构确实在执行严格的群等变。 对于包含45°旋转的p8群,等变误差略有上升。这并非架构缺陷,而是输入阶段的插值伪影在捣鬼。 图4:离散旋转下的插值近似误差。90°旋转因像素与网格精确对齐而保持数值精度;45°旋转则导致像素落入网格间隙,双线性插值引入混合数值和伪影,成为提升等变误差(p8)的根源。 图4清晰地解释了这一现象:90°旋转与像素网格完美对齐,只需重排像素;但45°旋转却迫使像素点落在网格间隙,必须通过双线性插值来估算,从而引入了无法完全消除的近似误差。这是一个预处理器层面的固有局限,而非REViT自身的设计问题。 在随机连续变换的泛化测试中,REViT再次展现了非凡的鲁棒性。 表11:REViT与vanilla ViT在随机变换下的泛化对比。REViT总体预测一致性达96.99%,相比ViT提升11.61%;平均概率差异也大幅降低,表明其对训练群外的连续变换仍保持高度预测稳定性。 面对训练时从未见过的任意角度连续旋转,REViT的平均预测一致性高达96.99%,比普通ViT提升了11.61%,平均概率差异也大幅降低。这表明,从离散等变性中学习到的结构化对称性,能够很好地泛化到连续的变换空间。 ? 扩展ImageNet-1K:从玩具到工业级 最后,作者证明了REViT完全可以扩展到ImageNet-1K这样的工业级数据集。 表7:REViT在ImageNet-1K上的性能。以18M参数量取得79.27% Top-1和94.45% Top-5准确率,显著优于RE-ResNet(77.37%/11M)和ViT-S w/ aug(72.08%/22M),达到了精度与效率的优秀平衡。 REViT以18M参数取得了79.27%的Top-1和94.45%的Top-5准确率,完胜RE-ResNet的77.37%(11M)和ViT-S w/ aug的72.08%(22M)。这个结果的意义非凡:一个严格的等变架构,在没有额外数据增强,也没有预训练蒸馏的情况下,就在大规模数据集上击败了经过高度混合增强的非等变Transformer。这充分展示了将几何对称性作为归纳偏置的巨大潜力。 ⚖️ 客观评价与反思 尽管REViT表现惊艳,我们也必须正视其固有的局限。 计算与内存代价:群等变架构的计算和内存开销与底层群的阶数(元素数量)成比例。例如p12群包含12个变换,意味着理论上要比普通模型多处理12倍的特征映射。这导致推理延迟的增加,使其在资源极度受限或延迟极度敏感的场景下部署依然面临挑战。虽然作者通过窗口化G-CSA缓解了这个问题,但其根本性的开销结构并未改变。 高阶群的非理想等变性:如前所述,对于包含非网格对齐旋转的高阶群,插值伪影会在输入阶段就引入误差。虽然这并非REViT网络本身的设计失误,且误差依然保持在很低水平(10^-2),但对于追求理论完美等变性的场景,这仍是一个需要感知的因素。 未来方向:作者计划将REViT扩展到更大规模的ViT架构,以及将其作为预训练Backbone应用于方向性目标检测和图像分割。我个人也非常期待看到它在3D点云处理、分子结构预测等更广泛的几何深度学习任务中的表现。 ? 总结与行动号召 总的来说,REViT这项工作给我们上了精彩一课: 巧妙的设计比复杂的公式更强大 通过用卷积投影替代位置编码,REViT在简化实现的同时,实现了更强的等变性和更高的效率。 等变性不是玄学,而是可检验的工程目标 严格的等变误差和预测一致性分析,用数据证明了架构设计的有效性。 归纳偏置的价值在大规模数据下依然闪光 ImageNet的实验证明,将已知的物理规律(旋转对称性)直接编码进模型,其收益甚至在充满混合增强的数据环境中依然显著。 深度思考:你正在从事的目标检测、医学影像或机器人视觉任务中,是否也存在类似“旋转让模型犯糊涂”的痛点?REViT的设计思路,是否为你打开了一扇新的大门?欢迎在评论区分享你的见解和落地思考! REViT: Roto-reflection Equivariant Convolutional Vision Transformer
雷峰 雷峰网Updated 4h ago 1 min read
输入图像经过Lifting层提升到群表示空间,然后依次通过L个包含Group Conv. Attention的Transformer Block;(b) 针对p4群(0°/90°/180°/270°)的Lifting层详解;(c) 3D群卷积自注意力机制,在空间和群维度上联合计算Softmax注意力。 从图中可以清晰看到,REViT的关键在于两个核心模块:Lifting层和分组卷积自注意力(G-CSA)。它们共同让模型在没有任何显式位置编码的情况下,天然具备了旋转等变性。 ? Lifting层:从2D图像到3D群空间 Lifting层的任务,是将一张普通的2D输入图像“提升”到一个更高维的表示空间,这个空间不仅包含空间位置信息,还显式编码了离散的方向(或旋转)通道。 想象一下,你拿到一张照片,然后用Photoshop生成了它的4个副本,分别旋转0°、90°、180°、270°。你把它们叠在一起,形成一个“多通道”的立体表示。Lifting层做的正是这件事,只不过它通过旋转卷积来完成。 对于输入图像 和一组可学习的卷积核 ,Lifting操作定义为: 这里的关键在于 。我们不再用固定的卷积核,而是对每个离散旋转群元素 (比如 ),都应用一个预先旋转好的卷积核。这样一来,Lifting层的输出不再是一个2D特征图,而是一个3D的张量: 。其中第三个“深度”维度,就对应着不同的旋转方向。 这个操作自然地引入了离散旋转对称性——如果输入图像被旋转,那么Lifting层的输出只是在群维度上发生了循环位移,而不会破坏特征的数值分布。这正是等变性的基础。 ? G-CSA:3D群空间中的自注意力 如果说Lifting层完成了从平面到立体世界的跃迁,那么G-CSA模块则是在这个3D空间中执行自注意力,确保将等变性质传递到网络的每一层。 传统的卷积自注意力(如CvT)在2D空间上,通过卷积投影生成Query、Key和Value序列,替代了线性投影。 图2:基于卷积投影的Q、K、V生成机制。输入特征经滑动卷积核局部感知后,由三路并行的卷积投影分别提取特征,再展平得到query、key和value,在自注意力中引入局部归纳偏置。 REViT的G-CSA则将这一思想推广到了Lifting后的3D空间。它通过3D群等变卷积来计算Q、K和V: 这里的 表示群等变卷积。由于我们在空间维度和群维度上同时执行卷积操作,生成的Q、K、V本身也都是群等变的——输入被旋转,Q、K、V也会跟着旋转。 接下来,G-CSA的注意力计算在空间邻域和群结构上联合进行: 注意力权重 通过Q与K的点积计算softmax得到。与普通自注意力不同,这里的点积在所有空间位置 和所有群元素 上归一化。这意味着模型不仅关注“空间上哪里重要”,还关注“在哪个旋转方向上重要”。 论文中给出了严格的数学证明:对于任何群变换 ,G-CSA满足 。通俗地说:先旋转输入再计算注意力,等同于先计算注意力再旋转输出。这正是等变性的核心定义。 这种设计如此优雅:它不需要任何位置编码,因为卷积操作天然捕获了局部空间结构,而群卷积则将这种结构感知能力扩展到了旋转维度。整个网络就像一个精密的齿轮系统,转动输入,所有中间表示都会同步转动,信息不会丢失或混淆。 ? 为什么必须剔除位置编码? 这里有一个微妙但关键的点。可能你会问:如果位置编码能帮助模型感知空间结构,我们为什么不能保留它,同时再加入群等变设计? 答案隐藏在Lifting层引入的群维度中。一旦我们将输入提升到了 空间,我们处理的不再是“这个像素在(50, 100)”这样的绝对位置,而变成了“这个像素在旋转了90°后的(25, 30)”。标准的位置编码无法编码这种群变换下的相对关系。强行添加绝对位置编码,反而会破坏Lifting层辛辛苦苦建立起来的群等变性。 而已经被证明会带来沉重计算负担的RPE,其最初目的正是在自注意力中恢复平移等变性。REViT通过转用卷积自注意力,天然内建了平移等变性,因此RPE变得多余。这真是一个一石二鸟的精巧设计。 实验验证:数据不会说谎 原理讲得再漂亮,最终还得用数据说话。让我们看看REViT在实际数据集上的表现。 ? 决战SOTA:碾压级性能优势 首先,我们将G-CSA与传统群等变自注意力G-SA进行直接对比。 表1:G-CSA与G-SA在Rotated MNIST和PatchCamelyon上的性能对比。G-CSA在Rotated MNIST上取得了全面领先,更关键的是在PatchCamelyon上用不到一半的参数(94.35K vs 205.66K)实现了大幅性能反超。 从表1可以清晰看到,在Rotated MNIST和PatchCamelyon两个数据集上,G-CSA在各个群结构(Z2, p4, p8, p4m)下均优于G-SA。最重磅的是PatchCamelyon上的结果:G-CSA只用了94.35K参数,而G-SA需要205.66K,但准确率却实现了反超。这种参数效率的碾压,充分证明了卷积投影替代RPE在性能和效率上的双重胜利。 接下来,我们看看REViT相比传统群等变CNN(G-CNN)的提升有多大。 图1:REViT与现有群等变方法的气泡图对比。横纵轴为Rotated MNIST和PatchCamelyon的准确率。REViT(蓝色)在多个群结构下均占据右上角最优区域,性能全面领先于G-SA(红色)、G-CNN(黄色)与α-G-CNN(绿色)。 图1用气泡图直观展现了REViT的统治力:在多个离散群下,REViT在两个数据集上的准确率都占据了右上角的最优位置。 再看与群等变CNN基线的具体数据对比。 表3:CSA变体与群等变CNN的性能比较。在Rotated MNIST、CIFAR-10和PatchCamelyon上,CSA变体全面优于对应的G-CNN基线模型。p8-CSA在Rotated MNIST上达到98.92%,p4m-CSA在CIFAR-10上达到92.68%,改进效果稳健。 CSA变体在所有三个数据集上全面优于对应CNN基线。p8-CSA在Rotated MNIST上达到98.92%,比p8-CNN提升0.42个百分点;而p4m-CSA在PatchCamelyon上达到90.75%,反超SOTA方法α_F-p4m-CNN†的89.12%。这些数据表明,G-CSA能稳定提升群等变网络的性能上限。 最残酷的对比来了:REViT vs 普通ViT。 表4:REViT与vanilla ViT、CvT在Rotated MNIST上的对比。vanilla ViT即使使用随机旋转+平移数据增强,准确率也只有91.67%,而REViT的p8CSA达到98.03%,Z2CSA也达到95.97%,差距极为悬殊。 即使vanilla ViT使用了离散随机45°旋转和平移的数据增强,其准确率也仅为91.67%。而REViT的p8CSA达到98.03%,Z2CSA达到95.97%,将数据增强的非等变模型远远甩在身后。这再次说明了将对称性直接编码进架构,远比依赖数据增强去“学习不变性”更加有效和本质。 ⚡ 效率奇迹:砍掉一半运算量和内存 高性能常常以高开销为代价。但REViT反其道而行之。 表2:G-CSA与G-SA w/ RPE的效率对比。在相同骨干网络和输入规模下,G-CSA的乘加运算量和内存占用约为G-SA的一半甚至更低,p8-CSA的Mul-Add仅为15.98M,而p8-SA高达48.32M。 在相同的batch size和输入图像下,G-CSA的乘加运算量(Mul-Add)和峰值模型内存(Total Size)几乎是G-SA with RPE的一半甚至更低。例如,p8-CSA的Mul-Add仅为15.98M,而p8-SA则需要48.32M。这种级别的效率提升,意味着在相同的硬件条件下,你可以训练更深的模型,或者处理更大分辨率的图像。这是REViT能够成功扩展到ImageNet-1K的硬件基础。 ? 关键超参数消融:什么决定了性能上限? G-CSA有两个关键的超参数:群的阶数(即包含多少个离散旋转)和卷积核尺寸。它们如何影响最终性能? 表5:G-CSA的消融实验。(a)群阶数由p4增至p12时准确率从98.73%升至99.01%,继续增大至p16则下降,显示并非越大越好;(b)卷积核5×5达到峰值98.73%,过大或过小均导致精度损失。 实验发现,增加群阶数并不总是好事。从p4增至p12,准确率从98.73%提升至99.01%;但继续增至p16时,准确率反而下降。这是因为更高阶的群包含非网格对齐的旋转(如22.5°),双线性插值会引入近似误差,损害等变精度。 卷积核尺寸同样存在最优值。5×5的核达到峰值98.73%。太小的核感受野受限,无法捕捉足够的邻域信息;太大的核可能破坏局部的平移等变性特性,并带来过拟合风险。这些消融实验为实际应用中的模型调优提供了明确指导。 ? 等变性实证:严苛的数学检验 一个模型声称自己是“等变的”,就必须接受严格的数学检验。作者通过等变误差(Equivariance Error)和预测一致性(Prediction Consistency)来量化这一点。 表6:G-CSA的等变误差。在p4、p4m群下,REViT的等变误差极低(约1e-5至1e-2),与G-CNN处于同一量级,显著优于vanilla ViT(约1e-1),证实了其架构的严格等变性。 表6的结果令人信服:在p4和p4m群下,REViT的Lifting层和G-CSA块后的等变误差低至1e-5到1e-2量级,与G-CNN持平,而vanilla ViT则高达1e-1。这证明REViT的架构确实在执行严格的群等变。 对于包含45°旋转的p8群,等变误差略有上升。这并非架构缺陷,而是输入阶段的插值伪影在捣鬼。 图4:离散旋转下的插值近似误差。90°旋转因像素与网格精确对齐而保持数值精度;45°旋转则导致像素落入网格间隙,双线性插值引入混合数值和伪影,成为提升等变误差(p8)的根源。 图4清晰地解释了这一现象:90°旋转与像素网格完美对齐,只需重排像素;但45°旋转却迫使像素点落在网格间隙,必须通过双线性插值来估算,从而引入了无法完全消除的近似误差。这是一个预处理器层面的固有局限,而非REViT自身的设计问题。 在随机连续变换的泛化测试中,REViT再次展现了非凡的鲁棒性。 表11:REViT与vanilla ViT在随机变换下的泛化对比。REViT总体预测一致性达96.99%,相比ViT提升11.61%;平均概率差异也大幅降低,表明其对训练群外的连续变换仍保持高度预测稳定性。 面对训练时从未见过的任意角度连续旋转,REViT的平均预测一致性高达96.99%,比普通ViT提升了11.61%,平均概率差异也大幅降低。这表明,从离散等变性中学习到的结构化对称性,能够很好地泛化到连续的变换空间。 ? 扩展ImageNet-1K:从玩具到工业级 最后,作者证明了REViT完全可以扩展到ImageNet-1K这样的工业级数据集。 表7:REViT在ImageNet-1K上的性能。以18M参数量取得79.27% Top-1和94.45% Top-5准确率,显著优于RE-ResNet(77.37%/11M)和ViT-S w/ aug(72.08%/22M),达到了精度与效率的优秀平衡。 REViT以18M参数取得了79.27%的Top-1和94.45%的Top-5准确率,完胜RE-ResNet的77.37%(11M)和ViT-S w/ aug的72.08%(22M)。这个结果的意义非凡:一个严格的等变架构,在没有额外数据增强,也没有预训练蒸馏的情况下,就在大规模数据集上击败了经过高度混合增强的非等变Transformer。这充分展示了将几何对称性作为归纳偏置的巨大潜力。 ⚖️ 客观评价与反思 尽管REViT表现惊艳,我们也必须正视其固有的局限。 计算与内存代价:群等变架构的计算和内存开销与底层群的阶数(元素数量)成比例。例如p12群包含12个变换,意味着理论上要比普通模型多处理12倍的特征映射。这导致推理延迟的增加,使其在资源极度受限或延迟极度敏感的场景下部署依然面临挑战。虽然作者通过窗口化G-CSA缓解了这个问题,但其根本性的开销结构并未改变。 高阶群的非理想等变性:如前所述,对于包含非网格对齐旋转的高阶群,插值伪影会在输入阶段就引入误差。虽然这并非REViT网络本身的设计失误,且误差依然保持在很低水平(10^-2),但对于追求理论完美等变性的场景,这仍是一个需要感知的因素。 未来方向:作者计划将REViT扩展到更大规模的ViT架构,以及将其作为预训练Backbone应用于方向性目标检测和图像分割。我个人也非常期待看到它在3D点云处理、分子结构预测等更广泛的几何深度学习任务中的表现。 ? 总结与行动号召 总的来说,REViT这项工作给我们上了精彩一课: 巧妙的设计比复杂的公式更强大 通过用卷积投影替代位置编码,REViT在简化实现的同时,实现了更强的等变性和更高的效率。 等变性不是玄学,而是可检验的工程目标 严格的等变误差和预测一致性分析,用数据证明了架构设计的有效性。 归纳偏置的价值在大规模数据下依然闪光 ImageNet的实验证明,将已知的物理规律(旋转对称性)直接编码进模型,其收益甚至在充满混合增强的数据环境中依然显著。 深度思考:你正在从事的目标检测、医学影像或机器人视觉任务中,是否也存在类似“旋转让模型犯糊涂”的痛点?REViT的设计思路,是否为你打开了一扇新的大门?欢迎在评论区分享你的见解和落地思考! REViT: Roto-reflection Equivariant Convolutional Vision Transformer
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.