Technology

GAIR Paper 106｜追踪视觉 Token 的演化轨迹，实现无损压缩与 60% 推理加速｜CVPR 2026

从“谁被关注”到“谁在变化”，重新定义Token的重要性。作者丨李傲中国人民大学近年来，以LLaVA、Qwen系列为代表的大视觉语言模型（LVLM）推动了多模态智能的发展，在视觉理解与推理任务中展现不错的表现。然而，其伴随着高昂的推理成本。面对高分辨率图像或者视频时，模型往往需要处理大量视觉Token，而这些Token会在整个推理过程中持续参与计算，成为制约模型效率的重要瓶颈。因此，如何识别并保留真正重要的视觉Token，在尽可能不影响性能的前提下降低计算开销，已成为当前多模态大模型研究的重要课题。来自山东大学，MBZUAI的研究团队提出了TransPrune：从演化的视角衡量视觉Token的重要性，在保持整体性能无损的同时，将推理成本降低60%。论文arxiv链接：https://arxiv.org/abs/2507.20630 代码：https://github.com/liaolea/TransPrune 01 重要的Token不仅是“被关注的”，还是“持续演化”的现有Token Pruning方法大多依赖Attention Score或Token Similarity来衡量视觉Token的重要性，但这些方法在实际使用中都存在一定局限性。基于Attention的方法通常假设“被关注得多的Token就更重要”，然而Attention本身存在位置偏差 (Attention Sink)，使得一些与语义无关的Token也可能获得较高的注意力权重，从而影响重要性判断的准确性。基于Token Similarity的方法则主要从冗余性角度出发，通过衡量Token之间的相似程度来进行融合，但这类方法往往忽略了具体任务指令的影响，难以针对不同问题动态调整Token的重要性分配。论文发现，除了依赖某一层的Attention分数来判断Token的重要性，还可以观察Token在整个前向传播过程中的“变化轨迹”。当一个视觉Token承载更重要的语义信息时，它在传播中往往会经历更显著的表征变化。重要Token并不是静态存在的，而是在模型内部持续发生“演化”。基于这一观察，论文将这种变化定义为Token Transition，并从两个维度对其进行量化：一方面是Magnitude Change，即Token向量L2范数的变化，重要语义Token通常会表现出更明显的幅值变化；另一方面是Direction Change，即Token表示方向的偏移，通过输入与输出表示之间的余弦相似度进行衡量。实验结果表明，真正重要的Token往往同时具有更大的Magnitude变化和更显著的Direction变化，且这一现象在LLM的中间层尤为突出。 02 TransPrune: 基于Token演化的渐进式Token压缩方法 TransPrune整体方法由两个互补模块构成：Token Transition Variation（TTV）与Instruction-Guided Attention（IGA），分别从“Token自身在网络中的演化轨迹”和“任务语义对Token的显式约束”两个角度衡量视觉Token的重要性。 TTV作为核心评分机制，在模型前向传播过程中持续跟踪每个视觉Token在不同层之间的表示变化，并将这种变化量化为统一的重要性得分，实现对Token“动态重要性”的估计。单层的TTV往往具有较强噪声，容易受到局部波动或特定层结构的影响，导致重要性判断不稳定。相比之下，如果观察Token在多个层中的持续变化趋势，就可以更可靠地捕捉其“长期语义贡献”。因此，论文对TTV引入了跨层累积机制来获得更加稳定Token的重要性估计。然而，仅依靠TTV无法对齐具体问题指令的需求。为此，方法进一步引入IGA模块，通过利用文本指令与视觉Token之间的注意力关联，显式建模当前问题对不同视觉区域的关注程度，从而为Token筛选提供任务层面的约束与引导。 03 实验结果：对比现有within-LLM的裁剪方法领先论文对比了现有的within-LLM的方法，证明TransPrune在较低的TFLOPs的情况下仍然取得了性能的领先。论文还探索了TransPrune与projector-based压缩方法的组合效果。当将其与VisionZip等方法结合使用时，在额外减少约三分之一计算量的情况下，模型性能仅出现极小幅度下降，表明Token Transition所刻画的“动态重要性”与现有projector-based压缩范式具有良好的互补性，不仅可以独立发挥作用，还能够作为插件式模块嵌入到其他高效推理框架中，从而进一步提升整体计算效率。 04 结语通过发现并量化Token Transition这一现象，论文发现了一个全新的视觉Token重要性的衡量角度：不再仅仅取决于它在某一层中“被关注的程度”，还体现在它在整个网络传播过程中“持续演化的强度”。基于这一观察，论文提出了TransPrune剪枝框架，在多个主流视觉语言模型上实现了显著的推理加速，并保持了优异的性能表现。这项工作不仅能够为高效视觉语言模型研究提供新的解决方案，也能够启发研究者从动态表征演化的角度重新理解Transformer中的信息流动过程，为未来的多模态模型高效推理带来更多可能性。雷峰网上车，带你看遍全球 AI 顶会精华可独家畅览：专家演讲PPT 大会报告全文热门论文解读学术新星访谈扫描上方二维码或点击「阅读原文」关注专区。

雷峰雷峰网Updated 4h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.