Home ›
Technology ›
GAIR Paper 106|追踪视觉 Token 的演化轨迹,实现无损压缩与 60% 推理加速|CVPR 2026
Technology
GAIR Paper 106|追踪视觉 Token 的演化轨迹,实现无损压缩与 60% 推理加速|CVPR 2026
从“谁被关注”到“谁在变化”,重新定义Token的重要性。 作者丨李傲 中国人民大学 近年来,以LLaVA、Qwen系列为代表的大视觉语言模型(LVLM)推动了多模态智能的发展,在视觉理解与推理任务中展现不错的表现。然而,其伴随着高昂的推理成本。面对高分辨率图像或者视频时,模型往往需要处理大量视觉Token,而这些Token会在整个推理过程中持续参与计算,成为制约模型效率的重要瓶颈。因此,如何识别并保留真正重要的视觉Token,在尽可能不影响性能的前提下降低计算开销,已成为当前多模态大模型研究的重要课题。 来自山东大学,MBZUAI的研究团队提出了TransPrune:从演化的视角衡量视觉Token的重要性,在保持整体性能无损的同时,将推理成本降低60%。 论文arxiv链接:https://arxiv.org/abs/2507.20630 代码:https://github.com/liaolea/TransPrune 01 重要的Token不仅是“被关注的”,还是“持续演化”的 现有Token Pruning方法大多依赖Attention Score或Token Similarity来衡量视觉Token的重要性,但这些方法在实际使用中都存在一定局限性。 基于Attention的方法通常假设“被关注得多的Token就更重要”,然而Attention本身存在位置偏差 (Attention Sink),使得一些与语义无关的Token也可能获得较高的注意力权重,从而影响重要性判断的准确性。 基于Token Similarity的方法则主要从冗余性角度出发,通过衡量Token之间的相似程度来进行融合,但这类方法往往忽略了具体任务指令的影响,难以针对不同问题动态调整Token的重要性分配。 论文发现,除了依赖某一层的Attention分数来判断Token的重要性,还可以观察Token在整个前向传播过程中的“变化轨迹”。当一个视觉Token承载更重要的语义信息时,它在传播中往往会经历更显著的表征变化。重要Token并不是静态存在的,而是在模型内部持续发生“演化”。 基于这一观察,论文将这种变化定义为Token Transition,并从两个维度对其进行量化:一方面是Magnitude Change,即Token向量L2范数的变化,重要语义Token通常会表现出更明显的幅值变化;另一方面是Direction Change,即Token表示方向的偏移,通过输入与输出表示之间的余弦相似度进行衡量。 实验结果表明,真正重要的Token往往同时具有更大的Magnitude变化和更显著的Direction变化,且这一现象在LLM的中间层尤为突出。 02 TransPrune: 基于Token演化的渐进式Token压缩方法 TransPrune整体方法由两个互补模块构成:Token Transition Variation(TTV)与Instruction-Guided Attention(IGA),分别从“Token自身在网络中的演化轨迹”和“任务语义对Token的显式约束”两个角度衡量视觉Token的重要性。 TTV作为核心评分机制,在模型前向传播过程中持续跟踪每个视觉Token在不同层之间的表示变化,并将这种变化量化为统一的重要性得分,实现对Token“动态重要性”的估计。 单层的TTV往往具有较强噪声,容易受到局部波动或特定层结构的影响,导致重要性判断不稳定。相比之下,如果观察Token在多个层中的持续变化趋势,就可以更可靠地捕捉其“长期语义贡献”。因此,论文对TTV引入了跨层累积机制来获得更加稳定Token的重要性估计。 然而,仅依靠TTV无法对齐具体问题指令的需求。为此,方法进一步引入IGA模块,通过利用文本指令与视觉Token之间的注意力关联,显式建模当前问题对不同视觉区域的关注程度,从而为Token筛选提供任务层面的约束与引导。 03 实验结果:对比现有within-LLM的裁剪方法领先 论文对比了现有的within-LLM的方法,证明TransPrune在较低的TFLOPs的情况下仍然取得了性能的领先。 论文还探索了TransPrune与projector-based压缩方法的组合效果。当将其与VisionZip等方法结合使用时,在额外减少约三分之一计算量的情况下,模型性能仅出现极小幅度下降,表明Token Transition所刻画的“动态重要性”与现有projector-based压缩范式具有良好的互补性,不仅可以独立发挥作用,还能够作为插件式模块嵌入到其他高效推理框架中,从而进一步提升整体计算效率。 04 结语 通过发现并量化Token Transition这一现象,论文发现了一个全新的视觉Token重要性的衡量角度:不再仅仅取决于它在某一层中“被关注的程度”,还体现在它在整个网络传播过程中“持续演化的强度”。 基于这一观察,论文提出了TransPrune剪枝框架,在多个主流视觉语言模型上实现了显著的推理加速,并保持了优异的性能表现。 这项工作不仅能够为高效视觉语言模型研究提供新的解决方案,也能够启发研究者从动态表征演化的角度重新理解Transformer中的信息流动过程,为未来的多模态模型高效推理带来更多可能性。 雷峰网 上车,带你看遍全球 AI 顶会精华 可独家畅览: 专家演讲PPT 大会报告全文 热门论文解读 学术新星访谈 扫描上方二维码 或点击「阅读原文」关注专区。
雷峰 雷峰网Updated 4h ago 1 min read
从“谁被关注”到“谁在变化”,重新定义Token的重要性。 作者丨李傲 中国人民大学 近年来,以LLaVA、Qwen系列为代表的大视觉语言模型(LVLM)推动了多模态智能的发展,在视觉理解与推理任务中展现不错的表现。然而,其伴随着高昂的推理成本。面对高分辨率图像或者视频时,模型往往需要处理大量视觉Token,而这些Token会在整个推理过程中持续参与计算,成为制约模型效率的重要瓶颈。因此,如何识别并保留真正重要的视觉Token,在尽可能不影响性能的前提下降低计算开销,已成为当前多模态大模型研究的重要课题。 来自山东大学,MBZUAI的研究团队提出了TransPrune:从演化的视角衡量视觉Token的重要性,在保持整体性能无损的同时,将推理成本降低60%。 论文arxiv链接:https://arxiv.org/abs/2507.20630 代码:https://github.com/liaolea/TransPrune 01 重要的Token不仅是“被关注的”,还是“持续演化”的 现有Token Pruning方法大多依赖Attention Score或Token Similarity来衡量视觉Token的重要性,但这些方法在实际使用中都存在一定局限性。 基于Attention的方法通常假设“被关注得多的Token就更重要”,然而Attention本身存在位置偏差 (Attention Sink),使得一些与语义无关的Token也可能获得较高的注意力权重,从而影响重要性判断的准确性。 基于Token Similarity的方法则主要从冗余性角度出发,通过衡量Token之间的相似程度来进行融合,但这类方法往往忽略了具体任务指令的影响,难以针对不同问题动态调整Token的重要性分配。 论文发现,除了依赖某一层的Attention分数来判断Token的重要性,还可以观察Token在整个前向传播过程中的“变化轨迹”。当一个视觉Token承载更重要的语义信息时,它在传播中往往会经历更显著的表征变化。重要Token并不是静态存在的,而是在模型内部持续发生“演化”。 基于这一观察,论文将这种变化定义为Token Transition,并从两个维度对其进行量化:一方面是Magnitude Change,即Token向量L2范数的变化,重要语义Token通常会表现出更明显的幅值变化;另一方面是Direction Change,即Token表示方向的偏移,通过输入与输出表示之间的余弦相似度进行衡量。 实验结果表明,真正重要的Token往往同时具有更大的Magnitude变化和更显著的Direction变化,且这一现象在LLM的中间层尤为突出。 02 TransPrune: 基于Token演化的渐进式Token压缩方法 TransPrune整体方法由两个互补模块构成:Token Transition Variation(TTV)与Instruction-Guided Attention(IGA),分别从“Token自身在网络中的演化轨迹”和“任务语义对Token的显式约束”两个角度衡量视觉Token的重要性。 TTV作为核心评分机制,在模型前向传播过程中持续跟踪每个视觉Token在不同层之间的表示变化,并将这种变化量化为统一的重要性得分,实现对Token“动态重要性”的估计。 单层的TTV往往具有较强噪声,容易受到局部波动或特定层结构的影响,导致重要性判断不稳定。相比之下,如果观察Token在多个层中的持续变化趋势,就可以更可靠地捕捉其“长期语义贡献”。因此,论文对TTV引入了跨层累积机制来获得更加稳定Token的重要性估计。 然而,仅依靠TTV无法对齐具体问题指令的需求。为此,方法进一步引入IGA模块,通过利用文本指令与视觉Token之间的注意力关联,显式建模当前问题对不同视觉区域的关注程度,从而为Token筛选提供任务层面的约束与引导。 03 实验结果:对比现有within-LLM的裁剪方法领先 论文对比了现有的within-LLM的方法,证明TransPrune在较低的TFLOPs的情况下仍然取得了性能的领先。 论文还探索了TransPrune与projector-based压缩方法的组合效果。当将其与VisionZip等方法结合使用时,在额外减少约三分之一计算量的情况下,模型性能仅出现极小幅度下降,表明Token Transition所刻画的“动态重要性”与现有projector-based压缩范式具有良好的互补性,不仅可以独立发挥作用,还能够作为插件式模块嵌入到其他高效推理框架中,从而进一步提升整体计算效率。 04 结语 通过发现并量化Token Transition这一现象,论文发现了一个全新的视觉Token重要性的衡量角度:不再仅仅取决于它在某一层中“被关注的程度”,还体现在它在整个网络传播过程中“持续演化的强度”。 基于这一观察,论文提出了TransPrune剪枝框架,在多个主流视觉语言模型上实现了显著的推理加速,并保持了优异的性能表现。 这项工作不仅能够为高效视觉语言模型研究提供新的解决方案,也能够启发研究者从动态表征演化的角度重新理解Transformer中的信息流动过程,为未来的多模态模型高效推理带来更多可能性。 雷峰网 上车,带你看遍全球 AI 顶会精华 可独家畅览: 专家演讲PPT 大会报告全文 热门论文解读 学术新星访谈 扫描上方二维码 或点击「阅读原文」关注专区。
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.