令牌压缩与紧凑视觉Transformer：面向边缘AI的综述与对比评估

1. 引言

视觉Transformer（ViTs）凭借其强大的表征学习能力彻底改变了计算机视觉领域。然而，其相对于令牌序列长度的二次计算复杂度为在资源受限的边缘设备上部署带来了重大挑战。本文解决了两个关键空白：缺乏系统分类令牌压缩方法的统一综述，以及这些方法在紧凑Transformer架构上评估的局限性。

2. 令牌压缩分类法

令牌压缩技术可根据其核心策略和部署需求进行系统分类。

2.1 基于剪枝的方法

剪枝方法根据重要性分数选择性移除信息量较少的令牌。DynamicViT和SPViT使用可学习的预测器来确定令牌重要性，而EViT和ATS则采用启发式方法。

2.2 基于合并的方法

合并技术将多个令牌组合成代表性嵌入。ToMe和PiToMe使用硬合并策略，而SiT和Sinkhorn采用软加权平均方法。

2.3 混合方法

像ToFu和DiffRate这样的混合方法结合了剪枝和合并策略，在保持模型性能的同时实现最佳压缩比。

3. 技术框架

3.1 数学表述

令牌压缩问题可以表述为优化计算效率与模型性能之间的权衡。给定输入令牌$X = \{x_1, x_2, ..., x_N\}$，目标是生成压缩令牌$X' = \{x'_1, x'_2, ..., x'_M\}$，其中$M < N$，同时最小化性能下降。

标准ViT中的注意力机制复杂度为$O(N^2d)$，其中$N$是序列长度，$d$是嵌入维度。令牌压缩将其降低到$O(M^2d)$或更好。

3.2 实现细节

令牌压缩模块可以插入Transformer架构的不同层。早期压缩能保留更多计算节省，但可能移除关键信息，而后期压缩以降低效率增益为代价保持准确性。

4. 实验评估

4.1 标准ViT性能

在标准ViT架构（ViT-B、ViT-L）上，令牌压缩方法实现了30-50%的FLOPs减少，且精度下降最小（通常在ImageNet上<1%）。与静态方法相比，像SPViT这样的动态方法显示出更好的精度-效率权衡。

4.2 紧凑ViT性能

当应用于紧凑ViT（AutoFormer、ElasticViT）时，令牌压缩方法的效果有所降低。压缩架构已经具有优化的令牌表示，使得在不显著降低精度的情况下进行进一步压缩具有挑战性。

4.3 边缘部署指标

在边缘设备上的评估显示，令牌压缩可以将推理延迟降低25-40%，内存使用降低30-50%，使得ViT在移动和嵌入式系统上的实时应用更加实用。

5. 代码实现

以下是使用ToMe方法进行令牌合并的简化Python实现：

import torch
import torch.nn as nn

class TokenMerging(nn.Module):
    def __init__(self, dim, reduction_ratio=0.5):
        super().__init__()
        self.dim = dim
        self.reduction_ratio = reduction_ratio
        
    def forward(self, x):
        # x: [B, N, C]
        B, N, C = x.shape
        M = int(N * self.reduction_ratio)
        
        # 计算令牌相似度
        similarity = torch.matmul(x, x.transpose(-1, -2))  # [B, N, N]
        
        # 选择要保留的top-k令牌
        values, indices = torch.topk(similarity.mean(dim=-1), M, dim=-1)
        
        # 合并相似令牌
        compressed_x = x.gather(1, indices.unsqueeze(-1).expand(-1, -1, C))
        
        return compressed_x

6. 未来应用

令牌压缩技术在各种边缘AI应用中展现出潜力，包括实时视频分析、自动驾驶系统和移动视觉应用。未来的研究应关注基于输入复杂度和硬件约束动态调整的自适应压缩比。与神经架构搜索（NAS）的集成可以产生针对特定部署场景优化的压缩策略。

7. 参考文献

Dosovitskiy等人。《一张图像值16x16个词：用于大规模图像识别的Transformer》。ICLR 2021。
Wang等人。《金字塔视觉Transformer：无需卷积的密集预测通用骨干网络》。ICCV 2021。
Liu等人。《Swin Transformer：使用移位窗口的分层视觉Transformer》。ICCV 2021。
Chen等人。《DynamicViT：具有动态令牌稀疏化的高效视觉Transformer》。NeurIPS 2021。
Bolya等人。《用于快速稳定扩散的令牌合并》。CVPR 2023。

原始分析

这份关于视觉Transformer令牌压缩的全面综述对高效深度学习领域做出了重要贡献。作者通过不仅评估这些技术在标准ViT架构上的表现，还评估其在为边缘部署设计的紧凑变体上的表现，系统地解决了文献中的一个关键空白。这种双重评估方法揭示了重要见解：虽然令牌压缩方法在通用ViT上实现了令人印象深刻的效率提升（FLOPs减少30-50%且精度损失最小），但当应用于已经紧凑的架构时，其效果会减弱。这一发现与其他模型压缩领域的观察结果一致，其中复合优化技术通常表现出收益递减。

表I中呈现的分类法为理解令牌压缩方法的格局提供了一个有价值的框架。按压缩方法（剪枝、合并、混合）和缩减类型（静态、动态、硬、软）进行的分类为研究人员和实践者提供了根据其特定需求选择适当技术的清晰路线图。包含训练要求对于微调可能不可行的部署场景特别有用。

从技术角度来看，将令牌压缩表述为计算效率与模型性能之间的优化问题，呼应了在其他计算机视觉领域探索的类似权衡。例如，StyleGAN中的渐进增长技术和DETR中的注意力机制展示了模型复杂性与性能之间类似的平衡行为。从$O(N^2d)$到$O(M^2d)$的二次复杂度降低，反映了在稀疏注意力机制中实现的效率增益，正如在自然语言处理中的Longformer和BigBird等模型中所见。

关于在紧凑ViT上效果减弱的实验发现突出了一个重要的研究方向。正如原始CycleGAN论文及后续高效GAN研究中所指出的，架构优化通常创建紧密耦合的组件，其中进一步压缩需要整体重新考虑，而不是模块化应用现有技术。这表明未来的工作应关注协同设计方法，在架构搜索阶段集成令牌压缩策略，而不是作为后处理步骤应用。

对边缘AI部署的实际影响是重大的。随着从自动驾驶汽车到移动医疗等应用场景中设备端AI处理的重要性日益增长，能够使Transformer架构在资源受限硬件上可行的技术越来越有价值。报告的25-40%延迟降低和30-50%内存节省在许多实际场景中可能是可行与不可行部署之间的关键区别。

展望未来，令牌压缩与神经架构搜索的集成，如未来应用部分所暗示的，代表了一个有前景的方向。与卷积网络中模型压缩的演变类似，其中NetAdapt和AMC等技术展示了硬件感知优化的好处，我们可以预期会看到更多关注针对特定部署约束的Transformer架构端到端优化。新兴的可微分神经架构搜索（DNAS）领域可能为直接从部署目标学习最优压缩策略提供技术基础。

目录