Token壓縮技術與精簡視覺Transformer：邊緣AI應用之綜述與比較評估

1. 緒論

視覺Transformer（ViTs）以其強大的表徵學習能力徹底改變了電腦視覺領域。然而，其與Token序列長度相關的二次計算複雜度，對資源受限的邊緣裝置部署構成了重大挑戰。本文旨在解決兩個關鍵缺口：缺乏系統性分類Token壓縮方法的統一綜述，以及這些方法在精簡Transformer架構上的評估有限。

2. Token壓縮分類法

Token壓縮技術可根據其核心策略與部署需求進行系統性分類。

2.1 基於剪枝的方法

剪枝方法根據重要性分數選擇性移除資訊量較少的Token。DynamicViT和SPViT使用可學習的預測器來決定Token重要性，而EViT和ATS則採用啟發式方法。

2.2 基於合併的方法

合併技術將多個Token組合成具代表性的嵌入。ToMe和PiToMe使用硬合併策略，而SiT和Sinkhorn則採用軟性的加權平均方法。

2.3 混合方法

如ToFu和DiffRate等混合方法結合了剪枝與合併策略，在維持模型效能的同時實現最佳壓縮比。

3. 技術框架

3.1 數學公式

Token壓縮問題可表述為最佳化計算效率與模型效能之間的權衡。給定輸入Token $X = \{x_1, x_2, ..., x_N\}$，目標是產生壓縮後的Token $X' = \{x'_1, x'_2, ..., x'_M\}$，其中 $M < N$，同時最小化效能下降。

標準ViT中的注意力機制複雜度為 $O(N^2d)$，其中 $N$ 為序列長度，$d$ 為嵌入維度。Token壓縮可將其降低至 $O(M^2d)$ 或更佳。

3.2 實作細節

Token壓縮模組可插入Transformer架構的各個層級。早期壓縮能保留更多計算節省，但可能移除關鍵資訊；而晚期壓縮則以降低效率增益為代價來維持準確度。

4. 實驗評估

4.1 標準ViT效能

在標準ViT架構（ViT-B、ViT-L）上，Token壓縮方法可實現30-50%的FLOPs減少，且準確度下降極小（通常在ImageNet上<1%）。與靜態方法相比，如SPViT等動態方法展現出更佳的準確度-效率權衡。

4.2 精簡ViT效能

當應用於精簡ViT（AutoFormer、ElasticViT）時，Token壓縮方法的效果有所降低。這些壓縮架構已具備最佳化的Token表示，使得進一步壓縮在沒有顯著準確度下降的情況下變得困難。

4.3 邊緣部署指標

在邊緣裝置上的評估顯示，Token壓縮可降低25-40%的推論延遲與30-50%的記憶體使用量，使ViT更適用於行動與嵌入式系統的即時應用。

5. 程式碼實作

以下是使用ToMe方法進行Token合併的簡化Python實作：

import torch
import torch.nn as nn

class TokenMerging(nn.Module):
    def __init__(self, dim, reduction_ratio=0.5):
        super().__init__()
        self.dim = dim
        self.reduction_ratio = reduction_ratio
        
    def forward(self, x):
        # x: [B, N, C]
        B, N, C = x.shape
        M = int(N * self.reduction_ratio)
        
        # 計算Token相似度
        similarity = torch.matmul(x, x.transpose(-1, -2))  # [B, N, N]
        
        # 選取要保留的top-k Token
        values, indices = torch.topk(similarity.mean(dim=-1), M, dim=-1)
        
        # 合併相似Token
        compressed_x = x.gather(1, indices.unsqueeze(-1).expand(-1, -1, C))
        
        return compressed_x

6. 未來應用

Token壓縮技術在各種邊緣AI應用中展現潛力，包括即時影片分析、自動駕駛系統與行動視覺應用。未來研究應聚焦於自適應壓縮比，能根據輸入複雜度與硬體限制動態調整。與神經架構搜尋（NAS）的整合可產生針對特定部署情境量身訂做的最佳化壓縮策略。

7. 參考文獻

Dosovitskiy等人，「一張影像價值16x16個詞：大規模影像識別之Transformer」，ICLR 2021。
Wang等人，「金字塔視覺Transformer：無卷積之密集預測多功能骨幹」，ICCV 2021。
Liu等人，「Swin Transformer：使用移位視窗的階層式視覺Transformer」，ICCV 2021。
Chen等人，「DynamicViT：具動態Token稀疏化之高效視覺Transformer」，NeurIPS 2021。
Bolya等人，「用於快速穩定擴散之Token合併」，CVPR 2023。

原始分析

這篇關於視覺Transformer Token壓縮的全面綜述，對高效深度學習領域做出了重要貢獻。作者不僅在標準ViT架構上評估這些技術，亦在為邊緣部署設計的精簡變體上進行評估，系統性地解決了文獻中的關鍵缺口。此雙重評估方法揭示了重要見解：雖然Token壓縮方法在通用ViT上實現了令人印象深刻的效率增益（30-50% FLOPs減少且準確度損失極小），但其在應用於已精簡的架構時效果會減弱。此發現與其他模型壓縮領域的觀察一致，其中複合的最佳化技術通常呈現收益遞減。

表I中呈現的分類法為理解Token壓縮方法的全貌提供了有價值的框架。按壓縮方法（剪枝、合併、混合）與縮減類型（靜態、動態、硬性、軟性）的分類，為研究人員與從業者根據其特定需求選擇合適技術提供了清晰的路線圖。訓練需求的納入對於微調可能不可行的部署情境特別有用。

從技術角度來看，將Token壓縮表述為計算效率與模型效能之間的優化問題，呼應了在其他電腦視覺領域中探索的類似權衡。例如，StyleGAN中的漸進式增長技術與DETR中的注意力機制，展示了模型複雜度與效能之間類似的平衡行為。從 $O(N^2d)$ 到 $O(M^2d)$ 的二次複雜度降低，反映了在稀疏注意力機制中實現的效率增益，如同在自然語言處理的Longformer和BigBird等模型中所見。

關於在精簡ViT上效果減弱的實驗發現，凸顯了一個重要的研究方向。正如原始CycleGAN論文及後續高效GAN研究中所指出的，架構最佳化通常會創建緊密耦合的元件，其中進一步壓縮需要整體重新考慮，而非模組化應用現有技術。這表明未來工作應聚焦於協同設計方法，在架構搜尋階段即整合Token壓縮策略，而非作為後處理步驟應用。

對邊緣AI部署的實際影響是巨大的。隨著從自動駕駛車輛到行動醫療等應用中裝置端AI處理的重要性日益增長，能夠使Transformer架構在資源受限的硬體上可行的技術越來越有價值。所報告的25-40%延遲降低與30-50%記憶體節省，在許多實際情境中可能是可行與不可行部署之間的關鍵差異。

展望未來，如未來應用章節所暗示的，Token壓縮與神經架構搜尋的整合代表了一個有前景的方向。類似於卷積網路中模型壓縮的演進，其中如NetAdapt和AMC等技術展示了硬體感知最佳化的益處，我們可以預期會看到更多針對特定部署限制的Transformer架構端到端最佳化關注。新興的可微分神經架構搜尋（DNAS）領域可為直接從部署目標學習最佳壓縮策略提供技術基礎。

目錄