فهرست مطالب
1. مقدمه
ترنسفورمرهای دیداری (ViTs) با قابلیتهای قدرتمند یادگیری بازنمایی، انقلابی در بینایی کامپیوتر ایجاد کردهاند. با این حال، پیچیدگی محاسباتی درجه دوم آنها نسبت به طول دنباله توکن، چالشهای قابل توجهی برای استقرار روی دستگاههای لبه با منابع محدود ایجاد میکند. این مقاله دو شکاف حیاتی را مورد توجه قرار میدهد: فقدان بررسی یکپارچه که به طور سیستماتیک رویکردهای فشردهسازی توکن را دستهبندی میکند و ارزیابی محدود این روشها روی معماریهای ترنسفورمر فشرده.
2. طبقهبندی فشردهسازی توکن
تکنیکهای فشردهسازی توکن را میتوان بر اساس استراتژیهای اصلی و نیازمندیهای استقرار، به طور سیستماتیک دستهبندی کرد.
2.1 روشهای مبتنی بر هرس
روشهای هرس، توکنهای کماطلاعتر را بر اساس امتیازات اهمیت به صورت انتخابی حذف میکنند. DynamicViT و SPViT از پیشبینهای قابل یادگیری برای تعیین اهمیت توکن استفاده میکنند، در حالی که EViT و ATS از رویکردهای اکتشافی بهره میبرند.
2.2 روشهای مبتنی بر ادغام
تکنیکهای ادغام، چندین توکن را در بازنماییهای جاسازی شده نماینده ترکیب میکنند. ToMe و PiToMe از استراتژیهای ادغام سخت استفاده میکنند، در حالی که SiT و Sinkhorn از رویکردهای میانگینگیری وزنی نرم بهره میبرند.
2.3 رویکردهای ترکیبی
روشهای ترکیبی مانند ToFu و DiffRate، استراتژیهای هرس و ادغام را برای دستیابی به نسبتهای فشردهسازی بهینه در حالی که عملکرد مدل حفظ میشود، ترکیب میکنند.
3. چارچوب فنی
3.1 فرمولبندی ریاضی
مسئله فشردهسازی توکن را میتوان به عنوان بهینهسازی مبادله بین کارایی محاسباتی و عملکرد مدل فرمولبندی کرد. با توجه به توکنهای ورودی $X = \{x_1, x_2, ..., x_N\}$، هدف تولید توکنهای فشرده $X' = \{x'_1, x'_2, ..., x'_M\}$ است که در آن $M < N$، در حالی که تخریب عملکرد به حداقل میرسد.
مکانیزم توجه در ترنسفورمرهای دیداری استاندارد دارای پیچیدگی $O(N^2d)$ است که در آن $N$ طول دنباله و $d$ بعد جاسازی است. فشردهسازی توکن این را به $O(M^2d)$ یا بهتر کاهش میدهد.
3.2 جزئیات پیادهسازی
ماژولهای فشردهسازی توکن را میتوان در لایههای مختلف معماری ترنسفورمر قرار داد. فشردهسازی زودهنگام صرفهجویی محاسباتی بیشتری حفظ میکند اما ممکن است اطلاعات حیاتی را حذف کند، در حالی که فشردهسازی دیرهنگام دقت را به بهای کاهش دستاوردهای کارایی حفظ میکند.
4. ارزیابی تجربی
4.1 عملکرد ترنسفورمر دیداری استاندارد
روی معماریهای ترنسفورمر دیداری استاندارد (ViT-B, ViT-L)، روشهای فشردهسازی توکن به کاهش ۳۰-۵۰ درصدی در FLOPs با افت دقت حداقلی (معمولاً کمتر از ۱٪ روی ImageNet) دست مییابند. روشهای پویا مانند SPViT در مقایسه با رویکردهای ایستا، مبادله دقت-کارایی بهتری نشان میدهند.
4.2 عملکرد ترنسفورمر دیداری فشرده
هنگامی که روی ترنسفورمرهای دیداری فشرده (AutoFormer, ElasticViT) اعمال میشوند، روشهای فشردهسازی توکن اثربخشی کاهشیافتهای نشان میدهند. معماریهای فشرده از قبل دارای بازنماییهای توکن بهینهشده هستند که فشردهسازی بیشتر را بدون تخریب قابل توجه دقت چالشبرانگیز میکند.
4.3 معیارهای استقرار لبه
ارزیابی روی دستگاههای لبه نشان میدهد که فشردهسازی توکن میتواند تأخیر استنتاج را ۲۵-۴۰ درصد و استفاده از حافظه را ۳۰-۵۰ درصد کاهش دهد که ترنسفورمرهای دیداری را برای کاربردهای بلادرنگ روی سیستمهای موبایل و توکار عملیتر میکند.
5. پیادهسازی کد
در زیر یک پیادهسازی ساده شده پایتون از ادغام توکن با استفاده از رویکرد ToMe آورده شده است:
import torch
import torch.nn as nn
class TokenMerging(nn.Module):
def __init__(self, dim, reduction_ratio=0.5):
super().__init__()
self.dim = dim
self.reduction_ratio = reduction_ratio
def forward(self, x):
# x: [B, N, C]
B, N, C = x.shape
M = int(N * self.reduction_ratio)
# Compute token similarity
similarity = torch.matmul(x, x.transpose(-1, -2)) # [B, N, N]
# Select top-k tokens to keep
values, indices = torch.topk(similarity.mean(dim=-1), M, dim=-1)
# Merge similar tokens
compressed_x = x.gather(1, indices.unsqueeze(-1).expand(-1, -1, C))
return compressed_x6. کاربردهای آینده
تکنیکهای فشردهسازی توکن برای کاربردهای مختلف هوش مصنوعی لبه از جمله تحلیل ویدیوی بلادرنگ، سیستمهای رانندگی خودکار و کاربردهای بینایی موبایل نویدبخش هستند. تحقیقات آینده باید بر نسبتهای فشردهسازی تطبیقی متمرکز شود که به صورت پویا بر اساس پیچیدگی ورودی و محدودیتهای سختافزاری تنظیم میشوند. یکپارچهسازی با جستجوی معماری عصبی (NAS) میتواند استراتژیهای فشردهسازی بهینهشده متناسب با سناریوهای استقرار خاص را به دست دهد.
7. مراجع
- Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
- Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions." ICCV 2021.
- Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows." ICCV 2021.
- Chen et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
- Bolya et al. "Token Merging for Fast Stable Diffusion." CVPR 2023.
تحلیل اصلی
این بررسی جامع در مورد فشردهسازی توکن برای ترنسفورمرهای دیداری، نمایانگر یک مشارکت قابل توجه در زمینه یادگیری عمیق کارآمد است. نویسندگان به طور سیستماتیک یک شکاف حیاتی در ادبیات را با ارزیابی این تکنیکها نه تنها روی معماریهای ترنسفورمر دیداری استاندارد، بلکه روی انواع فشرده طراحیشده برای استقرار لبه مورد توجه قرار میدهند. این رویکرد ارزیابی دوگانه، بینشهای مهمی را آشکار میکند: در حالی که روشهای فشردهسازی توکن روی ترنسفورمرهای دیداری همهمنظوره به دستاوردهای کارایی چشمگیری (کاهش ۳۰-۵۰ درصدی FLOPs با افت دقت حداقلی) دست مییابند، اثربخشی آنها هنگامی که روی معماریهای از قبل فشرده اعمال میشوند کاهش مییابد. این یافته با مشاهدات از دیگر حوزههای فشردهسازی مدل همسو است، جایی که تکنیکهای بهینهسازی ترکیبی اغلب بازدهی کاهشیافتهای نشان میدهند.
طبقهبندی ارائهشده در جدول I، یک چارچوب ارزشمند برای درک چشمانداز روشهای فشردهسازی توکن فراهم میکند. دستهبندی بر اساس رویکرد فشردهسازی (هرس، ادغام، ترکیبی) و نوع کاهش (ایستا، پویا، سخت، نرم) به محققان و متخصصان یک نقشه راه واضح برای انتخاب تکنیکهای مناسب بر اساس نیازمندیهای خاصشان ارائه میدهد. گنجاندن نیازمندیهای آموزش به ویژه برای سناریوهای استقرار که در آن تنظیم دقیق ممکن است امکانپذیر نباشد، مفید است.
از دیدگاه فنی، فرمولبندی ریاضی فشردهسازی توکن به عنوان یک مسئله بهینهسازی بین کارایی محاسباتی و عملکرد مدل، بازتابدهنده مبادلات مشابهی است که در دیگر حوزههای بینایی کامپیوتر بررسی شدهاند. برای مثال، تکنیکهای رشد تدریجی در StyleGAN و مکانیزمهای توجه در DETR، تعادلهای مشابهی بین پیچیدگی مدل و عملکرد را نشان میدهند. کاهش پیچیدگی درجه دوم از $O(N^2d)$ به $O(M^2d)$، بازتابدهنده دستاوردهای کارایی حاصل شده در مکانیزمهای توجه پراکنده است، همانطور که در مدلهایی مانند Longformer و BigBird برای پردازش زبان طبیعی دیده میشود.
یافتههای تجربی در مورد اثربخشی کاهشیافته روی ترنسفورمرهای دیداری فشرده، یک جهت تحقیقاتی مهم را برجسته میکند. همانطور که در مقاله اصلی CycleGAN و کارهای بعدی در مورد GANهای کارآمد اشاره شده است، بهینهسازیهای معماری اغلب مؤلفههای به هم پیوسته محکمی ایجاد میکنند که در آن فشردهسازی بیشتر نیاز به بازنگری کلی دارد تا کاربرد مدولار تکنیکهای موجود. این نشان میدهد که کار آینده باید بر رویکردهای همطراحی متمرکز شود که در آن استراتژیهای فشردهسازی توکن در مرحله جستجوی معماری یکپارچه میشوند نه به عنوان مراحل پسپردازش اعمال شوند.
پیامدهای عملی برای استقرار هوش مصنوعی لبه قابل توجه است. با اهمیت فزاینده پردازش هوش مصنوعی روی دستگاه برای کاربردهایی از وسایل نقلیه خودران تا سلامت موبایل، تکنیکهایی که میتوانند معماریهای ترنسفورمر را روی سختافزارهای با منابع محدود عملی کنند، به طور فزایندهای ارزشمند هستند. کاهش تأخیر ۲۵-۴۰ درصدی و صرفهجویی حافظه ۳۰-۵۰ درصدی گزارششده میتواند تفاوت بین استقرار امکانپذیر و غیرممکن در بسیاری از سناریوهای دنیای واقعی باشد.
با نگاه به آینده، یکپارچهسازی فشردهسازی توکن با جستجوی معماری عصبی، همانطور که در بخش کاربردهای آینده اشاره شد، نمایانگر یک جهت امیدوارکننده است. مشابه تکامل فشردهسازی مدل در شبکههای کانولوشنی، جایی که تکنیکهایی مانند NetAdapt و AMC مزایای بهینهسازی آگاه از سختافزار را نشان دادند، میتوانیم انتظار تمرکز فزاینده بر بهینهسازی end-to-end معماریهای ترنسفورمر برای محدودیتهای استقرار خاص را داشته باشیم. زمینه نوظهور جستجوی معماری عصبی مشتقپذیر (DNAS) میتواند پایه فنی برای یادگیری استراتژیهای فشردهسازی بهینه مستقیماً از اهداف استقرار فراهم کند.