فشرده‌سازی توکن و ترنسفورمرهای دیداری فشرده: بررسی و ارزیابی تطبیقی برای هوش مصنوعی لبه

فهرست مطالب

1. مقدمه

ترنسفورمرهای دیداری (ViTs) با قابلیت‌های قدرتمند یادگیری بازنمایی، انقلابی در بینایی کامپیوتر ایجاد کرده‌اند. با این حال، پیچیدگی محاسباتی درجه دوم آنها نسبت به طول دنباله توکن، چالش‌های قابل توجهی برای استقرار روی دستگاه‌های لبه با منابع محدود ایجاد می‌کند. این مقاله دو شکاف حیاتی را مورد توجه قرار می‌دهد: فقدان بررسی یکپارچه که به طور سیستماتیک رویکردهای فشرده‌سازی توکن را دسته‌بندی می‌کند و ارزیابی محدود این روش‌ها روی معماری‌های ترنسفورمر فشرده.

2. طبقه‌بندی فشرده‌سازی توکن

تکنیک‌های فشرده‌سازی توکن را می‌توان بر اساس استراتژی‌های اصلی و نیازمندی‌های استقرار، به طور سیستماتیک دسته‌بندی کرد.

2.1 روش‌های مبتنی بر هرس

روش‌های هرس، توکن‌های کم‌اطلاع‌تر را بر اساس امتیازات اهمیت به صورت انتخابی حذف می‌کنند. DynamicViT و SPViT از پیش‌بین‌های قابل یادگیری برای تعیین اهمیت توکن استفاده می‌کنند، در حالی که EViT و ATS از رویکردهای اکتشافی بهره می‌برند.

2.2 روش‌های مبتنی بر ادغام

تکنیک‌های ادغام، چندین توکن را در بازنمایی‌های جاسازی شده نماینده ترکیب می‌کنند. ToMe و PiToMe از استراتژی‌های ادغام سخت استفاده می‌کنند، در حالی که SiT و Sinkhorn از رویکردهای میانگین‌گیری وزنی نرم بهره می‌برند.

2.3 رویکردهای ترکیبی

روش‌های ترکیبی مانند ToFu و DiffRate، استراتژی‌های هرس و ادغام را برای دستیابی به نسبت‌های فشرده‌سازی بهینه در حالی که عملکرد مدل حفظ می‌شود، ترکیب می‌کنند.

3. چارچوب فنی

3.1 فرمول‌بندی ریاضی

مسئله فشرده‌سازی توکن را می‌توان به عنوان بهینه‌سازی مبادله بین کارایی محاسباتی و عملکرد مدل فرمول‌بندی کرد. با توجه به توکن‌های ورودی $X = \{x_1, x_2, ..., x_N\}$، هدف تولید توکن‌های فشرده $X' = \{x'_1, x'_2, ..., x'_M\}$ است که در آن $M < N$، در حالی که تخریب عملکرد به حداقل می‌رسد.

مکانیزم توجه در ترنسفورمرهای دیداری استاندارد دارای پیچیدگی $O(N^2d)$ است که در آن $N$ طول دنباله و $d$ بعد جاسازی است. فشرده‌سازی توکن این را به $O(M^2d)$ یا بهتر کاهش می‌دهد.

3.2 جزئیات پیاده‌سازی

ماژول‌های فشرده‌سازی توکن را می‌توان در لایه‌های مختلف معماری ترنسفورمر قرار داد. فشرده‌سازی زودهنگام صرفه‌جویی محاسباتی بیشتری حفظ می‌کند اما ممکن است اطلاعات حیاتی را حذف کند، در حالی که فشرده‌سازی دیرهنگام دقت را به بهای کاهش دستاوردهای کارایی حفظ می‌کند.

4. ارزیابی تجربی

4.1 عملکرد ترنسفورمر دیداری استاندارد

روی معماری‌های ترنسفورمر دیداری استاندارد (ViT-B, ViT-L)، روش‌های فشرده‌سازی توکن به کاهش ۳۰-۵۰ درصدی در FLOPs با افت دقت حداقلی (معمولاً کمتر از ۱٪ روی ImageNet) دست می‌یابند. روش‌های پویا مانند SPViT در مقایسه با رویکردهای ایستا، مبادله دقت-کارایی بهتری نشان می‌دهند.

4.2 عملکرد ترنسفورمر دیداری فشرده

هنگامی که روی ترنسفورمرهای دیداری فشرده (AutoFormer, ElasticViT) اعمال می‌شوند، روش‌های فشرده‌سازی توکن اثربخشی کاهش‌یافته‌ای نشان می‌دهند. معماری‌های فشرده از قبل دارای بازنمایی‌های توکن بهینه‌شده هستند که فشرده‌سازی بیشتر را بدون تخریب قابل توجه دقت چالش‌برانگیز می‌کند.

4.3 معیارهای استقرار لبه

ارزیابی روی دستگاه‌های لبه نشان می‌دهد که فشرده‌سازی توکن می‌تواند تأخیر استنتاج را ۲۵-۴۰ درصد و استفاده از حافظه را ۳۰-۵۰ درصد کاهش دهد که ترنسفورمرهای دیداری را برای کاربردهای بلادرنگ روی سیستم‌های موبایل و توکار عملی‌تر می‌کند.

5. پیاده‌سازی کد

در زیر یک پیاده‌سازی ساده شده پایتون از ادغام توکن با استفاده از رویکرد ToMe آورده شده است:

import torch
import torch.nn as nn

class TokenMerging(nn.Module):
    def __init__(self, dim, reduction_ratio=0.5):
        super().__init__()
        self.dim = dim
        self.reduction_ratio = reduction_ratio
        
    def forward(self, x):
        # x: [B, N, C]
        B, N, C = x.shape
        M = int(N * self.reduction_ratio)
        
        # Compute token similarity
        similarity = torch.matmul(x, x.transpose(-1, -2))  # [B, N, N]
        
        # Select top-k tokens to keep
        values, indices = torch.topk(similarity.mean(dim=-1), M, dim=-1)
        
        # Merge similar tokens
        compressed_x = x.gather(1, indices.unsqueeze(-1).expand(-1, -1, C))
        
        return compressed_x

6. کاربردهای آینده

تکنیک‌های فشرده‌سازی توکن برای کاربردهای مختلف هوش مصنوعی لبه از جمله تحلیل ویدیوی بلادرنگ، سیستم‌های رانندگی خودکار و کاربردهای بینایی موبایل نویدبخش هستند. تحقیقات آینده باید بر نسبت‌های فشرده‌سازی تطبیقی متمرکز شود که به صورت پویا بر اساس پیچیدگی ورودی و محدودیت‌های سخت‌افزاری تنظیم می‌شوند. یکپارچه‌سازی با جستجوی معماری عصبی (NAS) می‌تواند استراتژی‌های فشرده‌سازی بهینه‌شده متناسب با سناریوهای استقرار خاص را به دست دهد.

7. مراجع

Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions." ICCV 2021.
Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows." ICCV 2021.
Chen et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Bolya et al. "Token Merging for Fast Stable Diffusion." CVPR 2023.

تحلیل اصلی

این بررسی جامع در مورد فشرده‌سازی توکن برای ترنسفورمرهای دیداری، نمایانگر یک مشارکت قابل توجه در زمینه یادگیری عمیق کارآمد است. نویسندگان به طور سیستماتیک یک شکاف حیاتی در ادبیات را با ارزیابی این تکنیک‌ها نه تنها روی معماری‌های ترنسفورمر دیداری استاندارد، بلکه روی انواع فشرده طراحی‌شده برای استقرار لبه مورد توجه قرار می‌دهند. این رویکرد ارزیابی دوگانه، بینش‌های مهمی را آشکار می‌کند: در حالی که روش‌های فشرده‌سازی توکن روی ترنسفورمرهای دیداری همه‌منظوره به دستاوردهای کارایی چشمگیری (کاهش ۳۰-۵۰ درصدی FLOPs با افت دقت حداقلی) دست می‌یابند، اثربخشی آنها هنگامی که روی معماری‌های از قبل فشرده اعمال می‌شوند کاهش می‌یابد. این یافته با مشاهدات از دیگر حوزه‌های فشرده‌سازی مدل همسو است، جایی که تکنیک‌های بهینه‌سازی ترکیبی اغلب بازدهی کاهش‌یافته‌ای نشان می‌دهند.

طبقه‌بندی ارائه‌شده در جدول I، یک چارچوب ارزشمند برای درک چشم‌انداز روش‌های فشرده‌سازی توکن فراهم می‌کند. دسته‌بندی بر اساس رویکرد فشرده‌سازی (هرس، ادغام، ترکیبی) و نوع کاهش (ایستا، پویا، سخت، نرم) به محققان و متخصصان یک نقشه راه واضح برای انتخاب تکنیک‌های مناسب بر اساس نیازمندی‌های خاصشان ارائه می‌دهد. گنجاندن نیازمندی‌های آموزش به ویژه برای سناریوهای استقرار که در آن تنظیم دقیق ممکن است امکان‌پذیر نباشد، مفید است.

از دیدگاه فنی، فرمول‌بندی ریاضی فشرده‌سازی توکن به عنوان یک مسئله بهینه‌سازی بین کارایی محاسباتی و عملکرد مدل، بازتاب‌دهنده مبادلات مشابهی است که در دیگر حوزه‌های بینایی کامپیوتر بررسی شده‌اند. برای مثال، تکنیک‌های رشد تدریجی در StyleGAN و مکانیزم‌های توجه در DETR، تعادل‌های مشابهی بین پیچیدگی مدل و عملکرد را نشان می‌دهند. کاهش پیچیدگی درجه دوم از $O(N^2d)$ به $O(M^2d)$، بازتاب‌دهنده دستاوردهای کارایی حاصل شده در مکانیزم‌های توجه پراکنده است، همان‌طور که در مدل‌هایی مانند Longformer و BigBird برای پردازش زبان طبیعی دیده می‌شود.

یافته‌های تجربی در مورد اثربخشی کاهش‌یافته روی ترنسفورمرهای دیداری فشرده، یک جهت تحقیقاتی مهم را برجسته می‌کند. همان‌طور که در مقاله اصلی CycleGAN و کارهای بعدی در مورد GANهای کارآمد اشاره شده است، بهینه‌سازی‌های معماری اغلب مؤلفه‌های به هم پیوسته محکمی ایجاد می‌کنند که در آن فشرده‌سازی بیشتر نیاز به بازنگری کلی دارد تا کاربرد مدولار تکنیک‌های موجود. این نشان می‌دهد که کار آینده باید بر رویکردهای هم‌طراحی متمرکز شود که در آن استراتژی‌های فشرده‌سازی توکن در مرحله جستجوی معماری یکپارچه می‌شوند نه به عنوان مراحل پس‌پردازش اعمال شوند.

پیامدهای عملی برای استقرار هوش مصنوعی لبه قابل توجه است. با اهمیت فزاینده پردازش هوش مصنوعی روی دستگاه برای کاربردهایی از وسایل نقلیه خودران تا سلامت موبایل، تکنیک‌هایی که می‌توانند معماری‌های ترنسفورمر را روی سخت‌افزارهای با منابع محدود عملی کنند، به طور فزاینده‌ای ارزشمند هستند. کاهش تأخیر ۲۵-۴۰ درصدی و صرفه‌جویی حافظه ۳۰-۵۰ درصدی گزارش‌شده می‌تواند تفاوت بین استقرار امکان‌پذیر و غیرممکن در بسیاری از سناریوهای دنیای واقعی باشد.

با نگاه به آینده، یکپارچه‌سازی فشرده‌سازی توکن با جستجوی معماری عصبی، همان‌طور که در بخش کاربردهای آینده اشاره شد، نمایانگر یک جهت امیدوارکننده است. مشابه تکامل فشرده‌سازی مدل در شبکه‌های کانولوشنی، جایی که تکنیک‌هایی مانند NetAdapt و AMC مزایای بهینه‌سازی آگاه از سخت‌افزار را نشان دادند، می‌توانیم انتظار تمرکز فزاینده بر بهینه‌سازی end-to-end معماری‌های ترنسفورمر برای محدودیت‌های استقرار خاص را داشته باشیم. زمینه نوظهور جستجوی معماری عصبی مشتق‌پذیر (DNAS) می‌تواند پایه فنی برای یادگیری استراتژی‌های فشرده‌سازی بهینه مستقیماً از اهداف استقرار فراهم کند.