ضغط الرموز مع محولات الرؤية المدمجة: دراسة مسحية وتقييم مقارن للذكاء الاصطناعي على الحافة

جدول المحتويات

1. المقدمة

أحدثت محولات الرؤية (ViTs) ثورة في مجال الرؤية الحاسوبية بقدراتها القوية في تعلم التمثيل. ومع ذلك، فإن تعقيدها الحسابي التربيعي فيما يتعلق بطول تسلسل الرموز يشكل تحديات كبيرة للنشر على الأجهزة الطرفية محدودة الموارد. تتناول هذه الورقة فجوتين حرجتين: عدم وجود دراسة مسحية موحدة تصنف منهجيات ضغط الرموز بشكل منهجي، والتقييم المحدود لهذه الطرق على بنى المحولات المدمجة.

2. تصنيف ضغط الرموز

يمكن تصنيف تقنيات ضغط الرموز بشكل منهجي بناءً على استراتيجياتها الأساسية ومتطلبات النشر.

2.1 الطرق القائمة على التقليم

تزيل طرق التقليم بشكل انتقائي الرموز الأقل أهمية بناءً على درجات الأهمية. تستخدم DynamicViT و SPViT متنبئات قابلة للتعلم لتحديد أهمية الرمز، بينما تستخدم EViT و ATS نهجًا استدلاليًا.

2.2 الطرق القائمة على الدمج

تدمج تقنيات الدمج رموزًا متعددة في تمثيلات موحدة. تستخدم ToMe و PiToMe استراتيجيات دمج صارمة، بينما تستخدم SiT و Sinkhorn نهج المتوسط المرجح الناعم.

2.3 النهج الهجينة

تجمع الطرق الهجينة مثل ToFu و DiffRate بين استراتيجيات التقليم والدمج لتحقيق نسب ضغط مثالية مع الحفاظ على أداء النموذج.

3. الإطار التقني

3.1 الصياغة الرياضية

يمكن صياغة مشكلة ضغط الرموز على أنها تحسين للمفاضلة بين الكفاءة الحسابية وأداء النموذج. بالنظر إلى الرموز المدخلة $X = \{x_1, x_2, ..., x_N\}$، الهدف هو إنتاج رموز مضغوطة $X' = \{x'_1, x'_2, ..., x'_M\}$ حيث $M < N$، مع تقليل تدهور الأداء إلى الحد الأدنى.

آلية الانتباه في محولات الرؤية القياسية لها تعقيد $O(N^2d)$ حيث $N$ هو طول التسلسل و $d$ هو بُعد التضمين. يقلل ضغط الرموز هذا إلى $O(M^2d)$ أو أفضل.

3.2 تفاصيل التنفيذ

يمكن إدراج وحدات ضغط الرموز في طبقات مختلفة من بنية المحول. يحفظ الضغط المبكر المزيد من المدخرات الحسابية ولكن قد يزيل معلومات حرجة، بينما يحافظ الضغط المتأخر على الدقة على حساب تقليل مكاسب الكفاءة.

4. التقييم التجريبي

4.1 أداء محولات الرؤية القياسية

في بنى محولات الرؤية القياسية (ViT-B, ViT-L)، تحقق طرق ضغط الرموز تخفيضًا بنسبة 30-50% في العمليات الحسابية (FLOPs) مع انخفاض طفيف في الدقة (عادة <1% على ImageNet). تظهر الطرق الديناميكية مثل SPViT مفاضلات أفضل بين الدقة والكفاءة مقارنة بالنهج الثابتة.

4.2 أداء محولات الرؤية المدمجة

عند تطبيقها على محولات الرؤية المدمجة (AutoFormer, ElasticViT)، تظهر طرق ضغط الرموز فعالية مخفضة. تحتوي البنى المضغوطة بالفعل على تمثيلات مثالية للرموز، مما يجعل المزيد من الضغط تحديًا دون تدهور كبير في الدقة.

4.3 مقاييس النشر على الحافة

يظهر التقييم على الأجهزة الطرفية أن ضغط الرموز يمكن أن يقلل زمن الاستدلال بنسبة 25-40% واستخدام الذاكرة بنسبة 30-50%، مما يجعل محولات الرؤية أكثر عملية للتطبيقات في الوقت الفعلي على الأنظمة المدمجة والمحمولة.

5. تنفيذ الكود

فيما يلي تنفيذ مبسط بلغة Python لدمج الرموز باستخدام نهج ToMe:

import torch
import torch.nn as nn

class TokenMerging(nn.Module):
    def __init__(self, dim, reduction_ratio=0.5):
        super().__init__()
        self.dim = dim
        self.reduction_ratio = reduction_ratio
        
    def forward(self, x):
        # x: [B, N, C]
        B, N, C = x.shape
        M = int(N * self.reduction_ratio)
        
        # حساب تشابه الرموز
        similarity = torch.matmul(x, x.transpose(-1, -2))  # [B, N, N]
        
        # اختيار أفضل الرموز للحفاظ عليها
        values, indices = torch.topk(similarity.mean(dim=-1), M, dim=-1)
        
        # دمج الرموز المتشابهة
        compressed_x = x.gather(1, indices.unsqueeze(-1).expand(-1, -1, C))
        
        return compressed_x

6. التطبيقات المستقبلية

تُظهر تقنيات ضغط الرموز إمكانات واعدة لمختلف تطبيقات الذكاء الاصطناعي على الحافة بما في ذلك تحليل الفيديو في الوقت الفعلي، وأنظمة القيادة الذاتية، والتطبيقات البصرية على الأجهزة المحمولة. يجب أن يركز البحث المستقبلي على نسب الضغط التكيفية التي تضبط نفسها ديناميكيًا بناءً على تعقيد المدخلات وقيود الأجهزة. يمكن أن يؤدي التكامل مع بحث البنى العصبية (NAS) إلى استراتيجيات ضغط مُحسنة مصممة خصيصًا لسيناريوهات النشر المحددة.

7. المراجع

Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions." ICCV 2021.
Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows." ICCV 2021.
Chen et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Bolya et al. "Token Merging for Fast Stable Diffusion." CVPR 2023.

التحليل الأصلي

تمثل هذه الدراسة المسحية الشاملة حول ضغط الرموز لمحولات الرؤية إسهامًا كبيرًا في مجال التعلم العميق الفعال. يعالج المؤلفون بشكل منهجي فجوة حرجة في الأدب من خلال تقييم هذه التقنيات ليس فقط على بنى محولات الرؤية القياسية ولكن أيضًا على المتغيرات المدمجة المصممة للنشر على الحافة. يكشف هذا النهج المزدوج للتقييم عن رؤى مهمة: بينما تحقق طرق ضغط الرموز مكاسب كفاءة مذهلة على محولات الرؤية العامة (تخفيض 30-50% في العمليات الحسابية مع فقدان طفيف في الدقة)، فإن فعاليتها تتناقص عند تطبيقها على البنى المضغوطة بالفعل. تتوافق هذه النتيجة مع الملاحظات من مجالات ضغط النماذج الأخرى، حيث غالبًا ما تُظهر تقنيات التحسين المركبة عوائد متناقصة.

يوفر التصنيف المقدم في الجدول الأول إطارًا قيمًا لفهم مشهد طرق ضغط الرموز. يقدم التصنيف حسب نهج الضغط (تقليم، دمج، هجين) ونوع التخفيض (ثابت، ديناميكي، صارم، ناعم) للباحثين والممارسين خريطة طريق واضحة لاختيار التقنيات المناسبة بناءً على متطلباتهم المحددة. إن تضمين متطلبات التدريب مفيد بشكل خاص لسيناريوهات النشر حيث قد لا يكون الضبط الدقيق ممكنًا.

من منظور تقني، فإن الصياغة الرياضية لضغط الرموز كمشكلة تحسين بين الكفاءة الحسابية وأداء النموذج تردد صدى مفاضلات مماثلة تم استكشافها في مجالات الرؤية الحاسوبية الأخرى. على سبيل المثال، تظهر تقنيات النمو التدريجي في StyleGAN وآليات الانتباه في DETR أعمال موازنة مماثلة بين تعقيد النموذج والأداء. إن تخفيض التعقيد التربيعي من $O(N^2d)$ إلى $O(M^2d)$ يعكس مكاسب الكفاءة المحققة في آليات الانتباه المتفرقة، كما هو الحال في النماذج مثل Longformer و BigBird لمعالجة اللغة الطبيعية.

تسلط النتائج التجريبية regarding reduced effectiveness on compact ViTs الضوء على اتجاه بحثي مهم. كما لوحظ في ورقة CycleGAN الأصلية والعمل اللاحق على الشبكات التوليدية التنافسية (GANs) الفعالة، غالبًا ما تخلق تحسينات البنى مكونات مترابطة بشدة حيث يتطلب المزيد من الضغط إعادة النظر الشاملة بدلاً من التطبيق النمطي للتقنيات الحالية. يشير هذا إلى أن العمل المستقبلي يجب أن يركز على نهج التصميم المشترك حيث يتم دمج استراتيجيات ضغط الرموز خلال مرحلة بحث البنية بدلاً من تطبيقها كخطوات معالجة لاحقة.

الآثار العملية لنشر الذكاء الاصطناعي على الحافة كبيرة. مع تزايد أهمية معالجة الذكاء الاصطناعي على الجهاز نفسه لتطبيقات تتراوح من المركبات ذاتية القيادة إلى الرعاية الصحية المحمولة، أصبحت التقنيات التي يمكنها جعل بنى المحولات قابلة للتطبيق على الأجهزة محدودة الموارد ذات قيمة متزايدة. يمكن أن يكون التخفيض المبلغ عنه بنسبة 25-40% في زمن الاستدلال و 30-50% في توفير الذاكرة هو الفارق بين النشر المجدي وغير المجدي في العديد من السيناريوهات الواقعية.

بالنظر إلى المستقبل، يمثل تكامل ضغط الرموز مع بحث البنى العصبية، كما تم التلميح إليه في قسم التطبيقات المستقبلية، اتجاهًا واعدًا. على غرار تطور ضغط النموذج في الشبكات التلافيفية، حيث أظهرت تقنيات مثل NetAdapt و AMC فوائد التحسين المراعي للأجهزة، يمكننا أن نتوقع رؤية تركيز متزايد على التحسين الشامل لبنى المحولات للقيود المحددة للنشر. يمكن أن يوفر المجال الناشئ لبحث البنى العصبية القابلة للاشتقاق (DNAS) الأساس التقني لتعلم استراتيجيات الضغط المثلى مباشرة من أهداف النشر.