Yaliyomo
1. Utangulizi
Mabadiliko ya Maono (ViTs) yamebadilisha kabisa taaluma ya taa ya kompyuta kwa uwezo wao wenye nguvu wa kujifunza uwasilishaji. Hata hivyo, utata wao wa kihesabu wa quadratic kuhusiana na urefu wa mlolongo wa tokeni unaweka changamoto kubwa kwa uwekaji kwenye vifaa vya pembeni vilivyo na uhaba wa rasilimali. Karatasi hii inashughulikia mapungufu mawili muhimu: ukosefu wa uchunguzi uliojumuishwa unaowainisha mbinu za ufupishaji tokeni na tathmini ndogo ya mbinu hizi kwenye miundo midogo ya mabadiliko.
2. Uainishaji wa Ufupishaji Tokeni
Mbinu za ufupishaji tokeni zinaweza kuainishwa kwa utaratibu kulingana na mikakati yao ya msingi na mahitaji ya uwekaji.
2.1 Mbinu Zinazotumia Ufinyuaji
Mbinu za ufinyuaji huondoa kwa kuchagua tokeni zisizo na taarifa nyingi kulingana na alama za umuhimu. DynamicViT na SPViT hutumia viashiria vinavyoweza kujifunza kuamua umuhimu wa tokeni, huku EViT na ATS zikitumia mbinu za kinjia.
2.2 Mbinu Zinazotumia Kuunganisha
Mbinu za kuunganisha huchanganya tokeni nyingi kuwa ujumuishaji wa kuwakilisha. ToMe na PiToMe hutumia mikakati mgumu ya kuunganisha, huku SiT na Sinkhorn zikitumia mbinu laini za wastani wenye uzani.
2.3 Mbinu Mchanganyiko
Mbinu mchanganyiko kama ToFu na DiffRate huchanganya mikakati ya ufinyuaji na kuunganisha ili kufikia uwiano bora wa ukandamizaji huku ukidumisha utendaji wa modeli.
3. Mfumo wa Kiufundi
3.1 Uundaji wa Kihisabati
Tatizo la ufupishaji tokeni linaweza kutengenezwa kama kuboresha usawa kati ya ufanisi wa kihesabu na utendaji wa modeli. Kwa kuzingatia tokeni za pembejeo $X = \{x_1, x_2, ..., x_N\}$, lengo ni kutoa tokeni zilizokandamizwa $X' = \{x'_1, x'_2, ..., x'_M\}$ ambapo $M < N$, huku ukipunguza kupungua kwa utendaji.
Utaratibu wa umakini katika ViT za kawaida una utata $O(N^2d)$ ambapo $N$ ni urefu wa mlolongo na $d$ ni mwelekeo wa ujumuishaji. Ufupishaji wa tokeni hupunguza hii hadi $O(M^2d)$ au bora zaidi.
3.2 Maelezo ya Utekelezaji
Moduli za ufupishaji tokeni zinaweza kuingizwa kwenye tabaka mbalimbali za muundo wa mabadiliko. Ukandamizaji wa mapema huhifadhi akiba zaidi ya kihesabu lakini unaweza kuondoa taarifa muhimu, huku ukandamizaji wa marehemu ukidumisha usahihi kwa gharama ya kupungua kwa faida za ufanisi.
4. Tathmini ya Kielelezo
4.1 Utendaji wa ViT ya Kawaida
Kwenye miundo ya kawaida ya ViT (ViT-B, ViT-L), mbinu za ufupishaji tokeni hufikia kupunguzwa kwa 30-50% kwa FLOPs na kupungua kidogo kwa usahihi (kawaida <1% kwenye ImageNet). Mbinu zenye mwendo kama SPViT zinaonyesha usawa bora wa usahihi-ufanisi ikilinganishwa na mbinu tuli.
4.2 Utendaji wa ViT Midogo
Inapotumika kwa ViT midogo (AutoFormer, ElasticViT), mbinu za ufupishaji tokeni zinaonyesha ufanisi uliopungua. Miundo iliyokandamizwa tayari ina uwasilishaji bora wa tokeni, na kufanya ukandamizaji zaidi kuwa changamoto bila kupungua kwa usahihi.
4.3 Vipimo vya Uwekaji Pembeni
Tathmini kwenye vifaa vya pembeni inaonyesha kuwa ufupishaji tokeni unaweza kupunguza ucheleweshaji wa inferensi kwa 25-40% na matumizi ya kumbukumbu kwa 30-50%, na kufanya ViT ziweze kutekelezeka kwa matumizi halisi wakati kwenye mifumo ya rununu na iliyowekwa.
5. Utekelezaji wa Msimbo
Hapa chini kuna utekelezaji rahisi wa Python wa kuunganisha tokeni kwa kutumia mbinu ya ToMe:
import torch
import torch.nn as nn
class TokenMerging(nn.Module):
def __init__(self, dim, reduction_ratio=0.5):
super().__init__()
self.dim = dim
self.reduction_ratio = reduction_ratio
def forward(self, x):
# x: [B, N, C]
B, N, C = x.shape
M = int(N * self.reduction_ratio)
# Compute token similarity
similarity = torch.matmul(x, x.transpose(-1, -2)) # [B, N, N]
# Select top-k tokens to keep
values, indices = torch.topk(similarity.mean(dim=-1), M, dim=-1)
# Merge similar tokens
compressed_x = x.gather(1, indices.unsqueeze(-1).expand(-1, -1, C))
return compressed_x6. Matumizi ya Baadaye
Mbinu za ufupishaji tokeni zinaonyesha matumaini kwa matumizi mbalimbali ya akili ya pembeni ikiwa ni pamoja na uchambuzi wa video halisi wakati, mifumo ya kuendesha peke yake, na matumizi ya maono ya rununu. Utafiti wa baadaye unapaswa kulenga uwiano wa ukandamizaji unaobadilika ambao hurekebisha kwa nguvu kulingana na utata wa pembejeo na vikwazo vya vifaa. Ujumuishaji na utafutaji wa muundo wa neva (NAS) unaweza kutoa mikakati bora ya ukandamizaji iliyoboreshwa kwa matukio maalum ya uwekaji.
7. Marejeo
- Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
- Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions." ICCV 2021.
- Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows." ICCV 2021.
- Chen et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
- Bolya et al. "Token Merging for Fast Stable Diffusion." CVPR 2023.
Uchambuzi wa Asili
Uchunguzi huu kamili juu ya ufupishaji tokeni kwa Mabadiliko ya Maono unawakilisha mchango mkubwa katika taaluma ya ujifunzaji wa kina wenye ufanisi. Waandishi wanashughulikia kwa utaratibu mapungufu muhimu katika fasihi kwa kutathmini mbinu hizi sio tu kwenye miundo ya kawaida ya ViT bali pia kwenye anuwai ndogo zilizobuniwa kwa uwekaji wa pembeni. Mbinu hii ya tathmini mbili inafunua maarifa muhimu: wakati mbinu za ufupishaji tokeni hufikia faida za ufanisi za kuvutia kwenye ViT za madhumuni ya jumla (kupunguzwa kwa FLOPs 30-50% na hasara ndogo ya usahihi), ufanisi wao hupungua inapotumika kwa miundo tayari midogo. Ugunduzi huu unafanana na uchunguzi kutoka kwenye nyanja zingine za ukandamizaji wa modeli, ambapo mbinu za ubora zilizochanganywa mara nyingi huonyesha mapato yanayopungua.
Uainishaji uliowasilishwa kwenye Jedwali I hutoa mfumo wa thamani wa kuelewa mazingira ya mbinu za ufupishaji tokeni. Uainishaji kwa mbinu ya ukandamizaji (ufinyuaji, kuunganisha, mchanganyiko) na aina ya kupunguza (tuli, ya nguvu, ngumu, laini) huwapa watafiti na watendaji ramani wazi ya kuchagua mbinu zinazofaa kulingana na mahitaji yao maalum. Ujumuishaji wa mahitaji ya mafunzo ni muhimu sana kwa matukio ya uwekaji ambayo kurekebisha huenda kisiwezekani.
Kutoka kwa mtazamo wa kiufundi, uundaji wa kihisabati wa ufupishaji tokeni kama shida ya ubora kati ya ufanisi wa kihesabu na utendaji wa modeli unafanana na usawa sawa uliochunguzwa katika nyanja zingine za taa ya kompyuta. Kwa mfano, mbinu za ukuaji endelevu katika StyleGAN na utaratibu wa umakini katika DETR zinaonyesha usawa sawa kati ya utata wa modeli na utendaji. Kupungua kwa utata wa quadratic kutoka $O(N^2d)$ hadi $O(M^2d)$ kinaakisi faida za ufanisi zilizopatikana katika utaratibu wa umakini mtambuka, kama inavyoonekana katika miundo kama Longformer na BigBird kwa usindikaji wa lugha asilia.
Matokeo ya kielelezo kuhusu ufanisi uliopungua kwenye ViT midogo yanaangazia mwelekeo muhimu wa utafiti. Kama ilivyoelezwa katika karatasi ya asili ya CycleGAN na kazi inayofuata kuhusu GAN zenye ufanisi, ubora wa usanifu mara nyingi huunda vipengee vilivyounganishwa vikabili ambavyo ukandamizaji zaidi unahitaji kuzingatia upya kwa ujumla badala ya matumizi ya moduli ya mbinu zilizopo. Hii inapendekeza kuwa kazi ya baadaye inapaswa kulenga mbinu za kubuni pamoja ambapo mikakati ya ufupishaji tokeni inajumuishwa wakati wa awamu ya utafutaji wa muundo badala ya kutumika kama hatua za usindikaji wa baadaye.
Matokeo ya vitendo kwa uwekaji wa akili ya pembeni ni makubwa. Kwa umuhimu unaoongezeka wa usindikaji wa akili kwenye kifaa kwa matumizi kuanzia magari yanayojitegemea hadi afya ya rununu, mbinu ambazo zinaweza kufanya miundo ya mabadiliko iweze kutekelezeka kwenye vifaa vilivyo na uhaba wa rasilimali zina thamani inayoongezeka. Kupunguzwa kwa ucheleweshaji kwa 25-40% na akiba ya kumbukumbu kwa 30-50% kunaweza kuwa tofauti kati ya uwekaji unaowezekana na usiowezekana katika matukio mengi ya ulimwengu halisi.
Kutazamia mbele, ujumuishaji wa ufupishaji tokeni na utafutaji wa muundo wa neva, kama ilivyoonyeshwa kwenye sehemu ya matumizi ya baadaye, unawakilisha mwelekeo wenye matumaini. Sawa na mageuzi ya ukandamizaji wa modeli katika mitandao ya muundo, ambapo mbinu kama NetAdapt na AMC zilionyesha faida za ubora unaoegemea vifaa, tunaweza kutarajia kuona umakini ulioongezeka kwa ubora wa mwisho-hadi-mwisho wa miundo ya mabadiliko kwa vikwazo maalum vya uwekaji. Nyanja inayokua ya utafutaji wa muundo wa neva unaotofautishwa (DNAS) inaweza kutoa msingi wa kiufundi wa kujifunza mikakati bora ya ukandamizaji moja kwa moja kutoka kwa malengo ya uwekaji.