Tsarin Rubutun Shirye-shiryen da ya dace da AI: Sake Tunanin Ƙirar Harshe don Samar da Lambobi masu inganci

Teburin Abubuwan Ciki

Rage Token

13.5%

CodeLlama tare da SimPy

Rage Token

10.4%

GPT-4 tare da SimPy

Aiki

An Kiyaye/An Inganta

Ingancin Samar da Lambobi

1. Gabatarwa

Fitowar Manyan Samfuran Harshe (LLMs) a matsayin ƙwararrun masu samar da lambobi sun gabatar da masu sauraro na uku ga harsunan shirye-shirye tare da mutane da injina. Harsunan shirye-shirye na gargajiya kamar Python an ƙera su tare da la'akari da karantawa ta ɗan adam a matsayin babban abin damuwa, sun haɗa da ɗimbin alamomin tsarawa da tsarin nahawu waɗanda ke taimakawa fahimtar ɗan adam amma suna ƙara nauyin lissafi ga samfuran AI.

Wannan binciken ya ba da shawarar tsarin rubutu mai dacewa da AI – wata sabuwar hanya ta ƙirar harshen shirye-shirye wanda ke inganta wakilcin lambobi don amfanin samfurin AI yayin kiyaye daidaiton ma'ana da harsunan gargajiya. Babban ƙirƙiri yana cikin rage amfani da token ba tare da lalata aikin shiri ba.

2. Bayanan Baya da Dalili

2.1 Masu sauraron Harsunan Shirye-shirye na Gargajiya

A tarihi, harsunan shirye-shirye sun yi hidima ga manyan masu sauraro guda biyu:

Injina: Mayar da hankali kan ma'anar aiki da ingancin aiwatarwa
Mutane: Suna buƙatar karantawa, kulawa, da kayan taimako na fahimta

Falsafar ƙira ta Python a fili ta bayyana cewa "karantawa tana ƙidaya," wanda ke haifar da amfani da fadi mai yawa, ƙayyadaddun iyaka, da kuma ɗimbin nahawu waɗanda ke amfanar masu haɓaka ɗan adam amma suna iya zama marasa amfani ga cin abinci na AI.

2.2 LLMs a matsayin Sabbin Masu Amfani da Harshen Shirye-shirye

LLMs na zamani kamar CodeLlama da GPT-4 suna nuna iyawar samar da lambobi mai ban mamaki, suna fiye da yawancin masu shirye-shiryen ɗan adam a gasar shirye-shirye. Duk da haka, kowane token da waɗannan samfurori suka sarrafa yana cinye albarkatun lissafi, yana sa tsarin rubutu na gargajiya mai dacewa da ɗan adam ya zama mara inganci ga samar da lambobi masu amfani da AI.

3. Manufar Tsarin Rubutu Mai Dacewa da AI

3.1 Ka'idojin Ƙira

Tsarin rubutu mai dacewa da AI yana bin manyan ka'idoji guda uku:

Ƙaramin Amfani da Token: Kawace alamomin tsarawa da nahawu marasa amfani
Kiyaye Ma'ana: Kiyaye tsarin Bishiyar Nahawu ta Zance (AST) iri ɗaya
Canji Biyu: Ba da damar canzawa cikin sauƙi tsakanin wakilcin ɗan adam da na AI

3.2 Dabarun Rage Token

Ingantaccen tsarin rubutu yana amfani da dabarori da yawa:

Kawar da sararin samaniya da ba dole ba da alamomin tsarawa
Ƙarfafa tsarin nahawu masu maimaitawa
Inganta ƙa'idodin sunayen ganowa
Matsa tsarin shirye-shirye na gama gari

4. Aiwatar da SimplePython (SimPy)

4.1 Dokokin Canjin Tsarin Rubutu

An aiwatar da SimPy ta hanyar dokokin canji na heuristic da ake amfani da su ga tsarin rubutu na Python na yau da kullun. Ana iya wakiltar canjin ta hanyar lissafi kamar haka:

$G_{SimPy} = T(G_{Python})$ inda $T$ shine aikin canji wanda ke rage ƙididdigar token yayin kiyaye $AST(G_{SimPy}) = AST(G_{Python})$

4.2 Kiyaye AST

Matsalar ƙira mai mahimmanci tana tabbatar da cewa shirye-shiryen da aka rubuta a cikin SimPy suna kiyaye tsarin Bishiyar Nahawu iri ɗaya da takwarorinsu na Python. Wannan yana ba da damar:

Aiwatarwa ta hanyar masu fassara AST da aka gyara
Canji biyu cikin sauƙi
Kula da ma'anar shiri da halayensa

4.3 Misalan Lambobi

Python na Yau da Kullun:

def calculate_sum(numbers):
    total = 0
    for num in numbers:
        total += num
    return total

Daidai da SimplePython:

def calc_sum(n):t=0
for x in n:t+=x
return t

Sigar SimPy tana rage ƙididdigar token daga 15 zuwa 9 yayin kiyaye aiki iri ɗaya da tsarin AST.

5. Sakamakon Gwaji

5.1 Binciken Rage Token

Ƙimar gwaji ta nuna raguwar token mai mahimmanci:

CodeLlama: Rage amfani da token 13.5%
GPT-4: Rage amfani da token 10.4%

Waɗannan raguwar suna fassara kai tsaye zuwa ceton farashin lissafi yayin koyarwa da kuma lokutan ƙima.

5.2 Ma'aunin Aiki

Bayan ingancin token, binciken ya nuna cewa LLMs suna kiyayewa ko ma suna inganta aikin samar da lambobi lokacin amfani da SimPy maimakon Python na yau da kullun. Ana kimanta aikin a fannoni da yawa:

Daidaiton lambobi akan ma'auni na yau da kullun
Ingancin aiwatar da lambobin da aka samar
Kiyaye ma'ana ta hanyar kwatanta AST

Mahimman Bayanai

Tsarin rubutu mai dacewa da AI na iya rage farashin lissafi sosai ba tare da yin barazana ga ingancin lambobi ba
Hanyar tana kiyaye cikakkiyar dacewa tare da ayyukan haɓakawa na yanzu ta hanyar canji biyu
Fa'idodin raguwar token suna da girman girman samfur da rikitarwar aiki
Ana iya ƙaddamar da manufar zuwa wasu harsunan shirye-shirye ban da Python

6. Binciken Fasaha

Manufar tsarin rubutu mai dacewa da AI tana wakiltar sauyin tsari a cikin ƙirar harshen shirye-shirye, ta wuce rarrabuwar kawuna na ɗan adam da na'ura don ɗaukar samfuran AI a matsayin masu amfani na farko. Wannan binciken ya ginu akan aikin tushe a cikin canjin shiri da ƙirar mai tarawa, kama da yadda CycleGAN ta nuna canjin hoto biyu ba tare da misalan haɗin gwiwa ba.

Ribobin ingancin token da aka nuna a cikin wannan binciken (13.5% na CodeLlama, 10.4% na GPT-4) suna da muhimman tasiri ga girman girman AI. Bisa ga binciken OpenAI na farashin lissafi, raguwar amfani da token 10% na iya fassara zuwa babban ceton kuɗi a cikin ƙimar samfur, musamman ga ayyukan samar da lambobi waɗanda galibi suna haɗawa da dogayen buƙatun da abubuwan fitarwa.

Ƙuntatawa na kiyaye AST yana tabbatar da cewa SimPy yana kiyaye daidaiton ma'ana tare da Python, yana magance damuwa game da daidaiton shiri. Wannan hanya ta dace da ka'idoji daga hanyoyin na yau da kullun da tabbatar da shiri, inda canje-canjen nahawu dole ne su kiyaye ma'anar ɗabi'a. Binciken ya nuna cewa yawancin fasalulluka na nahawu na ɗan adam hakika suna da maimaitawa ga fahimtar AI, kama da yadda binciken baya-bayan nan a cikin fahimtar shiri ya nuna cewa masu haɓakawa sau da yawa suna dogaro da tsarin tsari maimakon cikakkun abubuwan nahawu.

Ƙarfin canji biyu yana da ƙirƙira musamman, yana ba da damar haɗin gwiwa cikin sauƙi tsakanin masu haɓaka ɗan adam (ta amfani da Python na yau da kullun) da tsarin AI (ta amfani da SimPy). Wannan hanya ta gauraye tana guje wa shingayen ɗaukar sabbin harsunan shirye-shirye gaba ɗaya yayin da har yanzu ana samun ribar ingancin lissafi. Binciken ya nuna cewa ƙirar harshen shirye-shirye na gaba yakamata ta yi la'akari da ingantaccen masu sauraro da yawa, kama da yadda ƙirar gidan yanar gizon mai amsawa ke daidaita gabatarwar abun ciki bisa halayen na'ura.

7. Ayyuka na Gaba da Hanyoyi

Manufar tsarin rubutu mai dacewa da AI tana buɗe hanyoyin bincike masu ban sha'awa da yawa:

Ƙaddamar da Harshe

Miƙa hanyar zuwa wasu harsunan shirye-shirye ban da Python, musamman harsunan da aka buga a tsaye kamar Java da C++ inda ƙarin damar ingantawa na iya wanzu.

Tsarin Tsarin Rubutu Mai Daidaitawa

Haɓaka tsarin tsarin rubutu mai sanin yanayi wanda ke daidaita rikitarwar nahawu bisa ga mai amfani (ɗan adam vs. AI) da buƙatun aiki.

Muhallin Ci Gaba Haɗaɗɗu

Ƙirƙirar kayan aikin IDE waɗanda ke canzawa ta atomatik tsakanin wakilcin lambobi masu karantawa ga ɗan adam da ingantaccen AI yayin ayyukan haɓakawa.

Ingantattun Masu Tarawa da Masu Fassara

Miƙa manufar zuwa ƙirar mai tarawa, inda ingantaccen wakilcin tsaka-tsaki na AI zai iya inganta ingancin tarawa ga lambobin da AI ya samar.

8. Nassoshi

Sun, Z., Du, X., Yang, Z., Li, L., & Lo, D. (2024). AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation. ISSTA '24.
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems.
Roziere, B., et al. (2023). Code Llama: Open Foundation Models for Code. arXiv preprint.
OpenAI. (2023). GPT-4 Technical Report. OpenAI.
Zhu, J. Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV.
Sebesta, R. W. (2015). Concepts of Programming Languages. Pearson Education.
Allamanis, M., et al. (2018). A survey of machine learning for big code and naturalness. ACM Computing Surveys.