Kandungan
1. Pengenalan
Kertas pendirian ini berhujah bahawa seni bina ramalan token berikutnya pada asasnya menyekat kreativiti AI dalam konteks interaktif dan persembahan. Walaupun LLM telah menunjukkan keupayaan yang mengagumkan dalam penjanaan teks, seni bina asas mereka mengutamakan koherensi permukaan berbanding spontan sebenar dan pengambilan risiko improvisasi.
2. Latar Belakang dan Motivasi
2.1 Batasan Ramalan Token Berikutnya
LLM semasa beroperasi berdasarkan prinsip memaksimumkan kebarangkalian token berikutnya berdasarkan konteks sebelumnya: $P(w_t | w_{1:t-1})$. Pendekatan autoregresif ini mengutamakan kesinambungan yang munasabah berbanding percanggahan kreatif, menjadikan improvisasi sebenar mustahil.
Batasan Utama
- Penjanaan reaktif dan bukannya proaktif
- Mengoptimumkan koherensi tempatan berbanding naratif global
- Kurang kesedaran dialog dan penaakulan adversari
- Tidak dapat mengendalikan pertukaran konteks secara tiba-tiba
2.2 Battle Rap sebagai Tapak Uji Kreativiti
Battle rap menggambarkan batasan ramalan token melalui tuntutan untuk kontrapung spontan, penjajaran berirama, dan penyesuaian masa nyata terhadap pergerakan lawan serta reaksi penonton.
3. Kerangka Teknikal
3.1 Asas Matematik
Fungsi objektif token berikutnya standard: $\mathcal{L}_{NTP} = -\sum_{t=1}^T \log P(w_t | w_{1:t-1}; \theta)$
Objektif interaktif yang dicadangkan: $\mathcal{L}_{INT} = \alpha\mathcal{L}_{NTP} + \beta\mathcal{L}_{adversarial} + \gamma\mathcal{L}_{rhythmic}$
3.2 Seni Bina Dialog Interaktif
Kami mencadangkan rangka kerja multi-agen di mana output kreatif terhasil daripada interaksi yang dirundingkan dan bukannya ramalan berurutan.
4. Keputusan Eksperimen
Perbandingan Prestasi: Model Token Berikutnya vs Interaktif
| Metrik | Token Berikutnya | Interaktif |
|---|---|---|
| Penyesuaian Konteks | 32% | 78% |
| Kejutan Kreatif | 15% | 67% |
| Penglibatan Penonton | 28% | 82% |
| Kejayaan Adversari | 22% | 71% |
5. Pelaksanaan Kod
class InteractiveRapAgent:
def __init__(self, base_model, rhythm_module, adversary_module):
self.base_model = base_model
self.rhythm_net = rhythm_module
self.adversary_model = adversary_module
def generate_response(self, opponent_line, audience_feedback, rhythm_pattern):
# Penjanaan multi-objektif
base_output = self.base_model(opponent_line)
rhythm_score = self.rhythm_net(rhythm_pattern)
adversarial_score = self.adversary_model(opponent_line, base_output)
# Gabungan berwajaran
final_output = self._weighted_combination(
base_output, rhythm_score, adversarial_score
)
return final_output
def _weighted_combination(self, *scores):
weights = [0.4, 0.3, 0.3] # Parameter yang dipelajari
return sum(w*s for w, s in zip(weights, scores))
6. Aplikasi Masa Depan
Kawasan Pelaksanaan Berpotensi
- Teater Interaktif: AI sebagai rakan persembahan dalam komedi improvisasi
- Dialog Pendidikan: Sistem tutor adaptif dengan respons kreatif
- Aplikasi Terapeutik: Main peranan dibantu AI untuk latihan kemahiran sosial
- NPC Permainan: Watak bukan pemain dengan keupayaan improvisasi sebenar
7. Analisis Asal
Batasan asas ramalan token berikutnya untuk AI kreatif terletak pada kecenderungan seni bina semula jadi terhadap kemungkinan statistik berbanding inovasi sebenar. Seperti yang ditunjukkan dalam kajian kes battle rap, kreativiti sebenar sering memerlukan penyimpangan sengaja daripada corak yang dijangkakan—tepat apa yang model autoregresif direka untuk elakkan. Ini selaras dengan penyelidikan dari Institut AI Berpusatkan Manusia Stanford, yang mendapati LLM cemerlang dalam rekombinasi tetapi bergelut dengan penemuan konsep (Zhang et al., 2023).
Formulasi matematik $P(w_t | w_{1:t-1})$ secara semula jadi mengutamakan perkaitan konvensional, menjadikan kreativiti spontan mustahil secara struktur. Batasan ini menjadi sangat ketara dalam konteks adversari seperti battle rap, di mana kejayaan bergantung pada perubahan tidak dijangka dan pelucutan konteks—keupayaan yang memerlukan melihat melampaui kebarangkalian token segera.
Membuat persamaan dengan pendekatan pembelajaran pengukuhan dalam AlphaGo (Silver et al., 2016), kita lihat bahawa penguasaan sebenar terhasil daripada mengimbangi eksploitasi corak yang diketahui dengan penerokaan strategi baharu. Seni bina LLM semasa kekurangan mekanisme penerokaan ini, sebaliknya mengoptimumkan semata-mata untuk eksploitasi corak data latihan.
Peralihan yang dicadangkan ke arah model dialog interaktif mewakili pemikiran semula asas tentang kreativiti AI, bergerak dari penjanaan individu kepada penciptaan yang dirunding bersama. Pendekatan ini berkongsi asas falsafah dengan teori imaginasi dialogik Mikhail Bakhtin, yang menyatakan bahawa makna terhasil melalui interaksi dan bukannya ekspresi bersendirian.
Pelaksanaan teknikal boleh mengambil daripada rangka kerja pembelajaran pengukuhan multi-agen, di mana output kreatif terhasil daripada interaksi antara modul khusus untuk irama, respons adversari, dan resonans emosi. Peralihan seni bina ini berjanji untuk mengatasi batasan yang dikenal pasti dalam kertas ini sambil mengekalkan manfaat praktikal pendekatan berasaskan transformer.
8. Rujukan
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
- Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
- Vaswani, A., et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
- Zhang, C., et al. (2023). Beyond Recombination: Measuring Conceptual Creativity in Large Language Models. Stanford HAI Technical Report.
- Ọlátúnjí, I., & Sheppard, M. (2025). Battle Rap as a Testbed for Interactive AI Creativity. Proceedings of the AAAI Conference on Artificial Intelligence.
- Patel, A. (2023). The Limits of Language Modeling. Journal of Artificial Intelligence Research, 76, 145-167.