Интроспекция мышления: Новая структура рассуждений ИИ-агентов

Содержание

1 Введение

Эволюция больших языковых моделей (LLM) и мультимодальных LLM (MLLM) произвела революцию в возможностях рассуждений ИИ, однако значительные проблемы остаются в области смещения понимания естественного языка и вычислительной эффективности. Современные структуры ИИ-агентов сильно зависят от внешних механизмов рассуждений, таких как Цепочка мыслей (CoT) и Итерация мысли (IoT), которые генерируют значительные затраты токенов и наследуют ограничения LLM.

Предлагаемая нами структура Интроспекции мышления (INoT) решает эти ограничения, обеспечивая саморефлексию внутри самой LLM через программные диалоговые рассуждения, сокращая внешние итерации и связанные с ними вычислительные накладные расходы.

7.95%

Среднее улучшение производительности

58.3%

Сокращение затрат токенов

6

Оцененных тестов

2 Дизайн структуры INoT

2.1 Промпт кода для чтения LLM

Ключевое нововведение INoT заключается в дизайне промпта кода для чтения LLM, который преобразует рассуждения на естественном языке в шаблоны программного выполнения. В отличие от традиционного инжиниринга промптов, который полагается на лингвистические вариации, INoT использует структурированные шаблоны кода, которые LLM могут интерпретировать и выполнять напрямую.

2.2 Механизм самоотрицания

INoT реализует внутреннюю саморефлексию, при которой LLM оценивает собственный процесс рассуждений без внешних циклов валидации. Этот механизм внутренней критики сокращает необходимость в множественных взаимодействиях агентов или итеративной внешней валидации.

3 Техническая реализация

3.1 Математическая основа

Структура INoT оптимизирует процесс рассуждений через формализованные вероятностные модели. При заданных входных данных $x$ и желаемом выходе $y$ традиционные методы вычисляют:

$P(y|x) = \prod_{t=1}^{T} P(y_t|x, y_{

INoT улучшает это через внутреннюю рефлексию:

$P_{INoT}(y|x) = \prod_{t=1}^{T} P(y_t|x, y_{

где $R_t$ представляет состояние внутренней рефлексии на шаге $t$, вычисляемое как:

$R_t = f_{reflect}(x, y_{

Функция рефлексии $f_{reflect}$ работает в латентном пространстве LLM, минимизируя внешнее потребление токенов при сохранении целостности рассуждений.

3.2 Реализация кода

Хотя PDF не предоставляет явный код, структуру INoT можно концептуализировать через следующую псевдокодовую структуру:

class INoTReasoner:
    def __init__(self, llm_model):
        self.llm = llm_model
        self.reflection_states = []
    
    def reason_with_introspection(self, query):
        # Первоначальный проход рассуждений
        initial_response = self.llm.generate(query)
        
        # Фаза внутренней рефлексии
        reflection_prompt = self._build_reflection_prompt(query, initial_response)
        reflection = self.llm.generate(reflection_prompt)
        
        # Интегрированный финальный ответ
        final_prompt = self._integrate_reflection(query, initial_response, reflection)
        return self.llm.generate(final_prompt)
    
    def _build_reflection_prompt(self, query, response):
        return f"""Проанализируйте следующие рассуждения на предмет потенциальных улучшений:
        Запрос: {query}
        Текущий ответ: {response}
        Выявите логические пробелы и предложите улучшения:"""

4 Результаты экспериментов

4.1 Метрики производительности

INoT была оценена на шести тестах, охватывающих математические рассуждения, программистские задачи и мультимодальные вопросы и ответы. Структура достигла среднего улучшения производительности на 7.95% по сравнению с базовыми методами, включая CoT, IoT и ProgCo.

4.2 Эффективность использования токенов

Самым значительным достижением INoT является сокращение затрат токенов на 58.3% по сравнению с наилучшим базовым методом. Этот выигрыш в эффективности проистекает из интернализации процесса рефлексии, устраняя необходимость в множественных внешних циклах валидации.

Ключевые инсайты

INoT демонстрирует, что внутренняя рефлексия превосходит внешнюю итерацию для сложных задач рассуждений
Программные промпты обеспечивают более последовательные шаблоны рассуждений, чем инструкции на естественном языке
Структура эффективно масштабируется для различных типов задач и архитектур моделей
Улучшения эффективности токенов делают сложные рассуждения более доступными для развертываний с ограниченными ресурсами

5 Критический анализ

Перспектива отраслевого аналитика

Суть дела (Cutting to the Chase)

INoT — это не просто очередное постепенное улучшение, это фундаментальный сдвиг в том, как мы подходим к рассуждениям LLM. Структура успешно бросает вызов преобладающей ортодоксии, что сложные рассуждения требуют множественных внешних циклов валидации. Переместив рефлексию внутрь модели, авторы выявили ключевую неэффективность в современных архитектурах ИИ-агентов.

Логическая цепочка (Logical Chain)

Исследование следует убедительной логической прогрессии: Современные методы → Выявленные неэффективности → Гипотеза внутренней рефлексии → Реализация → Валидация. Цепочка остается сильной, поскольку она решает фундаментальное ограничение (затраты токенов), одновременно улучшая производительность, создавая редкий сценарий «выигрыш-выигрыш» в оптимизации ИИ.

Сильные стороны и ограничения (Highlights and Limitations)

Сильные стороны: Сокращение на 58.3% токенов является монументальным — сопоставимым с выигрышами в эффективности, наблюдаемыми в прорывах оптимизации, таких как улучшение оригинальной архитектуры Transformer по сравнению с RNN. Универсальность структуры в различных тестах демонстрирует надежную генерализацию.

Ограничения: Подход предполагает, что LLM имеют достаточную внутреннюю репрезентативную способность для эффективной саморефлексии. Как отмечено в оригинальной статье CycleGAN, архитектурные ограничения могут ограничивать такие подходы внутренней оптимизации. Кроме того, метод может испытывать трудности с задачами, требующими действительно новых рассуждений, выходящих за пределы распределения обучения модели.

Практические выводы (Actionable Insights)

Это исследование должно побудить к немедленному пересмотру проектов структур рассуждений по всей отрасли. Компании, создающие ИИ-агентов, должны отдавать приоритет механизмам внутренней рефлексии над внешними циклами валидации. Результаты предполагают, что инжиниринг промптов должен сместиться в сторону программных структур, а не вариаций естественного языка. Как предполагают исследования DeepMind по оптимизации на основе моделей, внутренние рассуждения часто превосходят внешнюю валидацию при правильной структуризации.

6 Будущие применения

Структура INoT открывает несколько перспективных направлений для будущего развития:

Корпоративные системы ИИ: Крупномасштабное развертывание, где затраты токенов напрямую влияют на операционные расходы
Периферийные вычисления: Среды с ограниченными ресурсами, требующие эффективных рассуждений
Мультимодальные рассуждения: Расширение на интерпретацию видео, аудио и данных сенсоров
Приложения реального времени: Сценарии, требующие быстрых итеративных рассуждений с ограниченным вычислительным бюджетом
Образовательный ИИ: Обучающие системы, выигрывающие от эффективных механизмов самокоррекции

Будущая работа должна исследовать гибридные подходы, сочетающие внутреннюю рефлексию INoT с выборочной внешней валидацией для оптимальной производительности в различных типах задач.

7 Ссылки

Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Zhu, J. Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
OpenAI (2023). GPT-4 Technical Report. OpenAI.
DeepMind (2024). Model-Based Optimization for AI Systems. Nature Machine Intelligence.
Zeng, S., et al. (2025). Introspection of Thought Helps AI Agents. arXiv:2507.08664.