Выбрать язык

Интроспекция мышления: Новая структура рассуждений ИИ-агентов

Структура INoT позволяет большим языковым моделям выполнять программные диалоговые рассуждения с сокращением затрат токенов и улучшением производительности в различных тестах.
aicomputetoken.com | PDF Size: 3.8 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Интроспекция мышления: Новая структура рассуждений ИИ-агентов

Содержание

1 Введение

Эволюция больших языковых моделей (LLM) и мультимодальных LLM (MLLM) произвела революцию в возможностях рассуждений ИИ, однако значительные проблемы остаются в области смещения понимания естественного языка и вычислительной эффективности. Современные структуры ИИ-агентов сильно зависят от внешних механизмов рассуждений, таких как Цепочка мыслей (CoT) и Итерация мысли (IoT), которые генерируют значительные затраты токенов и наследуют ограничения LLM.

Предлагаемая нами структура Интроспекции мышления (INoT) решает эти ограничения, обеспечивая саморефлексию внутри самой LLM через программные диалоговые рассуждения, сокращая внешние итерации и связанные с ними вычислительные накладные расходы.

7.95%

Среднее улучшение производительности

58.3%

Сокращение затрат токенов

6

Оцененных тестов

2 Дизайн структуры INoT

2.1 Промпт кода для чтения LLM

Ключевое нововведение INoT заключается в дизайне промпта кода для чтения LLM, который преобразует рассуждения на естественном языке в шаблоны программного выполнения. В отличие от традиционного инжиниринга промптов, который полагается на лингвистические вариации, INoT использует структурированные шаблоны кода, которые LLM могут интерпретировать и выполнять напрямую.

2.2 Механизм самоотрицания

INoT реализует внутреннюю саморефлексию, при которой LLM оценивает собственный процесс рассуждений без внешних циклов валидации. Этот механизм внутренней критики сокращает необходимость в множественных взаимодействиях агентов или итеративной внешней валидации.

3 Техническая реализация

3.1 Математическая основа

Структура INoT оптимизирует процесс рассуждений через формализованные вероятностные модели. При заданных входных данных $x$ и желаемом выходе $y$ традиционные методы вычисляют:

$P(y|x) = \prod_{t=1}^{T} P(y_t|x, y_{

INoT улучшает это через внутреннюю рефлексию:

$P_{INoT}(y|x) = \prod_{t=1}^{T} P(y_t|x, y_{

где $R_t$ представляет состояние внутренней рефлексии на шаге $t$, вычисляемое как:

$R_t = f_{reflect}(x, y_{

Функция рефлексии $f_{reflect}$ работает в латентном пространстве LLM, минимизируя внешнее потребление токенов при сохранении целостности рассуждений.

3.2 Реализация кода

Хотя PDF не предоставляет явный код, структуру INoT можно концептуализировать через следующую псевдокодовую структуру:

class INoTReasoner:
    def __init__(self, llm_model):
        self.llm = llm_model
        self.reflection_states = []
    
    def reason_with_introspection(self, query):
        # Первоначальный проход рассуждений
        initial_response = self.llm.generate(query)
        
        # Фаза внутренней рефлексии
        reflection_prompt = self._build_reflection_prompt(query, initial_response)
        reflection = self.llm.generate(reflection_prompt)
        
        # Интегрированный финальный ответ
        final_prompt = self._integrate_reflection(query, initial_response, reflection)
        return self.llm.generate(final_prompt)
    
    def _build_reflection_prompt(self, query, response):
        return f"""Проанализируйте следующие рассуждения на предмет потенциальных улучшений:
        Запрос: {query}
        Текущий ответ: {response}
        Выявите логические пробелы и предложите улучшения:"""

4 Результаты экспериментов

4.1 Метрики производительности

INoT была оценена на шести тестах, охватывающих математические рассуждения, программистские задачи и мультимодальные вопросы и ответы. Структура достигла среднего улучшения производительности на 7.95% по сравнению с базовыми методами, включая CoT, IoT и ProgCo.

4.2 Эффективность использования токенов

Самым значительным достижением INoT является сокращение затрат токенов на 58.3% по сравнению с наилучшим базовым методом. Этот выигрыш в эффективности проистекает из интернализации процесса рефлексии, устраняя необходимость в множественных внешних циклах валидации.

Ключевые инсайты

  • INoT демонстрирует, что внутренняя рефлексия превосходит внешнюю итерацию для сложных задач рассуждений
  • Программные промпты обеспечивают более последовательные шаблоны рассуждений, чем инструкции на естественном языке
  • Структура эффективно масштабируется для различных типов задач и архитектур моделей
  • Улучшения эффективности токенов делают сложные рассуждения более доступными для развертываний с ограниченными ресурсами

5 Критический анализ

Перспектива отраслевого аналитика

Суть дела (Cutting to the Chase)

INoT — это не просто очередное постепенное улучшение, это фундаментальный сдвиг в том, как мы подходим к рассуждениям LLM. Структура успешно бросает вызов преобладающей ортодоксии, что сложные рассуждения требуют множественных внешних циклов валидации. Переместив рефлексию внутрь модели, авторы выявили ключевую неэффективность в современных архитектурах ИИ-агентов.

Логическая цепочка (Logical Chain)

Исследование следует убедительной логической прогрессии: Современные методы → Выявленные неэффективности → Гипотеза внутренней рефлексии → Реализация → Валидация. Цепочка остается сильной, поскольку она решает фундаментальное ограничение (затраты токенов), одновременно улучшая производительность, создавая редкий сценарий «выигрыш-выигрыш» в оптимизации ИИ.

Сильные стороны и ограничения (Highlights and Limitations)

Сильные стороны: Сокращение на 58.3% токенов является монументальным — сопоставимым с выигрышами в эффективности, наблюдаемыми в прорывах оптимизации, таких как улучшение оригинальной архитектуры Transformer по сравнению с RNN. Универсальность структуры в различных тестах демонстрирует надежную генерализацию.

Ограничения: Подход предполагает, что LLM имеют достаточную внутреннюю репрезентативную способность для эффективной саморефлексии. Как отмечено в оригинальной статье CycleGAN, архитектурные ограничения могут ограничивать такие подходы внутренней оптимизации. Кроме того, метод может испытывать трудности с задачами, требующими действительно новых рассуждений, выходящих за пределы распределения обучения модели.

Практические выводы (Actionable Insights)

Это исследование должно побудить к немедленному пересмотру проектов структур рассуждений по всей отрасли. Компании, создающие ИИ-агентов, должны отдавать приоритет механизмам внутренней рефлексии над внешними циклами валидации. Результаты предполагают, что инжиниринг промптов должен сместиться в сторону программных структур, а не вариаций естественного языка. Как предполагают исследования DeepMind по оптимизации на основе моделей, внутренние рассуждения часто превосходят внешнюю валидацию при правильной структуризации.

6 Будущие применения

Структура INoT открывает несколько перспективных направлений для будущего развития:

  • Корпоративные системы ИИ: Крупномасштабное развертывание, где затраты токенов напрямую влияют на операционные расходы
  • Периферийные вычисления: Среды с ограниченными ресурсами, требующие эффективных рассуждений
  • Мультимодальные рассуждения: Расширение на интерпретацию видео, аудио и данных сенсоров
  • Приложения реального времени: Сценарии, требующие быстрых итеративных рассуждений с ограниченным вычислительным бюджетом
  • Образовательный ИИ: Обучающие системы, выигрывающие от эффективных механизмов самокоррекции

Будущая работа должна исследовать гибридные подходы, сочетающие внутреннюю рефлексию INoT с выборочной внешней валидацией для оптимальной производительности в различных типах задач.

7 Ссылки

  1. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
  2. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  3. Zhu, J. Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
  4. OpenAI (2023). GPT-4 Technical Report. OpenAI.
  5. DeepMind (2024). Model-Based Optimization for AI Systems. Nature Machine Intelligence.
  6. Zeng, S., et al. (2025). Introspection of Thought Helps AI Agents. arXiv:2507.08664.