Технологии
Раскрывая первопричины сбоев задач: взгляды исследователей PSU и Duke на автоматическое определение причин сбоев в многоагентных системах
Исследователи из PSU и Duke, совместно с коллегами из Google DeepMind и другими, пересматривают вечную проблему в разработке многоагентных систем: отслеживание истинной причины неудачи задачи в длинных, сложносоставных логах. Их статья в рамках ICML 2025 предлагает Автоматическое Атрибутирование — строгий способ определить, какой агент ошибся и когда — на основе нового открытого датасета и базовых методов. Цель проста: превратить непрозрачные сбои в структурированные Системные Диагностики, ускоряющие итерации.
| Спешите? Вот главное: ⚡ | |
|---|---|
| • 🔎 Новая задача: Автоматическое атрибутирование сбоев для LLM многоагентных рабочих процессов. | • 🧭 Бенчмарк: датасет Who&When с метками Who, When, Why. |
| • 📉 Вызов: Лучший одиночный метод достигает ~53,5% по «Who» и ~14,2% по «When». | • 🧰 Вывод: Лучшее работают гибридные, насыщенные рассуждениями подсказки и тщательный контроль контекста. |
Автоматическое атрибутирование сбоев в многоагентных системах: почему важен анализ коренной причины
Многоагентные конвейеры обещают сотрудничество, но на практике поток сообщений агентов может скрывать критические ошибки. Разработчики часто сталкиваются с длинными трассами, где несколько агентов предлагают планы, критикуют друг друга и вызывают инструменты, но итоговый результат не достигает цели. Без структурированного анализа коренной причины вопрос «что пошло не так, кто виноват и когда» остаётся потерянным в шуме. PSU и Duke поставили задачу формализовать этот недостающий элемент в исследованиях ИИ, введя понятие автоматического атрибутирования для многоагентных интеллектуальных систем.
Почему формализация важна — очевидно. Отладка методом ручной «логовой археологии» занимает часы, требует глубоких системных знаний и плохо масштабируется, когда команды работают с большим числом агентов, увеличенными контекстами и сложными рабочими процессами с инструментами. Принципиальный слой атрибутирования превращает качественные упрёки в количественные системные диагностики. Этот сдвиг влияет на всё: от реакции на инциденты до управления моделями, в итоге повышая надёжность систем машинного обучения, работающих в реальных организациях.
Возьмём «NovaAI» — вымышленный стартап, создающий автономную команду разработчиков. Агент продукта собирает спецификации, планировщик разлагает задачи, кодер пишет патчи, тестировщик запускает CI. Релиз проваливается, потому что кодер неправильно понял изменение API, о котором ранее намекал планировщик. Без атрибутирования команда исправляет видимые симптомы — повышение температуры или замену модели кодера — и повторяет ту же схему ошибок. С автоматическим атрибутированием они получают четкое назначение: ответственный агент, решающий шаг и краткое объяснение. Теперь команда может обновить подсказки, переписать передачи или создать валидатор схемы на этом шаге.
Три причины делают эту задачу уникально сложной. Во-первых, неудача задачи может быть системной, с накоплением мелких ошибок, а не одной катастрофической. Во-вторых, «правильный» ответ может быть неизвестен во время отладки, особенно в открытых проблемах. В-третьих, длинные контекстные окна размывают сигнал; модели рассуждения должны искать причинно-следственные точки, а не просто коррелировать фрагменты текста. Вот почему PSU и Duke уделяют внимание и Кто, и Когда, дополняя их естественным языком Почему, связывая ответственность и механизм.
Ещё важнее влияние на организационные процессы. Операционные команды получают единообразные постмортемы; исследовательские команды сравнивают варианты агентов по единой шкале; команды по соответствию проводят аудит паттернов сбоев. Даже менеджеры продуктов выигрывают, видя, какие пользовательские сценарии регулярно приводят к сбоям агентов. Новый словарь вокруг ошибок агентов улучшает межфункциональное общение и приоритизацию.
- 🧩 Польза: превращает расплывчатые инциденты в конкретные, исправимые шаги по конвейеру.
- 🕒 Эффективность: сокращает время ручного обзора логов, сужая поиск до одного агента и шага.
- 🧪 Эксперименты: позволяет A/B-тестирование агентов на основе причинных профилей ошибок, а не только конечных метрик.
- 🛡️ Управление: создаёт аудиторские следы для безопасности, соответствия и послесбоевых ревью.
| Болевой пункт 😵 | Влияние на команды 🧠 | Ценность атрибутирования ✅ |
|---|---|---|
| Длинные, шумные логи | Медленная сортировка; догадки | Определить «Кто» + «Когда» для фокусированного исправления |
| Скрытые причинные цепочки | Неправильные меры | Объяснения «Почему» выявляют механизмы |
| Нет общего словаря | Конфликты между командами | Стандартные метки позволяют сравнивать |
| Рост агентов/инструментов | Рост сложности | Системные Диагностики как защитные механизмы |
Главный инсайт прост: когда автоматическое атрибутирование становится базовым уровнем разработки многоагентных систем, надёжность перестаёт быть анекдотичной и становится измеримой.

Внутри бенчмарка Who&When: данные, метки и дизайнерские решения от PSU и Duke
Для обоснования проблемы PSU и Duke собрали датасет Who&When — логи сбоев из 127 многоагентных установок. Некоторые трассы генерируются алгоритмически для охвата; другие создаются экспертами для сохранения реалистичности. Каждый лог содержит три тонкие аннотации человека: Who (ответственный агент), When (решающий шаг) и Why (краткое объяснение). Эта триада фиксирует ответственность, время и механизм в форме, пригодной для машинной обработки.
Разработчики могут смотреть код на GitHub и скачивать датасет с Hugging Face, связывая оценку с воспроизводимыми пайплайнами. Дизайн отражает распространённые архетипы: потоки планирования с последующим выполнением; структуры дебатов и выбора; а также агентов с инструментами, вызывающими внешние API. Метки едины для всех паттернов, что позволяет сравнивать методы атрибуции по топологии, домену задачи или длине логов.
Две режимные оценки показывают, как контекст влияет на сложность. В режиме «с эталоном» модель, делающая атрибуцию, знает правильный итоговый ответ и сверяет промежуточные шаги. В режиме «без эталона» модель опирается только на процесс — ближе к условиям производственных инцидентов. В обоих случаях основные выводы одни и те же, что помогает анализировать пробелы в рассуждениях вместо запоминания ответов.
Кроме меток, датасет содержит метаданные: роли агентов, использование инструментов и исходные системы. Это даёт возможность для углублённого анализа: насколько критик-агенты уменьшают ошибки, связаны ли вызовы инструментов с хрупкой координацией. Из-за вариации в длине логов бенчмарк может измерять деградацию производительности с ростом контекста — известное ограничение текущих моделей рассуждений.
Для команд, использующих эти данные, прагматичный путь — начать с узкой части, соответствующей их стеку. Если команда работает с тройкой планировщик-кодер-тестер, можно отфильтровать похожие топологии и создать подсказки с использованием схемы аннотаций Who&When. Позже можно расширяться на агентов формата дебатов или активного поиска и посмотреть, смещаются ли паттерны сбоев с архитектурой.
- 📚 Метки: Who (агент), When (шаг), Why (объяснение).
- 🧭 Режимы: с эталоном и без эталона для реалистичных отличий.
- 🧩 Охват: 127 систем разного типа — планирование, дебаты, использование инструментов.
- 🔓 Открыто: статья • код • датасет
| Аспект датасета 🗂️ | Почему важно 🎯 | Вывод для команды 🧰 |
|---|---|---|
| Метки Who / When / Why | Структурированный RCA по агентам | Стандартизация постмортемов |
| Разнообразие топологий | Проверка нагрузок методов | Подбор под свою архитектуру |
| Различная длина контекста | Измерение лимитов масштабируемости | Планирование нарезки/сжатия |
| Открытые пайплайны | Воспроизводимые базовые методы | Принять, потом адаптировать |
Для быстрого знакомства с многоагентными паттернами отладки и целями атрибутирования следующий поиск поможет найти релевантные доклады и демонстрации по сообществу.
Сила датасета — в мосте между академической строгостью и производственной полезностью: команды могут напрямую интегрировать схему в свои инструменты инцидентов и замыкать цикл от «оценки» к «улучшению».
Три стратегии автоматического атрибутирования: всё сразу, по шагам и бинарный поиск
Имея бенчмарк, команда оценила три стратегии автоматического атрибутирования. Каждая отражает разный подход к чтению и рассуждению над логами. Метод Всё сразу подаёт всю беседу и запрос пользователя модели (например, GPT-4o), прося указать Кто и Когда разом, с опциональным объяснением. Это дешево по управлению, но может пропускать мелкие ошибки при длинных контекстах и тонких противоречиях в ролях.
Стратегия по шагам копирует человеческую отладку: пройти лог последовательно, оценить каждый шаг и остановиться при решающей ошибке. Обычно лучше определяет конкретный шаг, хотя увеличивает количество токенов и риск накопления ошибок при многоступенчатой оценке. Можно представить её как подробного рецензента, жертвуя скоростью ради точности.
Средний путь — бинарный поиск. Разделить лог пополам, спросить модель, в какой части ошибка, затем углубиться. Это быстро сужает контекст и избегает чтения всего сразу. Часто балансирует стоимость и точность, хотя чувствителен к размытым границам — например, когда неправильное понимание начинается раньше, но проявляется позже.
Выбор зависит от ограничений. Если оптимизируют стоимость и время инженеров, метод Всё сразу — стартовая точка, особенно с подсказками для явных рассуждений. Приоритет — точное определение шага ошибки в критичных случаях — выигрывает метод по шагам. Бинарный поиск подходит для длинных логов с чёткими семантическими поворотами (планирование против выполнения). Гибриды — например, Всё сразу для определения агента и по шагам для времени — часто эффективны, но дороже по вычислениям.
- ⚙️ Всё сразу: простой контроль; следите за ограничениями контекста.
- 🧭 По шагам: высокая точность по «Когда»; контролируйте накопление ошибок.
- ✂️ Бинарный поиск: эффективное сужение; чувствителен к нечётким границам.
- 🧪 Гибрид: сочетание сильных сторон; платите за токены и время.
| Метод 🔬 | Сила 💪 | Риски ⚠️ | Лучшее применение 🚀 |
|---|---|---|---|
| Всё сразу | Низкая оркестрация, быстро | Пропускает тонкие ошибки шагов | Короткие и средние логи |
| По шагам | Точность шага | Стоимость токенов и задержки | Критичные аудиты безопасности |
| Бинарный поиск | Масштабируется на длинные логи | Неоднозначная сегментация | Глубокие трассы с поворотами |
| Гибрид | Лучшее из обоих | Высокие вычислительные затраты | Инциденты с высокими ставками |
Практический принцип — внедрить все три и маршрутизировать по размеру трассы и риску: короткие — Всё сразу, длинные — Бинарный поиск, критичные — По шагам. Такая политика обеспечивает быстрые победы, сохраняя точность там, где нужна.
Экспериментальные результаты и реальные кейсы: что сбоит, кто сбоит и когда
В Who&When лучший одиночный метод достиг около 53,5% точности в определении ответственного агента и около 14,2% при указании точного шага ошибки — лучше многих базовых методов, но далеко от готовности к продакшену. Отметим, даже мощные модели, включая OpenAI o1 и DeepSeek R1, испытывали трудности с тонкой многоступенчатой причинностью. Этот разрыв подчёркивает разницу между решением задач и объяснением сбоев коллективов агентов.
Два приёма стабильно помогали: требование явных рассуждений в подсказках (например, цепочка мысли), и ограничение контекста через нарезку или управляемую навигацию. Однако производительность падала с ростом длины логов, особенно по метке «Когда» — доказательство того, что временная локализация остаётся самой сложной. Бинарный поиск уменьшал перегрузку контекста, по шагам улучшал точность времени при большей стоимости.
В реальной практике возьмём «Orion Labs», гипотетическую аналитическую фирму, создающую многоагентный генератор отчётов. Планировщик создаёт план данных, ретривер достаёт таблицы, писатель пишет повествование, верификатор проверяет консистентность. Клиент замечает, что квартальный доход не сходится по региону. Атрибуция показывает, что ретривер использовал устаревшую схему после вызова инструмента, вернувшего индекс. Ошибка произошла в середине трассы, а симптом проявился на финальной проверке. С автоматическими диагностиками Orion перестраивает ретривера для проверки версии схемы при получении и выдачи жёсткой ошибки при несовпадении.
Гибридные стратегии тоже применялись: сначала запуск Всё сразу для назначения вероятного агента, затем по шагам с фокусом на передачи этого агента. Гибрид повышал точность, хотя стоимость токенов возрастала. Команды выбирали стратегию, направляя дорогие инциденты к гибридам, а рутинные откаты — к дешёвым методам.
- 📉 Реальность: атрибуция задачи сложнее исполнения задачи для текущих моделей.
- 🧠 Явные рассуждения улучшают и «Кто», и «Когда».
- 🧱 Длина контекста — ограничивающий фактор; нарезка помогает.
- 🧯 Гибриды лучше всего для критичных инцидентов при высокой стоимости.
| Наблюдение 🔎 | Данные 📊 | Вывод 🧭 |
|---|---|---|
| «Кто» легче, чем «Когда» | 53,5% vs. 14,2% | Приоритет исследования локализации шага |
| Рассуждения помогают | Лучшие результаты с явными рационализациями | Обязать использовать обоснованные подсказки |
| Контекст мешает | Длинные логи снижают точность | Использовать бинарный поиск и суммаризацию |
| Гибриды окупаются | Улучшенная комбинированная точность | Направлять критичные случаи к гибридной политике |
Для дополнительных взглядов на сложные системные сбои и диагностические процессы этот поиск позволит найти доклады и кейсы, актуальные для практиков и исследователей.
Итог: атрибуция теперь измерима. Даже при скромных показателях путь к операционной надёжности становится эмпирическим и итеративным.
Практическое руководство для разработчиков: от системных диагностик к непрерывной надёжности
Перенос исследований в практику начинается с мышления конвейера. Рассматривайте автоматическое атрибутирование как обязательную стадию CI для многоагентных релизов. Захватывайте логи, нормализуйте роли и автоматически запускайте атрибутирование после любого сбоя. Затем конвертируйте результаты в задачи, указывая агента, шаг и краткое «почему». Со временем это создаст живой каталог шаблонов сбоев — неверные подсказки, устаревшие инструменты, хрупкие передачи — которые инженеры системно устранят.
Рассмотрите практический раскат. Начинайте с метода Всё сразу на коротких трассах, добавляйте бинарный поиск при превышении длины контекста. Для клиентских или критичных рабочих процессов внедряйте по шагам или гибрид. Формируйте подсказки с требованиями явных рассуждений, требуйте цитирования строк лога в выводах моделей и кешируйте промежуточные анализы для контроля затрат. По возможности добавляйте лёгкие валидаторы на чувствительных шагах: проверки версии схемы, юнит-тесты инструментов, защитные барьеры, блокирующие неоднозначные передачи.
Чистота подсказок и данных важна. Используйте схему Who&When внутри, чтобы постмортемы оставались сопоставимы между командами. Поощряйте агентов писать короткие, машиноразборчивые рационализации (например, JSON с полями «утверждение», «доказательство», «уверенность»). Логируйте метаданные инструментов — версии, эндпоинты, задержку — чтобы отделять логические ошибки агентов от проблем инфраструктуры. В многопользовательских средах обезличивайте данные перед экспортом трасс в общие бенчмарки.
Наконец, согласуйте заинтересованных лиц. Продукт ориентирует сценарии по влиянию на пользователя, исследователи нацеливаются на самые сложные локализации «Когда», операционные команды поддерживают дашборды с частотой инцидентов по агентам и шагам. Руководство получает трендовые графики: с ростом метрик атрибуции падает MTTR по инцидентам. За месяцы организация переходит от реагирования на сбои к их предотвращению благодаря измеримым диагностическим данным.
- 🧪 Начинайте с малого: пилотируйте на одном активно используемом потоке перед масштабированием.
- 🪜 Уровневая политика: маршрутизируйте по длине лога и бизнес-риску.
- 🧰 Инструменты: добавляйте валидаторы и типизированные передачи на уязвимых этапах.
- 📈 Метрики: одновременно отслеживайте точность атрибуции и MTTR.
| Этап 🚀 | Что внедрять 🧩 | Результат 🎯 |
|---|---|---|
| Инструментирование | Структурированные логи, теги ролей, метаданные инструментов | Чистые входные данные для атрибуции |
| Движок атрибуции | Всё сразу + бинарный поиск + по шагам | Покрытие разных форм трасс |
| Защитные барьеры | Проверки схем, юнит-тесты инструментов, типизированные передачи | Меньше повторяющихся сбоев |
| Операции | Авто-тегирование с Who/When/Why | Быстрые, целенаправленные исправления |
| Цикл обучения | Дашборды с трендами, A/B замены агентов | Непрерывное повышение надёжности |
Эталон истины не всегда доступен в продакшене, поэтому отдавайте предпочтение методам, устойчивым к неопределённости, и инвестируйте в синтетические тесты, отражающие ваш профиль рисков. Атрибуция — это не просто исследовательская веха; это практический рычаг, делающий интеллектуальные системы надёжными в масштабах.
{“@context”:”https://schema.org”,”@type”:”FAQPage”,”mainEntity”:[{“@type”:”Question”,”name”:”What makes automated failure attribution different from standard debugging?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”It formalizes responsibility and timingu2014identifying the exact agent (Who) and decisive step (When)u2014and couples them with a short explanation (Why). This turns free-form log reviews into structured System Diagnostics suitable for metrics, audits, and automation.”}},{“@type”:”Question”,”name”:”How do PSU and Duke evaluate methods fairly?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”They use the Who&When benchmark with two regimes: With Ground Truth (the model knows the correct answer) and Without Ground Truth (the model relies solely on the process). This isolates reasoning skill from answer lookup and keeps comparisons consistent.”}},{“@type”:”Question”,”name”:”Why do strong models like OpenAI o1 and DeepSeek R1 still struggle?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Attribution demands multi-hop causal reasoning and temporal localization across long contexts. These demands are harder than producing a final answer, especially when errors compound or emerge indirectly through tool use.”}},{“@type”:”Question”,”name”:”When should a team prefer Binary Search over Step-by-Step?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Use Binary Search for long traces where the error likely sits behind major semantic boundaries (planning vs. execution). Choose Step-by-Step when precision on the exact step matters more than cost or latency.”}},{“@type”:”Question”,”name”:”Where can developers start with the open resources?”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Read the ICML 2025 spotlight paper, clone the GitHub repo for pipelines, and pull the Who&When dataset from Hugging Face. Begin by mirroring your own agent topology and adopt the Who/When/Why schema in internal post-mortems.”}}]}Что отличает автоматическое атрибутирование сбоев от обычной отладки?
Оно формализует ответственность и время — определяя точного агента (Кто) и решающий шаг (Когда) — и связывает это с коротким объяснением (Почему). Это превращает свободный обзор логов в структурированные системные диагностики, пригодные для метрик, аудита и автоматизации.
Как PSU и Duke справедливо оценивают методы?
Они используют бенчмарк Who&When с двумя режимами: с эталоном (модель знает правильный ответ) и без эталона (модель опирается только на процесс). Это изолирует навык рассуждения от поиска ответа и обеспечивает согласованность сравнений.
Почему сильные модели, такие как OpenAI o1 и DeepSeek R1, всё ещё испытывают трудности?
Атрибуция требует многоступенчатого причинного рассуждения и временной локализации в длинных контекстах. Это сложнее, чем просто дать конечный ответ, особенно когда ошибки накапливаются или возникают косвенно через использование инструментов.
Когда команда должна предпочесть бинарный поиск методу по шагам?
Используйте бинарный поиск для длинных трасс, где ошибка, вероятно, скрывается за большими семантическими границами (планирование против выполнения). Выбирайте метод по шагам, когда важна точность по конкретному шагу, важнее стоимости или задержки.
С чего разработчики могут начать с открытыми ресурсами?
Прочитайте статью ICML 2025 spotlight, склонируйте репозиторий GitHub для пайплайнов и скачайте датасет Who&When с Hugging Face. Начинайте с отражения своей топологии агентов и используйте схему Who/When/Why во внутренних постмортемах.
-
Open Ai6 days agoGPT-4 Turbo 128k: Раскрывая инновации и преимущества 2025 года
-
Инструменты2 weeks agoОткройте лучшие инструменты для генерации имен гномов для уникальных фэнтезийных имен
-
Open Ai1 week agoОткрывая возможности плагинов ChatGPT: улучшите свой опыт в 2025 году
-
Open Ai6 days agoОсвоение тонкой настройки GPT: руководство по эффективной кастомизации ваших моделей в 2025 году
-
Модели ИИ6 days agoМодели GPT-4: Как искусственный интеллект преобразует 2025 год
-
Open Ai7 days agoСравнивая ChatGPT от OpenAI, Claude от Anthropic и Bard от Google: какой инструмент генеративного ИИ будет доминировать в 2025 году?