Автоматизация поддержки ИИ: архитектура Gradient Labs с agent loop, tool calling, guardrails. Кейс внедрения чат-ботов в финтех: 98% CSAT, 500 мс. Чеклист.
VibeLab
Поделиться

Лондонский стартап Gradient Labs перевёл банковскую поддержку на AI-агентов — сначала на GPT-4.1, затем на GPT-5.4 mini и nano. CSAT 98%, латентность 500 мс, точность следования процедурам 97%. Разбираем архитектуру по слоям: agent loop, tool calling, guardrails, fallback-стратегии. И главное — что из этого можно забрать в свой финтех-проект.
Банковская поддержка — это не свободный диалог. Каждое обращение регулируется стандартными операционными процедурами (SOP): верификация, блокировка карты, инициация возврата, обработка жалобы. Процедуры жёсткие, шаги детерминированы, отклонение от них — комплаенс-инцидент.
Именно эта жёсткость делает задачу подходящей для автоматизации. Агент не должен «креативить» — он должен точно следовать процедуре, обрабатывать прерывания и корректно вызывать внешние системы. Высокий объём однотипных запросов даёт экономию на масштабе, а формализованные процессы снижают риск галлюцинаций.
Для команд, которые строят чат-боты для бизнеса в финтехе, банковская поддержка — показательный кейс. Если архитектура работает здесь, с регуляторными ограничениями и нулевой толерантностью к ошибкам, она выдержит большинство других доменов.
Gradient Labs — лондонский стартап, основанный выходцами из Monzo (один из крупнейших необанков Европы). Команда, которая отвечала за AI и работу с данными в Monzo, построила платформу для полного цикла банковской поддержки на базе AI-агентов.
Ключевые метрики из публичного кейса OpenAI (апрель 2026):
| Метрика | Значение | Контекст |
|---|---|---|
| CSAT | 98% | Выше, чем у лучших операторов-людей |
| Рост выручки | 10× за год | Расширение от входящей поддержки к исходящим и бэк-офис процессам |
| Resolution rate с первого дня | >50% | Даже для сложных процедур: споры, верификация, фрод |
| Trajectory accuracy (GPT-4.1) | 97% | Ближайший конкурент — 88% |
| Латентность (GPT-5.4 mini/nano) | 500 мс | Достаточно для голосовых диалогов в реальном времени |
Важно понимать границы. Агент закрывает структурированные процедуры: блокировка карт, верификация, обработка споров, ответы на типовые вопросы. Сложные нестандартные кейсы, жалобы с эмоциональной нагрузкой, комплаенс-расследования — эскалируются на человека. Gradient Labs не заявляет 100% автоматизацию, и это честная позиция.
Эволюция моделей. Система была построена и протестирована на GPT-4.1 — именно на этой модели были получены метрики trajectory accuracy 97%. В начале 2026 года компания начала переводить продакшн-трафик на GPT-5.4 mini и nano, получив латентность 500 мс — критичную для голосовых сценариев. Это не замена одной модели другой, а гибридная архитектура, где разные модели используются для разных задач.
Цикл обработки запроса — это не простая цепочка «получил вопрос → сгенерировал ответ». Это полноценный agent loop с ветвлением, вызовами внешних инструментов и параллельными проверками.
Упрощённая схема шагов:
Ключевое отличие от типовых чат-ботов — агент поддерживает состояние процедуры через прерывания, отвлечения и переключения темы. Клиент может посреди верификации спросить «а когда придёт новая карта?», и агент вернётся к верификации после ответа, не потеряв контекст.
Система использует архитектуру с центральным reasoning-агентом, который оркестрирует специализированные навыки (skills). Каждый навык — это отдельный workflow для конкретного типа задачи.
Как организовано управление состоянием:
Данай Антониу, сооснователь и Chief Scientist Gradient Labs, описывает это так: «Модель должна поддерживать состояние процедуры через прерывания, фоновые реплики и переключения темы, при этом генерируя ответы быстро. Большинство провайдеров не смогли даже попытаться это реализовать».
Для тех, кто проектирует собственные агентные системы, ключевой вывод: state management — это не «хранить последние N сообщений». Это явное моделирование состояния бизнес-процесса с поддержкой прерываний и возобновления.
Агент Gradient Labs — не генератор текста, а оркестратор действий. На каждом шаге процедуры он вызывает внешние инструменты:
Критичные аспекты tool calling в банковском контексте:
Gradient Labs регистрирует функции как tools с чёткими схемами параметров. Надёжность function calling была одним из трёх критериев выбора провайдера модели — наряду с точностью следования инструкциям и уровнем галлюцинаций.
Это, пожалуй, самый практически полезный раздел для команд, которые выбирают модель для своего AI-агента. Gradient Labs сознательно использует не флагманскую модель, а mini и nano версии.
Три фактора определяют выбор:
Латентность. Банковский чат — это real-time. Голосовой сценарий требует ответа быстрее 1 секунды. GPT-5.4 mini и nano дают латентность 500 мс — достаточно для естественного голосового диалога. Флагманская модель медленнее в разы.
Стоимость. При объёмах банковской поддержки (тысячи диалогов в час) разница в стоимости токена между mini и флагманом превращается в кратную разницу в ежемесячных расходах. Это не вопрос оптимизации — это вопрос экономической жизнеспособности.
Достаточность. Для задач банковской поддержки mini и nano хватает. Агент классифицирует интент, следует процедуре, вызывает инструменты и формирует ответ по шаблону. Это задачи, где маленькие модели показывают результаты, сравнимые с флагманом.
Для текстового чата приемлемая задержка — 2–3 секунды. Для голосового — менее 1 секунды. Gradient Labs целится в голосовой сценарий, отсюда жёсткий latency budget.
Как достигается 500 мс:
Для российского рынка стоит учитывать дополнительную латентность: если inference происходит за рубежом, сетевой RTT добавит 100–200 мс. При использовании локальных моделей (GigaChat, YandexGPT) этой проблемы нет, но качество function calling пока уступает.
Грубый расчёт. Банк обрабатывает 10 000 диалогов в день, средний диалог — 2 000 токенов. Это 20 млн токенов в день. Разница в стоимости между mini и флагманом — 5–10× на токен. На таких объёмах это существенная сумма ежемесячно.
При этом для банковской поддержки качество mini достаточно. Gradient Labs измеряет это через trajectory accuracy — процент диалогов, где агент корректно прошёл все шаги процедуры. На GPT-4.1 — 97%. Переход на GPT-5.4 mini мотивирован улучшением латентности при сохранении уровня качества.
Принцип: не начинайте с самой мощной модели. Начните с mini, измерьте trajectory accuracy на ваших данных. Если хватает — вы сэкономите бюджет и получите лучшую латентность. Если не хватает — поднимайте уровень модели точечно, для конкретных типов запросов.
Любой реальный кейс внедрения ИИ в продакшн — это история про ограничения и их обход.
Галлюцинации в финансовом контексте — это не «модель ошиблась», а потенциальный регуляторный инцидент. Gradient Labs выстраивает защиту на нескольких уровнях:
15+ параллельных guardrails. Каждое сообщение агента проходит через набор проверок:
Confidence threshold. Агент оценивает собственную уверенность. Если уверенность ниже порога — автоматическая эскалация на оператора. Клиент не замечает переход: оператор получает полный контекст диалога.
Graceful degradation. Если AI-компонент деградирует, система переключается на оператора без потери контекста.
Поэтапный ввод. Автоматизация начинается с низкорисковых процедур и расширяется по мере накопления статистики.
Системный промпт в банковском контексте — это детальное описание процедуры, ролей, ограничений и формата ответов.
Практические паттерны:
Grounding через tool calling — самый эффективный способ борьбы с галлюцинациями в доменных задачах. Не RAG (хотя он полезен для FAQ), а именно прямые API-вызовы к источникам истины.
Кейс Gradient Labs — это западный production с западной регуляторикой. Перенос на российский рынок требует адаптации, но архитектурные принципы универсальны.
Специфика российского рынка:
Чеклист архитектурных решений:
Копируйте, если:
Не копируйте, если:
Антипаттерн: брать архитектуру full-scale агента для простого FAQ-бота. Если задача — отвечать на 50 типовых вопросов, RAG с простым retrieval решит проблему за неделю.
Orchestration:
Observability:
Guardrails:
Deployment:
Кейс Gradient Labs показывает: ИИ чат-бот для бизнеса в банковском секторе — это не эксперимент, а работающий продакшн. 98% CSAT и 500 мс латентности — цифры, за которыми стоит конкретная архитектура: гибридный выбор моделей, жёсткое следование процедурам через tool calling, многослойные guardrails и поэтапный ввод.
Архитектурные принципы переносимы. Регуляторика, языковая модель и интеграции меняются — но логика agent loop, state management и fallback-стратегий остаётся. Если вы проектируете агента для финтеха, этот разбор — карта решений, которые уже проверены в продакшне.
Подписывайтесь на наш канал: @vibelogia
Поделимся опытом
8 800 201 85 68