Как Gradient Labs построил AI-агента для банковской поддержки: архитектурный разбор для финтех-команд

Автоматизация поддержки ИИ: архитектура Gradient Labs с agent loop, tool calling, guardrails. Кейс внедрения чат-ботов в финтех: 98% CSAT, 500 мс. Чеклист.

VibeLab

Лондонский стартап Gradient Labs перевёл банковскую поддержку на AI-агентов — сначала на GPT-4.1, затем на GPT-5.4 mini и nano. CSAT 98%, латентность 500 мс, точность следования процедурам 97%. Разбираем архитектуру по слоям: agent loop, tool calling, guardrails, fallback-стратегии. И главное — что из этого можно забрать в свой финтех-проект.

Почему банковская поддержка — идеальный полигон для AI-агентов

Банковская поддержка — это не свободный диалог. Каждое обращение регулируется стандартными операционными процедурами (SOP): верификация, блокировка карты, инициация возврата, обработка жалобы. Процедуры жёсткие, шаги детерминированы, отклонение от них — комплаенс-инцидент.

Именно эта жёсткость делает задачу подходящей для автоматизации. Агент не должен «креативить» — он должен точно следовать процедуре, обрабатывать прерывания и корректно вызывать внешние системы. Высокий объём однотипных запросов даёт экономию на масштабе, а формализованные процессы снижают риск галлюцинаций.

Для команд, которые строят чат-боты для бизнеса в финтехе, банковская поддержка — показательный кейс. Если архитектура работает здесь, с регуляторными ограничениями и нулевой толерантностью к ошибкам, она выдержит большинство других доменов.

Что построил Gradient Labs: обзор системы

Gradient Labs — лондонский стартап, основанный выходцами из Monzo (один из крупнейших необанков Европы). Команда, которая отвечала за AI и работу с данными в Monzo, построила платформу для полного цикла банковской поддержки на базе AI-агентов.

Ключевые метрики из публичного кейса OpenAI (апрель 2026):

Метрика	Значение	Контекст
CSAT	98%	Выше, чем у лучших операторов-людей
Рост выручки	10× за год	Расширение от входящей поддержки к исходящим и бэк-офис процессам
Resolution rate с первого дня	>50%	Даже для сложных процедур: споры, верификация, фрод
Trajectory accuracy (GPT-4.1)	97%	Ближайший конкурент — 88%
Латентность (GPT-5.4 mini/nano)	500 мс	Достаточно для голосовых диалогов в реальном времени

Важно понимать границы. Агент закрывает структурированные процедуры: блокировка карт, верификация, обработка споров, ответы на типовые вопросы. Сложные нестандартные кейсы, жалобы с эмоциональной нагрузкой, комплаенс-расследования — эскалируются на человека. Gradient Labs не заявляет 100% автоматизацию, и это честная позиция.

Эволюция моделей. Система была построена и протестирована на GPT-4.1 — именно на этой модели были получены метрики trajectory accuracy 97%. В начале 2026 года компания начала переводить продакшн-трафик на GPT-5.4 mini и nano, получив латентность 500 мс — критичную для голосовых сценариев. Это не замена одной модели другой, а гибридная архитектура, где разные модели используются для разных задач.

Архитектура agent loop: как устроен цикл обработки запроса

Цикл обработки запроса — это не простая цепочка «получил вопрос → сгенерировал ответ». Это полноценный agent loop с ветвлением, вызовами внешних инструментов и параллельными проверками.

Упрощённая схема шагов:

Intake — приём обращения (текст или голос), нормализация входных данных.
Identity verification — верификация клиента по данным из банковской системы.
Intent classification — определение типа запроса и выбор соответствующей процедуры (SOP).
Procedure execution — пошаговое следование процедуре с вызовами tools на каждом шаге.
Response generation — формирование ответа клиенту.
Guardrails check — параллельная проверка 15+ систем контроля.
Handoff logic — решение: продолжить, эскалировать на человека или завершить.

Ключевое отличие от типовых чат-ботов — агент поддерживает состояние процедуры через прерывания, отвлечения и переключения темы. Клиент может посреди верификации спросить «а когда придёт новая карта?», и агент вернётся к верификации после ответа, не потеряв контекст.

Orchestration и state management

Система использует архитектуру с центральным reasoning-агентом, который оркестрирует специализированные навыки (skills). Каждый навык — это отдельный workflow для конкретного типа задачи.

Как организовано управление состоянием:

Procedure state — агент отслеживает, на каком шаге процедуры находится диалог, какие шаги завершены, какие ожидают ввода.
Multi-turn context — история диалога сохраняется между шагами. При переключении между навыками контекст передаётся без потерь.
Незавершённые задачи — если клиент прерывает процедуру, агент запоминает точку прерывания и возвращается к ней.

Данай Антониу, сооснователь и Chief Scientist Gradient Labs, описывает это так: «Модель должна поддерживать состояние процедуры через прерывания, фоновые реплики и переключения темы, при этом генерируя ответы быстро. Большинство провайдеров не смогли даже попытаться это реализовать».

Для тех, кто проектирует собственные агентные системы, ключевой вывод: state management — это не «хранить последние N сообщений». Это явное моделирование состояния бизнес-процесса с поддержкой прерываний и возобновления.

Tool calling и интеграции с банковскими системами

Агент Gradient Labs — не генератор текста, а оркестратор действий. На каждом шаге процедуры он вызывает внешние инструменты:

Клиентская БД — запрос данных для верификации, проверка статуса счёта.
Транзакционная история — получение последних операций, поиск подозрительных транзакций.
Операционные API — блокировка карты, инициация перевыпуска, создание тикета на расследование.
FAQ и база знаний — ответы на справочные вопросы (тарифы, сроки доставки).

Критичные аспекты tool calling в банковском контексте:

Идемпотентность — если вызов «заблокировать карту» провалился по таймауту, повторный вызов не должен заблокировать другую карту или создать дубль запроса.
Timeout-стратегии — банковские API отвечают по-разному. Процессинговый центр может отвечать 50 мс, а legacy-система — 5 секунд. Агент должен корректно обрабатывать таймауты.
Обработка ошибок — если внешний API недоступен, агент не должен галлюцинировать результат. Корректная реакция: сообщить клиенту о временной проблеме или эскалировать.

Gradient Labs регистрирует функции как tools с чёткими схемами параметров. Надёжность function calling была одним из трёх критериев выбора провайдера модели — наряду с точностью следования инструкциям и уровнем галлюцинаций.

Почему GPT-5.4 mini/nano, а не флагман

Это, пожалуй, самый практически полезный раздел для команд, которые выбирают модель для своего AI-агента. Gradient Labs сознательно использует не флагманскую модель, а mini и nano версии.

Три фактора определяют выбор:

Латентность. Банковский чат — это real-time. Голосовой сценарий требует ответа быстрее 1 секунды. GPT-5.4 mini и nano дают латентность 500 мс — достаточно для естественного голосового диалога. Флагманская модель медленнее в разы.

Стоимость. При объёмах банковской поддержки (тысячи диалогов в час) разница в стоимости токена между mini и флагманом превращается в кратную разницу в ежемесячных расходах. Это не вопрос оптимизации — это вопрос экономической жизнеспособности.

Достаточность. Для задач банковской поддержки mini и nano хватает. Агент классифицирует интент, следует процедуре, вызывает инструменты и формирует ответ по шаблону. Это задачи, где маленькие модели показывают результаты, сравнимые с флагманом.

Latency budget: как уложиться в требования real-time

Для текстового чата приемлемая задержка — 2–3 секунды. Для голосового — менее 1 секунды. Gradient Labs целится в голосовой сценарий, отсюда жёсткий latency budget.

Как достигается 500 мс:

Выбор модели — GPT-5.4 mini/nano оптимизированы под скорость inference.
Streaming — ответ начинает отдаваться клиенту до завершения генерации.
Prompt caching — системный промпт и описание процедур кэшируются.
Параллельные guardrails — 15+ проверок запускаются одновременно с генерацией, а не последовательно.

Для российского рынка стоит учитывать дополнительную латентность: если inference происходит за рубежом, сетевой RTT добавит 100–200 мс. При использовании локальных моделей (GigaChat, YandexGPT) этой проблемы нет, но качество function calling пока уступает.

Стоимость vs качество: когда меньшая модель выигрывает

Грубый расчёт. Банк обрабатывает 10 000 диалогов в день, средний диалог — 2 000 токенов. Это 20 млн токенов в день. Разница в стоимости между mini и флагманом — 5–10× на токен. На таких объёмах это существенная сумма ежемесячно.

При этом для банковской поддержки качество mini достаточно. Gradient Labs измеряет это через trajectory accuracy — процент диалогов, где агент корректно прошёл все шаги процедуры. На GPT-4.1 — 97%. Переход на GPT-5.4 mini мотивирован улучшением латентности при сохранении уровня качества.

Принцип: не начинайте с самой мощной модели. Начните с mini, измерьте trajectory accuracy на ваших данных. Если хватает — вы сэкономите бюджет и получите лучшую латентность. Если не хватает — поднимайте уровень модели точечно, для конкретных типов запросов.

Ограничения, которые пришлось обойти

Любой реальный кейс внедрения ИИ в продакшн — это история про ограничения и их обход.

Reliability и fallback-стратегии

Галлюцинации в финансовом контексте — это не «модель ошиблась», а потенциальный регуляторный инцидент. Gradient Labs выстраивает защиту на нескольких уровнях:

15+ параллельных guardrails. Каждое сообщение агента проходит через набор проверок:

Детекция финансовых рекомендаций (агент не должен давать инвестиционные советы).
Сигналы уязвимости клиента (эмоциональное состояние, упоминание суицида).
Детекция жалоб (требуют специальной процедуры обработки).
Попытки обхода верификации или доступа к чужим данным.
Проверка соответствия ответа текущей процедуре.

Confidence threshold. Агент оценивает собственную уверенность. Если уверенность ниже порога — автоматическая эскалация на оператора. Клиент не замечает переход: оператор получает полный контекст диалога.

Graceful degradation. Если AI-компонент деградирует, система переключается на оператора без потери контекста.

Поэтапный ввод. Автоматизация начинается с низкорисковых процедур и расширяется по мере накопления статистики.

Prompt engineering для банковского домена

Системный промпт в банковском контексте — это детальное описание процедуры, ролей, ограничений и формата ответов.

Практические паттерны:

Явный запрет на выдумку. В промпте прописано: если агент не знает ответа — сказать «я уточню» и эскалировать.
Few-shot примеры для типовых процедур. Модель видит 3–5 примеров корректного прохождения каждой процедуры.
Chain-of-thought для сложных запросов. Когда процедура ветвится, агент проходит шаги рассуждения перед действием.
Grounding через инструменты. Агент не отвечает на вопросы о балансе из «памяти» — он всегда делает запрос к API. Это убирает целый класс галлюцинаций.

Grounding через tool calling — самый эффективный способ борьбы с галлюцинациями в доменных задачах. Не RAG (хотя он полезен для FAQ), а именно прямые API-вызовы к источникам истины.

Что из этого применимо для финтех-агентов: выводы VibeLab

Кейс Gradient Labs — это западный production с западной регуляторикой. Перенос на российский рынок требует адаптации, но архитектурные принципы универсальны.

Специфика российского рынка:

Регуляторика ЦБ РФ. Требования к обработке персональных данных, хранению переписки, протоколированию действий. AI-агент должен логировать каждый шаг с возможностью аудита.
Интеграции. Вместо европейских систем — НСПК, СБП, ЕБС для биометрии. API отличаются, но паттерн tool calling тот же.
Языковые особенности. Русский язык сложнее для NLP: морфология, свободный порядок слов. Тестируйте на русскоязычных данных.
Модели. GPT-5.4 mini/nano доступны через API, но при требованиях к локализации данных — GigaChat, YandexGPT или open-source с деплоем на российской инфраструктуре.

Чеклист архитектурных решений:

Гибридная архитектура моделей: mini для типовых задач, мощнее для сложных.
Явное моделирование бизнес-процедур (SOP) как state machine.
Grounding через tool calling, а не через «знания» модели.
10+ параллельных guardrails для каждого сообщения.
Confidence threshold с автоматической эскалацией.
Поэтапный ввод: от малого процента трафика к полному покрытию.
Полное логирование для аудита и комплаенса.

Когда копировать архитектуру Gradient Labs, а когда нет

Копируйте, если:

Объём обращений — от 500+ в день.
Процессы формализованы. Есть описанные SOP.
Требования к латентности жёсткие (голос или real-time чат).
Команда умеет в MLOps: мониторинг, A/B тесты, постепенный rollout.

Не копируйте, если:

Обращений мало, а процессы уникальны.
Нет формализованных процедур. Агенту нечему следовать.
Команда хочет «поставить GPT и забыть». Банковский AI-агент требует постоянного мониторинга.

Антипаттерн: брать архитектуру full-scale агента для простого FAQ-бота. Если задача — отвечать на 50 типовых вопросов, RAG с простым retrieval решит проблему за неделю.

Стек и инструменты: что актуально на Q2 2026

Orchestration:

LangGraph — зрелый фреймворк для агентных графов. Хорошо подходит для моделирования SOP как state machine.
Custom orchestration — подход Gradient Labs. Больше контроля, но требует сильной команды.
CrewAI, AutoGen — для прототипов. В production с жёсткими требованиями пока рано.

Observability:

Langfuse — open-source трейсинг для LLM. Деплоится on-premise.
Arize Phoenix — мониторинг дрифта и качества модели.
OpenTelemetry — для интеграции LLM-трейсинга с общей инфраструктурой.

Guardrails:

Guardrails AI, NeMo Guardrails — фреймворки для валидации входов и выходов.
Кастомные классификаторы — для доменных проверок тренируйте отдельные модели.

Deployment:

vLLM, TGI — для self-hosted моделей. При локализации данных — единственный вариант.
API провайдеров — OpenAI, Anthropic. Быстрый старт, но данные уходят за периметр.

Кейс Gradient Labs показывает: ИИ чат-бот для бизнеса в банковском секторе — это не эксперимент, а работающий продакшн. 98% CSAT и 500 мс латентности — цифры, за которыми стоит конкретная архитектура: гибридный выбор моделей, жёсткое следование процедурам через tool calling, многослойные guardrails и поэтапный ввод.

Архитектурные принципы переносимы. Регуляторика, языковая модель и интеграции меняются — но логика agent loop, state management и fallback-стратегий остаётся. Если вы проектируете агента для финтеха, этот разбор — карта решений, которые уже проверены в продакшне.

Подписывайтесь на наш канал: @vibelogia

Поделимся опытом

hello@vibelab.ru

8 800 201 85 68

Написать в Telegram