ВСЕ СТАТЬИ

← Вернуться к статьям
От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.
2 марта в 08:00
habr.comтехнологии

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

2 марта в 08:00•faviconhabr.com•технологии

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов. Вы выкатили AI-агента в прод. Пользователи пишут: «он мне чушь ответил». Вы открываете логи, смотрите на промпт, на ответ — и не понимаете: это регрессия после вчерашней правки промпта? Проблемы после смены модели? Или просто краевой случай, который всегда был? Знакомо? Нам — да. Марта — AI-агент в Битрикс24. Она работает с CRM, задачами, отвечает на вопросы пользователей. Когда Марта была маленькой, мы тестировали её руками: открывали чат, писали вопрос, смотрели ответ. Но ручное тестирование н...

Еще статьи из категории

Еще статьи