От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

← Вернуться к статьям

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

2 марта в 08:00

habr.comтехнологии

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

2 марта в 08:00•

habr.com•технологии

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов. Вы выкатили AI-агента в прод. Пользователи пишут: «он мне чушь ответил». Вы открываете логи, смотрите на промпт, на ответ — и не понимаете: это регрессия после вчерашней правки промпта? Проблемы после смены модели? Или просто краевой случай, который всегда был? Знакомо? Нам — да. Марта — AI-агент в Битрикс24. Она работает с CRM, задачами, отвечает на вопросы пользователей. Когда Марта была маленькой, мы тестировали её руками: открывали чат, писали вопрос, смотрели ответ. Но ручное тестирование н...

Еще статьи из категории

Еще статьи

← Вернуться к статьям

2 марта в 08:00

habr.comтехнологии

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

2 марта в 08:00•

habr.com•технологии

ВСЕ СТАТЬИ

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

Еще статьи из категории

Еще статьи

ВСЕ СТАТЬИ

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов.

Еще статьи из категории

Еще статьи