ВСЕ СТАТЬИ

← Вернуться к статьям
2 октября в 08:19
habr.comтехнологии
2 октября в 08:19•faviconhabr.com•технологии

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах. Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей. Мы прогнали через него 25 открытых и проприетарных LL...

Еще статьи из категории

Еще статьи