HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах.

← Вернуться к статьям

2 октября в 08:19

habr.comтехнологии

2 октября в 08:19•

habr.com•технологии

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах. Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей. Мы прогнали через него 25 открытых и проприетарных LL...

Еще статьи из категории

Еще статьи

← Вернуться к статьям

2 октября в 08:19

habr.comтехнологии

2 октября в 08:19•

habr.com•технологии

ВСЕ СТАТЬИ

Еще статьи из категории

Еще статьи

ВСЕ СТАТЬИ

Еще статьи из категории

Еще статьи