ВСЕ СТАТЬИ

← Вернуться к статьям
А если агенту не платить?
2 марта в 22:47
habr.comтехнологии

А если агенту не платить?

2 марта в 22:47•faviconhabr.com•технологии

А если агенту не платить? Альтернативная механика обучения с подкреплением. В машинном обучении есть такой метод - обучение с подкреплением (reinforcement learning, RL), который используется для решения задач последовательного принятия решений. В этом методе агент на каждом шаге взаимодействует со средой, изменяя её. Обратной связью для него является некая искусственно сконструированная награда, которая выдаётся на каждой итерации взаимодействия. Основная проблема в том, что действие и награда напрямую не коррелируют. Часто, награда назначается за какое-то финальное дос...

Еще статьи из категории

Еще статьи