Снижаем стоимость инференса.

← Вернуться к статьям

3 октября в 14:00

habr.comтехнологии

3 октября в 14:00•

habr.com•технологии

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения. Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач. В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или v...

Еще статьи из категории

Еще статьи

← Вернуться к статьям

3 октября в 14:00

habr.comтехнологии

3 октября в 14:00•

habr.com•технологии

ВСЕ СТАТЬИ

Еще статьи из категории

Еще статьи

ВСЕ СТАТЬИ

Еще статьи из категории

Еще статьи