ВСЕ СТАТЬИ

← Вернуться к статьям
3 октября в 13:13
habr.comтехнологии
3 октября в 13:13•faviconhabr.com•технологии

Рецепт vLLM с мистралем. Часть 1. В первой части мы загрузим и запустим модель Mistral-7b, используя технику QLoRA, метода 4-битного квантования, который позволяет значительно уменьшить размер модели без потери её производительности. Вместе мы разберёмся, как загрузить модель в 4-битном формате, изучим все варианты её конфигурации и запустим её для выполнения задач (инференса).

Еще статьи из категории

Еще статьи