Рецепт vLLM с мистралем. Часть 1. В первой части мы загрузим и запустим модель Mistral-7b, используя технику QLoRA, метода 4-битного квантования, который позволяет значительно уменьшить размер модели без потери её производительности. Вместе мы разберёмся, как загрузить модель в 4-битном формате, изучим все варианты её конфигурации и запустим её для выполнения задач (инференса).