ВСЕ СТАТЬИ

← Вернуться к статьям
Эффективные Large Language Models: от линейного attention к гибридным архитектурам, наши результаты и выводы.

Эффективные Large Language Models: от линейного attention к гибридным архитектурам, наши результаты и выводы.

21 ноября в 06:00
habr.comтехнологии
21 ноября в 06:00•faviconhabr.com•технологии

Эффективные Large Language Models: от линейного attention к гибридным архитектурам, наши результаты и выводы. Квадратичная сложность и линейно растущий KV cache в классическом механизме внимания, используемом в современных LLM, — серьёзная преграда для обработки экстремально длинных контекстов, особенно в условиях ограниченной видеопамяти на GPU. В этой статье мы рассмотрим различные варианты Linear Attention (линейного внимания) и техники дистилляции LLM в субквадратичные варианты механизма внимания. Мы также расскажем о наших экспериментах с GigaChat и поделимся примером получившейся гибридной модели ...

Теги:
Large_Language_Models
Linear_Attention
GigaChat

Еще статьи из категории

Еще статьи