ВСЕ СТАТЬИ

← Вернуться к статьям
Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.
18 декабря в 09:09
habr.comтехнологии

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

18 декабря в 09:09•faviconhabr.com•технологии

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита. Долгое время большие языковые модели строились по принципу «больше — лучше». Топовые компании гнались за количеством параметров, не считаясь с затратами. Но когда счета за обучение GPT-4 превысили $100 миллионов, а инференс начал требовать промышленных масштабов энергии, стало ясно: «грубая сила» больше не работает. Эффективность старого прямолинейного подхода напоминает использование грузового поезда для доставки одной-единственной буханки хлеба: задача выполняется, но цена процесса абсурдна. И...

Еще статьи из категории

Еще статьи