Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

← Вернуться к статьям

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

18 декабря в 09:09

habr.comтехнологии

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

18 декабря в 09:09•

habr.com•технологии

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита. Долгое время большие языковые модели строились по принципу «больше — лучше». Топовые компании гнались за количеством параметров, не считаясь с затратами. Но когда счета за обучение GPT-4 превысили $100 миллионов, а инференс начал требовать промышленных масштабов энергии, стало ясно: «грубая сила» больше не работает. Эффективность старого прямолинейного подхода напоминает использование грузового поезда для доставки одной-единственной буханки хлеба: задача выполняется, но цена процесса абсурдна. И...

Еще статьи из категории

Еще статьи

← Вернуться к статьям

18 декабря в 09:09

habr.comтехнологии

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

18 декабря в 09:09•

habr.com•технологии

ВСЕ СТАТЬИ

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

Еще статьи из категории

Еще статьи

ВСЕ СТАТЬИ

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита.

Еще статьи из категории

Еще статьи