ВСЕ СТАТЬИ

← Вернуться к статьям
Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры.
2 марта в 00:36
habr.comтехнологии

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры.

2 марта в 00:36•faviconhabr.com•технологии

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры. Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Еще статьи из категории

Еще статьи