Alibaba выпустила семейство Qwen 3.

24 февраля в 20:28•

@ai_machinelearning_big_data•технологии

Alibaba выпустила семейство Qwen 3.5 Medium. Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли: Qwen3.5-Flash Qwen3.5-35B-A3B Qwen3.5-122B-A10B Qwen3.5-27B. Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз. Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций. Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте. Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций. Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов. 122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями. Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов Лицензирование: Apache 2.0 License. Набор моделей @ai_machinelearning_big_data #AI #ML #LLM #Qwen #Alibiba

Теги:

Alibaba

Qwen

Hugging_Face