Microsoft выпустила мультимодальную версию Phi-4. Phi-4-reasoning-vision-15B построена на базе энкодера SigLIP-2 и логической архитектуры Phi-4. Модель получила так называемый механизм смешанного инференса, который автоматически адаптирует цепочку рассуждений под сложность текущей задачи. При решении математических или логических проблем модель запускает глубокий анализ, а на базовые запросы описания изображений или OCR отвечает без ризонинга. Помимо стандартных VL-задач, Microsoft готовила новинку для ИИ-агентов, управляющих компьютером. Модель умеет интерпретировать содержимое экрана, находить интерактивные элементы и выбирать необходимые действия в GUI. Веса доступны на HuggingFace и Microsoft Foundry под лицензией MIT. microsoft.com ️ OpenAI готовит к релизу двунаправленную аудиомодель. Новая система обрабатывает звук непрерывно в фоновом режиме и способна на лету распознавать встречные реплики пользователя, мгновенно перестраивая свой ответ. Она сможет поддерживать естественный диалог, адекватно реагируя, если человек решит перебить его или поменять мысль прямо на середине фразы. Такая гибкость критична для сложных сценариев: например, когда виртуальному оператору поддержки нужно адаптироваться к меняющемуся контексту разговора без потери нити беседы. Сейчас разработка находится на стадии прототипа и в длительных сессиях пока наблюдаются проблемы. Из-за необходимости отладки публичный релиз модели отложили как минимум до второго квартала. theinformation.com ️ Anthropic пытается спасти контракт с Пентагоном. Дарио Амодей возобновил переговоры с Министерством обороны США. Ранее диалог зашел в тупик, после чего ведомство пригрозило исключить Anthropic из списка подрядчиков американских военных. По иронии, новый раунд переговоров со стороны Минобороны ведет Эмиль Майкл, который на прошлой неделе публично назвал главу Anthropic «лжецом с комплексом бога». Сейчас Anthropic пытается найти компромиссную формулировку и сохранить доступ к крупным госзаказам. Ситуация подогревается тем, что OpenAI на днях уже подписал контракт с военными. Амодей во внутренней переписке назвал заявления конкурентов и чиновников по этим вопросам «откровенной ложью». ft.com ️ Lightricks представила открытый локальный видеоредактор с новой моделью LTX-2.3. LTX Desktop объединяет инструменты нелинейного монтажа с генеративными возможностями свежайшей LTX-2.3 и позволяет создавать видео из текста, изображений или аудио. Пользователи могут собирать проекты на привычном таймлайне и точечно перегенерировать неудачные фрагменты с помощью функции Retake. Для работы потребуется Windows с GPU NVIDIA на 32 ГБ, 32 ГБ ОЗУ и 160 ГБ места на диске. Владельцам macOS и менее мощных ПК доступна только облачная генерация через API. Код проекта полностью открыт, а локальное использование модели LTX-2.3 бесплатно для энтузиастов и компаний с годовой выручкой менее 10 млн. долларов. ltx.io ️ Топ-менеджер Google DeepMind хантит разработчиков Qwen. После недавнего ухода ключевой команды из Qwen, конкуренты решили воспользоваться кадровыми перестановками в Alibaba. Омар Сансевиеро, один из руководителей Google DeepMind, опубликовал в X публичное приглашение на работу для действующих разработчиков китайского техногиганта. Сансевиеро сообщил, что DeepMind ищет специалистов с опытом работы над семейством моделей Qwen для развития собственной экосистемы open-source решений. Он призвал инженеров, задумывающихся о смене компании, связываться с ним напрямую. Omar Sanseviero в сети Х @ai_machinelearning_big_data #news #ai #ml