Новости 21:07, 31 марта 2026

Qwen представила мультимодальную модель Qwen3.5-Omni

Новая модель объединяет текст, изображения, аудио и видео в одном контуре и делает ставку на голосовое взаимодействие — от понимания речи до генерации ответов в реальном времени.

Alibaba представила модель Qwen3.5-Omni — универсальную мультимодальную систему, которая работает с текстом, изображениями, аудио и видео одновременно. Модель поддерживает потоковые ответы и может вести диалог не только текстом, но и голосом.

Линейка включает три версии — Plus, Flash и Light. Модель поддерживает контекст до 256 тысяч токенов, может обрабатывать длительные аудиозаписи и работать с видео, а также распознаёт речь более чем на 100 языках и генерирует голос на десятках языков.

Разработчики сделали упор на практические сценарии. Qwen3.5-Omni позиционируется как полноценный голосовой ассистент, который понимает не только текст, но и визуальный и аудиоконтент. В модели также есть встроенный веб-поиск и поддержка function calling.

Отдельное внимание уделили голосу: ассистент умеет управлять скоростью и интонацией речи, поддерживает «семантические прерывания» (чтобы корректно реагировать на перебивания) и предлагает функции клонирования голоса для создания кастомных AI-ассистентов.

Qwen усиливает конкуренцию в сегменте мультимодальных моделей, где сейчас лидируют решения Google и OpenAI, и делает ставку на более «живое» взаимодействие с пользователем — в том числе через голосовые интерфейсы.

Еще новости

Китай попытался заблокировать сделку Meta* с ИИ-стартапом Manus — но она, похоже, уже состоялась

Из законопроекта об ИИ убрали требование обучать «национальные» модели только на российских данных

ComfyUI привлекла $30 млн при оценке в $500 млн