Новая модель объединяет текст, изображения, аудио и видео в одном контуре и делает ставку на голосовое взаимодействие — от понимания речи до генерации ответов в реальном времени.
Alibaba представила модель Qwen3.5-Omni — универсальную мультимодальную систему, которая работает с текстом, изображениями, аудио и видео одновременно. Модель поддерживает потоковые ответы и может вести диалог не только текстом, но и голосом.
Линейка включает три версии — Plus, Flash и Light. Модель поддерживает контекст до 256 тысяч токенов, может обрабатывать длительные аудиозаписи и работать с видео, а также распознаёт речь более чем на 100 языках и генерирует голос на десятках языков.
Разработчики сделали упор на практические сценарии. Qwen3.5-Omni позиционируется как полноценный голосовой ассистент, который понимает не только текст, но и визуальный и аудиоконтент. В модели также есть встроенный веб-поиск и поддержка function calling.
Отдельное внимание уделили голосу: ассистент умеет управлять скоростью и интонацией речи, поддерживает «семантические прерывания» (чтобы корректно реагировать на перебивания) и предлагает функции клонирования голоса для создания кастомных AI-ассистентов.
Qwen усиливает конкуренцию в сегменте мультимодальных моделей, где сейчас лидируют решения Google и OpenAI, и делает ставку на более «живое» взаимодействие с пользователем — в том числе через голосовые интерфейсы.