# Qwen представила мультимодальную модель Qwen3.5-Omni

> Новая модель объединяет текст, изображения, аудио и видео в одном контуре и делает ставку на голосовое взаимодействие — от понимания речи до генерации ответов в реальном времени.

- Canonical HTML: https://youragents.me/ru/media/news/qwen-predstavila-multimodalnuju-model-qwen3-5-omni
- Markdown: https://youragents.me/ru/media/news/qwen-predstavila-multimodalnuju-model-qwen3-5-omni.md
- Section: Новости
- Published: 2026-03-31T21:07:41+03:00
- Modified: 2026-03-31T21:07:41+03:00

Новая модель объединяет текст, изображения, аудио и видео в одном контуре и делает ставку на голосовое взаимодействие — от понимания речи до генерации ответов в реальном времени. 

Alibaba представила модель Qwen3.5-Omni — универсальную мультимодальную систему, которая работает с текстом, изображениями, аудио и видео одновременно. Модель поддерживает потоковые ответы и может вести диалог не только текстом, но и голосом. 

Линейка включает три версии — Plus, Flash и Light. Модель поддерживает контекст до 256 тысяч токенов, может обрабатывать длительные аудиозаписи и работать с видео, а также распознаёт речь более чем на 100 языках и генерирует голос на десятках языков.

Разработчики сделали упор на практические сценарии. Qwen3.5-Omni позиционируется как полноценный голосовой ассистент, который понимает не только текст, но и визуальный и аудиоконтент. В модели также есть встроенный веб-поиск и поддержка function calling.

Отдельное внимание уделили голосу: ассистент умеет управлять скоростью и интонацией речи, поддерживает «семантические прерывания» (чтобы корректно реагировать на перебивания) и предлагает функции клонирования голоса для создания кастомных AI-ассистентов.

Qwen усиливает конкуренцию в сегменте мультимодальных моделей, где сейчас лидируют решения Google и OpenAI, и делает ставку на более «живое» взаимодействие с пользователем — в том числе через голосовые интерфейсы.