Новости 03:00, 5 июня 2026
Поделиться

Miso представила открытую модель синтеза речи Miso One с задержкой 110 мс и клонированием голоса по одному образцу

Стартап Miso выпустил модель преобразования текста в речь Miso One с открытыми весами, которая поддерживает клонирование голоса по одному аудиофрагменту и обеспечивает задержку 110 мс. Об этом сообщили разработчики в своём блоге.

Американский стартап Miso, специализирующийся на технологиях синтеза речи, представил новую модель Miso One. Это модель с открытыми весами объёмом 8 млрд параметров, которая преобразует текст в речь с минимальной задержкой — 110 мс. Одной из ключевых особенностей Miso One стала возможность клонирования голоса по одному образцу, что позволяет воспроизводить речь с высокой степенью сходства на основе короткого аудиофрагмента.

Разработчики подчёркивают, что модель оптимизирована для работы в реальном времени и может использоваться в приложениях, требующих низкой задержки, — например, в голосовых помощниках, системах озвучивания текста или платформах для создания контента. Miso One поддерживает несколько языков, включая английский, испанский и китайский, и доступна для коммерческого использования.

По словам основателя Miso Лун Вана (Lun Wang), модель была обучена на большом объёме данных с акцентом на естественность звучания и точность воспроизведения интонаций. «Мы стремились создать инструмент, который не только быстро работает, но и обеспечивает качество, близкое к человеческой речи», — отметил он в блоге компании.

Miso One стала частью растущего тренда на открытые модели синтеза речи, которые позволяют разработчикам и компаниям интегрировать технологии в свои продукты без зависимости от проприетарных решений. Ранее аналогичные разработки представляли такие компании, как ElevenLabs и Coqui AI, однако Miso делает ставку на сочетание низкой задержки и высокого качества клонирования голоса.

Источники: блог Miso, 3 июня 2026 года.