Новости 16:36, 16 апреля 2026
Поделиться

Google выпустила обновлённую модель озвучки текста на базе Gemini 3.1 Flash

Google выпустила обновлённую модель озвучки текста на базе Gemini 3.1 Flash

Новая TTS-модель умеет управлять подачей речи прямо внутри текста — через теги вроде «шёпотом» или «кричит» — и, по данным Artificial Analysis, уже обошла ElevenLabs v3 по качеству синтеза. 

Google добавила в Gemini 3.1 Flash поддержку более продвинутой генерации речи. Модель умеет превращать текст в естественно звучащее аудио и понимает встроенные аудиотеги в квадратных скобках, которые задают манеру исполнения — например, шёпот, крик или более эмоциональную подачу. 

В независимом рейтинге Artificial Analysis модель Gemini 3.1 Flash TTS сейчас стоит выше Eleven v3 от ElevenLabs. Выше неё в таблице находится только Inworld TTS 1.5 Max. 

Google пишет, что функцию можно использовать через Gemini API и тестировать в Google AI Studio. Для подключения к продуктам и сервисам доступны те же инструменты экосистемы Gemini и Vertex AI, что и для других моделей линейки. 

Отдельный акцент компания делает на мультиязычности: модель поддерживает десятки языков, а встроенные теги позволяют точнее управлять интонацией и стилем озвучки без отдельной настройки голоса. Это делает её заметно ближе к сценариям, где раньше чаще выбирали ElevenLabs.