Новости 16:36, 16 апреля 2026

Google выпустила обновлённую модель озвучки текста на базе Gemini 3.1 Flash

Новая TTS-модель умеет управлять подачей речи прямо внутри текста — через теги вроде «шёпотом» или «кричит» — и, по данным Artificial Analysis, уже обошла ElevenLabs v3 по качеству синтеза.

Google добавила в Gemini 3.1 Flash поддержку более продвинутой генерации речи. Модель умеет превращать текст в естественно звучащее аудио и понимает встроенные аудиотеги в квадратных скобках, которые задают манеру исполнения — например, шёпот, крик или более эмоциональную подачу.

В независимом рейтинге Artificial Analysis модель Gemini 3.1 Flash TTS сейчас стоит выше Eleven v3 от ElevenLabs. Выше неё в таблице находится только Inworld TTS 1.5 Max.

Google пишет, что функцию можно использовать через Gemini API и тестировать в Google AI Studio. Для подключения к продуктам и сервисам доступны те же инструменты экосистемы Gemini и Vertex AI, что и для других моделей линейки.

Отдельный акцент компания делает на мультиязычности: модель поддерживает десятки языков, а встроенные теги позволяют точнее управлять интонацией и стилем озвучки без отдельной настройки голоса. Это делает её заметно ближе к сценариям, где раньше чаще выбирали ElevenLabs.

Еще новости

OpenAI и Trail of Bits автоматизировали исправление уязвимостей в открытом ПО

SpaceX арендует у Colossus 2 суперкомпьютеры Nvidia GB300 для партнёра в сфере ИИ

AI2 представил открытую модель TMax для работы с терминалами на уровне систем в 40 раз крупнее