Новости 10:11, 3 апреля 2026

Microsoft выпустила три новые ИИ-модели: генератор изображений, синтез речи и распознавание аудио

Компания представила сразу три новых MAI-модели: MAI-Transcribe-1 для перевода речи в текст, MAI-Voice-1 для генерации голоса и MAI-Image-2 для создания изображений по текстовому запросу. Все они уже доступны в Microsoft Foundry и MAI Playground.

MAI-Transcribe-1 умеет переводить речь в текст и поддерживает 25 самых используемых языков, включая русский, английский, французский и немецкий. В Microsoft говорят, что модель рассчитана на работу в «грязных» реальных условиях и подойдёт, например, для автоматических субтитров. Цена начинается от $0,36 за час аудио.

MAI-Voice-1 — это первая для Microsoft собственная модель генерации голоса. Она умеет создавать естественную речь с эмоциями и интонациями, а также поддерживает создание кастомного голоса по нескольким секундам аудио. Компания заявляет, что модель может сгенерировать 60 секунд речи всего за секунду. Базовая цена — от $22 за 1 млн символов.

MAI-Image-2 стала новой версией фирменной модели генерации изображений. В Microsoft утверждают, что она как минимум вдвое быстрее предыдущего поколения в Foundry и Copilot, а также лучше подходит для задач, где важны естественный свет, точные оттенки кожи, текстуры и читаемый текст внутри изображения. Стоимость начинается от $5 за 1 млн входных текстовых токенов и от $33 за 1 млн токенов на вывод изображения.

Компания отдельно подчёркивает, что новые модели уже используются внутри собственных продуктов Microsoft

Еще новости

OpenAI представила ограниченную версию моделей GPT-5.6 по запросу правительства США

Минторг США разрешил экспорт модели Mythos 5 от Anthropic для 100 организаций

OpenAI разрешит администрации Трампа утверждать клиентов для превью GPT-5.6