Компания представила сразу три новых MAI-модели: MAI-Transcribe-1 для перевода речи в текст, MAI-Voice-1 для генерации голоса и MAI-Image-2 для создания изображений по текстовому запросу. Все они уже доступны в Microsoft Foundry и MAI Playground.
MAI-Transcribe-1 умеет переводить речь в текст и поддерживает 25 самых используемых языков, включая русский, английский, французский и немецкий. В Microsoft говорят, что модель рассчитана на работу в «грязных» реальных условиях и подойдёт, например, для автоматических субтитров. Цена начинается от $0,36 за час аудио.
MAI-Voice-1 — это первая для Microsoft собственная модель генерации голоса. Она умеет создавать естественную речь с эмоциями и интонациями, а также поддерживает создание кастомного голоса по нескольким секундам аудио. Компания заявляет, что модель может сгенерировать 60 секунд речи всего за секунду. Базовая цена — от $22 за 1 млн символов.
MAI-Image-2 стала новой версией фирменной модели генерации изображений. В Microsoft утверждают, что она как минимум вдвое быстрее предыдущего поколения в Foundry и Copilot, а также лучше подходит для задач, где важны естественный свет, точные оттенки кожи, текстуры и читаемый текст внутри изображения. Стоимость начинается от $5 за 1 млн входных текстовых токенов и от $33 за 1 млн токенов на вывод изображения.
Компания отдельно подчёркивает, что новые модели уже используются внутри собственных продуктов Microsoft