Компания обновила своё визуальное направление: Images 2.0 уже работает в ChatGPT и API. Главная особенность модели — элементы «рассуждения»: она может искать контекст в интернете, делать несколько вариантов по одному запросу и проверять результат перед выдачей.
OpenAI представила Images 2.0 — новую модель для генерации изображений, которая уже доступна внутри ChatGPT, а также через API. В компании называют её первой визуальной моделью с возможностями рассуждения.
Если в ChatGPT выбрана рассуждающая модель, Images 2.0 может не просто рисовать по запросу, а сначала подтягивать релевантную информацию из интернета, собирать несколько версий изображения и перепроверять итог перед тем, как показать его пользователю.
Отдельный акцент OpenAI делает на работе с не латинскими языками. По словам компании, Images 2.0 заметно лучше справляется с текстом на японском, корейском, китайском, хинди и бенгали: надписи не только отображаются корректно, но и выглядят более связными и естественными.
Также модель лучше передаёт мелкие детали и стили. OpenAI отмечает, что Images 2.0 аккуратнее работает с реалистичными фотографиями, умеет добавлять мелкие визуальные несовершенства для большей правдоподобности и точнее воспроизводит кинематографичные сцены, пиксель-арт и другие визуальные форматы.
При этом ограничения у модели пока остаются. В OpenAI признают, что ей всё ещё сложно даются задачи вроде схем оригами, визуальных головоломок и проработки деталей на наклонных поверхностях.
Images 2.0 уже открыта всем пользователям ChatGPT и Codex. Режим с рассуждением доступен подписчикам ChatGPT Plus, Pro и Business. Через API модель доступна под названием gpt-image-2.