# Исследователи представили открытый датасет GPIC для обучения генеративных моделей изображений

> Команда под руководством Кешигеяна Чандрасегарана (Keshigeyan Chandrasegaran) и Кайла Саржента (Kyle Sargent) выпустила датасет GPIC — набор из 100 млн пар «изображение-текст» с лицензией, разрешающей коммерческое использование.

- Canonical HTML: https://youragents.me/ru/media/news/issledovateli-predstavili-otkrytyj-dataset-gpic-dlja-obuchenija-generativnyh-modelej-izobrazhenij
- Markdown: https://youragents.me/ru/media/news/issledovateli-predstavili-otkrytyj-dataset-gpic-dlja-obuchenija-generativnyh-modelej-izobrazhenij.md
- Section: Новости
- Published: 2026-05-30T16:00:35+03:00
- Modified: 2026-05-30T16:00:35+03:00

Команда под руководством Кешигеяна Чандрасегарана (Keshigeyan Chandrasegaran) и Кайла Саржента (Kyle Sargent) выпустила датасет GPIC — набор из 100 млн пар «изображение-текст» с лицензией, разрешающей коммерческое использование. Проект призван стать новым эталоном для оценки генеративных моделей в области компьютерного зрения. 

Исследователи из академических кругов и индустрии представили датасет GPIC (Giant Permissive Image Corpus), который содержит 100 млн пар изображений и текстовых описаний, созданных с помощью моделей компьютерного зрения. Общий объём данных превышает 28 трлн пикселей. Для оценки качества моделей в наборе предусмотрен отдельный бенчмарк из 1 млн пар.

Отличительная особенность GPIC — полностью открытая лицензия, позволяющая использовать данные как в исследовательских, так и в коммерческих целях. Датасет размещён на централизованной платформе Hugging Face, что упрощает доступ для разработчиков. Авторы проекта подчёркивают, что GPIC может стать новым стандартом для обучения и тестирования генеративных моделей, заменив устаревшие наборы вроде ImageNet.

«GPIC должен стать новым эталоном для генеративного моделирования. Одна эпоха обучения на GPIC по стоимости сопоставима со 100 эпохами на ImageNet, но гораздо лучше отражает реальные задачи», — написал в X профессор Мичиганского университета Джастин Джонсон (Justin Johnson).

По словам Джонсона, в последние годы академические и индустриальные подходы к генеративному моделированию настолько разошлись, что методы, эффективные в научных исследованиях, часто оказываются неприменимы в коммерческих проектах. GPIC, как утверждают авторы, призван сократить этот разрыв.

Проект получил поддержку со стороны ведущих специалистов в области ИИ. Соосновательница ImageNet и профессор Стэнфордского университета Фей-Фей Ли (Fei-Fei Li) назвала GPIC «новым бенчмарком для эры крупномасштабных генеративных моделей».

Источники: X-пост Кешигеяна Чандрасегарана, 29 мая; X-пост Джастина Джонсона, 29 мая; X-пост Фей-Фей Ли, 29 мая.
