Команда под руководством Кешигеяна Чандрасегарана (Keshigeyan Chandrasegaran) и Кайла Саржента (Kyle Sargent) выпустила датасет GPIC — крупнейший набор изображений с текстовыми описаниями, доступный для исследовательских и коммерческих проектов. Проект поддержали ведущие специалисты в области компьютерного зрения, включая Фэй-Фэй Ли (Fei-Fei Li) из Стэнфорда.
В конце мая исследователи из академических кругов и индустрии представили GPIC (Giant Permissive Image Corpus) — датасет, предназначенный для обучения и оценки генеративных моделей компьютерного зрения. Набор данных включает 100 млн пар «изображение — текст», созданных с помощью моделей визуально-языкового понимания (VLM), а также 1 млн пар для бенчмаркинга. Общий объём изображений превышает 28 трлн пикселей.
Ключевое преимущество GPIC — лицензия, разрешающая использование как в научных, так и в коммерческих целях. Данные централизованно размещены на платформе Hugging Face, что упрощает доступ для разработчиков. По словам авторов, датасет призван сократить разрыв между академическими исследованиями и индустриальными задачами: обучение одной эпохи на GPIC сопоставимо по вычислительным затратам со 100 эпохами на ImageNet, но лучше отражает реальные сценарии применения.
«GPIC должен стать новым стандартом бенчмаркинга для генеративных моделей», — заявил Джастин Джонсон (Justin Johnson), профессор Мичиганского университета и бывший научный сотрудник Meta. Он отметил, что в последние годы подходы, эффективные в академической среде, часто оказываются неприменимы в промышленных проектах из-за различий в данных и задачах.
Проект получил поддержку со стороны Фэй-Фэй Ли, сооснователя ImageNet и профессора Стэнфордского университета, которая назвала GPIC «бенчмарком, соответствующим современной эпохе крупномасштабных генеративных моделей». В ближайшие месяцы авторы планируют опубликовать предобученные модели, обученные на новом датасете.