Компания Google DeepMind выпустила контрольные точки модели Gemma 4 с поддержкой квантизации во время обучения (Quantization-Aware Training, QAT), что позволило сократить требования к видеопамяти на 72%. Обновление направлено на оптимизацию развёртывания моделей в условиях ограниченных ресурсов.
Google DeepMind представила новые контрольные точки для модели Gemma 4, обученной с учётом квантизации. Технология QAT позволяет снизить объём видеопамяти (VRAM), необходимой для работы модели, на 72% без значительной потери качества. Это открывает возможности для более эффективного развёртывания крупных языковых моделей на устройствах с ограниченными вычислительными ресурсами.
По словам разработчиков, обновление особенно актуально для приложений, где критически важна экономия памяти, например, при работе на периферийных устройствах или в облачных средах с жёсткими лимитами. Контрольные точки доступны в репозитории модели на платформе Kaggle, где также опубликована документация по их использованию.
Ранее Google DeepMind уже внедряла методы квантизации в свои модели, но нынешний релиз отличается более глубокой интеграцией QAT в процесс обучения. Это позволяет сохранить точность модели даже при значительном сокращении битности весов. Эксперты отмечают, что подобные оптимизации становятся стандартом в индустрии, так как спрос на энергоэффективные решения растёт.
В сообществе разработчиков инициатива встретила положительный отклик. В частности, исследователи подчёркивают, что снижение требований к памяти может ускорить внедрение ИИ в новые сферы, включая мобильные приложения и встраиваемые системы.
Источники: X-пост Омара Сансевиеро (Omar Sanseviero), 5 июня 2026; репозиторий Gemma 4 на Kaggle.