Компания Google DeepMind представила новую версию языковой модели Gemma 4 с 12 млрд параметров, которая поддерживает работу с текстом, изображениями и аудио без использования отдельного энкодера. Модель распространяется под лицензией Apache 2.0 и, по заявлениям разработчиков, превосходит более крупную версию Gemma 3 с 27 млрд параметров.
Google DeepMind анонсировала выпуск Gemma 4 12B — мультимодальной модели, способной обрабатывать текст, изображения и аудиоданные без традиционных энкодеров. Модель доступна под открытой лицензией Apache 2.0, что позволяет использовать её в коммерческих и исследовательских целях без ограничений.
По данным разработчиков, Gemma 4 12B демонстрирует более высокую производительность, чем её предшественница Gemma 3 27B, несмотря на меньшее количество параметров. Это достижение стало возможным благодаря оптимизации архитектуры и обучения. Модель ориентирована на задачи, требующие интеграции разных типов данных, таких как анализ документов с визуальными элементами или обработка аудиозаписей с текстовыми транскрипциями.
Руководитель команды разработчиков Gemma в Google DeepMind Клеман Фарабе (Clément Farabet) отметил, что модель «открывает новые возможности для приложений, где критически важна скорость и эффективность». Выбор открытой лицензии, по его словам, должен стимулировать внедрение технологии в стартапах и академических проектах.
Ранее Google уже выпускала модели семейства Gemma под открытыми лицензиями, однако мультимодальная версия с такими характеристиками представлена впервые. Эксперты отмечают, что отсутствие отдельного энкодера может снизить порог входа для разработчиков, не имеющих опыта работы с мультимодальными системами.
Модель доступна для загрузки через платформу Kaggle и репозиторий Hugging Face. В ближайшие недели Google DeepMind планирует опубликовать технический отчёт с подробностями об архитектуре и результатах тестирования.
Источники: X-пост Омара Сансевиеро (Omar Sanseviero), 3 июня; блог Google DeepMind.