Новости 06:37, 5 июня 2026

Google DeepMind выпустила облегчённую мультимодальную модель Gemma 4 12B с открытой лицензией

Компания Google DeepMind представила новую версию языковой модели Gemma 4 с 12 млрд параметров, которая поддерживает работу с текстом, изображениями и аудио без использования отдельного энкодера. Модель распространяется под лицензией Apache 2.0 и, по заявлениям разработчиков, превосходит более крупную версию Gemma 3 с 27 млрд параметров.

Google DeepMind анонсировала выпуск Gemma 4 12B — мультимодальной модели, способной обрабатывать текст, изображения и аудиоданные без традиционных энкодеров. Модель доступна под открытой лицензией Apache 2.0, что позволяет использовать её в коммерческих и исследовательских целях без ограничений.

По данным разработчиков, Gemma 4 12B демонстрирует более высокую производительность, чем её предшественница Gemma 3 27B, несмотря на меньшее количество параметров. Это достижение стало возможным благодаря оптимизации архитектуры и обучения. Модель ориентирована на задачи, требующие интеграции разных типов данных, таких как анализ документов с визуальными элементами или обработка аудиозаписей с текстовыми транскрипциями.

Руководитель команды разработчиков Gemma в Google DeepMind Клеман Фарабе (Clément Farabet) отметил, что модель «открывает новые возможности для приложений, где критически важна скорость и эффективность». Выбор открытой лицензии, по его словам, должен стимулировать внедрение технологии в стартапах и академических проектах.

Ранее Google уже выпускала модели семейства Gemma под открытыми лицензиями, однако мультимодальная версия с такими характеристиками представлена впервые. Эксперты отмечают, что отсутствие отдельного энкодера может снизить порог входа для разработчиков, не имеющих опыта работы с мультимодальными системами.

Модель доступна для загрузки через платформу Kaggle и репозиторий Hugging Face. В ближайшие недели Google DeepMind планирует опубликовать технический отчёт с подробностями об архитектуре и результатах тестирования.

Источники: X-пост Омара Сансевиеро (Omar Sanseviero), 3 июня; блог Google DeepMind.

Еще новости

Ideogram выпустил открытую модель Ideogram 4.0 для локальной генерации изображений

xAI выпустила предварительную версию модели Grok Imagine 1.5 и начала её развёртывание для пользователей чат-бота

Стартап Town привлёк $55 млн на ИИ-ассистента для административных задач