Китайский стартап обновил свою основную линейку и сделал ставку сразу на две версии: более мощную V4-Pro и облегчённую V4-Flash. Обе модели уже доступны в превью, а компания подчёркивает, что они заметно усилились в программировании, агентных сценариях и длинном контексте.
По данным Reuters, WSJ и AP, DeepSeek представила новые версии V4 как preview-релиз. У обеих моделей окно контекста составляет 1 млн токенов, что заметно больше прежних 128 тысяч в старой линейке. Компания также выпустила две конфигурации: V4-Pro как основной тяжёлый вариант и V4-Flash как более быструю и дешёвую версию для менее сложных задач.
Самая крупная модель, V4-Pro, по заявлению DeepSeek, построена на архитектуре MoE и имеет 1,6 трлн параметров, из которых во время одной генерации активны 49 млрд. У V4-Flash общий размер меньше, а активных параметров на один запрос — 13 млрд, за счёт чего она должна работать быстрее и обходиться дешевле. Reuters отдельно отмечает, что вся линейка V4 ориентирована в том числе на агентные сценарии, где нужны более длинные и сложные цепочки действий.
DeepSeek утверждает, что V4-Pro превосходит другие открытые модели в тестах по математике, программированию и естественным наукам, а по общим знаниям о мире уступает только Gemini 3.1 Pro. WSJ при этом пишет осторожнее: по данным самой компании, модель действительно заметно усилилась в кодинге и агентной работе, но до лучших закрытых систем в некоторых режимах всё ещё не дотягивает.
Отдельный акцент в релизе — на программировании. DeepSeek продвигает V4-Pro как свою основную модель для агентного кодинга и работы с длинными многошаговыми задачами, а V4-Flash — как более практичный вариант для повседневной нагрузки, где важны скорость ответа и цена.
Запуск V4 выглядит важным и по другой причине: Reuters пишет, что модель уже адаптировали под чипы Huawei Ascend. Для DeepSeek это не просто техническая деталь, а часть более широкой китайской ставки на ИИ-инфраструктуру без опоры на американские поставки. На фоне экспортных ограничений США такой переход стал для компании почти неизбежным.
По сути, DeepSeek пытается закрыть сразу две задачи: показать, что она по-прежнему остаётся главным китайским open-weight-конкурентом западным лабораториям, и одновременно доказать, что такие модели можно развивать уже не только на Nvidia, но и на собственной аппаратной базе Китая.