Новости 23:00, 24 июня 2026

Baidu выложила в открытый доступ модель Unlimited-OCR с 3 млрд параметров

Китайская компания Baidu опубликовала исходный код модели Unlimited-OCR, способной обрабатывать PDF-документы объёмом до 40 страниц с постоянным кэшем ключей и значений (KV cache). Модель доступна на GitHub и в Hugging Face.

Baidu представила в открытом доступе модель для оптического распознавания текста (OCR) Unlimited-OCR, которая отличается поддержкой длинных документов без потери производительности. Модель содержит 3 млрд параметров и использует механизм постоянного кэша ключей и значений, что позволяет обрабатывать PDF-файлы объёмом до 40 страниц без необходимости пересчёта промежуточных данных.

Разработчики подчёркивают, что Unlimited-OCR оптимизирована для работы с многостраничными документами, где традиционные OCR-модели сталкиваются с ограничениями по памяти и скорости. В описании проекта на GitHub указано, что модель может применяться для анализа юридических, финансовых и научных документов, где важна точность распознавания при большом объёме текста.

Модель уже доступна для загрузки на платформе Hugging Face и в репозитории Baidu на GitHub. В сопроводительной документации отмечается, что Unlimited-OCR поддерживает несколько языков, включая китайский и английский, и может интегрироваться в корпоративные системы обработки документов.

Ранее Baidu уже открывала исходный код других моделей, включая Ernie — аналог крупных языковых моделей, конкурирующий с решениями от Meta и Google. Публикация Unlimited-OCR может ускорить развитие инструментов для работы с документами в исследовательском и бизнес-сообществе.

Источники: X-пост Susan Zhang (Susan Zhang), 23 июня 2026; репозиторий Unlimited-OCR на GitHub и Hugging Face.

Еще новости

Google Gemini обнаружил клещей на маффине с маком в неформальном тесте на распознавание изображений

Seedance выпустила обновление 2.5 для генерации 4K-видео из 50 референсов

Нью-Йорк запретил испытания беспилотных автомобилей Waymo на улицах города