Компания LlamaIndex представила вторую версию библиотеки LiteParse — инструмента для парсинга документов, полностью переписанного на языке Rust. По заявлениям разработчиков, новая версия работает до 100 раз быстрее предшественников и поддерживает установку в экосистемах Python, JavaScript и Rust.
Команда LlamaIndex, специализирующаяся на инструментах для работы с большими языковыми моделями (LLM), анонсировала релиз LiteParse 2.0. Библиотека предназначена для извлечения текста из более чем 50 форматов документов, включая PDF, и оптимизирована для использования в AI-агентах. Ключевое нововведение — переход с Python на Rust, что, по словам генерального директора LlamaIndex Джерри Лю (Jerry Liu), обеспечило «до 100-кратное ускорение» парсинга по сравнению с предыдущей версией.
LiteParse 2.0 доступен в виде нативных пакетов для Python (`pip install liteparse`), JavaScript/TypeScript (`npm i @llamaindex/liteparse`) и Rust (`cargo install liteparse`). Отдельный WASM-модуль позволяет запускать библиотеку в браузерах и edge-средах. Разработчики подчёркивают, что инструмент не только быстрее аналогов — таких как PyMuPDF, PyPDF или pdf2text, — но и точнее сохраняет семантическую структуру текста, что критично для последующей обработки LLM.
«Мы создали самый быстрый в мире парсер PDF, — заявил Лю в X-посте. — При этом он превосходит по точности все открытые model-free решения». В числе преимуществ новой версии также называются открытый исходный код и возможность интеграции непосредственно в AI-агенты без дополнительных зависимостей.
Релиз сопровождается публикацией технического блога на сайте LlamaIndex и открытием репозитория на GitHub. Среди первых откликов — комментарий сооснователя Vercel Гильермо Рауча (Guillermo Rauch), отметившего релиз как «крутой» (cool).