Datalab открыла исходный код Lift — 9B-модели для извлечения структурированных данных из документов.
По заявлению разработчиков, модель показывает 90,2% точности на их бенчмарке против 91,3% у Gemini 3.5 Flash и заметно опережает специализированные опенсорс решения вроде NuExtract3 (81,5%).
Lift умеет извлекать данные по JSON Schema, а медианное время обработки составляет 9,5 секунды.
Для запуска достаточно: pip install lift-pdf