Веб-скрейпинг уже не будет прежним. 💀
Вышел PixelRAG - опенсорс ретривер-фреймворк, который использует изображения страниц вместо традиционного HTML-парсинга
По словам разработчиков, традиционные HTML-to-text пайплайны могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга.
Как работает пайплайн:
- Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов.
- Строит эмеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах.
- Создаёт индекс FAISS и предоставляет API для поиска.
Если заменить модель-чтец на более сильную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели.
Для экспериментов команда проекта создала визуальный индекс всей Википедии - более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту.
Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.
Весь проект опубликован в открытом доступе под лицензией Apache-2.0, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.