Веб-скрейпинг уже не будет прежним. 💀

AI & IT · 2 часа назад

Веб-скрейпинг уже не будет прежним. 💀

Вышел PixelRAG - опенсорс ретривер-фреймворк, который использует изображения страниц вместо традиционного HTML-парсинга

По словам разработчиков, традиционные HTML-to-text пайплайны могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга.

Как работает пайплайн:

- Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов.
- Строит эмеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах.
- Создаёт индекс FAISS и предоставляет API для поиска.

Если заменить модель-чтец на более сильную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели.

Для экспериментов команда проекта создала визуальный индекс всей Википедии - более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту.

Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.

Весь проект опубликован в открытом доступе под лицензией Apache-2.0, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.

Telegram Видео не загружается заранее Откроется только по нажатию

Открыть источник ↗

Персональная газета

Веб-скрейпинг уже не будет прежним. 💀

Telegram без шума

Одна лента только по вашим интересам

Можно подключать и приватные каналы

«Вырезать» — скрыть кусок текста

«Убрать» — спрятать пост из непрочитанного

Веб-скрейпинг уже не будет прежним. 💀

Ещё из канала

Ещё по теме