← Назад к ленте Открыть источник ↗

Веб-скрейпинг уже не будет прежним. 💀

Веб-скрейпинг уже не будет прежним. 💀

Вышел PixelRAG - опенсорс ретривер-фреймворк, который использует изображения страниц вместо традиционного HTML-парсинга

По словам разработчиков, традиционные HTML-to-text пайплайны могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга.

Как работает пайплайн:

- Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов.
- Строит эмеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах.
- Создаёт индекс FAISS и предоставляет API для поиска.

Если заменить модель-чтец на более сильную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели.

Для экспериментов команда проекта создала визуальный индекс всей Википедии - более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту.

Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.

Весь проект опубликован в открытом доступе под лицензией Apache-2.0, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.

Telegram Видео не загружается заранее Откроется только по нажатию

Ещё из канала

Все посты канала
Codex умеет передавать сессии между локальными и удалёнными хостами. 18 часов назад 🔥VPS + ISPmanager со скидкой до 100% на Waicore 19 часов назад Теория мёртвого интернета на практике: энтузиаст с Reddit поднял приватный сервер World of Warcraft на AzerothCore, заселил его 1800 ботами и прикрутил DeepSeek 21 час назад Если вы часто используете потоковый режим Codex или автоматизированные задачи, стоит учитывать один неприятный момент: это может заметно ускорять износ SSD. 1 день назад Datalab открыла исходный код Lift — 9B-модели для извлечения структурированных данных из документов. 1 день назад Находка: лёгкий локальный векторный поиск, с которым можно быстро собрать собственную базу знаний. 1 день назад

Ещё по теме

Вот и думайте denissexy Экспорт MediaTech-продукта — это всегда комбинация трех вещей: продукта, рынка и правильных контактов Product Radar — лучшие стартапы России Из диджитала в офлайн prologinov

Совет: в ленте включайте только непрочитанное — так вы не смешиваете уже просмотренное с новыми постами.

Общение и предложения