Compresr — каждый токен на счету Длинные агентные сессии в Claude Code и Cursor

Compresr — каждый токен на счету

Длинные агентные сессии в Claude Code и Cursor быстро упираются в контекстный лимит. История диалога, результаты тулов, прочитанные файлы — всё это забивает окно и ухудшает качество ответов. Стандартная компакция Anthropic решает проблему, но при срабатывании /compact пользователь вынужден ждать минуту‑две, пока модель суммаризирует историю.

Compresr предлагает альтернативу — локальный прокси Context Gateway, который сжимает контекст заранее и делает компакцию мгновенной.

Принцип работы
Context Gateway развёртывается на машине пользователя и садится между агентом и LLM‑провайдером. Прокси отслеживает размер истории и при достижении порога запускает фоновую суммаризацию. К моменту, когда агенту нужна компакция, она уже готова. Кроме истории, gateway сжимает tool outputs и управляет tool discovery — вместо показа всех инструментов он выбирает подмножество, релевантное текущему запросу.

Два уровня сжатия
:purple_circle:Token-level compression — алгоритмический выбор наиболее важных токенов с сохранением смысла, используется для системных промптов, RAG‑контекста и длинных документов
:purple_circle:Chunk-level filtering — удаление нерелевантных блоков целиком, применяется для предфильтрации результатов ретривера перед композицией промпта

Три модели
:purple_circle:Espresso — agnostic compression, не требует query, используется для системных промптов и статической документации
:purple_circle:Latte — query-aware compression, требует явного запроса пользователя, применяется в RAG и Q&A сценариях
:purple_circle:Coldbrew — chunk-level filtering, отбирает релевантные чанки без изменения текста

Характеристики
Заявленный диапазон сжатия — от 2x до 100x в зависимости от избыточности контента. В публичном демо Compresr снижает задержку на 25% и экономит 20% токенов. На бенчмарке FinanceBench модель Latte при ~10x сжатии даёт точность 74.5% против 72.3% в бейзлайне.

Способы поставки
:purple_circle:Context Gateway — CLI‑бинарь на Go
:purple_circle:SDK — библиотека на Python
:purple_circle:VS Code‑расширение — для сжатия CLAUDE.md файлов

Compresr особенно интересен для длинных код‑сессий и RAG‑пайплайнов с большими документами — именно там, где стандартная компакция становится узким местом.

Как тебе такое, Александр?

«Compresr интересен тем, что он решает одну из самых актуальных проблем современных LLM-систем — управление контекстом.

В большинстве агентных фреймворков контекст растёт почти бесконтрольно: история диалога, результаты инструментов, куски кода… В какой-то момент всё это начинает не только упираться в лимиты токенов, но и ухудшать качество ответов модели.

Compresr предлагает довольно радикальное решение — вынести управление контекстом в отдельный инфраструктурный слой. Gateway фактически становится «операционной системой» для контекста: он решает, какие данные вообще попадут в окно модели.

Особенно интересна идея chunk-level filtering. По сути, это дополнительный этап между retriever и prompt construction. В RAG-системах именно там часто появляется шум: ретривер возвращает слишком много слабосвязанных фрагментов, которые просто занимают место в контексте.

С другой стороны, агрессивная компрессия — это всегда компромисс. Слабые сигналы, второстепенные детали и длинные логические цепочки могут теряться. Поэтому заявленные коэффициенты сжатия в десятки раз стоит воспринимать скорее как демонстрацию возможностей, чем как реальный production-режим.

Но сама тенденция выглядит важной: по мере роста агентных систем всё больше оптимизаций происходит не внутри модели, а на уровне orchestration-слоя. И инструменты вроде Compresr — хороший пример того, как начинает формироваться новая инфраструктура вокруг LLM», — отметил Александр Тараканов, исследователь AI VK.

Насколько, на ваш взгляд, жизнеспособен вынос управления контекстом в отдельный gateway — это новая норма или временный workaround? Готовы ли вы жертвовать частью информации ради latency и стоимости? И где сегодня основной bottleneck в RAG: retriever, prompt construction или уже сам контекст? Обсудим :backhand_index_pointing_down:

#aivk #compresr

9205.jpg


Оригинал в Telegram · @jaa_ai