Новости агентов: Codex Replay, Grok Build и CEO-Bench

Свежие новости по агентам :newspaper:

:blue_circle: Codex Record & Replay - OpenAI добавил запись действий на Mac: пользователь один раз показывает процесс, а Codex превращает его в skill для повторного запуска через Computer Use, браузер и плагины.

:blue_circle: Grok Build быстро развивается: AGENTS.md, skills, hooks, plugins, MCP, subagents, ACP, headless mode и панель сессий.

:blue_circle: CEO-Bench - новый тест от Princeton для долгих агентных задач.

Агенту дают симулированный AI-стартап, $1M стартового баланса и 500 дней управления. Он принимает решения по продукту, рынку, клиентам и росту, видит панели с метриками, базу данных, соцсети, отчеты и историю переговоров, но скрытые параметры ему приходится выводить по косвенным сигналам: спрос, отток пользователей, удовлетворенность клиентов и действия конкурентов.

Это ближе к реальной работе агента-оператора, чем обычные coding evals. Ошибка может проявиться через недели, одно решение влияет на несколько частей системы, а “увидел метрику - внес патч” быстро ломается.

Результат пока жесткий: большинство моделей не заканчивают выше стартового $1M. На лучшем прогоне выше старта вышли Claude Fable 5, Claude Opus 4.8 и GPT-5.5, но стабильно выше старта больше одного раза оказался только Fable 5.

:blue_circle: Основатель Howie написал сильный тред о том, как они довели AI помощника по планированию до 50% автономности.

Категория сложная для агента: если ассистент ошибся в переписке с кандидатом, инвестором или клиентом, пользователь его просто увольняет. Там слишком много редких и неприятных случаев: таймзоны, поездки, переносы, приватность календаря, разные типы встреч, моменты когда лучше спросить человека отдельно, а когда можно отвечать самому.

Команда пошла через людей в контуре проверки: собрала команду, которая ловила ошибки и помогала описывать, как должен действовать сильный личный ассистент руководителя в странных ситуациях. Потом на этом выросла карта нестандартных случаев: синтетический эталонный набор данных, проверки качества, fine-tuning, RL, ACE, DSPy, подагенты и новые версии рабочей обвязки.

Они не начинали с обещания полной автономности. Они сначала построили доверие и контроль качества, а уже потом постепенно отпускали руль. Сейчас Howie, по словам основателя, дошел до тысяч встреч в день и 50% автономности без роста оттока пользователей и жалоб.

Чат


Оригинал в Telegram · @dr0p_usdt