Все юзкейсы

Автоматизация через API: как я собрал черновики Threads за час

Когда перестаёшь упираться только в UI и начинаешь понимать get/post запросы, агент начинает работать заметно стабильнее.

Автоматизация браузера через API и HTTP-запросы

Продолжаем разговаривать про автоматизацию браузера.

Пару дней назад, когда я рассказал про своих агентов авто-постеров товарищу, он мне сказал, что надёжная автоматизация делается через get post запросы. Я подумал: и правда, я же что-то слышал об этом, почему бы не попробовать. Забил.

Вчера мне рассказали, как вытащили API из «Пятёрочки». Интересно, но всё ещё пазл не сложился.

И сегодня с утра я наткнулся на статью от browser-use, которую многие пропустили мимо. Переводить я её не буду, там много воды, вот основная суть:

  1. Агент не должен каждый раз заново изучать сайт. Обычно много времени и денег тратится не на саму задачу, а на понимание интерфейса сайта.

  1. Успешный опыт превращается в переиспользуемый skill. После выполнения задачи отдельный агент анализирует, что именно удалось выяснить о сайте, и сохраняет это как короткую инструкцию: где мы находимся, что нажимать, какие элементы стабильны, какие шаги можно пропустить.

  1. Навыки становятся общими для всех будущих запусков. Если один агент уже разобрался с конкретным сайтом или конкретным экраном, следующие агенты используют это знание сразу, без лишнего исследования.

  1. Качество навыков поддерживается через отзывы и версии. Другие агенты оценивают навык и оставляют причину, почему он сработал или не сработал. На этой основе навык улучшается, версионируется или удаляется.

  1. Без дообучения модели. Авторы делают ставку не на RL и не на fine-tuning, а на внешнюю память или базу навыков — по сути, память для агентов, которую сами агенты пополняют и редактируют.

  1. Следующий уровень автоматизации — обход UI и автоматизация через API. То есть агент сначала учится нажимать кнопки как человек, а потом — понимать, какой http get post запросы за этим стоит, чтобы в будущем выполнять действие напрямую и ещё быстрее.

И самое важное — это последний пункт. Тут мне просто не оставили шансов не попробовать.

Итог: я добился стабильного составления черновиков Threads буквально за час с нуля на чистом агенте. Просто прислал ему эту статью и объяснил, что я хочу именно автоматизацию через запросы к API. По сути, меня интересовал не UI-путь, а threads api и сама автоматизация Threads через прямую механику запросов.

Смешанные ощущения, учитывая, сколько я потратил на CDP-скрипты, которые всё равно не дали той стабильности, которой я хотел.

Моя проблема — я просто никогда не работал нормально с запросами. Я знаю, что такое get, post, даже несколько лет назад краем глаза смотрел в Wireshark, но из-за отсутствия реальной практики просто не додумался раньше. Иногда один wireshark http запрос или просто понимание того, как устроены HTTP-запросы, меняет картину сильнее, чем очередная попытка дожать UI.

Нужно правильно писать промты для агентов, а не винить ИИ, почему это он сам не додумался.

Именно понимание низкоуровневой архитектуры делает агентов в твоих руках по-настоящему мощным инструментом.