Автоматизация через API: как я собрал черновики Threads за час
Когда перестаёшь упираться только в UI и начинаешь понимать get/post запросы, агент начинает работать заметно стабильнее.

Продолжаем разговаривать про автоматизацию браузера.
Пару дней назад, когда я рассказал про своих агентов авто-постеров товарищу, он мне сказал, что надёжная автоматизация делается через get post запросы. Я подумал: и правда, я же что-то слышал об этом, почему бы не попробовать. Забил.
Вчера мне рассказали, как вытащили API из «Пятёрочки». Интересно, но всё ещё пазл не сложился.
И сегодня с утра я наткнулся на статью от browser-use, которую многие пропустили мимо. Переводить я её не буду, там много воды, вот основная суть:
Агент не должен каждый раз заново изучать сайт. Обычно много времени и денег тратится не на саму задачу, а на понимание интерфейса сайта.
Успешный опыт превращается в переиспользуемый skill. После выполнения задачи отдельный агент анализирует, что именно удалось выяснить о сайте, и сохраняет это как короткую инструкцию: где мы находимся, что нажимать, какие элементы стабильны, какие шаги можно пропустить.
Навыки становятся общими для всех будущих запусков. Если один агент уже разобрался с конкретным сайтом или конкретным экраном, следующие агенты используют это знание сразу, без лишнего исследования.
Качество навыков поддерживается через отзывы и версии. Другие агенты оценивают навык и оставляют причину, почему он сработал или не сработал. На этой основе навык улучшается, версионируется или удаляется.
Без дообучения модели. Авторы делают ставку не на RL и не на fine-tuning, а на внешнюю память или базу навыков — по сути, память для агентов, которую сами агенты пополняют и редактируют.
Следующий уровень автоматизации — обход UI и автоматизация через API. То есть агент сначала учится нажимать кнопки как человек, а потом — понимать, какой
http get post запросыза этим стоит, чтобы в будущем выполнять действие напрямую и ещё быстрее.
И самое важное — это последний пункт. Тут мне просто не оставили шансов не попробовать.
Итог: я добился стабильного составления черновиков Threads буквально за час с нуля на чистом агенте. Просто прислал ему эту статью и объяснил, что я хочу именно автоматизацию через запросы к API. По сути, меня интересовал не UI-путь, а threads api и сама автоматизация Threads через прямую механику запросов.
Смешанные ощущения, учитывая, сколько я потратил на CDP-скрипты, которые всё равно не дали той стабильности, которой я хотел.
Моя проблема — я просто никогда не работал нормально с запросами. Я знаю, что такое get, post, даже несколько лет назад краем глаза смотрел в Wireshark, но из-за отсутствия реальной практики просто не додумался раньше. Иногда один wireshark http запрос или просто понимание того, как устроены HTTP-запросы, меняет картину сильнее, чем очередная попытка дожать UI.
Нужно правильно писать промты для агентов, а не винить ИИ, почему это он сам не додумался.
Именно понимание низкоуровневой архитектуры делает агентов в твоих руках по-настоящему мощным инструментом.