Бенчмарки для AI-агентов

обратил внимание, что все помешаны на бенчмарках моделей. а для агентов какие бенчмарки существуют, кто знает? или поле непаханное?


Оригинал в Telegram · @iillliillliilll

SWE-bench самый популярный бенч на то как LLM или агент кодит

как я понимаю разницы нету особо, тестить модель или агента


Оригинал в Telegram · @dr0p_usdt