Бенчмарки для AI-агентов

iillliillliilll · 25.Июнь.2026 09:19:54

обратил внимание, что все помешаны на бенчмарках моделей. а для агентов какие бенчмарки существуют, кто знает? или поле непаханное?

dr0p_usdt · 25.Июнь.2026 09:35:15

SWE-bench самый популярный бенч на то как LLM или агент кодит

как я понимаю разницы нету особо, тестить модель или агента