обратил внимание, что все помешаны на бенчмарках моделей. а для агентов какие бенчмарки существуют, кто знает? или поле непаханное?
SWE-bench самый популярный бенч на то как LLM или агент кодит
как я понимаю разницы нету особо, тестить модель или агента