Использование OpenAI по подписке в Hermes

larpova · 04.Июнь.2026 18:02:12

а в гермесе можно пользоваться open ai по подписке
как в openclaw
напомните плиз

Оригинал в Telegram · @larpova

deniom3 · 04.Июнь.2026 18:47:18

Да

Оригинал в Telegram · @deniom3

ruzeynalov · 05.Июнь.2026 00:04:18

Всем привет,

Интересует есть ли у нас в community те кто эксперементирует локальными LLM для OpenClaw/Hermes?

Наткнулся на обзор вот такого мини пк https://www.youtube.com/watch?v=wzvecRTzDTI - любопытно есть ли у кого то опыт с такой платформой (AMD Ryzen™ AI Max+ PRO 395)?

Оригинал в Telegram · @ruzeynalov

tigrohvost · 05.Июнь.2026 01:53:37

О, обьединенная память как на маках)

Оригинал в Telegram · @tigrohvost

l1152585 · 05.Июнь.2026 02:47:23

Уже как пол года в рф продаются. И амд и н видиа и асеры с объединенной памятья. Стоят неприлично и есть нюансы.
Самый главный нюанс это иной раз сам по себе выключается. Похоже что то с прошивкой.
Обычно ночью.
Искали проблему, нашли только что у других тоже есть.
Это про асеры. Про другие не знаю.

Оригинал в Telegram · @L1152585

l1152585 · 05.Июнь.2026 02:48:36

Эксперементирую. Полет нормальный. На работе примерно такая штука.
Дома сервер с двумя теслами по 32 гб. Тоже ничего.

Оригинал в Telegram · @L1152585

l1152585 · 05.Июнь.2026 02:54:14

Но с теслами максималка 35 b в 8 квантовании.
Более менее. 74 токена в сек и на кеш остается примерно на 3 ляма токенов. Но там нужно понимать что это даже не дипсик.
В случае с затратами на покупку железа или купить апи дипсика, это несравнимо дорого.
Дип сиком обожрешься токенов и хватит при такой стоимости сервера примерно на 3 года работы 10 агентов на дипсике😂. А за три года 10 агентов на дипсике, они тебе проложат курс на луну и еще половину до марса..
так что лучше оставайся на подписке.
Основное преимущество железа только в одном-приватность данных. Более преимуществ нет от слова совсем.

Оригинал в Telegram · @L1152585

l1152585 · 05.Июнь.2026 02:59:55

Забыл еще про один нюанс коробок-у них медленные токены.
Быстрее чем на маках и на студиях, но не быстрее чем на нормальном gpu. Даже например от 4090. 4090 в разы быстрее. Но здесь проблема начинается гигабайтов. Объединять гигабайты можно слоями, но все же так себе.
Так что всегда есть проблема.
Проблемы нет на H100-200 и B шках. Но там ценники другие)
Но и модели на них можно крутить хорошие. Например какую нибудь 400 милиардную и там ответы уже будут интересные.
Но все же не дотянут до gpt 5.4 и тем более 5.5.

Оригинал в Telegram · @L1152585

ruzeynalov · 05.Июнь.2026 12:15:44

Круто, интересует как обстоят дела с тепловыделением? Мой use case это разработка + fine tuning моделей типа Gemma 4, qwen3.6 под конкретные прикладные задачи. Что-то типа такого https://www.callstack.com/blog/introducing-apex-a-fast-specialized-model-for-react-native

Оригинал в Telegram · @ruzeynalov

rdirect · 05.Июнь.2026 12:40:08

395 слишком оверпрайс. есть вариант попроще. миник ценой в 50 + внешняя rtx через oculink

Оригинал в Telegram · @RDirect

ruzeynalov · 12.Июнь.2026 15:08:32

Взял себе на днях GMKtec Evo-X2 чтобы поэксперементировать с локальными моделями

Поставил Fedora Linux 44 + использовал инструкции с https://strix-halo-toolboxes.com/#about

Если кому то интересно то по бенчмарками очень близко к этим цифрам https://kyuz0.github.io/amd-strix-halo-toolboxes/ хотя и мне хватает производительности в тихом режиме “Quiet”

Оригинал в Telegram · @ruzeynalov