Использование OpenAI по подписке в Hermes

а в гермесе можно пользоваться open ai по подписке
как в openclaw
напомните плиз


Оригинал в Telegram · @larpova

Да


Оригинал в Telegram · @deniom3

Всем привет,

Интересует есть ли у нас в community те кто эксперементирует локальными LLM для OpenClaw/Hermes?

Наткнулся на обзор вот такого мини пк https://www.youtube.com/watch?v=wzvecRTzDTI - любопытно есть ли у кого то опыт с такой платформой (AMD Ryzen™ AI Max+ PRO 395)?


Оригинал в Telegram · @ruzeynalov

О, обьединенная память как на маках)


Оригинал в Telegram · @tigrohvost

Уже как пол года в рф продаются. И амд и н видиа и асеры с объединенной памятья. Стоят неприлично и есть нюансы.
Самый главный нюанс это иной раз сам по себе выключается. Похоже что то с прошивкой.
Обычно ночью.
Искали проблему, нашли только что у других тоже есть.
Это про асеры. Про другие не знаю.


Оригинал в Telegram · @L1152585

Эксперементирую. Полет нормальный. На работе примерно такая штука.
Дома сервер с двумя теслами по 32 гб. Тоже ничего.


Оригинал в Telegram · @L1152585

Но с теслами максималка 35 b в 8 квантовании.
Более менее. 74 токена в сек и на кеш остается примерно на 3 ляма токенов. Но там нужно понимать что это даже не дипсик.
В случае с затратами на покупку железа или купить апи дипсика, это несравнимо дорого.
Дип сиком обожрешься токенов и хватит при такой стоимости сервера примерно на 3 года работы 10 агентов на дипсике😂. А за три года 10 агентов на дипсике, они тебе проложат курс на луну и еще половину до марса..
так что лучше оставайся на подписке.
Основное преимущество железа только в одном-приватность данных. Более преимуществ нет от слова совсем.


Оригинал в Telegram · @L1152585

Забыл еще про один нюанс коробок-у них медленные токены.
Быстрее чем на маках и на студиях, но не быстрее чем на нормальном gpu. Даже например от 4090. 4090 в разы быстрее. Но здесь проблема начинается гигабайтов. Объединять гигабайты можно слоями, но все же так себе.
Так что всегда есть проблема.
Проблемы нет на H100-200 и B шках. Но там ценники другие)
Но и модели на них можно крутить хорошие. Например какую нибудь 400 милиардную и там ответы уже будут интересные.
Но все же не дотянут до gpt 5.4 и тем более 5.5.


Оригинал в Telegram · @L1152585

Круто, интересует как обстоят дела с тепловыделением? Мой use case это разработка + fine tuning моделей типа Gemma 4, qwen3.6 под конкретные прикладные задачи. Что-то типа такого https://www.callstack.com/blog/introducing-apex-a-fast-specialized-model-for-react-native


Оригинал в Telegram · @ruzeynalov

395 слишком оверпрайс. есть вариант попроще. миник ценой в 50 + внешняя rtx через oculink


Оригинал в Telegram · @RDirect

Взял себе на днях GMKtec Evo-X2 чтобы поэксперементировать с локальными моделями

Поставил Fedora Linux 44 + использовал инструкции с https://strix-halo-toolboxes.com/#about

Если кому то интересно то по бенчмарками очень близко к этим цифрам https://kyuz0.github.io/amd-strix-halo-toolboxes/ хотя и мне хватает производительности в тихом режиме “Quiet”


Оригинал в Telegram · @ruzeynalov

Любопытно будет еще https://huggingface.co/MiniMaxAI/MiniMax-M3 попробывать - но думаю ресурсов не хватит на нормальную работу


Оригинал в Telegram · @ruzeynalov

Сомневаюсь что получится впихнуть 800 гигов в 128 гигов унифицированной памяти😀


Оригинал в Telegram · @FreeMars

Угу, Claude Fable подсчет сделал сколько нужно RAM


Оригинал в Telegram · @ruzeynalov

Там расчет идет на процессоре типа с TPU ядрами? Что то прям печально по токенам


Оригинал в Telegram · @deniom3

iGPU


Оригинал в Telegram · @ruzeynalov