Я вчера пытался клешню заставить работать с гемма4 локальной которая средняя на е4б вообще какой то бред. Через ли студио работает а через олама вообще не в какую именно по апи, а локально и через курл отвечало.
У меня такая же карта, модель на 30 умудрился запихнуть с частичной выгрузкой в память. Вроде работает и не особо глючит. Медленно только, но вообще терпимо. Да и я не спешу особо — дел и так хватает пока она время от времени что-то крутит.
Ну если быстро хочется, то я 9b втыкаю на простые задачи типа поиска в интернете, контекста там относительно дофига влезает.
Надо 3090 на 24 гига попытаться найти. Самый доступный вариант на вторичке кажется, даже удивительно.
Я тоже запускал такие модели но максимум чат потому что если агент он начинает грузить несколько промтов и начинает вылетать модель по памяти из за раздутого контекста