Локальные модели, Ollama и Gemma

Я вчера пытался клешню заставить работать с гемма4 локальной которая средняя на е4б вообще какой то бред. Через ли студио работает а через олама вообще не в какую именно по апи, а локально и через курл отвечало.


Оригинал в Telegram · @deniom3

Так у меня куда нвидиа по идеи


Оригинал в Telegram · @deniom3

И через курл то работало


Оригинал в Telegram · @deniom3

Там пооду косяк олламы


Оригинал в Telegram · @deniom3

Да и как то гемы маленькие с тулзами очень плохо работают. Хотя вот большая без проблем


Оригинал в Telegram · @deniom3

Да геммы какие-то туповатые мне кажется, не понимаю их прикола


Оригинал в Telegram · @giperkiy

Шустрые они прям очень


Оригинал в Telegram · @deniom3

И на самом деле как оркестратор осень даже справляется бесплатная гемма 31 от Гугла, прям у них ключ берешь там лимиты норм


Оригинал в Telegram · @deniom3

Окно всегда торчит где то


Оригинал в Telegram · @deniom3

Хм что то не находил там надо поискать, это в настройках сервера наверное а не самой программы?


Оригинал в Telegram · @deniom3

Хотя агенты те ещё черти…


Оригинал в Telegram · @deniom3

А блин они их спрятали под кнопкой режима разработчиков


Оригинал в Telegram · @deniom3

Да нашел я режим разработчика не включал, а без него оно скрыто


Оригинал в Telegram · @deniom3

Я локальные модели не особо много юзал


Оригинал в Telegram · @deniom3

Хотя вот смотрю последнее поколения прим очень даже уже юзабельно


Оригинал в Telegram · @deniom3

Увы у меня не супер вау конфиг, хотя как судить 4070ti 12 Gb + 64 Gb ОЗУ


Оригинал в Telegram · @deniom3

У меня такая же карта, модель на 30 умудрился запихнуть с частичной выгрузкой в память. Вроде работает и не особо глючит. Медленно только, но вообще терпимо. Да и я не спешу особо — дел и так хватает пока она время от времени что-то крутит.
Ну если быстро хочется, то я 9b втыкаю на простые задачи типа поиска в интернете, контекста там относительно дофига влезает.
Надо 3090 на 24 гига попытаться найти. Самый доступный вариант на вторичке кажется, даже удивительно.


Оригинал в Telegram · @giperkiy

Я тоже запускал такие модели но максимум чат потому что если агент он начинает грузить несколько промтов и начинает вылетать модель по памяти из за раздутого контекста


Оригинал в Telegram · @deniom3