у меня 32 видеопамяти, а вот потоками пока не разобрался, завтра протестирую
та да, заметил это))
но тут гемма 4 31б тоже думает как не в себя при обычном привет)
Нынче почти все модели умеют в MoE и не сильно падают в скорости, если часть экспертов выгружается в обычную рам. Так что небольшое превышение размера модели над vram не особо страшно.