Зацените новость
https://ai.google.dev/gemma/docs/diffusiongemma
Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits of high-end dedicated consumer GPUs when quantized.
Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits of high-end dedicated consumer GPUs when quantized.
В 4 раза быстрее чем обычная Gemma 4, при небольшой потери качества
В 4? Мне кажется раз в 10
Сегодня в новостях смотрел что выдает 700 токенов/с на 5090
Ну мое мтп это технологии сейчас самый топ среди локалок. Я вон так квен 3.6 35б мое запустил на 4070. Но там тогда все упирается в проц и скорость озу