Локальная генерация коротких видео из фото с OpenClaw

Привет всем,

Хочу поделиться прикольным кейсом использования OpenClaw для локальной генерации коротких роликов (5-20 ceкунд) из фотографий с использованием следующих инструментов:

  1. lemonade сервер(у меня AMD) + sd.cpp https://github.com/leejet/stable-diffusion.cpp - консольный runner для задач по генерации видео.

  2. LTX 2.3 1.1 https://huggingface.co/QuantStack/LTX-2.3-GGUF/blob/main/LTX-2.3-distilled-1.1/LTX-2.3-22B-distilled-1.1-Q5_K_M.gguf - модель для реалистичной генерации видео по текстовому промпту или фотографии + озвучка с lip sync

  3. Flux.1-Kontext-dev https://huggingface.co/QuantStack/FLUX.1-Kontext-dev-GGUF/blob/main/flux1-kontext-dev-Q8_0.gguf
    используется для редактирования картинки по референсу: даем фото человека/объекта и текстовую команду, а модель меняет сцену, одежду, фон, свет и т.п., сохраняя лицо/идентичность.

Для первоначальной настройки и создания необходимых скриптов использовал GPT-5.5 (Codex), для исполнения задач по созданию видео использую агента OpenClaw на Google Gemma 4 26B-A4B.

На моем железе (AMD Strix Halo) такие средние показатели - на 10 секунд генерации видео уходит в среднем 7-8 минут.

На топ картах от Nvidia - скорее всего будет в x5 быстрее.

Идею взял отсюда https://github.com/bkpaine1/AMD-Strix-Halo-AI-Guide

[Видео Telegram пропущено при автопубликации: sample-ltx2.3.mp4, 20.3 MB]


Оригинал в Telegram · @ruzeynalov

Реально полезные штуки закреплять бы, чтобы любой мог зайти и полистать чего другие делают


Оригинал в Telegram · @cygaky