Компания Stability AI опубликовала модель машинного обучения Stable Video Diffusion, позволяющую генерировать короткие видео на основе изображений. Модель расширяет возможности проекта Stable Diffusion, ранее ограниченного синтезом статических изображений. Код инструментов для обучения нейронной сети и генерации изображений написан на языке Python с использованием фреймворка PyTorch и опубликован под лицензией MIT. Уже обученные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях.
Для загрузки доступно два варианта модели: SVD (Stable Video Diffusion) для генерации 14 кадров с разрешением 576x1024 на основе заданного статического изображения и SVD-XT для генерации 25 кадров. Возможна генерация видео без движения или с очень медленным поворотом камеры, продолжительностью не более 4 секунд. Прямое управление моделью на основе текстового описания на естественном языке пока не поддерживается, но можно вначале подготовить исходное изображение при помощи старой модели Stable Diffusion 2.1, а затем преобразовать его в видео, используя модель SVD.
Качество видео пока не обеспечивает идеального фотореализма и гарантированно правильной отрисовки лиц и людей. По производительности предложенная открытая модель опережает проприетарные аналоги от компаний Runway и Pika Labs. Модель может легко адаптироваться для решения различных задач, например, может применяться для формирования объёмных фигур.
Также можно отметить публикацию инструментария машинного обучения Video-LLaVA, позволяющего создавать единое визуальное представление объекта, формируемое на основе использования при обучении одновременно фотографий и видеозаписей объектов. Система может применяться, например, для распознания наличия одних и тех же объектов на изображениях и видео. Код написан на Python и распространяется под лицензией Apache 2.0.
Дополнение: Компания Сбер опубликовала под лицензией Apache 2.0 модели Kandinsky Video и Kandinsky 3 для генерации коротких видео и изображений по текстовому описанию. Видео генерируется с разрешением 512x512, используя для генерации ключевых кадров модель Kandinsky 3.0 и связывая ключевые кадры в единую композицию при помощи темпоральных блоков.
>>> Подробности