Пользователям стала доступна генеративная нейросеть Pyramid Flow для создания качественных видео продолжительностью до 10 секунд. Эта модель имеет открытый исходный код, пишет «Хабр».
Pyramid Flow была разработана совместными усилиями исследователей из Пекинского университета, Пекинского университета почты и телекоммуникаций и компании Kuaishou Technology. Модель основывается на новой технологии, при которой видео генерируются поэтапно. Вначале создаются версии с низким разрешением, а окончательная версия в полном разрешении формируется на завершающем этапе.
Модель доступна для загрузки в виде исходного кода на платформах Hugging Face и GitHub. Инференс модели позволяет генерировать 5-секундные видео в разрешении 384p за 56 секунд, что сравнимо или быстрее многих аналогичных моделей. Однако лидером по скорости генерации видео все еще остается Gen-3 Alpha Turbo от Runway.
Видео, созданные с помощью Pyramid Flow, имеют высокое разрешение и выглядят реалистично, отмечают эксперты. Модель основана на методе пирамидального сопоставления потоков, что значительно сокращает вычислительные затраты и сохраняет высокое качество.
Создатели модели отмечают, что способность оптимизировать генерацию видео на разных этапах приводит к быстрой сходимости во время обучения. Pyramid Flow способна создавать видео длительностью 5–10 секунд в разрешении 768p с частотой 24 кадра в секунду, обучаясь на различных наборах данных с открытым исходным кодом.
Pyramid Flow предназначена для конкуренции с проприетарными решениями, такими как Gen-3 Alpha и Dream Machine от Luma. Модель доступна для коммерческого использования, хотя у нее пока отсутствуют некоторые продвинутые возможности настройки, доступные в платных моделях.