本報訊 (記者李喬宇)4月21日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)SkyReels團隊正式發布并開源SkyReels-V2——全球首個使用擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型,其通過結合多模態大語言模型(MLLM)、多階段預訓練(Multi-stage Pretraining)、強化學習(ReinforcementLearning)和擴散強迫(Diffusion-forcing)框架實現協同優化。
SkyReels-V2不僅在技術上實現了突破,還提供了多種有用的應用場景,包括故事生成、圖生視頻、運鏡專家和多主體一致性視頻生成(SkyReels-A2)。
SkyReels-V2現已支持生成30秒、40秒的視頻,且具備生成高運動質量、高一致性、高保真視頻的能力。
SkyReels-V2不僅在技術上實現了突破,還為多個實際應用場景提供了強大的支持。第一,SkyReels-V2能夠生成理論上無限時長的視頻,通過滑動窗口方法,模型在生成新幀時會參考之前生成的幀和文本提示。這種方法不僅支持時間上的擴展,還能生成具有連貫敘事的長鏡頭視頻;第二,SkyReels-V2提供了兩種圖像到視頻(I2V)的生成方法;第三,SkyReels-V2在標注攝像機運動方面表現出色;第四,基于SkyReels-V2基座模型,昆侖萬維研發了SkyReels-A2方案,并提出了一種新的多元素到視頻(E2V)任務,能夠將任意視覺元素(如人物、物體和背景)組合成由文本提示引導的連貫視頻,同時確保對每個元素的參考圖像的高保真度。這一功能適合短劇、音樂視頻和虛擬電商內容創作等應用。
作為首個商業級E2V開源模型,SkyReels-A2在E2V評估Benchmark A2-Bench中的結果表明,其一致性和質量維度上評估與閉源模型相當。未來,昆侖萬維計劃擴展框架以支持更多輸入模態,如音頻和動作,旨在構建一個統一的視頻生成系統,以支持更廣泛的應用。
(編輯 張明富)