本報訊 (記者李喬宇)7月30日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)正式推出并開源采用自回歸路線的多模態統一預訓練模型Skywork UniPic,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力。該模型基于大規模高質量數據進行端到端預訓練,具備良好的通用性與可遷移性。
據悉,Skywork UniPic在單一模型中深度融合圖像理解、文本生成圖像(T2I)與圖像編輯三大核心任務,構建了真正統一的多模態模型架構。
傳統多模態統一模型多依賴VQ或VAE編碼器來壓縮視覺內容,雖然具備一定效果,但也存在局限性。它們更側重保留圖像的視覺細節而非語義信息,這會在一定程度上削弱模型的圖像理解能力。
為此,Skywork UniPic團隊借鑒Harmon架構設計,并在表征方式上做出關鍵調整。采用MAR編碼器作為圖像生成路徑的視覺表征基礎,同時引入SigLIP2作為圖像理解路徑的主干。
此外,Skywork UniPic完成端到端優化流程,能夠實現生成、理解、編輯三大能力的協同訓練和相互促進,突破傳統方法中能力權衡的技術瓶頸。這一架構設計不僅保持了自回歸模型的簡潔高效,更通過共享編碼器實現了跨任務的深度協同,為多模態統一模型的實用化部署奠定了基礎。
在追求模型能力極限的同時,Skywork UniPic也堅持效率重要性的設計理念。Skywork UniPic以1.5B的緊湊參數規模,在無CoT(思維鏈)的情況下取得了SOTA(“當前最佳水平”)分數,逼近部分較大模型帶CoT的0.88分;在DPG-Bench復雜指令生圖基準上達到85.5分的行業SOTA水平。
(編輯 張明富)