本報訊 (記者李喬宇)4月24日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)宣布正式開源多模態推理模型的全新升級版本——Skywork-R1V2.0(以下簡稱“R1V2.0”)。
昆侖萬維披露的公告顯示,Skywork-R1V2.0是當前最均衡兼顧視覺與文本推理能力的開源多模態模型,該多模態模型在高考理科難題的深度推理與通用任務場景中均表現優異,實現多模態大模型的“深度+廣度”統一。
據悉,升級后的R1V2.0模型理科學科題目(數學、物理、化學)推理效果拔群,能夠成為免費AI解題助手;38B權重+技術報告全面開源,推動多模態生態建設;能夠實現多模態獎勵模型(SkyworkVLReward)與混合偏好優化機制(MPO),全面提升模型泛化能力;選擇性樣本緩沖區機制(SSB),突破強化學習“優勢消失”瓶頸。
據介紹,在多個權威基準測試中,R1V2.0相較于R1V1.0在文本與視覺推理任務中均實現顯著躍升。無論是專業領域任務,如數學推理、編程競賽、科學分析,還是通用任務,如創意寫作與開放式問答,R1V2.0都呈現出極具競爭力的表現。
為實現多模態大模型在“深度推理”與“通用能力”之間的最佳平衡,R1V2.0引入了全新的“多模態獎勵模型Skywork-VLReward”及“規則驅動的混合強化訓練機制”,在顯著增強推理能力的同時,進一步穩固了模型在多任務、多模態場景中的穩定表現與泛化能力。
(編輯 張明富)