本報記者 袁傳璽
2月5日,百度智能云宣布在近日成功點亮了自研萬卡集群——昆侖芯三代萬卡集群。據了解,這也是國內首個正式點亮的自研萬卡集群,百度智能云將進一步點亮3萬卡集群。
百度智能云方面表示,未來一年,將是各種AI原生應用爆發的黃金時期。自研芯片和萬卡集群的建成帶來了強大的算力支持,同時有效提升百度和客戶的資源整體利用率,降低大模型訓練成本,為整個行業提供了新的思路和方向。
突破萬卡集群建設瓶頸
據了解,百度智能云此次點亮的昆侖芯三代萬卡集群,采用了先進的昆侖芯P800芯片,該芯片在性能和能效比上均實現了顯著提升。據百度官方介紹,萬卡集群以超大規模并行計算能力著稱,能夠實現極大幅度的效率提升。其訓練周期不僅適用于千億參數模型,更能夠支持更復雜的任務和多模態數據,為視頻生成類應用的開發提供了強大的動力。
從技術細節上來看,萬卡集群的建設過程中面臨了諸多挑戰,如硬件擴展性瓶頸、芯片及集群功耗、模型分布式訓練優化等。然而,百度通過升級百舸AI異構計算平臺4.0,成功解決了這些問題。
其中,百舸平臺不僅突破了卡間互聯的拓撲限制,避免了通信帶寬成為瓶頸,帶寬有效性達到90%以上。同時,還通過創新性散熱方案解決了萬卡集群的能效與散熱問題。此外,百舸平臺還優化了模型的分布式訓練,采用高效并行化任務切分策略,訓練主流開源模型的集群MFU提升至58%。
百度智能云方面表示,隨著國產大模型的興起,萬卡集群已從單純算力供給逐漸向“有效”算力供給過渡,通過模型優化、并行策略、有效訓練率提升、動態資源分配等手段,智能調度任務將訓練、微調、推理任務混合部署,最大化提升集群綜合利用率,降低單位算力成本,從而真正發揮算力效能。
廣州艾媒數聚信息咨詢股份有限公司總經理張毅向《證券日報》記者表示,從產業賦能的角度來看,萬卡集群的超大規模并行計算能力可以極大地提升模型訓練效率,縮短產品迭代周期,這對于需要頻繁迭代和優化的AI原生應用來說至關重要。同時,萬卡集群還能夠支持多任務并發能力,通過動態資源切分,單集群可同時訓練多個輕量化模型,進一步提高了集群的綜合利用率。
國產算力加速推進
隨著人工智能的迅速發展,算力的需求正在以幾何級數增長,然而算力緊張和高成本一直是限制行業進一步發展的主要瓶頸。“算力尤其是AI算力已經不再是一個單純的技術問題,它關系到國家經濟、科技創新、軍事安全等多個領域的綜合競爭力。隨著AI技術的迅猛發展,算力的提升變得尤為關鍵。”光大證券研報指出。
為進一步加強國產算力能力,我國政策正大力引導國產芯片的采購。如上海的“算力浦江”智算行動實施方案(2024—2025年),2025年要實現新建智算中心的國產算力芯片使用占比超過50%;《北京市算力基礎設施建設實施方案(2024—2027年)》則提出,2027年要具備100%自主可控智算中心建設能力。
同時,為進一步打破算力瓶頸,除百度以外,已有多家廠商及機構著手向萬卡集群領域拓展業務。根據《智算產業發展研究報告(2024)》顯示,在中國,超萬卡集群的智算中心已達十余個。中國電信在上海與北京兩大萬卡集群已成功投產運營;中國移動位于呼和浩特、哈爾濱、貴陽的萬卡級別的智算中心已經先后投產運行;字節跳動在2023年就已建立起超過1萬張卡的Ampere架構GPU(A100/A800)集群,此后還在建設大規模Hopper架構(H100/H800)集群;此外,小米也正計劃建設一座GPU萬卡集群。
中國工程院院士、清華大學計算機系教授鄭緯民表示,當下構建國產自主萬卡系統充滿挑戰,但“至關重要”。他指出,國內企業在芯片設計、制造等領域的不斷突破,將為國產算力產品的普及和應用提供有力支持。
“萬卡集群通過通信優化與容錯機制顯著減少了算力的浪費,實現了訓練成本指數級下降。”張毅表示,隨著國產大模型的興起,萬卡集群逐漸從“單任務算力消耗”向“集群效能最大化”過渡,最大化提升集群綜合利用率,降低單位算力成本。
工信部信息通信經濟專家委員會委員盤和林告訴《證券日報》記者,國產算力市場將迎來更加廣闊的發展前景,隨著技術的不斷進步和應用場景的不斷拓展,國產AI算力產品將在更多領域發揮重要作用。對于國產AI算力企業來說,未來需要繼續加大在技術研發和市場推廣方面的投入力度,努力提升產品性能和用戶體驗。同時,還需要積極與國內外企業展開合作與交流,共同推動國產AI算力市場的健康發展。
(編輯 才山丹)