通信世界網消息(CWW)當AI大模型參數規(guī)模突破萬億級,AI算力的重要性已經毋庸置疑。但隨著算力基礎設施越建越多,一個被忽視的真相也逐漸清晰:最終決定訓練乃至推理效率的不是單純的算力峰值,而是數據從存儲到計算的“流轉效率”。
在AI大模型訓練、推理等業(yè)務快速發(fā)展的大背景下,數據存儲與計算的協(xié)同效率不僅成為運營商IT系統(tǒng)升級的關鍵,更關乎AI在運營商和各行各業(yè)業(yè)務中的部署應用。
作為數字基建主力軍,當前運營商對存力的需求已從“輔助角色”升級為“重要引擎”。
迎接“AI+”時代
存算網協(xié)同成為運營商的必答題
隨著AI大模型發(fā)展深入推進,行業(yè)對存力的需求日益凸顯。在數據處理能力上,存儲系統(tǒng)須具備高IOPS和高帶寬,滿足高速讀寫需求,減少計算資源等待時間;在容量方面,存力要從TB級擴展到PB級以上,以容納海量非結構化數據;同時,存力支撐下的低延遲訪問對實時AI應用也至關重要。
直面行業(yè)需求,運營商作為算網一體化的核心建設者與引領者,存儲與計算、網絡的協(xié)同已成為其無法回避的課題。
從業(yè)務需求來看,AI訓練和推理對存算網協(xié)同的性能要求呈現多維度提升。中國移動研究院網絡與IT技術研究所項目經理閆晗指出,在訓練方面,隨著參數量、訓練數據量的激增,訓練檢查點不斷增大,對于存儲提出TB/s級高吞吐性能需求。在推理方面,由于GPU顯存空間有限,需要構建HBM-DRAM-SSD多級KVCache緩存架構,以緩存更多KV數據,提升KVCache命中率。
“當前存儲與計算、網絡資源的協(xié)同還存在諸多短板:在多協(xié)議處理方面,傳統(tǒng)按照文件、對象、塊協(xié)議分立的存儲系統(tǒng)暴露出數據跨池拷貝痛點和數據冗余問題;在存儲網絡方面,傳統(tǒng)TCP/IP網絡面對海量數據傳輸存在瓶頸;在存儲客戶端方面,傳統(tǒng)NFS文件客戶端不能滿足高并發(fā)讀寫性能需求?!遍Z晗講道。
從IT系統(tǒng)整體來看,存儲與計算、網絡資源如何協(xié)同才能滿足AI業(yè)務需求,目前存在哪些協(xié)同短板?未來如何實現高效低時延傳輸?帶著這一系列行業(yè)關注的話題,近期,工信智媒體還將組織專家研討沙龍,深入探索行業(yè)的應用之策。
高性能、低成本的SSD
成為存力市場核心訴求
構建高效存力,存儲技術可謂關鍵制約因素。在這場關于容量、性能、成本的博弈中,存儲技術也逐漸演進,打破HDD市場長期被國外制約的困境,國產廠商在SSD領域正實現彎道超車。
就企業(yè)進展來看,長江存儲3D NAND閃存技術持續(xù)迭代,作為SSD大腦的主控芯片,目前國內絕大多數依然是國外芯片廠商占據,其比例遠高于CPU市場,這無疑凸顯了國內相關產業(yè)在該領域實現自主突破的緊迫性。
從技術價值來看,SSD芯片直接決定存儲性能?!爸袊苿又攸c考量SSD硬盤的讀寫帶寬、IOPS、時延、可靠性、功耗等指標,同時也考量SSD產品的成本因素,從技術和成本兩方面進行綜合評估?!遍Z晗介紹,目前中國移動在智算場景下,存儲介質正在快速向全閃化演進,以實現存儲系統(tǒng)高吞吐、低延遲、低功耗的目標。
對此,中國聯通研究院未來網絡研究部總監(jiān)曹暢也同樣認為,從運營商角度來看,更為看好SSD在成本控制與性能優(yōu)化上的優(yōu)勢。一方面,新型SSD芯片可實現更低時延,提供更大帶寬和IOPS,能滿足AI訓練中大量數據的快速讀寫需求,部分新型SSD芯片還具備計算加速功能,可以加速數據處理。另一方面,新型SSD芯片采用更先進制程,在能效比上表現優(yōu)異。
近年來平頭哥的鎮(zhèn)岳企業(yè)級SSD主控芯片嶄露頭角,不僅具備高達3400K IOPS的IO處理能力,輕松應對高并發(fā)AI推理任務;而且憑借領先業(yè)界的超低延遲 ,能快速響應推理請求,減少等待時間;同時支持多種NAND技術,保證性能的同時控制存儲成本,提升AI推理成本效益。
存算網協(xié)同長遠在于
打贏算力能效戰(zhàn)
AI算力的爆發(fā)式增長帶來巨大能耗壓力,如何在提升訓練效率的同時降低能耗,成為運營商存算網協(xié)同的重要課題,SSD憑借節(jié)能的突出優(yōu)勢,也將有效助力這一進程。
對此,閆晗認為,液冷技術與SSD替代結合是節(jié)能關鍵。液冷一方面能夠提高數據中心的設備部署密度,另一方面也能保證芯片在最大電壓和頻率下連續(xù)運行,提升芯片性能。而SSD硬盤能耗比HDD硬盤節(jié)省90%以上,通過SSD對HDD的替代,可進一步降低設備功率,其與液冷技術相輔相成,將共同推動新型節(jié)能、綠色低碳算力網絡發(fā)展。
網絡架構優(yōu)化與協(xié)議創(chuàng)新可進一步降低能耗。曹暢指出,光電混合新型組網方案是未來的重要方向,可以解決傳統(tǒng)網絡架構難以滿足超大規(guī)模算力集群互聯需求。同時,通過優(yōu)化擁塞控制算法、負載均衡策略及RDMA協(xié)議,能提升網絡吞吐效率AI訓練效率。此外,曹暢提醒,從系統(tǒng)協(xié)同方面來看,通過智能化的管控與調度、自動化運維等手段也可以確保網絡的高可用和高可靠。
正如不同的應用場景,對存力的挑戰(zhàn)各有不同,各有側重。未來存算網協(xié)同還有賴于產業(yè)鏈上下游企業(yè)同心協(xié)作,從OEM廠商、SSD盤的廠商和SSD核心芯片企業(yè)都應各盡所長。平頭哥半導體產品總監(jiān)周冠鋒認為,作為一種典型的閉源系統(tǒng),SSD盤廠與主控廠需要緊密合作,充分發(fā)揮出主控芯片與NAND芯片的能力,并盡量以通用部件的形態(tài),滿足各場景訴求;同時在接口兼容性上與OEM廠商聯合發(fā)力,充分適配各種不同硬件平臺。
面向未來,當存力、算力、運力真正實現“同頻共振”,不僅將重塑運營商的競爭力,更將為數字經濟高質量發(fā)展注入底層動力。隨著AI業(yè)務的深入,相信運營商還將在技術突破、產業(yè)協(xié)同等方面持續(xù)探索。后續(xù),工信智媒體將持續(xù)關注行業(yè)動向,并且通過“算網一體化中的存力挑戰(zhàn)研討”,邀請產業(yè)各方深入探討實踐路徑,敬請關注。
- QQ:61149512