通信世界網消息(CWW)當數(shù)據存儲的發(fā)展目標遇上AI大模型的爆發(fā)式算力需求,存力產業(yè)正經歷從“容量競賽”到“效能革命”的轉折挑戰(zhàn)。存算網協(xié)同也逐漸成為行業(yè)公認的貫通存力、算力與運力的核心路徑,正在重塑包括芯片在內的全產業(yè)鏈生態(tài)格局。就存儲側而言,如何推動國產SSD從簡單的存儲介質升級為數(shù)據智能調度中樞,成為存力產業(yè)變革的關鍵目標。
日前,聚焦“算網一體化中的存力挑戰(zhàn)”,工信智媒體(通信世界)以“存算協(xié)同的未來趨勢與綠色生態(tài)構建”為討論主題,邀請信通院、運營商、中興通訊以及平頭哥半導體等行業(yè)專家進行沙龍座談,從全局視角切入,分析存力問題的現(xiàn)狀、運營商業(yè)務需求及產業(yè)鏈動態(tài),探索技術突破方向與生態(tài)合作路徑。
存力困境:AI倒逼存算與時俱進
在傳統(tǒng)存力時代,數(shù)據存儲主要聚焦于數(shù)據的安全保存與基礎讀寫功能。存儲設備如同單純的數(shù)據倉庫,只是被動地接收和存儲數(shù)據,缺乏對數(shù)據的智能管理與高效調度。
隨著AI技術的迅猛發(fā)展,尤其是大模型、深度學習等應用的興起,數(shù)據量爆發(fā)式增長的同時,數(shù)據類型也愈發(fā)復雜多樣,這使得傳統(tǒng)存力在應對AI需求時也暴露出資源分布不均、協(xié)同調度不足等諸多痛點。
中國信息通信研究院云計算與大數(shù)據研究所總工郭亮認為,大模型訓練、推理對存儲需求存在差異,對于訓練來說,更關注的是TB級訓練數(shù)據高并發(fā)讀寫和分布式寫入,有效地縮短訓練周期;對于推理來說,需要提供低延遲的讀寫和高IOPS的能力來確保模型的實時響應性。“對大模型推理來說,AI原生存儲比較重要,也是行業(yè)關注的重點方向。”
中國聯(lián)通研究院下一代互聯(lián)網研究部總監(jiān)曹暢指出,當前AI大模型訓練和推理等核心場景,對存力提出了多維度的嚴苛要求:在數(shù)據處理能力上,需具備高IOPS和大帶寬,滿足高速讀寫需求;減少計算資源等待時間容量方面,要從TB級擴展到PB級以上,以容納海量非結構化數(shù)據;低延遲訪問對實時AI應用也至關重要,還需具備良好的可擴展性,適應數(shù)據量和模型規(guī)模的增長,并且在能耗與成本上進行優(yōu)化。
隨著AI大模型的快速迭代創(chuàng)新,冷數(shù)據逐漸變熱,更多的熱數(shù)據帶動存儲介質向全閃化演進。與此同時,大模型訓練需要的數(shù)據源深度持續(xù)拓展,數(shù)據存儲周期顯著加長,也帶動了行業(yè)對于大容量、低成本、高可靠存儲技術的需求。
不僅如此,大模型訓練中數(shù)據清洗階段還需要存儲提供多協(xié)議、高性能的支持以縮短數(shù)據預處理的時長。此外,為了有效地避免算力資源浪費,訓練參數(shù)、數(shù)據等需要定期保存,作為Checkpoint需要具備快速讀寫的存儲來高效利用算力資源,提高訓練的效率。這些需求從不同的維度拉動了對先進存儲的需求。
“先進存力提升的目標,不僅體現(xiàn)在容量規(guī)模上,更重要的是存力質量?!逼筋^哥半導體產品總監(jiān)周冠鋒認為,高質量存力應具備高性能、低時延、高可靠、高能效、高性能平穩(wěn)度、良好接口兼容性、高易用性及易部署等特征?!熬唧w到AI訓練對底層存儲部件的核心要求是‘四角性能’:更高的讀寫速度、帶寬、IOPS,以及更低的時延?!?/p>
國家層面的戰(zhàn)略布局也為先進存儲發(fā)展注入強勁動能。2024年工業(yè)和信息化部等六部門聯(lián)合發(fā)布的《算力基礎設施高質量發(fā)展行動計劃》明確提出,到2025年我國存儲總量要達到1800EB,且先進存儲容量占比需超過30%。
由此可見,存力政策與技術的協(xié)同效應正在釋放巨大市場空間。據IDC和Gartner預測,2025年中國存儲產業(yè)上游產業(yè)鏈產值將超2600億元,中下游產值則突破8000億元,形成萬億級市場規(guī)模。
協(xié)同破局:存算網協(xié)同凝聚產業(yè)共識
人工智能與數(shù)字化轉型正在重塑存儲需求的結構與規(guī)模,存算網一體化成為提升資源效能的關鍵路徑。從長遠來看,存算網協(xié)同的深化離不開產業(yè)鏈各環(huán)節(jié)的精密配合,行業(yè)有待形成以標準為引領、場景為驅動、技術為支撐的生態(tài)體系。
中國信通院作為存算網協(xié)同發(fā)展的關鍵引領者與標準規(guī)范者,在產業(yè)研究、技術創(chuàng)新、生態(tài)共建等方面帶領產業(yè)進步。
運營商作為核心踐行者,以場景需求為導向,在技術探索、規(guī)模落地與生態(tài)構建中展現(xiàn)了主力軍擔當。在技術層面,運營商重點聚焦分級存儲與架構創(chuàng)新,構建適配AI、云業(yè)務的多層次存儲體系;在場景落地中,運營商以大規(guī)模集群運營為抓手,推動技術普惠;在生態(tài)層面,運營商錨定國產化與綠色低碳目標,引領產業(yè)協(xié)同。
談及運營商如何推進存算協(xié)同以提升網絡服務效率與質量時,中國移動數(shù)智化部發(fā)展規(guī)劃處高級項目總監(jiān)高從文認為,如何通過更有效的互聯(lián)方式整合算力是算力發(fā)展的熱點,包括計算芯片與HBM的帶寬、卡間互聯(lián)帶寬、節(jié)點間互聯(lián)帶寬及機架間互聯(lián)帶寬等。
運營商基于層級業(yè)務特性,采用“分層存儲+彈性計算+適配網絡”的混合架構,如對于核心節(jié)點,優(yōu)先保障可靠性(冗余設計),通過集中化部署降低單節(jié)點成本(如共享存儲池減少重復投入)。對于邊緣節(jié)點/接入節(jié)點,采用輕量化、低成本策略。
細化到技術層面,產業(yè)鏈上游的芯片廠商是存算協(xié)同技術創(chuàng)新的核心驅動力,通過技術創(chuàng)新,深化與存儲生態(tài)的合作,支撐運營商各業(yè)務場景的存儲需求。
從芯片層面,周冠鋒指出,在SSD領域,無論是主控企業(yè)還是模組企業(yè),都在集中精力卷“四角性能”。而除了這些性能,平頭哥在實踐中發(fā)現(xiàn),用戶對存儲服務質量(QoS)以及中低壓力下的帶寬達成率也非常關注,而這兩方面恰恰也是SSD設計過程中面臨的難點。
從存儲系統(tǒng)解決產品和方案角度來看,中興通訊算力規(guī)劃總工程師朱堃認為,SSD的帶寬、IOPS以及時延是衡量AI存儲的主要性能指標。除了讀寫時延絕對值外,低時延抖動對于AI應用的性能保障也非常關鍵。未來SSD除了在性能、密度、壽命方面繼續(xù)不斷提升之外,針對后續(xù)GEN6服務器特性以及CPU能力的提升,SSD的GEN6特性配合大容量預計是后續(xù)演進的一個重要方向。
閃存突圍:SSD邁向成本與能效雙優(yōu)
正如數(shù)據有“熱溫冷”的分層特征,存儲技術的選擇與迭代也應適配數(shù)據特性。尤其是面對算力基礎設施能耗的挑戰(zhàn),算力環(huán)節(jié)雖然常被視為核心焦點,但存力的適配性不足正以隱性方式加劇整體能耗負擔。
當存力無法匹配算力需求時,GPU因數(shù)據供給不足將陷入“空轉”;數(shù)據在存儲與計算節(jié)點間的低效傳輸以及冷熱數(shù)據混存導致的冗余能耗都是在變相加重能耗負擔。
因此,先進存力技術的突破也是能耗優(yōu)化的關鍵支點。
值得注意的是,節(jié)能特性使SSD在“雙碳”目標下占據獨特優(yōu)勢。談及節(jié)能SSD芯片在AI存力體系中有何戰(zhàn)略地位,郭亮認為,SSD的能效比通常是HDD的5~10倍,在PUE已被壓縮到1.2以下的數(shù)據中心里,存儲設備能耗占比開始凸顯,SSD的引入可以進一步降低能源損耗。因此,SSD不僅是“先進”的技術符號,也比較契合當前產業(yè)的數(shù)智化發(fā)展需求。
談及存儲設備中引入SSD能發(fā)揮哪些具體作用,中國電信研究院戰(zhàn)略所云網中心副主任分析師王田媛認為,鑒于SSD在高并發(fā)場景下能夠支撐更高吞吐量的數(shù)據傳輸及讀寫速度,以及SSD本身的高密度、低能耗特性能夠帶來實際機房能耗的顯著降低。在老舊IT系統(tǒng)改造/搬遷、網絡及IT系統(tǒng)擴容的過程中,應充分考慮業(yè)務實際運行的性能要求,在實際資源容量規(guī)劃、配置選型、方案設計中充分考慮引入SSD的必要性,逐步推進SSD在現(xiàn)網的應用,推進實現(xiàn)降本增效及綠色節(jié)能。
先進技術最終還需在產品與服務實踐中驗證。針對運營商推進算網一體化面臨的存力高時延、低能效等痛點,SSD應如何發(fā)力?
“SSD需聚焦降本增效,既要發(fā)揮性能優(yōu)勢,又要降低成本?!敝芄阡h介紹道,“目前SSD核心構成包括主控、固件、DRAM和NAND Flash。其中主控和NAND功耗是整盤功耗的主要部分,降低主控能耗一直是平頭哥半導體的持續(xù)探索方向?!?/p>
全球SSD主控芯片也大體可以分為兩種技術路線:一種類似NPU的特定硬件設計,另一種更為軟化,使用大量的通用CPU core堆疊。周冠鋒認為,SSD的最優(yōu)方案是提前對SSD的所有任務進行合理分解,明確哪些適合硬件實現(xiàn)、哪些適合CPU處理。
為了突破性能和能效的瓶頸,鎮(zhèn)岳510 SSD主控芯片的架構設計是一種“緊耦合”架構,芯片硬件與芯片內運行的固件能夠嚴絲合縫緊密配合,一方面SSD任務會被合理分解至固件和芯片硬件,既保留合理的靈活性,又提高執(zhí)行效率;另一方面固件與硬件性能良好匹配,防止過設計現(xiàn)象。
朱堃認為,SSD的性能和功耗是一對矛盾,在設計時需要考慮在性能和單位容量功耗之間均衡;在能效設計方面建議SSD能夠提供在線性能功耗策略設置能力,使得存儲系統(tǒng)可以根據實際負載靈活做出調節(jié)。
運營商作為存力建設的主力軍,在推動產業(yè)升級中扮演著關鍵角色。除了傳統(tǒng)的容量、性能、可靠性指標,近年來其對國產化率、能效比、全生命周期成本的權重顯著提升,這種“需求牽引”正倒逼產業(yè)鏈從“單一產品比拼”轉向“系統(tǒng)級解決方案競爭”。
可以說,運營商的需求與行業(yè)期待在成為國產SSD崛起的關鍵推手。
具體到SSD如何滿足性能與節(jié)能的雙重需求,與會專家普遍認為QLC閃存更具有發(fā)展?jié)摿Α?/p>
高從文認為,在SSD應用初期,用戶曾擔憂其耐用性,隨著近年應用經驗的積累,用戶已能系統(tǒng)把控業(yè)務的寫入量情況,并合理選擇適合業(yè)務需求的SSD產品。另一方面,隨著SSD在數(shù)據存儲介質中的占比逐漸提升,成本將受到更多關注。QLC NAND等價格更低的存儲介質未來可能會有更多的應用場景。
另一位專家指出,不同應用場景對存儲參數(shù)的要求存在差異。對于云的分布式存儲系統(tǒng)而言,對單盤的性能要求不高,但對集群性能要求較高;在性能要求不高的場景下,成本是關鍵考量因素。QLC作為新介質,是降低存儲成本、提升能效的有效手段。
此外,在關注性能和成本之余,一個設計優(yōu)秀的SSD也應提高存儲系統(tǒng)的運維能力。周冠鋒提醒,存儲系統(tǒng)因為網絡擁塞、某個時刻SSD內后臺的不正常操作等都可能導致性能異常波動等故障,要想及時定位并排除故障是運維上的難題。目前行業(yè)上并沒有統(tǒng)一的標準來規(guī)范SSD運行過程中的信息統(tǒng)計,哪些要記錄,到什么精度,哪些需要實時等,這有賴于產業(yè)上下游的合作探索。
對此,朱堃補充道,除了基礎運維之外,廠家可以通過引入智算的趨勢判斷、壞顆粒檢測等技術能力和解決方案來打造差異化優(yōu)勢。
整體來看,國產存儲產業(yè)正經歷從“跟跑”到“并跑”的關鍵跨越。工信智媒體(通信世界)總編輯劉啟誠最后總結道,未來要真正實現(xiàn)降本增效,既需要通過規(guī)?;少彅偙〕杀?,更需要構建“芯片-設備-系統(tǒng)-服務”的協(xié)同創(chuàng)新機制,避免陷入“低端同質化競爭”的泥潭。
總而言之,AI時代的存算變革已箭在弦上。存力作為數(shù)字經濟的核心底座,其發(fā)展不僅關乎數(shù)據要素的高效利用,更決定著算力效能的釋放與AI創(chuàng)新的邊界。未來,唯有推動存力、算力、運力真正實現(xiàn)協(xié)同,才能充分釋放數(shù)據價值,讓存算網協(xié)同成為驅動數(shù)字經濟高質量發(fā)展的澎湃動能。
- QQ:61149512