-->
打造“AI工廠”,摩爾線程為什么強(qiáng)調(diào)系統(tǒng)級創(chuàng)新?
7月25日,摩爾線程在世界人工智能大會(WAIC 2025)開幕前夕舉行技術(shù)分享會。
2025-07-31 09:13:40
來源:中國電子報、電子信息產(chǎn)業(yè)網(wǎng) 姬曉婷??

7月25日,摩爾線程在世界人工智能大會(WAIC 2025)開幕前夕舉行技術(shù)分享會。會上,摩爾線程創(chuàng)始人兼CEO張建中表示,將以系統(tǒng)級技術(shù)創(chuàng)新與工程化能力打造用于生產(chǎn)智能的“AI工廠”。在他看來,“AI工廠”,如同芯片晶圓廠的制程升級,是一個系統(tǒng)性、全方位的變革,需要實(shí)現(xiàn)從底層芯片架構(gòu)創(chuàng)新、到集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級。

AI工廠的生產(chǎn)效率取決于加速計(jì)算通用性、單芯片有效算力、單節(jié)點(diǎn)效率、集群效率、集群穩(wěn)定性,這五大元素相互配合,缺一不可。與之相對應(yīng),摩爾線程以全功能GPU、MUSA架構(gòu)、MUSA軟件棧、KUAE集群、零中斷五大技術(shù),滿足AI工廠對生產(chǎn)效率的要求。

張建中在技術(shù)分享會上介紹摩爾線程高效AI工廠打造方案

為何要打造“AI工廠”?

全球前沿模型“智力”正迅猛增長。模型產(chǎn)業(yè)競爭激烈,迭代速度愈來愈快。全球代表性模型的迭代周期,從5—6個月逐漸縮減到1個月,甚至近期每周都有新的模型智能水平超越行業(yè)既有模型。以人類智力水平100分為標(biāo)準(zhǔn),DeepSeek V3在2024年12月推出時,評分為46分;今年5月推出的DeepSeek R1,智力水平已經(jīng)能夠達(dá)到68分。在不到半年的時間內(nèi),DeepSeek智能水平提升了50%以上。

這種高頻迭代不僅體現(xiàn)在大型語言模型(LLM)上,還同步擴(kuò)展至多模態(tài)模型、語音模型、世界模型等前沿模型領(lǐng)域。這些模型在性能、效率和應(yīng)用場景上實(shí)現(xiàn)的指數(shù)級突破,不僅推動了AI從專用領(lǐng)域向通用智能的跨越,其快速迭代的特性更對新一代高性能人工智能計(jì)算基礎(chǔ)設(shè)施提出了迫切需求。

而訓(xùn)練具有高智能水平的模型,首先要算力足夠高、效率足夠高,才可以成為有效的算力。

張建中在主題演講中表示,為應(yīng)對生成式AI爆發(fā)式增長下的大模型訓(xùn)練效率瓶頸,摩爾線程旨在通過系統(tǒng)級創(chuàng)新,將全功能GPU加速平臺的強(qiáng)大潛能,轉(zhuǎn)化為工程級的訓(xùn)練效率與可靠性,為AGI時代打造生產(chǎn)先進(jìn)模型的“超級工廠”。

相較于海外行業(yè)頭部企業(yè)代表,我國萬卡以上算力集群搭建仍處于追趕狀態(tài)。對于我國AI算力行業(yè)而言,部署規(guī)模更大、高效高可靠的大規(guī)模算力集群,仍是贏得國際競爭的重要技術(shù)路線。

何以提升單芯片有效算力?

算力芯片是AI工廠的技術(shù)基座。如果算力芯片不夠通用、性能不夠強(qiáng),效率不夠高,AI工廠的地基就不夠牢。芯片運(yùn)算效率高低取決于芯片架構(gòu)、驅(qū)動性能、算子優(yōu)化程度等多維因素。

在實(shí)際應(yīng)用中,芯片算力很少能夠達(dá)到理論峰值算力,實(shí)際運(yùn)行算力與產(chǎn)品設(shè)計(jì)理論算力之間存在差值。而好的芯片架構(gòu),應(yīng)該像一個優(yōu)秀的管理者一樣,通過調(diào)度使所有的資源“忙”起來。

記者注意到,摩爾線程正在以多種方式提升芯片實(shí)際應(yīng)用算力。

摩爾線程在WAIC 2025展示全功能GPU在不同場景中的應(yīng)用實(shí)例

MUSA(Meta-computing Unified System Architecture,即元計(jì)算統(tǒng)一架構(gòu))是摩爾線程自研架構(gòu),其核心理念是——要做多引擎可配置的統(tǒng)一系統(tǒng)架構(gòu)。

首先是多引擎,體現(xiàn)在單顆GPU芯片上同時支持AI計(jì)算、圖形渲染、物理仿真和科學(xué)計(jì)算、超高清編解碼技術(shù),目前國內(nèi)只有以摩爾線程為代表的少數(shù)GPU廠商具備全功能能力。

其次,該架構(gòu)采用統(tǒng)一的MUSA編程接口,提供統(tǒng)一的API。這樣一來,開發(fā)者采用一套編程指令集就能驅(qū)動在MUSA架構(gòu)之下的多種算力引擎。

為了更好地調(diào)動存算資源,摩爾線程自主研發(fā)的加速引擎——張量計(jì)算引擎(TCE)和張量訪存引擎(TME)。前者將大大小小各種不同的復(fù)雜結(jié)構(gòu)高效組合起來,同時具備高精度累加器,能夠降低小數(shù)累入損失。后者用以充分發(fā)揮存儲的效率,支持Img2Col、矩陣轉(zhuǎn)置,能夠加速前、后處理。

即便是國際GPU頭部企業(yè),也仍然存在通信任務(wù)占用計(jì)算資源的問題。而將原本可用于計(jì)算的處理器用于通信,會損失運(yùn)算效率。為解決這一問題,摩爾線程開發(fā)了ACE(異步通信引擎),能夠?qū)崿F(xiàn)異步DMA搬移,同時不占用計(jì)算核的資源和訪存帶寬,減少了15%的計(jì)算資源損耗;內(nèi)嵌同步機(jī)制,能夠提高跨引擎協(xié)同性能;采用多種訪存地址計(jì)算模式,提高搬移效率。

不僅如此,在計(jì)算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。作為國內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時,將Transformer計(jì)算性能提升約30%。

何以實(shí)現(xiàn)高效節(jié)點(diǎn)、集群算力?

軟件生態(tài)被視為芯片企業(yè)的“護(hù)城河”。摩爾線程著力建設(shè)的MUSA軟件棧正成為其全功能GPU性能發(fā)揮的有力支撐。

基于推理場景對Kernel延時敏感的現(xiàn)狀,MUSA的驅(qū)動和運(yùn)行時庫,能夠幫助用戶實(shí)現(xiàn)Kernel launch開銷縮減:通過軟硬協(xié)同,核函數(shù)啟動延遲降低至業(yè)界平均水平的50%;近千次的計(jì)算和通信任務(wù)下發(fā)開銷,由近千次優(yōu)化為單次,GPU等待時間大大縮減;借助引擎間依賴解析技術(shù),任務(wù)流之間的依賴解析延時可大幅降低至1.5μs,優(yōu)于業(yè)界頭部算力卡。

MUSA算子庫提升了芯片計(jì)算效率

算子庫的效率直接關(guān)乎分布式集群的訓(xùn)練效率。

當(dāng)前,MUSA能夠提供三大算子庫:極致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine開源推理算子庫。

其中,muDNN是一款極致性能的開箱即用標(biāo)準(zhǔn)算子庫,完整覆蓋常見的前向和反向算子。能夠支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神經(jīng)網(wǎng)絡(luò)算子操作。當(dāng)前,業(yè)內(nèi)算子矩陣乘法的效率大部分可以做到90%以上,摩爾線程muDNN矩陣乘法算子效率可達(dá)到98%。國際一流廠商Flash Attention算子效率約為75%,而muDNN的Flash Attention能夠達(dá)到95%。

MUTLASS高性能的線性代數(shù)模板庫,可極大降低在MUSA環(huán)境中自定義算子的開發(fā)工作量,相當(dāng)于提供了一個可供二次開發(fā)的模板。當(dāng)前MUTLASS已在Github上開源,支持平湖架構(gòu)所有特性,同時提供高性能矩陣乘法、卷積算子實(shí)現(xiàn),在Kernel中調(diào)用模板庫就可以進(jìn)行二次開發(fā)。

此外,摩爾線程即將發(fā)布的面向大語言模型的開源推理算子庫MUSA AI Tensor Engine,能夠幫助開發(fā)者快速搭建自定義推理引擎。該算子庫提供用戶友好的Python API,進(jìn)一步降低開發(fā)者使用門檻,只要會Python就可以調(diào)用。

大模型訓(xùn)練動輒需要調(diào)動幾千張甚至幾萬張算力卡資源。要實(shí)現(xiàn)模型的高效訓(xùn)練,不僅單卡性能要高,還需要有強(qiáng)大的集群管理和調(diào)度能力。

摩爾線程在WAIC 2025現(xiàn)場展示KUAE夸娥智算集群

摩爾線程自研的夸娥(KUAE)計(jì)算集群,集成了計(jì)算集群、軟件平臺、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護(hù)和服務(wù)等一系列流程。整合數(shù)據(jù)、模型、張量、流水線和專家并行技術(shù),全面支持Transformer等主流架構(gòu);支持端到端的模型訓(xùn)練,能夠?qū)崿F(xiàn)對混合專家模型、自動駕駛模型、視頻生成模型、具身智能模型等多種類模型的全面支持。

在構(gòu)建高效集群的基礎(chǔ)上,穩(wěn)定可靠的運(yùn)行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。在萬卡級AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會嚴(yán)重浪費(fèi)算力,甚至?xí)?dǎo)致訓(xùn)練團(tuán)隊(duì)幾個月的努力付諸東流。

為此,摩爾線程推出零中斷容錯技術(shù),故障發(fā)生時僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時間占比超99%,大幅降低恢復(fù)開銷。同時,KUAE集群通過多維度訓(xùn)練洞察體系實(shí)現(xiàn)動態(tài)監(jiān)測與智能診斷,將異常處理效率提升50%;結(jié)合集群巡檢與起飛檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定了保障。

最新文章
1
激活內(nèi)需煥新動力,紅頂獎與行業(yè)攜手共創(chuàng)不凡
2
漢印“超激鼓”激光打印機(jī)發(fā)布!為政采提供高可靠低成本新選擇
3
斬獲電視行業(yè)唯一紅頂獎 海信RGB-Mini LED樹立高端市場新標(biāo)桿
4
莫一林:數(shù)據(jù)與商業(yè)雙輪驅(qū)動,具身智能將突破“不可能三角”
5
榮耀Magic8 Mini要來了!6.3英寸小直屏+天璣9500
6
華為全新MatePad 11.5宣布12月22日發(fā)布 類自然光顯示 更護(hù)眼
7
業(yè)界首款!豪威單芯片LCOS小尺寸面板發(fā)布 采用3微米像素
8
“前輩”iRobot破產(chǎn),給中國掃地機(jī)企業(yè)“四點(diǎn)啟示”
9
告別“大馬拉小車”!海爾4Hz超低頻中央空調(diào),重新定義家居舒適節(jié)能新標(biāo)準(zhǔn)
10
聚勢小說劇,創(chuàng)享新流量,快手小程序行業(yè)沙龍引領(lǐng)內(nèi)容變革
11
商品卡環(huán)比增長60%,快手商品卡川流計(jì)劃助力德佑解鎖貨架場增量
12
古穿今開啟雙向救贖,快手星芒短劇《偽裝游戲》詮釋熱血青春友誼
13
商品卡川流計(jì)劃助力品牌全域經(jīng)營,藍(lán)月亮快手泛貨架GMV超千萬元
14
從品質(zhì)立信到自主可控:“超激鼓”激光打印機(jī)成國產(chǎn)打印機(jī)品牌新標(biāo)桿
15
從“藏起來”到“擺C位”,追覓洗地機(jī)的高端化如何制勝全球
16
蘋果2026和2027產(chǎn)品路線圖:可折疊iPhone、iPhone 18 Pro等
17
11月內(nèi)銷下滑29%:新國標(biāo)讓電動車市場涼了三分之一
18
2026年國補(bǔ)繼續(xù),期待細(xì)則出臺
19
GCC運(yùn)營商如何實(shí)踐5G-A體驗(yàn)經(jīng)營?
20
云加速器部署節(jié)點(diǎn)份額NVIDIA占據(jù)近72%,AMD占比僅5.8%
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512