123,123,123

7月25日，摩爾線程在世界人工智能大會(huì)（WAIC 2025）開(kāi)幕前夕舉行技術(shù)分享會(huì)。會(huì)上，摩爾線程創(chuàng)始人兼CEO張建中表示，將以系統(tǒng)級(jí)技術(shù)創(chuàng)新與工程化能力打造用于生產(chǎn)智能的“AI工廠”。在他看來(lái)，“AI工廠”，如同芯片晶圓廠的制程升級(jí)，是一個(gè)系統(tǒng)性、全方位的變革，需要實(shí)現(xiàn)從底層芯片架構(gòu)創(chuàng)新、到集群整體架構(gòu)的優(yōu)化，再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級(jí)。

AI工廠的生產(chǎn)效率取決于加速計(jì)算通用性、單芯片有效算力、單節(jié)點(diǎn)效率、集群效率、集群穩(wěn)定性，這五大元素相互配合，缺一不可。與之相對(duì)應(yīng)，摩爾線程以全功能GPU、MUSA架構(gòu)、MUSA軟件棧、KUAE集群、零中斷五大技術(shù)，滿足AI工廠對(duì)生產(chǎn)效率的要求。

張建中在技術(shù)分享會(huì)上介紹摩爾線程高效AI工廠打造方案

為何要打造“AI工廠”？

全球前沿模型“智力”正迅猛增長(zhǎng)。模型產(chǎn)業(yè)競(jìng)爭(zhēng)激烈，迭代速度愈來(lái)愈快。全球代表性模型的迭代周期，從5—6個(gè)月逐漸縮減到1個(gè)月，甚至近期每周都有新的模型智能水平超越行業(yè)既有模型。以人類智力水平100分為標(biāo)準(zhǔn)，DeepSeek V3在2024年12月推出時(shí)，評(píng)分為46分；今年5月推出的DeepSeek R1，智力水平已經(jīng)能夠達(dá)到68分。在不到半年的時(shí)間內(nèi)，DeepSeek智能水平提升了50%以上。

這種高頻迭代不僅體現(xiàn)在大型語(yǔ)言模型（LLM）上，還同步擴(kuò)展至多模態(tài)模型、語(yǔ)音模型、世界模型等前沿模型領(lǐng)域。這些模型在性能、效率和應(yīng)用場(chǎng)景上實(shí)現(xiàn)的指數(shù)級(jí)突破，不僅推動(dòng)了AI從專用領(lǐng)域向通用智能的跨越，其快速迭代的特性更對(duì)新一代高性能人工智能計(jì)算基礎(chǔ)設(shè)施提出了迫切需求。

而訓(xùn)練具有高智能水平的模型，首先要算力足夠高、效率足夠高，才可以成為有效的算力。

張建中在主題演講中表示，為應(yīng)對(duì)生成式AI爆發(fā)式增長(zhǎng)下的大模型訓(xùn)練效率瓶頸，摩爾線程旨在通過(guò)系統(tǒng)級(jí)創(chuàng)新，將全功能GPU加速平臺(tái)的強(qiáng)大潛能，轉(zhuǎn)化為工程級(jí)的訓(xùn)練效率與可靠性，為AGI時(shí)代打造生產(chǎn)先進(jìn)模型的“超級(jí)工廠”。

相較于海外行業(yè)頭部企業(yè)代表，我國(guó)萬(wàn)卡以上算力集群搭建仍處于追趕狀態(tài)。對(duì)于我國(guó)AI算力行業(yè)而言，部署規(guī)模更大、高效高可靠的大規(guī)模算力集群，仍是贏得國(guó)際競(jìng)爭(zhēng)的重要技術(shù)路線。

何以提升單芯片有效算力？

算力芯片是AI工廠的技術(shù)基座。如果算力芯片不夠通用、性能不夠強(qiáng)，效率不夠高，AI工廠的地基就不夠牢。芯片運(yùn)算效率高低取決于芯片架構(gòu)、驅(qū)動(dòng)性能、算子優(yōu)化程度等多維因素。

在實(shí)際應(yīng)用中，芯片算力很少能夠達(dá)到理論峰值算力，實(shí)際運(yùn)行算力與產(chǎn)品設(shè)計(jì)理論算力之間存在差值。而好的芯片架構(gòu)，應(yīng)該像一個(gè)優(yōu)秀的管理者一樣，通過(guò)調(diào)度使所有的資源“忙”起來(lái)。

記者注意到，摩爾線程正在以多種方式提升芯片實(shí)際應(yīng)用算力。

摩爾線程在WAIC 2025展示全功能GPU在不同場(chǎng)景中的應(yīng)用實(shí)例

MUSA（Meta-computing Unified System Architecture，即元計(jì)算統(tǒng)一架構(gòu)）是摩爾線程自研架構(gòu)，其核心理念是——要做多引擎可配置的統(tǒng)一系統(tǒng)架構(gòu)。

首先是多引擎，體現(xiàn)在單顆GPU芯片上同時(shí)支持AI計(jì)算、圖形渲染、物理仿真和科學(xué)計(jì)算、超高清編解碼技術(shù)，目前國(guó)內(nèi)只有以摩爾線程為代表的少數(shù)GPU廠商具備全功能能力。

其次，該架構(gòu)采用統(tǒng)一的MUSA編程接口，提供統(tǒng)一的API。這樣一來(lái)，開(kāi)發(fā)者采用一套編程指令集就能驅(qū)動(dòng)在MUSA架構(gòu)之下的多種算力引擎。

為了更好地調(diào)動(dòng)存算資源，摩爾線程自主研發(fā)的加速引擎——張量計(jì)算引擎（TCE）和張量訪存引擎（TME）。前者將大大小小各種不同的復(fù)雜結(jié)構(gòu)高效組合起來(lái)，同時(shí)具備高精度累加器，能夠降低小數(shù)累入損失。后者用以充分發(fā)揮存儲(chǔ)的效率，支持Img2Col、矩陣轉(zhuǎn)置，能夠加速前、后處理。

即便是國(guó)際GPU頭部企業(yè)，也仍然存在通信任務(wù)占用計(jì)算資源的問(wèn)題。而將原本可用于計(jì)算的處理器用于通信，會(huì)損失運(yùn)算效率。為解決這一問(wèn)題，摩爾線程開(kāi)發(fā)了ACE（異步通信引擎），能夠?qū)崿F(xiàn)異步DMA搬移，同時(shí)不占用計(jì)算核的資源和訪存帶寬，減少了15%的計(jì)算資源損耗；內(nèi)嵌同步機(jī)制，能夠提高跨引擎協(xié)同性能；采用多種訪存地址計(jì)算模式，提高搬移效率。

不僅如此，在計(jì)算層面，摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。作為國(guó)內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商，其FP8技術(shù)通過(guò)快速格式轉(zhuǎn)換、動(dòng)態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì)，在保證計(jì)算精度的同時(shí)，將Transformer計(jì)算性能提升約30%。

何以實(shí)現(xiàn)高效節(jié)點(diǎn)、集群算力？

軟件生態(tài)被視為芯片企業(yè)的“護(hù)城河”。摩爾線程著力建設(shè)的MUSA軟件棧正成為其全功能GPU性能發(fā)揮的有力支撐。

基于推理場(chǎng)景對(duì)Kernel延時(shí)敏感的現(xiàn)狀，MUSA的驅(qū)動(dòng)和運(yùn)行時(shí)庫(kù)，能夠幫助用戶實(shí)現(xiàn)Kernel launch開(kāi)銷縮減：通過(guò)軟硬協(xié)同，核函數(shù)啟動(dòng)延遲降低至業(yè)界平均水平的50%；近千次的計(jì)算和通信任務(wù)下發(fā)開(kāi)銷，由近千次優(yōu)化為單次，GPU等待時(shí)間大大縮減；借助引擎間依賴解析技術(shù)，任務(wù)流之間的依賴解析延時(shí)可大幅降低至1.5μs，優(yōu)于業(yè)界頭部算力卡。

MUSA算子庫(kù)提升了芯片計(jì)算效率

算子庫(kù)的效率直接關(guān)乎分布式集群的訓(xùn)練效率。

當(dāng)前，MUSA能夠提供三大算子庫(kù)：極致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine開(kāi)源推理算子庫(kù)。

其中，muDNN是一款極致性能的開(kāi)箱即用標(biāo)準(zhǔn)算子庫(kù)，完整覆蓋常見(jiàn)的前向和反向算子。能夠支持完整的XMMA，支持Tensor Core全精度及所有量化模式，以及常用的神經(jīng)網(wǎng)絡(luò)算子操作。當(dāng)前，業(yè)內(nèi)算子矩陣乘法的效率大部分可以做到90%以上，摩爾線程muDNN矩陣乘法算子效率可達(dá)到98%。國(guó)際一流廠商Flash Attention算子效率約為75%，而muDNN的Flash Attention能夠達(dá)到95%。

MUTLASS高性能的線性代數(shù)模板庫(kù)，可極大降低在MUSA環(huán)境中自定義算子的開(kāi)發(fā)工作量，相當(dāng)于提供了一個(gè)可供二次開(kāi)發(fā)的模板。當(dāng)前MUTLASS已在Github上開(kāi)源，支持平湖架構(gòu)所有特性，同時(shí)提供高性能矩陣乘法、卷積算子實(shí)現(xiàn)，在Kernel中調(diào)用模板庫(kù)就可以進(jìn)行二次開(kāi)發(fā)。

此外，摩爾線程即將發(fā)布的面向大語(yǔ)言模型的開(kāi)源推理算子庫(kù)MUSA AI Tensor Engine，能夠幫助開(kāi)發(fā)者快速搭建自定義推理引擎。該算子庫(kù)提供用戶友好的Python API，進(jìn)一步降低開(kāi)發(fā)者使用門(mén)檻，只要會(huì)Python就可以調(diào)用。

大模型訓(xùn)練動(dòng)輒需要調(diào)動(dòng)幾千張甚至幾萬(wàn)張算力卡資源。要實(shí)現(xiàn)模型的高效訓(xùn)練，不僅單卡性能要高，還需要有強(qiáng)大的集群管理和調(diào)度能力。

摩爾線程在WAIC 2025現(xiàn)場(chǎng)展示KUAE夸娥智算集群

摩爾線程自研的夸娥（KUAE）計(jì)算集群，集成了計(jì)算集群、軟件平臺(tái)、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護(hù)和服務(wù)等一系列流程。整合數(shù)據(jù)、模型、張量、流水線和專家并行技術(shù)，全面支持Transformer等主流架構(gòu)；支持端到端的模型訓(xùn)練，能夠?qū)崿F(xiàn)對(duì)混合專家模型、自動(dòng)駕駛模型、視頻生成模型、具身智能模型等多種類模型的全面支持。

在構(gòu)建高效集群的基礎(chǔ)上，穩(wěn)定可靠的運(yùn)行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。在萬(wàn)卡級(jí)AI集群中，硬件故障導(dǎo)致的訓(xùn)練中斷會(huì)嚴(yán)重浪費(fèi)算力，甚至?xí)?dǎo)致訓(xùn)練團(tuán)隊(duì)幾個(gè)月的努力付諸東流。

為此，摩爾線程推出零中斷容錯(cuò)技術(shù)，故障發(fā)生時(shí)僅隔離受影響節(jié)點(diǎn)組，其余節(jié)點(diǎn)繼續(xù)訓(xùn)練，備機(jī)無(wú)縫接入，全程無(wú)中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%，大幅降低恢復(fù)開(kāi)銷。同時(shí)，KUAE集群通過(guò)多維度訓(xùn)練洞察體系實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)與智能診斷，將異常處理效率提升50%；結(jié)合集群巡檢與起飛檢查，訓(xùn)練成功率提高10%，為大規(guī)模AI訓(xùn)練提供穩(wěn)定了保障。

国产欧美另类国产日韩欧美精品一二三四欧美精品一区二区三区在线观看 2019国产精品每日更新