-->
阿里千問最強(qiáng)模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro
阿里正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項(xiàng)權(quán)威評測全球新紀(jì)錄,性能媲美GPT-5.2、Gemini 3 Pro
4小時前
來源:快科技??

快科技1月26日消息,阿里正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項(xiàng)權(quán)威評測全球新紀(jì)錄,性能媲美GPT-5.2、Gemini 3 Pro,成為迄今為止最接近國際頂尖模型的國內(nèi)最強(qiáng)AI大模型。

通過總參數(shù)、強(qiáng)化學(xué)習(xí)、推理計(jì)算的極致規(guī)模擴(kuò)展,千問新模型實(shí)現(xiàn)了性能的大幅飛躍,刷新科學(xué)知識(GPQA Diamond)、數(shù)學(xué)推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項(xiàng)關(guān)鍵性能基準(zhǔn)測試的全球紀(jì)錄。

Qwen3-Max-Thinking是目前阿里規(guī)模最大、能力最強(qiáng)的千問推理模型,其總參數(shù)量超萬億(1T),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T Tokens。

此前,預(yù)覽版Qwen3-Max-Thinking斬獲數(shù)學(xué)推理AIME 25和HMMT 25的國內(nèi)首個雙滿分,推理性能已讓人驚艷;在此基礎(chǔ)上,阿里通義團(tuán)隊(duì)進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練,全面提升了正式版Qwen3-Max-Thinking性能。

在涵蓋事實(shí)知識、復(fù)雜推理、指令遵循、人類偏好對齊、Agent能力等19個公認(rèn)的大模型基準(zhǔn)測試中,千問旗艦推理模型刷新了數(shù)項(xiàng)最佳表現(xiàn)(SOTA)紀(jì)錄,整體性能可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro 。

在關(guān)鍵的模型推理能力提升中,千問新模型采用了一種全新的測試時擴(kuò)展(Test-time Scaling)機(jī)制,推理性能提升的同時還更經(jīng)濟(jì)。

業(yè)界普遍的推理時計(jì)算,只會簡單增加并行推理路徑,重復(fù)推導(dǎo)已知結(jié)論,造成冗余推理效率低下;而千問采用的這一新機(jī)制,可對此前推理的結(jié)果進(jìn)行“經(jīng)驗(yàn)提取”式的提煉,并據(jù)此進(jìn)行多輪自我迭代,在相同的上下文中實(shí)現(xiàn)更高效的推理計(jì)算,獲得更智能的推理結(jié)果。

基于這一推理技術(shù)創(chuàng)新,千問推理性能和推理效率大為提升,比如在啟用工具的“人類最后的測試”HLE中,千問得分58.3,大幅超過GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,錄得當(dāng)前所有模型的最高分。

面向即將到來的智能體Agent時代,Qwen3-Max-Thinking還大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力。

具體而言,在完成初步的工具使用微調(diào)后,通義團(tuán)隊(duì)對模型進(jìn)一步在大量多樣化任務(wù)上進(jìn)行了基于規(guī)則獎勵與模型獎勵的聯(lián)合強(qiáng)化學(xué)習(xí)訓(xùn)練,使得Qwen3-Max-Thinking擁有更智能結(jié)合工具進(jìn)行思考的能力。

這種自適應(yīng)的工具調(diào)用能力可在QwenChat上完整體驗(yàn),模型自主選用搜索、個性化記憶和代碼解釋器等三個核心的Agent工具功能,提供專業(yè)人士一樣水平的回答,更合用戶心意、更智能、更流暢;同時,模型幻覺也大為降低,為解決真實(shí)復(fù)雜任務(wù)打下基礎(chǔ)。

目前,開發(fā)者可在QwenChat上免費(fèi)體驗(yàn)Qwen3-Max-Thinking模型,企業(yè)可通過阿里云百煉獲取新模型API服務(wù),普通用戶也可通過千問PC端和網(wǎng)頁端試用模型。據(jù)了解,千問APP也即將接入新模型,所有用戶都可免費(fèi)體驗(yàn)千問最強(qiáng)模型。

最新文章
1
全球電視55%為委外代工制造,茂佳年出貨量第一,視訊增速稱雄
2
蘋果今年要兩度更新MacBook Pro!上半年換芯片、下半年改款
3
阿里千問最強(qiáng)模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro
4
蘋果發(fā)布iOS 26.2.1:適配AirTag 2!iPhone 15及以上必升
5
泰雷茲在華智能制造中心獲評“上海市先進(jìn)級智能工廠”
6
內(nèi)存、閃存大漲價 索尼PS6主機(jī)被指跳票到2029年發(fā)布
7
2025年中國智能投影儀市場創(chuàng)史上最大下滑 行業(yè)洗牌加速
8
蘋果新一代Siri下月登場!iOS 26.4首發(fā)
9
空調(diào)江湖哪有什么“新一線”?
10
快手“老鐵,這被窩嘎嘎暖!”榜單發(fā)布,億級流量賦能商家年終生意爆發(fā)
11
前赴后繼的入局電視行業(yè),瞄準(zhǔn)電視未來客廳核心地位
12
工信部:以人形機(jī)器人為小切口帶動具身智能大產(chǎn)業(yè)發(fā)展
13
國補(bǔ)加持AI眼鏡賽道,家電企業(yè)如何從中“掘金”?
14
4499元起!榮耀Magic8 Pro Air首銷:行業(yè)最強(qiáng)Air
15
谷歌Pixel 10a全角度渲染圖曝光:7年系統(tǒng)更新+120Hz屏,3月正式上市
16
11299元起!京東京造Au99.99黃金手機(jī)殼上線,既是配件也是隨身資產(chǎn)
17
TCL索尼合作,茂佳的全球電視代工“老大”的地位更穩(wěn)了
18
當(dāng)五恒成為好房子標(biāo)配:一場由AI驅(qū)動的技術(shù)覺醒正在發(fā)生
19
榮耀最強(qiáng)旗艦!榮耀Magic8 RSR保時捷設(shè)計(jì)明天首銷:7999元起
20
索尼牽手TCL后,除了True RGB,SQD-Mini LED會不會提上日程?
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512