技術(shù)
導(dǎo)讀:美團(tuán) LongCat 團(tuán)隊(duì)正式發(fā)布全新高效推理模型 LongCat-Flash-Thinking。
9 月 22 日消息,美團(tuán) LongCat 團(tuán)隊(duì)正式發(fā)布全新高效推理模型 LongCat-Flash-Thinking。
官方介紹稱(chēng),在保持了 LongCat-Flash-Chat 極致速度的同時(shí),全新發(fā)布的 LongCat-Flash-Thinking 更強(qiáng)大、更專(zhuān)業(yè)。綜合評(píng)估顯示,LongCat-Flash-Thinking 在邏輯、數(shù)學(xué)、代碼、智能體等多個(gè)領(lǐng)域的推理任務(wù)中,達(dá)到了全球開(kāi)源模型的最先進(jìn)水平(SOTA)。
同時(shí),LongCat-Flash-Thinking 不僅增強(qiáng)了智能體自主調(diào)用工具的能力,還擴(kuò)展了形式化定理證明能力,成為國(guó)內(nèi)首個(gè)同時(shí)具備「深度思考 + 工具調(diào)用」與「非形式化 + 形式化」推理能力相結(jié)合的大語(yǔ)言模型。團(tuán)隊(duì)發(fā)現(xiàn),尤其在超高復(fù)雜度的任務(wù)(如數(shù)學(xué)、代碼、智能體任務(wù))處理上,LongCat-Flash-Thinking 具備更顯著的優(yōu)勢(shì)。
創(chuàng)新架構(gòu),實(shí)現(xiàn)高效推理與穩(wěn)定訓(xùn)練:
領(lǐng)域并行強(qiáng)化學(xué)習(xí)訓(xùn)練方法:為了解決強(qiáng)化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問(wèn)題,團(tuán)隊(duì)設(shè)計(jì)了一種領(lǐng)域并行方案,將 STEM、代碼和智能體任務(wù)的優(yōu)化過(guò)程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進(jìn)策略,實(shí)現(xiàn)模型能力的均衡提升,綜合性能達(dá)到帕累托最優(yōu)(Pareto-Optimal)。
異步彈性共卡系統(tǒng):異步彈性共卡系統(tǒng)(DORA)是整個(gè)訓(xùn)練的基石。該系統(tǒng)通過(guò)彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計(jì),在實(shí)現(xiàn)相較于同步 RL 訓(xùn)練框架三倍提速的同時(shí),確保了每條樣本的策略一致性。同時(shí),系統(tǒng)進(jìn)一步實(shí)現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬(wàn)卡規(guī)模集群的穩(wěn)定運(yùn)行。值得一提的是,在大規(guī)模異步強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練階段,F(xiàn)LOPs(Floating Point Operations)的投入約為預(yù)訓(xùn)練階段的 20%,為模型性能提升提供了堅(jiān)實(shí)的算力保障。
智能體推理框架:為進(jìn)一步提升模型的智能體推理能力,團(tuán)隊(duì)提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠自主篩選最優(yōu)查詢樣本,并通過(guò)自動(dòng)化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識(shí)別并調(diào)用外部工具(如代碼執(zhí)行器、API 等),從而高效解決復(fù)雜任務(wù)?;?AIME25 實(shí)測(cè)數(shù)據(jù),LongCat-Flash-Thinking 在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保 90% 準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了 64.5% 的 Tokens(從 19653 到 6965),顯著優(yōu)化了推理過(guò)程的資源利用率。
形式化推理框架:為了克服當(dāng)前開(kāi)源通用大型語(yǔ)言模型在形式化證明任務(wù)中的不足,團(tuán)隊(duì)針對(duì)形式化推理設(shè)計(jì)了一套全新的基于專(zhuān)家迭代框架的數(shù)據(jù)合成方法,該流程利用集成了 Lean4 服務(wù)器的專(zhuān)家迭代框架,生成經(jīng)過(guò)嚴(yán)格驗(yàn)證的證明過(guò)程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強(qiáng)了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。
LongCat-Flash-Thinking 在多項(xiàng)權(quán)威評(píng)測(cè)中刷新紀(jì)錄,在各類(lèi)推理任務(wù)中均展現(xiàn)出持續(xù)領(lǐng)先的性能:
通用推理能力:LongCat-Flash-Thinking 具備卓越的通用推理能力,尤其在需要結(jié)構(gòu)化邏輯的任務(wù)中表現(xiàn)突出。其在 ARC-AGI 基準(zhǔn)測(cè)試中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等頂尖閉源模型。
數(shù)學(xué)能力:LongCat-Flash-Thinking 在數(shù)學(xué)推理方面展現(xiàn)出強(qiáng)大實(shí)力,躋身當(dāng)前頂尖模型行列。在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中優(yōu)勢(shì)更加明顯 —— 在 HMMT 和 AIME 相關(guān)基準(zhǔn)上取得突破性成績(jī),超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等領(lǐng)先模型水平相當(dāng)。這些結(jié)果印證了其解決復(fù)雜、多步驟問(wèn)題的領(lǐng)先能力。
代碼能力:在編程領(lǐng)域,LongCat-Flash-Thinking 展現(xiàn)出開(kāi)源模型最先進(jìn)的性能(SOTA)與綜合實(shí)力。在 LiveCodeBench 上以 79.4 分顯著超越參與評(píng)估的開(kāi)源模型,并與頂級(jí)閉源模型 GPT-5 表現(xiàn)相當(dāng),證明其解決高難度編程競(jìng)賽問(wèn)題的卓越能力。在 OJBench 基準(zhǔn)測(cè)試中也以 40.7 的得分保持極強(qiáng)競(jìng)爭(zhēng)力,并接近領(lǐng)先模型 Gemini2.5-Pro 的水平。
智能體能力:LongCat-Flash-Thinking 在復(fù)雜的、工具增強(qiáng)型推理(Tool-augmented Reasoning)方面表現(xiàn)突出,在智能體工具調(diào)用(Agentic Tool Use)上展現(xiàn)出強(qiáng)勁能力。其在 τ2-Bench-Airline 上以 67.5 分刷新開(kāi)源 SOTA 成績(jī),并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基準(zhǔn)測(cè)試中展現(xiàn)出超強(qiáng)競(jìng)爭(zhēng)力。
ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基準(zhǔn)中的 pass@1 獲得 67.6 的超高分?jǐn)?shù),大幅領(lǐng)先所有其他參與評(píng)估的模型,在 pass@8 和 pass@32 中同樣保持了領(lǐng)先優(yōu)勢(shì),凸顯其在生成結(jié)構(gòu)化證明和形式化數(shù)學(xué)推理方面的絕對(duì)優(yōu)勢(shì)。