美團發(fā)布并開源混合專家模型：5600億參數(shù) 只激活5％就有奇效

由 愛自由 分享時間：2025-09-01 22:12:00 瀏覽：0

9月1日消息，美團宣布正式發(fā)布LongCat-Flash-Chat AI模型，并同步開源，采用創(chuàng)新性混合專家(MoE)，總參數(shù)量達560B(5600億)，實際激活參數(shù)18.6-31.3B，平均僅27B，從而實現(xiàn)計算效率與性能的雙重優(yōu)化。

美團聲稱，根據(jù)多項基準測試綜合評估，作為一款非思考型基礎(chǔ)模型，LongCat-Flash-Chat在僅激活少量參數(shù)的前提下，性能就可以比肩當下領(lǐng)先的主流模型，尤其在智能體任務(wù)中具備突出優(yōu)勢。

同時，因為面向推理效率的設(shè)計和創(chuàng)新，LongCat-Flash-Chat具有明顯更快的推理速度，更適合于耗時較長的復(fù)雜智能體應(yīng)用。

美團LongCat-Flash在架構(gòu)層面引入“零計算專家（Zero-Computation Experts）”機制，總參數(shù)量560B，每token依據(jù)上下文需求僅激活18.6-31.3B參數(shù)，實現(xiàn)算力按需分配和高效利用。

為控制總算力消耗，訓(xùn)練過程采用PID控制器實時微調(diào)專家偏置，將單個token的平均激活量穩(wěn)定在約27B。

此外，LongCat-Flash在層間鋪設(shè)跨層通道，使MoE的通信和計算能很大程度上并行，極大提高了訓(xùn)練和推理效率。

配合定制化的底層優(yōu)化，LongCat-Flash在30天內(nèi)完成了高效訓(xùn)練，并在H800 GPU上實現(xiàn)單用戶100+ tokens/s的推理速度。

LongCat-Flash還對常用大模型組件和訓(xùn)練方式進行了改進，使用了超參遷移和模型層疊加的方式進行訓(xùn)練，并結(jié)合了多項策略保證訓(xùn)練穩(wěn)定性，使得訓(xùn)練全程高效且順利。

針對智能體（Agentic）能力，LongCat-Flash自建了Agentic評測集指導(dǎo)數(shù)據(jù)策略，并在訓(xùn)練全流程進行了全面的優(yōu)化，包括使用多智能體方法生成多樣化高質(zhì)量的軌跡數(shù)據(jù)等，實現(xiàn)了優(yōu)異的智能體能力。

通過算法和工程層面的聯(lián)合設(shè)計，LongCat-Flash在理論上的成本和速度都大幅領(lǐng)先行業(yè)同等規(guī)模、甚至規(guī)模更小的模型。

通過系統(tǒng)優(yōu)化，LongCat-Flash在H800上達成了100 tokens/s的生成速度，同時輸出成本低至5元/百萬token。

LongCat-Flash架構(gòu)圖

通用領(lǐng)域知識方面，LongCat-Flash在ArenaHard-V2基準測試中取得86.50的優(yōu)異成績，位列所有評估模型中的第二名。

在基礎(chǔ)基準測試中，MMLU（多任務(wù)語言理解基準）得分為89.71，CEval（中文通用能力評估基準）得分為 90.44。

這些成績可與目前國內(nèi)領(lǐng)先的模型比肩，且其參數(shù)規(guī)模少于DeepSeek-V3.1、Kimi-K2等產(chǎn)品。

智能體工具使用方面，LongCat-Flash即便與參數(shù)規(guī)模更大的模型相比，在τ2-Bench（智能體工具使用基準）中的表現(xiàn)仍超越其他模型；高復(fù)雜度場景下，在VitaBench（復(fù)雜場景智能體基準）中以24.30分位列第一。

編程方面，LongCat-Flash在TerminalBench（終端命令行任務(wù)基準）中，以39.51的得分位列第二，在SWE-Bench-Verified（軟件工程師能力驗證基準）中得分為 60.4。

指令遵循方面，LongCat-Flash在IFEval（指令遵循評估基準）中以89.65的得分位列第一，在COLLIE（中文指令遵循基準）和 Meeseeks-zh（中文多場景指令基準）中成績分別為 57.10 和 43.03。

LongCat-Flash基準測試性能

美團同步提供了分別基于SGLang和vLLM的兩種高效部署方案。

以下為使用SGLang進行單機部署的示例：

python3 -m sglang.launch_server \

--model meituan-longcat/LongCat-Flash-Chat-FP8 \

--trust-remote-code \

--attention-backend flashinfer \

--enable-ep-moe \

--tp 8

現(xiàn)在前往https://longcat.ai/ ，就能立即與LongCat-Flash-Chat開啟對話。

開源平臺地址：

Hugging Face：

https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

Github：

https://github.com/meituan-longcat/LongCat-Flash-Chat

開源倉庫統(tǒng)一采用MIT License，并允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。

本文轉(zhuǎn)載于快科技，文中觀點僅代表作者個人看法，本站只做信息存儲

本站部分文章來自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點不代表本站立場。閱讀前請查看【免責(zé)聲明】發(fā)布者：愛自由，如若本篇文章侵犯了原著者的合法權(quán)益，可聯(lián)系我們進行處理。本文鏈接：http://www.gdyuanyu.cn/article/138651.html

上一篇：辛巴“退網(wǎng)”后妻子首播賣出20億網(wǎng)友：到底誰在買

下一篇：深圳將全面封殺學(xué)生的教輔資料引家長熱議：教育局回應(yīng)