信通院宇文夢柯等：大模型推理優(yōu)化——技術(shù)突破與產(chǎn)業(yè)落地新范式 -- 飛象網(wǎng)

隨著大模型技術(shù)的飛速發(fā)展和企業(yè)智能化轉(zhuǎn)型需求的不斷攀升，大模型落地應(yīng)用關(guān)注焦點正從訓(xùn)練環(huán)節(jié)轉(zhuǎn)向推理環(huán)節(jié)。在此過程中，行業(yè)需求已從構(gòu)建功能全面、用戶友好且靈活的推理平臺，逐步深化到解決實際落地中由“效果-性能-成本”構(gòu)成的不可能三角難題[1]。其中，效果要求體現(xiàn)在模型服務(wù)的準(zhǔn)確性與場景覆蓋的全面性，性能要求體現(xiàn)在響應(yīng)時延、系統(tǒng)吞吐、服務(wù)穩(wěn)定性，成本要求體現(xiàn)在算力成本、適配成本等綜合開銷。推理優(yōu)化技術(shù)作為破解不可能三角難題的核心抓手，其重要價值正在大模型規(guī)模化應(yīng)用中愈發(fā)凸顯。

挑戰(zhàn)——平衡算力與成本、適配多樣化場景

大模型產(chǎn)業(yè)化落地面臨成本控制與場景適配雙重挑戰(zhàn)。一方面，高質(zhì)量算力需求與成本約束的博弈持續(xù)深化。大模型沿著Scaling Law路徑不斷發(fā)展，模型參數(shù)持續(xù)增加[2]，高質(zhì)量大模型服務(wù)離不開高顯存、高帶寬、高性能的算力支持。然而單純依賴硬件性能、硬件堆疊，不僅加劇產(chǎn)業(yè)落地成本壓力，更難以形成可持續(xù)的商業(yè)閉環(huán)。如何在有限算力條件下進(jìn)一步提升性能并降低成本，仍是長久議題。另一方面，激增的推理需求促使了對多樣場景下差異化性能需求的關(guān)注。智能客服、對話系統(tǒng)等場景需即時反饋，對時延要求嚴(yán)格；視頻生成、訓(xùn)練數(shù)據(jù)集生成等場景需批量輸出，對吞吐率有較高需求；RAG、Agent等服務(wù)形式的發(fā)展，對長上下文處理能力提出更高要求。如何在差異場景下實現(xiàn)針對性優(yōu)化、提升服務(wù)質(zhì)量，也是當(dāng)前大模型落地的重點話題。推理優(yōu)化不僅關(guān)注性能提升與成本控制，還關(guān)注結(jié)合場景特點的優(yōu)化改進(jìn)，以更好地服務(wù)于實際業(yè)務(wù)需求。近日，英偉達(dá)CEO黃仁勛、AMD CEO蘇姿豐均強調(diào)了推理優(yōu)化的重要性，在推理需求激增、推理模型（Reasoning Models）快速占領(lǐng)市場的當(dāng)下，該技術(shù)的成熟度將成為重塑行業(yè)競爭格局的關(guān)鍵要素。

關(guān)鍵技術(shù)——推理優(yōu)化圍繞模型架構(gòu)與計算架構(gòu)的技術(shù)迭出

（一）模型架構(gòu)層面：基于模型壓縮、MoE結(jié)構(gòu)等技術(shù)，優(yōu)化模型自身推理性能

在大模型推理過程中，模型參數(shù)、KV緩存（KVCache）及運行過程數(shù)據(jù)會大量消耗顯存資源，其中模型參數(shù)和KVCache為主要占比。當(dāng)前針對推理階段的模型優(yōu)化，主要圍繞模型結(jié)構(gòu)設(shè)計與KVCache優(yōu)化展開，包括服務(wù)運行前的參數(shù)壓縮、網(wǎng)絡(luò)結(jié)構(gòu)精簡等，以及服務(wù)運行時的緩存策略，以實現(xiàn)顯存占用、推理效率、推理精度的平衡。例如，輕量化技術(shù)如剪枝、量化，通過去除冗余結(jié)構(gòu)或采用低比特表示來壓縮模型大小，可顯著降低對存儲和計算資源的需求，當(dāng)前可基本實現(xiàn)無損壓縮。多頭潛在注意力機制（Multi-Head Latent Attention，MLA）通過將鍵值向量壓縮至低秩空間，將推理時對KVCache的顯存需求降到傳統(tǒng)機制的4%～13%[3]，具備更好的長上下文處理和快速響應(yīng)能力。稀疏化MoE模型架構(gòu)通過專家網(wǎng)絡(luò)和門控機制，可動態(tài)選擇激活的專家，減少不必要的計算，顯著降低計算成本。如DeepSeek-V3模型在推理過程中僅需激活5.5%參數(shù)（37B/671B）即可達(dá)到SOTA效果[4]。

（二）計算架構(gòu)層面：通過分布式架構(gòu)設(shè)計、調(diào)度策略優(yōu)化，大幅提升推理系統(tǒng)性能上限

架構(gòu)方面，預(yù)填充-解碼（Prefill-Decode, PD）分離式推理架構(gòu)已成為業(yè)界主流優(yōu)化方案。大模型推理一般由預(yù)填充（Prefill）和解碼（Decode）兩階段構(gòu)成，其中預(yù)填充階段是計算密集型（compute-bound）對算力需求高，容易迅速使GPU達(dá)到飽和；解碼階段是存儲密集型（memory-bound）對顯存需求高，在大批量（batch size）請求下才可充分利用計算資源，同時受到帶寬限制[5]。傳統(tǒng)方式通常直接將推理服務(wù)部署到集群中，使得PD兩階段在同一節(jié)點上執(zhí)行，引發(fā)兩階段資源爭奪、并行策略互相掣肘難以優(yōu)化[5][6]，進(jìn)一步導(dǎo)致資源利用率低、服務(wù)性能差、系統(tǒng)構(gòu)建成本高等問題[7]。PD分離將預(yù)填充與解碼階段分開部署，不同階段依據(jù)各自特性選用最優(yōu)硬件資源，可成倍優(yōu)化整體推理系統(tǒng)性能與成本。調(diào)度方面，通過精細(xì)化、智能化資源調(diào)度和任務(wù)調(diào)度，可幫助提升推理系統(tǒng)在多樣化服務(wù)場景的性能上限。分布式調(diào)度通過實時任務(wù)監(jiān)控、負(fù)載動態(tài)處理、彈性擴縮容等技術(shù)，實現(xiàn)負(fù)載均衡[8]，有效應(yīng)對低時延、高并發(fā)、流量波動、高頻請求、長文本處理等多樣化業(yè)務(wù)場景，確保系統(tǒng)在不同應(yīng)用環(huán)境下能夠保持穩(wěn)定高效運行。

產(chǎn)業(yè)落地——推理系統(tǒng)呈現(xiàn)單點加速與全局協(xié)同優(yōu)化并行趨勢

（一）單點優(yōu)化：聚焦模型特點與系統(tǒng)的銜接，持續(xù)完善推理引擎的功能與性能

一是通用推理引擎呈現(xiàn)從多點爆發(fā)到逐漸收斂趨勢。從前期HuggingFace TGI、DeepSpeed-FastGen、TensorRT-LLM等，逐漸收斂到推理優(yōu)化特性豐富、功能更新迅速、二次開發(fā)支持性好、多硬件支持、推理性能卓越的vLLM。二是逐漸衍生出一系列結(jié)合推理服務(wù)特點的新引擎。LMDeploy、SGLang等對多模態(tài)、長文本支持友好的推理引擎陸續(xù)推出，尤其自DeepSeek-V2開始SGLang與DeepSeek深度整合，產(chǎn)業(yè)界對SGLang的關(guān)注迅速提升。三是隨著MoE模型架構(gòu)逐漸成為主流趨勢，主流大模型框架如vLLM、DeepSpeed[9]等均強化了對MoE特性的支持，同時產(chǎn)業(yè)界也推出了一批聚焦MoE訓(xùn)推的AI框架，如清華的KTransformers等。此外，DeepSeek也推出了為MoE架構(gòu)中專家并行（EP）定向優(yōu)化的DeepEP通信庫[10]。

（二）協(xié)同優(yōu)化：“模型-架構(gòu)-場景”深度耦合的優(yōu)化范式成為主流，支撐人工智能平臺性能提升

一方面，隨著PD分離式推理架構(gòu)逐漸成熟，場景落地顯著加速。2024年陸續(xù)推出了DistServe（北大&USCD）、Splitwise（微軟）、TetriInfer（華為云）和MemServe（華為云）等PD分離式推理架構(gòu)方案[11]。2025年初，月之暗面與清華聯(lián)合阿里云、華為存儲、面壁智能、趨境科技等共同發(fā)布的Mooncake開源項目是業(yè)界大規(guī)模落地PD分離案例。該方案通過構(gòu)建以KVCache為中心的P-D分離調(diào)度集群，實現(xiàn)了有效吞吐平均提升75%，特定場景吞吐提升5.25倍，并承接了kimi線上80%流量[12]。DeepSeek部署推理方案也采用了PD分離架構(gòu)，其在兩階段增加了高負(fù)載專家分發(fā)、動態(tài)冗余專家激活策略[13]，可進(jìn)一步結(jié)合MoE模型架構(gòu)優(yōu)化計算資源利用。英偉達(dá)近期推出的Dynamo分布式推理加速項目，綜合了vLLM、SGLang、DistServe、Mooncake等基礎(chǔ)，基于PD分離架構(gòu)基礎(chǔ)上，通過精細(xì)化KVCache的分布式路由管理，實現(xiàn)系統(tǒng)性能提升[14]。

另一方面，聚焦場景特點、系統(tǒng)架構(gòu)的精細(xì)化調(diào)度技術(shù)不斷發(fā)展，提升推理系統(tǒng)與差異化場景適配度。XXL-JOB作為廣泛應(yīng)用于企業(yè)級應(yīng)用中的分布式任務(wù)調(diào)度平臺，解決了在分布式系統(tǒng)中任務(wù)調(diào)度、定時執(zhí)行、任務(wù)分片、失敗重試、任務(wù)依賴等問題。阿里云的分布式調(diào)度解決方案SchedulerX能夠支持秒級別的精確調(diào)度周期，為用戶提供最小到1秒的任務(wù)調(diào)度頻率，滿足了金融、電信等對時間敏感行業(yè)的需求[15]。阿里云Llumnix全局調(diào)度器引入了運行時請求重調(diào)度能力，支持在多個實例間動態(tài)分配請求，可應(yīng)對請求的異構(gòu)性和不可預(yù)測性，實現(xiàn)多種調(diào)度場景統(tǒng)一化，在真實流量場景下，尾部延遲降低10倍，在相似尾部延遲的情況下成本節(jié)約高達(dá)36% [16]。對于分布式場景而言，精細(xì)化調(diào)度可進(jìn)一步提升優(yōu)化上限。但整體而言，目前主流調(diào)度工具仍缺乏結(jié)合大模型及推理場景的深度優(yōu)化。

結(jié)束語

未來，服務(wù)效果、加速效果等指標(biāo)作為技術(shù)、產(chǎn)品能力的顯性標(biāo)尺，可客觀呈現(xiàn)大模型推理平臺當(dāng)前的能力水位，是推理優(yōu)化效果的直觀參照。另一方面，在時延、精度、成本、資源等多方約束條件下，識別潛在的性能提升空間、確定可優(yōu)化的具體維度、制定有效的提升策略，將是推理優(yōu)化路徑演進(jìn)過程中需要解決的核心問題。

參考資料

[1]《GenAI技術(shù)落地白皮書》阿里云

[2] 中金 | AI進(jìn)化論（1）：DeepSeek推動“大模型平權(quán)”，是訓(xùn)練算力的拐點還是黑洞？https://mp.weixin.qq.com/s/c0cwxICVjk-ee7ZFKocGQA

[3] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model https://arxiv.org/pdf/2405.04434

[4] DeepSeek-V3 Technical Report https://arxiv.org/pdf/2412.19437

[5] 揭秘老黃演講中關(guān)鍵技術(shù)：PD分離！UCSD華人團(tuán)隊力作，LLM吞吐量躍升4倍 https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw

[6] Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation https://hao-ai-lab.github.io/blogs/distserve/

[7] 中金 | AI十年展望（二十）：細(xì)數(shù)2024大模型底層變化，推理優(yōu)化、工程為王 https://mp.weixin.qq.com/s/tY3pxGpg-WK70ySOgkkiRQ

[8] Mooncake 分離式推理架構(gòu)創(chuàng)新與實踐 https://www.infoq.cn/article/f2Lp0tlCuYvGJ65kXW4B

[9] Getting Started with DeepSpeed-MoE for Inferencing Large-Scale MoE Models https://www.deepspeed.ai/tutorials/mixture-of-experts-inference/

[10] DeepEP https://github.com/deepseek-ai/DeepEP

[11]大模型推理分離架構(gòu)五虎上將 https://mp.weixin.qq.com/s/g7lq4IcJ4-etkh9XV8Giig

[12] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving https://arxiv.org/pdf/2407.00079

[13] DeepSeek技術(shù)社區(qū)DeepSeek-V3 技術(shù)報告解讀 https://deepseek.csdn.net/67cda6da6670175f9932e823.html

[14] Dynamo項目解讀，NVIDIA官方的分布式大型語言模型（LLM）推理加速框架https://mp.weixin.qq.com/s/t9rm_rG2NwXaZLe_SF5_hg

[15] 大規(guī)模分布式應(yīng)用任務(wù)調(diào)度解決方案 https://www.aliyun.com/solution/middleware/lsajs

[16] Llumnix: Dynamic Scheduling for Large Language Model Serving https://arxiv.org/pdf/2406.03243

作者：中國信息通信研究院人工智能研究所宇文夢柯董昊曹峰

韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

信通院宇文夢柯等：大模型推理優(yōu)化——技術(shù)突破與產(chǎn)業(yè)落地新范式