首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|大數據|報告|智慧城市|移動互聯網|會展
首頁 >> 移動互聯網 >> 正文

引領大模型推理效率革命!浪潮存儲發(fā)布國內首款推理加速存儲AS3000G7

2025年7月29日 14:37  CCTIME飛象網  

2025年7月25日,浪潮存儲營銷總監(jiān)張業(yè)興出席中國信息通信研究院主辦的2025(第二屆)產融合作大會。會上,張業(yè)興發(fā)表題為《融存智用 運籌新數據 ——浪潮存儲金融解決方案和實踐》的主題演講,并代表浪潮存儲正式發(fā)布國內首款推理加速存儲AS3000G7。該產品憑借“以存代算”的技術創(chuàng)新,有效破解KV Cache重復計算帶來的算力和時延損耗難題,為大模型推理場景提供突破性解決方案,加速推動大模型在金融、科研等領域的規(guī);涞亍

大模型推理效能瓶頸:吞吐量和時延

當前人工智能大模型的應用已滲透千行百業(yè),既推動著產業(yè)效能的跨越式提升,也深刻重構著生產生活的底層邏輯,成為驅動數字經濟發(fā)展與社會智能化升級的核心力量。隨著大模型應用的普及和相關技術的發(fā)展,各行各業(yè)對大模型應用的關注點逐漸從大模型的訓練轉到大模型的推理。據IDC數據顯示,智能算力規(guī)模在未來5年增長1.7倍,用于推理的工作負載將從2023年的40%上升到2027年的70%以上。因此,大模型推理將會成為未來大模型應用的焦點。然而,當前大模型推理仍然需要借助GPU服務器來實現,而GPU服務器,也是整個大模型落地中最昂貴的投資。因此,充分發(fā)揮GPU服務器的利用率來提升大模型推理效率是大模型的落地關鍵,推理效率的高低直接決定著大模型從“實驗室”到“生產線”的落地速度。

大模型推理效率面臨兩大核心瓶頸:吞吐量(Tokens/s)和時延。吞吐量是指系統(tǒng)在單位時間內能處理的tokens的數量,數值越高表明LLM服務資源利用率越高、系統(tǒng)成本越低。時延則是用戶接收每個token的平均耗時,其中首字時延(TTFT)是長文本對話場景中 “實時交互體驗” 的核心指標,直接影響用戶體驗。

大模型的推理包含兩個階段,第一個階段是預填充(Prefilling)階段。Prefilling階段處理輸入,構建初始上下文并緩存成KV Cache(key-value鍵值對),緩存在GPU的HBM顯存里。第二個階段是解碼(Decode)階段,解碼階段則利用Prefilling階段生成的KV Cache,迭代地生成輸出Token,最終給出推理答案。

根據大數據統(tǒng)計分析,超過 76% 的對話都是多輪的,多輪對話會產生大量的KV Cache,上一輪的對話產生的KV Cache也會作為下一輪推理的輸入基礎,為連續(xù)交互提供上下文支撐。但實際場景中,GPU HBM顯存容量存在明顯限制,因此多輪對話中的KV Cache會被強制丟棄,在下一輪對話中需要消耗算力來重新計算。以DeepSeek 70B模型為例,其每10分鐘產生的KV Cache高達25TB,但每張GPU HBM顯存只有幾十GB,因此,在服務完一個請求后,需清空顯存以接納新請求,KV Cache被強制丟棄,在后續(xù)對話中,原本可復用的KV Cache需要重新計算。這種重復計算直接時延增加(首字響應變慢),同時造成GPU算力空轉(重復執(zhí)行相同計算),導致吞吐量下降,最終導致資源利用率降低。因此,高效管理KV Cache緩存成為提升推理效率的關鍵。

存儲產品托管KV Cache,實現 “以存代算”

浪潮存儲AS3000G7作為國內首款推理加速存儲,可存儲所有KV Cache及多輪對話結果。其創(chuàng)新架構通過將KV Cache從GPU寫入本機內存,再經高速網絡緩存至AS3000G7,下輪對話時按需拉取緩存無需重新計算,徹底實現“以存代算”,顯著節(jié)省算力消耗并提升資源利用率。

作為國內首款推理加速存儲產品,AS3000G7以四大核心優(yōu)勢重塑推理效率:

降低響應延遲:將歷史Token緩存至AS3000G7存儲層,下輪對話從NVMe SSD硬盤中拉取歷史token的KV Cache,減少GPU重復計算帶來的資源消耗,TTFT降低90%;

承載更多并發(fā):TTFT在400ms以內的前提下,系統(tǒng)可支持的吞吐量(Token/s)可達原方案5倍,單位GPU資源可承載更多推理請求;

降低GPU功耗:TTFT的降低與并發(fā)的提升,單Token平均功耗下降60%,在承載同等規(guī)模 token 負載時,GPU服務器整機功耗降低。

生態(tài)兼容適配:廣泛兼容國產與海外芯片的異構算力平臺,深度適配vLLM框架下的deepseek等主流大模型,優(yōu)化推理體驗。

在某頭部客戶聯合測試中,采用1臺GPU服務器搭配1臺AS3000G7推理加速存儲的組合方案實現:

穩(wěn)定支撐500+并發(fā)對話,TTFT降低90%,響應速度大幅提升

同硬件配置下吞吐量(Tokens/s)提升5倍,在不增加 GPU 資源的情況下,實現更高并發(fā)的推理請求

單token功耗降低70%,單位算力成本降低60%,推理性價比提升

隨著大模型推理需求的持續(xù)攀升,AS3000G7的推出恰逢其時。其通過 “以存代算” 的技術創(chuàng)新突破 KV Cache 重計算瓶頸,為 AI 規(guī);瘧弥未鎯Ω。未來,隨著多模態(tài)與實時交互場景的普及以及存儲與計算的協(xié)同優(yōu)化,KV Cache “以存代算”將成為降本增效的核心競爭力,為智能時代的推理存儲構建新基準。

編 輯:T01
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
中興通訊總裁徐子陽:智聯共生 數實融合
精彩視頻
2025WAIC|探館中國電信展臺 AI全景圖 滿滿“科技范兒”
中國電信總經理劉桂清:星辰智惠,共治共享,賦能產業(yè)變革新未來
中國電信柯瑞文:打造全方位人工智能動態(tài)防護體系,構建共創(chuàng)、共治、共享的產業(yè)生態(tài)
2025世界人工智能大會:才藝比拼、技能比武!機器人“大顯身手”
精彩專題
2025世界人工智能大會暨人工智能全球治理高級別會議
2025中國聯通合作伙伴大會
2025 MWC 上海
2025工業(yè)互聯網大會
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像