首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車(chē)|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

從Deepseek看,模型推理的盈利思辨與產(chǎn)業(yè)賦能

2025年5月12日 08:01  天翼智庫(kù)  

Deepseek推動(dòng)大模型平價(jià)化,降低開(kāi)發(fā)成本,為下游端側(cè)和應(yīng)用側(cè)打開(kāi)市場(chǎng)空間,催生大量推理算力需求。IDC預(yù)測(cè)2026年中國(guó)智能算力規(guī)模年復(fù)合增長(zhǎng)率達(dá)52.3%,增長(zhǎng)源于推理端需求釋放,大模型應(yīng)用中推理算力需求超訓(xùn)練算力。國(guó)內(nèi)各廠商已積極開(kāi)展布局適配DeepSeek的多類(lèi)型算力芯片的推理框架,實(shí)現(xiàn)推理算力效率最大化、提升DeepSeek推理速度、創(chuàng)新業(yè)務(wù)模式等,增強(qiáng)其在DeepSeek推理方向的市場(chǎng)競(jìng)爭(zhēng)力。

模型推理簡(jiǎn)介

模型推理是指利用已訓(xùn)練模型對(duì)新輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)或決策的計(jì)算過(guò)程,其核心目標(biāo)是通過(guò)高效、準(zhǔn)確、實(shí)時(shí)的輸出解決實(shí)際問(wèn)題。與模型訓(xùn)練不同,模型推理是其后續(xù)流程的一環(huán),具體來(lái)看:

訓(xùn)練階段是計(jì)算密集型任務(wù),旨在依托大量預(yù)處理數(shù)據(jù),運(yùn)用隨機(jī)梯度下降等方法歷經(jīng)復(fù)雜迭代,持續(xù)調(diào)校模型參數(shù)來(lái)探尋數(shù)據(jù)規(guī)律,其特點(diǎn)在于需要處理大規(guī)模數(shù)據(jù)集和復(fù)雜的梯度計(jì)算,通常依賴于高性能GPU的并行計(jì)算能力,對(duì)顯存容量和帶寬要求高,需要高速互聯(lián)保證多卡協(xié)同運(yùn)行,通常要求千卡及萬(wàn)卡級(jí)以上。同時(shí)模型訓(xùn)練伴隨多次梯度迭代,對(duì)于數(shù)據(jù)的精準(zhǔn)度通常要求較高,通常計(jì)算精度要求FP16及以上。

推理階段,模型參數(shù)固定,更多屬于訪存密集型任務(wù),更注重低延遲和高吞吐量的前向傳播,單次計(jì)算量較小,但高并發(fā)場(chǎng)景下整體算力需求仍會(huì)增加,依據(jù)應(yīng)用場(chǎng)景對(duì)于數(shù)據(jù)精度要求差異,目前場(chǎng)景以FP16、FP8、int8計(jì)算精度為主,一些特殊場(chǎng)景如科學(xué)計(jì)算等需要FP32或FP64。

模型推理過(guò)程主要涉及推理算力、推理框架、推理應(yīng)用。推理框架作為模型推理的“操作系統(tǒng)”,簡(jiǎn)化推理部署及開(kāi)發(fā)復(fù)雜性,屏蔽底層的算力資源差異,支撐上層應(yīng)用開(kāi)發(fā)。其優(yōu)化部署技術(shù)主要包括KV Cache、服務(wù)調(diào)度優(yōu)化技術(shù)、顯存優(yōu)化、Offload技術(shù)、量化技術(shù)、解碼優(yōu)化及其變體等。通過(guò)減少計(jì)算和內(nèi)存需求加速推理,滿足實(shí)時(shí)性要求、降低部署成本,如專(zhuān)注于高性能推理和服務(wù)的開(kāi)源框架vLLM、SALang、以及在CPU推理方面表現(xiàn)良好的llama.cpp等推理框架,企業(yè)根據(jù)實(shí)際芯片和模型需求的自研框架。

DeepSeek推理盈利引爭(zhēng)議,技術(shù)與商業(yè)博弈凸顯

3 月 1 日,DeepSeek 官方在《DeepSeek-V3 / R1 推理系統(tǒng)概覽》中首次披露成本利潤(rùn)率,理論值高達(dá) 545%。然而,潞晨科技曾表示DeepSeek R1推理部署有虧損風(fēng)險(xiǎn)并宣布暫停 DeepSeek API 服務(wù)模式。一方面是DeepSeek推理的巨大成本利潤(rùn)率545%,另一方面是企業(yè)賣(mài)DeepSeek API(MaaS)每月虧本4億元,出現(xiàn)兩種相反觀點(diǎn)的主要原因在于:在推動(dòng)推理服務(wù)商業(yè)化進(jìn)程中,保障用戶體驗(yàn)需被置于首要位置,這要求企業(yè)需儲(chǔ)備大量冗余智算資源。據(jù)浪潮開(kāi)展的相關(guān)調(diào)研測(cè)算,當(dāng)前我國(guó)智算中心的平均算力使用率維持在 30%上下,為確保推理服務(wù)能為用戶帶來(lái)優(yōu)質(zhì)體驗(yàn),需維持近70% 的算力資源冗余,大量冗余需要大量的資金投入。反觀DeePSeek則通過(guò)算力資源統(tǒng)籌管理、生態(tài)合作實(shí)現(xiàn)了高盈利。一是“見(jiàn)縫插針”用顯卡,即白天高負(fù)荷全節(jié)點(diǎn)部署推理,夜間低負(fù)荷時(shí)釋放節(jié)點(diǎn)用于訓(xùn)練/研究的模式,論測(cè)算僅考慮資源的效率。二是DeepSeek推理盈利模式多元,以ToB服務(wù)的API調(diào)用收費(fèi)為主,與垂直行業(yè)合作,通過(guò)生態(tài)衍生業(yè)務(wù)如開(kāi)發(fā)者工具、云服務(wù)、數(shù)據(jù)服務(wù)等來(lái)盈利,如DeepSeek 與教育、醫(yī)療、金融等領(lǐng)域展開(kāi)合作,將技術(shù)轉(zhuǎn)化為針對(duì)性解決方案,推出智能教學(xué)助手、病例分析系統(tǒng)、客服機(jī)器人等產(chǎn)品,業(yè)務(wù)覆蓋超 20 個(gè)垂直行業(yè)。

DeepSeek推理算力、推理框架、推理應(yīng)用三方面賦能 AI 產(chǎn)業(yè)新生態(tài)

DeepSeek 憑借自身在硬件優(yōu)化、模型創(chuàng)新及自研推理框架等方面的優(yōu)勢(shì),為國(guó)內(nèi)模型推理相關(guān)AI產(chǎn)業(yè)發(fā)展提供新機(jī)遇。

(一)推理算力方面,DeepSeek模型推理通過(guò)性價(jià)比優(yōu)勢(shì)推動(dòng)國(guó)產(chǎn)算力在推理側(cè)的滲透。DeepSeek推理通過(guò)混合專(zhuān)家模型(MoE)動(dòng)態(tài)選擇合適的專(zhuān)家模塊處理,減少計(jì)算量,保證推理準(zhǔn)確的前提下降低成本。如推理定價(jià)方面,DeepSeek R1($0.14/百萬(wàn)輸入tokens)較OpenAI o3-mini($1.1/百萬(wàn)輸入tokens)更便宜。目前華為昇騰、海光信息、摩爾線程、昆侖芯、燧原科技等AI芯片廠商,相繼宣布適配或上架 DeepSeek 模型服務(wù),其中昇騰910C芯片針對(duì)MoE模型動(dòng)態(tài)路由優(yōu)化使推理效率提升50%。截至今年2月20日,已有超過(guò)30家軟硬件企業(yè)基于昇騰推出DeepSeek一體機(jī)方案2,并超過(guò)80家企業(yè)基于昇騰上線DeepSeek,服務(wù)全國(guó)超70%區(qū)域。

(二)推理框架方面,DeepSeek利用硬件親和的工程優(yōu)化,充分發(fā)揮了受限顯卡(H800)的性能,為國(guó)產(chǎn)芯片廠商發(fā)展提供了新范式。DeepSeek用更接近底層硬件的匯編語(yǔ)言PTX,對(duì)計(jì)算過(guò)程進(jìn)行更細(xì)粒度的控制,開(kāi)發(fā)了通信和數(shù)據(jù)分配模塊進(jìn)行優(yōu)化,擺脫了部分cuda庫(kù),充分發(fā)揮底層GPU的計(jì)算性能。因此,在硬件受限的情況下,通過(guò)算法創(chuàng)新和工程優(yōu)化可部分彌補(bǔ)芯片性能差距。目前科技廠商已推出自研推理框架(與國(guó)產(chǎn)芯片適配)服務(wù)于DeepSeek,如澎峰科技已完成基于海光DCU的自研推理框架PerfXLM +,并深度適配、優(yōu)化 DeepSeek 全系列模型。2月25日智源研究院聯(lián)合多個(gè)芯片廠商開(kāi)發(fā)并開(kāi)源了 DeepSeek-R1 多芯片版本,其異構(gòu)并行訓(xùn)推框架 FlagScale可適配多芯片,能夠一鍵部署 DeepSeek-R1 模型服務(wù)和自動(dòng)分布式推理調(diào)優(yōu)能力。

(三)推理應(yīng)用方面,DeepSeek憑借開(kāi)源、高效推理能力助推眾多行業(yè)實(shí)現(xiàn)智能化轉(zhuǎn)型,尤其在工業(yè)領(lǐng)域?qū)崿F(xiàn)明顯的降本增效。富士康引入DeepSeek優(yōu)化iPhone主板貼片生產(chǎn)線,節(jié)拍時(shí)間縮短12%,產(chǎn)能提升至120萬(wàn)臺(tái)/日。燧原科技基于DeepSeek全量模型在慶陽(yáng)、無(wú)錫、成都等智算中心實(shí)現(xiàn)“數(shù)萬(wàn)卡”快速落地,硬件成本降低超30%。聯(lián)想通過(guò)DeepSeek多模態(tài)模型提升智能質(zhì)檢的缺陷識(shí)別準(zhǔn)確率至99%以上,并借助時(shí)序預(yù)測(cè)模型優(yōu)化供應(yīng)鏈管理,助力企業(yè)降本超20%。

國(guó)內(nèi)AI相關(guān)企業(yè)模型推理發(fā)展建議

(一)建議以混合部署模式構(gòu)建 DeepSeek 推理算力體系,如將 NVIDIA 硬件與昇騰硬件協(xié)同部署。著重強(qiáng)化對(duì)運(yùn)維團(tuán)隊(duì)的專(zhuān)業(yè)技術(shù)培訓(xùn),確保團(tuán)隊(duì)成員能夠精通 NVIDIA 與昇騰兩種硬件的運(yùn)維管理。在提升 DeepSeek 推理算力性能表現(xiàn)與運(yùn)行可靠性的同時(shí),有效規(guī)避因過(guò)度依賴單一技術(shù)路線而可能引發(fā)的潛在風(fēng)險(xiǎn),為相關(guān)企業(yè)在AI領(lǐng)域的業(yè)務(wù)拓展筑牢堅(jiān)實(shí)的技術(shù)根基。

(二)建議依托 vLLM 等現(xiàn)有的開(kāi)源推理框架,全力開(kāi)展自研DeepSeek 推理框架對(duì)混合異構(gòu)算力的適配工作。在推理框架設(shè)計(jì)中,建議以國(guó)產(chǎn)芯片為主導(dǎo)、英偉達(dá) GPU 為補(bǔ)充,充分利用國(guó)產(chǎn)芯片的性價(jià)比優(yōu)勢(shì)和英偉達(dá)GPU的高性能特點(diǎn)。確保在充分滿足推理性能要求的同時(shí),實(shí)現(xiàn)成本的最大化削減,僅在國(guó)產(chǎn)芯片難以勝任的復(fù)雜計(jì)算任務(wù)或?qū)π阅苡袠O致要求的關(guān)鍵環(huán)節(jié)合理采用英偉達(dá) GPU,實(shí)現(xiàn)性能與成本的最優(yōu)平衡。

(三)建議積極探尋并挖掘工業(yè)領(lǐng)域推理應(yīng)用場(chǎng)景。組建專(zhuān)業(yè)的行業(yè)調(diào)研團(tuán)隊(duì),深入各類(lèi)工業(yè)企業(yè)內(nèi)部,全面、細(xì)致地了解其生產(chǎn)流程、現(xiàn)存痛點(diǎn)問(wèn)題以及對(duì)智能化和安全性的具體需求。基于調(diào)研結(jié)果,量身定制基于 DeepSeek 的工業(yè)解決方案,精準(zhǔn)滿足工業(yè)企業(yè)的實(shí)際業(yè)務(wù)訴求,助力其實(shí)現(xiàn)智能化轉(zhuǎn)型升級(jí)。

編 輯:高靖宇
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
韋樂(lè)平詳解生成式人工智能的聯(lián)網(wǎng)技術(shù)
精彩視頻
北京聯(lián)通雙萬(wàn)兆AI賦能行動(dòng)正式發(fā)布
專(zhuān)家談 | 中國(guó)信通院曹薊光:大模型紅利加速釋放AI跨行業(yè)全場(chǎng)景賦能
飛象趣談第二十五期!全球人形機(jī)器人半馬首秀,中國(guó)黑科技如何讓機(jī)器人跑贏未來(lái)!
看見(jiàn)數(shù)智福建 2025數(shù)字中國(guó)建設(shè)峰會(huì)媒體探訪活動(dòng)
精彩專(zhuān)題
第八屆數(shù)字中國(guó)建設(shè)峰會(huì)
通信產(chǎn)業(yè)2024年業(yè)績(jī)盤(pán)點(diǎn)
3·15權(quán)益日 | 共筑滿意消費(fèi) 守護(hù)信息通信安全防線
聚焦2025全國(guó)兩會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像