首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 大數(shù)據(jù) >> 正文

信通院曹峰:數(shù)據(jù)賦能企業(yè)“AI+”發(fā)展

2025年6月13日 07:51  中國信通院  

隨著人工智能大模型的不斷涌現(xiàn),“以數(shù)據(jù)為中心的人工智能”(Data-centric AI)越來越成為行業(yè)共識。數(shù)據(jù)作為新的生產(chǎn)要素,真正成為人工智能的“石油”,有效賦能企業(yè)“AI+”發(fā)展。中國信通院人工智能研究所平臺與工程化部主任曹峰圍繞企業(yè)推動 “AI+” 發(fā)展中數(shù)據(jù)的核心價值、高質(zhì)量數(shù)據(jù)集構(gòu)建路徑及企業(yè)“AI+”發(fā)展中的數(shù)據(jù)問題破解策略等展開深度解讀。

企業(yè)推動“AI+”發(fā)展中數(shù)據(jù)的重要性

一是數(shù)據(jù)成為人工智能發(fā)展的核心驅(qū)動要素。80%的高質(zhì)量數(shù)據(jù)與20%的模型訓(xùn)練構(gòu)成了更好的模型。DeepSeek V3等主流基座大模型的訓(xùn)練階段均使用了10萬億token以上、經(jīng)過嚴(yán)格清洗和標(biāo)注的高質(zhì)量數(shù)據(jù)。通用人工智能對數(shù)據(jù)的需求量還將持續(xù)級數(shù)增長,訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量對模型能力的決定性作用越來越高。

二是數(shù)據(jù)成為模型場景部署和深度應(yīng)用的基礎(chǔ)。Deep Seep R1模型開源以來,包括44家央企在內(nèi)的200多家企業(yè)完成了DeepSeek R1模型的適配和集成部署。在這個過程中,模型與場景的適配過程需要使用高質(zhì)量行業(yè)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)或知識增強,才能適應(yīng)行業(yè)應(yīng)用需求。

三是企業(yè)構(gòu)建“AI+”發(fā)展的先決條件。企業(yè)是推動AI+應(yīng)用的主體,是推動高價值行業(yè)應(yīng)用場景落地關(guān)鍵力量。擁有海量高質(zhì)量數(shù)據(jù)積累的企業(yè),能夠率先在垂直行業(yè)訓(xùn)練出性能優(yōu)異的模型,推動人工智能的行業(yè)應(yīng)用。同時,在大模型應(yīng)用、研發(fā)迭代過程中采集到更多高質(zhì)量數(shù)據(jù)集資源,形成“數(shù)據(jù)飛輪”,進(jìn)一步提升模型性能,進(jìn)而帶動智能化水平的持續(xù)提升。

企業(yè)推動“AI+”發(fā)展中構(gòu)建高質(zhì)量數(shù)據(jù)集的方法

什么是高質(zhì)量數(shù)據(jù)集?我們總結(jié),高質(zhì)量數(shù)據(jù)集應(yīng)該具備“三高”的特征:一是高價值應(yīng)用,高質(zhì)量數(shù)據(jù)集面向高價值的領(lǐng)域場景,帶來更高的收益。二是高知識密度,高質(zhì)量數(shù)據(jù)集應(yīng)包含更多的專業(yè)知識和技能,具備多學(xué)科融合特征。三是高技術(shù)含量,通過智能化、人機協(xié)同標(biāo)注和合成數(shù)據(jù)等技術(shù)顯著提升數(shù)據(jù)質(zhì)量。

企業(yè)在推動高質(zhì)量數(shù)據(jù)集建設(shè)中存在以下幾方面問題:

一是目標(biāo)定位模糊化。企業(yè)經(jīng)常陷入“為數(shù)據(jù)而數(shù)據(jù)”的誤區(qū),智能場景需求與數(shù)據(jù)集建設(shè)目標(biāo)脫節(jié),未能將數(shù)據(jù)工程目標(biāo)與核心業(yè)務(wù)指標(biāo)深度綁定,導(dǎo)致數(shù)據(jù)價值難以轉(zhuǎn)化為模型性能提升,未能形成“數(shù)據(jù)采集-模型訓(xùn)練-業(yè)務(wù)反饋-數(shù)據(jù)迭代”的閉環(huán)優(yōu)化機制。

二是實施路徑碎片化。從數(shù)據(jù)采集到模型訓(xùn)練的全鏈路缺乏系統(tǒng)性規(guī)劃和設(shè)計,無法形成體系化數(shù)據(jù)集構(gòu)建和維護(hù)機制,造成多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)難統(tǒng)一、跨部門跨層級難協(xié)作,致使清洗、標(biāo)注等數(shù)據(jù)處理成本激增。

三是技術(shù)底座薄弱化。缺乏適配行業(yè)特性的工具鏈,自動化程度低,人力依賴嚴(yán)重,工程落地效率受阻,行業(yè)特性適配工具鏈的缺失等問題導(dǎo)致現(xiàn)有數(shù)據(jù)處理技術(shù)難以應(yīng)對復(fù)雜人工智能場景需求。

破解企業(yè)“AI+”發(fā)展中的數(shù)據(jù)問題

面向人工智能的新一代數(shù)據(jù)工程,涵蓋數(shù)據(jù)采集、預(yù)處理、標(biāo)注、評估、合成與共享等全生命周期,既強調(diào)數(shù)據(jù)的規(guī)模與多樣性,也重視質(zhì)量、有效性與合規(guī)性。

一是高水平數(shù)據(jù)標(biāo)注提升數(shù)據(jù)集供給能力。自動化與智能化標(biāo)注工具創(chuàng)新成為焦點,多模態(tài)數(shù)據(jù)標(biāo)注技術(shù)的融合逐漸成為趨勢,持續(xù)學(xué)習(xí)與反饋機制引入促進(jìn)數(shù)據(jù)標(biāo)注質(zhì)量和效率雙重提升。中國信通院作為國家數(shù)據(jù)局人工智能專班組長單位,全力支撐國家級數(shù)據(jù)標(biāo)注基地建設(shè)工作,推動企業(yè)數(shù)據(jù)標(biāo)注能力提升。

二是評估和反饋機制推動數(shù)據(jù)質(zhì)量提升。質(zhì)量評估與反饋機制深度融合,多模態(tài)數(shù)據(jù)質(zhì)量評估框架快速發(fā)展,動態(tài)數(shù)據(jù)質(zhì)量監(jiān)控體系逐步完善。中國信通院共推出5項人工智能數(shù)據(jù)相關(guān)行業(yè)標(biāo)準(zhǔn),搭建國內(nèi)首個人工智能全周期數(shù)據(jù)工程評估體系。目前,已正式發(fā)布人工智能數(shù)據(jù)集質(zhì)量評估體系(ADAQ)。目前,招商局集團(tuán)、中國建筑集團(tuán)、中國物流集團(tuán)已經(jīng)通過ADAQ質(zhì)量評估,部分央企正在洽談后續(xù)的深入合作。

三是積極探索使用合成數(shù)據(jù)等新技術(shù)解決大模型數(shù)據(jù)瓶頸。合成數(shù)據(jù)在增加數(shù)據(jù)量、提高數(shù)據(jù)質(zhì)量、增強數(shù)據(jù)多樣性、保護(hù)隱私和安全等方面,形成了對大模型訓(xùn)練數(shù)據(jù)的有效補充,并已經(jīng)被應(yīng)用于自動駕駛和金融服務(wù)領(lǐng)域。中國信通院編制形成《人工智能合成數(shù)據(jù)生成和管理能力要求》行業(yè)標(biāo)準(zhǔn),面向數(shù)據(jù)服務(wù)方提供人工智能合成數(shù)據(jù)生產(chǎn)和應(yīng)用能力建設(shè)指導(dǎo),同時也為數(shù)據(jù)應(yīng)用方和需求方提供選型規(guī)范。

數(shù)據(jù)賦能企業(yè)“AI+”發(fā)展,將逐步形成“數(shù)據(jù)-算法-應(yīng)用”的生態(tài)協(xié)同,以標(biāo)準(zhǔn)化體系破解跨域協(xié)作難題,以智能化工具提升數(shù)據(jù)生產(chǎn)效能,以合規(guī)可信框架保障數(shù)據(jù)要素安全流通。高質(zhì)量數(shù)據(jù)集不僅是技術(shù)競爭的 “硬實力”,更將成為產(chǎn)業(yè)升級的 “催化劑”,為“人工智能+”場景落地開辟無限可能,助力我國在全球智能產(chǎn)業(yè)變革中搶占先機、引領(lǐng)未來。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
韋樂平:大模型時代將開啟新一波“光進(jìn)銅退”
精彩視頻
飛象趣談第二十八期!織網(wǎng)六載,智聯(lián)萬物,中國5G牌照發(fā)放六周年
英雄灣的“智”變,探訪AI應(yīng)用標(biāo)桿示范村
卡奧斯馮興智:AI賦能工業(yè)互聯(lián)網(wǎng),重塑全球智造新生態(tài)
藍(lán)卓數(shù)字科技陳玉龍:以“1+2+N”架構(gòu)引領(lǐng)工業(yè)智能新未來
精彩專題
2025工業(yè)互聯(lián)網(wǎng)大會
2025世界電信和信息社會日大會
第八屆數(shù)字中國建設(shè)峰會
通信產(chǎn)業(yè)2024年業(yè)績盤點
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像