首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

昇騰算力賦能視頻生成革命 浙江大學(xué)團(tuán)隊(duì)攻克長(zhǎng)時(shí)一致性難題

2025年7月31日 15:17  CCTIME飛象網(wǎng)  

隨著以 Sora 為代表的視頻生成模型技術(shù)的演進(jìn),長(zhǎng)視頻生成領(lǐng)域在維持長(zhǎng)時(shí)序內(nèi)容一致性以及平衡生成質(zhì)量與計(jì)算資源效率方面面臨挑戰(zhàn)。浙江大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心計(jì)算機(jī)學(xué)院研究員朱霖潮團(tuán)隊(duì)基于此課題持續(xù)深耕并取得重要進(jìn)展。依托昇騰AI基礎(chǔ)軟硬件平臺(tái),該團(tuán)隊(duì)提出的技術(shù)方案有效提升了長(zhǎng)視頻內(nèi)容一致性,同時(shí)顯著優(yōu)化了視頻生成過(guò)程中的計(jì)算效率。

針對(duì)長(zhǎng)序列視覺(jué)指令生成的核心技術(shù)難題,項(xiàng)目團(tuán)隊(duì)成功研發(fā)首個(gè)無(wú)需訓(xùn)練的長(zhǎng)序列視覺(jué)指令生成框架LIGER,實(shí)現(xiàn)了歷史提示和視覺(jué)記憶機(jī)制,以及基于DDIM反演的記憶校準(zhǔn)技術(shù)。依托昇騰的編碼加速能力,通過(guò)對(duì)每個(gè)步驟的圖像特征進(jìn)行采樣和存儲(chǔ),捕捉前序步驟中的關(guān)鍵視覺(jué)信息,并將其注入到自注意力機(jī)制中,確保步驟間的視覺(jué)連貫性。同時(shí),通過(guò)自反思機(jī)制糾正圖像中的屬性錯(cuò)誤、邏輯錯(cuò)誤、對(duì)象冗余和身份不一致等問(wèn)題,使用多種圖像編輯工具進(jìn)行精確修正。該系統(tǒng)在長(zhǎng)序列任務(wù)中展現(xiàn)出優(yōu)異的邏輯連貫性和對(duì)象屬性準(zhǔn)確性,顯著提升了視覺(jué)指令的理解性和實(shí)用性。

在計(jì)算效率方面,項(xiàng)目團(tuán)隊(duì)提出了基于昇騰平臺(tái)優(yōu)化的引導(dǎo)式漸進(jìn)蒸餾方法,通過(guò)在線教師引導(dǎo)、漸進(jìn)式蒸餾和高頻細(xì)節(jié)保護(hù)三項(xiàng)關(guān)鍵技術(shù),成功加速了視頻擴(kuò)散模型的生成過(guò)程。該方法讓教師模型實(shí)時(shí)優(yōu)化學(xué)生模型的中間預(yù)測(cè)以創(chuàng)建自適應(yīng)訓(xùn)練目標(biāo),通過(guò)多階段訓(xùn)練逐步增加步長(zhǎng)將復(fù)雜軌跡學(xué)習(xí)分解為可管理的任務(wù),并引入頻域損失函數(shù)保持視頻精細(xì)細(xì)節(jié)。在保持視頻高質(zhì)量輸出基礎(chǔ)上,該方法實(shí)現(xiàn)8倍加速。

該項(xiàng)目創(chuàng)新性地將大語(yǔ)言模型推理能力與視頻生成技術(shù)相結(jié)合,為多模態(tài)交互研究開(kāi)辟了新方向。目前,研究成果已成功入選人工智能頂級(jí)會(huì)議ICLR 2025,獲得國(guó)際學(xué)術(shù)界的高度認(rèn)可。項(xiàng)目構(gòu)建的包含569個(gè)任務(wù)的評(píng)估數(shù)據(jù)集,為后續(xù)研究提供了重要基準(zhǔn)。

未來(lái),浙江大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心將依托昇騰AI基礎(chǔ)軟硬件平臺(tái),持續(xù)深化產(chǎn)學(xué)研協(xié)同創(chuàng)新,著力突破多模態(tài)生成技術(shù)的核心瓶頸,構(gòu)建自主創(chuàng)新、技術(shù)領(lǐng)先的多模態(tài)生成技術(shù)生態(tài)體系,并為國(guó)家人工智能戰(zhàn)略與數(shù)字經(jīng)濟(jì)發(fā)展儲(chǔ)備核心創(chuàng)新力量。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
中興通訊總裁徐子陽(yáng):智聯(lián)共生 數(shù)實(shí)融合
精彩視頻
2025WAIC|探館中國(guó)電信展臺(tái) AI全景圖 滿滿“科技范兒”
中國(guó)電信總經(jīng)理劉桂清:星辰智惠,共治共享,賦能產(chǎn)業(yè)變革新未來(lái)
中國(guó)電信柯瑞文:打造全方位人工智能動(dòng)態(tài)防護(hù)體系,構(gòu)建共創(chuàng)、共治、共享的產(chǎn)業(yè)生態(tài)
2025世界人工智能大會(huì):才藝比拼、技能比武!機(jī)器人“大顯身手”
精彩專題
2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議
2025中國(guó)聯(lián)通合作伙伴大會(huì)
2025 MWC 上海
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像