首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車(chē)|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 頭條資訊 >> 正文

自研視頻生成模型姍姍來(lái)遲 快手“可靈”、字節(jié)“即夢(mèng)”珠玉在前,百度勝算幾何?

2025年7月3日 07:05  每日經(jīng)濟(jì)新聞  

7月2日,《每日經(jīng)濟(jì)新聞》記者獲悉,百度商業(yè)研發(fā)團(tuán)隊(duì)對(duì)外發(fā)布了自研視頻生成模型“MuseSteamer”及配套創(chuàng)作平臺(tái)“繪想”,正式進(jìn)軍AI(人工智能)視頻生成領(lǐng)域。

2024年,Sora爆火引發(fā)生成式視頻大模型熱潮,李彥宏則在一場(chǎng)內(nèi)部講話(huà)中稱(chēng),Sora這種視頻生成模型的投入周期太長(zhǎng),10年、20年都可能拿不到業(yè)務(wù)收益,無(wú)論多火爆,百度都不去做。

7月2日,一位接近百度的人士對(duì)《每日經(jīng)濟(jì)新聞》記者分析稱(chēng),Robin(李彥宏)點(diǎn)評(píng)Sora其實(shí)還有后半句,基于多模態(tài)需求,可以做一個(gè)相對(duì)特定的視頻生成場(chǎng)景!鞍ò俣惹岸螘r(shí)間的羅永浩數(shù)字人其實(shí)也是特定場(chǎng)景的視頻生成。原本商業(yè)側(cè)已有擎舵這個(gè)平臺(tái),那么去服務(wù)B端商業(yè)客戶(hù)生成AIGC(人工智能生成內(nèi)容)產(chǎn)品宣傳視頻,其實(shí)就是特定場(chǎng)景,也是有用戶(hù)需求的!

關(guān)鍵優(yōu)勢(shì)在于極致遵循力

當(dāng)前,AI生成視頻在生成質(zhì)量、畫(huà)面穩(wěn)定性和長(zhǎng)度等方面仍是各大技術(shù)廠商持續(xù)攻堅(jiān)的領(lǐng)域。

百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林表示,在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域,視頻時(shí)長(zhǎng)與畫(huà)質(zhì)的突破往往意味著創(chuàng)作自由度的質(zhì)變。MuseSteamer可支持電影級(jí)審美下的10秒長(zhǎng)視頻的生成,1080P的高清晰度,為視頻創(chuàng)作提供了更大的表現(xiàn)空間。

劉林表示,傳統(tǒng)AIGC視頻創(chuàng)作實(shí)踐中,往往是先生成視頻,再進(jìn)行配音和添加音效。割裂的創(chuàng)作環(huán)節(jié)不僅消耗大量時(shí)間,更會(huì)削弱作品的完整藝術(shù)表達(dá)。MuseSteamer創(chuàng)新性支持一體化生成帶有音效和人物臺(tái)詞的視頻。

此外,在視頻長(zhǎng)度方面,MuseSteamer目前支持生成5秒和10秒兩個(gè)版本,并可達(dá)1080p清晰度。百度此次同步發(fā)布了MuseSteamer模型的家族版本,包括Turbo、Lite、Pro,以及各版本對(duì)應(yīng)的有聲版,分別面向不同的創(chuàng)作需求和成本考量。

劉林強(qiáng)調(diào),MuseSteamer的關(guān)鍵優(yōu)勢(shì)在于其對(duì)創(chuàng)作指令的理解與執(zhí)行能力,即所謂的極致遵循力,能實(shí)現(xiàn)創(chuàng)作者“所思即所得”的表達(dá)自由。此外,鏡頭運(yùn)用能力也是其差異化競(jìng)爭(zhēng)力之一,百度希望通過(guò)該模型降低專(zhuān)業(yè)創(chuàng)作門(mén)檻,讓更多人獲得“鏡頭平權(quán)”。

據(jù)介紹,MuseSteamer模型的技術(shù)基礎(chǔ)包括三大方面:首先,在數(shù)據(jù)準(zhǔn)備階段,通過(guò)“篩選—凈化—配比”的方式,對(duì)超過(guò)10億條異構(gòu)數(shù)據(jù)進(jìn)行處理,并結(jié)合三級(jí)標(biāo)簽體系和Active Learning(主動(dòng)學(xué)習(xí))機(jī)制,以保證訓(xùn)練數(shù)據(jù)的審美和結(jié)構(gòu)質(zhì)量。

其次,在模型訓(xùn)練過(guò)程中,采用多目標(biāo)反饋的強(qiáng)化學(xué)習(xí)優(yōu)化路徑,試圖在保證視頻動(dòng)作幅度的同時(shí),保持主體內(nèi)容的一致性穩(wěn)定輸出。同時(shí),MuseSteamer引入美學(xué)條件控制調(diào)優(yōu),通過(guò)隱式批判學(xué)習(xí)和影視標(biāo)準(zhǔn)嚴(yán)選,讓模型懂美、創(chuàng)造美。

MuseSteamer如何面對(duì)勁敵

相比OpenAI、字節(jié)跳動(dòng)、Pika等更早投入文生視頻賽道的企業(yè),百度此次推出MuseSteamer確屬“后發(fā)”。無(wú)論是國(guó)外如Pika、Runway,還是國(guó)內(nèi)如快手旗下的可靈AI、字節(jié)跳動(dòng)旗下剪映團(tuán)隊(duì)孵化的AI創(chuàng)作平臺(tái)即夢(mèng)AI,均從2024年起就密集發(fā)布各類(lèi)模型、功能和平臺(tái),并已完成多次迭代。

今年5月,快手可靈AI宣布推出全新2.1系列模型,高品質(zhì)模式(1080p)下生成5秒視頻僅需不到1分鐘。快手官網(wǎng)信息顯示,可靈AI在推出10個(gè)月之后(即今年3月)的年化收入運(yùn)行率(Annualized Revenue Run Rate)突破1億美金,其今年4月和5月的月度付費(fèi)金額均超過(guò)1億元人民幣。

百度是最早布局大模型的國(guó)內(nèi)科技企業(yè)之一。自2023年起,百度發(fā)布文心一言、迭代多個(gè)版本的文心大模型,同時(shí)已在搜索、地圖、文檔、企業(yè)服務(wù)等多個(gè)業(yè)務(wù)線中落地大模型能力。

但在視頻生成這一AIGC下一個(gè)爆發(fā)點(diǎn)上,百度此前并未公開(kāi)大動(dòng)作,僅在2024年宣布領(lǐng)投清華系視頻大模型公司生數(shù)科技。此外,2025年3月,百度發(fā)布的文心大模型4.5和4.5 Turbo實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。

2024年,Sora爆火引發(fā)國(guó)內(nèi)生成式視頻大模型熱潮,李彥宏則在一場(chǎng)內(nèi)部講話(huà)中稱(chēng),Sora這種視頻生成模型的投入周期太長(zhǎng),10年、20年都可能拿不到業(yè)務(wù)收益,無(wú)論多火爆,百度都不去做。

7月2日,一位接近百度的人士對(duì)《每日經(jīng)濟(jì)新聞》記者分析稱(chēng):“之前提到的不做類(lèi)似Sora,更多是不去訓(xùn)一個(gè)general-purpose(通用)的視頻生成模型,但是在特定場(chǎng)景、特定目的下的視頻生成能力是需要的,或者說(shuō)基于對(duì)市場(chǎng)需求的判斷,外界確實(shí)沒(méi)有這種能力,會(huì)自己來(lái)生產(chǎn)、研發(fā)這樣的能力!

上述人士表示,Robin(指李彥宏)點(diǎn)評(píng)Sora其實(shí)還有后半句,基于多模態(tài)需求,可以做一個(gè)相對(duì)特定的視頻生成場(chǎng)景!鞍ò俣惹岸螘r(shí)間的羅永浩數(shù)字人其實(shí)也是特定場(chǎng)景的視頻生成。原本商業(yè)側(cè)已有擎舵這個(gè)平臺(tái),那么去服務(wù)B端商業(yè)客戶(hù)生成AIGC產(chǎn)品宣傳視頻,其實(shí)就是特定場(chǎng)景,也是有用戶(hù)需求的!

記者注意到,MuseSteamer由百度商業(yè)研發(fā)團(tuán)隊(duì)主導(dǎo)推出,或許意味著其背后的直接應(yīng)用場(chǎng)景有可能是廣告創(chuàng)意生成與內(nèi)容投放。

此外,7月2日,百度搜索還宣布進(jìn)行十年來(lái)最大改版,從搜索框、搜索結(jié)果頁(yè)到搜索生態(tài)全面革新。具體而言,百度搜索框升級(jí)為“智能框”,支持超千字的文本輸入,拍照、語(yǔ)音、視頻等能力也全面加強(qiáng),支持直接調(diào)取AI寫(xiě)作、AI作圖等工具。 百度搜索還宣布接入視頻生成模型MuseSteamer。

未來(lái),MuseSteamer如何融入百度搜索、營(yíng)銷(xiāo)與智能助手等核心業(yè)務(wù),將決定它是否能從工具演化為平臺(tái),從模型能力走向商業(yè)杠桿。

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話(huà)為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
飛象訪談:對(duì)話(huà)InterDigital副總裁兼無(wú)線實(shí)驗(yàn)室負(fù)責(zé)人Milind Kulkarni
精彩視頻
未來(lái)出行的芯力量 向“智能移動(dòng)終端”躍遷
飛象訪談:對(duì)話(huà)InterDigital副總裁兼無(wú)線實(shí)驗(yàn)室負(fù)責(zé)人Milind Kulkarni
2025MWC上海丨中興通訊副總裁熊杰就AI萬(wàn)兆全光園區(qū)話(huà)題進(jìn)行交流
2025MWC上海|中國(guó)信科:全棧算力創(chuàng)新應(yīng)用 為AI時(shí)代構(gòu)筑數(shù)智基石
精彩專(zhuān)題
2025 MWC 上海
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
2025世界電信和信息社會(huì)日大會(huì)
第八屆數(shù)字中國(guó)建設(shè)峰會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像