市場星報官方網(wǎng)站
全國數(shù)字出版轉(zhuǎn)型示范單位
xomn.cn
您的位置: 首頁 > 要聞 > 正文

直接生成16秒高清視頻 我國自研視頻大模型在京發(fā)布

2024-04-28 20:02:54 來源:新華網(wǎng)   編輯:孫曉帆   

新華社北京4月27日電 (記者魏夢佳) 只需一段文字指令就能生成一段逼真視頻,今年初,文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關(guān)注。27日,2024中關(guān)村論壇年會上首次發(fā)布我國自研的具“長時長、高一致性、高動態(tài)性”特點的文生視頻大模型Vidu。

記者從會上獲悉,這一視頻大模型由清華大學(xué)聯(lián)合北京生數(shù)科技有限公司共同研發(fā),可根據(jù)文本描述直接生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容,不僅能模擬真實物理世界,還擁有豐富想象力。

清華大學(xué)人工智能研究院副院長、生數(shù)科技首席科學(xué)家朱軍說,當(dāng)前國內(nèi)視頻大模型的生成視頻時長大多為4秒左右,Vidu則可實現(xiàn)一次性生成16秒的視頻時長。同時,視頻畫面能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空間中能保持高一致性。

在動態(tài)性方面,Vidu能生成復(fù)雜的動態(tài)鏡頭,不再局限于簡單的推、拉、移等固定鏡頭,而是能在一段畫面里實現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的切換,包括能直接生成長鏡頭、追焦、轉(zhuǎn)場等效果。

“Vidu能模擬真實物理世界,生成細(xì)節(jié)復(fù)雜且符合物理規(guī)律的場景,例如合理的光影效果、細(xì)膩的人物表情等,還能創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實主義內(nèi)容。”朱軍介紹,由于采用“一步到位”的生成方式,視頻片段從頭到尾連續(xù)生成,沒有明顯的插幀現(xiàn)象。

此外,Vidu還可生成如熊貓、龍等形象。

據(jù)悉,Vidu的技術(shù)突破源于團(tuán)隊在機(jī)器學(xué)習(xí)和多模態(tài)大模型方面的長期積累,其核心技術(shù)架構(gòu)由團(tuán)隊早在2022年就提出并持續(xù)開展自主研發(fā)。“作為一款通用視覺模型,我們相信,Vidu未來能支持生成更加多樣化、更長時長的視頻內(nèi)容,探索不同的生成任務(wù),其靈活架構(gòu)也將兼容更廣泛的模態(tài),進(jìn)一步拓展多模態(tài)通用能力的邊界。”朱軍說。

 

》》》視頻請點擊

凡市場星報、安徽財經(jīng)網(wǎng)、掌中安徽記者署名文字、圖片,版權(quán)均屬于市場星報所有。任何媒體、網(wǎng)站或者個人,未經(jīng)授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)帖或以其他方式復(fù)制發(fā)表;已經(jīng)授權(quán)的媒體、網(wǎng)站,在轉(zhuǎn)載使用時必須注明“來源:市場星報、安徽財經(jīng)網(wǎng)或者掌中安徽”,違者本單位將依法追究法律責(zé)任。
熱線電話:0551-62620110
舉報電話:0551-64376913
舉報郵箱:3598612204@qq.com
分享到:

安徽財經(jīng)網(wǎng)手機(jī)版

市場星報公眾微信

市場星報微博

掌中安徽APP下載