下一個Sora?國內首發純自研影片大模型Vidu 可生成16秒高清影片

撰文:許祺安
出版:更新:

4月27日,在備受矚目的2024中關村論壇年會未來人工智能先鋒論壇上,清華大學聯合生數科技正式發布了中國首個長時長、高一致性、高動態性影片大模型——Vidu。這一重大成果的發布,標誌著中國在影片大模型領域取得了重要進展,為全球人工智能發展注入了新的活力。

Vidu影片大模型是生數科技團隊在貝葉斯機器學習和多模態大模型領域的長期積累和多項原創性成果的結晶。其核心技術U-ViT架構由團隊於2022年9月提出,早於國際領先的Sora採用的DiT架構,是全球首個Diffusion與Transformer融合的架構。

內媒《財聞網》報道,在短短兩個月的時間裡,團隊基於對U-ViT架構的深入理解以及長期積累的工程與數據經驗,進一步突破了長影片表示與處理的關鍵技術,成功研發出Vidu影片大模型。

2024年4月27日,清華大學聯合北京生數科技有限公司首次中國自行研發的文字描述生成影片的人工智能模型「Vidu」,能理解中國元素並生成影片。(新浪財經)

Vidu影片大模型的性能全面對標國際頂尖水準,並在加速反覆運算提升中。它能夠類比真實的物理世界,擁有豐富的想像力,具備多鏡頭生成、時空一致性高等特點。在影片效果方面,Vidu實現了顯著提升,能夠生成細節複雜、符合真實物理規律的場景,如合理的光影效果、細膩的人物表情等。同時,它還能生成真實世界不存在的虛構畫面,創造出具有深度和複雜性的超現實主義內容。

值得一提的是,Vidu影片大模型在時長方面取得了重大突破。目前,國內大多數影片大模型生成的影片時長大多在4秒左右,而Vidu能夠一次性生成長達16秒的高清影片內容,解析度高達1080P。這一突破不僅展示了Vidu在影片生成技術上的先進性,也為其在各個領域的應用提供了更廣闊的空間。

此外,Vidu影片大模型還具備理解中國元素的能力。在生成的影片中,能夠出現熊貓、龍等特有的中國元素,充分展現了其對中國文化的深入理解和運用。這一特點使得Vidu在文化傳承、旅遊推廣等領域具有獨特優勢。

生數科技與清華大學發布影音大模型Vidu。(科技日報)

《北京日報》報道,在論壇現場,清華大學人工智能研究院副院長、生數科技首席科學家朱軍展示了多段由Vidu生成的影片。觀眾們紛紛表示,這些影片不僅畫質清晰、流暢,而且內容豐富、有趣,充分展示了Vidu影片大模型的強大實力和廣闊前景。

朱軍表示,Vidu的命名不僅諧音「Video」,也蘊含「We do」的寓意。模型的突破是一個多維度、跨領域的綜合性過程,需要技術與產業應用的深度融合。他希望與產業鏈上下游企業、研究機構加強合作,共同推動影片大模型的發展,為人工智能領域注入更多創新活力。

國產影片大模型能否成為下一個Sora?

在人工智能技術的浪潮中,影片大模型領域正迎來前所未有的發展機遇。近日,清華大學聯合生數科技發布了國內首個達到Sora級別的影片大模型——Vidu,這一重要突破引發了業界的廣泛關注。那麼,Vidu是否具備成為下一個Sora的潛力呢?

《財聞網》分析,在影片生成能力方面的表現,Vidu能夠一鍵生成長達16秒、解析度高達1080P的高清影片內容,滿足了長影片內容的生成需求。官方宣傳數據中展示的「畫室中的一艘船駛向鏡頭」等場景,海浪、船的效果非常逼真,體現了Vidu強大的生成能力。這種能力使得Vidu在影片創作領域具備了巨大的應用潛力。

Vidu在複雜場景和角色生成能力方面也表現出色。它能夠生成包含多個角色、特定運動類型以及主題精確、背景細節複雜的場景。生動的角色表情和複雜的運鏡使得生成的影片具有高度的逼真性和敘事效果。這種能力使得Vidu在動畫製作、電影預告片製作等領域具有廣泛的應用前景。

此外,Vidu還具備深入的語言理解能力。它能夠準確解釋用戶的提示並生成能表達豐富情感的角色。這使得模型能夠更好地理解使用者的文本指令,並在生成的影片內容中忠實地反映這些指令。這種能力為Vidu在內容創作領域提供了更多的可能性。

在技術架構方面,Vidu採用了全球首個Diffusion與Transformer融合的U-ViT架構,這也是其實現高性能的關鍵所在。U-ViT架構的融合使得Vidu在影片生成過程中能夠更好地捕捉和理解影片中的運動和細節,從而生成更加真實和自然的影片內容。

然而,要成為下一個Sora,Vidu還需要在多個方面持續突破和創新。Vidu在影片時長方面仍有提升空間。目前,Vidu生成的影片時長為16秒,而Sora能夠生成長達一分鐘的影片。隨著技術的不斷進步,各界期待Vidu能夠在影片時長上實現更大的突破。

Vidu還需要在應用場景和商業模式上進行拓展。目前,Vidu主要應用於影片創作和動畫製作等領域,未來可以進一步拓展到廣告、教育、娛樂等多個領域。同時,Vidu還需要探索與產業鏈上下游企業的合作模式,共同推動影片大模型的發展和應用。

還需要關注Vidu在安全性和倫理方面的表現。隨著人工智能技術的廣泛應用,如何確保生成內容的真實性和合法性成為了一個重要的問題。Vidu需要在技術層面加強對生成內容的審核和監管,避免出現誤導性或違法違規的內容。

綜上所述,Vidu影片大模型在影片生成能力、複雜場景和角色生成能力等方面表現出色,具備成為下一個Sora的潛力。然而,要成為行業領導者,Vidu還需要在影片時長、應用場景和商業模式等方面持續突破和創新,並加強安全性和倫理方面的監管。