國產AI影片生成大模型實力展現 新技術下美到窒息還支援1080P

撰文:機器之心
出版:更新:

支持1分鐘、1080P分辨率的超長視頻生成。

國產視頻大模型再次卷出「新高度」。

前腳快手可靈升級完 1.5 模型,後腳字節就正式進軍視頻生成。

幾乎同一時間,美圖公司也突然宣佈,自家的奇想大模型(MiracleVision)視頻生成能力已完成全面升級。

奇想大模型(MiracleVision)

具體而言,它不僅單次文生視頻時長、單次圖生視頻時長均達 5 秒,還支持 1 分鐘、幀率 24FPS、分辨率 1080P 的超長視頻生成。

而更讓人驚喜的,則是它超強的風格化。

比如,寫實風格的熊貓,坐在牆根上彈着吉他:

國產AI影片生成大模型實力展現(機器之心提供)

動畫風格的酷女孩,戴着墨鏡,邊走邊喝咖啡:

卡通風格的大黑牛騎着心愛的小摩托狂飆:

國產AI影片生成大模型實力展現(機器之心提供)

毛氈風格的農夫和小兔:

國產AI影片生成大模型實力展現(機器之心提供)

在海裡潛水的呆萌小企鵝:

國產AI影片生成大模型實力展現(機器之心提供)

還有最驚豔的中國風。一位古風美女,忽閃着倆大眼睛,眉一挑,手一攤,臉上露出驕傲不屑的神情。

國產AI影片生成大模型實力展現(機器之心提供)

目前,美圖奇想大模型全新視頻生成能力已在MOKI上線,後續將逐步覆蓋到美圖秀秀、美顏相機、Wink、開拍、美圖設計室、WHEE等產品。

接下來,我們將從寫實、動畫、國風、風格化、人像等維度,對它來一個全方位的測評。

寫實風格:重現真實物理規律

AI 生成寫實視頻時,經常會遇到肢體變形、動作卡頓等問題,而美圖的奇想大模型在複雜 3D 時空精準重構基礎上,視頻生成能夠重現真實物理規律,支持大幅度流暢運動。

例如,這段 Sora 的經典 Prompt,就是對大幅度流暢運動的考驗:一輛白色的越野 SUV,疾馳在蜿蜒的崎嶇山路上,周圍是鬱鬱葱葱的灌木叢。

奇想大模型不僅完美遵循文字指令,還體現出諸多小細節:通過車後泛起的塵土體現越野車的速度,逆光拍攝時畫面出現的光斑等。

再比如,Prompt:穩定拍攝的運動鏡頭,在戶外的一隻棕色皮毛的小松鼠,從畫面的右邊一路向右邊跳躍,動作敏捷。

國產AI影片生成大模型實力展現(機器之心提供)

這隻身手矯健的松鼠,前肢抬起,後肢發力,騰空跳躍,四隻爪子配合協調,尾巴隨之搖晃,觸碰到的樹葉也會彈動。

倒牛奶是一個包含複雜物理交互和視覺細節的場景。

我們輸入 Prompt:一隻手平穩地將銀色水罐中的牛奶倒入透明高腳杯中。

奇想大模型正確模擬了牛奶從容器中倒出、流動和最終落入杯中的過程。動作在時間上保持連貫,牛奶的流動沒有出現突然的中斷或不自然的加速,並且正確模擬出液麪的上升和下降。

再來看看這段玫瑰花蕾盛開的延時攝影。

花朵開放有一定生物學規律,並且需要理解和表現出延時攝影被壓縮的時間感。奇想大模型生成的視頻,不僅真實,還捕捉到動態的花瓣伸展的細節。

下面這段萬馬奔騰的航拍鏡頭也相當震撼。

Prompt:航拍鏡頭,從空中俯瞰到一群活力四射的駿馬在一片遼闊的大地上飛馳而過,鬃毛和馬尾隨風飄揚。

近 20 匹毛色各異的駿馬,馳騁在一望無際的草原上,它們四蹄翻飛,鬃毛和尾巴隨風飄揚,還展現出優美的肌肉線條。

即使是多主體、大幅度運動,奇想模型生成的畫面仍表現穩定,幾乎無虛化扭曲。

我們繼續輸入 Prompt: 一隻戴着紅項圈的橙色虎斑貓坐在牀上,正看着熟睡在藍白條紋羽絨被下的女生。

奇想大模型生成的畫質清晰,貓咪毛髮透着光澤,鬍鬚根根分明,女主人手指也沒有明顯的 bug,甚至它還生成了人物由於側躺產生的脖頸上的皺紋。

隨着鏡頭緩慢推進,貓咪轉過腦袋,項圈上的金屬環也隨之擺動,其動作自然連貫。

除了運動流暢外,奇想大模型還能進行復雜的語義理解。

比如 Prompt:靜態廣角鏡頭,在一個日常生活的家中,一隻棕色的小狗坐在掃地機器人上隨着它移動,在家中打掃衛生。

在這段文字指令中,既有鏡頭的要求,還有主體、動作以及場景的限制。奇想大模型均 get 到了。

在這個低機位廣角鏡頭中,一隻小狗坐在工作着的掃地機器人上,左瞅瞅右看看。

鏡頭隨着掃地機器人的運行軌跡而移動,掃攝到房間裏的沙發腿、略顯雜亂的飄窗等,要不是畫面開始右上角人物的腳有些彆扭,真以為是實拍。

不得不說,奇想大模型對於動物的神態和動作,捕捉得也相當到位。

這隻變色龍的特寫鏡頭中,其眼珠轉動,嘴巴微張,以此來體現其警惕的神態,而且變色龍顆粒狀、粗糙的皮膚也生成得很逼真。

圖片(Prompt:特寫鏡頭,一隻身上有綠棕色條紋的變色龍棲息在一根樹枝上,它的目光充滿警覺性,盯着鏡頭。)

梅花鹿豎起的耳朵,然後突然轉身離開的神態,簡直復刻出真實小鹿的反應。

圖片(Prompt:寒冷的冬天,一隻鹿站在結霜的田野裏,遠處有藍天、枯樹和山脈,四周很寧靜,鹿的皮毛上沾滿了雪,它豎起了耳朵警覺地凝視前方,接着轉身向田野遠方走去。)

動畫風格:擁有超強藝術審美

眾所周知,製作一部精美的動畫,那是相當費時費力,即使是宮崎駿這樣的大師,也不例外。

《你想活出怎樣的人生》耗費 7 年之久,《起風了》打磨了 2 年,僅關東大地震的 4 秒鏡頭,宮崎駿就「死磕」了 1 年零 3 個月。

不過有了 AI,大部分的「體力活」都可以被自動化。

就拿奇想大模型來說,曾經一個團隊需要吭哧吭哧幹幾個月的活兒,現如今,只需上傳一張圖片,或者輸入一段提示詞,它幾分鐘就搞定。

例如,我們輸入提示詞:動畫風格,一個小男孩和一個小女孩正坐在樹下吃西瓜。

奇想大模型生成的視頻中,兩個小孩眨着大眼睛,臉上帶着天真無邪的笑容。

他們捧着半拉西瓜,紅色的果肉在陽光下顯得格外誘人,還有西瓜籽點綴其間。畫風温馨治癒,極具美感。

再如,手拿麪包的小女孩,竟有了一種宮崎駿的感覺。

小女孩拿起一塊麪包,然後將其丟到另一隻手上,雖然動作幅度較大,但畫面並沒有崩壞。

我們還上傳了一張圖片,並輸入提示詞:公交車在鄉間小路上行駛。

國產AI影片生成大模型實力展現(機器之心提供)

隨着公交車的前行,鏡頭開始輕微晃動,模擬着跟拍的效果。

為了營造出鄉間小路的坑坑窪窪,奇想大模型還讓公交車呈現出顛簸的效果。

還有火車在白雪皚皚的林海中穿行:

一艘小船駛向岸邊:

小狗在家門口「汪汪」直叫,然後撒腿就跑:

國風:最懂「中國味」

要說奇想大模型最拿手的,非國風莫屬。

先給大家看兩組鏡頭:

猜猜哪個是奇想大模型生成的?答案是:第一個。

要想有地道的「中國味」,AI 需要理解中國傳統文化的元素和美學。

奇想大模型生成的國風動畫中,女孩身着中國傳統服飾、梳着結鬟式髮髻,身後古樸的木屋也有着中國獨特的韻味。

同時,它對於細節的處理也相當精細,人物表情靈動,服飾紋理細膩,甚至還能模擬出光照和色彩的自然過渡。

而在國風人物群像中,奇想大模型表現也很出彩。

主角表情變化自然,先是表情嚴肅,微微轉動眼珠,繼而嘴角擠出一抹神似華妃的「皮笑肉不笑」,肢體動作也很流暢。

身後的配角們模樣各異,雖無較大動作,但眨巴着眼睛,也相當逼真。

此外,奇想大模型還可以生成水墨動畫。

畫面中,山間雲霧繚繞,瀑布從山崖飛流直下,清流激湍,身穿飄逸長袍的俠客站在岩石上瀟灑轉身,動作絲毫不僵硬。

風格化:追求極致細節

憑藉在影像領域的長期深耕,美圖在風格化方面有着得天獨厚的優勢,實現了在藝術風格、細膩畫風、細節把控之間的高度平衡,具備強大的風格泛化力與兼具藝術審美的視覺表現力。

比如毛氈風格,喪眉耷眼的小浣熊,搖頭晃腦地自說自話,背景自然虛化,但隱約能看到滿樹桃花隨風晃動。

要知道,不少 AI 視頻模型在模擬毛氈的視覺效果時,對於紋理和光影效果的處理稍顯欠缺,而奇想大模型生成的視頻,畫質清晰穩定,毛絨感細膩。

即使畫面出現多個主體,也能實現風格的整體統一,哈巴狗和後面的小動物們,反應各異,但動態效果流暢連貫,並未出現視覺上的跳躍感。

再來個粘土風格。

晃晃悠悠的鏡頭中,鬍子拉碴的大叔獨自坐在小屋裏彈吉他。

衣服的褶皺,屋頂垂下來的電燈,牆上掛的畫框和雜物,以及窗台上的綠植,都生成得極具美感,尤其是那把吉他,非常逼真。

不過,唯一美中不足的,就是撥絃時手部稍顯扭曲。

人像風格:極具電影質感

美圖的奇想大模型還能根據文本或圖像,生成逼真的人像視頻,這為影視製作、廣告創意、時尚行業以及多媒體藝術創作打開了一扇新的大門。

在奇想大模型生成的正面人像視頻中,戴着牛仔帽的兩個男子坐在車裏盯着鏡頭,身體隨着汽車的顛簸而晃動。

車窗外,景色不斷變換,行道樹向後退去,整個鏡頭很有電影感。

夢幻般的森林中,一道道柔和的光線從樹縫中灑下,俊男美女站在光束下深情擁抱,周圍落葉紛飛。

整個場景如同一幅精美的油畫,光影、色彩、動靜結合得恰到好處,很是唯美。

為了在視頻生成領域一鳴驚人,美圖公司一直在悄悄努力。

去年 6 月,美圖奇想大模型上線,經過一年時間的迭代,目前已更新至 V5 版本,並升級為 Diffusion 與 Transformer 模型結合的全新技術路線,採用 DiT 視頻生成架構。

在新的技術路線下,相較業界先頭兵,美圖奇想大模型選擇優先攻克更具挑戰性的問題。

此次升級,該模型在技術層面上解決了主體一致性、運動連貫性、物理邏輯合理性等視頻生成能力落地的核心問題,並逐步嵌入多款產品中。

奇想大模型(MiracleVision)

看完以上這 5 大維度、30 段絕美實測視頻,大家覺得美圖奇想大模型實力咋樣?

延伸閱讀:生成式AI應用100強 ChatGPT霸榜挑戰者出現 消費者最愛是這些(點擊連結看全文)

+14

【本文轉自「AI好好用」,微信公眾號:almosthuman2017】