蕭簫 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
AI拍視頻,竟然已經(jīng)絲滑到這個(gè)程度了嗎?
(資料圖)
輸入一段視頻,念上一段“咒語”,AI瞬間就能秒懂,并當(dāng)場給你把視頻重畫一遍:
不僅完美hold住各類風(fēng)格,最關(guān)鍵的是,幀幀絲滑流暢。
就連建筑物這種細(xì)節(jié)較多的視頻,也幾乎看不出“AI出品”的bug:
目前,無論是拍視頻還是制作動(dòng)畫,依靠的都是“關(guān)鍵幀”。如果幀與幀之間聯(lián)系不緊密,就會出現(xiàn)這種詭異的“閃爍畫風(fēng)”——
而這也是AI生成視頻最大的瓶頸之一。
現(xiàn)在,來自南洋理工大學(xué)的團(tuán)隊(duì),終于解決了這個(gè)問題,研究在推特上掀起了不小熱度:
那么,這究竟是如何做到的?
AI生成視頻會“閃爍”,本質(zhì)上是前后幀不連貫導(dǎo)致的。
舉個(gè)例子,這是同一個(gè)視頻中截取的兩幀畫面:
用AI根據(jù)這兩幀“重繪”圖像,乍一看問題不大,細(xì)節(jié)上卻有不少差異。
例如,一幀生成的人物頭上有“金色發(fā)帶”,另一幀中卻消失了:
這樣一來,看似AI生成的幾十幀圖像風(fēng)格差不多,連起來細(xì)節(jié)差異卻非常大,視頻也就容易出現(xiàn)閃爍現(xiàn)象:
為此,研究人員提出了一種新框架,,核心是提升AI生成視頻時(shí)幀與幀之間的連貫性。
這個(gè)框架包含關(guān)鍵幀翻譯(key frame translation)和完整視頻翻譯(full video translation)兩部分。
第一部分基于擴(kuò)散模型生成關(guān)鍵幀,基于跨幀約束加強(qiáng)這些關(guān)鍵幀之間的一致性;第二部分則通過基于時(shí)間感知的匹配算法將其他幀與關(guān)鍵幀“連接”起來。
框架的核心,在于第一部分。
研究人員給這部分提出了一種新的分層跨幀一致性約束方法,在原視頻基礎(chǔ)上,利用光流來約束幀與幀之間的關(guān)系。
其中,第一幀相當(dāng)于整個(gè)視頻的“錨點(diǎn)”,用于控制視頻的整體走向;后續(xù)的每一幀,則都會以前一幀作為參考,防止生成的圖像偏離最初的風(fēng)格、形狀、紋理和顏色等。
至于視頻生成模型,核心采用的則是Stable Diffusion+ControlNet的組合,但經(jīng)過了改進(jìn)。
如下圖所示,紅色虛線是原本Stable Diffusion等擴(kuò)散模型采樣過程,黑色線條則是經(jīng)過調(diào)整后的過程:
當(dāng)然,在不同的采樣階段,跨幀約束也不一樣,包括形狀感知、像素感知等。
相比之前的AI視頻生成模型,這個(gè)框架最大的優(yōu)勢在于,當(dāng)輸入一個(gè)新視頻的時(shí)候,它不需要再用這個(gè)視頻材料重新進(jìn)行訓(xùn)練,換而言之就是零樣本學(xué)習(xí)。
只需要輸入一段提示詞+一段視頻,框架就能自動(dòng)將視頻“翻譯”出你想要的效果。
例如,這是團(tuán)隊(duì)利用改進(jìn)后的框架,重新生成的一段相同風(fēng)格視頻,和改進(jìn)前的擴(kuò)散模型相比,幾乎看不出閃爍了:
所以,生成一段視頻是否需要很長時(shí)間?
至少從生成幀的效率來看,速度還是不慢的,其中關(guān)鍵幀和Stable Diffusion出圖的速度差不多,平均在14.23秒左右;非關(guān)鍵幀就非??炝?,每幀只需要1.49秒。
如果視頻不長、甚至只有十幾幀的話,不到一分鐘就能搞定一段視頻的轉(zhuǎn)換。
作者們將這個(gè)新框架和之前的幾類文生視頻框架進(jìn)行了對比,包括FateZero、vid2vid-zero、Pxi2Video和Text2Video-Zero等,顯然新框架目前是最流暢、鬼影也最少的:
不僅僅是單純的“視頻翻譯”,作者們還展示了提示詞對于視頻生成的控制效果。
例如在相同輸入下,只要更改一段提示詞中的“關(guān)鍵字”,AI就能在幾乎不改動(dòng)其他元素的情況下,生成一段新的視頻,例如換個(gè)發(fā)型、換種風(fēng)格,或是將狗頭換成狐貍頭:
除此之外,作者們還請來了23名志愿者,對新框架生成的視頻質(zhì)量進(jìn)行了綜合評分,評估指標(biāo)有三個(gè),分別是提示詞和輸入幀的關(guān)聯(lián)度、時(shí)間一致性和視頻整體質(zhì)量。
結(jié)果顯示,這個(gè)框架在“人類評分”中均取得了不錯(cuò)的水平:
四位作者均來自南洋理工大學(xué)。
一作楊帥,南洋理工大學(xué)助理教授,本科和博士畢業(yè)于北京大學(xué),目前的研究方向是基于人像的編輯、文本風(fēng)格化、圖像翻譯等。
周弈帆,南洋理工大學(xué)研究工程師,本科畢業(yè)于北京理工大學(xué),拿過ACM-ICPC金牌,研究方向包括文本挖掘、基于機(jī)器學(xué)習(xí)重建入射光場等。
劉子緯,南洋理工大學(xué)助理教授,香港中文大學(xué)博士,研究方向是計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和計(jì)算機(jī)圖形學(xué)等。
Chen Change Loy,南洋理工大學(xué)和香港中文大學(xué)副教授,他的研究興趣集中在計(jì)算機(jī)視覺和深度學(xué)習(xí)方向,包括圖像、視頻恢復(fù)和生成,以及表征學(xué)習(xí)等。
目前這個(gè)項(xiàng)目的代碼還沒開源,不過論文表示“會有的”。
實(shí)測效果如何,我們可以期待一波。
項(xiàng)目地址:https://anonymous-31415926.github.io/
論文地址:https://arxiv.org/abs/2306.07954
— 完 —
量子位 QbitAI · 頭條號簽約
標(biāo)簽: