今年來,隨(sui)著算力的(de)不斷增加和深度學習等技術的(de)進步,AI在內(nei)容(rong)生(sheng)產領域的(de)應用已經不僅(jin)僅(jin)局限于圖片(pian)和文字(zi)(zi)。最(zui)近,內(nei)容(rong)生(sheng)成(cheng)AI可以說正式進入視(shi)頻(pin)時代,未來用描述性的(de)文字(zi)(zi)直接生(sheng)成(cheng)腦海中的(de)畫(hua)面將不再困難,人人都將能夠制作(zuo)出電影級別的(de)長短視(shi)頻(pin)。

當看(kan)到下面這(zhe)個(ge)(ge)“馬(ma)兒(er)低頭喝(he)水”的(de)(de)畫(hua)面時,相(xiang)信每(mei)個(ge)(ge)人都會認(ren)為這(zhe)是(shi)對一段事先拍攝(she)好(hao)的(de)(de)視頻加上了動(dong)漫化的(de)(de)濾(lv)鏡,但真實(shi)的(de)(de)情(qing)況(kuang)卻(que)是(shi),這(zhe)個(ge)(ge)視頻里的(de)(de)每(mei)一個(ge)(ge)像素全(quan)都是(shi)由AI來生成的(de)(de),僅僅是(shi)對AI模型輸(shu)入了一句簡單“馬(ma)兒(er)喝(he)水”。

據了解,該AI模型名(ming)為“Make-A-Video”,是由Meta AI的(de)研究人員開發出來的(de),任意給模型輸入(ru)幾(ji)個單詞或幾(ji)行文字,就能生成符(fu)合語義(yi)的(de)但(dan)在現(xian)實中(zhong)卻并不存在的(de)視頻畫面,而且風格(ge)還可以(yi)多元化(hua)。
例(li)如,將一些英文短句(ju)輸入模型之后,生成的視頻也都讓人嘆為觀止(zhi):

不得不說,現在人工智能的(de)發展真的(de)是日新月異(yi),每隔(ge)一(yi)段時間就(jiu)會給人不同的(de)驚喜。
最(zui)近幾年(nian),人(ren)(ren)工智能在視覺(jue)領域的發(fa)展可謂是“神(shen)速”。去年(nian)1月,致力于(yu)“用通用人(ren)(ren)工智能造福全(quan)人(ren)(ren)類(lei)”的OpenAI公司基于(yu)GPT-3模型(xing)發(fa)布(bu)了(le)劃(hua)時(shi)代(dai)的 DALL·E,實(shi)現(xian)了(le)從(cong)文本生成圖像。
今年4月份,OpenAI發布的第二代DALL·E 2模型,再次為圖像生成領域樹立了全新標桿,可以通過簡短的文本描述(prompt)來生成相應的圖像,使得不會畫(hua)畫(hua)的(de)人(ren)也可以將自己的(de)想(xiang)象(xiang)力變為藝術創作,例如“羊駝打(da)籃球”這句(ju)話生(sheng)成的(de)四張(zhang)圖片看起(qi)來就非常符(fu)合大家預期的(de)想(xiang)象(xiang)。

不僅如此,隨著(zhu)文字描(miao)述的顆粒度(du)不斷細(xi)化,生成的圖像也會越來越精準,效果在非專(zhuan)業人士看來已經相當震撼(han)。

但DALL-E 2這樣的模型仍然停留在二維創作即圖片生成領域,無法生成360度無死角的3D模型。但這依舊難不住極具創意的算法研究員,Google Research的一項最新成果——DreamFusion模型,即可通過輸入簡單的文本提示生成3D模型,不僅(jin)能(neng)夠在(zai)不同的(de)光照(zhao)條(tiao)件下進行渲染,而且(qie)生(sheng)(sheng)成的(de)3D模型還具(ju)有密(mi)度、顏色(se)等特性,甚至可以把生(sheng)(sheng)成的(de)多個(ge)3D模型融合到(dao)一個(ge)場景里。
在生成3D圖(tu)片(pian)之后,Meta的(de)算法人員將思路進(jin)一步打開,向更高(gao)難度(du)發(fa)起挑(tiao)戰,開始探索用文字(zi)提示來直接(jie)生成視頻。
雖然本質(zhi)(zhi)上來(lai)(lai)說(shuo),視頻(pin)就是(shi)一(yi)系列(lie)圖像的(de)疊加,但相比于(yu)生(sheng)成(cheng)圖像,用文(wen)字來(lai)(lai)生(sheng)成(cheng)視頻(pin)時(shi)不僅需要(yao)生(sheng)成(cheng)相同場(chang)景下的(de)多個幀,還要(yao)保證相鄰幀之(zhi)間(jian)的(de)連貫性,訓練(lian)模(mo)型時(shi)可用的(de)高(gao)質(zhi)(zhi)量視頻(pin)數據非常(chang)少,但計算量卻(que)很大(da),大(da)大(da)增加了視頻(pin)生(sheng)成(cheng)任務的(de)復(fu)雜性。
9月29日,來自Meta的研究人員發布了Make-A-Video,這是一個基于人工智能的高質量短視頻生成模型,相當于視頻版的DALL·E,也(ye)被戲稱為“用(yong)嘴(zui)做視(shi)頻”,即可以通(tong)過文本提示創建新的視(shi)頻內容,其背后使(shi)用(yong)的關鍵技(ji)術也(ye)同樣(yang)來自DALL-E等圖像生成(cheng)器所使(shi)用(yong)的文本-圖像合成(cheng)技(ji)術。

僅1周之后,谷歌CEO皮查伊就接連官宣了兩個模型來正面挑戰Meta的Make-A-Video,分別是Imagen Video與Phenaki。
與Make-A-Video相比,Imagen Video更加突出視頻的高清特性,能生(sheng)成1280*768分辨率、每秒24幀的(de)視(shi)頻片段(duan),還能理(li)解(jie)并生(sheng)成不同藝術風格(ge)的(de)作品;理(li)解(jie)物體的(de)3D結構,在旋轉(zhuan)展示中不會變(bian)形;甚至還繼承了(le)Imagen準(zhun)確描繪文字的(de)能力,在此基礎上僅靠簡(jian)單描述產生(sheng)各種創意(yi)動(dong)畫。

而Phenaki則能根據200個詞左右的提示語生成2分鐘以上的較低分辨率長鏡頭,講述一個相對完整的故事。
在計算機視覺領域中,文本生成圖像或視頻用到最多的就是生成模型,生成模型也在最近的文本到圖像 AI 系統中取得了重大進展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。這些新模型和算法的基本思路都來自于早期最出名的GAN(生成對抗網絡),即通過生成器和辨別器之間的相互對抗來生成圖像。但由于模型本身具有對抗性,因此很難進行訓練,而利用擴散模型則可(ke)以解(jie)決(jue)這個問(wen)題(ti),這也是今年最火(huo)的模型之一。

擴散模型也是生成模型的一種,其背后的直覺和原理來源于物理學:氣體分(fen)子從高密度區域擴散到(dao)(dao)低密度區域的現(xian)象與由于噪(zao)聲(sheng)干擾而導(dao)致信息丟失的現(xian)象相似。所(suo)以通過引入(ru)噪(zao)聲(sheng)導(dao)致信息的衰(shuai)減,再嘗試通過去(qu)噪(zao)來生(sheng)成(cheng)圖(tu)像(xiang),就能通過多次迭代,使(shi)得模(mo)型每次都(dou)在給定(ding)一些噪(zao)聲(sheng)輸入(ru)的情況下學(xue)習生(sheng)成(cheng)新圖(tu)像(xiang)。如(ru)今,擴散模(mo)型在密度估計、文本(ben)到(dao)(dao)語音、圖(tu)像(xiang)到(dao)(dao)圖(tu)像(xiang)、文本(ben)到(dao)(dao)圖(tu)像(xiang)和 3D 合成(cheng)等多種(zhong)生(sheng)成(cheng)式建模(mo)任務中(zhong)都(dou)取(qu)得了巨(ju)大成(cheng)功(gong)。
自人(ren)工(gong)智能得以真正發(fa)展(zhan)以來,每(mei)當有(you)了令人(ren)驚嘆的新進展(zhan)后都會(hui)有(you)相同(tong)的一個問(wen)題(ti)出現,即AI到底會(hui)不會(hui)取代人(ren)類,由擴散模(mo)型帶火的文字生成視頻也不例(li)外。
對于這個問題,Stability AI的新任首席信息官Daniel Jeffries曾經表示,AI最終會帶來更多的工作崗位,就像相機的發明雖然取代了大部分畫家,但也創造了攝影師這一職業,同時還開辟了電影、電視這樣更大規模的全新產業。
雖然(ran)對(dui)于普通用戶(hu)等非專業人(ren)士(shi)來說,當(dang)前AI生成(cheng)的(de)視(shi)頻效果已經足夠(gou)驚艷,但相信(xin)真正的(de)業內人(ren)士(shi)能夠(gou)一眼(yan)看出AI還是缺乏對(dui)每(mei)一個(ge)鏡(jing)頭的(de)精細控制,也沒(mei)有任何真正的(de)思(si)考注(zhu)入到視(shi)頻的(de)內容當(dang)中,對(dui)于AI取代視(shi)頻創(chuang)作者的(de)擔憂恐(kong)怕為時(shi)過早(zao)。
不過,這些AI技術對(dui)于工作(zuo)的(de)(de)輔助(zhu)作(zuo)用有立竿(gan)見影(ying)的(de)(de)效(xiao)果。如對(dui)于媒(mei)體(ti)行業來說,常常有“一圖勝千言(yan)”的(de)(de)情況發生(sheng),很多時候寫好了的(de)(de)文字,總差一張恰到(dao)好處的(de)(de)配圖來畫(hua)龍點睛。
此外,如果不(bu)能恰當地引(yin)用圖片并標注(zhu)來源,還(huan)會造成(cheng)一定的法(fa)律風險,當有(you)了AI輔助(zhu)生(sheng)成(cheng)圖片或視(shi)頻內容之(zhi)后,雖然可以規(gui)避類(lei)似問題,但(dan)新(xin)的問題也接踵而來。
2019年時,一款名為“ZAO”的AI換臉軟件曾經火爆全網,用戶只需要在APP中上傳一張照片,就能將自己的臉替換成任何想要替換的人,并且人臉融合效果非常好,達到了以假亂真的程度。不過,盡管該軟件很有趣,并且將技術門檻降到最低,但很快也遭到了用戶的抵制,因為該軟件獲取的個人信息并無法保障其安全性,這很有可能讓不法分子鉆了空子。
同樣,在AI生成(cheng)視頻領域,這樣的(de)(de)惡(e)意創作依舊不(bu)可避免(mian),出于安全和倫理的(de)(de)考慮,谷歌表示暫時(shi)不(bu)會發布(bu)兩個視頻生成(cheng)模型的(de)(de)代碼或Demo。Meta也承認,按(an)需制作真實(shi)感視頻的(de)(de)能力(li)存(cun)在一定的(de)(de)社(she)會危害,因此(ci)將所有由AI生成(cheng)的(de)(de)視頻內容都加上了水印,以“確(que)保觀(guan)眾知(zhi)道這段視頻是(shi)由人工智能生成(cheng)的(de)(de),而不(bu)是(shi)捕捉到的(de)(de)視頻。”
通常情況下,傳統理論認為,作(zuo)為智(zhi)力活動的(de)創作(zuo)只(zhi)能(neng)由人(ren)類的(de)思維活動來實現,即(ji)作(zuo)品是自(zi)然人(ren)思想(xiang)觀念的(de)表達(da)。但在人(ren)工(gong)智(zhi)能(neng)時代,這一理論將會受(shou)到(dao)重(zhong)大挑戰,人(ren)們也需(xu)要(yao)重(zhong)新思考(kao)與之相(xiang)關的(de)新標準、新道德、新法規。
參考資(zi)料:
1.《真·拿(na)嘴做視頻(pin)!Meta「AI導演」一句(ju)話搞定視頻(pin)素材,網友(you):我已跟不上AI發展速度(du)》,量子位
2.《谷(gu)歌AI生成視(shi)(shi)頻(pin)兩(liang)連發:720p高清+長鏡頭,網友:對短(duan)視(shi)(shi)頻(pin)行(xing)業沖擊太(tai)大(da)》,量子(zi)位
3.《圖像生成卷膩了,谷(gu)歌全面轉向文(wen)字(zi)→視頻生成,兩大(da)利(li)器同時挑戰分辨率和長度》,機器之心