今年來,隨著(zhu)算力的(de)不斷增(zeng)加(jia)和(he)深度(du)學習(xi)等技術的(de)進(jin)步,AI在內(nei)容生產領(ling)域的(de)應用已經不僅僅局限(xian)于圖片和(he)文字(zi)。最(zui)近,內(nei)容生成AI可以說正式進(jin)入視頻時代,未(wei)來用描述性的(de)文字(zi)直(zhi)接生成腦海中的(de)畫面將(jiang)不再困(kun)難,人人都將(jiang)能(neng)夠制(zhi)作出電影(ying)級別的(de)長短視頻。
當看到下面這個“馬(ma)兒低頭喝水(shui)”的(de)(de)畫面時,相信每個人都會(hui)認為這是對一段(duan)事先拍(pai)攝好的(de)(de)視頻加上了(le)動漫化的(de)(de)濾鏡,但真(zhen)實的(de)(de)情況(kuang)卻(que)是,這個視頻里的(de)(de)每一個像(xiang)素全都是由AI來生成(cheng)的(de)(de),僅僅是對AI模(mo)型輸入了(le)一句(ju)簡單“馬(ma)兒喝水(shui)”。
據了解,該AI模型(xing)名為“Make-A-Video”,是(shi)由Meta AI的(de)研究人員開(kai)發(fa)出來的(de),任意給模型(xing)輸入幾個單詞(ci)或幾行文(wen)字,就能生成符合語義的(de)但在現實中卻并(bing)不存在的(de)視(shi)頻畫面,而且風格還可以多元(yuan)化。
例(li)如(ru),將一些英文短(duan)句輸入模(mo)型(xing)之后,生(sheng)成的視頻也都讓人(ren)嘆為觀止:
不得不說,現在人工智能的發展真(zhen)的是日新(xin)月異(yi),每隔一段時間就會(hui)給人不同的驚喜。
最近幾年,人工(gong)智能(neng)在視覺領域(yu)的發展可謂是“神速”。去(qu)年1月,致力于(yu)“用(yong)通(tong)用(yong)人工(gong)智能(neng)造福全人類”的OpenAI公司基于(yu)GPT-3模型發布了劃時代的 DALL·E,實(shi)現了從文本生成圖像。
今年4月份,OpenAI發布的第二代DALL·E 2模型,再次為圖像生成領域樹立了全新標桿,可以通過簡短的文本描述(prompt)來生成相應的圖像,使得不(bu)會畫(hua)畫(hua)的(de)(de)人也可以(yi)將自(zi)己的(de)(de)想象力變為藝術(shu)創作,例如(ru)“羊駝打籃球”這句話(hua)生成的(de)(de)四張圖片看起來(lai)就非(fei)常符合大家預期的(de)(de)想象。
不(bu)僅(jin)如此(ci),隨著文字描(miao)述的顆粒度不(bu)斷(duan)細化,生(sheng)成的圖像也會越來越精準,效果(guo)在非專(zhuan)業人士看來已經相當震撼。
但DALL-E 2這樣的模型仍然停留在二維創作即圖片生成領域,無法生成360度無死角的3D模型。但這依舊難不住極具創意的算法研究員,Google Research的一項最新成果——DreamFusion模型,即可通過輸入簡單的文本提示生成3D模型,不僅能夠在不同的光照條件下進(jin)行渲染(ran),而且生(sheng)成的3D模(mo)型(xing)還具有密度、顏色等特性(xing),甚至(zhi)可以把生(sheng)成的多個3D模(mo)型(xing)融(rong)合到一個場景里。
在生成(cheng)3D圖片之后,Meta的(de)算法人員將思路進(jin)一步(bu)打(da)開,向更高難度發(fa)起(qi)挑戰,開始探(tan)索用文字提示來直接生成(cheng)視頻。
雖然本質上來(lai)說,視(shi)頻就是一系列圖像(xiang)的(de)疊加,但相(xiang)(xiang)比于生(sheng)成(cheng)圖像(xiang),用文字來(lai)生(sheng)成(cheng)視(shi)頻時(shi)不僅(jin)需要生(sheng)成(cheng)相(xiang)(xiang)同場景下(xia)的(de)多個幀(zhen),還要保證相(xiang)(xiang)鄰幀(zhen)之間的(de)連貫性,訓練模型(xing)時(shi)可用的(de)高質量視(shi)頻數據非常少,但計(ji)算量卻很大,大大增加了(le)視(shi)頻生(sheng)成(cheng)任(ren)務的(de)復雜性。
9月29日,來自Meta的研究人員發布了Make-A-Video,這是一個基于人工智能的高質量短視頻生成模型,相當于視頻版的DALL·E,也被戲稱為“用(yong)(yong)嘴做視頻”,即可以(yi)通過文本提示創建新的視頻內容,其背后使(shi)用(yong)(yong)的關鍵技(ji)術(shu)也同樣來自DALL-E等圖像生成(cheng)器所使(shi)用(yong)(yong)的文本-圖像合(he)成(cheng)技(ji)術(shu)。
僅1周之后,谷歌CEO皮查伊就接連官宣了兩個模型來正面挑戰Meta的Make-A-Video,分別是Imagen Video與Phenaki。
與Make-A-Video相比,Imagen Video更加突出視頻的高清特性,能(neng)生成1280*768分辨率、每(mei)秒(miao)24幀的視頻片段,還能(neng)理(li)解并生成不(bu)同(tong)藝術風(feng)格的作品;理(li)解物體的3D結(jie)構,在(zai)(zai)旋轉(zhuan)展示中不(bu)會變形;甚至還繼承(cheng)了Imagen準確描繪文字的能(neng)力,在(zai)(zai)此(ci)基礎上(shang)僅靠簡(jian)單描述產生各種(zhong)創意(yi)動畫。
而Phenaki則能根據200個詞左右的提示語生成2分鐘以上的較低分辨率長鏡頭,講述一個相對完整的故事。
在計算機視覺領域中,文本生成圖像或視頻用到最多的就是生成模型,生成模型也在最近的文本到圖像 AI 系統中取得了重大進展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。這些新模型和算法的基本思路都來自于早期最出名的GAN(生成對抗網絡),即通過生成器和辨別器之間的相互對抗來生成圖像。但由于模型本身具有對抗性,因此很難進行訓練,而利用擴散模型則可以(yi)解決這(zhe)個問題,這(zhe)也是今年最(zui)火(huo)的模型之(zhi)一。
擴散模型也是生成模型的一種,其背后的直覺和原理來源于物理學:氣體分(fen)子從高密度區域(yu)擴散到低密度區域(yu)的現象與由于噪(zao)聲干擾而(er)導致信(xin)息(xi)(xi)丟失的現象相似。所以(yi)通(tong)過(guo)(guo)引入(ru)噪(zao)聲導致信(xin)息(xi)(xi)的衰減,再嘗試通(tong)過(guo)(guo)去噪(zao)來生成圖像(xiang)(xiang),就能通(tong)過(guo)(guo)多次迭代,使得模(mo)型(xing)(xing)每次都(dou)(dou)在給定一些噪(zao)聲輸入(ru)的情況下(xia)學習(xi)生成新圖像(xiang)(xiang)。如今,擴散模(mo)型(xing)(xing)在密度估計、文(wen)本(ben)到語音、圖像(xiang)(xiang)到圖像(xiang)(xiang)、文(wen)本(ben)到圖像(xiang)(xiang)和(he) 3D 合成等多種生成式建模(mo)任(ren)務中(zhong)都(dou)(dou)取得了(le)巨大成功。
自人工(gong)智能得(de)以真正發(fa)展以來,每當有了令人驚嘆的(de)新進展后都會有相同的(de)一個問題出現,即AI到底(di)會不會取代人類,由(you)擴散(san)模(mo)型帶火(huo)的(de)文字生成視頻也不例外(wai)。
對于這個問題,Stability AI的新任首席信息官Daniel Jeffries曾經表示,AI最終會帶來更多的工作崗位,就像相機的發明雖然取代了大部分畫家,但也創造了攝影師這一職業,同時還開辟了電影、電視這樣更大規模的全新產業。
雖然對于普通用戶(hu)等非專業人士來說,當(dang)前AI生(sheng)成(cheng)的(de)視頻(pin)(pin)效果已經(jing)足夠驚艷,但相信真(zhen)正的(de)業內(nei)人士能夠一(yi)(yi)眼看出AI還(huan)是缺乏對每一(yi)(yi)個鏡頭的(de)精細控制(zhi),也沒有(you)任(ren)何真(zhen)正的(de)思考注(zhu)入到視頻(pin)(pin)的(de)內(nei)容當(dang)中(zhong),對于AI取代(dai)視頻(pin)(pin)創作者的(de)擔憂恐怕為時(shi)過早。
不過,這些(xie)AI技術對于(yu)工(gong)作(zuo)(zuo)的(de)輔(fu)助作(zuo)(zuo)用有(you)立竿見(jian)影的(de)效果。如對于(yu)媒體行業來說,常常有(you)“一圖勝千(qian)言”的(de)情況發生,很多時候寫好(hao)了的(de)文字,總差(cha)一張恰到好(hao)處的(de)配(pei)圖來畫龍點睛(jing)。
此外,如果不能恰(qia)當地引用圖片(pian)并標(biao)注來(lai)源(yuan),還會(hui)造成一(yi)定(ding)的法律風險,當有了AI輔助(zhu)生成圖片(pian)或(huo)視(shi)頻內容之后,雖然可(ke)以(yi)規避類似問(wen)題(ti),但新的問(wen)題(ti)也接踵(zhong)而(er)來(lai)。
2019年時,一款名為“ZAO”的AI換臉軟件曾經火爆全網,用戶只需要在APP中上傳一張照片,就能將自己的臉替換成任何想要替換的人,并且人臉融合效果非常好,達到了以假亂真的程度。不過,盡管該軟件很有趣,并且將技術門檻降到最低,但很快也遭到了用戶的抵制,因為該軟件獲取的個人信息并無法保障其安全性,這很有可能讓不法分子鉆了空子。
同樣(yang),在(zai)AI生(sheng)(sheng)成(cheng)視(shi)頻領域,這樣(yang)的惡(e)意創作依舊(jiu)不可避(bi)免(mian),出于安全(quan)和倫(lun)理的考慮,谷歌表示暫時(shi)不會發布兩個視(shi)頻生(sheng)(sheng)成(cheng)模(mo)型的代碼或(huo)Demo。Meta也承認(ren),按需制作真實感視(shi)頻的能力存在(zai)一(yi)定(ding)的社(she)會危害,因此將所有由(you)AI生(sheng)(sheng)成(cheng)的視(shi)頻內容都加(jia)上了水印,以“確保(bao)觀眾知道這段視(shi)頻是(shi)(shi)由(you)人工智能生(sheng)(sheng)成(cheng)的,而不是(shi)(shi)捕捉到的視(shi)頻。”
通常情(qing)況下,傳統理論認(ren)為,作為智力(li)活(huo)(huo)動的(de)(de)創作只(zhi)能由人(ren)(ren)類的(de)(de)思(si)(si)維活(huo)(huo)動來(lai)實現,即作品是自然(ran)人(ren)(ren)思(si)(si)想(xiang)觀念的(de)(de)表達。但在人(ren)(ren)工智能時代,這(zhe)一理論將(jiang)會受到(dao)重(zhong)大(da)挑戰,人(ren)(ren)們也需(xu)要重(zhong)新(xin)(xin)思(si)(si)考(kao)與之相關的(de)(de)新(xin)(xin)標準、新(xin)(xin)道德、新(xin)(xin)法規(gui)。
參考資料:
1.《真·拿嘴(zui)做視(shi)頻!Meta「AI導演」一(yi)句話(hua)搞定視(shi)頻素材(cai),網友:我已跟(gen)不上AI發展(zhan)速度(du)》,量子位
2.《谷歌AI生成視頻兩連(lian)發(fa):720p高清+長鏡頭,網友(you):對短視頻行業(ye)沖擊太大》,量子位
3.《圖(tu)像生(sheng)(sheng)成卷(juan)膩(ni)了,谷(gu)歌全面(mian)轉向文字→視頻生(sheng)(sheng)成,兩大利器同(tong)時(shi)挑(tiao)戰分辨率和長度》,機(ji)器之心