国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

文字秒變 3D?蘋果發布最新 AI 生成模型 GAUDI
作者 | InfoQ2022-08-04

繼 AI 將文字(zi)變(bian)成(cheng)圖片后,又有 AI 可以將文字(zi)變(bian)成(cheng) 3D 場景(jing)了(le)。

蘋果發布新 AI 系統 GAUDI,能在室內生成 3D 場景

近日(ri),蘋果 AI 團隊發布最新 AI 系(xi)統 GAUDI,GAUDI 基于用于生成沉(chen)浸(jin)式 3D 場(chang)(chang)景的神經架構(gou) NeRFs,可以根(gen)據(ju)輸入的文(wen)字提示生成 3D 室內場(chang)(chang)景。

在(zai)此之前,OpenAI 的(de)(de) DALL-E 2 以及谷歌的(de)(de) Imagen 和(he) Parti 等 AI 系統都展示了將文(wen)字生成圖片(pian)的(de)(de)能力,但生成的(de)(de)內容僅(jin)限于 2D 圖像和(he)圖形。

2021 年年末,谷歌通過 Dream Fields 首(shou)次(ci)展示(shi)了新的 AI 系統,該系統將(jiang) NeRF 生(sheng)成(cheng)(cheng) 3D 視圖的能力(li)與(yu) OpenAI 的 CLIP 評(ping)估(gu)圖像內(nei)容的能力(li)相結合。而蘋果(guo) AI 團(tuan)隊發布(bu)的 GAUDI 則更進一步,能夠生(sheng)成(cheng)(cheng)沉(chen)浸(jin)式 3D 場景的神經(jing)架構,并可(ke)以根(gen)據文字(zi)提示(shi)創建 3D 場景。

例如,輸(shu)入(ru)“穿過走(zou)廊”或“上樓梯”,就可以看到執(zhi)行這(zhe)一(yi)動作(zuo)的 3D 場景視(shi)頻。

據了解,NeRFs 是一種主要用于 3D 模型和 3D 場景的(de)神經存儲介質,并能夠從不(bu)同的(de)相(xiang)機視角(jiao)進行渲染。

此前,將生(sheng)成 AI 擴展到(dao)完全不受約束的(de) 3D 場(chang)(chang)景是一(yi)個尚(shang)未解決的(de)問題。這(zhe)背后的(de)原因之一(yi)是受限于攝(she)(she)像機位置(zhi):雖然對(dui)(dui)于單個對(dui)(dui)象,每個攝(she)(she)像機位置(zhi)都可(ke)以映射到(dao)一(yi)個圓頂,但(dan)在 3D 場(chang)(chang)景中,這(zhe)些攝(she)(she)像機位置(zhi)會(hui)受到(dao)對(dui)(dui)象和墻壁等障礙物的(de)限制。

對于(yu)這(zhe)個難(nan)題,GAUDI 模型的(de)解(jie)(jie)決方案(an)是:相機姿態解(jie)(jie)碼(ma)器對可能(neng)的(de)相機位置進行預測,并(bing)確保輸(shu)出(chu)是 3D 場景架構的(de)有效位置。

雖然當前 GAUDI 生成的(de) 3D 場景(jing)視頻質量很(hen)低,但(dan)這也預示了 AI 在未來新(xin)的(de)可(ke)能,或(huo)許(xu)在 AI 的(de)下一階(jie)段(duan),我們可(ke)以看到更多驚(jing)喜。

GAUDI 背后的技術實現

根據蘋果方(fang)面(mian)的介(jie)紹,GAUDI 的目標是給定 3D 場景(jing)軌跡(ji)的經驗分布時,學(xue)習得出生成(cheng)模型。

論文地址:
//arxiv.org/pdf/2207.13751.pdf

具體技(ji)術實現方(fang)面,令 X = {xi∈{0,…,n}}表示所定(ding)義(yi)的經驗(yan)分布示例(li)集合(he),其中每(mei)(mei)個示例(li) xi 代(dai)表一條軌跡。每(mei)(mei)條軌跡 xi 被定(ding)義(yi)為相(xiang)應(ying)的 RGB、深度圖像與 6DOF 相(xiang)機位姿的可變(bian)長度序(xu)列。

蘋果 AI 團隊將學習(xi)(xi)生(sheng)成模型這個(ge)(ge)任務拆分(fen)成兩個(ge)(ge)階(jie)段。首先,為每個(ge)(ge)示(shi)例(li) x ∈ X 獲取一個(ge)(ge)潛在(zai)表示(shi) z = [zscene, zpose],用于表達場景輻射場和在(zai)單獨的(de)(de)解糾纏向量中(zhong)的(de)(de)位姿。接(jie)下來,給定一組潛在(zai)的(de)(de) Z = {zi∈{0,...,n}},目的(de)(de)就是學習(xi)(xi)分(fen)布 p(Z)。

1.優化輻射場與相機姿勢的潛在表示

為(wei)每(mei)個(ge)示(shi)例(li) x ∈ X(即(ji)經驗分布(bu)中的(de)每(mei)條軌跡)尋找潛(qian)在表示(shi) z ∈ Z。為(wei)了(le)獲得這一潛(qian)在表示(shi),團隊采用了(le)無編碼器視圖(tu),并(bing)將 z 解(jie)(jie)釋(shi)為(wei)通過優化問題[2,35]找到(dao)的(de)自由參數。為(wei)了(le)將潛(qian)在 z 映射至軌跡 x,我們設(she)計了(le)一套網(wang)(wang)絡(luo)架(jia)構(即(ji)解(jie)(jie)碼器),可用于解(jie)(jie)析相(xiang)機姿勢與輻射場(chang)參數。這里(li)的(de)解(jie)(jie)碼器架(jia)構由 3 個(ge)網(wang)(wang)絡(luo)構成(如(ru)下圖(tu)所(suo)示(shi)):

負(fu)責將(jiang)(jiang)相機(ji)位(wei)(wei)姿與(yu) 3D 幾(ji)何及場(chang)(chang)景外觀分(fen)(fen)離的解碼器(qi)模(mo)型架構。解碼器(qi)包含三個子模(mo)塊:解碼器(qi) d 將(jiang)(jiang)用于表(biao)(biao)示(shi)場(chang)(chang)景 zscene 的潛在代碼作為輸入,并(bing)通過(guo)三平面潛在編碼 w 生(sheng)成 3D 空間(jian)的分(fen)(fen)解表(biao)(biao)示(shi)。輻射場(chang)(chang)網(wang)絡(luo) f 則將(jiang)(jiang) p ∈ R3 作為輸入點,并(bing)以(yi) W 為條(tiao)件通過(guo)體積渲染(方程 1)預測出密度(du)σ和(he)信號 a。最后,我們通過(guo)網(wang)絡(luo) c 解碼相機(ji)位(wei)(wei)姿。網(wang)絡(luo) c 將(jiang)(jiang)歸一化的時間(jian)位(wei)(wei)置 s ∈ [-1, 1]作為輸入,并(bing)以(yi) zpose(表(biao)(biao)示(shi)整個軌跡 x 中的相機(ji)位(wei)(wei)姿)為條(tiao)件,預測出相機(ji)位(wei)(wei)姿 T^ s ∈ SE(3)。

  • 相(xiang)(xiang)機(ji)位(wei)(wei)姿解(jie)碼器網絡 c(由θc 實(shi)現參(can)數化)負責(ze)預測軌跡中歸一(yi)(yi)化時間位(wei)(wei)置 s ∈ [-1, 1]處(chu)的(de)相(xiang)(xiang)機(ji)位(wei)(wei)姿 T^ s ∈ SE(3),其中的(de) zpose 條件則代表整個軌跡的(de)相(xiang)(xiang)機(ji)位(wei)(wei)姿。為(wei)了(le)確保 c 的(de)輸(shu)(shu)出為(wei)有效相(xiang)(xiang)機(ji)位(wei)(wei)姿(例(li)如 SE(3)的(de)一(yi)(yi)個元素),輸(shu)(shu)出一(yi)(yi)個 3D 向量(liang),用以表示(shi)方向的(de)歸一(yi)(yi)化四元數 qs 外加 3D 平移(yi)向量(liang) ts。

  • 場景解碼器網(wang)絡(luo) d(由θd 實現參數化)負責預測輻(fu)射場網(wang)絡(luo) f 的條件變量。該(gai)網(wang)絡(luo)將表示場景 zscene 的潛在代碼作為輸入,可預測出以(yi)軸(zhou)對齊的三(san)平面表示[37, 4] W ∈ R 3×S×S×F。與空間維度 S x S 和 F 通(tong)道的三(san)個(ge)(ge)(ge)特征(zheng)圖[Wxy,Wxz,Wyz]相對應(ying),每個(ge)(ge)(ge)軸(zhou)分別對齊一(yi)個(ge)(ge)(ge)平面:xy、xz 與 yz。

  • 輻射場解碼器網絡(luo) f(由θf 實現(xian)參數化)的(de)(de)(de)作(zuo)用(yong),是使用(yong)方程(cheng) 1 中的(de)(de)(de)體(ti)積(ji)渲染議程(cheng)重建圖像(xiang)級(ji)目標。其中 f 的(de)(de)(de)輸入為 p ∈ R 3 和三平面表示 W = [Wxy,Wxz,Wyz]。給(gei)定一個要預測輻射度的(de)(de)(de) 3D 點 p = [i, j, k],將(jiang) p 正(zheng)交投影至 W 中的(de)(de)(de)每個平面,并執行雙(shuang)線(xian)性(xing)采(cai)樣。將(jiang)這 3 個雙(shuang)線(xian)性(xing)采(cai)樣向量(liang)連接成(cheng) wxyz = [Wxy(i, j),Wxz(j, k),Wyz(i, k)] ∈ R 3F,用(yong)于(yu)調節輻射場函數 f。這里,蘋果 AI 團隊將(jiang) f 實現(xian)為輸出密度值σ和信號(hao) a 的(de)(de)(de) MLP。為了預測像(xiang)素(su)的(de)(de)(de)值 v,使用(yong)體(ti)積(ji)渲染議程(cheng)(參見(jian)方程(cheng) 1),其中的(de)(de)(de) 3D 點表示特定深度 u 處的(de)(de)(de)光(guang)線(xian)方向 r(相對于(yu)像(xiang)素(su)位置(zhi))。

  • 方程1

團隊還確立了(le)去噪重建目標(biao),用以聯合優(you)化θd, θc, θf 和{z}i={0,...,n},詳見方(fang)程 2。

請注意(yi),雖然潛(qian)在(zai)(zai) z 是針對(dui)每個示(shi)例 x 獨(du)立(li)優(you)化的(de),但網絡θd, θc, θf 的(de)參數由所有示(shi)例 x ∈ X 均攤。與之前(qian)的(de)自動解碼方法[2,35]不同,每個潛(qian)在(zai)(zai) z 在(zai)(zai)訓練過程中(zhong)都會受到與所有潛(qian)在(zai)(zai)模型的(de)經驗(yan)標(biao)準差成正比的(de)加性噪聲干擾,即(ji) z = z+βN (0,std(Z)),從而導致(zhi)收縮(suo)表示(shi)[46]。在(zai)(zai)這種情況下,β控制(zhi)分布 z ∈ Z 的(de)熵與重建項間的(de)權衡(heng):當β= 0 時(shi),z 的(de)分布為指示(shi)函數的(de)集合(he);而β > 0 時(shi),潛(qian)在(zai)(zai)空間則為非(fei)平凡結構(gou)(non-trivial structure)。使用一個較小(xiao)的(de)β > 0 值強(qiang)制(zhi)獲(huo)得(de)一個潛(qian)在(zai)(zai)空間,插值樣本(或包含與經驗(yan)分布具(ju)有小(xiao)偏差的(de)樣本,即(ji)可(ke)能從采樣后續生成模型中(zhong)獲(huo)得(de)的(de)樣本)將受解碼器支持以被包含其中(zhong)。

方程2

使(shi)用兩種不(bu)同的(de)(de)損(sun)失函數對參(can)數θd, θf , θc 和潛在(zai)(zai)變量 z ∈ Z 進行(xing)優化。第一個損(sun)失函數 Lscene 負責測量在(zai)(zai) zscene 中(zhong)(zhong)編碼的(de)(de)輻射場與軌跡 x im s 中(zhong)(zhong)的(de)(de)圖(tu)像之間(jian)的(de)(de)重建(其中(zhong)(zhong) s 表示幀在(zai)(zai)軌跡中(zhong)(zhong)所(suo)處的(de)(de)歸一化時間(jian)位置),這時需(xu)要給定(ding)實際(ji)相機位姿 Ts。

對 RGB 使(shi)(shi)用(yong)(yong) l2 損(sun)(sun)失(shi)(shi)(shi)(shi)(shi)函數(shu),對 4 depth 1 使(shi)(shi)用(yong)(yong) l1 損(sun)(sun)失(shi)(shi)(shi)(shi)(shi)函數(shu)。第二個損(sun)(sun)失(shi)(shi)(shi)(shi)(shi)函數(shu) Lpose 則測量在 zpose 中編碼的位(wei)姿(zi) T^ s 與(yu)真實位(wei)姿(zi)之間的相(xiang)機位(wei)姿(zi)重建差(cha)。對平移(yi)使(shi)(shi)用(yong)(yong) l2 損(sun)(sun)失(shi)(shi)(shi)(shi)(shi),對相(xiang)機位(wei)姿(zi)的歸(gui)一化(hua)四(si)元數(shu)部(bu)分采用(yong)(yong) l1 損(sun)(sun)失(shi)(shi)(shi)(shi)(shi)。盡(jin)管在理論上,歸(gui)一化(hua)四(si)元數(shu)并(bing)不一定唯一(例如 q 和-q),但在訓(xun)練期間并(bing)未(wei)發現(xian)任何(he)經驗問題(ti)。

2.預先學習

給定一(yi)組潛在的(de)(de) z ∈ Z,這(zhe)些(xie) z 由對(dui)方(fang)(fang)程 2 中目(mu)(mu)標(biao)的(de)(de)最(zui)小(xiao)化(hua)產生。目(mu)(mu)的(de)(de)是(shi)通(tong)過學(xue)習獲(huo)得(de)一(yi)個生成(cheng)模型(xing) p(Z),并(bing)捕捉其分布(即在最(zui)小(xiao)化(hua)方(fang)(fang)程 2 的(de)(de)目(mu)(mu)標(biao)之(zhi)后,將 z ∈ Z 解釋為潛在空間中經驗分布的(de)(de)形式)。為了對(dui) p(Z)進(jin)行建(jian)模,團隊采用了去噪擴散(san)概(gai)率模型(xing)(DDPM)[15],這(zhe)是(shi)一(yi)種新近出現、基(ji)于(yu)分數(shu)匹(pi)配(pei)[16]的(de)(de)模型(xing)。該模型(xing)能夠通(tong)過大量但有限的(de)(de)時間步數(shu),學(xue)習馬爾可夫鏈的(de)(de)逆(ni)向擴散(san)。

DDPMs 表明(ming),這(zhe)一逆向過(guo)程等(deng)效于(yu)學(xue)習一系列具(ju)有綁定權重的(de)(de)(de)(de)去(qu)(qu)噪(zao)自動(dong)解碼器(qi)。DDPM 中(zhong)的(de)(de)(de)(de)監督(du)去(qu)(qu)噪(zao)目標使得學(xue)習這(zhe)(Z)變得簡單(dan)且可(ke)擴展。由此,我們就(jiu)能學(xue)習得到一個(ge)強(qiang)大的(de)(de)(de)(de)生成模型(xing),該(gai)模型(xing)能夠(gou)以無(wu)條件(jian)(jian)/有條件(jian)(jian)方(fang)式生成 3D 場(chang)景。為了訓練先前(qian)的(de)(de)(de)(de) pθp (Z),采(cai)用方(fang)程 3 中(zhong)定義的(de)(de)(de)(de)目標函數。在方(fang)程 3 中(zhong),t 代表時間步長,~ N (0, I)為噪(zao)聲,αˉt 為具(ju)有固定調度(du)的(de)(de)(de)(de)噪(zao)聲幅度(du)參數,θp 則表示去(qu)(qu)噪(zao)模型(xing)。

方程3

在推理(li)(li)期間,團(tuan)隊會遵循 DDPM 中(zhong)的推理(li)(li)過程以對(dui) z ~ pθp (Z)進行(xing)采(cai)樣(yang)。首先對(dui) zT ~ N (0, I)采(cai)樣(yang),之后迭代(dai)應(ying)(ying)用θp 對(dui) zT 進行(xing)梯度去(qu)噪,從而逆向(xiang)擴散馬爾可(ke)夫鏈以獲得 z0。接下來,將 z0 作為輸入提供給解碼器(qi)架構,借此重建(jian)輻射場和相機路徑。如(ru)果(guo)目標(biao)是學習潛(qian)在變(bian)量(liang) p(Z|Y )的條件(jian)分布,則應(ying)(ying)給定(ding)配對(dui)數(shu)據{z ∈ Z, y ∈ Y },為去(qu)噪模型θ增加一個條件(jian)變(bian)量(liang) y,由此得到(dao)θp (z, t, y)。

熱門文章
物聯網終端用戶超16億戶運營商價值潛能凸顯...
2022-08-04
X