国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

Meta 發布全新文生圖模型,實力碾壓 Stable Diffusion、Midjourney
作者 | InfoQ2023-07-21

Meta 開發出文生圖模型 CM3Leon

近(jin)日(ri),Meta 公司宣布開發(fa)出一款名為 CM3Leon(發(fa)音類似「chameleon」)的文(wen)生(sheng)圖(tu)模(mo)型(xing),該(gai)模(mo)型(xing)能夠獨力(li)解決文(wen)本到(dao)圖(tu)像和圖(tu)像到(dao)文(wen)本的雙向(xiang)生(sheng)成任務。

Meta 表示:“在打造高質量生成模型的探索之路上,我們相信 CM3leon 在各類任務中的強大性能,正是邁向高保真度圖像生成與理解的重要一步。像 CM3leon 這樣的模型終將成為元宇宙中的(de)創造力(li)源泉與應用成(cheng)果,我們也期待(dai)繼續突破多模(mo)態語(yu)言模(mo)型的(de)新疆界、未(wei)來將更(geng)多優秀模(mo)型呈現在大(da)家面前。”

據介紹,CM3leon 是首(shou)個使用純文本語言模(mo)(mo)型配方(fang)(fang)改編(bian)和訓練而(er)成的多模(mo)(mo)態(tai)模(mo)(mo)型,并經歷(li)了(le)(le)大規模(mo)(mo)檢索增強預訓練和隨后(hou)的多任(ren)務監督微調(SFT)階段。與(yu) Stable Diffusion、DALL-E、Midjourney 等文生圖模(mo)(mo)型依賴(lai)于(yu)(yu)擴散(diffusion)模(mo)(mo)型技術不同,CM3Leon 采用了(le)(le)基于(yu)(yu) token 的自回歸模(mo)(mo)型方(fang)(fang)法(fa)。

Meta 表示(shi),盡管(guan)訓練時的(de)計算量(liang)僅相(xiang)當于(yu)以往基于(yu) Transformer 方法的(de)五分之(zhi)一,但 CM3leon 在文(wen)(wen)本(ben)(ben)(ben)(ben)到(dao)圖(tu)(tu)像(xiang)的(de)生成(cheng)方面還是獲得(de)了(le)(le)同類領(ling)先的(de)性(xing)能(neng)(neng)。CM3leon 既具備(bei)自回歸模型的(de)功能(neng)(neng)多樣性(xing)和(he)有效性(xing),也保持著較低的(de)訓練成(cheng)本(ben)(ben)(ben)(ben)和(he)良好的(de)推(tui)理效率。作為一套因果掩碼混合(he)模態(CM3)模型,它能(neng)(neng)夠以其他圖(tu)(tu)像(xiang)和(he)文(wen)(wen)本(ben)(ben)(ben)(ben)內容(rong)的(de)任意序(xu)列為條件,生成(cheng)相(xiang)應的(de)文(wen)(wen)本(ben)(ben)(ben)(ben)與(yu)圖(tu)(tu)像(xiang)序(xu)列。這極大擴展(zhan)了(le)(le)以往大模型只能(neng)(neng)從(cong)文(wen)(wen)本(ben)(ben)(ben)(ben)到(dao)圖(tu)(tu)像(xiang)、或者(zhe)只能(neng)(neng)從(cong)圖(tu)(tu)像(xiang)到(dao)文(wen)(wen)本(ben)(ben)(ben)(ben)的(de)功能(neng)(neng)局(ju)限(xian)。

一(yi)般來講(jiang),純(chun)文本(ben)生成模型往往會針對(dui)各類不同任(ren)務(wu)進行多任(ren)務(wu)指(zhi)令調(diao)整(zheng),借此增強(qiang)其遵(zun)循指(zhi)令提示的能(neng)力;而圖(tu)像生成模型則更多適配特定(ding)任(ren)務(wu)。Meta 將大規模多任(ren)務(wu)指(zhi)令調(diao)節運用到 CM3leon 的圖(tu)像和(he)文本(ben)生成當(dang)中(zhong),事實(shi)證明能(neng)夠顯著提高圖(tu)像標(biao)題生成、視覺問答、基于(yu)文本(ben)的圖(tu)像編輯和(he)按條件生成圖(tu)像等能(neng)力。這(zhe)也(ye)成為(wei)強(qiang)有力的實(shi)例,證明為(wei)純(chun)文本(ben)模型開放的擴(kuo)展配方也(ye)能(neng)直接推廣到基于(yu) token 化(hua)的圖(tu)像生成模型當(dang)中(zhong)。

Meta 稱,與目前廣泛使用(yong)的(de)圖(tu)(tu)像(xiang)生(sheng)成基準(zhun)(零(ling)樣本 MS-COCO)進(jin)行性能(neng)比(bi)較時,CM3leon 獲得了 4.88 的(de) FID(Fréchet Inception Distance,一種用(yong)于(yu)計算真實圖(tu)(tu)像(xiang)與生(sheng)成圖(tu)(tu)像(xiang)間特(te)征向量距離的(de)指標(biao),FID 值越(yue)(yue)小則相似度越(yue)(yue)高,最好(hao)為 0),超越(yue)(yue)谷歌的(de)文本到圖(tu)(tu)像(xiang)模型  Parti,證(zheng)明了自身技(ji)術的(de)先(xian)進(jin)性。

此外,CM3leon 還表現出(chu)令人印象深刻的(de)(de)復雜組合(he)對象生成(cheng)(cheng)能力。CM3leon 在各類視覺語言任務中均表現良好,包括(kuo)視覺問答和(he)生成(cheng)(cheng)長(chang)格式標題。由于訓練數(shu)據集僅包含 30 億文本(ben)(ben) token,因此 CM3leon 的(de)(de)零樣本(ben)(ben)性能也(ye)超越(yue)了由更廣泛數(shu)據集訓練而成(cheng)(cheng)的(de)(de)、體量(liang)更大的(de)(de)其他模(mo)型。

CM3leon 是如何打造出來的?

據介紹,CM3leon 架構(gou)采用的是類似基于(yu)文(wen)本類模型(xing)、已經(jing)成(cheng)熟的純解碼器 Transformer。但(dan)它的獨特之處,在于(yu)能(neng)夠同時輸入和(he)生成(cheng)文(wen)本加圖像(xiang)。正(zheng)是憑借這種能(neng)力,CM3leon 才得以成(cheng)功(gong)解決前文(wen)提到的各項任務。

訓(xun)練(lian)方(fang)面,Meta 表示(shi),通過一系(xi)列努力,CM3leon 的訓(xun)練(lian)檢索得到了(le)增強,大大提高了(le)模型成(cheng)果(guo)的效率和(he)(he)可(ke)控性。此外(wai),Meta 還根據各種不同圖(tu)像和(he)(he)文本(ben)生成(cheng)任(ren)務對模型進行了(le)指令微(wei)調。

隨著 AI 行(xing)業(ye)的(de)(de)不斷發展,像 CM3leon 這樣(yang)的(de)(de)生成模型正變得越來越復雜(za)。這些(xie)(xie)模型通過(guo)數百(bai)萬的(de)(de)示例圖(tu)像接受訓(xun)練,學習視覺效(xiao)果與文(wen)本之間的(de)(de)關(guan)系,但(dan)同時也可能(neng)反映(ying)訓(xun)練數據集中存在的(de)(de)偏差(cha)/偏見。Meta 稱,目前(qian) AI 行(xing)業(ye)仍處于理解和應對這些(xie)(xie)挑(tiao)戰(zhan)的(de)(de)早期(qi)階(jie)段,提升透(tou)明度才是加速(su)解決這些(xie)(xie)問題(ti)的(de)(de)關(guan)鍵。

Meta 使用許(xu)可數(shu)據集作為(wei) CM3leon 的(de)訓(xun)練(lian)(lian)素材(cai)。在預訓(xun)練(lian)(lian)階段,Meta 使用了(le)(le)數(shu)百萬張來自 Shutterstock 的(de)授權(quan)圖片,有著(zhu)高達 70 億個參數(shu),這也(ye)達到(dao)了(le)(le) OpenAI EALL-E2 模型的(de)兩倍以上。

Meta 方面表示:“在(zai)文本到圖(tu)像(xiang)生成領域(yu),圖(tu)像(xiang)數據來(lai)源的(de)道德影響已經引(yin)發了廣泛的(de)討(tao)論(lun)。在(zai)這一研究(jiu)中(zhong),我們只使用 Shutterstock 上的(de)經過授(shou)權(quan)的(de)圖(tu)像(xiang),因此可以(yi)避免與圖(tu)像(xiang)所有權(quan)和歸屬(shu)相(xiang)關的(de)擔憂(you),同(tong)時不會犧牲(sheng)性能。”

事(shi)實證明(ming),即使使用與(yu)先(xian)前所有模型的(de)(de)訓練數據(ju)(ju)都(dou)截(jie)然不(bu)同的(de)(de)數據(ju)(ju)分布,仍可實現(xian)強大的(de)(de)性(xing)能。通過全(quan)工作流(liu)程的(de)(de)透明(ming)展示(shi),Meta 希(xi)望(wang)鼓勵生成式 AI 領域能夠迎來(lai)更(geng)多合作與(yu)創新,打造出不(bu)僅更(geng)準(zhun)確(que)、而且對每個人(ren)都(dou)更(geng)加公平和公正的(de)(de) AI 模型。

CM3leon 的跨任務執行

CM3leon 的強大(da)之處在(zai)(zai)(zai)于更好地(di)遵循輸入提示以生成更連貫的圖像。例如,多數原有圖像生成模(mo)型(xing)都難以準(zhun)確(que)還原全局形態和局部(bu)細節,而 CM3leon 在(zai)(zai)(zai)這方面表現(xian)(xian)出色,以下是 CM3leon 在(zai)(zai)(zai)各類(lei)任務中(zhong)的表現(xian)(xian)(所有任務均由(you)單(dan)一模(mo)型(xing)處理完(wan)成)

文本引導的圖像生成與編輯

一(yi)般來說(shuo),如(ru)果(guo)約束條(tiao)件要求將(jiang)復雜的對象或提示全部體現(xian)(xian)在(zai)輸出結果(guo)中時(shi),圖像生成(cheng)模(mo)型往往難(nan)以(yi)很好地完成(cheng)工作(zuo)。這(zhe)就讓文本(ben)引(yin)導的圖像編輯(ji)(例(li)如(ru)“將(jiang)天空的顏(yan)色更(geng)改(gai)為蔚(yu)藍色”)更(geng)具挑戰,因為模(mo)型需要同時(shi)理(li)解文本(ben)指(zhi)令與視(shi)覺內容(rong)。CM3leon 在(zai)這(zhe)類場景下表(biao)現(xian)(xian)良好,具體請(qing)參考以(yi)下示例(li)。

文本到圖像

給定(ding)具(ju)有(you)潛在(zai)高組合度結構的提(ti)示文(wen)本(ben),生成遵循提(ti)示的連貫圖像(xiang)。

例(li)如,CM3leon 根據提示詞創建了(le)以下四幅圖(tu)像(xiang):

撒哈拉沙漠中戴著(zhu)草帽和彩色(se)太陽鏡(jing)的小仙人掌(zhang);

人(ren)手(shou)特定照(zhao)片,高質(zhi)量手(shou)部模型;

動漫風格(ge)的浣熊角色準(zhun)備用武士刀展開(kai)戰斗,蓄勢待發(fa),幻(huan)想風,插(cha)圖風格(ge);

奇幻風格的停車標志,內容為“1991”。

文本引導的圖像編輯

給定(ding)圖像(xiang)(xiang)與(yu)文(wen)本提示,根據文(wen)本說明對圖像(xiang)(xiang)內容做編輯處理。憑借強大的(de)通用性,CM3leon 能夠(gou)在(zai)單一模型(xing)之上(shang)完成以(yi)上(shang)與(yu)以(yi)下各項任(ren)務(wu),這全面突(tu)破了以(yi)往只(zhi)能借專用模型(xing)(例如(ru) InstructPix2Pix)進行文(wen)本引導圖像(xiang)(xiang)編輯的(de)局限。

文本任務

CM3leon 模型還能按照一系(xi)列不(bu)同(tong)揭示(shi)詞生成或(huo)短或(huo)長的標(biao)題(ti),并回答(da)關于圖像內容的問題(ti)。

例如,圖像內容為一只狗(gou)叼著一根(gen)棍子。

提示問題: 狗叼(diao)著什么?

模(mo)型輸出: 棍子

提(ti)示詞(ci): 詳細描述這張圖(tu)像(xiang)的內容(rong)。

模型輸出: 在這張(zhang)圖片(pian)中(zhong),有(you)一只狗嘴里叼著一根棍子。地面(mian)有(you)草覆(fu)蓋,背景(jing)中(zhong)是一片(pian)林地。

Meta 還根據(ju)經(jing)驗評估(gu)了這套(tao)指令微調模(mo)型(xing)在(zai)各種圖像(xiang)標題生成和(he)視覺問(wen)答任(ren)務(wu)中的表現,并將結果與之前最先進的性(xing)能基(ji)準進行了比較。盡管 CM3leon 模(mo)型(xing)的文本(ben)數據(ju)量明(ming)顯低于 Flamingo(100B)和(he) OpenFlamingo(40B),但其在(zai) MS-COCO 字幕與 VQA2 問(wen)答上(shang)的零(ling)樣本(ben)性(xing)能水平仍與 OpenFlamingo 相當,甚(shen)至在(zai) VizWiz 任(ren)務(wu)上(shang)以接近 10 分的成績擊敗了 Flamingo 模(mo)型(xing)。

結構引導的圖像編輯

結(jie)(jie)(jie)構(gou)引(yin)導(dao)的(de)圖像編輯(ji)不僅(jin)要求模型正確理解并解釋文本指令(ling),還需要在輸入中自(zi)行獲取結(jie)(jie)(jie)構(gou)或(huo)布局(ju)信息。而 CM3leon 同(tong)樣展現(xian)出強大(da)能力(li),在對圖像進行視(shi)覺連貫且匹配(pei)背(bei)景的(de)編輯(ji)的(de)同(tong)時,也能嚴格(ge)遵守給(gei)定的(de)結(jie)(jie)(jie)構(gou)或(huo)布局(ju)指引(yin)。

物體到圖像

根據給(gei)定的圖像邊界框生成文(wen)本描述,再將結果生成為新圖像。

摳圖

根據給定的(de)圖像(無文(wen)本類)摳(kou)圖并生成新的(de)圖像。這里的(de)輸入,代表我(wo)們希望進行摳(kou)圖的(de)原(yuan)始素材。

超分辨率結果

以(yi)上生(sheng)成的(de)所(suo)有(you)圖(tu)(tu)像(xiang)(xiang)均為 CM3leon 模型的(de)原始輸出(chu)結果。當然,圖(tu)(tu)像(xiang)(xiang)生(sheng)成還涉及另一(yi)種常見(jian)技(ji)巧(qiao),就是單獨做超分辨率訓練,借(jie)此根據(ju)原始模型生(sheng)成分辨率更高的(de)新圖(tu)(tu)像(xiang)(xiang)。CM3leon 在這項任(ren)務上同樣表(biao)現出(chu)色,具體請參見(jian)下(xia)面的(de)文本到(dao)圖(tu)(tu)像(xiang)(xiang)生(sheng)成示例。

每段提示詞對應四張示例圖像:

一(yi)杯熱氣(qi)騰騰的咖啡,以(yi)山脈為背景,公路旅行中的小憩;

夕陽下美麗而雄偉的道路,審美化構圖;

湖中央的圓形(xing)小(xiao)島,湖畔有(you)森林分(fen)布,高對比(bi)度(du)。

以下是更多生成示例:

海龜在水下游泳(yong),審美化(hua)構圖(tu),奇幻(huan)風格;

大象在(zai)水(shui)下游泳,審美化(hua)構(gou)圖,奇幻(huan)風格;

羊群(qun),審美化(hua)構(gou)圖,奇幻風格。

參考鏈接:

//ai.meta.com/blog/generative-ai-text-images-cm3leon/

熱門文章
Fury 是一個基于 JIT 動態編譯和零拷貝的多語言序列化框架
2023-07-21
X