国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

Meta開源多感官人工智能模型 結合六種類型的數據
作者 | cnBeta2023-05-11

Meta公司宣布了一個新的開源人工智能模型,將(jiang)多個數據流聯系在(zai)一起,包括文本、音頻、視覺數據、溫度和(he)運動讀數。該模型目(mu)前只(zhi)是一個研(yan)究項目(mu),沒有直接的(de)消費者或實際應(ying)用,但它指出了生(sheng)成(cheng)性人工(gong)智能(neng)系統(tong)的(de)未來(lai),可以創(chuang)造沉(chen)浸式的(de)多感官(guan)體驗,并表明在(zai)OpenAI和(he)Google等競爭(zheng)對手變得越(yue)來(lai)越(yue)神(shen)秘的(de)時候,Meta繼續分享人工(gong)智能(neng)研(yan)究。

該(gai)研究的(de)(de)核心概念(nian)是將多(duo)種類(lei)型的(de)(de)數據連接起來(lai),形成(cheng)一個(ge)(ge)(ge)單(dan)一的(de)(de)多(duo)維指數(或"嵌(qian)入空(kong)間",用(yong)人工智能的(de)(de)說法)。這(zhe)個(ge)(ge)(ge)想法可能看起來(lai)有點抽象,但(dan)正是這(zhe)個(ge)(ge)(ge)概念(nian)支撐著最近生成(cheng)性人工智能的(de)(de)蓬勃發展。

例如(ru),像DALL-E、Stable Diffusion和(he)Midjourney這樣(yang)的(de)(de)(de)人(ren)工智能圖(tu)像生成器都(dou)依賴于在(zai)訓(xun)練(lian)階段(duan)將(jiang)文本和(he)圖(tu)像聯系(xi)起(qi)來的(de)(de)(de)系(xi)統(tong)。他們在(zai)視(shi)覺(jue)數據中尋找模(mo)式,同時將(jiang)這些(xie)信息(xi)與圖(tu)像的(de)(de)(de)描述聯系(xi)起(qi)來。這就是使(shi)這些(xie)系(xi)統(tong)能夠(gou)按(an)照用戶的(de)(de)(de)文字輸入生成圖(tu)片的(de)(de)(de)原因。許多以同樣(yang)方式生成視(shi)頻(pin)(pin)或音(yin)頻(pin)(pin)的(de)(de)(de)人(ren)工智能工具也是如(ru)此。

Meta公司說,其模型(xing)ImageBind是第一(yi)(yi)個將六種類型(xing)的數據結合(he)到(dao)(dao)一(yi)(yi)個單一(yi)(yi)的嵌(qian)入空間的模型(xing)。該模型(xing)包括的六種數據是:視(shi)覺(圖像和視(shi)頻(pin)形式);熱(re)能(紅(hong)外圖像);文本;音頻(pin);深度信(xin)息;以及最有趣(qu)的--由慣性(xing)測量單元或IMU產(chan)生的運動讀數。(IMU存在于(yu)手(shou)機(ji)和智能手(shou)表(biao)中,它們被用于(yu)一(yi)(yi)系(xi)列任(ren)務,從將手(shou)機(ji)從橫(heng)向(xiang)(xiang)切換到(dao)(dao)縱(zong)向(xiang)(xiang)到(dao)(dao)區分不同(tong)類型(xing)的身體(ti)活動)。

Meta博客文章中(zhong)的(de)一張截圖,顯示了不同類(lei)型(xing)的(de)鏈接數據,例如,火車的(de)圖片、火車鳴笛的(de)音頻,以及關(guan)于火車三(san)維形狀(zhuang)的(de)深度信息。

Meta的(de)ImageBind模型(xing)(xing)結合了六種類(lei)型(xing)(xing)的(de)數(shu)據(ju):音頻、視覺、文本、深度、溫度和運動。

我們(men)的(de)(de)(de)(de)想法是,未(wei)(wei)來的(de)(de)(de)(de)人(ren)工(gong)智(zhi)能(neng)系統將(jiang)能(neng)夠交叉引用這(zhe)些數(shu)據(ju),就像目前(qian)的(de)(de)(de)(de)人(ren)工(gong)智(zhi)能(neng)系統處理文(wen)本輸入一(yi)樣(yang)。例如,想象一(yi)下,一(yi)個未(wei)(wei)來的(de)(de)(de)(de)虛擬現實設備不(bu)僅能(neng)產生音頻(pin)和(he)視(shi)覺輸入,還能(neng)產生你(ni)(ni)在物(wu)理舞臺(tai)上的(de)(de)(de)(de)環境和(he)運動。你(ni)(ni)可能(neng)會(hui)要(yao)求(qiu)它模(mo)擬一(yi)次(ci)漫長的(de)(de)(de)(de)海(hai)上航行,它不(bu)僅會(hui)把你(ni)(ni)放在一(yi)艘船上,背(bei)景(jing)是海(hai)浪的(de)(de)(de)(de)噪(zao)音,而(er)且(qie)還有甲板在你(ni)(ni)腳下的(de)(de)(de)(de)搖晃和(he)海(hai)洋空(kong)氣的(de)(de)(de)(de)涼風。

在(zai)一篇(pian)博文中(zhong),Meta公司指出(chu),其他的感(gan)官輸(shu)入(ru)流可以被添加到(dao)未來的模型中(zhong),包括"觸摸、語言、氣味(wei)和大腦fMRI信號"。它(ta)還聲(sheng)稱這項(xiang)研究"使機器離人類同(tong)(tong)時、全面和直接從許多不同(tong)(tong)形式(shi)的信息(xi)中(zhong)學習的能(neng)力(li)更近了一步"。

當然,這都(dou)是(shi)非常(chang)推測性的,而且像(xiang)(xiang)這樣的研(yan)究的直接應用很可能會更有(you)限。例如,去年,Meta公(gong)司(si)展示(shi)了(le)一個人工智能模(mo)型,可以(yi)從(cong)文(wen)本描述(shu)中(zhong)生(sheng)成短小而模(mo)糊的視(shi)頻。像(xiang)(xiang)ImageBind這樣的工作顯示(shi)了(le)該系統的未(wei)來版本如何納(na)入其他數(shu)據流,例如,生(sheng)成音頻以(yi)匹配視(shi)頻輸出。

不過,對于行業觀(guan)察者(zhe)來說,這(zhe)項研究(jiu)也很(hen)有趣,因為Meta公(gong)司正(zheng)在開(kai)放底層模型--這(zhe)是人工智能世界中越來越受到關(guan)注的做法(fa)。

那些反(fan)對開源的人(ren),比(bi)如OpenAI說這(zhe)(zhe)種做(zuo)法(fa)對創作(zuo)者(zhe)有害(hai),因為對手可以復制他們(men)的作(zuo)品,而且這(zhe)(zhe)可能(neng)有潛在的危險,讓(rang)惡意的行為者(zhe)利用最先進的人(ren)工智(zhi)能(neng)模型。倡導者(zhe)回(hui)應說,開放源代碼允許第三方(fang)(fang)仔(zi)細檢(jian)查系統(tong)的缺陷(xian),并改(gai)善(shan)它們(men)的一些缺陷(xian)。他們(men)指出(chu),這(zhe)(zhe)甚至可以提(ti)供商(shang)業利益,因為它基本上允許公司招募第三方(fang)(fang)開發人(ren)員作(zuo)為無償工人(ren)來改(gai)進他們(men)的工作(zuo)。

到目前為止,Meta一直(zhi)堅定地站在(zai)開源陣營中(zhong),盡管并非(fei)沒有困難。(例(li)如,其最新的語言模型(xing)LLaMA今年早些時(shi)(shi)候在(zai)網上泄露了。) 在(zai)許(xu)多方面,它(ta)在(zai)人工智能方面缺乏商業成就(該公(gong)司沒有可以與(yu)Bing、Bard或ChatGPT匹敵的聊(liao)天(tian)機(ji)器人),這使得這種(zhong)做(zuo)法成為可能。同時(shi)(shi),通過ImageBind,它(ta)正(zheng)在(zai)繼續實施這一戰略。

熱門文章
從去年來,消費電子市場一片萎靡,芯片供需出現逆轉,從“搶芯片”變成“去庫存”,芯片行業“寒氣逼人”。進入2023年,芯片行業寒冬還在繼續,行業整體仍處于下行觸底階段。根據世界半導體貿易統計組織(WST
2023-05-11
X