英特爾公布 AI 大模型 Aurora genAI,具備 1 萬億參數
wccftech 報道,英(ying)特爾近(jin)日公布了旗(qi)下(xia)生成(cheng)式(shi) AI 大模型 Aurora genAI。
據悉,Aurora genAI 參數量高達 1 萬億,其開發依賴于 Megatron 和 DeepSpeed 框架,這些結構增強了模型的強度和容量。而 ChatGPT 模型參數量是 1750 億,這也意味著,Aurora genAI 的參數量是ChatGPT 的近 6 倍。
據悉,Aurora genAI 模型是英特爾是與阿貢國家實驗室和 HPE 合作開發的,它是一個純粹以科學為中心的生成式 AI 模型,將被用(yong)于各類科(ke)學(xue)(xue)應用(yong),包括(kuo)分子(zi)和材(cai)料設計、乃至涵(han)蓋數百(bai)萬(wan)來源(yuan)的(de)綜合知識(shi)素材(cai),據此為系統(tong)生物(wu)學(xue)(xue)、高分子(zi)化學(xue)(xue)、能源(yuan)材(cai)料、氣候科(ke)學(xue)(xue)和宇宙學(xue)(xue)等(deng)提(ti)(ti)供值得探索的(de)實驗(yan)設計思路。這(zhe)些模(mo)型還(huan)將用(yong)于加速癌癥及其他疾病的(de)相關生物(wu)過程(cheng)的(de)識(shi)別速度,并為藥(yao)物(wu)設計提(ti)(ti)供靶點建議。
除了(le)科研(yan)之外(wai),Aurora genAI 還(huan)具有(you)在自然語言(yan)處理(li)、機器翻譯、圖(tu)像識(shi)別、語音(yin)識(shi)別、金融建模等商業領域的(de)應用潛(qian)力(li)。
阿貢實驗(yan)(yan)室副主(zhu)任(ren) Rick Stevens 介紹(shao)稱,“這個項目(mu)希望充分利用 Aurora 超級計算機的全部潛(qian)力,為能源部各實驗(yan)(yan)室的下游科學研究(jiu)和其(qi)他跨機構(gou)合作計劃提(ti)供資(zi)源。”
根據介紹,Aurora genAI 模型將由生物學、化(hua)(hua)學、材料科(ke)學、物理(li)學、醫學等學科(ke)的常規(gui)文本(ben)、代碼、科(ke)學文本(ben)和結構(gou)化(hua)(hua)數據訓練而(er)成。阿貢(gong)實驗室正帶頭組織(zhi)(zhi)國際合(he)作以推進該項(xiang)目(mu),參(can)與方包括英特(te)爾、HPE、能源部各下轄(xia)實驗室、美國及(ji)其他國際性高校、非營利組織(zhi)(zhi),以及(ji) RIKEN 等國際合(he)作伙伴。
Aurora genAI 模型(xing)將運行(xing)在(zai)英特(te)爾(er)為阿拉(la)貢(gong)國家實(shi)驗室(shi)開發的(de) Aurora 超算上,其性(xing)能達到了(le) 200 億億次,是當前 TOP500 超算冠軍 Frontier 的(de) 2 倍。近日(ri),英特(te)爾(er)和阿貢(gong)國家實(shi)驗室(shi)還公布了(le) Aurora 的(de)安裝進度、系統規格和早期性(xing)能測試(shi)結果:
英特(te)爾已(yi)完成 Aurora 超級計算機 1 萬(wan)多塊刀(dao)片(pian)服務器的交付(fu)。
Aurora 的完(wan)整(zheng)系統采(cai)用 HPE Cray EX 超算架(jia)構,將擁有(you) 63744 個(ge) GPU 和(he) 21248 個(ge) CPU,輔以 1024 個(ge) DAOS 存儲節點。Aurora 還將配備 HPE Slingshot 高性能(neng)以太網絡。
早(zao)期性能結果顯示,Aurora 超算系(xi)統在(zai)(zai)實(shi)際(ji)科(ke)學(xue)和工(gong)程負(fu)載上(shang)具有領先性能,性能表現比 AMD MI250 GPU 高出 2 倍,在(zai)(zai) QMCPACK 量子力(li)學(xue)應(ying)用程序(xu)上(shang)的(de)性能比 H100 提高 20%,且能夠(gou)在(zai)(zai)數百個節點上(shang)保持近(jin)線性的(de)算力(li)擴展。作為 ChaGPT 的(de)有力(li)競爭者,Aurora genAI 的(de)公布預示著 AI 大(da)模型賽道又(you)迎來了新的(de)重(zhong)磅玩家,并極有可能在(zai)(zai)未來對各種科(ke)學(xue)領域產(chan)生重(zhong)大(da)影響。不(bu)過(guo)目前,Aurora genAI 更像是(shi)處于概(gai)念階段,英特(te)爾的(de)目標(biao)是(shi)到 2024 年完(wan)成(cheng) Aurora genAI 模型的(de)構建。
對(dui)于英特爾(er)的(de)(de)萬億參(can)數(shu)(shu) AI 大(da)模(mo)型(xing) Aurora genAI,有網友(you)表示:“我不(bu)(bu)相信僅(jin)僅(jin)增加參(can)數(shu)(shu)數(shu)(shu)量(liang)就能改進(jin)模(mo)型(xing),我認(ren)為我們(men)(men)不(bu)(bu)應該(gai)發布新聞稿(gao)追逐(zhu)增加參(can)數(shu)(shu)數(shu)(shu)量(liang)。我在研究中(zhong)還發現,較大(da)的(de)(de)模(mo)型(xing)通常不(bu)(bu)會(hui)表現得更好,但(dan)由于不(bu)(bu)負責任的(de)(de)營(ying)銷(xiao),這變得越(yue)來越(yue)難以向非(fei)技術人員(yuan)解釋。如果(guo)我們(men)(men)對(dui)這些營(ying)銷(xiao)放任不(bu)(bu)管,我們(men)(men)會(hui)讓很多人失望,并降低大(da)家對(dui) AI 未來增長(chang)潛力的(de)(de)信心——我們(men)(men)不(bu)(bu)想(xiang)要(yao)另一個 AI 寒冬。訓練這些大(da)型(xing)模(mo)型(xing)會(hui)產生巨大(da)的(de)(de)環(huan)境成本,而且理解、使用和控制這些非(fei)常大(da)的(de)(de)模(mo)型(xing)(即使作為研究人員(yuan))也(ye)變得更加困難。”
AI 軍備競賽進入“萬億參數模型”對抗時代?
近幾年,隨著 AI 大模(mo)(mo)型賽道持續(xu)升溫(wen),越來(lai)越多的科(ke)技巨(ju)頭加入進來(lai),并(bing)不(bu)斷打破參數規模(mo)(mo)記錄。
2021 年 1 月(yue),谷歌大(da)腦團(tuan)隊(dui)重(zhong)磅推(tui)出(chu)超級語(yu)言模型 Switch Transformer,該模型有(you) 1.6 萬億(yi)(yi)個參數(shu)(shu),是當時規模最大(da)的 NLP 模型。同年 6 月(yue),智源研究(jiu)院(yuan)發(fa)布悟道 2.0,該系(xi)統參數(shu)(shu)數(shu)(shu)量已超過(guo) 1.75 萬億(yi)(yi),是當時全球最大(da)的大(da)規模智能模型系(xi)統。同年 11 月(yue),阿(a)里達摩院(yuan)發(fa)布多模態(tai)大(da)模型 M6,其參數(shu)(shu)已從萬億(yi)(yi)躍遷(qian)至 10 萬億(yi)(yi),是當時全球最大(da)的 AI 預訓練模型。
有分析指出,中美(mei) AI 軍備競(jing)賽的核心戰場(chang)正是萬億(yi)級預訓(xun)練(lian)模(mo)型(xing)。打造千萬億(yi)參數規模(mo)的預訓(xun)練(lian)模(mo)型(xing)是人類的一個超級工程,可(ke)能會(hui)對國家甚至人類社會(hui)產生重(zhong)大(da)影(ying)響。
那么,模型參數越大就越好嗎?
鵬城實驗室網絡智能部云計算所副(fu)所長相洋曾在接受(shou) InfoQ 采訪時(shi)指出(chu):
我們最(zui)初見到(dao)(dao)的(de)一(yi)些(xie)模(mo)型是(shi)(shi)幾(ji)萬(wan)(wan)個(ge)參(can)(can)數(shu)(shu),后來就(jiu)到(dao)(dao)了(le)幾(ji)億(yi)、幾(ji)十億(yi)、百億(yi)、千(qian)億(yi),還有可(ke)(ke)能上萬(wan)(wan)億(yi)。目前(qian)從事實(shi)來說(shuo),的(de)確是(shi)(shi)模(mo)型越(yue)(yue)大數(shu)(shu)據越(yue)(yue)多,且質(zhi)量越(yue)(yue)好(hao)(hao),帶來的(de)性能是(shi)(shi)越(yue)(yue)高(gao)的(de)。但是(shi)(shi)我個(ge)人認為,這個(ge)提(ti)升(sheng)曲線可(ke)(ke)能會(hui)有一(yi)個(ge)瓶頸期(qi),到(dao)(dao)了(le)瓶頸或(huo)者(zhe)(zhe)平臺期(qi)的(de)時(shi)候(hou),它的(de)上升(sheng)速(su)度可(ke)(ke)能就(jiu)會(hui)緩慢,或(huo)者(zhe)(zhe)說(shuo)基本就(jiu)達到(dao)(dao)穩(wen)定了(le)。就(jiu)目前(qian)而(er)言,可(ke)(ke)能我們還沒有到(dao)(dao)達平臺期(qi)。所以說(shuo),“模(mo)型參(can)(can)數(shu)(shu)越(yue)(yue)大越(yue)(yue)好(hao)(hao)”這個(ge)說(shuo)法在一(yi)定程度上是(shi)(shi)成(cheng)立的(de)。
但是,判斷一個大模型是否優秀,不能只看參數,還要看實際表現。模(mo)(mo)(mo)型(xing)(xing)得出(chu)來(lai)的(de)任務效果(guo)好(hao),我們就(jiu)可(ke)以(yi)認為這個(ge)模(mo)(mo)(mo)型(xing)(xing)是(shi)個(ge)好(hao)模(mo)(mo)(mo)型(xing)(xing)。參(can)數不是(shi)問題,當機器(qi)無論(lun)是(shi)在存儲(chu)還是(shi)計(ji)算能(neng)力(li)都(dou)足夠強(qiang)的(de)時候,大模(mo)(mo)(mo)型(xing)(xing)也可(ke)以(yi)變成小模(mo)(mo)(mo)型(xing)(xing)。
此(ci)外,還要考慮模(mo)(mo)(mo)(mo)型(xing)(xing)的(de)可解釋(shi)能(neng)力,以及是(shi)否容(rong)易受噪(zao)聲的(de)攻擊。如(ru)果該模(mo)(mo)(mo)(mo)型(xing)(xing)有一定的(de)解釋(shi)能(neng)力,那這個(ge)(ge)模(mo)(mo)(mo)(mo)型(xing)(xing)就(jiu)是(shi)一個(ge)(ge)好(hao)模(mo)(mo)(mo)(mo)型(xing)(xing);如(ru)果該模(mo)(mo)(mo)(mo)型(xing)(xing)不易被噪(zao)聲數(shu)據或是(shi)其他因素影(ying)響的(de)話,那這個(ge)(ge)模(mo)(mo)(mo)(mo)型(xing)(xing)也是(shi)一個(ge)(ge)好(hao)模(mo)(mo)(mo)(mo)型(xing)(xing)。
本文轉載來源(yuan):
//www.infoq.cn/news/bx7SvZNNgOd63b2hI1yz