全世界都在搶(qiang)算(suan)力,中國大公司更急(ji)迫。
2022 年下半年,生(sheng)成(cheng)式 AI 爆(bao)火的同時,硅谷著名風險資(zi)本 a16z 走訪了(le)(le)數十家 AI 創(chuang)業公(gong)司(si)(si)和大科技公(gong)司(si)(si)。他們發(fa)現,創(chuang)業公(gong)司(si)(si)轉(zhuan)手就把 80%-90% 的早(zao)期融(rong)資(zi)款送給了(le)(le)云計算平臺(tai),以(yi)訓練(lian)自己的模型(xing)。他們估(gu)算,即(ji)便這(zhe)些公(gong)司(si)(si)的產品(pin)成(cheng)熟了(le)(le),每年也得把 10%-20% 的營收(shou)送給云計算公(gong)司(si)(si)。相當于(yu)一筆 “AI 稅”。
這帶來(lai)了在(zai)(zai)云上提供模(mo)型(xing)(xing)能力和訓練服(fu)務,把算(suan)力租給(gei)其它客戶(hu)和創(chuang)業公司(si)的(de)大市場。僅在(zai)(zai)國內,現(xian)在(zai)(zai)就至少(shao)有數十家創(chuang)業公司(si)和中(zhong)小(xiao)公司(si)在(zai)(zai)自制復雜大語言模(mo)型(xing)(xing),他們都得從(cong)云計算(suan)平臺(tai)租 GPU。據(ju) a16z 測算(suan),一個公司(si)一年的(de) AI 運算(suan)開支只(zhi)有超(chao)過 5000 萬美元,才有足(zu)夠(gou)的(de)規模(mo)效應支撐(cheng)自己批量采(cai)購 GPU。
據(ju)《晚點(dian) LatePost》了解,今年春節后,擁有云(yun)計算業(ye)務的中國各互聯網大公司都向英偉達下了大單(dan)。字節今年向英偉達訂購了超(chao)過 10 億美元的 GPU,另一家大公司的訂單(dan)也至少超(chao)過 10 億元人(ren)民幣(bi)。
僅字節一家公司今(jin)年(nian)(nian)(nian)的(de)(de)訂單(dan)可能已接近(jin)英偉達去年(nian)(nian)(nian)在(zai)中(zhong)國銷(xiao)售(shou)的(de)(de)商(shang)用 GPU 總(zong)和。去年(nian)(nian)(nian) 9 月,美國政府發布對 A100、H100(英偉達最新兩代(dai)數據(ju)中(zhong)心商(shang)用 GPU) 的(de)(de)出口限制時,英偉達曾回應(ying)稱(cheng)這可能影響去年(nian)(nian)(nian)四(si)季度它在(zai)中(zhong)國市場的(de)(de) 4 億(yi)(yi)美元(yuan)(約合 28 億(yi)(yi)元(yuan)人民幣(bi))潛(qian)在(zai)銷(xiao)售(shou)。以(yi)此推算(suan),2022 年(nian)(nian)(nian)全年(nian)(nian)(nian)英偉達數據(ju)中(zhong)心 GPU 在(zai)中(zhong)國的(de)(de)銷(xiao)售(shou)額約為 100 億(yi)(yi)元(yuan)人民幣(bi)。
相比海外巨頭(tou),中國大科技公司(si)采(cai)(cai)購 GPU 更為急迫。過去兩年的(de)降本增(zeng)效(xiao)中,一(yi)些(xie)云(yun)計(ji)算平臺減少了 GPU 采(cai)(cai)購,儲備(bei)不足。此外,誰也不敢保證,今天能(neng)買的(de)高(gao)性(xing)能(neng) GPU,明天會不會就受(shou)到(dao)新(xin)的(de)限(xian)制。
從砍單到加購,同時內部騰挪
今年(nian)初之前,中國大(da)型科技公司對 GPU 的需求還不(bu)溫不(bu)火。
GPU 在中(zhong)(zhong)國大型互聯網科技公司中(zhong)(zhong)主要有(you)兩個用途:一是(shi)對內支持(chi)業(ye)務和做一些前(qian)沿 AI 研究,二是(shi)把 GPU 放到云(yun)計算平臺上對外售賣。
一(yi)名字(zi)節人(ren)士告訴《晚點 LatePost》,2020 年 6 月 OpenAI 發布(bu) GPT-3 后,字(zi)節就曾訓練了一(yi)個數十億(yi)參數的(de)生(sheng)成式語言大模(mo)型(xing),當(dang)時主(zhu)要(yao)使(shi)用的(de) GPU 是 A100 前(qian)代產品 V100。由于參數規模(mo)有限,這(zhe)個模(mo)型(xing)生(sheng)成能力(li)一(yi)般,字(zi)節當(dang)時看不(bu)到它的(de)商業(ye)化可(ke)能性,“ROI(投資回報率) 算(suan)不(bu)過來”,這(zhe)次嘗試不(bu)了了之。
阿里(li)也(ye)曾在 2018-2019 年積極采(cai)購(gou) GPU。一位阿里(li)云人士稱(cheng),當(dang)時阿里(li)的(de)采(cai)購(gou)量至少達到上萬(wan)(wan)塊規模,購(gou)買的(de)型(xing)號(hao)主要是 V100 和英(ying)偉達更早前(qian)發布(bu)的(de) T4。不過這批 GPU 中只有約十分之一給到了達摩(mo)院(yuan)用(yong)作 AI 技術研發。2021 年發布(bu)萬(wan)(wan)億參數大(da)模型(xing) M6 后,達摩(mo)院(yuan)曾披露訓練 M6 使用(yong)了 480 塊 V100。
阿里當時購買(mai)的 GPU,更(geng)多(duo)給到了(le)阿里云用于對外租賃。但包括阿里云在內(nei)(nei),一批中國(guo)云計算公司都高估了(le)中國(guo)市(shi)場的 AI 需(xu)求。一位(wei)科技投資人稱,大模(mo)型(xing)熱潮之前,國(guo)內(nei)(nei)主要云廠商上的 GPU 算力不是緊(jin)缺,而是愁賣,云廠商甚至得(de)降(jiang)(jiang)價賣資源。去(qu)年阿里云先后(hou)降(jiang)(jiang)價 6 次,GPU 租用價下降(jiang)(jiang)超兩成。
在降本增(zeng)效(xiao),追(zhui)求 “有(you)質量(liang)的增(zeng)長” 與利潤(run)的背景(jing)下,據了解(jie),阿里在 2020 年之后收縮(suo)了 GPU 采購規(gui)模(mo),騰訊也在去年底砍單(dan)一批英偉達(da) GPU。
然(ran)而沒過多久后(hou)的 2022 年初(chu),ChatGPT 改變了所有人的看法(fa),共識很快達成(cheng):大模(mo)型是不容(rong)錯(cuo)過的大機會。
各公司創始人親自關注大模型進展:字節跳動創始人張一鳴開始看人工智能論(lun)文(wen);阿(a)(a)里巴巴董事局主席張勇接(jie)手(shou)阿(a)(a)里云,在阿(a)(a)里云峰會發(fa)布(bu)阿(a)(a)里大模型(xing)進(jin)展時稱(cheng),“所有行業、應用(yong)、軟件、服務,都值(zhi)得基(ji)于大模型(xing)能力重(zhong)做一遍”。
一名字節人士稱,過去在字節內部申請采(cai)購 GPU 時,要說明投入產出比、業務(wu)(wu)優先(xian)級(ji)(ji)和重(zhong)要性。而現(xian)在大模型(xing)業務(wu)(wu)是公司戰略(lve)級(ji)(ji)別(bie)新業務(wu)(wu),暫時算(suan)不清 ROI 也必須投入。
研發自己的(de)通用大(da)模型(xing)只是第一(yi)步,各公司的(de)更大(da)目(mu)標(biao)是推出提供大(da)模型(xing)能力的(de)云(yun)服務,這是真(zhen)正可以匹(pi)配投入的(de)大(da)市場。
微軟(ruan)的云服務(wu)(wu) Azure 在中國(guo)云計算市場本沒有(you)太強(qiang)存在感,入華十(shi)年來主(zhu)要服務(wu)(wu)跨國(guo)公司的中國(guo)業(ye)(ye)務(wu)(wu)。但(dan)現在客戶(hu)得(de)排隊等待,因為它是 OpenAI 商業(ye)(ye)化的唯一云代理商。
阿里在(zai) 4 月的(de)(de)云峰會上(shang),再次強調(diao) MaaS(模(mo)型(xing)(xing)即服務)是(shi)未來云計算(suan)趨勢,在(zai)開(kai)放自研的(de)(de)通(tong)用(yong)基礎模(mo)型(xing)(xing) “通(tong)義千問(wen)” 測(ce)試之外,還發(fa)布了(le)一(yi)系(xi)列幫助客戶在(zai)云上(shang)訓練(lian)、使用(yong)大(da)模(mo)型(xing)(xing)的(de)(de)工具。不久后騰訊(xun)和(he)字(zi)節火(huo)山(shan)引擎也先后發(fa)布自己的(de)(de)新版訓練(lian)集群服務。騰訊(xun)稱用(yong)新一(yi)代集群訓練(lian)萬億參數(shu)(shu)的(de)(de)混(hun)元大(da)模(mo)型(xing)(xing),時間(jian)可被(bei)壓縮到 4 天;字(zi)節稱它們的(de)(de)新集群支(zhi)持萬卡級大(da)模(mo)型(xing)(xing)訓練(lian),國內(nei)數(shu)(shu)十(shi)家做(zuo)大(da)模(mo)型(xing)(xing)的(de)(de)企業,多數(shu)(shu)已在(zai)使用(yong)火(huo)山(shan)引擎。
所有這些平臺使(shi)用的要么(me)是英偉達 A100、H100 GPU,要么(me)是去(qu)年禁令后英偉達專門推出的減配版 A800、H800,這兩款處理(li)器(qi)帶寬分(fen)別是原版的約 3/4 和約一半,避開了高性能 GPU 的限制標準。
圍繞 H800 和 A800,中(zhong)國科技(ji)大公(gong)司開(kai)始了新一(yi)輪下(xia)單競(jing)爭。
一名云(yun)廠商人士(shi)稱,字(zi)節、阿里(li)等大公司主要是(shi)和英偉(wei)達原廠直接(jie)談(tan)采購,代(dai)理商和二手市(shi)場難(nan)以滿足他們(men)的龐大需求。
英(ying)(ying)偉(wei)達會按目錄價,根據(ju)采購規模(mo)談一個(ge)折扣。據(ju)英(ying)(ying)偉(wei)達官(guan)網,A100 售(shou)(shou)價為 1 萬美元 / 枚(約(yue) 7.1 萬元人民幣),H100 售(shou)(shou)價為 3.6 萬美元 / 枚(約(yue) 25.7 萬元人民幣);據(ju)了(le)解,A800 和 H800 售(shou)(shou)價略(lve)低于原版。
中國(guo)公司能否搶到卡,更(geng)多是看(kan)商業關系,比如以往是不(bu)是英(ying)偉達(da)的大客戶。“你是和中國(guo)英(ying)偉達(da)談,還是去(qu)美國(guo)找老黃(huang)(黃(huang)仁(ren)勛,英(ying)偉達(da)創(chuang)始(shi)人(ren)、CEO)直接談,都有差別。” 一位云(yun)廠商人(ren)士說。
部(bu)分(fen)公司也會和英偉達進行 “業務合作”,在購(gou)買搶(qiang)手的數據中心(xin) GPU 時(shi),也購(gou)買其它產品,以爭(zheng)取優先供應。這就(jiu)像愛馬仕的配貨,如果你想買到熱門(men)的包(bao),往往也得搭配幾萬元(yuan)的衣服、鞋履。
綜(zong)合我們獲得的行(xing)業信息,字節今年的新下單動(dong)作相(xiang)對激進(jin),超(chao)過 10 億(yi)美元級別。
一位接近英偉達的人士稱,字節到貨和沒到貨的 A100 與 H800 總計有 10 萬塊。其中 H800 今年 3 月才開始投產,這部分芯片應來自今(jin)年的加購。據了解,以現在(zai)的排產進度,部分 H800 要(yao)到今(jin)年底才能(neng)交(jiao)貨(huo)。
字(zi)節跳動 2017 年開始建設自己的數據中心。曾經的數據中心更依賴(lai)適應所(suo)有計(ji)算(suan)(suan)的 CPU,直到 2020 年,字(zi)節采購英(ying)特爾 CPU 的金額還高于(yu)英(ying)偉達 GPU。字(zi)節采購量的變化(hua),也(ye)反(fan)映了如今大型科(ke)技公司的計(ji)算(suan)(suan)需求中,智(zhi)能計(ji)算(suan)(suan)對通用計(ji)算(suan)(suan)的趕超。
據了解(jie),某互聯網大廠今年至少已給英偉達下了萬卡級別訂單,按目錄價估算價值(zhi)超(chao) 10 億元人民幣。
騰(teng)訊則率先(xian)宣布(bu)已用(yong)上 H800,騰(teng)訊云在今年 3 月發(fa)布(bu)的(de)新(xin)版高性能(neng)計算服務中(zhong)(zhong)已使用(yong)了 H800,并稱這(zhe)是國(guo)內首(shou)發(fa)。目前這(zhe)一服務已對(dui)企業客戶開放測試申(shen)請,這(zhe)快(kuai)于(yu)大(da)部分中(zhong)(zhong)國(guo)公司的(de)進度。
據了解,阿里云也在(zai)今(jin)(jin)年 5 月對內提出把(ba) “智算(suan)戰(zhan)役(yi)” 作為今(jin)(jin)年的(de)頭號戰(zhan)役(yi),并設立三大(da)目標(biao):機器(qi)規(gui)模、客(ke)戶(hu)規(gui)模和(he)營(ying)收規(gui)模;其中機器(qi)規(gui)模的(de)重要指(zhi)標(biao)就是(shi) GPU 數量。
新的 GPU 到(dao)貨前(qian),各公司也(ye)在通過內(nei)部騰挪,優(you)先支持大模型(xing)研發。
能一(yi)次釋放(fang)較多(duo)資源的(de)做法是砍掉一(yi)些沒(mei)那(nei)么重要(yao),或短期(qi)看不到明確前景的(de)方(fang)向(xiang)。“大(da)公司有好多(duo)半死不活的(de)業(ye)(ye)務(wu)占著資源。” 一(yi)位互聯(lian)網大(da)公司 AI 從業(ye)(ye)者(zhe)說(shuo)。
今(jin)年 5 月,阿里達摩院裁(cai)撤自動(dong)駕駛(shi)(shi)實(shi)驗(yan)室:300 多名員工中,約 1/3 劃歸菜鳥技術團隊,其余被裁(cai),達摩院不再保留自動(dong)駕駛(shi)(shi)業務(wu)。研發自動(dong)駕駛(shi)(shi)也需要用高性能 GPU 做(zuo)訓練。這一調整可能與大模型(xing)無直接(jie)關系,但確實(shi)讓(rang)阿里獲得了一批 “自由 GPU”。
字節(jie)和美團,則直(zhi)接從給公司(si)帶來廣告收入的(de)商業(ye)化技術團隊那里(li)勻(yun) GPU。
據《晚點 LatePost》了解,今年(nian)春節(jie)后不久,字(zi)節(jie)把一(yi)批原計劃新增給字(zi)節(jie)商業化技(ji)術團隊的 A100 勻給了 TikTok 產品技(ji)術負責人(ren)朱文佳。朱文佳正在領導字(zi)節(jie)大(da)模型研發。而商業化技(ji)術團隊是支持抖音廣告推薦算法的核(he)心業務部門。
美團在今年一季度(du)左右開(kai)始開(kai)發大模(mo)型(xing)。據了(le)解,美團不久前從多個部(bu)門(men)調(diao)走了(le)一批(pi) 80G 顯存頂(ding)配(pei)版 A100,優(you)先(xian)供給(gei)大模(mo)型(xing),讓這些部(bu)門(men)改用配(pei)置更低的(de) GPU。
財力遠不如大平(ping)臺(tai)充裕的(de) B 站(zhan)(zhan)對(dui)大模(mo)型也有(you)規劃。據了解,B 站(zhan)(zhan)此前已儲(chu)備了數百塊 GPU。今(jin)年,B 站(zhan)(zhan)一(yi)方(fang)面(mian)持續加購 GPU,一(yi)方(fang)面(mian)也在協(xie)調各(ge)部門勻卡給大模(mo)型。“有(you)的(de)部門給 10 張(zhang),有(you)的(de)部門給 20 張(zhang)。” 一(yi)位(wei)接近 B 站(zhan)(zhan)的(de)人士稱。
字節、美(mei)團(tuan)、B 站等互聯(lian)網公司,原本支持搜索、推薦的技術部門(men)一(yi)般會(hui)有一(yi)些 GPU 資源冗余,在不傷害原有業務的前提下,他們現在都在 “把算力水份擠出來”。
不過(guo)(guo)這種(zhong)拆東補西的(de)做法能獲得(de)(de)的(de) GPU 數量有限(xian),訓(xun)練大模型所需(xu)的(de)大頭 GPU 還(huan)是得(de)(de)靠各公司(si)過(guo)(guo)去的(de)積(ji)累(lei)和等待新 GPU 到貨。
全世界都在搶算力
對英(ying)偉(wei)達數據中心 GPU 的競賽也發生(sheng)在全(quan)球范(fan)圍。不過(guo)海(hai)外巨頭(tou)大(da)量(liang)購買 GPU 更早,采購量(liang)更大(da),近年的投(tou)資相(xiang)對連續。
2022 年,Meta 和(he)甲(jia)骨文就已(yi)有(you)對(dui) A100 的大(da)投入。Meta 在去年 1 月與英偉達(da)合(he)作(zuo)建(jian)(jian)成 RSC 超級計(ji)算(suan)集群,它(ta)包(bao)含 1.6 萬(wan)塊 A100。同年 11 月,甲(jia)骨文宣(xuan)布(bu)購買數萬(wan)塊 A100 和(he) H100 搭建(jian)(jian)新計(ji)算(suan)中(zhong)心(xin)。現(xian)在該計(ji)算(suan)中(zhong)心(xin)已(yi)部署了超 3.27 萬(wan)塊 A100,并陸續上線新的 H100。
微軟自從 2019 年第一(yi)次投資 OpenAI 以來,已為 OpenAI 提供數萬塊(kuai) GPU。今年 3 月,微軟又宣布已幫助 OpenAI 建設了一(yi)個新計(ji)算中心,其中包括(kuo)數萬塊(kuai) A100。Google 在今年 5 月推出(chu)了一(yi)個擁有 2.6 萬塊(kuai) H100 的計(ji)算集群(qun) Compute Engine A3,服(fu)務(wu)想自己訓練大模型的公司。
中國大公(gong)司現在的(de)動作和心態都(dou)比(bi)海外巨頭更急迫。以百度(du)為(wei)例,它今年向(xiang)英(ying)偉達新下的(de) GPU 訂單高達上萬塊(kuai)。數量級與(yu) Google 等公(gong)司相當,雖(sui)然百度(du)的(de)體量小得(de)多,其去年營收為(wei) 1236 億(yi)元人(ren)民幣,只有(you) Google 的(de) 6%。
據了解(jie),字節(jie)(jie)、騰訊、阿里(li)、百(bai)度這四家中(zhong)國投(tou)入 AI 和(he)(he)云計(ji)算最多(duo)的科技公司,過去(qu) A100 的積累都達(da)到上萬塊(kuai)。其中(zhong)字節(jie)(jie)的 A100 絕對(dui)數(shu)最多(duo)。不算今(jin)年(nian)的新增訂單,字節(jie)(jie) A100 和(he)(he)前代產品 V100 總(zong)數(shu)接近 10 萬塊(kuai)。
成長期(qi)公司(si)中,商湯(tang)今年也(ye)宣稱,其 “AI 大(da)裝置” 計算(suan)集群中已(yi)總(zong)共部(bu)署(shu)了(le)(le) 2.7 萬(wan)塊(kuai) GPU,其中有 1 萬(wan)塊(kuai) A100。連看似和 AI 不搭邊的量化投(tou)資公司(si)幻方之前(qian)也(ye)購買了(le)(le) 1 萬(wan)塊(kuai) A100。
僅看總數(shu),這(zhe)些 GPU 供各(ge)公司(si)訓練(lian)大(da)模(mo)型似乎(hu)綽(chuo)綽(chuo)有余(yu)——據(ju)英偉(wei)達官(guan)網(wang)案例,OpenAI 訓練(lian) 1750 億參數(shu)的 GPT-3 時(shi)用了(le) 1 萬塊 V100 ,訓練(lian)時(shi)長未公開;英偉(wei)達測算(suan),如果用 A100 來訓練(lian) GPT-3 ,需要 1024 塊 A100 訓練(lian) 1 個(ge)月,A100 相(xiang)比 V100 有 4.3 倍(bei)性能(neng)提升。但中國大(da)公司(si)過去采購的大(da)量 GPU 要支(zhi)撐(cheng)現有業務(wu),或(huo)放在云(yun)計算(suan)平臺(tai)上售賣,并(bing)不能(neng)自由地用于大(da)模(mo)型開發和對外(wai)支(zhi)持客戶的大(da)模(mo)型需求(qiu)。
這也(ye)解釋了中(zhong)(zhong)(zhong)國(guo) AI 從業者(zhe)對算力資源估算的(de)巨大差別。清華智(zhi)能(neng)產業研(yan)究院院長張亞勤 4 月底參加清華論壇時說(shuo),“如果把中(zhong)(zhong)(zhong)國(guo)的(de)算力加一塊(kuai),相當(dang)于 50 萬塊(kuai) A100,訓練五個模(mo)型沒問題。”AI 公司曠視(shi)科技 CEO 印(yin)奇(qi)接受《財(cai)新》采訪時則說(shuo):中(zhong)(zhong)(zhong)國(guo)目前可用作大模(mo)型訓練的(de) A100 總(zong)共只有約 4 萬塊(kuai)。
主要反映(ying)對芯片、服務器和數據中心等固定(ding)資產(chan)投資的資本開(kai)支,可以直觀說(shuo)明中外大公司計算資源的數量級差距。
最(zui)早開始測試類(lei) ChatGPT 產(chan)品的(de)百度,2020 年(nian)(nian)(nian)以來的(de)年(nian)(nian)(nian)資(zi)本(ben)開支在 8 億(yi)到 20 億(yi)美(mei)元(yuan)之(zhi)間,阿里在 60-80 億(yi)美(mei)元(yuan)之(zhi)間,騰(teng)訊在 70-110 億(yi)美(mei)元(yuan)之(zhi)間。同期(qi),亞馬遜、Meta、Google、微軟(ruan)這(zhe)四家自建數據中心(xin)的(de)美(mei)國科(ke)技公司的(de)年(nian)(nian)(nian)資(zi)本(ben)開支最(zui)少均(jun)超過 150 億(yi)美(mei)元(yuan)。
疫情三年(nian)中(zhong),海外公(gong)司資(zi)(zi)本(ben)開支繼(ji)續上漲。亞馬遜(xun)去年(nian)的(de)(de)資(zi)(zi)本(ben)開支已來到 580 億(yi)美元(yuan),Meta、Google 均為(wei) 314 億(yi)美元(yuan),微軟接(jie)近 240 億(yi)美元(yuan)。中(zhong)國公(gong)司的(de)(de)投資(zi)(zi)在 2021 年(nian)之后(hou)則在收縮。騰訊、百度去年(nian)的(de)(de)資(zi)(zi)本(ben)開支均同比下滑(hua)超 25%。
訓練大模(mo)型的 GPU 已不(bu)算充足,各家中國公司如果真的要長期投入大模(mo)型,并賺到給其它(ta)模(mo)型需(xu)求 “賣(mai)鏟子(zi)” 的錢(qian),未來還(huan)需(xu)要持(chi)續(xu)增加 GPU 資(zi)源。
走得(de)更快 OpenAI 已遇到了這一挑戰。5 月(yue)中(zhong)旬,OpenAI CEO SamAltman 在與一群開發者的小范圍交流(liu)中(zhong)說(shuo),由于 GPU 不(bu)夠(gou)(gou),OpenAI 現在的 API 服務不(bu)夠(gou)(gou)穩定,速度(du)也(ye)(ye)不(bu)夠(gou)(gou)快,在有更多 GPU 前,GPT-4 的多模態能力還無法拓展(zhan)給每個用戶,他們近期(qi)也(ye)(ye)不(bu)準備發布(bu)新的消費級產品。技術咨詢機構 TrendForce 今年 6 月(yue)發布(bu)報告稱,OpenAI 需要約(yue) 3 萬(wan)塊 A100 來持續優(you)化和商(shang)業化 ChatGPT。
與 OpenAI 合作頗深(shen)的(de)(de)微軟也面臨(lin)類(lei)似情境(jing):今年 5 月,有(you)(you)用戶(hu)吐(tu)槽 New Bing 回答速度(du)變慢(man),微軟回應(ying),這是因(yin)為 GPU 補充速度(du)跟不上用戶(hu)增長(chang)速度(du)。嵌(qian)入了大(da)模(mo)型能力的(de)(de)微軟 Office 365 Copilot 目前也沒有(you)(you)大(da)規模(mo)開放,最新數字是有(you)(you) 600 多家企業在試用——Office 365 的(de)(de)全球總(zong)用戶(hu)數接近(jin) 3 億。
中國大(da)(da)公司如(ru)果不(bu)是(shi)僅把訓練并發(fa)布一(yi)個大(da)(da)模(mo)型(xing)作為目標,而是(shi)真想用(yong)大(da)(da)模(mo)型(xing)創造服務更多用(yong)戶的產品,并進(jin)一(yi)步支持其(qi)它客戶在云上訓練更多大(da)(da)模(mo)型(xing),就(jiu)需(xu)要(yao)提前儲(chu)備更多 GPU。
為什么只能是那四款卡?
在 AI 大模(mo)型訓練(lian)上,現在 A100、H100 及其特(te)(te)供中國的減配版 A800、H800 找不到替代品(pin)。據量化對(dui)沖基(ji)金 Khaveen Investments 測算,英偉達數(shu)據中心 GPU 2022 年市(shi)占率達 88%,AMD 和英特(te)(te)爾瓜分(fen)剩下的部分(fen)。
英偉達 GPU 目前的(de)不(bu)可替代性,源(yuan)自(zi)大(da)模型的(de)訓(xun)練(lian)機制,其核(he)心步驟(zou)是預訓(xun)練(lian)(pre-training)和(he)微調(diao)(fine-tuning),前者是打基座,相當(dang)于接受(shou)通識(shi)教育至大(da)學畢(bi)業(ye);后者則是針對具(ju)體場景和(he)任務做優化,以(yi)提升工作表現。
預(yu)訓(xun)練環節尤其消耗算力(li),它對單(dan)個(ge) GPU 的性(xing)能(neng)和多卡(ka)間(jian)的數據傳輸能(neng)力(li)有極(ji)高要求。
現在只有 A100、H100 能(neng)提供預訓練(lian)所需的計算效(xiao)率(lv),它們看起來(lai)昂貴,反倒(dao)是最(zui)低(di)廉的選(xuan)擇。今(jin)天 AI 還在商用(yong)早(zao)期,成(cheng)本直(zhi)接影響一(yi)個服務(wu)是否可(ke)用(yong)。
過(guo)去的(de)(de)一(yi)些(xie)模型,如能(neng)識別貓是貓的(de)(de) VGG16,參數量只有 1.3 億(yi),當(dang)時一(yi)些(xie)公(gong)司會用玩游戲的(de)(de) RTX 系列消費級(ji)顯卡來跑(pao) AI 模型。而兩年多前發布的(de)(de) GPT-3 的(de)(de)參數規模已達(da)到 1750 億(yi)。
大模型的(de)龐大計算(suan)(suan)需(xu)(xu)求下,用(yong)(yong)更多低(di)性能 GPU 共(gong)同組成(cheng)算(suan)(suan)力已行不(bu)通(tong)了。因為使用(yong)(yong)多個(ge) GPU 訓(xun)練(lian)時,需(xu)(xu)要在(zai)芯片(pian)與芯片(pian)間傳輸(shu)數據(ju)、同步參數信(xin)息(xi),這時部分 GPU 會閑置(zhi),無法一直飽(bao)和工(gong)作(zuo)。所(suo)以單卡(ka)性能越(yue)(yue)低(di),使用(yong)(yong)的(de)卡(ka)越(yue)(yue)多,算(suan)(suan)力損(sun)耗就越(yue)(yue)大。OpenAI 用(yong)(yong) 1 萬塊 V100 訓(xun)練(lian) GPT-3 時的(de)算(suan)(suan)力利用(yong)(yong)率(lv)不(bu)到(dao) 50%。
A100 、H100 則既有單卡高(gao)算(suan)力,又有提升卡間數據傳輸的(de)(de)高(gao)帶寬(kuan)。A100 的(de)(de) FP32(指用 4 字節進行編碼存儲的(de)(de)計算(suan))算(suan)力達到 19.5 TFLOPS(1 TFLOPS 即每秒進行一萬億次浮(fu)點運算(suan)),H100 的(de)(de) FP32 算(suan)力更(geng)高(gao)達 134 TFLOPS,是(shi)競品(pin) AMD MI250 的(de)(de)約(yue) 4 倍(bei)。
A100、H100 還提(ti)供高(gao)效(xiao)數據傳(chuan)輸能(neng)力,盡可能(neng)減少算力閑置。英偉達的(de)獨(du)家秘籍是(shi)自 2014 年起陸續推(tui)出的(de) NVLink、NVSwitch 等通(tong)信(xin)(xin)協議技術(shu)。用在 H100 上的(de)第四代 NVLink 可將(jiang)同一服務器內的(de) GPU 雙向通(tong)信(xin)(xin)帶(dai)寬提(ti)升(sheng)至 900 GB/s(每秒(miao)傳(chuan)輸 900GB 數據),是(shi)最新一代 PCle(一種點(dian)對點(dian)高(gao)速(su)串行傳(chuan)輸標準)的(de) 7 倍多。
去年(nian)美國(guo)商(shang)務部對 GPU 的出口規定也正是卡(ka)在算(suan)力和(he)帶(dai)寬這兩(liang)條線(xian)(xian)上:算(suan)力上線(xian)(xian)為 4800 TOPS,帶(dai)寬上線(xian)(xian)為 600 GB/s。
A800 和 H800 算力和原(yuan)版相(xiang)當,但(dan)帶(dai)寬(kuan)打折。A800 的(de)帶(dai)寬(kuan)從 A100 的(de) 600GB/s 降為(wei) 400GB/s,H800 的(de)具體參數尚未(wei)公開(kai),據(ju)彭博社報道(dao),它的(de)帶(dai)寬(kuan)只有 H100(900 GB/s) 的(de)約一半(ban),執行同樣的(de) AI 任(ren)務時,H800 會比(bi) H100 多花(hua) 10% -30% 的(de)時間。一名 AI 工程(cheng)師推測,H800 的(de)訓練效果可能還不如(ru) A100,但(dan)更(geng)貴(gui)。
即使如(ru)此,A800 和 H800 的(de)性(xing)能依然超(chao)過其他(ta)大公司和創業公司的(de)同(tong)類產品(pin)。受(shou)限于性(xing)能和更專用的(de)架構(gou),各公司推(tui)出的(de) AI 芯片或 GPU 芯片,現在主要用來做(zuo) AI 推(tui)理,難以(yi)勝任大模型(xing)預訓(xun)(xun)練。簡單來說,AI 訓(xun)(xun)練是做(zuo)出模型(xing),AI 推(tui)理是使用模型(xing),訓(xun)(xun)練對(dui)芯片性(xing)能要求更高。
性能差距外,英偉(wei)達的更(geng)深護城河是(shi)軟(ruan)件生態。
早在 2006 年,英偉達就(jiu)推(tui)出計(ji)算平臺 CUDA,它是(shi)一個(ge)并行(xing)計(ji)算軟件引擎,開(kai)發(fa)者可(ke)使用 CUDA 更高效地進(jin)行(xing) AI 訓(xun)練(lian)和推(tui)理,用好 GPU 算力。CUDA 今天已成為(wei) AI 基(ji)礎(chu)設施(shi),主流的 AI 框架、庫、工具都以 CUDA 為(wei)基(ji)礎(chu)進(jin)行(xing)開(kai)發(fa)。
英偉達(da)之外的(de)(de) GPU 和 AI 芯片(pian)如(ru)要接入(ru) CUDA,需要自己提供適(shi)配(pei)軟(ruan)件(jian)(jian)(jian),但只有 CUDA 部(bu)分性能,更(geng)新迭代(dai)也更(geng)慢。PyTorch 等 AI 框架正(zheng)試圖打破(po) CUDA 的(de)(de)軟(ruan)件(jian)(jian)(jian)生(sheng)態壟斷,提供更(geng)多軟(ruan)件(jian)(jian)(jian)能力以支持(chi)其(qi)它廠商的(de)(de) GPU,但這對開發者吸引力有限(xian)。
一位(wei) AI 從(cong)業者稱,他所(suo)在的(de)公司曾接(jie)觸一家非英(ying)偉達 GPU 廠(chang)商,對方的(de)芯片和服務(wu)報價比英(ying)偉達更(geng)(geng)(geng)低(di),也承諾提供更(geng)(geng)(geng)及時(shi)的(de)服務(wu),但他們判斷(duan),使(shi)用(yong)其(qi)它 GPU 的(de)整體訓(xun)練(lian)和開發成本會高(gao)于(yu)英(ying)偉達,還得(de)承擔(dan)結(jie)果的(de)不確定性(xing)和花更(geng)(geng)(geng)多時(shi)間(jian)。
“雖(sui)然 A100 價格貴,但其實(shi)用(yong)起來是(shi)最便(bian)宜的。” 他說(shuo)。對有意抓住大模型(xing)機會的大型(xing)科技公(gong)司(si)和頭部創業(ye)公(gong)司(si)來說(shuo),錢往往不(bu)是(shi)問題,時間才(cai)是(shi)更寶貴的資源。
短(duan)期內,唯一影響(xiang)英(ying)偉達數據中心 GPU 銷量的可能只有臺(tai)積(ji)電的產(chan)能。
H100/800 為 4 nm 制(zhi)程,A100/800 為 7 nm 制(zhi)程,這四(si)款芯片(pian)均由臺積電代工生產。據中國臺灣媒體報道,英偉(wei)達今年向臺積電新增了 1 萬片(pian)數據中心 GPU 訂單,并下了超急件 ,生產時間最多(duo)可(ke)縮短 50%。正常情況下,臺積電生產 A100 需(xu)要數月。目前的生產瓶頸(jing)主要在先進封裝產能不(bu)夠,缺口達一至兩成,需(xu)要 3-6 個月逐步提(ti)升。
自(zi)從適用于并(bing)行計算的 GPU 被引入深度(du)學習,十多年(nian)來,AI 發展(zhan)的動力(li)(li)就是硬件與軟件,GPU 算力(li)(li)與模型(xing)和算法的交疊向前:模型(xing)發展(zhan)拉動算力(li)(li)需求;算力(li)(li)增長,又使原本難以企及的更大規模訓練成為可能。
在上(shang)一波以圖像識別為代表(biao)的深度學習熱潮中,中國 AI 軟件(jian)能力(li)比(bi)肩(jian)全球(qiu)最前沿水平;算力(li)是目前的難點——設(she)計與制造芯片需要更長的積(ji)累,涉(she)及漫長供應鏈和浩繁專利(li)壁壘。
大(da)(da)模型是模型與算法層的(de)又一次大(da)(da)進展(zhan),沒時間慢慢來了,想做大(da)(da)模型,或提供大(da)(da)模型云計算能力的(de)公(gong)司必須(xu)盡(jin)快獲得(de)足(zu)夠(gou)多的(de)先(xian)進算力。在這輪熱潮使第一批(pi)公(gong)司振奮或失望前,圍(wei)繞 GPU 的(de)搶奪不(bu)會(hui)停止。