
全世界都在搶算力,中國大公(gong)司(si)更急迫。
2022 年下半年,生成(cheng)式 AI 爆火的(de)同時,硅谷(gu)著名風險資本 a16z 走訪了(le)數十家 AI 創業(ye)(ye)公司和大科技公司。他們發現(xian),創業(ye)(ye)公司轉(zhuan)手就把(ba) 80%-90% 的(de)早期融資款送(song)給了(le)云計算平臺(tai),以訓練自(zi)己的(de)模型。他們估算,即便這些公司的(de)產(chan)品(pin)成(cheng)熟了(le),每年也得把(ba) 10%-20% 的(de)營(ying)收送(song)給云計算公司。相當于(yu)一(yi)筆(bi) “AI 稅(shui)”。
這帶來了(le)在(zai)云(yun)上提(ti)供模(mo)型(xing)能力和訓練服務,把算力租給(gei)其它客(ke)戶(hu)和創業(ye)公司的大市場。僅在(zai)國內,現在(zai)就至少有數十家創業(ye)公司和中(zhong)小公司在(zai)自(zi)制復雜大語言(yan)模(mo)型(xing),他們都得(de)從云(yun)計算平臺租 GPU。據 a16z 測算,一個(ge)公司一年的 AI 運算開支只有超過(guo) 5000 萬美(mei)元,才有足夠的規模(mo)效(xiao)應支撐自(zi)己批量采(cai)購(gou) GPU。
據《晚點(dian) LatePost》了(le)解(jie),今年春節(jie)(jie)后(hou),擁(yong)有云計算(suan)業務的中國各互聯(lian)網大(da)公(gong)司都(dou)向(xiang)(xiang)英偉達下了(le)大(da)單。字節(jie)(jie)今年向(xiang)(xiang)英偉達訂購(gou)了(le)超過 10 億美元的 GPU,另一家(jia)大(da)公(gong)司的訂單也至(zhi)少超過 10 億元人民幣。
僅字節(jie)一家公(gong)司今年(nian)的(de)(de)(de)訂單可能已接近英偉(wei)(wei)達(da)去年(nian)在中(zhong)國(guo)銷售(shou)的(de)(de)(de)商用 GPU 總(zong)和(he)。去年(nian) 9 月(yue),美(mei)(mei)國(guo)政(zheng)府(fu)發布(bu)對 A100、H100(英偉(wei)(wei)達(da)最新兩代數(shu)據中(zhong)心(xin)商用 GPU) 的(de)(de)(de)出口限制時,英偉(wei)(wei)達(da)曾回應稱這(zhe)可能影響去年(nian)四季度它在中(zhong)國(guo)市場(chang)的(de)(de)(de) 4 億(yi)美(mei)(mei)元(約(yue)合 28 億(yi)元人民幣(bi))潛在銷售(shou)。以(yi)此推算,2022 年(nian)全年(nian)英偉(wei)(wei)達(da)數(shu)據中(zhong)心(xin) GPU 在中(zhong)國(guo)的(de)(de)(de)銷售(shou)額約(yue)為 100 億(yi)元人民幣(bi)。
相比海外巨(ju)頭(tou),中(zhong)國大(da)科技公司采(cai)購(gou) GPU 更為急迫。過去兩(liang)年的降本增效中(zhong),一些云(yun)計算平(ping)臺減少了 GPU 采(cai)購(gou),儲備不(bu)(bu)足(zu)。此外,誰(shui)也不(bu)(bu)敢保證,今(jin)天能買(mai)的高(gao)性能 GPU,明天會不(bu)(bu)會就受到新的限(xian)制。

從砍單到加購,同時內部騰挪
今(jin)年初之前,中國大型(xing)科技公司對 GPU 的需求(qiu)還不(bu)溫不(bu)火。
GPU 在中國大型互聯(lian)網科技公(gong)司中主要有兩個用途:一是對內支(zhi)持業務和做(zuo)一些前沿 AI 研究,二(er)是把 GPU 放到云(yun)計(ji)算平臺上對外售賣。
一(yi)名字(zi)節(jie)人(ren)士告訴《晚點 LatePost》,2020 年(nian) 6 月 OpenAI 發布 GPT-3 后,字(zi)節(jie)就(jiu)曾訓練了一(yi)個數(shu)十億(yi)參數(shu)的(de)(de)生成式(shi)語言大模型(xing),當時主要使(shi)用的(de)(de) GPU 是(shi) A100 前代產品 V100。由于參數(shu)規(gui)模有限,這個模型(xing)生成能力一(yi)般,字(zi)節(jie)當時看不(bu)到它的(de)(de)商業(ye)化可能性,“ROI(投資回報(bao)率) 算(suan)不(bu)過來(lai)”,這次嘗試不(bu)了了之。
阿里也曾在(zai) 2018-2019 年積極(ji)采購(gou)(gou) GPU。一(yi)位阿里云(yun)人士稱(cheng),當時阿里的采購(gou)(gou)量至(zhi)少(shao)達(da)到上萬(wan)塊(kuai)規模,購(gou)(gou)買的型號主要是 V100 和英偉(wei)達(da)更早前發布的 T4。不過這批 GPU 中只有約(yue)十(shi)分之(zhi)一(yi)給(gei)到了(le)達(da)摩(mo)院用作 AI 技術研發。2021 年發布萬(wan)億參數大模型 M6 后,達(da)摩(mo)院曾披露訓練 M6 使用了(le) 480 塊(kuai) V100。
阿(a)(a)里(li)當時購買(mai)的(de) GPU,更多給到了阿(a)(a)里(li)云(yun)用于對外租賃(lin)。但包括阿(a)(a)里(li)云(yun)在內(nei),一批中國(guo)云(yun)計算公(gong)司都(dou)高估了中國(guo)市場的(de) AI 需求。一位科技投資人稱,大模型(xing)熱潮之(zhi)前,國(guo)內(nei)主要(yao)云(yun)廠商上的(de) GPU 算力不是緊缺,而是愁賣,云(yun)廠商甚至得降價賣資源(yuan)。去年(nian)阿(a)(a)里(li)云(yun)先后降價 6 次,GPU 租用價下降超(chao)兩成(cheng)。
在(zai)降(jiang)本增(zeng)效,追求 “有質量的增(zeng)長” 與利潤的背景(jing)下,據了解,阿里在(zai) 2020 年之后收縮了 GPU 采購規模,騰訊也在(zai)去年底砍(kan)單一批(pi)英偉達 GPU。
然而(er)沒過多久后的 2022 年初,ChatGPT 改(gai)變(bian)了所有人的看法,共識很快達成(cheng):大(da)模型(xing)是不(bu)容(rong)錯過的大(da)機會。
各公司創始人親自關注大模型進展:字節跳動創始人張一鳴開始看人工智能論文(wen);阿(a)里巴(ba)巴(ba)董事局主席張(zhang)勇接手阿(a)里云,在阿(a)里云峰會(hui)發布阿(a)里大(da)模型(xing)進展時稱,“所有行業、應用、軟件、服務,都值得基(ji)于大(da)模型(xing)能(neng)力重做一遍”。
一名字(zi)(zi)節(jie)人士稱(cheng),過去在字(zi)(zi)節(jie)內部(bu)申請(qing)采(cai)購 GPU 時(shi),要說明投入(ru)(ru)產出(chu)比、業(ye)務優先級和重要性(xing)。而現在大(da)模型業(ye)務是公司(si)戰略級別新業(ye)務,暫時(shi)算不清 ROI 也必須投入(ru)(ru)。
研(yan)發自己(ji)的通用大模型(xing)只是(shi)第一(yi)步,各公司的更大目(mu)標是(shi)推出(chu)提供大模型(xing)能力的云服務(wu),這是(shi)真正可以匹配投(tou)入的大市場。
微(wei)軟的云服務(wu) Azure 在中國云計(ji)算(suan)市(shi)場本(ben)沒有(you)太強存在感,入華十(shi)年來主要(yao)服務(wu)跨國公司(si)的中國業務(wu)。但現(xian)在客戶得排隊等待,因為它是 OpenAI 商業化的唯一云代理(li)商。
阿里在 4 月的(de)云峰會(hui)上(shang),再次強調 MaaS(模(mo)型(xing)(xing)即(ji)服(fu)務)是未來(lai)云計(ji)算趨勢,在開放自研(yan)的(de)通用(yong)基礎(chu)模(mo)型(xing)(xing) “通義千問” 測(ce)試(shi)之外,還發布了一(yi)系列幫(bang)助客戶在云上(shang)訓練、使用(yong)大(da)模(mo)型(xing)(xing)的(de)工(gong)具。不久后騰(teng)(teng)訊(xun)和(he)字節(jie)火山引擎也先后發布自己的(de)新(xin)版訓練集群(qun)服(fu)務。騰(teng)(teng)訊(xun)稱(cheng)用(yong)新(xin)一(yi)代集群(qun)訓練萬億參數的(de)混元(yuan)大(da)模(mo)型(xing)(xing),時間可被壓縮到 4 天(tian);字節(jie)稱(cheng)它們(men)的(de)新(xin)集群(qun)支持萬卡級大(da)模(mo)型(xing)(xing)訓練,國內數十(shi)家做大(da)模(mo)型(xing)(xing)的(de)企業,多數已在使用(yong)火山引擎。
所有(you)這些平臺使用的要么是(shi)英偉達(da) A100、H100 GPU,要么是(shi)去年(nian)禁令后英偉達(da)專門(men)推出(chu)的減配版 A800、H800,這兩款(kuan)處理器帶寬分別是(shi)原(yuan)版的約(yue) 3/4 和(he)約(yue)一(yi)半,避開了高性能 GPU 的限制(zhi)標準。
圍繞 H800 和 A800,中國科(ke)技大(da)公司開始(shi)了新一輪(lun)下單(dan)競爭。
一名(ming)云廠(chang)(chang)商人士稱,字節、阿里等大(da)公司主要是和英(ying)偉達原廠(chang)(chang)直接談采購,代理商和二手市場難以滿足他們的(de)龐(pang)大(da)需求。
英偉達會按目錄價(jia),根據采購規模談(tan)一個折扣。據英偉達官網(wang),A100 售價(jia)為(wei) 1 萬(wan)(wan)美(mei)元(yuan)(yuan) / 枚(約 7.1 萬(wan)(wan)元(yuan)(yuan)人民幣),H100 售價(jia)為(wei) 3.6 萬(wan)(wan)美(mei)元(yuan)(yuan) / 枚(約 25.7 萬(wan)(wan)元(yuan)(yuan)人民幣);據了解,A800 和 H800 售價(jia)略低于原(yuan)版。
中(zhong)國(guo)公司(si)能否搶到卡,更多是(shi)看商(shang)(shang)業關系,比如以往是(shi)不是(shi)英偉(wei)達的大(da)客戶。“你是(shi)和中(zhong)國(guo)英偉(wei)達談(tan),還是(shi)去美(mei)國(guo)找老(lao)黃(黃仁勛,英偉(wei)達創(chuang)始人、CEO)直接(jie)談(tan),都有差別。” 一位(wei)云(yun)廠商(shang)(shang)人士說。
部分公司也會和英偉達進行 “業務(wu)合作”,在購買(mai)(mai)搶手的(de)數據中心 GPU 時,也購買(mai)(mai)其(qi)它產(chan)品,以(yi)爭取(qu)優先(xian)供應。這(zhe)就像愛馬仕(shi)的(de)配(pei)貨,如果你想買(mai)(mai)到熱門(men)的(de)包,往往也得搭配(pei)幾萬元的(de)衣服(fu)、鞋履。
綜合(he)我們獲(huo)得的行業信息,字節今年的新下單動作相對激進,超過 10 億美元級別。
一位接近英偉達的人士稱,字節到貨和沒到貨的 A100 與 H800 總計有 10 萬塊。其中 H800 今年 3 月才開始投產,這部分芯片應來自今(jin)年的(de)加購。據了解,以(yi)現(xian)在的(de)排產進度,部分 H800 要到今(jin)年底(di)才能交貨。
字節(jie)跳(tiao)動 2017 年開始建設自(zi)己(ji)的(de)(de)數據中心(xin)。曾經的(de)(de)數據中心(xin)更依(yi)賴(lai)適應所有計(ji)(ji)算(suan)的(de)(de) CPU,直到 2020 年,字節(jie)采購英特(te)爾 CPU 的(de)(de)金額還高于英偉(wei)達 GPU。字節(jie)采購量的(de)(de)變化(hua),也反映了如今(jin)大型(xing)科技公司的(de)(de)計(ji)(ji)算(suan)需求中,智能計(ji)(ji)算(suan)對通(tong)用計(ji)(ji)算(suan)的(de)(de)趕超。
據(ju)了(le)解,某互聯網大廠今年至少已給英偉達(da)下(xia)了(le)萬卡級別訂單(dan),按目錄價估(gu)算價值(zhi)超 10 億元人民幣(bi)。
騰訊(xun)則率先宣布已用上 H800,騰訊(xun)云在今年 3 月發布的(de)新版高(gao)性能(neng)計算(suan)服務中已使用了 H800,并稱這(zhe)是國(guo)(guo)內(nei)首發。目前這(zhe)一服務已對企業(ye)客戶開(kai)放測試申(shen)請,這(zhe)快于大部分中國(guo)(guo)公司的(de)進度。
據了解,阿里云(yun)也在今年 5 月對(dui)內提出把 “智算戰役” 作為今年的(de)頭號戰役,并設立三大(da)目(mu)標(biao):機(ji)器規(gui)(gui)模(mo)(mo)、客戶規(gui)(gui)模(mo)(mo)和營收規(gui)(gui)模(mo)(mo);其(qi)中機(ji)器規(gui)(gui)模(mo)(mo)的(de)重(zhong)要指標(biao)就是 GPU 數(shu)量。
新的 GPU 到貨前(qian),各公司也在(zai)通過內部(bu)騰挪,優先支持(chi)大模型研(yan)發(fa)。
能一(yi)(yi)次釋放較多資源的(de)做法是(shi)砍掉(diao)一(yi)(yi)些沒那(nei)么重要,或短期看(kan)不到明確前(qian)景的(de)方向(xiang)。“大公(gong)司有好(hao)多半死不活的(de)業(ye)務占著(zhu)資源。” 一(yi)(yi)位(wei)互(hu)聯網大公(gong)司 AI 從業(ye)者說。
今年 5 月,阿里達(da)摩院裁撤自動駕(jia)駛(shi)實驗(yan)室:300 多名員工中,約(yue) 1/3 劃歸菜鳥技(ji)術團隊,其余被裁,達(da)摩院不(bu)再保留自動駕(jia)駛(shi)業務。研(yan)發自動駕(jia)駛(shi)也需要用高性能(neng)(neng) GPU 做(zuo)訓練。這一調整可能(neng)(neng)與(yu)大模(mo)型(xing)無直接關系(xi),但確實讓阿里獲(huo)得了一批 “自由 GPU”。
字節和美團,則直接從(cong)給公司帶(dai)來廣告收入(ru)的商業(ye)化技(ji)術團隊那里(li)勻(yun) GPU。
據(ju)《晚點 LatePost》了解,今年春節后不久,字節把一批(pi)原(yuan)計劃新增給字節商(shang)業(ye)化技術團(tuan)隊的(de) A100 勻給了 TikTok 產品技術負(fu)責(ze)人朱(zhu)文(wen)佳。朱(zhu)文(wen)佳正在領導字節大模型研發。而商(shang)業(ye)化技術團(tuan)隊是支持抖音(yin)廣告(gao)推薦(jian)算法的(de)核(he)心(xin)業(ye)務(wu)部門。
美團(tuan)在今年一(yi)季度左右開(kai)始開(kai)發大(da)(da)模(mo)型。據(ju)了解(jie),美團(tuan)不久前(qian)從(cong)多(duo)個部門調走了一(yi)批 80G 顯存頂配版 A100,優先供給大(da)(da)模(mo)型,讓(rang)這些部門改(gai)用(yong)配置更低的(de) GPU。
財力遠不(bu)如大平(ping)臺充裕的(de) B 站(zhan)對大模(mo)型也有規劃。據(ju)了(le)解,B 站(zhan)此(ci)前已儲(chu)備了(le)數百(bai)塊 GPU。今年,B 站(zhan)一方面持續加購 GPU,一方面也在協調(diao)各部門勻(yun)卡給大模(mo)型。“有的(de)部門給 10 張,有的(de)部門給 20 張。” 一位接近 B 站(zhan)的(de)人士稱。
字(zi)節、美(mei)團、B 站等互聯網公司,原(yuan)本支持搜(sou)索、推薦的技(ji)術部(bu)門一般會有一些 GPU 資源冗余,在不傷害(hai)原(yuan)有業務的前提下,他們現在都(dou)在 “把算力水(shui)份(fen)擠出(chu)來(lai)”。
不(bu)過(guo)這種拆東補西的(de)(de)(de)做法能獲得的(de)(de)(de) GPU 數量(liang)有限,訓練(lian)大(da)模型(xing)所(suo)需(xu)的(de)(de)(de)大(da)頭 GPU 還是得靠(kao)各公司過(guo)去的(de)(de)(de)積累和等待新(xin) GPU 到貨。
全世界都在搶算力
對(dui)英(ying)偉達數據中(zhong)心 GPU 的(de)競賽也發生在全球范圍。不(bu)過(guo)海外巨頭大量購買 GPU 更早,采購量更大,近年的(de)投資相對(dui)連續。
2022 年(nian),Meta 和甲(jia)骨文(wen)就已有對 A100 的大投入。Meta 在去(qu)年(nian) 1 月與(yu)英偉達合作(zuo)建成 RSC 超級計算(suan)集群,它包含 1.6 萬塊 A100。同(tong)年(nian) 11 月,甲(jia)骨文(wen)宣布購買數萬塊 A100 和 H100 搭建新計算(suan)中心。現(xian)在該計算(suan)中心已部署(shu)了超 3.27 萬塊 A100,并陸續上(shang)線(xian)新的 H100。
微(wei)軟(ruan)自(zi)從 2019 年(nian)第(di)一次投資 OpenAI 以來,已(yi)(yi)為(wei) OpenAI 提供數萬(wan)塊 GPU。今(jin)年(nian) 3 月(yue),微(wei)軟(ruan)又(you)宣布已(yi)(yi)幫(bang)助 OpenAI 建(jian)設(she)了一個新計(ji)算中心,其中包括(kuo)數萬(wan)塊 A100。Google 在今(jin)年(nian) 5 月(yue)推出了一個擁有(you) 2.6 萬(wan)塊 H100 的計(ji)算集群 Compute Engine A3,服務想自(zi)己訓(xun)練(lian)大模型的公司。
中國(guo)大公司現在的(de)(de)動作(zuo)和心態(tai)都比海(hai)外巨頭(tou)更(geng)急迫(po)。以百度(du)為例(li),它今年(nian)向英(ying)偉達新下的(de)(de) GPU 訂單高(gao)達上萬塊(kuai)。數量級(ji)與(yu) Google 等公司相當,雖然(ran)百度(du)的(de)(de)體量小得多(duo),其去(qu)年(nian)營收為 1236 億元人民(min)幣(bi),只(zhi)有 Google 的(de)(de) 6%。
據了(le)解,字(zi)節、騰訊、阿(a)里、百度這四家(jia)中(zhong)國投入(ru) AI 和云計算最(zui)多的(de)科技公司,過去 A100 的(de)積(ji)累都達(da)到上萬塊(kuai)。其(qi)中(zhong)字(zi)節的(de) A100 絕對數最(zui)多。不算今(jin)年(nian)的(de)新(xin)增訂單(dan),字(zi)節 A100 和前代產品 V100 總數接近 10 萬塊(kuai)。
成長期公(gong)司中,商湯今年也宣(xuan)稱,其 “AI 大裝(zhuang)置” 計算集群中已(yi)總共部(bu)署了 2.7 萬(wan)塊 GPU,其中有 1 萬(wan)塊 A100。連看似和 AI 不搭邊(bian)的(de)量(liang)化投資(zi)公(gong)司幻方之前也購買了 1 萬(wan)塊 A100。
僅看(kan)總數,這些 GPU 供各公(gong)司(si)訓練(lian)(lian)大模型(xing)(xing)似乎(hu)綽綽有(you)余——據英(ying)偉(wei)達(da)官網(wang)案例,OpenAI 訓練(lian)(lian) 1750 億(yi)參數的 GPT-3 時用(yong)了 1 萬塊 V100 ,訓練(lian)(lian)時長未公(gong)開(kai);英(ying)偉(wei)達(da)測算,如(ru)果用(yong) A100 來訓練(lian)(lian) GPT-3 ,需(xu)(xu)要 1024 塊 A100 訓練(lian)(lian) 1 個(ge)月(yue),A100 相(xiang)比 V100 有(you) 4.3 倍性(xing)能(neng)提升。但中國大公(gong)司(si)過去采購的大量 GPU 要支撐現有(you)業(ye)務(wu),或放(fang)在(zai)云計(ji)算平臺上售賣,并不能(neng)自由(you)地用(yong)于大模型(xing)(xing)開(kai)發和對外支持客戶(hu)的大模型(xing)(xing)需(xu)(xu)求。
這也解釋了中國(guo) AI 從業(ye)者對算力資(zi)源估算的巨(ju)大差(cha)別。清(qing)華智能產(chan)業(ye)研究院院長張(zhang)亞勤 4 月底參(can)加(jia)清(qing)華論(lun)壇(tan)時說,“如果把(ba)中國(guo)的算力加(jia)一塊,相當于 50 萬塊 A100,訓(xun)練(lian)五(wu)個(ge)模型(xing)沒問題。”AI 公(gong)司曠(kuang)視科技 CEO 印奇接受《財(cai)新》采訪時則(ze)說:中國(guo)目(mu)前(qian)可(ke)用作大模型(xing)訓(xun)練(lian)的 A100 總共只(zhi)有約 4 萬塊。
主要反映對芯片(pian)、服務器和數(shu)據中心等固定資(zi)(zi)產投資(zi)(zi)的資(zi)(zi)本開支(zhi),可(ke)以直觀說明(ming)中外大公司計算(suan)資(zi)(zi)源的數(shu)量級差距(ju)。
最(zui)早(zao)開始測試類 ChatGPT 產品的(de)百度(du),2020 年以來的(de)年資本(ben)開支在 8 億(yi)(yi)到(dao) 20 億(yi)(yi)美元(yuan)之(zhi)(zhi)間(jian),阿里在 60-80 億(yi)(yi)美元(yuan)之(zhi)(zhi)間(jian),騰訊在 70-110 億(yi)(yi)美元(yuan)之(zhi)(zhi)間(jian)。同期(qi),亞馬遜、Meta、Google、微軟這四家自建(jian)數據中心的(de)美國科(ke)技公司的(de)年資本(ben)開支最(zui)少均超過 150 億(yi)(yi)美元(yuan)。
疫情(qing)三年(nian)中(zhong),海外公司資(zi)本(ben)開(kai)支繼(ji)續上漲。亞(ya)馬遜去年(nian)的(de)資(zi)本(ben)開(kai)支已來到 580 億美(mei)(mei)元,Meta、Google 均(jun)為 314 億美(mei)(mei)元,微軟接近 240 億美(mei)(mei)元。中(zhong)國公司的(de)投(tou)資(zi)在 2021 年(nian)之后則在收縮。騰訊、百度去年(nian)的(de)資(zi)本(ben)開(kai)支均(jun)同比(bi)下滑超 25%。

訓練大(da)模型的(de) GPU 已(yi)不(bu)算(suan)充足,各家中(zhong)國公司如果真的(de)要長期投入(ru)大(da)模型,并賺到(dao)給其它模型需求 “賣鏟子” 的(de)錢,未來還(huan)需要持(chi)續(xu)增加 GPU 資源。
走得更(geng)快(kuai) OpenAI 已遇到了這一(yi)(yi)挑(tiao)戰。5 月中旬,OpenAI CEO SamAltman 在與一(yi)(yi)群開(kai)發(fa)者的(de)小范圍交流中說,由(you)于 GPU 不(bu)(bu)夠(gou),OpenAI 現在的(de) API 服(fu)務不(bu)(bu)夠(gou)穩定,速度也不(bu)(bu)夠(gou)快(kuai),在有更(geng)多 GPU 前,GPT-4 的(de)多模態能力還(huan)無法拓展給(gei)每個用戶,他們近(jin)期也不(bu)(bu)準備發(fa)布新的(de)消(xiao)費級產品。技術咨詢(xun)機構 TrendForce 今年 6 月發(fa)布報告稱,OpenAI 需要(yao)約 3 萬塊 A100 來持續優化和商業化 ChatGPT。
與 OpenAI 合作頗(po)深的(de)微軟也(ye)面臨類似情境:今年 5 月,有(you)用戶吐槽 New Bing 回(hui)答速(su)度變慢,微軟回(hui)應,這是因(yin)為(wei) GPU 補充速(su)度跟不上用戶增長速(su)度。嵌入(ru)了大模型(xing)能力的(de)微軟 Office 365 Copilot 目前也(ye)沒有(you)大規模開放,最新(xin)數字是有(you) 600 多家(jia)企(qi)業(ye)在試(shi)用——Office 365 的(de)全球總(zong)用戶數接近 3 億。
中國(guo)大公司如果不是僅把訓(xun)練并(bing)發(fa)布(bu)一(yi)個大模(mo)(mo)型(xing)作為目標,而(er)是真想(xiang)用大模(mo)(mo)型(xing)創造服(fu)務更(geng)(geng)多用戶的產品,并(bing)進一(yi)步支持(chi)其它客(ke)戶在云上訓(xun)練更(geng)(geng)多大模(mo)(mo)型(xing),就需要提前(qian)儲備更(geng)(geng)多 GPU。
為什么只能是那四款卡?
在 AI 大模型訓練上,現在 A100、H100 及其特(te)供中國的減配版 A800、H800 找不到替代品。據量化(hua)對(dui)沖基金 Khaveen Investments 測算,英偉達(da)數(shu)據中心 GPU 2022 年(nian)市(shi)占(zhan)率達(da) 88%,AMD 和英特(te)爾瓜分剩下的部分。

英偉(wei)達 GPU 目前(qian)的不可(ke)替代(dai)性(xing),源自大(da)模型的訓(xun)練(lian)機制,其核(he)心步驟是(shi)預訓(xun)練(lian)(pre-training)和(he)微(wei)調(fine-tuning),前(qian)者是(shi)打基(ji)座(zuo),相當于接受通識教育至大(da)學畢業;后者則是(shi)針(zhen)對具體場景和(he)任務(wu)做優化,以提升(sheng)工作(zuo)表現。
預(yu)訓練環節尤其(qi)消耗算力,它(ta)對(dui)單個 GPU 的性能(neng)(neng)和(he)多卡間的數據傳(chuan)輸能(neng)(neng)力有極高要求。
現在(zai)只(zhi)有 A100、H100 能提供預訓(xun)練所(suo)需的計算效率,它們(men)看起來昂(ang)貴(gui),反倒是最低廉的選擇。今天 AI 還在(zai)商用早期,成本直接影響一個服務是否可用。
過(guo)去(qu)的(de)一些模型,如能識(shi)別貓是貓的(de) VGG16,參(can)數量只有(you) 1.3 億,當時一些公(gong)司(si)會用玩游戲的(de) RTX 系(xi)列消費(fei)級顯卡來跑 AI 模型。而兩年多前(qian)發布(bu)的(de) GPT-3 的(de)參(can)數規模已達到 1750 億。
大(da)模型(xing)的(de)龐大(da)計算(suan)(suan)需求下,用(yong)(yong)(yong)更(geng)多低性能 GPU 共同(tong)(tong)組成(cheng)算(suan)(suan)力已行不(bu)(bu)通了(le)。因為使用(yong)(yong)(yong)多個 GPU 訓(xun)(xun)練(lian)時(shi),需要在芯片與芯片間(jian)傳輸(shu)數據、同(tong)(tong)步參數信(xin)息,這時(shi)部(bu)分(fen) GPU 會閑置,無法一直飽和工作。所以單卡性能越低,使用(yong)(yong)(yong)的(de)卡越多,算(suan)(suan)力損耗就(jiu)越大(da)。OpenAI 用(yong)(yong)(yong) 1 萬塊 V100 訓(xun)(xun)練(lian) GPT-3 時(shi)的(de)算(suan)(suan)力利用(yong)(yong)(yong)率不(bu)(bu)到 50%。
A100 、H100 則既有單卡高(gao)算(suan)力,又有提升卡間數(shu)據傳輸的高(gao)帶寬(kuan)。A100 的 FP32(指用 4 字節進行編碼存儲的計算(suan))算(suan)力達到(dao) 19.5 TFLOPS(1 TFLOPS 即每秒進行一(yi)萬億(yi)次浮點運算(suan)),H100 的 FP32 算(suan)力更高(gao)達 134 TFLOPS,是(shi)競品 AMD MI250 的約 4 倍。
A100、H100 還提(ti)供高(gao)效(xiao)數據(ju)傳輸(shu)能力,盡可能減少(shao)算力閑置。英偉(wei)達的(de)(de)獨家秘籍是(shi)自 2014 年(nian)起陸續推出的(de)(de) NVLink、NVSwitch 等通(tong)信協議(yi)技術(shu)。用在 H100 上的(de)(de)第四代 NVLink 可將同(tong)一(yi)服務器內的(de)(de) GPU 雙向通(tong)信帶(dai)寬提(ti)升至 900 GB/s(每秒傳輸(shu) 900GB 數據(ju)),是(shi)最新一(yi)代 PCle(一(yi)種(zhong)點對(dui)點高(gao)速(su)串行傳輸(shu)標準(zhun))的(de)(de) 7 倍(bei)多。
去年美國(guo)商務部對 GPU 的出口(kou)規定也正是卡(ka)在算(suan)力和(he)帶(dai)寬這兩條線(xian)(xian)上(shang):算(suan)力上(shang)線(xian)(xian)為(wei) 4800 TOPS,帶(dai)寬上(shang)線(xian)(xian)為(wei) 600 GB/s。
A800 和(he) H800 算力和(he)原版(ban)相(xiang)當,但帶(dai)寬(kuan)打(da)折。A800 的(de)(de)帶(dai)寬(kuan)從 A100 的(de)(de) 600GB/s 降為(wei) 400GB/s,H800 的(de)(de)具體參(can)數尚(shang)未(wei)公開(kai),據彭博社報(bao)道,它的(de)(de)帶(dai)寬(kuan)只(zhi)有 H100(900 GB/s) 的(de)(de)約一半,執行(xing)同(tong)樣(yang)的(de)(de) AI 任(ren)務時,H800 會比 H100 多花 10% -30% 的(de)(de)時間。一名(ming) AI 工程師推測,H800 的(de)(de)訓練(lian)效(xiao)果(guo)可能(neng)還不如 A100,但更貴。
即使(shi)如此(ci),A800 和(he) H800 的(de)(de)性能(neng)依然(ran)超(chao)過(guo)其他大公司和(he)創業公司的(de)(de)同(tong)類(lei)產(chan)品。受限于性能(neng)和(he)更(geng)專(zhuan)用的(de)(de)架構(gou),各公司推出的(de)(de) AI 芯(xin)(xin)片(pian)或(huo) GPU 芯(xin)(xin)片(pian),現(xian)在主要用來做 AI 推理(li),難(nan)以勝任大模型(xing)預訓練。簡單來說,AI 訓練是做出模型(xing),AI 推理(li)是使(shi)用模型(xing),訓練對芯(xin)(xin)片(pian)性能(neng)要求更(geng)高。
性能差距外,英偉達的(de)更深護城河(he)是(shi)軟件(jian)生態。
早(zao)在 2006 年,英偉達就推出(chu)計(ji)算平臺 CUDA,它是一個并(bing)行(xing)(xing)計(ji)算軟件引(yin)擎,開發者(zhe)可使用 CUDA 更高效地進行(xing)(xing) AI 訓練和推理,用好 GPU 算力。CUDA 今天已成(cheng)為 AI 基礎(chu)設施,主流的(de) AI 框架、庫、工具都以(yi) CUDA 為基礎(chu)進行(xing)(xing)開發。
英偉達(da)之外的 GPU 和 AI 芯片如(ru)要(yao)接(jie)入(ru) CUDA,需要(yao)自己提(ti)供(gong)適(shi)配(pei)軟件(jian)(jian),但(dan)只有 CUDA 部分性能,更新(xin)迭代也(ye)更慢。PyTorch 等 AI 框架正試圖打(da)破 CUDA 的軟件(jian)(jian)生態壟斷,提(ti)供(gong)更多軟件(jian)(jian)能力以(yi)支(zhi)持其它廠商的 GPU,但(dan)這對開發者吸引力有限。
一位 AI 從業者(zhe)稱,他所(suo)在的公司曾接觸一家非英偉達(da) GPU 廠(chang)商,對方的芯片(pian)和(he)服務(wu)報價比英偉達(da)更低,也承諾提供更及時(shi)的服務(wu),但他們判斷,使用其它 GPU 的整體訓(xun)練和(he)開發成本會高(gao)于英偉達(da),還得承擔(dan)結(jie)果的不確定性和(he)花更多時(shi)間(jian)。
“雖然(ran) A100 價(jia)格(ge)貴,但其(qi)實用(yong)起來是最便宜的。” 他(ta)說(shuo)。對有意(yi)抓住大模(mo)型(xing)機會(hui)的大型(xing)科(ke)技公(gong)(gong)司(si)(si)和(he)頭部創(chuang)業公(gong)(gong)司(si)(si)來說(shuo),錢(qian)往(wang)(wang)往(wang)(wang)不(bu)是問題,時間才是更寶貴的資源。
短期內,唯一影響英偉達數據中心 GPU 銷量的(de)可能只(zhi)有臺(tai)積(ji)電的(de)產能。
H100/800 為 4 nm 制(zhi)程,A100/800 為 7 nm 制(zhi)程,這四款芯片均由臺積(ji)電(dian)代工生(sheng)(sheng)產。據中國臺灣媒體報道,英偉達(da)今年向臺積(ji)電(dian)新增了 1 萬片數據中心 GPU 訂單,并下(xia)了超急件 ,生(sheng)(sheng)產時間最多(duo)可縮短 50%。正(zheng)常情(qing)況下(xia),臺積(ji)電(dian)生(sheng)(sheng)產 A100 需(xu)要數月。目前的(de)生(sheng)(sheng)產瓶頸主要在先進(jin)封裝(zhuang)產能(neng)不夠,缺口(kou)達(da)一至(zhi)兩成,需(xu)要 3-6 個月逐步提升。
自從適用于(yu)并(bing)行計算的(de) GPU 被引入(ru)深(shen)度學習,十多年來,AI 發展的(de)動力就(jiu)是硬件(jian)與(yu)軟件(jian),GPU 算力與(yu)模型(xing)和算法的(de)交疊向前:模型(xing)發展拉動算力需求;算力增長(chang),又使原本(ben)難以企及的(de)更(geng)大規模訓練成為可能。
在上一波以圖像識(shi)別為代表(biao)的深度(du)學習熱潮(chao)中,中國(guo) AI 軟件能力比(bi)肩全球最前沿(yan)水平;算力是目前的難點——設計與制造(zao)芯(xin)片需(xu)要更長的積(ji)累,涉及(ji)漫長供應鏈(lian)和浩繁專利壁壘。
大(da)(da)模型(xing)是模型(xing)與算法層(ceng)的(de)又(you)一(yi)次大(da)(da)進展(zhan),沒時間慢(man)慢(man)來了,想做(zuo)大(da)(da)模型(xing),或(huo)提供大(da)(da)模型(xing)云計算能力的(de)公司必須盡快獲得足(zu)夠多(duo)的(de)先進算力。在這輪熱(re)潮使第(di)一(yi)批(pi)公司振奮或(huo)失望前,圍繞 GPU 的(de)搶奪不會停止。