
文/Renee
編輯/孫越
2023年,投資機構與股民們,正向AI芯片領域的上市公司,發起奪命三連問:
你做存算一體芯片了嗎?

(投資(zi)者向(xiang)瀾(lan)起(qi)科(ke)技提問 圖源:同花順(shun)財經(jing))
存算一體芯片進度如何?

(投資者向東芯股份提問 圖源:同花順財(cai)經)
存算一體芯片前景如何?

(投資者向恒爍股份提問 圖源:同花順(shun)財(cai)經(jing))
以上的一系(xi)列發問,意味著存算(suan)(suan)一體(ti)不(bu)再“停留”于學(xue)界(jie)與(yu)產(chan)界(jie),儼(yan)然(ran)火到了二級市場:股民、券商機構正(zheng)加(jia)(jia)班加(jia)(jia)點狂補(bu)存算(suan)(suan)一體(ti)的課(ke),于是傳(chuan)統芯片大廠從2023年初至(zhi)今,一直(zhi)被“拷問”存算(suan)(suan)一體(ti)的布局情況。
一個自然而然的疑問是,存算一體為何突然變得如此火爆?
7.14發(fa)布新存(cun)儲產(chan)品OceanStor A310的華為,給出了自己(ji)的答案。華為數(shu)(shu)據(ju)存(cun)儲產(chan)品線總裁周躍(yue)峰(feng)表示,在通用大(da)模(mo)型(xing)與(yu)(yu)行業大(da)模(mo)型(xing)的訓練(lian)推(tui)理中面臨(lin)著諸多數(shu)(shu)據(ju)難題:海量(liang)數(shu)(shu)據(ju)跨(kua)域歸集慢、預處理與(yu)(yu)訓練(lian)中數(shu)(shu)據(ju)交互效率低、數(shu)(shu)據(ju)安全(quan)流(liu)動難。
AI大模型對存儲帶來(lai)了(le)新的挑(tiao)戰(zhan),比(bi)如穩定性(xing)相較于傳統AI更差,同時有大量的數據預處理(li)和準(zhun)備工作(zuo),需要用近存計(ji)算(存算一(yi)(yi)體的一(yi)(yi)種)來(lai)系統性(xing)處理(li)這個問題。
那(nei)么,這里“大量的(de)數據”究竟有多(duo)少(shao)?據偲睿洞(dong)察測(ce)算,現階段 ChatGPT 日活一億,若(ruo)每日有5%的(de)人每秒同(tong)時提問,將會吞噬(shi)三峽大壩(ba)近一年的(de)發電量。
換言之(zhi),大(da)模(mo)(mo)型正瘋狂索取(qu)算(suan)力,而(er)以存算(suan)一(yi)體為(wei)代表(biao)的新興解(jie)決(jue)方案(an)能夠(gou)解(jie)決(jue)大(da)模(mo)(mo)型帶(dai)來的諸(zhu)多(duo)挑戰。而(er)事實(shi)上,大(da)模(mo)(mo)型除了(le)對算(suan)力提出嚴(yan)苛要(yao)求外,也給了(le)AI芯片廠(chang)商“不(bu)少糖吃”。
本文試圖探究,大模(mo)型背景下,給了AI芯片廠商(shang)怎樣(yang)的好處(chu)?被ChatGPT“帶火”的存算一體廠商(shang),未來格局(ju)如何(he)?
PART-01
“福禍相依”的AI芯片廠商
大(da)模型的(de)風還在(zai)呼嘯,有關大(da)模型的(de)討論仍在(zai)如(ru)火如(ru)荼地進行。
8月初,在中國計算機學會(CCF)人工智能會議分論壇——“見疆見昆侖·AI大模(mo)型算(suan)力(li)(li)前沿”上,專家學者們一致表(biao)示,大模(mo)型時代,智能(neng)算(suan)力(li)(li)成(cheng)為“稀(xi)缺資(zi)產”,如(ru)何善用算(suan)力(li)(li)資(zi)源,發(fa)揮其最大效益,已經成(cheng)為每個參與者必(bi)須面(mian)對的挑戰。
而光是(shi)GPT-3對算力索(suo)取量(liang),保守情況下(xia),需(xu)三峽(xia)大壩徹(che)夜“打工”才能滿足:

假設有1億人同(tong)時在(zai)線,每(mei)(mei)(mei)日有5%的(de)人每(mei)(mei)(mei)秒(miao)同(tong)時提(ti)(ti)問,每(mei)(mei)(mei)個prompt占30個token,便需要1530萬(wan)顆H100芯(xin)(xin)片來提(ti)(ti)供(gong)其推理算(suan)力(li);而每(mei)(mei)(mei)顆H100的(de)功(gong)耗在(zai)750W左(zuo)右,若(ruo)每(mei)(mei)(mei)天運行10個小時,這些H100芯(xin)(xin)片所在(zai)的(de)數據中(zhong)心一(yi)(yi)年的(de)耗電量將(jiang)達到840億kW*h,而三峽大壩一(yi)(yi)年的(de)發電量是882億kW*h。
讓AI芯片廠商更為(wei)焦(jiao)慮的是,這還只(zhi)是ChatGPT一個大模(mo)型在推理階段(duan)的耗(hao)電量(liang)(liang),百(bai)家大模(mo)型全階段(duan)、全部運作的耗(hao)電量(liang)(liang),難以估(gu)量(liang)(liang)。
于(yu)是,一(yi)系(xi)列新興(xing)的解決(jue)方案紛紛被(bei)廠商(shang)挖掘出來:存(cun)算(suan)一(yi)體、chiplet、HBM等(deng)等(deng)。在這之中,由于(yu)存(cun)算(suan)一(yi)體推翻了傳統馮諾(nuo)依曼架構下的存(cun)儲(chu)墻(qiang),實(shi)實(shi)在在做(zuo)到了降(jiang)本(ben)增效,成為今年(nian)的“紫微星”。

(圖(tu)源:偲睿洞察《AI大算力(li)芯(xin)片行(xing)業報告(gao)-百舸爭流,創新者先》)
除了新興方案涌現讓AI芯片廠商喘了一口氣之外,大模型也為芯片廠商尤其是初創芯片廠商,帶來一個利好消息:軟件生態重要性正在下降。
早先技術不(bu)夠成熟之時(shi),研究者(zhe)們(men)只能從解決某個特定(ding)問題起(qi)步(bu),參(can)數量(liang)低于百萬(wan)的(de)小模型由此誕生。例如谷歌(ge)旗下的(de)AI公司DeepMind,讓AlphaGO對上(shang)百萬(wan)種人類專業(ye)選手的(de)下棋步(bu)驟進行專項“學習”。
而小模型多(duo)了(le)之(zhi)后,硬件(jian)例如(ru)芯片的適配問題迫在眉睫。故,當英(ying)偉達(da)推出統一生(sheng)態CUDA之(zhi)后,GPU+CUDA迅速博得(de)計算機科學(xue)界(jie)認可,成(cheng)為人(ren)工智能開(kai)發的標準(zhun)配置。
現如今紛紛涌現的大模型具備多模態能力,能夠處理文本、圖片、編程等問題,也能夠覆蓋辦公、教育、醫療等多個垂直領域。這也就意味著,適應主流生態并非唯一的選擇:在大模型對芯片需求量暴漲之時,芯片廠商或許可以只適配1-2個大模型,便能完成以往多個小模型的訂單。
也就是說,ChatGPT的出現,為初創芯片廠商們提供了彎道超車的機會。這就意味著,AI芯片市場格局將發生巨變:不再是個別廠商的獨角戲,而是多個創新者的群戲。
當算力成為稀缺貨,同時適應主流生態不再成為必選項時,存算一體難掩光芒。此時,要不要投入,要投入多少,成為擺在AI芯片廠商面前的第二道難題。
對此,“過來人”芯片巨頭NVIDIA摸爬滾打多年給出的答案是,勇于創新,重金投入:
每一個新興技術的(de)研發廠(chang)商(shang),在前期無疑要面臨(lin)技術探(tan)索碰壁,下游廠(chang)商(shang)不認同(tong)等(deng)各個層面的(de)問題。而在早(zao)期,誰先(xian)(xian)預(yu)判到未來的(de)發展(zhan)趨勢(shi),并(bing)勇于邁出探(tan)索的(de)腳步,鋪下合(he)理的(de)資(zi)源去嘗(chang)試(shi),就(jiu)會搶到先(xian)(xian)機。
當數據(ju)中(zhong)心浪潮(chao)還未鋪天蓋地襲來、人工智能(neng)訓練還是小眾領域之時,英(ying)偉(wei)達(da)已經投(tou)入重金,研(yan)發通用計算GPU和(he)統一(yi)編(bian)程軟件(jian)CUDA,為英(ying)偉(wei)達(da)謀一(yi)個好差事——計算平臺。
而在當時(shi),讓GPU可編(bian)程,是“無用且(qie)虧(kui)本”的:不(bu)知(zhi)道(dao)其性能是否能夠翻倍(bei),但產品(pin)研(yan)發會翻倍(bei)。為此,沒有(you)客戶愿(yuan)意為此買單。但預判到單一功能圖形處理器不(bu)是長遠之(zhi)計的英偉(wei)達毅然決定(ding),在所(suo)有(you)產品(pin)線上都應用CUDA。
在芯(xin)東西與英偉達(da)中(zhong)國區(qu)工程和解(jie)決(jue)方案(an)高級總監賴俊(jun)杰(jie)博士(shi)的采訪中(zhong),賴俊(jun)杰(jie)表示:“為了計(ji)算平臺這一(yi)愿景,早(zao)期黃仁勛快速調動了英偉達(da)上(shang)上(shang)下(xia)(xia)下(xia)(xia)非常多的資(zi)源。”
遠見+重金投入,在2012年,英(ying)偉達拿到了創新者(zhe)的獎勵:2012年,深(shen)度學習算(suan)(suan)法的計算(suan)(suan)表(biao)現轟動(dong)學術圈,作為(wei)高算(suan)(suan)力且(qie)更為(wei)通用、易(yi)用的生產力工具,GPU+CUDA迅速風靡計算(suan)(suan)機(ji)科學界,成為(wei)人工智能開(kai)發(fa)的“標配”。
在AI大算力芯片(pian)的(de)征途上,存算一體芯片(pian)迎(ying)來了自己的(de)“黃金期”,超前投入,是(shi)為正解。
PART-02
非技術、資金雄厚者,勿進
窺見到存算一(yi)體(ti)(ti)的種種好處(chu),現(xian)階段,存算一(yi)體(ti)(ti)芯片(pian)玩家陣(zhen)營日益龐(pang)大。

(圖源:偲睿洞察《AI大算(suan)力(li)芯片(pian)行(xing)業報(bao)告-百舸(ge)爭流,創(chuang)新者先》)
據偲睿洞(dong)察不完全統計,自2019年(nian)起,新增(zeng)的(de)(de)AI芯片(pian)廠(chang)商,多(duo)數在布局存(cun)算(suan)一(yi)體:在2019-2021年(nian)新增(zeng)的(de)(de)AI芯片(pian)廠(chang)商有20家,在這(zhe)之中,有10家選擇存(cun)算(suan)一(yi)體路線。
這無一不說明著(zhu),存算(suan)一體將成為繼GPGPU、ASIC等架構后的,一顆冉冉升起的新星(xing)(xing)。而(er)這顆新星(xing)(xing),并不是(shi)誰都(dou)可以摘。
在學界、產界、資本一致看好存算一體的境況下,強勁的技術實力、扎實的人才儲備以及對遷移成本接受度的精準把控,是初創公司在業內保持競爭力的關鍵,也是擋在新玩家面前的三大門檻。
強勁的技術實力,永遠是芯片領域的最高山。
首(shou)先(xian)是(shi)存算(suan)一(yi)體“涉獵廣泛”,涉及到(dao)(dao)芯片(pian)制造(zao)的全環節:從最底(di)層的器件,到(dao)(dao)電路設計,架構(gou)設計,工具(ju)鏈(lian),再(zai)到(dao)(dao)軟(ruan)件層的研(yan)發(fa);其(qi)次(ci)是(shi)其(qi)“牽一(yi)發(fa)而動全身”:在每一(yi)層做相應改(gai)變的同(tong)時,還要考慮各層級之(zhi)間的適配度。
我們一層一層來看,一顆存算一體芯片被造出來,有怎樣的技術難題。
首先,在器件選擇上,廠(chang)商就“如履薄冰”:存(cun)儲(chu)器設(she)計決(jue)定芯片的(de)良率(lv),一(yi)旦(dan)方(fang)向錯誤將(jiang)可能導致芯片無法(fa)量(liang)產。
其(qi)次(ci)是(shi)電(dian)(dian)路(lu)設計(ji)(ji)層面。電(dian)(dian)路(lu)層面有了器件之(zhi)后,需(xu)要(yao)用其(qi)做存(cun)儲陣(zhen)列的電(dian)(dian)路(lu)設計(ji)(ji)。而目前在電(dian)(dian)路(lu)設計(ji)(ji)上(shang),存(cun)內計(ji)(ji)算沒有EDA工具(ju)指導,需(xu)要(yao)靠手(shou)動完成,無疑又大大增(zeng)加了操作難度。
緊接著,架(jia)(jia)構(gou)層(ceng)面有(you)電路(lu)之后(hou),需要做架(jia)(jia)構(gou)層(ceng)的(de)設計。每一(yi)個(ge)電路(lu)是一(yi)個(ge)基本的(de)計算模塊,整個(ge)架(jia)(jia)構(gou)由不同模塊組成,存算一(yi)體模塊的(de)設計決定(ding)了芯片的(de)能效(xiao)比。模擬電路(lu)會(hui)(hui)受(shou)到(dao)噪聲干(gan)擾,芯片受(shou)到(dao)噪聲影響后(hou)運轉起(qi)來會(hui)(hui)遇到(dao)很多(duo)問題。
這種情(qing)況(kuang)下,需要芯片(pian)架(jia)構(gou)(gou)師足夠了解模擬(ni)存內計(ji)算的工藝特(te)點,同(tong)時針對這些特(te)點去設(she)計(ji)架(jia)構(gou)(gou),在此基礎上(shang),還(huan)要考慮到架(jia)構(gou)(gou)與軟(ruan)件(jian)開發的適配度。軟(ruan)件(jian)層面架(jia)構(gou)(gou)設(she)計(ji)完成后,還(huan)需要開發相應的工具鏈。

(圖源:偲(si)睿洞(dong)察《AI大算力(li)芯片(pian)行業報告-百(bai)舸爭流(liu),創新(xin)者先》)
而由于存(cun)算(suan)一(yi)體的(de)原始模型與傳統架(jia)構下的(de)模型不同,編譯器(qi)要適配(pei)完全不同的(de)存(cun)算(suan)一(yi)體架(jia)構,確保所有(you)計算(suan)單元能夠映射到硬(ying)件上(shang),并且順利(li)運(yun)行。
一條完整的技術鏈條下來,考驗著器件、電路設計、架構設計、工具鏈、軟件層開發各個環節的能力,與協調各個環節的適配能力,是耗時耗力耗錢的持久戰。
同時,根據以上環節操作流程可以看到,存算一體芯片亟需經驗豐富的電路設計師、芯片架構師。
鑒于存(cun)算一(yi)(yi)體(ti)(ti)的(de)特(te)殊性,能夠做成存(cun)算一(yi)(yi)體(ti)(ti)的(de)公司在人員儲備上需(xu)要有以下兩(liang)點特(te)征:
1、帶頭(tou)人(ren)需有足夠魄力。在器件選(xuan)擇(RRAM、SRAM等)、計(ji)算(suan)模(mo)式(傳統馮諾依曼、存(cun)算(suan)一(yi)體等)的(de)(de)選(xuan)擇上要有清晰的(de)(de)思路。這是因為,存(cun)算(suan)一(yi)體作為一(yi)項顛覆、創新技術,無人(ren)引領,試(shi)錯成本極(ji)高。能(neng)夠實現商業化的(de)(de)企業,創始(shi)人(ren)往(wang)(wang)往(wang)(wang)具備(bei)豐富的(de)(de)產(chan)業界、大(da)廠(chang)經驗和(he)學術背景,能(neng)夠帶領團隊快速完成產(chan)品迭代(dai)。
2、在核(he)(he)心團(tuan)隊中,需要在技(ji)術(shu)的(de)各個層(ceng)級中配(pei)備經驗豐富(fu)的(de)人才。例如(ru)架構(gou)(gou)師(shi),其是團(tuan)隊的(de)核(he)(he)心。架構(gou)(gou)師(shi)需要對(dui)底層(ceng)硬件(jian),軟件(jian)工(gong)具有深(shen)厚的(de)理解(jie)和認知,能夠(gou)把構(gou)(gou)想中的(de)存(cun)算架構(gou)(gou)通過(guo)技(ji)術(shu)實現出來,最終達成產品落地;
3、此外,據量(liang)子位報告顯示(shi),國(guo)內(nei)缺(que)乏(fa)電(dian)路(lu)設(she)計(ji)(ji)的高端(duan)人(ren)才(cai),尤其在混合(he)電(dian)路(lu)領域(yu)。存內(nei)計(ji)(ji)算涉及(ji)大量(liang)的模擬(ni)電(dian)路(lu)設(she)計(ji)(ji),與強調團(tuan)隊協作的數字(zi)電(dian)路(lu)設(she)計(ji)(ji)相(xiang)比,模擬(ni)電(dian)路(lu)設(she)計(ji)(ji)需要對于工藝(yi)、設(she)計(ji)(ji)、版圖、模型(xing)pdk以及(ji)封裝都(dou)極(ji)度熟悉的個人(ren)設(she)計(ji)(ji)師(shi)。
而這一系列的(de)人(ren)才與技(ji)術(shu),都要以落(luo)地效果為終極目標——落(luo)地才是(shi)第一生產(chan)力。在交(jiao)付時,客戶考量的(de)并不僅(jin)僅(jin)是(shi)存算一體(ti)(ti)技(ji)術(shu),而是(shi)相較(jiao)于以往產(chan)品而言,存算一體(ti)(ti)整體(ti)(ti)SoC的(de)能效比、面效比和易用性(xing)等(deng)性(xing)能指標是(shi)否(fou)有(you)足夠的(de)提升(sheng),更重要的(de)是(shi),遷移成(cheng)本是(shi)否(fou)在承受范(fan)圍內。
如果(guo)選擇(ze)新的芯片(pian)提升(sheng)算法表(biao)現力需要(yao)重新學習一(yi)套編程(cheng)體系,在(zai)模型遷移(yi)上所花的人工成本高(gao)出購買(mai)一(yi)個(ge)新GPU的成本,那(nei)么客(ke)戶大概(gai)率不(bu)會選擇(ze)使用新的芯片(pian)。
因(yin)此,存算一體在落地(di)過程中(zhong)是(shi)否能將遷移成本降到最低(di),是(shi)客戶在選擇產(chan)品時的關鍵(jian)因(yin)素。
在大模型背景下(xia),存算(suan)一體芯(xin)片(pian)憑借著(zhu)低(di)功(gong)耗但(dan)高能效(xiao)比(bi)的特性,正成(cheng)為芯(xin)片(pian)賽道,冉(ran)(ran)冉(ran)(ran)升起的一顆(ke)新星。現如今,存算(suan)一體市場風云未定,仍處于“小荷才(cai)露尖(jian)尖(jian)角”階段。
但我們不可否認的是,存算一體玩家已然構筑了三大高墻,非技術實力雄厚,人才儲備扎實者,勿進。
以(yi)(yi)上(shang),是偲(si)睿洞察《AI大算(suan)力芯片行業(ye)報(bao)告——百舸爭流(liu)創新者先》部分(fen)節選(xuan)。該報(bao)告還將回答以(yi)(yi)下問題:存算(suan)一(yi)體具體哪(na)些方(fang)面吸引了(le)初(chu)創廠商(shang)紛紛布局(ju)?除了(le)存算(suan)一(yi)體,還有哪(na)些新興(xing)解決(jue)方(fang)案能夠喂飽大算(suan)力?