武林至尊(zun),寶刀屠龍(long),號令天下,莫敢不從。江湖上(shang)的人往往都知道屠龍(long)刀鋒利無(wu)比,但卻鮮有人知道里面(mian)暗(an)藏的武林秘(mi)籍(ji)和兵(bing)法絕學,才(cai)是真正讓人可以依仗的寶物(wu)。
ChatGPT成為今年現象級的熱門應用后,一個說法也在行業里悄然流傳開——1萬枚英偉達A100芯片,是做好大(da)(da)模(mo)(mo)型(xing)訓練的入門級裝備。一時之間“洛陽紙貴”,AI芯片成為了(le)大(da)(da)家眼中的“屠(tu)龍寶刀”。我們(men)看(kan)到(dao),大(da)(da)量抓住機遇的人(ren),不僅投身大(da)(da)模(mo)(mo)型(xing)產品,還有一部(bu)分負責給(gei)“掘金人(ren)”賣鏟子。
“ 那么問題來了:
支持大語(yu)言模型的AIoT系統,
設計難度在哪?
該怎么做設計驗證?
藏(zang)在“屠龍刀”里面(mian)的秘籍究竟是什么?”
過去的AIoT,通常指的都是帶低算力的端側小芯片,但是隨著類似ChatGPT的大語言模型全面得到應用,在端側AIoT芯片上部署需要幾十到幾百TOPS算力的LLM大模型也成為新的需求。但是新一代AIoT芯片要提高十倍到百倍算力,這不僅僅是堆砌算力那么簡單,需要從性能、互連、帶寬、接口進行全面的系統級規劃和設計。
新一代的AIoT芯片已經不是一個獨立的芯片個體,目前市場上的AIoT芯片幾乎都結合了CPU、GPU、FPGA和DSP等核心零部件。這就必然需要支持系統級芯片開發的EDA流程。
實際上,芯片設計廠商也意識到了這個問題。當制程工藝逼近極限,但人們對電子產品性能的追求還在不斷攀升時,壓力很快就傳導到了上游的芯片廠商。借助面向系統級的創新,提升芯片的終極性能表現,也成為大家的共識。

所以沒有任何分歧,無論從哪個維度看,大規模的系統級芯片設計由于場景豐富、系統規模不斷擴張,這一需求正在快速形成市場主流的大浪,涌向EDA工具并推動其不斷革新。
如何做好大系統芯片設計?
2023年7月(yue)13日至14日,備受(shou)期(qi)待的(de)(de)第三(san)屆中國集成電路設計創(chuang)新大會(ICDIA 2023)在無(wu)錫召開。作為國內領先(xian)的(de)(de)系統級驗(yan)證EDA解(jie)決(jue)方(fang)案提供商,芯華章受(shou)邀(yao)參(can)加此次盛會,在“AIoT與ChatGPT”分論壇上針對大系統芯片(pian)設計挑戰,分享(xiang)了自己(ji)的(de)(de)解(jie)決(jue)方(fang)案。

大系統芯片設計,首先要理解什么叫“系統”?對高性能AIoT、自動駕駛、高性能CPU和GPU等等復雜應用來說,系統意味著多節點互聯,每個節點都有自己的控制單元(如CPU)和計算單元(如AI、NPU),每個節點都有自己的操作系統和應用軟件。毫無疑問,大系統是一個軟硬件一體化、多節點一體化的復雜平臺,但也只有把這整個平臺都在芯片流片前驗證通過,才能真正保證高性能復雜芯片設計的正確性。
因此,大系統芯片驗證,最直接的挑戰來自于規模龐大的系統級仿真。但困難遠不止于此,由“大”帶來的結構性挑戰,涵蓋了從驗證到調試的方方面面。而更大的設計本身往往意味著更長的時間、更高昂的成本、更慢的仿真性能,本質上也就意味著更困難的驗證。
在當(dang)下的(de)(de)(de)技術和市場環境(jing)下,大系統芯片設計的(de)(de)(de)驗證面臨三大共性(xing)難(nan)題,這些難(nan)題正是(shi)傳統的(de)(de)(de)EDA工具所難(nan)以解(jie)決的(de)(de)(de)痛點:
設計大,很大,大到放不下
從多(duo)核、Chiplet封裝、多(duo)節點(dian)到完(wan)整系統(tong),復(fu)雜的(de)(de)(de)驗(yan)證規模(mo)可(ke)(ke)以輕易達到百億(yi)甚(shen)至(zhi)千億(yi)門,對驗(yan)證工(gong)具的(de)(de)(de)容量(liang)(liang)提出了更高的(de)(de)(de)要求(qiu),試想如果驗(yan)證平臺根本無法(fa)仿(fang)真(zhen)完(wan)整的(de)(de)(de)應用系統(tong),又怎么(me)能證明設(she)計是(shi)完(wan)整正確的(de)(de)(de)?但供數十億(yi)至(zhi)數百億(yi)規模(mo)容量(liang)(liang)的(de)(de)(de)驗(yan)證平臺,其性(xing)(xing)能、規模(mo)、可(ke)(ke)調試性(xing)(xing)又往往成(cheng)為難以平衡(heng)的(de)(de)(de)選擇。
驗證慢,很慢,難以收斂的慢
系統級規模不(bu)斷(duan)增大,系統級仿真(zhen)(zhen)在整(zheng)個驗證(zheng)的(de)仿真(zhen)(zhen)流(liu)程中比(bi)例(li)不(bu)斷(duan)增大,導致驗證(zheng)團隊特別依賴(lai)性能和(he)數量有限的(de)硬(ying)件仿真(zhen)(zhen)系統,導致驗證(zheng)慢的(de)不(bu)僅僅是仿真(zhen)(zhen)速度,更是整(zheng)個驗證(zheng)工作的(de)收斂速度和(he)效(xiao)率。
Debug難,很難,越往后越難
在(zai)如此復(fu)雜和大規模的(de)系(xi)統級仿(fang)真(zhen)(zhen)上(shang),調試就變(bian)成一個(ge)更加困難(nan)的(de)問題(ti)。仿(fang)真(zhen)(zhen)平臺上(shang)觀(guan)察(cha)到(dao)的(de)問題(ti),到(dao)底來(lai)自軟件、芯片邏輯設(she)計還是多節點互連?問題(ti)能(neng)否穩定復(fu)現?如何(he)在(zai)多種(zhong)仿(fang)真(zhen)(zhen)平臺的(de)數據之間進(jin)行綜合分(fen)析?不解決這些問題(ti),大系(xi)統的(de)調試就會越(yue)往后期(qi)(qi)越(yue)難(nan),最(zui)終影響整個(ge)項目(mu)周期(qi)(qi)。
我們(men)似乎(hu)開(kai)始找到“屠(tu)龍刀里秘(mi)籍”的線索。作為最上游的輔助設計工具,EDA創(chuang)新確實是(shi)提(ti)升(sheng)系統級設計效率,降低創(chuang)新成(cheng)本(ben)的關鍵“鑰匙”。
芯(xin)華章(zhang)資深產品與業務(wu)規劃(hua)總監(jian)楊曄表示,“單(dan)個(ge)(ge)IP的(de)驗(yan)證(zheng)(zheng)需求(qiu)(qiu)在降低,SoC或單(dan)個(ge)(ge)chiplet級的(de)驗(yan)證(zheng)(zheng)需求(qiu)(qiu)在不斷上升(sheng),因為(wei)這部分是客戶(hu)系(xi)統(tong)(tong)級創新(xin)的(de)核心。然而在新(xin)場景(jing)的(de)應用(yong)(yong)中,傳統(tong)(tong)的(de)EDA工(gong)具在應對大(da)容(rong)量、深度調(diao)試、多種(zhong)驗(yan)證(zheng)(zheng)場景(jing)混合使用(yong)(yong)的(de)時候(hou),遇(yu)到(dao)各(ge)種(zhong)效率挑戰。芯(xin)華章(zhang)致力提供(gong)從(cong)軟件、硬件到(dao)調(diao)試的(de)整體(ti)解(jie)(jie)決方案,特別是在大(da)規模設計(ji)的(de)系(xi)統(tong)(tong)級驗(yan)證(zheng)(zheng)、硬件驗(yan)證(zheng)(zheng)、架構驗(yan)證(zheng)(zheng)等方面,將為(wei)用(yong)(yong)戶(hu)提供(gong)全(quan)流(liu)程大(da)系(xi)統(tong)(tong)芯(xin)片(pian)驗(yan)證(zheng)(zheng)解(jie)(jie)決方案。”

芯(xin)華(hua)章(zhang)大系統(tong)芯(xin)片(pian)設(she)計驗證(zheng)解決方案(an)的(de)(de)(de)核心,是(shi)基于敏捷驗證(zheng)理念,建立統(tong)一(yi)的(de)(de)(de)EDA數據庫,打造從IP到子系統(tong)再(zai)到系統(tong)級的(de)(de)(de)統(tong)一(yi)測(ce)試(shi)場景(jing),提早開始系統(tong)級驗證(zheng),實現驗證(zheng)與測(ce)試(shi)目(mu)標的(de)(de)(de)高速收斂,進行高效(xiao)率、高效(xiao)益的(de)(de)(de)快速迭代,從而(er)助力(li)芯(xin)片(pian)及系統(tong)公司提高驗證(zheng)效(xiao)率,降(jiang)低研發成本(ben)。

芯(xin)華章(zhang)針對大規模系統(tong)級芯(xin)片“量(liang)身打造”的敏捷驗證方(fang)案,已經在多個領域獲得具(ju)體項(xiang)目部署。
針對自動駕駛應用芯片,芯華章高性能硬件仿真系統HuaEmu E1不僅有高性能仿真和深度調試,還提供了LPDDR5模型用于客戶內存仿真,提供CSI和DSI模型用于仿真自動駕駛系統的輸入和輸出,這些都超出了單顆芯片的范疇,是針對軟硬件一體化的系統方案進行仿真驗證。
為了解決原型系統和硬件仿真之間切換版本成本高,延長驗證周期的問題,芯華章發布的雙模硬件驗證系統HuaPro P2E則基于統一的軟件平臺和硬件平臺,可以在綜合、編譯、驗證方案構建、用戶腳本、調試等階段,能最大程度的復用技術模塊和中間結果,并使用統一用戶界面,從而實現原型驗證和硬件仿真絲滑的無縫集成,在節約用戶成(cheng)本的同時,還能大(da)大(da)提高(gao)驗證效率。
傳統的軟件仿真工具以調試功能強大著名,但卻受限于仿真速度,不擅長處理系統級的大規模仿真驗證。基于芯華章自主研發的邏輯仿真器GalaxSim,芯華章GalalxSim Turbo實現多核、多服務器并行運算,可以實現1K-10KHz的復雜系統軟件仿真,從而可以在RTL階段提前進行系統級仿真。
拿到(dao)屠(tu)龍刀(dao)并不一(yi)定(ding)能號令天下,只有學會了刀(dao)里面的絕學才能真正成為“武林至(zhi)尊(zun)”。
當“大模型(xing)”的(de)路上人越(yue)(yue)來越(yue)(yue)多時,產業同樣也需要向上游追(zhui)溯,進一步提升創新(xin)效率,在激(ji)烈(lie)的(de)競爭中(zhong)快人一步。作為(wei)(wei)芯片產品(pin)定義和(he)創新(xin)的(de)核心環節,隨(sui)著以系統級場景為(wei)(wei)代表的(de)產業數字化需求迸發(fa),EDA正從(cong)方法學、從(cong)底層架構開始這場自我(wo)革新(xin)。