7 月 25 日(ri)消(xiao)息,近(jin)來諸多國產大模(mo)型(xing)異軍突起,助力相關(guan)行業產業發(fa)展。北京知未(wei)智(zhi)(zhi)能科技有(you)限公司(si)日(ri)前(qian)在上海(hai)發(fa)布了(le)知未(wei)智(zhi)(zhi)能 KDF 大模(mo)型(xing) ,以(yi)及(ji)基(ji)于(yu)該(gai)模(mo)型(xing)研發(fa)的一(yi)系(xi)列(lie)產品,包括(kuo)“ KDF 智(zhi)(zhi)訊”、“KDF 絕(jue)未(wei)”、“KDF 中書”等金融行業工具。
知未智能 KDF 大模型的訓練數據以中文為主,并包含大量的金融數據,以提升模型在商業和金融領域的問題處理能力。
此外,訓練數據中還融合了部分英文與代碼數據,以適應模型的通用能力。在訓練過程中,知未智能 KDF 大模型將單個漢字視為獨立的 Token 進行處理。模型參數量達 1400 億,訓練 Token 數達到 4000 億。從代碼量角度看,數據處理部分約 5000 行,模型實驗部分約 2000 行,模型訓練部分約 500 行。
在(zai)具體訓練(lian)過程中,知未(wei)智(zhi)能(neng) KDF 大(da)模型采用了基于 PyTorch 優(you)化的 GELU 非線(xian)性(xing)激活函數(shu)。GELU 作(zuo)為非線(xian)性(xing)激活函數(shu),在(zai)各類任務中表(biao)現相對出色(se),有助(zhu)于模型更精確(que)地(di)捕獲復雜數(shu)據特征,確(que)保整個開發、訓練(lian)和(he)部(bu)署過程的高(gao)效運(yun)行。
在網絡結構方面,開發團隊對模型進行了深度優化。與 LLaMA 模型相比,該模型在每一層使用更少的參數,有效降低計算需求和內存占用。同時,網絡深度得到加強,使模型具備更強大的表示能力,能夠學習到更為復雜的數據特征。
為提升模型(xing)在(zai)大(da)規模數(shu)據處理中(zhong)的(de)可(ke)擴展性,開(kai)發團隊重新調整了(le)注(zhu)意力層的(de) Bias,并(bing)引(yin)入了(le) Flash Attention 技術,旨在(zai)節(jie)省顯存(cun)并(bing)提高模型(xing)訓練和推理速度。得(de)益(yi)于降低的(de)計算量和內(nei)存(cun)需求,Flash Attention 使得(de)知(zhi)未智能 KDF 大(da)模型(xing)在(zai)有限的(de)硬件資(zi)源下實現(xian)更(geng)高效的(de)運行。
從部分基準測試結果來看,知未智能 KDF 大模型在七個自然語言處理任務中展現出穩定的性能。在某些任務上,如 iFlytek 和 CMNLI,知未智能 KDF 大模型表現相對出色,在 ExamQA 和 OCNLI 測試中,各模型的表現大致相同,凸顯了該模型處理不同類型文本和領域知識方面的能力。
▲ 圖源 Hugging Face
知(zhi)(zhi)未(wei)智能(neng)(neng)科(ke)技 CEO 段清華表(biao)示,現有通用(yong)大模(mo)(mo)型(xing)(xing)在(zai)具體行業(ye)應用(yong)性和(he)中(zhong)(zhong)(zhong)文(wen)能(neng)(neng)力(li)方(fang)面的(de)局限是知(zhi)(zhi)未(wei)智能(neng)(neng)選(xuan)擇(ze)從零(ling)(ling)訓(xun)練知(zhi)(zhi)未(wei)智能(neng)(neng) KDF 大模(mo)(mo)型(xing)(xing)的(de)主要原因,Chatglm 在(zai)具體行業(ye)應用(yong)能(neng)(neng)力(li)上相對薄弱(ruo),MOSS 采用(yong)英文(wen)模(mo)(mo)型(xing)(xing)為基底而(er)對中(zhong)(zhong)(zhong)文(wen)支持不足(zu),LLaMA 訓(xun)練數(shu)據(ju)大多為英文(wen)數(shu)據(ju)而(er)中(zhong)(zhong)(zhong)文(wen)能(neng)(neng)力(li)相對較弱(ruo)。因此研(yan)發(fa)團隊選(xuan)擇(ze)從零(ling)(ling)開始訓(xun)練知(zhi)(zhi)未(wei)智能(neng)(neng) KDF 大模(mo)(mo)型(xing)(xing),以便更好地提升其中(zhong)(zhong)(zhong)文(wen)能(neng)(neng)力(li)以及行業(ye)適用(yong)性。
在(zai)模型(xing)(xing)訓練過程中,開(kai)發團隊不斷深(shen)入理解技術細(xi)節(jie),力求打造(zao)一(yi)款“功能強大(da)、性能優越(yue)”的中文(wen)模型(xing)(xing),作為一(yi)款應(ying)用(yong)于金融和(he)商業的垂(chui)直領(ling)域(yu)大(da)模型(xing)(xing),知未智能 KDF 大(da)模型(xing)(xing)將持續推動公(gong)司產(chan)品的開(kai)發創新。
知未智能 KDF 大模型目(mu)前已于(yu) Hugging Face 開源,未來將不限制商業使(shi)用,感興趣的小伙伴們(men)可以(yi)在此進行(xing)了(le)解。