6月7日,虎(hu)博科技正式發(fa)布并開(kai)源其自研(yan)大模(mo)型(xing)TigerBot。同時,虎(hu)博科技還發(fa)布了大模(mo)型(xing)應用開(kai)發(fa)所需(xu)的全套API,以及多(duo)領域專業數據。
虎博科技(ji)(ji)成立于(yu)2017年,是一家專注于(yu)深(shen)度(du)學(xue)習及NLP(自然語言處理)技(ji)(ji)術的AI公司,36氪曾多(duo)次(ci)報道。此前,經過多(duo)年技(ji)(ji)術探索(suo)(suo)和積(ji)累,虎博科技(ji)(ji)已經擁有包(bao)括智(zhi)能搜索(suo)(suo)、智(zhi)能推薦、機器閱讀理解、總(zong)結(jie)、翻譯、輿情(qing)分析及撰稿在內的關(guan)鍵(jian)技(ji)(ji)術,亦有全球各行業的專業信息(xi)數據積(ji)累。
2022年11月,OpenAI發布ChatGPT,掀起了全球的AI大(da)模型科(ke)技浪潮,中國市場也(ye)出現了不(bu)少團隊自(zi)研AI大(da)模型的嘗試(shi),虎博科(ke)技也(ye)是其中之(zhi)一。
本(ben)次虎博科(ke)技所發(fa)布的自研大模型TigerBot,是一個(ge)多(duo)(duo)語言多(duo)(duo)任務(wu)大規模語言模型,經歷3個(ge)月(yue)的封閉式開(kai)發(fa)和(he)超過(guo)3000次實(shi)驗迭代,當前已經迭代出第(di)一個(ge)MVP版本(ben)。
從(cong)功能上,Tigerbot已經包含大部分(fen)(fen)生成和理解(jie)類(lei)的能力,具體包括幾大部分(fen)(fen):
內容生成(cheng):輔助用戶解(jie)決創(chuang)作(zuo)類問(wen)題,快速生成(cheng)營銷(xiao)文案(an)、評論、新聞稿等(deng)(deng)等(deng)(deng)。另外(wai),Tigetbot也支持圖(tu)片生成(cheng)——模型可(ke)以(yi)實現文生圖(tu),進行插圖(tu)創(chuang)作(zuo)等(deng)(deng)

圖片生成
開放問(wen)答:用戶向Tigerbot提出問(wen)題,比如烹飪攻略、長(chang)文本(ben)總結、文本(ben)理解、角色對話、潤(run)色等等

開放式問答
提(ti)取信息:比如有(you)目的地(di)獲取關鍵信息、提(ti)取數(shu)字、主要內容等等

長文本解讀
在(zai)3個月封(feng)閉開發背后,是一支精干的團(tuan)隊(dui)(dui)。虎博科(ke)技創始(shi)(shi)人兼CEO陳燁對36氪表示(shi),在(zai)大模型研發上,虎博團(tuan)隊(dui)(dui)致敬了(le)硅谷經典的“車(che)庫創業(ye)”模式(shi),團(tuan)隊(dui)(dui)開始(shi)(shi)只有5個人,CEO同時擔任(ren)首席(xi)程序(xu)員及首席(xi)AI科(ke)學家。
“在大模(mo)型的研發(fa)上,我(wo)(wo)們堅信頂尖團(tuan)隊(dui)能起(qi)到的作(zuo)用,團(tuan)隊(dui)規模(mo)不必(bi)太大,但(dan)技術需要過硬。在我(wo)(wo)們從0到1的研發(fa)過程中,我(wo)(wo)們核心的研發(fa)團(tuan)隊(dui)一(yi)直保持在4-5個人,以(yi)及密切合(he)作(zuo)的研發(fa)狀態(tai)。”陳燁(ye)表(biao)示。
從模型效果上看,虎(hu)博Tigerbot根據OpenAI InstructGPT論(lun)文的公開 NLP數據集上進行評(ping)測,TigerBot-7B對應(ying)OpenAI同等(deng)規(gui)模的6B版(ban)本,其(qi)綜(zong)合表現能夠達到OpenAI效果的96%。

以(yi)OpenAI-instruct GPT-6B-SFT為基準,歸一(yi)化并(bing)平均(jun)各模(mo)型的得分情況(kuang) 來源:虎博(bo)科技
在過去三個月中(zhong),虎博科技主要(yao)基于GPT和BLOOM兩個開源模(mo)(mo)(mo)型基礎上,在模(mo)(mo)(mo)型架構和算(suan)法側做了一系列優化。陳燁對36氪表示,虎博科技在技術突破上,主要(yao)集中(zhong)在原創的(de)監督和微調方法上。“從(cong)整個技術角(jiao)度來說,監督微調的(de)方法是大模(mo)(mo)(mo)型這件事的(de)核(he)心,能夠影(ying)響模(mo)(mo)(mo)型效果(guo)的(de)七到八成。”
比如,大模型(xing)(xing)浪潮(chao)來(lai)臨后,困擾(rao)業界的(de)一個難題(ti)在于大模型(xing)(xing)的(de)“幻覺”——即大模型(xing)(xing)輸出的(de)結(jie)果,和人類說(shuo)的(de)話一樣自然,但(dan)在事實層面會“胡說(shuo)八道(dao)”。
陳燁以實際案例舉(ju)例,針對這(zhe)一(yi)問題,虎(hu)博(bo)應用了一(yi)些經典的監督學習方法,如Ensemble和Probabilistic Modeling,結合(he)到大模型中。
“假設(she)人類在問模(mo)型一個事實性(xing)問題,Tigerbot不會(hui)只是簡單地(di)生(sheng)成自然語言,而是同(tong)步利用更(geng)少量的(de)數據就能(neng)知(zhi)道人類意(yi)圖(tu)——在回答上,則會(hui)更(geng)好的(de)權衡(heng)事實性(xing)和創(chuang)造性(xing)。”陳(chen)燁補充。這樣的(de)結(jie)果是,機(ji)器(qi)在訓練模(mo)型中算力和數據的(de)消耗,會(hui)比同(tong)等檔(dang)次模(mo)型要小(xiao)。
針對(dui)中(zhong)文(wen)語境,虎博科(ke)技(ji)從分詞器(Tokenizer)到訓(xun)練算法等方面做了(le)針對(dui)性算法優化,使得模(mo)型更懂中(zhong)文(wen)指令(ling),提高(gao)了(le)問(wen)答結果的(de)中(zhong)國文(wen)化屬性。
而在并?訓練上(shang),虎(hu)博的大(da)模型團隊也突破了比如 deep-speed 等主流框(kuang)架中(zhong)若?內存和(he)通信問題,使得(de)在千(qian)卡環境(jing)下,可實現(xian)訓練數??間斷。
虎博科技在大模型研發上選擇走開源路線。此次(ci)開(kai)源(yuan)內容包含模(mo)型、代(dai)碼、數據三部(bu)分,包含TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research等多個模(mo)型版本(ben);基本(ben)訓練(lian)且(qie)覆蓋(gai)雙卡推理 180B 模(mo)型的(de)量化和推理代(dai)碼;以及達(da)100G的(de)預訓練(lian)數據、監督微調1G/100萬條數據。
目前,這些內容已經全部在Github中發布(鏈接見此)。之所以選擇開源路線,陳燁表示,推進人類文明的技術變革往往源于本能、直覺和偶然性,擁有自由的創新精神是根本。
“大模型技術就像是一門新興學科,是顛覆式且長周期的,未來的可能性超越PC和互聯網。現階段過早和過于理性地探討產品、應用、場景和商業化或許沒有必要,更重要的是推廣這一人工智能基礎設施的(de)原創(chuang)突破,促進(jin)技術的(de)發展和更新。”
出于上述的考慮,虎博除了一部分積累的預訓練數據集,也同時開源了系統性的中文數據搜集和清洗方法論。陳(chen)燁并不認為數(shu)據會成為壁壘:“更重要的(de)(de)是團隊對于數(shu)據清洗的(de)(de)理論(lun)和系(xi)(xi)統性的(de)(de)高度,這是一個(ge)長期的(de)(de)系(xi)(xi)統工(gong)程。”
虎(hu)博科(ke)技自成(cheng)立之初就(jiu)專注在中文NLP的(de)(de)技術和產品研發上,積(ji)累了大量(liang)高質量(liang)的(de)(de)中文預(yu)訓練(lian)數據,本次(ci)發布的(de)(de)100G預(yu)訓練(lian)數據,就(jiu)是其中的(de)(de)一(yi)部分。未來,虎(hu)博還(huan)將開(kai)放大量(liang)的(de)(de)金融、法律、百科(ke)等(deng)領域專業數據,供應用開(kai)發者(zhe)使用。
此(ci)前幾年,虎博(bo)(bo)科技基于(yu)NLP,開發(fa)(fa)了(le)主(zhu)要面(mian)(mian)向(xiang)泛金(jin)融領(ling)域(yu)的(de)NLP產品,如輿情監(jian)測、搜(sou)索(suo)、知識(shi)圖譜等,也(ye)(ye)(ye)已經(jing)用(yong)api的(de)方式服務B端客戶(hu)(hu)。本(ben)次大模型的(de)發(fa)(fa)布也(ye)(ye)(ye)會(hui)與虎博(bo)(bo)的(de)業務相結合(he)——當前,虎博(bo)(bo)科技已經(jing)面(mian)(mian)向(xiang)老客戶(hu)(hu)提供包括內容生成類的(de)功(gong)能(neng)模塊。陳燁(ye)表示,大模型技術浪潮來臨(lin)后(hou),在市(shi)場側感覺“客戶(hu)(hu)決策速度比以前更快,產品落地速度也(ye)(ye)(ye)更快。”
未(wei)來,虎博科技將持續投入力量(liang)到大模型的研(yan)發和落(luo)地中。陳(chen)燁(ye)談及了正在研(yan)發或者正在完善的一些功能,如(ru)研(yan)究助手TigerDoc、文創和營銷工具等,虎博科技也正在內測部分面向個人的類助手產品。