「虎博科技」发布自研多模态大模型TigerBot，开源模型、代码及数据

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

「虎博科技」發布自研多模態大模型TigerBot，開源模型、代碼及數據 | 36氪首發

作者 | 36氪2023-06-08

6月7日，虎(hu)博科技正式發(fa)布并開(kai)源其自研(yan)大模(mo)型(xing)TigerBot。同時，虎(hu)博科技還發(fa)布了大模(mo)型(xing)應用開(kai)發(fa)所需(xu)的全套API，以及多(duo)領域專業數據。

虎博科技(ji)(ji)成立于(yu)2017年，是一家專注于(yu)深(shen)度(du)學(xue)習及NLP(自然語言處理)技(ji)(ji)術的AI公司，36氪曾多(duo)次(ci)報道。此前，經過多(duo)年技(ji)(ji)術探索(suo)(suo)和積(ji)累，虎博科技(ji)(ji)已經擁有包(bao)括智(zhi)能搜索(suo)(suo)、智(zhi)能推薦、機器閱讀理解、總(zong)結(jie)、翻譯、輿情(qing)分析及撰稿在內的關(guan)鍵(jian)技(ji)(ji)術，亦有全球各行業的專業信息(xi)數據積(ji)累。

2022年11月，OpenAI發布ChatGPT，掀起了全球的AI大(da)模型科(ke)技浪潮，中國市場也(ye)出現了不(bu)少團隊自(zi)研AI大(da)模型的嘗試(shi)，虎博科(ke)技也(ye)是其中之(zhi)一。

本(ben)次虎博科(ke)技所發(fa)布的自研大模型TigerBot，是一個(ge)多(duo)(duo)語言多(duo)(duo)任務(wu)大規模語言模型，經歷3個(ge)月(yue)的封閉式開(kai)發(fa)和(he)超過(guo)3000次實(shi)驗迭代，當前已經迭代出第(di)一個(ge)MVP版本(ben)。

從(cong)功能上，Tigerbot已經包含大部分(fen)(fen)生成和理解(jie)類(lei)的能力，具體包括幾大部分(fen)(fen)：

內容生成(cheng)：輔助用戶解(jie)決創(chuang)作(zuo)類問(wen)題，快速生成(cheng)營銷(xiao)文案(an)、評論、新聞稿等(deng)(deng)等(deng)(deng)。另外(wai)，Tigetbot也支持圖(tu)片生成(cheng)——模型可(ke)以(yi)實現文生圖(tu)，進行插圖(tu)創(chuang)作(zuo)等(deng)(deng)

圖片生成

開放問(wen)答：用戶向Tigerbot提出問(wen)題，比如烹飪攻略、長(chang)文本(ben)總結、文本(ben)理解、角色對話、潤(run)色等等

開放式問答

提(ti)取信息：比如有(you)目的地(di)獲取關鍵信息、提(ti)取數(shu)字、主要內容等等

長文本解讀

在(zai)3個月封(feng)閉開發背后，是一支精干的團(tuan)隊(dui)(dui)。虎博科(ke)技創始(shi)(shi)人兼CEO陳燁對36氪表示(shi)，在(zai)大模型研發上，虎博團(tuan)隊(dui)(dui)致敬了(le)硅谷經典的“車(che)庫創業(ye)”模式(shi)，團(tuan)隊(dui)(dui)開始(shi)(shi)只有5個人，CEO同時擔任(ren)首席(xi)程序(xu)員及首席(xi)AI科(ke)學家。

“在大模(mo)型的研發(fa)上，我(wo)(wo)們堅信頂尖團(tuan)隊(dui)能起(qi)到的作(zuo)用，團(tuan)隊(dui)規模(mo)不必(bi)太大，但(dan)技術需要過硬。在我(wo)(wo)們從0到1的研發(fa)過程中，我(wo)(wo)們核心的研發(fa)團(tuan)隊(dui)一(yi)直保持在4-5個人，以(yi)及密切合(he)作(zuo)的研發(fa)狀態(tai)。”陳燁(ye)表(biao)示。

從模型效果上看，虎(hu)博Tigerbot根據OpenAI InstructGPT論(lun)文的公開 NLP數據集上進行評(ping)測，TigerBot-7B對應(ying)OpenAI同等(deng)規(gui)模的6B版(ban)本，其(qi)綜(zong)合表現能夠達到OpenAI效果的96%。

以(yi)OpenAI-instruct GPT-6B-SFT為基準，歸一(yi)化并(bing)平均(jun)各模(mo)型的得分情況(kuang) 來源：虎博(bo)科技

在過去三個月中(zhong)，虎博科技主要(yao)基于GPT和BLOOM兩個開源模(mo)(mo)(mo)型基礎上，在模(mo)(mo)(mo)型架構和算(suan)法側做了一系列優化。陳燁對36氪表示，虎博科技在技術突破上，主要(yao)集中(zhong)在原創的(de)監督和微調方法上。“從(cong)整個技術角(jiao)度來說，監督微調的(de)方法是大模(mo)(mo)(mo)型這件事的(de)核(he)心，能夠影(ying)響模(mo)(mo)(mo)型效果(guo)的(de)七到八成。”

比如，大模型(xing)(xing)浪潮(chao)來(lai)臨后，困擾(rao)業界的(de)一個難題(ti)在于大模型(xing)(xing)的(de)“幻覺”——即大模型(xing)(xing)輸出的(de)結(jie)果，和人類說(shuo)的(de)話一樣自然，但(dan)在事實層面會“胡說(shuo)八道(dao)”。

陳燁以實際案例舉(ju)例，針對這(zhe)一(yi)問題，虎(hu)博(bo)應用了一(yi)些經典的監督學習方法，如Ensemble和Probabilistic Modeling，結合(he)到大模型中。

“假設(she)人類在問模(mo)型一個事實性(xing)問題，Tigerbot不會(hui)只是簡單地(di)生(sheng)成自然語言，而是同(tong)步利用更(geng)少量的(de)數據就能(neng)知(zhi)道人類意(yi)圖(tu)——在回答上，則會(hui)更(geng)好的(de)權衡(heng)事實性(xing)和創(chuang)造性(xing)。”陳(chen)燁補充。這樣的(de)結(jie)果是，機(ji)器(qi)在訓練模(mo)型中算力和數據的(de)消耗，會(hui)比同(tong)等檔(dang)次模(mo)型要小(xiao)。

針對(dui)中(zhong)文(wen)語境，虎博科(ke)技(ji)從分詞器(Tokenizer)到訓(xun)練算法等方面做了(le)針對(dui)性算法優化，使得模(mo)型更懂中(zhong)文(wen)指令(ling)，提高(gao)了(le)問(wen)答結果的(de)中(zhong)國文(wen)化屬性。

而在并?訓練上(shang)，虎(hu)博的大(da)模型團隊也突破了比如 deep-speed 等主流框(kuang)架中(zhong)若?內存和(he)通信問題，使得(de)在千(qian)卡環境(jing)下，可實現(xian)訓練數??間斷。

虎博科技在大模型研發上選擇走開源路線。此次(ci)開(kai)源(yuan)內容包含模(mo)型、代(dai)碼、數據三部(bu)分，包含TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research等多個模(mo)型版本(ben);基本(ben)訓練(lian)且(qie)覆蓋(gai)雙卡推理 180B 模(mo)型的(de)量化和推理代(dai)碼;以及達(da)100G的(de)預訓練(lian)數據、監督微調1G/100萬條數據。

目前，這些內容已經全部在Github中發布(鏈接見此)。之所以選擇開源路線，陳燁表示，推進人類文明的技術變革往往源于本能、直覺和偶然性，擁有自由的創新精神是根本。

“大模型技術就像是一門新興學科，是顛覆式且長周期的，未來的可能性超越PC和互聯網。現階段過早和過于理性地探討產品、應用、場景和商業化或許沒有必要，更重要的是推廣這一人工智能基礎設施的(de)原創(chuang)突破，促進(jin)技術的(de)發展和更新。”

出于上述的考慮，虎博除了一部分積累的預訓練數據集，也同時開源了系統性的中文數據搜集和清洗方法論。陳(chen)燁并不認為數(shu)據會成為壁壘：“更重要的(de)(de)是團隊對于數(shu)據清洗的(de)(de)理論(lun)和系(xi)(xi)統性的(de)(de)高度，這是一個(ge)長期的(de)(de)系(xi)(xi)統工(gong)程。”

虎(hu)博科(ke)技自成(cheng)立之初就(jiu)專注在中文NLP的(de)(de)技術和產品研發上，積(ji)累了大量(liang)高質量(liang)的(de)(de)中文預(yu)訓練(lian)數據，本次(ci)發布的(de)(de)100G預(yu)訓練(lian)數據，就(jiu)是其中的(de)(de)一(yi)部分。未來，虎(hu)博還(huan)將開(kai)放大量(liang)的(de)(de)金融、法律、百科(ke)等(deng)領域專業數據，供應用開(kai)發者(zhe)使用。

此(ci)前幾年，虎博(bo)(bo)科技基于(yu)NLP，開發(fa)(fa)了(le)主(zhu)要面(mian)(mian)向(xiang)泛金(jin)融領(ling)域(yu)的(de)NLP產品，如輿情監(jian)測、搜(sou)索(suo)、知識(shi)圖譜等，也(ye)(ye)(ye)已經(jing)用(yong)api的(de)方式服務B端客戶(hu)(hu)。本(ben)次大模型的(de)發(fa)(fa)布也(ye)(ye)(ye)會(hui)與虎博(bo)(bo)的(de)業務相結合(he)——當前，虎博(bo)(bo)科技已經(jing)面(mian)(mian)向(xiang)老客戶(hu)(hu)提供包括內容生成類的(de)功(gong)能(neng)模塊。陳燁(ye)表示，大模型技術浪潮來臨(lin)后(hou)，在市(shi)場側感覺“客戶(hu)(hu)決策速度比以前更快，產品落地速度也(ye)(ye)(ye)更快。”

未(wei)來，虎博科技將持續投入力量(liang)到大模型的研(yan)發和落(luo)地中。陳(chen)燁(ye)談及了正在研(yan)發或者正在完善的一些功能，如(ru)研(yan)究助手TigerDoc、文創和營銷工具等，虎博科技也正在內測部分面向個人的類助手產品。

多模態大模型