国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

「虎博科技」發布自研多模態大模型TigerBot,開源模型、代碼及數據 | 36氪首發
作者 | 36氪(ke)2023-06-08

6月7日,虎(hu)博科(ke)技(ji)正式發布并開源其自(zi)研(yan)大模型TigerBot。同時,虎(hu)博科(ke)技(ji)還發布了大模型應用(yong)開發所需的全套API,以(yi)及多領域專業數據(ju)。

虎博科技成立于2017年,是一家專(zhuan)(zhuan)注于深度學習及(ji)NLP(自然語言處(chu)理)技術的AI公(gong)司,36氪(ke)曾多次報道。此前,經過多年技術探索(suo)和積累(lei),虎博科技已經擁有包括智能搜索(suo)、智能推(tui)薦(jian)、機器閱讀(du)理解、總結、翻譯、輿(yu)情分析及(ji)撰稿在內的關(guan)鍵技術,亦有全球各行業的專(zhuan)(zhuan)業信息(xi)數(shu)據積累(lei)。

2022年11月(yue),OpenAI發布ChatGPT,掀起了全(quan)球的(de)AI大模型科技(ji)浪潮,中(zhong)國市場(chang)也出現了不少團隊自研AI大模型的(de)嘗試,虎博科技(ji)也是其中(zhong)之一。

本次虎博科技所發布的自(zi)研大模型TigerBot,是(shi)一個(ge)多(duo)語言(yan)多(duo)任務大規模語言(yan)模型,經歷3個(ge)月的封閉式開發和(he)超過3000次實(shi)驗(yan)迭代,當(dang)前已經迭代出(chu)第一個(ge)MVP版(ban)本。

從功能上,Tigerbot已經包(bao)含大部(bu)分生成(cheng)和(he)理(li)解類的能力,具體包(bao)括幾大部(bu)分:

  • 內容(rong)生(sheng)(sheng)(sheng)成:輔助用(yong)戶解決創(chuang)作類問題,快速生(sheng)(sheng)(sheng)成營(ying)銷文案、評論、新聞稿等(deng)等(deng)。另(ling)外(wai),Tigetbot也支持圖(tu)片生(sheng)(sheng)(sheng)成——模(mo)型可以實(shi)現文生(sheng)(sheng)(sheng)圖(tu),進行插圖(tu)創(chuang)作等(deng)

圖片生成

  • 開放問(wen)答:用戶(hu)向Tigerbot提出問(wen)題,比如(ru)烹飪攻略、長文本總結、文本理解、角色對話、潤(run)色等等

開放式問答

  • 提取(qu)信息(xi):比如有目的(de)地(di)獲取(qu)關鍵(jian)信息(xi)、提取(qu)數(shu)字、主(zhu)要內(nei)容(rong)等等

長文本解讀

在3個月(yue)封閉開發背后,是(shi)一支精干的團(tuan)隊(dui)。虎(hu)博科技創始人兼(jian)CEO陳燁(ye)對36氪表示,在大模型研發上(shang),虎(hu)博團(tuan)隊(dui)致敬了硅谷(gu)經(jing)典的“車庫創業”模式(shi),團(tuan)隊(dui)開始只(zhi)有(you)5個人,CEO同時擔任首(shou)席程序員及(ji)首(shou)席AI科學家。

“在大(da)模型的(de)研(yan)發(fa)(fa)上(shang),我(wo)們(men)堅信頂尖(jian)團(tuan)隊(dui)(dui)能起到的(de)作用(yong),團(tuan)隊(dui)(dui)規模不必太大(da),但技術需要過硬。在我(wo)們(men)從0到1的(de)研(yan)發(fa)(fa)過程中,我(wo)們(men)核心的(de)研(yan)發(fa)(fa)團(tuan)隊(dui)(dui)一直(zhi)保持在4-5個(ge)人,以及密切合作的(de)研(yan)發(fa)(fa)狀態。”陳(chen)燁表示。

從模型效果上看(kan),虎博Tigerbot根據OpenAI InstructGPT論文的(de)公開 NLP數(shu)據集上進行(xing)評測,TigerBot-7B對應OpenAI同等(deng)規模的(de)6B版本,其(qi)綜(zong)合表現能夠(gou)達到(dao)OpenAI效果的(de)96%。

以OpenAI-instruct GPT-6B-SFT為基準,歸一化并(bing)平均(jun)各模型(xing)的得分情況 來(lai)源:虎博科(ke)技

在(zai)過去(qu)三個月中(zhong),虎博(bo)科(ke)(ke)技(ji)主要基于GPT和(he)BLOOM兩個開(kai)源模型(xing)基礎(chu)上(shang),在(zai)模型(xing)架構(gou)和(he)算(suan)法(fa)側做(zuo)了一系(xi)列優化(hua)。陳燁對36氪表(biao)示,虎博(bo)科(ke)(ke)技(ji)在(zai)技(ji)術突破上(shang),主要集中(zhong)在(zai)原創的(de)監督和(he)微調方法(fa)上(shang)。“從整個技(ji)術角(jiao)度(du)來說,監督微調的(de)方法(fa)是大模型(xing)這(zhe)件(jian)事的(de)核心(xin),能夠影響模型(xing)效果的(de)七到八(ba)成。”

比(bi)如,大(da)模型(xing)浪潮來臨后(hou),困擾業界(jie)的一(yi)個難題在于大(da)模型(xing)的“幻(huan)覺”——即大(da)模型(xing)輸出(chu)的結(jie)果,和(he)人(ren)類說(shuo)的話一(yi)樣(yang)自然,但在事(shi)實層面(mian)會“胡說(shuo)八(ba)道”。

陳(chen)燁以實(shi)際案(an)例舉例,針(zhen)對(dui)這(zhe)一問(wen)題,虎博(bo)應用了一些經(jing)典的監(jian)督學(xue)習方法,如Ensemble和(he)Probabilistic Modeling,結合(he)到大模型(xing)中。

“假設人(ren)類在問(wen)模(mo)(mo)型一個事實性(xing)問(wen)題,Tigerbot不會只(zhi)是簡(jian)單(dan)地生成自然(ran)語言,而是同步(bu)利用更少(shao)量的數(shu)據就能(neng)知道人(ren)類意圖(tu)——在回(hui)答(da)上,則會更好的權(quan)衡事實性(xing)和創造性(xing)。”陳燁補充。這樣的結果是,機器在訓練模(mo)(mo)型中算力和數(shu)據的消耗,會比同等檔次(ci)模(mo)(mo)型要小。

針對中文語境,虎博科技(ji)從分詞(ci)器(Tokenizer)到訓練(lian)算(suan)法(fa)等方(fang)面做(zuo)了(le)針對性算(suan)法(fa)優化,使得模型更懂中文指令(ling),提高(gao)了(le)問答結果的中國文化屬性。

而在(zai)并?訓練上(shang),虎博(bo)的大(da)模型團隊也突破了比如 deep-speed 等主流(liu)框架中若?內存和通信問(wen)題,使得在(zai)千卡環境下,可實現訓練數??間斷(duan)。

虎博科技在大模型研發上選擇走開源路線。此次(ci)開源內(nei)容包(bao)含模型(xing)、代(dai)碼、數(shu)據三部分,包(bao)含TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research等多個模型(xing)版本;基本訓(xun)練(lian)且(qie)覆蓋雙卡推(tui)理(li) 180B 模型(xing)的量(liang)化和推(tui)理(li)代(dai)碼;以及達100G的預訓(xun)練(lian)數(shu)據、監督微調1G/100萬條數(shu)據。

目前,這些內容已經全部在Github中發布(鏈接見此)。之所以選擇開源路線,陳燁表示,推進人類文明的技術變革往往源于本能、直覺和偶然性,擁有自由的創新精神是根本。

“大模型技術就像是一門新興學科,是顛覆式且長周期的,未來的可能性超越PC和互聯網。現階段過早和過于理性地探討產品、應用、場景和商業化或許沒有必要,更重要的是推廣這一人工智能基礎設施的(de)原創突破(po),促進(jin)技術的(de)發展(zhan)和更新。”

出于上述的考慮,虎博除了一部分積累的預訓練數據集,也同時開源了系統性的中文數據搜集和清洗方法論。陳燁并不(bu)認為數(shu)據(ju)會成為壁壘:“更重要的(de)(de)是團隊對于數(shu)據(ju)清洗的(de)(de)理論(lun)和(he)系統性(xing)的(de)(de)高度,這是一(yi)個長期的(de)(de)系統工(gong)程。”

虎(hu)博(bo)科技自(zi)成立之初就專注在中文NLP的技術和產品研(yan)發上,積累(lei)了大量(liang)高質量(liang)的中文預(yu)訓(xun)練(lian)數據,本次發布的100G預(yu)訓(xun)練(lian)數據,就是其中的一部分。未來(lai),虎(hu)博(bo)還(huan)將開(kai)放大量(liang)的金融、法(fa)律、百科等(deng)領域專業(ye)數據,供(gong)應用開(kai)發者使用。

此(ci)前幾(ji)年,虎博科(ke)技基于(yu)NLP,開發了主要面向泛(fan)金融領域的(de)NLP產(chan)品,如(ru)輿情監測、搜索、知識圖譜等,也已(yi)經(jing)(jing)用api的(de)方式服(fu)務B端客(ke)(ke)戶(hu)。本次大模(mo)型(xing)的(de)發布也會(hui)與虎博的(de)業務相結合——當前,虎博科(ke)技已(yi)經(jing)(jing)面向老客(ke)(ke)戶(hu)提供包(bao)括(kuo)內(nei)容生成類的(de)功能模(mo)塊。陳燁表示,大模(mo)型(xing)技術浪潮(chao)來臨后,在市(shi)場(chang)側感(gan)覺“客(ke)(ke)戶(hu)決策速(su)度(du)比(bi)以前更快,產(chan)品落地速(su)度(du)也更快。”

未來,虎(hu)博(bo)科(ke)技(ji)將(jiang)持續投(tou)入力(li)量到(dao)大(da)模型的(de)研(yan)發和落地中(zhong)。陳燁談及(ji)了正在(zai)研(yan)發或者正在(zai)完(wan)善的(de)一(yi)些功能,如研(yan)究助手TigerDoc、文(wen)創和營銷工具等,虎(hu)博(bo)科(ke)技(ji)也(ye)正在(zai)內(nei)測部分面向個人的(de)類助手產品(pin)。

熱門文章
近日,曙光智慧工業戰略暨新品發布會在京舉辦。會上,曙光發布了工業數智平臺“曙睿 SugonRI?”,并以此為基礎,提出“以數智底座,加速數實融合進程,賦能新型工業化”的智慧工業戰略。
2023-06-08
X