国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

真·從零復刻ChatGPT!斯坦福等開啟「紅睡衣」計劃,先開源1.2萬億token訓練集
作者 | 新智(zhi)元2023-04-23

Meta AI開源的(de)大羊(yang)駝LLaMA模(mo)型(xing)徹底(di)點(dian)燃了開源社區的(de)熱情,并在此基礎上相繼(ji)開發出了各種類(lei)ChatGPT的(de)羊(yang)駝Alpaca,  Vicuna等。

但Meta只是(shi)開(kai)(kai)源了LLaMA的權(quan)重,訓練用到(dao)的數據集并沒有開(kai)(kai)源出(chu)來,對于(yu)那(nei)些想從頭開(kai)(kai)始訓練LLaMA的從業者來說,目前還沒有開(kai)(kai)源方案。

最近,由Ontocord.AI,蘇黎世聯(lian)邦理工學院DS3Lab,斯(si)坦福CRFM,斯(si)坦福Hazy Research 和蒙特利爾學習算法研究所的(de)宣布開(kai)啟「紅睡衣」(RedPajama)計(ji)劃,旨在(zai)生成(cheng)可復(fu)現、完(wan)全開(kai)放、最先(xian)進的(de)語言模型,即從(cong)零(ling)一直(zhi)開(kai)源到ChatGPT!

圖片

下載地址:

//huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

預處理倉庫://github.com/togethercomputer/RedPajama-Data

「紅睡衣」開(kai)源計劃總共包括(kuo)三部分:

1. 高(gao)質量(liang)、大(da)規模、高(gao)覆蓋度(du)的預訓(xun)練數據集;

2. 在預(yu)訓練(lian)數據集上(shang)訓練(lian)出的(de)基礎模型;

3. 指令調優數據集和(he)模型(xing),比基本模型(xing)更(geng)安全(quan)、可靠。

圖片

目前紅(hong)睡衣計劃(hua)中的第一部分,即預(yu)訓練(lian)數(shu)(shu)據集(ji)(ji)RedPajama-Data-1T已(yi)開源,包括(kuo)七個子(zi)集(ji)(ji),經過預(yu)處理后得到(dao)的token數(shu)(shu)量大致(zhi)可以匹配Meta在原始LLaMA論文中報告(gao)的數(shu)(shu)量,并且數(shu)(shu)據預(yu)處理相關腳本也已(yi)開源。

圖片

完整(zheng)的(de)RedPajama-Data-1T數據集(ji)需要的(de)存(cun)儲容量(liang)為壓(ya)縮(suo)后(hou)3TB,解(jie)壓(ya)后(hou)5TB,有(you)條件、有(you)網速的(de)小(xiao)伙伴可以(yi)開始(shi)搞起來了!

目前開(kai)發團隊正在橡樹嶺領(ling)導計(ji)算設施(OLCF)的(de)支(zhi)持(chi)下開(kai)始訓練(lian)模型(xing),預(yu)計(ji)幾周(zhou)后即可(ke)開(kai)源。

通過OpenChatKit,研究人員已經收到了數(shu)十萬(wan)條高質量的自然用戶指(zhi)令,將(jiang)用于發布 RedPajama 模(mo)型的指(zhi)令優化版本。

復刻LLaMA

2023年2月27日(ri),Meta推(tui)出LLaMa并發布了相關論文。

圖片

論(lun)文鏈接://arxiv.org/pdf/2302.13971.pdf

LLaMa實際(ji)上是一組基礎語言模型(xing)的(de)統(tong)稱,其參(can)數(shu)(shu)范圍從70億(yi)到650億(yi)不等,其中LLaMA-13B(130億(yi)參(can)數(shu)(shu))版本甚至(zhi)在大多數(shu)(shu)基準(zhun)測試中都優于(yu)1750億(yi)參(can)數(shu)(shu)的(de)GPT-3;最大的(de)LLaMA-65B和Chinchilla-70B和PaLM-540B相比也(ye)不落下風。

和之(zhi)前(qian)的(de)大模型(xing)不同(tong)的(de)是,LLaMa完全(quan)使用(yong)「公開數據(ju)集」就達到了(le)SOTA,并不存(cun)在其他模型(xing)中(zhong)「不可告人」的(de)秘(mi)密(mi),無需(xu)使用(yong)專用(yong)或只存(cun)在于(yu)虛空中(zhong)的(de)數據(ju)集。

具(ju)體使用的數據集和預處理(li)操作(zuo)如下。

圖片

English CommonCrawl-占比67%

使用CCNet pipeline對五個CommonCrawl dumps(2017-2020年)進行(xing)預處理,刪除(chu)重復(fu)的行(xing),并用fastText線性分類器進行(xing)語(yu)言(yan)分類,去除(chu)非英語(yu)頁面,并用ngram語(yu)言(yan)模(mo)型過(guo)濾低質(zhi)量內容(rong)。

還訓練了一個(ge)線(xian)性模型來(lai)對維基百科(ke)中(zhong)用作參考文(wen)(wen)獻的(de)頁(ye)面(mian)與(yu)隨(sui)機采樣(yang)的(de)頁(ye)面(mian)進行分類,并去除未被分類為參考文(wen)(wen)獻的(de)頁(ye)面(mian)。

C4-占比15%

在探索實驗中(zhong),研(yan)究人員(yuan)觀察到使用(yong)多樣化的(de)預(yu)處理CommonCrawl數(shu)據集可以提高性能,所以將公開的(de)C4數(shu)據集納入我們的(de)數(shu)據。

C4的預處(chu)理(li)也包含(han)重復數據刪除(chu)和語言識(shi)別(bie)步(bu)驟:與(yu)CCNet的主要(yao)區別(bie)是質(zhi)量(liang)(liang)過濾,主要(yao)依(yi)靠啟發式(shi)方法,如是否存(cun)在(zai)標點符號,以及網頁中的單詞和句(ju)子數量(liang)(liang)。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共(gong)數據(ju)集(ji),只保(bao)留在(zai)Apache、BSD和MIT許可下發布(bu)的項目。

然后用基于行長或字(zi)母數字(zi)字(zi)符比(bi)例的(de)啟發(fa)式方(fang)法過濾了低質量(liang)的(de)文件,并用正則表達式刪除了HTML boilerplate(如等)。

最后在(zai)文件層面上(shang)對(dui)所生(sheng)成的數(shu)據(ju)集進行(xing)重復計算,并進行(xing)精(jing)確匹(pi)配。

維基百科-占比4.5%

數(shu)據集中添加(jia)了2022年6月至(zhi)8月期間的(de)維(wei)基百科dumps,涵蓋20種語言(yan),包(bao)括使用拉丁字(zi)母(mu)或西里爾字(zi)母(mu)的(de)語言(yan),具體為bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然(ran)后對(dui)數(shu)據進(jin)行預(yu)處理(li),以去除超(chao)鏈接、評論和其他格式化的(de)html模板。

Gutenberg and Books3-占比4.5%

訓練(lian)數(shu)據集中包括兩個(ge)書(shu)籍相關的語料庫(ku),Gutenberg  Project為(wei)公(gong)共領(ling)域的書(shu)籍;ThePile中Books3部分(fen)是(shi)一個(ge)用于訓練(lian)大型語言模(mo)型的公(gong)開數(shu)據集。

預處(chu)理操作主要是刪除(chu)重復內(nei)容超過90%的書籍。

ArXiv-占比2.5%

通過處理arXiv的(de)Latex文件(jian)將科學數據(ju)添加到訓練數據(ju)集(ji)中,刪(shan)除了第(di)一節之前(qian)的(de)所有內容,以(yi)及(ji)書(shu)目;還刪(shan)除了.tex文件(jian)中的(de)注釋,以(yi)及(ji)用戶寫的(de)內聯擴展的(de)定義和宏,以(yi)提高(gao)不(bu)同論文的(de)一致(zhi)性。

Stack Exchange-占比2%

Stack Exchange是一個高質量問題和(he)答案的網站,涵蓋了(le)從計算機科(ke)學(xue)到化學(xue)等(deng)不同領域(yu)。保留了(le)28個最大網站的數據(ju),刪除了(le)文本(ben)中的HTML標簽,并按分數(從高到低(di))對答案進行(xing)了(le)排序。

分詞器(Tokenizer)

根據SentencePiece的實(shi)現使用字(zi)節對(dui)編碼(ma)(byte-pair-encoding,BPE)算法對(dui)數(shu)(shu)據進行分(fen)詞(ci),其中連續(xu)的數(shu)(shu)字(zi)被(bei)分(fen)割成單(dan)個數(shu)(shu)字(zi)。

最(zui)終(zhong)整個訓(xun)練數(shu)據集在分詞后獲得了大(da)約(yue)1.4T的(de)tokens,除了維(wei)基(ji)百(bai)科(ke)和圖書(shu)數(shu)據外,其他的(de)數(shu)據在訓(xun)練期間只(zhi)使(shi)用一次,總共進行了約(yue)兩個epochs。

參考資料://www.together.xyz/blog/redpajama

熱門文章
IT之家 4 月 23 日消息,據英國《金融時報》報道,知情人士稱,軟銀集團旗下芯片設計公司 Arm 將與制造伙伴合作開發自家半導體,尋求吸引新客戶并在預計今年晚些時候完成的 IPO 后推動公司增長。
2023-04-23
X