国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

AI新視界:揭開AI大模型的黑魔法面紗
作者 | 智次方2023-09-14

金秋9月,智次方與智用人工智能應(ying)用研究院攜手推(tui)出(chu)AI大(da)模(mo)型系列公開課,從認(ren)知、應(ying)用、商業、安全等不同(tong)方(fang)向,帶您領略AI大(da)模(mo)型的魅力與應(ying)用前景(jing)。

9月6日晚,智用研究院首席數字(zi)規劃(hua)師 趙銘老(lao)師以“AI新(xin)視界:揭開AI大模型的(de)黑魔(mo)法面紗”為(wei)主題進行了一次深度內(nei)容分享。

以下根(gen)據直播內容整(zheng)理(li):

01

“大模型”的進化歷程

人工(gong)(gong)智能(neng)(neng)的領域(yu)非常廣泛(fan),基(ji)本上在計算機科學領域(yu)中,能(neng)(neng)夠模仿人類(lei)思維和(he)決策的都被稱為人工(gong)(gong)智能(neng)(neng)。這個領域(yu)非常龐大,其中有(you)許多不(bu)同的方法,但最(zui)終都可(ke)以實現類(lei)似的功能(neng)(neng)。

在上世紀90年代左右,出現了一種叫(jiao)做機器學(xue)習的流派(pai)。其思想(xiang)是如果我(wo)們把好多(duo)歷史數(shu)據輸入到模型中(zhong),它就可以(yi)(yi)幫我(wo)們生(sheng)(sheng)成(cheng)一條趨勢線,類似于股(gu)票的K線圖,我(wo)們可以(yi)(yi)用(yong)它來預測未來可能發生(sheng)(sheng)的事情(qing)。

到(dao)了(le)大(da)約2010年前(qian)后,在機(ji)器學(xue)習(xi)(xi)領(ling)域(yu)中(zhong)出(chu)現了(le)一(yi)個小流派——深(shen)(shen)度學(xue)習(xi)(xi)。人(ren)們開始(shi)使用一(yi)種新的(de)(de)(de)架(jia)(jia)構(gou)來(lai)(lai)實現趨勢的(de)(de)(de)發現,這(zhe)個架(jia)(jia)構(gou)叫做深(shen)(shen)層(ceng)(ceng)神(shen)(shen)(shen)經網絡(luo)(luo)。這(zhe)個架(jia)(jia)構(gou)是(shi)從模擬(ni)人(ren)類思維(wei)方式(shi)、模擬(ni)人(ren)類大(da)腦(nao)中(zhong)得來(lai)(lai)的(de)(de)(de)。隨著大(da)家對大(da)腦(nao)的(de)(de)(de)了(le)解(jie)越(yue)來(lai)(lai)越(yue)多,發現大(da)腦(nao)皮層(ceng)(ceng)中(zhong)有很多神(shen)(shen)(shen)經元(yuan),雖然不知道這(zhe)些神(shen)(shen)(shen)經元(yuan)如何(he)工(gong)作,但是(shi)我們可(ke)以模仿神(shen)(shen)(shen)經元(yuan)來(lai)(lai)構(gou)建多層(ceng)(ceng)神(shen)(shen)(shen)經網絡(luo)(luo),一(yi)層(ceng)(ceng)一(yi)層(ceng)(ceng)地將一(yi)個大(da)任務分(fen)解(jie)成許(xu)多小任務,讓許(xu)多神(shen)(shen)(shen)經元(yuan)一(yi)起工(gong)作。基于(yu)這(zhe)個理念,人(ren)們開始(shi)研究(jiu)生成神(shen)(shen)(shen)經網絡(luo)(luo)算法(fa)和框架(jia)(jia),這(zhe)就是(shi)深(shen)(shen)度學(xue)習(xi)(xi)的(de)(de)(de)起源(yuan)。

深(shen)度學(xue)(xue)習強調“遷(qian)(qian)(qian)移(yi)學(xue)(xue)習”的(de)概念(nian)。不要被這(zhe)些聽(ting)起來(lai)(lai)很高大上的(de)名(ming)詞(ci)迷惑,遷(qian)(qian)(qian)移(yi)學(xue)(xue)習的(de)原(yuan)理也(ye)很簡(jian)單。以(yi)前的(de)機(ji)器(qi)學(xue)(xue)習想法是,如(ru)果我研究了(le)過去的(de)股票(piao)(piao)價(jia)格,我就能預測未來(lai)(lai)的(de)股市會漲還是跌。遷(qian)(qian)(qian)移(yi)學(xue)(xue)習的(de)思想類似于如(ru)果我研究了(le)股票(piao)(piao)市場的(de)漲跌,我是否也(ye)可以(yi)用(yong)這(zhe)個(ge)(ge)(ge)模(mo)型去預測期(qi)貨市場,或者(zhe)用(yong)這(zhe)個(ge)(ge)(ge)模(mo)型去預測貨幣市場。目的(de)是用(yong)一個(ge)(ge)(ge)任(ren)務學(xue)(xue)習知識(shi),然后(hou)將(jiang)這(zhe)個(ge)(ge)(ge)知識(shi)應用(yong)到另一個(ge)(ge)(ge)任(ren)務中,就像學(xue)(xue)習可以(yi)遷(qian)(qian)(qian)移(yi)一樣。

隨著深度學習的(de)(de)(de)繼續發展(zhan),大(da)家(jia)慢慢發現無論(lun)如何研究下去,最(zui)基(ji)(ji)(ji)(ji)礎(chu)的(de)(de)(de)模(mo)(mo)型(xing)的(de)(de)(de)共(gong)性是(shi)(shi)一(yi)(yi)樣(yang)的(de)(de)(de)。我們稱(cheng)這(zhe)一(yi)(yi)類(lei)非(fei)常基(ji)(ji)(ji)(ji)礎(chu)的(de)(de)(de)、有(you)共(gong)性的(de)(de)(de)模(mo)(mo)型(xing)為“基(ji)(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing)”。實際上,基(ji)(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing)并不新穎,已經(jing)出(chu)現很多年了。其實大(da)家(jia)每天都(dou)在接觸(chu)基(ji)(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing),比(bi)如,有(you)人(ren)在開新款的(de)(de)(de)新能源的(de)(de)(de)車(che)型(xing),它有(you)L2級別的(de)(de)(de)自動駕駛,這(zhe)一(yi)(yi)功能是(shi)(shi)靠車(che)里面的(de)(de)(de)攝像頭(tou)或(huo)傳感器,來(lai)探測前方是(shi)(shi)否有(you)障礙物,探測車(che)道的(de)(de)(de)位置,然后使得車(che)輛行駛在道路中間。這(zhe)是(shi)(shi)視覺探測。視覺探測就是(shi)(shi)生成神經(jing)網絡里面的(de)(de)(de)基(ji)(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing)在運作,也(ye)是(shi)(shi)Resnet做(zuo)(zuo)的(de)(de)(de)事情,或(huo)者(zhe)說基(ji)(ji)(ji)(ji)于(yu)Resnet衍生出(chu)來(lai)的(de)(de)(de)大(da)量圖(tu)像識(shi)別技(ji)術(shu)、視頻識(shi)別技(ji)術(shu),都(dou)是(shi)(shi)在基(ji)(ji)(ji)(ji)礎(chu)模(mo)(mo)型(xing)之上做(zuo)(zuo)出(chu)來(lai)的(de)(de)(de)。

在基(ji)礎(chu)模(mo)型(xing)(xing)的發展中(zhong),就開始出現了大(da)(da)(da)(da)模(mo)型(xing)(xing)。實際(ji)上大(da)(da)(da)(da)模(mo)型(xing)(xing)就是基(ji)礎(chu)模(mo)型(xing)(xing)里(li)面的一個分類。那么為(wei)(wei)什么叫它“大(da)(da)(da)(da)”呢?是因為(wei)(wei)以前的基(ji)礎(chu)模(mo)型(xing)(xing)沒有用(yong)到(dao)那么多的數(shu)據和參數(shu)。而大(da)(da)(da)(da)模(mo)型(xing)(xing)里(li)面用(yong)到(dao)的模(mo)型(xing)(xing)非常特別,它用(yong)到(dao)了大(da)(da)(da)(da)量的數(shu)據、大(da)(da)(da)(da)量的計算,而且(qie)具有大(da)(da)(da)(da)范(fan)圍的通用(yong)性(xing)。

為了(le)讓大家(jia)對(dui)“數(shu)(shu)(shu)據到(dao)(dao)底有(you)多(duo)大”有(you)一(yi)個感性(xing)的(de)(de)認(ren)識,我來(lai)舉個例子。支撐你(ni)每天完成(cheng)L2級別(bie)自(zi)動(dong)駕駛的(de)(de)Resnet這(zhe)種圖(tu)像識別(bie)技術(shu)一(yi)般用到(dao)(dao)多(duo)少參(can)數(shu)(shu)(shu)?它的(de)(de)參(can)數(shu)(shu)(shu)級別(bie)大概是個位數(shu)(shu)(shu)的(de)(de)億(yi)(yi),比(bi)如(ru)說2億(yi)(yi)到(dao)(dao)5億(yi)(yi)這(zhe)樣一(yi)個級別(bie)。當然,現(xian)在(zai)的(de)(de)視(shi)覺(jue)引擎,比(bi)如(ru)說有(you)一(yi)些(xie)攝(she)像頭可以(yi)識別(bie)到(dao)(dao)人(ren)有(you)沒有(you)在(zai)笑,這(zhe)個人(ren)的(de)(de)年齡到(dao)(dao)底是50歲還是30歲,這(zhe)都是基于Resnet類似的(de)(de)技術(shu)發展出來(lai)的(de)(de)。它的(de)(de)參(can)數(shu)(shu)(shu)也會越來(lai)越多(duo),但再怎么多(duo)其實(shi)也就(jiu)是在(zai)幾億(yi)(yi)到(dao)(dao)幾十億(yi)(yi)這(zhe)樣一(yi)個參(can)數(shu)(shu)(shu)。到(dao)(dao)達十幾二十億(yi)(yi)參(can)數(shu)(shu)(shu)的(de)(de),說明這(zhe)個圖(tu)像模型已經非常強大了(le)。

但是(shi)(shi)我(wo)們今天講的(de)大(da)模(mo)型(xing),是(shi)(shi)一(yi)(yi)個(ge)叫Transformer的(de)模(mo)型(xing)。這(zhe)(zhe)個(ge)模(mo)型(xing)非常(chang)強大(da),它的(de)參(can)(can)數(shu)(shu)可以達(da)到(dao)(dao)多(duo)(duo)少(shao)呢?它是(shi)(shi)以幾十億(yi)(yi)(yi)為起(qi)步(bu)(bu)的(de)。我(wo)們經(jing)常(chang)聽到(dao)(dao)的(de)是(shi)(shi)65億(yi)(yi)(yi)個(ge)參(can)(can)數(shu)(shu)。但這(zhe)(zhe)只(zhi)是(shi)(shi)它的(de)起(qi)步(bu)(bu)值,而(er)我(wo)們現在(zai)主流使用(yong)的(de)大(da)模(mo)型(xing),能夠完(wan)成一(yi)(yi)些繪畫(hua)任務的(de),基本上都(dou)在(zai)百億(yi)(yi)(yi)甚至千億(yi)(yi)(yi)級(ji)別。當然,今天很多(duo)(duo)人(ren)使用(yong)的(de)ChatGPT模(mo)型(xing),一(yi)(yi)般達(da)到(dao)(dao)什么參(can)(can)數(shu)(shu)級(ji)別呢?至少(shao)是(shi)(shi)百億(yi)(yi)(yi)起(qi)步(bu)(bu),而(er)百億(yi)(yi)(yi)只(zhi)是(shi)(shi)起(qi)步(bu)(bu)點。作(zuo)為一(yi)(yi)個(ge)玩(wan)家,如果(guo)你想(xiang)要做得更(geng)好,你需要有大(da)幾百億(yi)(yi)(yi)的(de)參(can)(can)數(shu)(shu)量,甚至到(dao)(dao)千億(yi)(yi)(yi)級(ji)、萬億(yi)(yi)(yi)級(ji)。

實(shi)際(ji)上,業界已經(jing)開始探(tan)討萬億(yi)級參數(shu)的(de)(de)(de)(de)某些大模型要大到(dao)什么(me)程度(du),既(ji)然參數(shu)量如此之大,計算量也非常驚人,以(yi)前我(wo)們的(de)(de)(de)(de)那些視(shi)覺訓(xun)(xun)練(lian),可(ke)能(neng)只(zhi)(zhi)需要一(yi)(yi)臺電腦和一(yi)(yi)張好(hao)一(yi)(yi)點的(de)(de)(de)(de)顯(xian)卡就可(ke)以(yi)運(yun)行(xing)。但(dan)如今我(wo)們發(fa)(fa)(fa)現(xian)英偉達(da)公司(si)非常厲害(hai),只(zhi)(zhi)有他(ta)們的(de)(de)(de)(de)機(ji)器才(cai)能(neng)運(yun)行(xing)Transformer模型,而且(qie)不是(shi)一(yi)(yi)臺機(ji)器,是(shi)一(yi)(yi)個由多臺機(ji)器組成(cheng)的(de)(de)(de)(de)集群(qun)來(lai)(lai)運(yun)行(xing)。這(zhe)是(shi)因為(wei)它(ta)的(de)(de)(de)(de)數(shu)據量和參數(shu)量太大了(le),只(zhi)(zhi)有這(zhe)樣龐大的(de)(de)(de)(de)機(ji)器才(cai)能(neng)承受。但(dan)一(yi)(yi)旦運(yun)行(xing)起來(lai)(lai),你會發(fa)(fa)(fa)現(xian)它(ta)非常強(qiang)大,可(ke)以(yi)支(zhi)持(chi)很多東西,這(zhe)也完美的(de)(de)(de)(de)詮釋了(le)我(wo)們剛(gang)才(cai)提到(dao)的(de)(de)(de)(de)遷(qian)移(yi)學習(xi)的(de)(de)(de)(de)任務。你讓(rang)它(ta)訓(xun)(xun)練(lian)中(zhong)文,然后你會發(fa)(fa)(fa)現(xian)它(ta)也能(neng)用英文完成(cheng)任務。你讓(rang)它(ta)訓(xun)(xun)練(lian)古詩詞,然后你會發(fa)(fa)(fa)現(xian)它(ta)也可(ke)以(yi)用于(yu)寫其(qi)他(ta)古代文學。你讓(rang)它(ta)來(lai)(lai)訓(xun)(xun)練(lian)醫學,你會發(fa)(fa)(fa)現(xian)它(ta)也能(neng)稍(shao)微(wei)懂(dong)一(yi)(yi)點法律(lv)。只(zhi)(zhi)要給它(ta)足夠的(de)(de)(de)(de)語(yu)料(liao)來(lai)(lai)訓(xun)(xun)練(lian),它(ta)的(de)(de)(de)(de)遷(qian)移(yi)學習(xi)就能(neng)做得非常好(hao)。

這就(jiu)是(shi)從(cong)機器學(xue)習發展到現在大模型的發展歷程。

02

人工智能發展的3要素

圖片

接下來,我(wo)(wo)們將時間(jian)軸拉開(kai),可(ke)以(yi)在這張(zhang)圖中看(kan)到(dao)人工智能發(fa)展過(guo)程中每一(yi)個技(ji)術出現的時間(jian)點。我(wo)(wo)剛才(cai)有(you)講到(dao)一(yi)些,大家(jia)有(you)沒(mei)有(you)注(zhu)意到(dao)2017年(nian)就(jiu)開(kai)始出現了(le)(le)Transformer,所以(yi)并不是今天有(you)了(le)(le)ChatGPT才(cai)有(you)了(le)(le)Transformer。也就(jiu)是說,它(ta)已經發(fa)展了(le)(le)五六年(nian),才(cai)最終從理論變(bian)成了(le)(le)我(wo)(wo)們今天可(ke)以(yi)使用(yong)的應(ying)用(yong)。

而剛才講到(dao)的大(da)模(mo)型(xing)(xing),或(huo)者說基(ji)于大(da)模(mo)型(xing)(xing)基(ji)于的基(ji)礎模(mo)型(xing)(xing)最厲害的地(di)方在于它的遷移學(xue)習(xi)能(neng)(neng)(neng)力,但是(shi)遷移學(xue)習(xi)能(neng)(neng)(neng)力最關鍵的來自于人工智能(neng)(neng)(neng)發展的三(san)個(ge)要素:數(shu)據、算(suan)法和算(suan)力。這三(san)個(ge)要素就像一(yi)個(ge)三(san)角形(xing),它們互相(xiang)(xiang)制約、互相(xiang)(xiang)支(zhi)持,共同發展。

以(yi)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)為(wei)例,很多年前,當我們談到(dao)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)時(shi),大(da)家通(tong)常想到(dao)的(de)(de)(de)是(shi)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)庫,里(li)面(mian)存放個(ge)表。即使你(ni)不從(cong)事IT行(xing)業,每天使用(yong) Excel 表格也是(shi)在使用(yong)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)。后來(lai),我們發現除了數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)庫或者 Excel 表格之外的(de)(de)(de)其他東西(xi)也可(ke)以(yi)被視為(wei)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)。比(bi)如(ru)說(shuo),你(ni)提供給我一個(ge)文件(jian),員(yuan)工手冊(ce)或產品(pin)說(shuo)明書,這些PDF文件(jian)也可(ke)以(yi)被視為(wei)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)。我現在說(shuo)話的(de)(de)(de)語音也是(shi)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju),大(da)家拍(pai)照的(de)(de)(de)面(mian)部特征也是(shi)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)。我們將這些數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)匯總到(dao)一起,就可(ke)以(yi)形成一個(ge)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)湖。從(cong)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)庫到(dao)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)倉庫再到(dao)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)湖,業界的(de)(de)(de)發展趨勢是(shi)慢慢的(de)(de)(de)海納百(bai)川(chuan),逐漸涵蓋一切類型的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)(ju)。

那這些數據(ju)一(yi)定有方(fang)(fang)法(fa)(fa)去處理它,這就是(shi)(shi)我(wo)(wo)(wo)們要講到(dao)的算法(fa)(fa)。算法(fa)(fa)的發(fa)展也十分有趣。早(zao)期(qi),我(wo)(wo)(wo)們使用數學的方(fang)(fang)式來(lai)教計(ji)算機(ji)如(ru)何處理數據(ju)。例如(ru),我(wo)(wo)(wo)們用數學告訴計(ji)算機(ji)什么是(shi)(shi)加(jia)法(fa)(fa),一(yi)加(jia)一(yi)等于二就是(shi)(shi)加(jia)法(fa)(fa)。我(wo)(wo)(wo)們以前使用的所有算法(fa)(fa),無(wu)論是(shi)(shi)最簡單(dan)的歸納總結還是(shi)(shi)最復雜的預測,其實都是(shi)(shi)有數學理論作為(wei)基礎(chu)支撐(cheng)的。一(yi)定是(shi)(shi)數學家先(xian)提(ti)出(chu)數學公式,然后我(wo)(wo)(wo)們計(ji)算機(ji)工程師才能寫(xie)出(chu)算法(fa)(fa)。因此,實際上(shang)整個行業在過去30年是(shi)(shi)數學引領了(le)計(ji)算機(ji)的發(fa)展。

大(da)約從2010年(nian)開(kai)(kai)始,情況(kuang)已經(jing)(jing)不(bu)同(tong)了,因為計(ji)算(suan)機中(zhong)出現(xian)了一些新的(de)(de)算(suan)法,這些算(suan)法是數學(xue)解(jie)(jie)釋不(bu)了或(huo)無法解(jie)(jie)釋的(de)(de)。由于深層神經(jing)(jing)網(wang)絡的(de)(de)出現(xian),就像我(wo)們(men)(men)(men)人類一樣,盡管我(wo)們(men)(men)(men)的(de)(de)神經(jing)(jing)學(xue)或(huo)生物學(xue)再怎么發(fa)達,我(wo)們(men)(men)(men)仍(reng)然無法解(jie)(jie)釋它們(men)(men)(men)是如何運作的(de)(de)。現(xian)在的(de)(de)生成神經(jing)(jing)網(wang)絡到底是如何運作的(de)(de)?一旦規模擴大(da),以我(wo)們(men)(men)(men)人類目前的(de)(de)理解(jie)(jie)能力和數學(xue)建模能力,就很難提供一個清晰的(de)(de)解(jie)(jie)釋。這也是為什么當2017年(nian)Transformer模型出現(xian)時,業界一開(kai)(kai)始并(bing)不(bu)了解(jie)(jie)它的(de)(de)潛力。

但大約(yue)在(zai)(zai)2019年(nian)和2020年(nian),當(dang)Transformer模型的(de)規模達(da)(da)到(dao)一定程(cheng)度時(shi),以(yi)GPT 3為(wei)代表,達(da)(da)到(dao)了千億級別(bie)的(de)參(can)數(shu)量,GPT 3的(de)參(can)數(shu)級別(bie)大約(yue)在(zai)(zai)1700多億。人們發(fa)現,你(ni)以(yi)為(wei)你(ni)知道這個(ge)Transformer模型的(de)工(gong)作原理(li),但實際上(shang)你(ni)不知道,你(ni)發(fa)現它(ta)(ta)好像可以(yi)推理(li),好像能做(zuo)許(xu)多你(ni)沒有教過(guo)(guo)它(ta)(ta)的(de)事情。從這個(ge)時(shi)候開(kai)始,人們慢慢發(fa)現數(shu)學不再那么容易解(jie)釋了。如果再過(guo)(guo)十(shi)年(nian)、二(er)十(shi)年(nian),我不知道未來的(de)世界(jie)會是什么樣子,但當(dang)我們回顧2020年(nian)到(dao)2023年(nian)時(shi),人們會發(fa)現這是一個(ge)分(fen)水(shui)嶺,人工(gong)智(zhi)能、科學、數(shu)學這樣一個(ge)分(fen)水(shui)嶺。

但是(shi)有(you)了這么奇妙的(de)算(suan)(suan)(suan)法,你需(xu)要有(you)地方(fang)能(neng)(neng)夠(gou)計(ji)(ji)算(suan)(suan)(suan)它(ta),對(dui)不(bu)對(dui)?《三(san)體(ti)》里面(mian)講過,我們(men)最早(zao)的(de)可以用(yong)人來(lai)代替計(ji)(ji)算(suan)(suan)(suan)機里面(mian)的(de)計(ji)(ji)算(suan)(suan)(suan)單(dan)元,用(yong)人來(lai)代替晶體(ti)管(guan)好像也能(neng)(neng)干完一些事情(qing),但是(shi)對(dui)于像神(shen)經網絡算(suan)(suan)(suan)法,就不(bu)能(neng)(neng)再(zai)用(yong)簡單(dan)的(de)晶體(ti)管(guan)來(lai)計(ji)(ji)算(suan)(suan)(suan)了。

在這種情況下,提高算力必須通過提高三角形中的“數據”和”算法”。GPU以前我們主要用來做游戲,對不對?后來發現算法特別是神經網絡算法,它不像CPU那樣依賴于執行,我們可以把一張圖切成幾千個、幾萬個,然后讓每個處理器獨立處理,這樣會更快。當GPU有幾十個核時,CPU可能只有兩個或四個核。這就是為什么在20世紀90年代和本世紀初,越來越多的人開始使用GPU。除了GPU之外,現在還有一些專用芯片,專(zhuan)門用于人(ren)工智能,它不需要干其(qi)他事情,只需要處理人(ren)工智能。這是特(te)殊芯(xin)片(pian)的(de)算力的(de)發展。

隨著(zhu)云計算(suan)、邊緣(yuan)計算(suan)等(deng)技術的發展,有時候是數據跑(pao)得(de)多快(kuai)一點,有時候是算(suan)法跑(pao)得(de)快(kuai)一點,但這個三角形(xing)中的三個要素永遠(yuan)都在(zai)相互(hu)發展。

今天我主要分享(xiang)的是(shi)中間的一環算法,特別是(shi)其中的Transformer。

03

OpenAI的脫穎而出

GPT中的T其(qi)實就是Transformer,是ChatGPT把(ba)它(ta)帶火的。ChatGPT可以在兩(liang)個月把(ba)用戶量突破到1億,基(ji)本上已經沒(mei)有其(qi)他(ta)的應用能(neng)夠(gou)跟它(ta)比肩(jian)的了。

圖片

讓我(wo)們來看看開(kai)發ChatGPT背后的公(gong)司(si)(si)OpenAI,其(qi)中比較重要的時(shi)間點是(shi)它(ta)的成立,包括被微軟(ruan)投(tou)資。實際(ji)上它(ta)并不(bu)是(shi)唯一(yi)一(yi)家(jia)(jia),也不(bu)是(shi)第一(yi)家(jia)(jia)做(zuo)大模(mo)型(xing)(xing)的公(gong)司(si)(si)。同(tong)時(shi),還有(you)(you)其(qi)他幾家(jia)(jia)公(gong)司(si)(si)在這個領(ling)域有(you)(you)影響力的包括谷歌、Facebook(現在叫(jiao)Meta)等公(gong)司(si)(si)都在做(zuo)大模(mo)型(xing)(xing)。

你們可能(neng)會(hui)好(hao)奇(qi)為什(shen)么OpenAI會(hui)脫穎(ying)而出(chu)。我個(ge)人的(de)(de)(de)看法是(shi)(shi),首先(xian),他(ta)(ta)(ta)們的(de)(de)(de)工(gong)程化讓大(da)模(mo)(mo)型往前(qian)邁進了(le)很大(da)很大(da)的(de)(de)(de)一(yi)(yi)步。什(shen)么是(shi)(shi)工(gong)程化模(mo)(mo)型?你可以把這個(ge)模(mo)(mo)型看成是(shi)(shi)一(yi)(yi)個(ge)天賦異稟(bing)的(de)(de)(de)小孩子,他(ta)(ta)(ta)可能(neng)一(yi)(yi)出(chu)生就(jiu)有180的(de)(de)(de)智商,你讓他(ta)(ta)(ta)學什(shen)么,他(ta)(ta)(ta)就(jiu)學什(shen)么。這個(ge)過程就(jiu)像是(shi)(shi)在(zai)(zai)(zai)公開教(jiao)育(yu)這個(ge)小孩子,但(dan)(dan)是(shi)(shi)如果(guo)你教(jiao)得(de)慢,他(ta)(ta)(ta)在(zai)(zai)(zai)9歲時可能(neng)就(jiu)被其(qi)他(ta)(ta)(ta)人甩在(zai)(zai)(zai)了(le)后(hou)面。雖然他(ta)(ta)(ta)天賦異稟(bing),但(dan)(dan)如果(guo)教(jiao)得(de)不好(hao),他(ta)(ta)(ta)的(de)(de)(de)思維年齡可能(neng)現在(zai)(zai)(zai)還停留(liu)在(zai)(zai)(zai)6歲或7歲,這樣一(yi)(yi)來就(jiu)會(hui)落后(hou)了(le)。也(ye)許大(da)家最初的(de)(de)(de)思路都是(shi)(shi)基(ji)于同一(yi)(yi)份(fen)論文,就(jiu)是(shi)(shi)誰(shui)家教(jiao)的(de)(de)(de)好(hao)的(de)(de)(de)問(wen)題,也(ye)是(shi)(shi)工(gong)程化做得(de)好(hao)的(de)(de)(de)問(wen)題。

04

傳統機器學習的套路

在講Transformer之前,我想先介紹一下機(ji)器學習(xi)是如何完(wan)成這些工作的(de),以(yi)及如何將一個(ge)算法(fa)轉化為可(ke)用的(de)。大家千萬不要認為機(ji)器學習(xi)聽起來很(hen)(hen)高端(duan),實際上(shang)它很(hen)(hen)簡單。

圖片

首先,你(ni)需要提出(chu)你(ni)的(de)(de)問題,比如說(shuo)我要預測股票的(de)(de)價格從哪(na)個期(qi)貨(huo)市場賺錢,這就(jiu)是我的(de)(de)問題。將其(qi)抽象成一(yi)個數學(xue)模(mo)型,比如說(shuo)我使用數學(xue)中(zhong)的(de)(de)歸(gui)納算法模(mo)型,如果我能(neng)夠(gou)歸(gui)納得足(zu)夠(gou)豐富(fu)、足(zu)夠(gou)準(zhun)確,我就(jiu)能(neng)夠(gou)猜出(chu)明天的(de)(de)股票價格。

第(di)一(yi)步是(shi)問(wen)題(ti)抽象,第(di)二步是(shi)選(xuan)(xuan)擇算(suan)法。算(suan)法有很多種,選(xuan)(xuan)出來之后,你(ni)(ni)需(xu)要準備數(shu)據。爬下來所有交易所的(de)(de)數(shu)據,甚(shen)至是(shi)一(yi)級、二級市(shi)場(chang)的(de)(de)數(shu)據。傳(chuan)(chuan)統(tong)機器(qi)學習(xi)用相對于較少的(de)(de)數(shu)據,來推斷未來的(de)(de)規律(lv)。使(shi)用相對較少的(de)(de)訓練(lian)時長和算(suan)力來對模(mo)型(xing)進行(xing)訓練(lian)。模(mo)型(xing)訓練(lian)完成后需(xu)要進行(xing)評(ping)估和反(fan)饋。慢慢地讓模(mo)型(xing)越(yue)來越(yue)趨向(xiang)真實,就像你(ni)(ni)畫(hua)一(yi)幅畫(hua)一(yi)樣。這(zhe)是(shi)傳(chuan)(chuan)統(tong)機器(qi)學習(xi)的(de)(de)套路,但Transformer模(mo)型(xing)并不(bu)是(shi)這(zhe)樣的(de)(de),大家會發現中間有很多可(ke)以學習(xi)的(de)(de)新名(ming)詞和方法。

05

理解Transformer算法相關的概念

GPT的(de)“G” 指的(de)是生成(cheng)式,“P”指的(de)是預訓(xun)練(lian)。因(yin)此(ci),它(ta)被稱為(wei)生成(cheng)式預訓(xun)練(lian)transformer。首先需要預訓(xun)練(lian)這(zhe)(zhe)個(ge)(ge)transformer模型,這(zhe)(zhe)個(ge)(ge)訓(xun)練(lian)需要專門的(de)語料庫,需要人工進行標(biao)記的(de)語料庫。此(ci)外(wai),還需要人工反饋。例如,您向(xiang)(xiang) GPT 提出(chu)一個(ge)(ge)問(wen)題,它(ta)給(gei)出(chu)兩個(ge)(ge)答(da)案,然后需要人工去告訴它(ta)哪(na)個(ge)(ge)答(da)案更好,這(zhe)(zhe)樣它(ta)就會(hui)在下一次回答(da)時會(hui)表現得更好。這(zhe)(zhe)是一個(ge)(ge)正(zheng)向(xiang)(xiang)反饋循環。

預訓練是通過大規模(mo)、海量的(de)(de)通用文(wen)本,來讓(rang)模(mo)型學到廣泛(fan)的(de)(de)通用知識和上下文(wen)的(de)(de)理解。具體是什么意思?如果(guo)我(wo)(wo)現(xian)在(zai)讓(rang) ChatGPT 寫一篇文(wen)章(zhang),它(ta)可以寫,我(wo)(wo)讓(rang)它(ta)寫古詩,它(ta)也可以寫。但它(ta)真(zhen)的(de)(de)能讀懂古詩嗎?或者,如果(guo)我(wo)(wo)讓(rang)它(ta)寫文(wen)案,它(ta)真(zhen)的(de)(de)懂法律條(tiao)文(wen)嗎?實(shi)際上,它(ta)不理解這些,它(ta)只知道(dao)每個字出(chu)現(xian)的(de)(de)概率(lv)。

我們經常聽到(dao)在大模型(xing)(xing)里面,某某公司很厲害,基于一個(ge)模型(xing)(xing)做了微調。

微調是(shi)(shi)什(shen)么意思呢?原本這個模型是(shi)(shi)個通用模型,可(ke)以做(zuo)任(ren)何(he)事情。然而,當你問(wen)它(ta)一些(xie)特定的問(wen)題時,它(ta)可(ke)能(neng)(neng)(neng)不懂。例如,如果我問(wen)它(ta)中(zhong)國的古詩詞(ci),它(ta)可(ke)能(neng)(neng)(neng)不懂。但是(shi)(shi),如果我提供大量的中(zhong)國古詩詞(ci)進行微調,它(ta)就(jiu)能(neng)(neng)(neng)更好地理解中(zhong)國古詩詞(ci),知道(dao)當你要(yao)寫(xie)七言(yan)古詩時,需要(yao)規律(lv)是(shi)(shi)什(shen)么,押韻(yun)是(shi)(shi)什(shen)么樣子的。這就(jiu)是(shi)(shi)微調。

因此,微(wei)(wei)調(diao)實際上是遷移(yi)學(xue)習的理(li)(li)(li)(li)念,將(jiang)通用學(xue)習微(wei)(wei)調(diao)到能夠遷移(yi)支(zhi)持(chi)另一個領域,讓(rang)其理(li)(li)(li)(li)解,包括語(yu)言的微(wei)(wei)調(diao),例如理(li)(li)(li)(li)解中文之后(hou),它幾乎也可以理(li)(li)(li)(li)解日語(yu),理(li)(li)(li)(li)解英(ying)語(yu),也可以理(li)(li)(li)(li)解法語(yu)。如果加入中英(ying)文對照(zhao)的語(yu)料進行微(wei)(wei)調(diao)后(hou),它也可以理(li)(li)(li)(li)解中文。

但是放心,我(wo)們今天(tian)(tian)的(de)大模型(xing)(xing)(xing)(xing),至(zhi)少到目前為(wei)止,這(zhe)個Transformer模型(xing)(xing)(xing)(xing)并(bing)沒有真正的(de)理(li)解能力,沒有科幻(huan)小說中的(de)自主決(jue)策能力。我(wo)今天(tian)(tian)揭開AI大模型(xing)(xing)(xing)(xing)的(de)面紗,讓(rang)大家知道(dao)這(zhe)一點:大模型(xing)(xing)(xing)(xing)沒有真正的(de)理(li)解能力,它只判斷出現的(de)概率(lv)。

最后一個(ge)概(gai)念是(shi)(shi)參(can)數。我(wo)(wo)們之前提到了千億(yi)參(can)數,幾十億(yi)參(can)數。我(wo)(wo)今天所說的每(mei)句話、每(mei)個(ge)字(zi)后面(mian)都是(shi)(shi)在一個(ge)龐(pang)大的向量網絡來支撐。比(bi)如“我(wo)(wo)是(shi)(shi)誰”,這個(ge)“我(wo)(wo)”字(zi)后面(mian)有(you)一個(ge)龐(pang)大的向量宇宙來支撐它。向量怎(zen)么理解呢(ni)?可以想象一下多維(wei)宇宙。我(wo)(wo)們所處的宇宙是(shi)(shi)三維(wei)的,加上(shang)時(shi)間維(wei)度可能(neng)是(shi)(shi)四維(wei)的,還可以有(you)其(qi)他(ta)維(wei)度。在數學中,我(wo)(wo)們可能(neng)會(hui)有(you)一個(ge)多維(wei)的數學網宇宙,不用管它是(shi)(shi)什么,只需要知道可能(neng)有(you)很多維(wei)度。

所以(yi),如(ru)果我(wo)把(ba)一篇(pian)金(jin)庸小說輸入到模型中,它會(hui)(hui)經(jing)常發現中間有(you)些字(zi)(zi)詞(ci)是(shi)相關(guan)聯(lian)的(de),比如(ru)說,“九(jiu)(jiu)”字(zi)(zi)后(hou)面經(jing)常會(hui)(hui)跟著“陽”或者“陰”,“九(jiu)(jiu)陽正經(jing)”、“九(jiu)(jiu)陰真經(jing)”,那么“九(jiu)(jiu)”字(zi)(zi)的(de)向量(liang)數(shu)據庫里(li)(li)面,向量(liang)網絡里(li)(li)面就(jiu)一定有(you)“陽”或者“陰”出(chu)現。這(zhe)兩個(ge)(ge)字(zi)(zi)老是(shi)出(chu)現在(zai)一起,對不對?這(zhe)是(shi)金(jin)庸小說中的(de)常見模式。所以(yi)當我(wo)詢問(wen)金(jin)庸小說里(li)(li)面哪個(ge)(ge)武功最強時(shi),如(ru)果我(wo)給出(chu)“九(jiu)(jiu)”這(zhe)個(ge)(ge)提(ti)示,模型就(jiu)會(hui)(hui)立刻判斷。從概率(lv)角度來看(kan),你(ni)肯定想我(wo)回(hui)答(da)“九(jiu)(jiu)陽”或“九(jiu)(jiu)陰”,這(zhe)個(ge)(ge)概率(lv)最大,不會(hui)(hui)回(hui)答(da)其他(ta)(ta)的(de)東西(xi),比如(ru)“九(jiu)(jiu)九(jiu)(jiu)艷陽天”之類的(de),對吧(ba)?這(zhe)就(jiu)是(shi)一個(ge)(ge)概率(lv)問(wen)題。所以(yi),向量(liang)代表的(de)就(jiu)是(shi)這(zhe)個(ge)(ge)字(zi)(zi)與其他(ta)(ta)字(zi)(zi)發生關(guan)系(xi)的(de)概率(lv)有(you)多大。

因此,你可以設想,如果我(wo)(wo)的(de)(de)(de)(de)向(xiang)量網絡(luo)的(de)(de)(de)(de)維度越(yue)多(duo),那(nei)么(me)我(wo)(wo)的(de)(de)(de)(de)向(xiang)量就(jiu)越(yue)復雜。這(zhe)(zhe)(zhe)是否意味著,我(wo)(wo)能(neng)(neng)夠用這(zhe)(zhe)(zhe)個(ge)(ge)向(xiang)量網絡(luo)來(lai)記(ji)錄一(yi)個(ge)(ge)龐大的(de)(de)(de)(de)語(yu)料庫,這(zhe)(zhe)(zhe)個(ge)(ge)語(yu)料庫可能(neng)(neng)比中國(guo)國(guo)家(jia)圖書館和大英國(guo)家(jia)圖書館的(de)(de)(de)(de)所(suo)有書加起(qi)來(lai)還(huan)要大,其(qi)中每(mei)個(ge)(ge)字(zi)與其(qi)他(ta)字(zi)發生(sheng)(sheng)關系的(de)(de)(de)(de)概率(lv)都能(neng)(neng)被記(ji)錄下(xia)來(lai)。這(zhe)(zhe)(zhe)樣,當我(wo)(wo)需要回答“莎士比亞文體中哈(ha)姆雷(lei)特到底得罪了多(duo)少人”這(zhe)(zhe)(zhe)類問題(ti)時,我(wo)(wo)就(jiu)能(neng)(neng)從哈(ha)姆雷(lei)特的(de)(de)(de)(de)向(xiang)量網絡(luo)中輕(qing)(qing)松找(zhao)到答案,這(zhe)(zhe)(zhe)只是一(yi)個(ge)(ge)概率(lv)問題(ti)。通過這(zhe)(zhe)(zhe)種方式,大家(jia)應該能(neng)(neng)夠輕(qing)(qing)松理解參數(shu)所(suo)代(dai)表的(de)(de)(de)(de)是每(mei)個(ge)(ge)字(zi)與其(qi)他(ta)字(zi)發生(sheng)(sheng)關系的(de)(de)(de)(de)概率(lv)。有了這(zhe)(zhe)(zhe)樣的(de)(de)(de)(de)基礎理解之后,我(wo)(wo)們就(jiu)能(neng)(neng)輕(qing)(qing)松理解Transformer算法(fa)了。

06

Transformer算法架構的工作原理

這是一(yi)個最基本的(de) Transformer 結構(gou)圖。不(bu)要(yao)以為它很(hen)復(fu)雜,用我剛才(cai)講(jiang)給大(da)家(jia)的(de)知識,一(yi)講(jiang)解大(da)家(jia)就理解了。

圖片

這(zhe)里舉的一個例子是(shi)讓(rang) GPT 幫我(wo)翻(fan)(fan)譯英語到中文,將(jiang)“why do we walk”翻(fan)(fan)譯為“為什么我(wo)們(men)(men)要(yao)工作?”這(zhe)是(shi)我(wo)們(men)(men)打工人的永(yong)恒問題。我(wo)的輸入(ru)是(shi)一句英文輸出(chu),它(ta)得輸出(chu)成中文。那我(wo)們(men)(men)來看看這(zhe)個Transformer 算法(fa)怎(zen)么做?

首先,它把你的輸入(ru)先拆成token。token在中文里好像不太好直接(jie)翻譯,我就直接(jie)叫它 token。

在(zai)英語(yu)(yu)里(li),token 通常就(jiu)(jiu)是一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)單(dan)詞(ci),其實在(zai)中(zhong)文(wen)里(li)面就(jiu)(jiu)是一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)字(zi)。比(bi)如“我來自(zi)于哪(na)里(li)?”就(jiu)(jiu)可以拆成“我”一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token,“來”一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token,“自(zi)”一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token,“于”一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token,“哪(na)”一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token,“里(li)”一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token。英語(yu)(yu)有(you)時候一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)字(zi)還不止一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token,因為英國人為了(le)表達一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)沒見過的概念,有(you)時候就(jiu)(jiu)把好多個(ge)(ge)(ge)(ge)(ge)英語(yu)(yu)單(dan)詞(ci)組成一(yi)(yi)塊(kuai)。如果(guo)你們考過美國的托(tuo)福、GRE 考試,就(jiu)(jiu)會見到那(nei)種(zhong)特(te)別長二(er)三十個(ge)(ge)(ge)(ge)(ge)字(zi)母的英文(wen)單(dan)詞(ci)。這種(zhong)單(dan)詞(ci)通常會進入到Transformer算(suan)法,然(ran)后把它切成好多個(ge)(ge)(ge)(ge)(ge)塊(kuai),每個(ge)(ge)(ge)(ge)(ge)塊(kuai)代(dai)表了(le)一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)意(yi)思,每個(ge)(ge)(ge)(ge)(ge)塊(kuai)就(jiu)(jiu)是一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token。所以英語(yu)(yu)經常會一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)字(zi)是幾個(ge)(ge)(ge)(ge)(ge) token,而(er)中(zhong)文(wen)基本(ben)上一(yi)(yi)個(ge)(ge)(ge)(ge)(ge)字(zi)就(jiu)(jiu)是一(yi)(yi)個(ge)(ge)(ge)(ge)(ge) token。

拆完之后(hou)(hou)(hou),每(mei)(mei)一個 token 對應了一個向(xiang)量(liang)(liang)的多維(wei)空(kong)(kong)間。就(jiu)像我(wo)剛(gang)才舉的例(li)子,一個“我(wo)”字后(hou)(hou)(hou)面(mian)帶一個向(xiang)量(liang)(liang)空(kong)(kong)間,“九陽真經”這個“九”字后(hou)(hou)(hou)面(mian)又有(you)一個向(xiang)量(liang)(liang)空(kong)(kong)間,每(mei)(mei)個字都有(you)一個向(xiang)量(liang)(liang)空(kong)(kong)間。這個時(shi)候我(wo)告訴它說(shuo),你要幫(bang)我(wo)翻譯,那(nei)它就(jiu)會先來判斷,說(shuo)好(hao),這里面(mian)出現了“為(wei)什么”?“why”是“為(wei)什么”?第一個字是“why”,它先輸(shu)出個“why”,輸(shu)出完“why”之后(hou)(hou)(hou),它就(jiu)在“why”的向(xiang)量(liang)(liang)空(kong)(kong)間里去找。

我要表達這個(ge)(ge) why 這個(ge)(ge)意思的(de)(de)話,最大概率的(de)(de)會是(shi)什(shen)(shen)么呢?是(shi)為(wei)(wei)什(shen)(shen)么?還(huan)是(shi)為(wei)(wei)何?還(huan)是(shi)為(wei)(wei)了(le)?還(huan)是(shi)為(wei)(wei)什(shen)(shen)么?AI找到了(le)“為(wei)(wei)什(shen)(shen)么”這個(ge)(ge)詞(ci)出現的(de)(de)概率最大,因此(ci)毫不猶豫地輸(shu)出了(le)這個(ge)(ge)詞(ci)。同樣的(de)(de)道理,AI發現概率最大的(de)(de)第三個(ge)(ge)詞(ci)肯(ken)定是(shi)“么”,于是(shi)也將其輸(shu)出。

在與ChatGPT聊天時(shi),它不會給你一(yi)(yi)個(ge)完整(zheng)的(de)句子(zi),而是一(yi)(yi)個(ge)一(yi)(yi)個(ge)字地輸(shu)出(chu)(chu)。它靠每個(ge)字去猜下一(yi)(yi)個(ge)字出(chu)(chu)現的(de)最大幾率,這是一(yi)(yi)個(ge)基于多維(wei)向(xiang)量空間的(de)算法,不是很復雜。

有(you)時(shi)候,我們中國(guo)人很好(hao)奇,AI算(suan)法能(neng)否(fou)區分“南(nan)京(jing)(jing)市長(chang)江(jiang)大橋(qiao)(qiao)nán jīng shì cháng jiāng dà qiáo”和“南(nan)京(jing)(jing)市長(chang),江(jiang)大橋(qiao)(qiao)nán jīng shì zhǎng jiāng dà qiáo”的區別。你(ni)認為Transformer算(suan)法能(neng)否(fou)區分呢?這是(shi)一個非常有(you)趣的問題。

在(zai)(zai)使用傳統的生成神經網絡時,微軟的一(yi)個(ge)研究院專門研究如何斷(duan)句,因為中文斷(duan)句是一(yi)個(ge)很(hen)大的問(wen)題。我們需要編寫算法來判斷(duan)是將斷(duan)點放在(zai)(zai)“長江大橋”前面還是藏在(zai)(zai)“zhǎng”的后(hou)面。

然(ran)而自(zi)從出現(xian)了Transformer算(suan)法(fa),我們發現(xian)對于(yu)Transformer算(suan)法(fa)來說,斷(duan)句并(bing)不(bu)重要,它只關注每個字的(de)(de)向(xiang)量空間。因(yin)此,在南(nan)京(jing)(jing)市(shi)這個例子中(zhong)(zhong),后(hou)(hou)面出現(xian)的(de)(de)大(da)(da)概率是“長(chang)(chang)江大(da)(da)橋(qiao)”,而不(bu)是“市(shi)長(chang)(chang)江大(da)(da)橋(qiao)”。由于(yu)“江大(da)(da)橋(qiao)”出現(xian)在“市(shi)長(chang)(chang)”的(de)(de)字后(hou)(hou)面的(de)(de)概率微乎其微,因(yin)此它不(bu)太可能被選中(zhong)(zhong)。因(yin)此,Transformer算(suan)法(fa)絕對不(bu)會將(jiang)“南(nan)京(jing)(jing)市(shi)長(chang)(chang)江大(da)(da)橋(qiao)”斷(duan)成“南(nan)京(jing)(jing)市(shi)長(chang)(chang)”。

在(zai)(zai)過去,我們(men)擔心如(ru)(ru)何斷句,如(ru)(ru)何理(li)解中(zhong)文的(de)(de)語義和語法,以及(ji)如(ru)(ru)何理(li)解日語和韓語中(zhong)的(de)(de)語法等問(wen)(wen)題(ti)。這些問(wen)(wen)題(ti)都是以前使用神經(jing)網絡(luo)時需要(yao)解決的(de)(de)問(wen)(wen)題(ti)。但現在(zai)(zai),這些問(wen)(wen)題(ti)都不再是問(wen)(wen)題(ti),許多從事神經(jing)網絡(luo)工作的(de)(de)人可能需要(yao)轉換(huan)方(fang)向,轉向Transformer算(suan)法方(fang)向,因為在(zai)(zai)這個(ge)領域(yu),這些都不是問(wen)(wen)題(ti)。

接下來(lai)是Attention Layer注(zhu)(zhu)意(yi)(yi)力層,用于操作(zuo)處理(li)每個字背后(hou)的(de)多維向(xiang)量(liang)空間。這(zhe)一層被稱為自注(zhu)(zhu)意(yi)(yi)力層,指的(de)是它只關(guan)注(zhu)(zhu)這(zhe)個字本身的(de)向(xiang)量(liang),而無(wu)需關(guan)注(zhu)(zhu)其他內容,如語(yu)法、語(yu)言和(he)斷句等。因(yin)此,我(wo)們可以讓算法自行發(fa)揮向(xiang)量(liang)空間算法的(de)優勢。

好,現在你們(men)應該理(li)解為(wei)什么它可(ke)以寫詩,為(wei)什么它可(ke)以回答(da)問題了。

07

Transformer的獨特之處

傳統的深度學習方法不能(neng)做的事情,為什么只有Transformer 才能(neng)做到(dao)?

為了解(jie)答(da)這個問題,我們(men)先思考一下傳統的(de)(de)(de)神經網絡是(shi)(shi)用來(lai)干什么的(de)(de)(de)。我們(men)通(tong)常用它(ta)來(lai)進(jin)行自動(dong)駕駛視頻識(shi)別(bie)和圖(tu)片識(shi)別(bie),為什么呢?因(yin)為我們(men)可以將(jiang)一張圖(tu)片輕松地拆成小塊(kuai)(kuai)(kuai),每個小塊(kuai)(kuai)(kuai)都可以單獨處理,不需要依賴其他(ta)的(de)(de)(de)塊(kuai)(kuai)(kuai),也(ye)不需要識(shi)別(bie)這個小塊(kuai)(kuai)(kuai)和其他(ta)小塊(kuai)(kuai)(kuai)之(zhi)間有(you)(you)多少關(guan)聯。如果說沒有(you)(you)關(guan)聯也(ye)不完全正確,是(shi)(shi)有(you)(you)關(guan)聯的(de)(de)(de),比(bi)如你(ni)將(jiang)前面一輛(liang)車(che)的(de)(de)(de)車(che)牌號碼切(qie)成許多小塊(kuai)(kuai)(kuai),必須將(jiang)它(ta)們(men)連起來(lai)才(cai)能(neng)讀出完整(zheng)的(de)(de)(de)車(che)牌號碼,因(yin)此它(ta)們(men)之(zhi)間是(shi)(shi)有(you)(you)關(guan)聯性的(de)(de)(de)。

但(dan)是(shi)相比于(yu)文字,這種關聯(lian)性(xing)并不(bu)那么復(fu)雜,因此(ci)傳(chuan)統的深(shen)(shen)度學習模型(xing)只(zhi)需(xu)要(yao)(yao)(yao)挖幾層就(jiu)挖到底了,不(bu)需(xu)要(yao)(yao)(yao)挖很(hen)多層,也(ye)不(bu)需(xu)要(yao)(yao)(yao)進行復(fu)雜的并行處理,只(zhi)需(xu)要(yao)(yao)(yao)將圖片(pian)分割成小塊,進行簡(jian)單的單線條處理即(ji)可。但(dan)是(shi)對于(yu)文本來說,傳(chuan)統的深(shen)(shen)度學習模型(xing)就(jiu)不(bu)行了。

在(zai)處(chu)理(li)文(wen)本時,我(wo)們發現在(zai)一句話中(zhong)(zhong),每個單詞放(fang)在(zai)前(qian)面(mian)或后(hou)面(mian)都有(you)完全不同的(de)意思(si),這在(zai)中(zhong)(zhong)文(wen)中(zhong)(zhong)尤(you)其明(ming)顯。中(zhong)(zhong)文(wen)中(zhong)(zhong)有(you)各(ge)種各(ge)樣(yang)的(de)梗(geng),比如諧音梗(geng)、詞語順序(xu)梗(geng)等,因(yin)此傳統(tong)的(de)深(shen)度學習模型就蒙了,無法斷句,無法處(chu)理(li)順序(xu)。它需要(yao)將整句話的(de)上下(xia)文(wen)連起(qi)來才(cai)能理(li)解意思(si),因(yin)此它無法處(chu)理(li)。

而(er) Transformer 的獨特(te)之(zhi)(zhi)處(chu)在(zai)于其attention 機(ji)制(注(zhu)意力機(ji)制),它(ta)(ta)只(zhi)關(guan)注(zhu)概率,不關(guan)注(zhu)斷(duan)句或順序,只(zhi)關(guan)注(zhu)下(xia)一(yi)(yi)(yi)個(ge)(ge)字(zi)(zi)與當前字(zi)(zi)之(zhi)(zhi)間的關(guan)系。因(yin)此 Transformer 實際(ji)上(shang)是一(yi)(yi)(yi)種歸納總結的算法(fa),它(ta)(ta)是一(yi)(yi)(yi)種預測(ce)算法(fa),用于預測(ce)下(xia)一(yi)(yi)(yi)個(ge)(ge)詞或下(xia)一(yi)(yi)(yi)個(ge)(ge)字(zi)(zi)出(chu)現(xian)的概率。而(er)且在(zai)處(chu)理(li)(li)完后,它(ta)(ta)解決了并(bing)發性(xing)問題,因(yin)為每個(ge)(ge)字(zi)(zi)只(zhi)關(guan)注(zhu)自己的向量空間和(he)下(xia)一(yi)(yi)(yi)個(ge)(ge)字(zi)(zi)的向量空間。因(yin)此即使(shi)你(ni)給我(wo)一(yi)(yi)(yi)篇(pian)(pian)文章,我(wo)也可(ke)以將(jiang)其拆分(fen)成多個(ge)(ge)小塊進行并(bing)行計(ji)算,只(zhi)要我(wo)的計(ji)算機(ji)足夠(gou)強大,我(wo)就(jiu)能(neng)(neng)夠(gou)在(zai)一(yi)(yi)(yi)秒鐘內理(li)(li)解整篇(pian)(pian)文章并(bing)回(hui)答任何問題。Transformer解決了分(fen)布(bu)式語言(yan)處(chu)理(li)(li)的問題,真(zhen)正(zheng)可(ke)以并(bing)行處(chu)理(li)(li)整篇(pian)(pian)文章。無(wu)論是整本小說還是整個(ge)(ge)圖書館,只(zhi)要你(ni)的計(ji)算能(neng)(neng)力足夠(gou)強,Transformer就(jiu)能(neng)(neng)處(chu)理(li)(li)。

08

GPT的局限性

GPT 的演進歷程經歷了很長時間,從最初的 1.0 版(ban)本(ben)發展到現在的 3.5版(ban)本(ben)、4.0 版(ban)本(ben),參數量越來越多。

在(zai)這(zhe)么多年的(de)(de)發(fa)展歷(li)程中,GPT 的(de)(de)主要轉(zhuan)折點在(zai) GPT 3 上。因為在(zai)應用(yong)(yong)Transformer算法(fa)之前,人們無法(fa)看出它的(de)(de)潛力。正如之前提到(dao)(dao)的(de)(de),OpenAI 跑出了賽道,因為他(ta)是第一家(jia)將具有智商 180 的(de)(de)天(tian)賦(fu)異(yi)稟的(de)(de)孩子訓(xun)練到(dao)(dao)了 1000 億級(ji)(ji)參數的(de)(de) GPT 3,這(zhe)是第一家(jia)做(zuo)到(dao)(dao)的(de)(de)。因此,GPT 3 比其他(ta)人更快地達到(dao)(dao)了臨界(jie)點和爆發(fa)點,而其他(ta)人仍在(zai)訓(xun)練 GPT 2 級(ji)(ji)別的(de)(de)模型,仍在(zai)使用(yong)(yong)數十億級(ji)(ji)別的(de)(de)參數進行(xing)訓(xun)練。

GPT 3通過微(wei)調和遷移學習來利(li)用(yong)少量的樣本進行學習。

GPT 4 已經在 OpenAI 上開始應用了,但(dan)目(mu)前(qian)僅限于付(fu)費用戶使用,因(yin)為 OpenAI 是一個閉(bi)源(yuan)的平(ping)臺,它不公開使用了多(duo)少參(can)(can)數。但(dan)是大家基本(ben)上可(ke)以猜測(ce),大概 GPT 3.5 的參(can)(can)數量(liang)達到了 1700 多(duo)億。GPT-4 在 3. 5 基礎上,規模(mo)擴(kuo)大了 100 倍(bei),應該是達到了萬億級別(bie)、十萬億級別(bie)的參(can)(can)數量(liang)。因(yin)此,它的能力非常強大,可(ke)以幫助(zhu)你撰寫文(wen)章、進行新聞(wen)分(fen)析(xi),甚至編寫 Python 代碼等等。

然(ran)而 GPT本身仍(reng)然(ran)存在缺(que)陷和局限(xian)性。

圖片

大(da)(da)家看這(zhe)張圖片(pian)是我(wo)(wo)隨意(yi)測試(shi)的(de)(de)結果。我(wo)(wo)測試(shi)了李(li)白(bai)是否寫(xie)過一(yi)首古詩(shi)來贊(zan)美“鄭和下西洋”,而它(ta)很聰明地判(pan)斷出“鄭和下西洋”屬于(yu)明代(dai),而李(li)白(bai)是唐代(dai)的(de)(de)詩(shi)人。但是,當(dang)我(wo)(wo)再次欺騙它(ta)時,問(wen)它(ta)李(li)白(bai)是否寫(xie)過一(yi)首有關(guan)“大(da)(da)禹治水(shui)”的(de)(de)詩(shi),它(ta)就上當(dang)了,它(ta)真的(de)(de)寫(xie)了一(yi)首像模像樣的(de)(de)大(da)(da)禹治水(shui)的(de)(de)詩(shi)。

盡管GPT已經發展到3.5和4,看起來非(fei)常(chang)聰明,但(dan)(dan)它(ta)(ta)仍(reng)然有其局限性(xing),即它(ta)(ta)沒有真正的(de)(de)理(li)(li)解能(neng)力(li)(li)和知識(shi)能(neng)力(li)(li)。真正的(de)(de)知識(shi)能(neng)力(li)(li)是(shi)指真正的(de)(de)推(tui)理(li)(li)判斷能(neng)力(li)(li)。作為(wei)人類(lei)個體,我(wo)(wo)們的(de)(de)強大(da)之處(chu)在(zai)于我(wo)(wo)們自己的(de)(de)判斷力(li)(li)。沒有判斷力(li)(li),我(wo)(wo)們就只(zhi)是(shi)一個計(ji)算機。GPT似乎什么都懂,但(dan)(dan)它(ta)(ta)沒有判斷力(li)(li),因此(ci)會產生幻覺(jue),它(ta)(ta)不太(tai)可(ke)靠,會有一些推(tui)理(li)(li)偏見和錯誤(wu)。因此(ci),在(zai)使用(yong)GPT時,需要注(zhu)意(yi)它(ta)(ta)的(de)(de)局限性(xing)。

或(huo)許(xu)在(zai)將來,我(wo)們可以(yi)在(zai)所有(you)的(de)(de)概(gai)(gai)率判(pan)斷之前(qian)先(xian)加一層推理(li)(li)邏(luo)輯判(pan)斷,這(zhe)(zhe)樣它可能會(hui)變(bian)得更(geng)好,但這(zhe)(zhe)個(ge)算法會(hui)更(geng)加復(fu)雜和麻煩(fan)。你必須首先(xian)讓它具備推理(li)(li)能力,而(er)(er)以(yi)前(qian)我(wo)們的(de)(de)生(sheng)成(cheng)神經網絡(luo)做的(de)(de)就是(shi)推理(li)(li)學,而(er)(er)現(xian)在(zai)的(de)(de)Transformer則是(shi)做簡單的(de)(de)概(gai)(gai)率預測。這(zhe)(zhe)兩個(ge)東西存在(zai)一些差(cha)別,你需要讓它先(xian)做推理(li)(li),再做預測。

我(wo)今天(tian)的(de)分(fen)享(xiang)就到這里,謝(xie)謝(xie)大家。

沒有關鍵詞
熱門文章
發揮各自所長,挖掘場景所需,探索方法路徑,構建良性生態。
2023-09-14
X