
當ChatGPT引發中美科技行業狂熱之后,它的締造者美國OpenAI公司如今又在人工智能(AI)可(ke)解釋性研究領域(yu)獲得重大突破(po)。
鈦媒(mei)體App 5月10日(ri)消息,OpenAI今晨(chen)發(fa)布(bu)一個(ge)關于GPT-4語(yu)言模(mo)型(xing)解(jie)析神經元(yuan)(yuan)(yuan)的(de)(de)(de)對(dui)齊性研究成果(guo),利用自(zi)研基于GPT-4技術(shu)的(de)(de)(de)開(kai)源工具,來(lai)嘗試計算其(qi)(qi)他架(jia)構、更(geng)簡單語(yu)言模(mo)型(xing)上神經元(yuan)(yuan)(yuan)的(de)(de)(de)行為并(bing)對(dui)其(qi)(qi)進行評分,而且可以將其(qi)(qi)應用于另一種語(yu)言模(mo)型(xing)中的(de)(de)(de)神經元(yuan)(yuan)(yuan)——本(ben)次選(xuan)擇4年前發(fa)布(bu)、包含307200個(ge)神經元(yuan)(yuan)(yuan)的(de)(de)(de)大模(mo)型(xing)GPT-2為實(shi)驗樣本(ben),公開(kai)了(le)這(zhe)些GPT-2神經元(yuan)(yuan)(yuan)解(jie)釋(shi)和分數的(de)(de)(de)數據集。
“我們的目標是使用 Al 來(lai)幫助(zhu)我們理解 Al”,OpenAI 的這(zhe)一研究對 AI 行業意味著,利(li)用GPT-4和機器學(xue)習(xi)技(ji)術就能(neng)定(ding)義、測(ce)量 AI 可解釋性(xing),未(wei)來(lai)在(zai)神經元層將會產(chan)生“大模型比(bi)人腦更會思考(kao)”技(ji)術趨勢。
OpenAI 聯合(he)創始人 Greg Brockman則表示:我們邁出了(le)使用 AI 進(jin)行自動化對齊研(yan)究的重要一步。
與(yu)此(ci)同時,OpenAI 對此(ci)依然是(shi)一如既(ji)往的(de)謙(qian)虛,文章稱目前(qian)GPT-4生(sheng)成的(de)可(ke)解(jie)釋(shi)實(shi)驗(yan)還不完美(mei),當比GPT-2更大(da)模型時解(jie)釋(shi)表(biao)現效果很(hen)差。OpenAI可(ke)拓展對齊團隊的(de)Jeff Wu直(zhi)言,本次研究(jiu)中大(da)多數解(jie)釋(shi)的(de)得分很(hen)低(di),GPT-4或無法解(jie)釋(shi)實(shi)際神經(jing)元(yuan)那么多的(de)行為,未來仍有技術改進(jin)空(kong)間。

據悉,自去年11月底至今,人工智能(AI)聊天機器人大模型ChatGPT風靡全球。根據Similarweb公布的最新數據,截至今年4月,ChatGPT平臺訪問量達到17.6億次,比3月份增長了12.6%,同時已達到谷歌的2%。
ChatGPT背后的(de)(de)大型(xing)(xing)語言模型(xing)(xing)(LLM),是(shi)基于大量文本數據(ju)訓練、包含數千(qian)億(或(huo)更(geng)多)參數的(de)(de)語言模型(xing)(xing)。在大數據(ju)時(shi)代(dai),這類 AI 機器學(xue)習模型(xing)(xing)可(ke)以(yi)在提(ti)升產品(pin)銷售、輔助(zhu)人類決策(ce)過程中(zhong)能夠(gou)起到(dao)很大的(de)(de)作用,但(dan)是(shi)計算機通(tong)常(chang)(chang)不(bu)會解釋它們(men)的(de)(de)預測結(jie)果,而(er)語言模型(xing)(xing)想要變(bian)得更(geng)強大,部(bu)署更(geng)廣(guang)泛,就(jiu)需要研究可(ke)解釋性(interpretability),因為(wei)人類對模型(xing)(xing)內(nei)部(bu)工(gong)作原理(li)的(de)(de)理(li)解仍然非常(chang)(chang)有(you)限,例如可(ke)能很難從中(zhong)檢測到(dao)有(you)偏見(jian)、欺騙(pian)性內(nei)容輸出。
站在OpenAI 的(de)(de)(de)角度看,大(da)模(mo)(mo)型(xing)未來(lai)(lai)將和人腦一樣擁有“神(shen)(shen)經元(yuan)”(neurons),這(zhe)些神(shen)(shen)經元(yuan)會觀察(cha)文本(ben)中的(de)(de)(de)特定規(gui)(gui)律,進而影響(xiang)到(dao)模(mo)(mo)型(xing)本(ben)身生(sheng)產的(de)(de)(de)文本(ben)。所以(yi)可解釋(shi)性就是將模(mo)(mo)型(xing)能用通俗易懂(dong)的(de)(de)(de)語言進行表達(da),把模(mo)(mo)型(xing)的(de)(de)(de)預測過程轉(zhuan)化成具(ju)備邏輯關(guan)系的(de)(de)(de)規(gui)(gui)則的(de)(de)(de)能力(li),從而通過查看模(mo)(mo)型(xing)內部來(lai)(lai)發現更多(duo)信(xin)息。
例如(ru),如(ru)果(guo)有(you)一個(ge)針對“漫威超(chao)(chao)級(ji)英雄”的(de)神(shen)經元,當用戶向模型(xing)提問“哪個(ge)超(chao)(chao)級(ji)英雄的(de)能(neng)力最強”時(shi),這個(ge)神(shen)經元就會提高模型(xing)在回答中說出(chu)漫威英雄的(de)概率,或者(zhe)是弄清楚為什(shen)么人(ren)類(lei)神(shen)經元,可以決定進行某(mou)些(xie)搜索引擎(qing)查詢或訪(fang)問特定網(wang)站,即逐步轉化一種有(you)數據(ju)可解釋性(xing)的(de)“無監督學習(xi)”模式(shi)。
OpenAI這次使(shi)用(yong)(yong)GPT-4來解決可(ke)解釋(shi)性的(de)(de)(de)問題,就是(shi)(shi)(shi)希望(wang)能夠使(shi)用(yong)(yong)自動化的(de)(de)(de)方(fang)式,讓機器提高 AI 數(shu)據準確(que)性,文章稱這是(shi)(shi)(shi)其對齊研究的(de)(de)(de)第(di)三(san)支(zhi)柱(zhu)的(de)(de)(de)一部分。據悉,“第(di)三(san)支(zhi)柱(zhu)”是(shi)(shi)(shi)公司2022年發(fa)布的(de)(de)(de)《我們做對齊研究的(de)(de)(de)方(fang)法》,具體對齊研究將由三(san)大支(zhi)柱(zhu)支(zhi)撐:利用(yong)(yong)人工反饋訓練(lian) AI;訓練(lian) AI 系統協助人類評估;訓練(lian) AI 系統進行對齊研究。
具體到本次(ci)研(yan)究成果上,OpenAI 開發了(le)一套包含自(zi)動(dong)化工具和測試方法的評估流(liu)程(cheng):
首(shou)先,研究人(ren)員讓(rang)GPT-2運行文本序列,等(deng)待某個特定神經元被頻繁(fan)“激(ji)活”;
然(ran)后讓 GPT-4 針對一段文本生成解(jie)釋,例(li)如通過GPT-4接收到(dao)文本和(he)激活情(qing)況判斷漫威是否(fou)與電影、角(jiao)色和(he)娛樂有關;
隨后用 GPT-4 模擬 GPT-2 的神經元(yuan)接下來會做什(shen)么,預(yu)測行為;
最后評估打分,對比(bi)GPT-4模擬神經元(yuan)和(he)GPT-2真(zhen)實神經元(yuan)的(de)結(jie)果的(de)準確度,在下圖這個例子中,GPT-4 的(de)得分為(wei)0.34。

使(shi)用上述評分(fen)(fen)(fen)方法(fa),OpenAI 開(kai)(kai)始衡量他(ta)們的(de)(de)(de)技術對(dui)網絡(luo)不(bu)同(tong)部分(fen)(fen)(fen)的(de)(de)(de)效果,并(bing)嘗試針對(dui)目前解釋(shi)不(bu)清楚的(de)(de)(de)部分(fen)(fen)(fen)改進技術。OpenAI 表示,他(ta)們正在將GPT-4編寫的(de)(de)(de)對(dui)GPT-2中的(de)(de)(de)所有(you)307,200個神(shen)經元(yuan)的(de)(de)(de)解釋(shi)的(de)(de)(de)數(shu)據集和可視化(hua)工具(ju)開(kai)(kai)源,同(tong)時(shi)還提(ti)供(gong)了OpenAI API公(gong)開(kai)(kai)可用的(de)(de)(de)模型(xing)進行解釋(shi)和評分(fen)(fen)(fen)的(de)(de)(de)代碼,從而(er)希(xi)望學術界能(neng)開(kai)(kai)發(fa)出新的(de)(de)(de)技術來提(ti)升GPT模型(xing)解釋(shi)分(fen)(fen)(fen)數(shu)。
OpenAI還發現,有超過 1000 個(ge)神經元(yuan)(yuan)的(de)解(jie)(jie)(jie)(jie)(jie)釋(shi)得分至少(shao)為(wei)0.8分,這意味著(zhu)GPT-4模(mo)型(xing)(xing)可(ke)(ke)以解(jie)(jie)(jie)(jie)(jie)釋(shi)大部分人類(lei)神經元(yuan)(yuan),同時目前GPT理解(jie)(jie)(jie)(jie)(jie)的(de)概念(nian)似乎和人類(lei)不太一樣。該團隊稱,希望隨著(zhu)技(ji)術和研究方法的(de)改(gai)進,進一步提高AI模(mo)型(xing)(xing)可(ke)(ke)解(jie)(jie)(jie)(jie)(jie)釋(shi)性能(neng)力(li):如通(tong)過迭(die)代解(jie)(jie)(jie)(jie)(jie)釋(shi),可(ke)(ke)以讓GPT-4想出(chu)可(ke)(ke)能(neng)的(de)反例在(zai)根據激(ji)活情況修改(gai)解(jie)(jie)(jie)(jie)(jie)釋(shi);使用更(geng)大的(de)模(mo)型(xing)(xing)作出(chu)解(jie)(jie)(jie)(jie)(jie)釋(shi);以及調整已解(jie)(jie)(jie)(jie)(jie)釋(shi)模(mo)型(xing)(xing)(explained model)結構等,用不同的(de)激(ji)活函數訓練模(mo)型(xing)(xing)有助(zhu)于提高解(jie)(jie)(jie)(jie)(jie)釋(shi)評分。
對于本研究局限性,OpenAI表(biao)示,目前GPT-4生(sheng)成(cheng)的(de)(de)(de)解(jie)釋還不完美(mei),尤其要解(jie)釋比GPT-2更大(da)的(de)(de)(de)模型(xing)時,表(biao)現效果很差;神經元復(fu)雜行為無法(fa)用簡短的(de)(de)(de)自然語言描述(shu);OpenAI 解(jie)釋了神經元的(de)(de)(de)這(zhe)(zhe)種(zhong)行為,卻沒有試圖解(jie)釋產(chan)生(sheng)這(zhe)(zhe)種(zhong)行為的(de)(de)(de)機制(zhi);而且整個過程算力消耗極大(da)等(deng)。OpenAI 希望在未來的(de)(de)(de)工作中可以解(jie)決上述(shu)這(zhe)(zhe)些問題(ti)。
最終,OpenAI希望使(shi)用模(mo)型來形成、測(ce)試和迭代完(wan)全一(yi)般(ban)的(de)假設,從而(er)比(bi)肩人類大腦的(de)想法和行為,以及將其大模(mo)型解(jie)釋為一(yi)種在部署(shu)前(qian)后檢測(ce)對齊和安(an)全問題的(de)方法。然(ran)而(er)在這之前(qian),OpenAI還有很長的(de)路要走。
“我們希望這將(jiang)開辟(pi)一條有前途的途徑。”Jeff Wu表示(shi),這一技術可(ke)(ke)以讓其他人(ren)可(ke)(ke)以在此基(ji)礎上(shang)構(gou)建并做出貢獻的自動(dong)化方案,從而解(jie)決 AI 模型可(ke)(ke)解(jie)釋性問(wen)題,很好地(di)解(jie)釋這些模型行為,比如 AI 如何影響人(ren)類大腦中的神經元等。