當ChatGPT引發中美科技行業狂熱之后,它的締造者美國OpenAI公司如今又在人工智能(AI)可解釋(shi)性研(yan)究領(ling)域獲得(de)重(zhong)大突(tu)破。
鈦(tai)媒體App 5月10日消息,OpenAI今晨發布一(yi)個關于GPT-4語(yu)言(yan)模(mo)型(xing)解析神(shen)經(jing)元(yuan)(yuan)的(de)(de)(de)對齊性(xing)研究成果,利用自研基(ji)于GPT-4技術的(de)(de)(de)開(kai)源(yuan)工具,來嘗試計(ji)算其他架構、更簡單(dan)語(yu)言(yan)模(mo)型(xing)上(shang)神(shen)經(jing)元(yuan)(yuan)的(de)(de)(de)行為(wei)并(bing)對其進行評分(fen),而且(qie)可(ke)以將(jiang)其應(ying)用于另一(yi)種語(yu)言(yan)模(mo)型(xing)中的(de)(de)(de)神(shen)經(jing)元(yuan)(yuan)——本次選擇4年(nian)前(qian)發布、包含307200個神(shen)經(jing)元(yuan)(yuan)的(de)(de)(de)大模(mo)型(xing)GPT-2為(wei)實驗(yan)樣本,公(gong)開(kai)了這(zhe)些GPT-2神(shen)經(jing)元(yuan)(yuan)解釋和分(fen)數的(de)(de)(de)數據集(ji)。
“我(wo)們(men)的(de)目標是(shi)使(shi)用 Al 來幫助我(wo)們(men)理解 Al”,OpenAI 的(de)這一研(yan)究對 AI 行(xing)業(ye)意味著,利用GPT-4和機器學(xue)習技術(shu)就能定(ding)義、測量 AI 可解釋(shi)性,未(wei)來在神經元層將會產生“大模型比人腦更會思(si)考(kao)”技術(shu)趨勢。
OpenAI 聯合創(chuang)始人 Greg Brockman則(ze)表示(shi):我們(men)邁出了使(shi)用 AI 進行(xing)自(zi)動(dong)化對(dui)齊研究的重要一步。
與此同時,OpenAI 對(dui)此依(yi)然(ran)是(shi)一(yi)如既往的(de)謙虛,文章稱目(mu)前GPT-4生成的(de)可(ke)解(jie)(jie)釋實(shi)驗(yan)還不完美,當比GPT-2更大模型(xing)時解(jie)(jie)釋表現效(xiao)果很(hen)差。OpenAI可(ke)拓展對(dui)齊團隊(dui)的(de)Jeff Wu直言,本次研究中大多數解(jie)(jie)釋的(de)得分很(hen)低,GPT-4或(huo)無法解(jie)(jie)釋實(shi)際神經元那么多的(de)行為(wei),未來仍有技術(shu)改進空(kong)間(jian)。
據悉,自去年11月底至今,人工智能(AI)聊天機器人大模型ChatGPT風靡全球。根據Similarweb公布的最新數據,截至今年4月,ChatGPT平臺訪問量達到17.6億次,比3月份增長了12.6%,同時已達到谷歌的2%。
ChatGPT背后的(de)大型(xing)語(yu)言(yan)模(mo)型(xing)(LLM),是基于(yu)大量文本數(shu)據訓練、包含數(shu)千億(或更(geng)(geng)多)參數(shu)的(de)語(yu)言(yan)模(mo)型(xing)。在大數(shu)據時(shi)代,這類 AI 機器學習模(mo)型(xing)可以在提升產品銷售、輔助人類決策過程(cheng)中能(neng)夠(gou)起到很大的(de)作用(yong),但是計算(suan)機通常(chang)不會解(jie)釋它們的(de)預(yu)測(ce)結(jie)果,而(er)語(yu)言(yan)模(mo)型(xing)想要變得更(geng)(geng)強大,部署更(geng)(geng)廣(guang)泛,就(jiu)需要研究(jiu)可解(jie)釋性(interpretability),因(yin)為人類對模(mo)型(xing)內部工(gong)作原(yuan)理的(de)理解(jie)仍(reng)然非常(chang)有(you)限(xian),例如(ru)可能(neng)很難從中檢測(ce)到有(you)偏見、欺(qi)騙性內容輸出。
站(zhan)在OpenAI 的角度(du)看,大模(mo)(mo)型(xing)(xing)未來將和人腦一樣擁有(you)“神經元”(neurons),這些神經元會(hui)觀察文(wen)本中的特定規(gui)律(lv),進而影響到模(mo)(mo)型(xing)(xing)本身生產的文(wen)本。所以(yi)可解(jie)釋性就是將模(mo)(mo)型(xing)(xing)能用通俗(su)易懂的語言進行表達,把(ba)模(mo)(mo)型(xing)(xing)的預測(ce)過程轉化成(cheng)具備邏輯關系(xi)的規(gui)則的能力(li),從而通過查看模(mo)(mo)型(xing)(xing)內部來發(fa)現更多信(xin)息(xi)。
例如,如果有(you)一(yi)個針對(dui)“漫威超(chao)級(ji)英雄(xiong)”的(de)(de)神(shen)經元,當用戶向(xiang)模(mo)型提問“哪個超(chao)級(ji)英雄(xiong)的(de)(de)能力最強”時,這個神(shen)經元就會(hui)提高模(mo)型在回答中說出漫威英雄(xiong)的(de)(de)概率,或(huo)者是(shi)弄(nong)清楚為(wei)什么人(ren)類神(shen)經元,可以決定(ding)(ding)進行某些搜索引擎(qing)查詢或(huo)訪問特定(ding)(ding)網站,即逐步轉化一(yi)種(zhong)有(you)數據(ju)可解(jie)釋性的(de)(de)“無監督學習”模(mo)式。
OpenAI這次使用GPT-4來解(jie)決可解(jie)釋性的問(wen)題,就是希望能夠(gou)使用自動化(hua)的方(fang)式,讓(rang)機(ji)器提高 AI 數據準確性,文章稱這是其對(dui)齊研究(jiu)的第(di)三(san)支柱(zhu)的一部分。據悉(xi),“第(di)三(san)支柱(zhu)”是公司2022年發布(bu)的《我們做對(dui)齊研究(jiu)的方(fang)法》,具體(ti)對(dui)齊研究(jiu)將(jiang)由三(san)大支柱(zhu)支撐:利用人工反饋訓(xun)練(lian) AI;訓(xun)練(lian) AI 系(xi)統(tong)協助(zhu)人類(lei)評估;訓(xun)練(lian) AI 系(xi)統(tong)進行對(dui)齊研究(jiu)。
具(ju)體到本次研究成果上,OpenAI 開發了一套(tao)包含自(zi)動(dong)化工具(ju)和測(ce)試方法的評估流程:
首先,研究(jiu)人員讓GPT-2運行(xing)文本序列(lie),等待某個特定神經元被(bei)頻繁“激活”;
然(ran)后讓 GPT-4 針對一段(duan)文本生成解釋,例如(ru)通過GPT-4接收(shou)到文本和激活情況判斷漫威(wei)是否與電影、角色和娛樂有關;
隨后用 GPT-4 模擬 GPT-2 的神經(jing)元接下(xia)來(lai)會做什么,預(yu)測行為;
最(zui)后評估打分(fen)(fen),對比GPT-4模擬神經(jing)元和GPT-2真實神經(jing)元的(de)結果的(de)準(zhun)確度(du),在下圖(tu)這個例子中,GPT-4 的(de)得分(fen)(fen)為0.34。
使用(yong)上述評分(fen)(fen)方法,OpenAI 開始(shi)衡量他們的(de)(de)(de)(de)(de)技(ji)術(shu)對(dui)網絡不同(tong)部(bu)分(fen)(fen)的(de)(de)(de)(de)(de)效果,并嘗試針(zhen)對(dui)目(mu)前解釋不清楚的(de)(de)(de)(de)(de)部(bu)分(fen)(fen)改進(jin)技(ji)術(shu)。OpenAI 表示,他們正在將(jiang)GPT-4編寫的(de)(de)(de)(de)(de)對(dui)GPT-2中的(de)(de)(de)(de)(de)所有(you)307,200個神經(jing)元的(de)(de)(de)(de)(de)解釋的(de)(de)(de)(de)(de)數據(ju)集和(he)可(ke)視化工具開源,同(tong)時(shi)還提供了OpenAI API公開可(ke)用(yong)的(de)(de)(de)(de)(de)模型(xing)進(jin)行解釋和(he)評分(fen)(fen)的(de)(de)(de)(de)(de)代碼,從而希(xi)望學(xue)術(shu)界能開發出新的(de)(de)(de)(de)(de)技(ji)術(shu)來提升GPT模型(xing)解釋分(fen)(fen)數。
OpenAI還發現,有(you)超過(guo) 1000 個神經(jing)元的(de)解釋(shi)(shi)(shi)得分(fen)至少為(wei)0.8分(fen),這(zhe)意味著(zhu)GPT-4模(mo)(mo)型(xing)可(ke)以解釋(shi)(shi)(shi)大部分(fen)人類神經(jing)元,同(tong)時目前GPT理解的(de)概念似(si)乎和人類不太一樣。該團隊稱,希望隨著(zhu)技術和研究(jiu)方法的(de)改進,進一步提高AI模(mo)(mo)型(xing)可(ke)解釋(shi)(shi)(shi)性(xing)能(neng)力:如(ru)通過(guo)迭(die)代解釋(shi)(shi)(shi),可(ke)以讓GPT-4想(xiang)出(chu)(chu)可(ke)能(neng)的(de)反例在根據激活情(qing)況修改解釋(shi)(shi)(shi);使用(yong)更大的(de)模(mo)(mo)型(xing)作(zuo)出(chu)(chu)解釋(shi)(shi)(shi);以及(ji)調整(zheng)已解釋(shi)(shi)(shi)模(mo)(mo)型(xing)(explained model)結構等(deng),用(yong)不同(tong)的(de)激活函數訓練模(mo)(mo)型(xing)有(you)助于(yu)提高解釋(shi)(shi)(shi)評(ping)分(fen)。
對于本研究局限性,OpenAI表示,目前(qian)GPT-4生成的(de)解(jie)釋(shi)還不(bu)完美,尤其要解(jie)釋(shi)比(bi)GPT-2更大的(de)模型時,表現效(xiao)果很差;神經元復雜行(xing)(xing)(xing)為無法用簡短的(de)自然語(yu)言描述(shu);OpenAI 解(jie)釋(shi)了神經元的(de)這(zhe)種行(xing)(xing)(xing)為,卻沒(mei)有試圖(tu)解(jie)釋(shi)產生這(zhe)種行(xing)(xing)(xing)為的(de)機(ji)制;而(er)且(qie)整個過程算力(li)消耗極大等。OpenAI 希望在未來的(de)工作中可以(yi)解(jie)決上述(shu)這(zhe)些問題(ti)。
最(zui)終,OpenAI希望使(shi)用模型(xing)來形(xing)成(cheng)、測試(shi)和(he)迭(die)代完全一般的(de)(de)假設,從而比肩人類大腦的(de)(de)想法和(he)行為(wei),以及將其大模型(xing)解釋為(wei)一種(zhong)在(zai)部署前后檢測對齊(qi)和(he)安全問題的(de)(de)方法。然而在(zai)這之前,OpenAI還有很長(chang)的(de)(de)路要走。
“我們希望這將開辟一(yi)條(tiao)有前(qian)途(tu)的途(tu)徑。”Jeff Wu表(biao)示,這一(yi)技術可以讓其他人(ren)可以在此基礎上構建并(bing)做出貢獻的自動化方案,從而解決 AI 模型可解釋性問題(ti),很好(hao)地解釋這些模型行(xing)為(wei),比如 AI 如何影響人(ren)類大(da)腦中的神(shen)經元等(deng)。