近日,一篇由國內外多位AI專家學者參與署名的論文,在國內人工智能(AI)學術圈里引起了不(bu)小的震動。
這篇在(zai)今(jin)年3月26日發(fa)表于預(yu)印本網站 arXiv的關于“大模型”的綜述報告《大模型路線圖》(A Roadmap for Big Model),是(shi)由北(bei)京智源(yuan)人工智能研究院(以(yi)下簡稱“智源(yuan)研究院”,或(huo)“研究院”)發(fa)起(qi)的,旨(zhi)在(zai)盡可能涵(han)蓋國內外(wai)該領域(yu)的所有重要文獻。
據了(le)解(jie),該報告由多達(da)16篇(pian)獨立稿(gao)件組(zu)成,每篇(pian)文(wen)章都分(fen)別(bie)邀請(qing)了(le)一組(zu)作者撰(zhuan)寫并單(dan)獨署名(ming),有國(guo)內外(wai)多家(jia)高(gao)校和(he)企業參與了(le)該報告的完成,報告全文(wen)長達(da)200多頁,涉及來(lai)自清華大(da)(da)學(xue)、北京大(da)(da)學(xue)、中國(guo)人(ren)民大(da)(da)學(xue)、上海交通大(da)(da)學(xue)、哈爾(er)濱工業大(da)(da)學(xue)、哥倫比亞大(da)(da)學(xue)、蒙特利(li)爾(er)大(da)(da)學(xue)等國(guo)內外(wai)高(gao)校,以及字節跳動、華為、京東、騰訊等企業以及中科(ke)院、微(wei)軟亞洲研(yan)究(jiu)院和(he)北京智源AI研(yan)究(jiu)院等機構的100多名(ming)作者。
而谷(gu)歌大腦(Google Brain)團隊著名(ming)科(ke)學家Nicholas Carlini 在其近日的一(yi)篇博客中指(zhi)出,該文章涉嫌抄襲。
Nicholas Carlini舉(ju)出的(de)(de)證據是“大規模文(wen)(wen)本重疊”,并在(zai)(zai)文(wen)(wen)章中(zhong)詳(xiang)細(xi)列(lie)舉(ju)了該團隊論文(wen)(wen)存在(zai)(zai)抄(chao)襲其他(ta)論文(wen)(wen)的(de)(de)出處(chu),其中(zhong)也包括他(ta)本人(ren)更(geng)早發(fa)布的(de)(de)《去重訓(xun)練(lian)數據使語言模型更(geng)好》(Deduplicating Training Data Makes Language Models Better)。
4月13日晚,該報告的(de)(de)組織(zhi)方(fang)——智(zhi)(zhi)源(yuan)研究(jiu)(jiu)院(yuan)(yuan)(yuan)連夜發(fa)表了《關于“A Roadmap for Big Model”綜述報告問題的(de)(de)致(zhi)歉信(xin)》。在(zai)道歉信(xin)中(zhong),智(zhi)(zhi)源(yuan)研究(jiu)(jiu)院(yuan)(yuan)(yuan)首先明確(que)(que)表示,已對報告進行了逐項核(he)查(cha),經查(cha)重確(que)(que)認(ren),共(gong)16篇文(wen)章(zhang)中(zhong)的(de)(de)5篇文(wen)章(zhang)章(zhang)節,共(gong)759詞的(de)(de)內(nei)容,與(yu)其他論(lun)文(wen)重復,應屬抄襲。智(zhi)(zhi)源(yuan)研究(jiu)(jiu)院(yuan)(yuan)(yuan)表示,已從報告中(zhong)刪除相應內(nei)容,報告修(xiu)訂版在(zai)13日當天,將提交arXiv進行更新。目前,研究(jiu)(jiu)院(yuan)(yuan)(yuan)已通知所有文(wen)章(zhang)的(de)(de)作者對所有內(nei)容進行全(quan)面審查(cha),后(hou)續經嚴格(ge)審核(he)后(hou)再發(fa)布新版本。
該(gai)事(shi)件(jian)在(zai)國內AI學術社群中,也(ye)引發了(le)不(bu)同的反響(xiang)。
事件(jian)(jian)爆出后,盡管有很(hen)多網(wang)(wang)友(you)在第一(yi)時(shi)間(jian)發起群嘲,但也有一(yi)些網(wang)(wang)友(you)從客觀角度(du)對事件(jian)(jian)進(jin)行了(le)分析。首先,有來自AI學術圈(quan)的(de)網(wang)(wang)友(you)表示,此(ci)次事件(jian)(jian)雖然屬于(yu)“抄襲(xi)(xi)”,但也并不是很(hen)多圈(quan)外人所想象的(de)那種“抄襲(xi)(xi)”。
從(cong)(cong)性質上看,“大模型”一文屬于綜(zong)述(shu)報(bao)告,和一般意義上的科(ke)(ke)研(yan)論(lun)文相比,“綜(zong)述(shu)”是(shi)一種“總結”,資料來(lai)自文獻;而(er)“科(ke)(ke)研(yan)論(lun)文”的數(shu)據是(shi)由研(yan)究者通過科(ke)(ke)研(yan)設計,自己(ji)收集而(er)來(lai)。因(yin)此,綜(zong)述(shu)論(lun)文與科(ke)(ke)研(yan)論(lun)文無論(lun)從(cong)(cong)性質上還(huan)是(shi)構成(cheng)上,都不可同日而(er)語。另(ling)外,本(ben)次被指抄襲(xi)的報(bao)告由多(duo)達16篇文章構成(cheng),且由不同組織機構分別(bie)獨立撰寫(xie),因(yin)此為什么(me)會(hui)出現所謂“抄襲(xi)”的原因(yin),還(huan)需要進一步調查(cha)。
還有(you)網友表示,《大(da)模(mo)型(xing)(xing)(xing)(xing)路(lu)線圖》的(de)(de)內容涉(she)及從(cong)“大(da)模(mo)型(xing)(xing)(xing)(xing)”構(gou)建(jian)前(qian)提條(tiao)件開始,到“大(da)模(mo)型(xing)(xing)(xing)(xing)”應(ying)(ying)用結束的(de)(de)全流(liu)程研(yan)(yan)究工作(zuo),為大(da)模(mo)型(xing)(xing)(xing)(xing)發(fa)展(zhan)(zhan)的(de)(de)歷史(shi)和應(ying)(ying)用流(liu)程梳理出了清晰的(de)(de)脈絡,本(ben)來可以幫助讀者更(geng)好理解“大(da)模(mo)型(xing)(xing)(xing)(xing)”的(de)(de)發(fa)展(zhan)(zhan)歷史(shi)和研(yan)(yan)究現狀,對于(yu)大(da)模(mo)型(xing)(xing)(xing)(xing)領域的(de)(de)未(wei)來發(fa)展(zhan)(zhan)也能起到指(zhi)引性(xing)的(de)(de)作(zuo)用,原本(ben)應(ying)(ying)當是一篇極具價值的(de)(de)研(yan)(yan)究綜述,但目前(qian)由于(yu)抄(chao)襲(xi)事(shi)件,該文章的(de)(de)重要性(xing)恐怕要大(da)打折扣,這對于(yu)國內外大(da)模(mo)型(xing)(xing)(xing)(xing)研(yan)(yan)究,乃至(zhi)人工智能學術研(yan)(yan)究來說,都不失為一件憾(han)事(shi)。
有網友表示,該(gai)報(bao)告(gao)是(shi)(shi)由“百名作者、16篇文章”組(zu)成的綜(zong)述報(bao)告(gao),是(shi)(shi)對大(da)量原(yuan)始文獻的歸納、總結、分(fen)析,再添加作者觀點而(er)形(xing)成,但過(guo)多的作者和機(ji)構(gou)參與,龐(pang)大(da)的創(chuang)作團隊規模顯然容易出現各種“難以預料的問(wen)題(ti)”。
最初(chu)發起指(zhi)控的(de)Nicholas Carlini本人近日也更新評論發出呼吁(yu),“不(bu)(bu)要把這變成(cheng)一(yi)場獵巫(wu)行(xing)(xing)動。” Carlini在評論中表示(shi),“這篇論文有(you)100位作(zuo)者,任何(he)事情都有(you)可能發生。” “跨度這么(me)大(da)(da)的(de)涉嫌抄襲行(xing)(xing)為(wei),絕(jue)對不(bu)(bu)止涉及個別作(zuo)者。一(yi)小(xiao)部分作(zuo)者的(de)不(bu)(bu)當行(xing)(xing)為(wei),不(bu)(bu)應該被用來指(zhi)責(ze)大(da)(da)多(duo)數行(xing)(xing)為(wei)良(liang)好的(de)作(zuo)者。”
還有(you)(you)一些網(wang)友則直(zhi)接認為(wei),該文章(zhang)的(de)署(shu)名作(zuo)者(zhe)(zhe)“都(dou)有(you)(you)責(ze)任”。網(wang)友表(biao)示(shi),原則上(shang)來說,一篇文章(zhang)的(de)所(suo)有(you)(you)署(shu)名人員必須(xu):對研(yan)(yan)究(jiu)(jiu)(jiu)工作(zuo)的(de)思路(lu)或設(she)計有(you)(you)重(zhong)要貢獻,或者(zhe)(zhe)為(wei)研(yan)(yan)究(jiu)(jiu)(jiu)獲取、分析或解釋數(shu)據;起(qi)草研(yan)(yan)究(jiu)(jiu)(jiu)論文或者(zhe)(zhe)在重(zhong)要的(de)智力性內容上(shang)對論文進行修(xiu)改;對將要發(fa)表(biao)的(de)版本作(zuo)最終(zhong)定稿;同意對研(yan)(yan)究(jiu)(jiu)(jiu)工作(zuo)的(de)各個方面承擔責(ze)任以確保與論文任何(he)部分的(de)準確性或誠信有(you)(you)關的(de)問題得到(dao)恰當(dang)的(de)調(diao)查和解決。換(huan)句(ju)話說,其所(suo)有(you)(you)署(shu)名的(de)作(zuo)者(zhe)(zhe)都(dou)負有(you)(you)責(ze)任。
另外,還(huan)有部分媒體,對該事件可能(neng)對未來國(guo)內AI研(yan)究前景產(chan)生的負面(mian)影響表示擔(dan)心。有媒體撰文(wen)表示,該篇論文(wen)之(zhi)所以得到關(guan)注,正(zheng)是因(yin)為(wei)作者署名多(duo)達(da)100人(ren),且其中(zhong)(zhong)不乏國(guo)內AI業界和學(xue)界的知名學(xue)者,供職機(ji)構更是把中(zhong)(zhong)國(guo)知名高校和互聯網(wang)巨頭幾(ji)乎一網(wang)打盡(jin)。此(ci)次事件,或(huo)許(xu)會給中(zhong)(zhong)國(guo) AI 學(xue)術研(yan)究熱潮(chao)造成一定打擊(ji)。
不過,也有一(yi)些網友指出,作為(wei)(wei)世界上最大(da)的(de)預(yu)印(yin)本網站,arXiv上發(fa)表的(de)論文(wen)有“占(zhan)(zhan)坑”性質,誰的(de)論文(wen)在arXiv 掛(gua)的(de)早(zao),誰就擁有了這個(ge)論文(wen)的(de)權力,因此為(wei)(wei)了搶先占(zhan)(zhan)住idea,有些論文(wen)的(de)正規性欠缺打磨和(he)推(tui)敲(qiao),此次“論文(wen)抄襲事件”,在某種(zhong)程度上也反映出一(yi)些AI學術研究(jiu)機構本不應有的(de)急躁情(qing)緒,應引(yin)以為(wei)(wei)戒。