16篇文章组成的综述报告部分存问题：网友呼吁不应抹杀全部价值

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

16篇文章組成的綜述報告部分存問題：網友呼吁不應抹殺全部價值

作者 | 物聯網智庫2022-04-15

近日，一篇由國內外多位AI專家學者參與署名的論文，在國內人工智能（AI）學術圈里(li)引起了不小的震動(dong)。

這篇在(zai)今年3月26日發(fa)表于(yu)預(yu)印本網站(zhan) arXiv的(de)關于(yu)“大模型(xing)”的(de)綜述(shu)報(bao)告《大模型(xing)路線(xian)圖》（A Roadmap for Big Model），是由北京智(zhi)(zhi)源(yuan)人工智(zhi)(zhi)能(neng)研(yan)(yan)究院(yuan)（以下簡稱“智(zhi)(zhi)源(yuan)研(yan)(yan)究院(yuan)”，或(huo)“研(yan)(yan)究院(yuan)”）發(fa)起的(de)，旨在(zai)盡可能(neng)涵(han)蓋國內(nei)外該(gai)領域的(de)所有重要(yao)文獻。

據了(le)解，該報(bao)告由多(duo)達(da)(da)16篇(pian)獨立稿件組成(cheng)(cheng)，每篇(pian)文(wen)章都分(fen)別(bie)邀請了(le)一(yi)組作者撰寫并(bing)單獨署名，有(you)國內(nei)外多(duo)家高校(xiao)和(he)(he)企業(ye)參與了(le)該報(bao)告的完成(cheng)(cheng)，報(bao)告全文(wen)長(chang)達(da)(da)200多(duo)頁，涉及(ji)來自清華大(da)(da)學(xue)(xue)、北京大(da)(da)學(xue)(xue)、中國人(ren)民大(da)(da)學(xue)(xue)、上海交(jiao)通大(da)(da)學(xue)(xue)、哈爾濱工業(ye)大(da)(da)學(xue)(xue)、哥倫(lun)比亞大(da)(da)學(xue)(xue)、蒙(meng)特利爾大(da)(da)學(xue)(xue)等國內(nei)外高校(xiao)，以及(ji)字節跳(tiao)動、華為、京東、騰訊等企業(ye)以及(ji)中科院(yuan)、微(wei)軟亞洲研究院(yuan)和(he)(he)北京智源(yuan)AI研究院(yuan)等機構的100多(duo)名作者。

而谷歌(ge)大腦(nao)（Google Brain）團隊著名科學家(jia)Nicholas Carlini 在(zai)其近日(ri)的一篇博客中指出(chu)，該文章涉嫌抄襲。

Nicholas Carlini舉出(chu)的(de)證據是“大規模文(wen)本重(zhong)疊”，并(bing)在文(wen)章(zhang)中(zhong)詳細列舉了該團隊論(lun)文(wen)存在抄襲其他論(lun)文(wen)的(de)出(chu)處，其中(zhong)也包括他本人更早發(fa)布的(de)《去重(zhong)訓練數據使語言模型更好(hao)》（Deduplicating Training Data Makes Language Models Better）。

16篇文章組成的綜述報告部分存問題：網友呼吁不應抹殺全部價值

4月13日(ri)晚，該報(bao)告(gao)的(de)組織方——智源研(yan)究(jiu)(jiu)(jiu)院(yuan)連夜發表了《關(guan)于“A Roadmap for Big Model”綜述報(bao)告(gao)問題(ti)的(de)致(zhi)歉信》。在(zai)道歉信中，智源研(yan)究(jiu)(jiu)(jiu)院(yuan)首先明確表示，已(yi)對報(bao)告(gao)進(jin)(jin)(jin)行了逐項(xiang)核查，經查重確認，共16篇文(wen)章(zhang)(zhang)(zhang)中的(de)5篇文(wen)章(zhang)(zhang)(zhang)章(zhang)(zhang)(zhang)節，共759詞(ci)的(de)內(nei)容，與其他論(lun)文(wen)重復，應屬抄襲。智源研(yan)究(jiu)(jiu)(jiu)院(yuan)表示，已(yi)從報(bao)告(gao)中刪除相(xiang)應內(nei)容，報(bao)告(gao)修(xiu)訂版在(zai)13日(ri)當天，將提交(jiao)arXiv進(jin)(jin)(jin)行更新。目前，研(yan)究(jiu)(jiu)(jiu)院(yuan)已(yi)通知所(suo)有(you)文(wen)章(zhang)(zhang)(zhang)的(de)作者對所(suo)有(you)內(nei)容進(jin)(jin)(jin)行全面審(shen)查，后續經嚴格(ge)審(shen)核后再發布新版本。

該事件在(zai)國內(nei)AI學術社群中，也引發了不同(tong)的反響。

事(shi)件(jian)爆(bao)出后，盡管有很(hen)多網(wang)友(you)在(zai)第一時間(jian)發起(qi)群嘲(chao)，但(dan)也有一些(xie)網(wang)友(you)從客觀角度對事(shi)件(jian)進行了分(fen)析。首先(xian)，有來自AI學(xue)術圈的網(wang)友(you)表示，此次事(shi)件(jian)雖然屬于“抄襲(xi)”，但(dan)也并(bing)不是很(hen)多圈外人所想象的那種“抄襲(xi)”。

16篇文章組成的綜述報告部分存問題：網友呼吁不應抹殺全部價值

從性(xing)質(zhi)上看，“大(da)模型”一文(wen)屬(shu)于綜(zong)述(shu)報(bao)告，和一般(ban)意義上的科研論(lun)文(wen)相比(bi)，“綜(zong)述(shu)”是一種“總(zong)結”，資料來自(zi)文(wen)獻；而(er)“科研論(lun)文(wen)”的數(shu)據是由研究者通過科研設計，自(zi)己收集而(er)來。因(yin)此(ci)，綜(zong)述(shu)論(lun)文(wen)與科研論(lun)文(wen)無論(lun)從性(xing)質(zhi)上還是構成(cheng)上，都不(bu)可同(tong)日而(er)語。另(ling)外，本次(ci)被指(zhi)抄(chao)襲(xi)的報(bao)告由多達16篇文(wen)章構成(cheng)，且(qie)由不(bu)同(tong)組織機(ji)構分別獨立撰寫，因(yin)此(ci)為(wei)什(shen)么會出現所謂“抄(chao)襲(xi)”的原因(yin)，還需(xu)要進一步調查。

還有(you)網友表(biao)示，《大(da)(da)模(mo)(mo)型路線圖》的(de)(de)(de)(de)(de)內容涉及(ji)從“大(da)(da)模(mo)(mo)型”構建前提(ti)條件開始，到(dao)“大(da)(da)模(mo)(mo)型”應用結束的(de)(de)(de)(de)(de)全流程研究(jiu)工作(zuo)，為大(da)(da)模(mo)(mo)型發展的(de)(de)(de)(de)(de)歷史和應用流程梳理出(chu)了清(qing)晰的(de)(de)(de)(de)(de)脈絡，本來(lai)可以幫助讀(du)者更好(hao)理解“大(da)(da)模(mo)(mo)型”的(de)(de)(de)(de)(de)發展歷史和研究(jiu)現狀，對于大(da)(da)模(mo)(mo)型領域(yu)的(de)(de)(de)(de)(de)未來(lai)發展也能(neng)起到(dao)指引(yin)性(xing)的(de)(de)(de)(de)(de)作(zuo)用，原本應當是(shi)一篇極(ji)具價值的(de)(de)(de)(de)(de)研究(jiu)綜述，但目前由于抄襲事件，該文章(zhang)的(de)(de)(de)(de)(de)重要性(xing)恐(kong)怕要大(da)(da)打折(zhe)扣，這對于國內外大(da)(da)模(mo)(mo)型研究(jiu)，乃至人工智(zhi)能(neng)學術研究(jiu)來(lai)說，都不失為一件憾事。

有(you)網友表(biao)示，該(gai)報告是由“百名作者、16篇(pian)文章”組成的(de)(de)(de)綜述報告，是對大(da)量原始文獻的(de)(de)(de)歸納、總結、分析，再添(tian)加作者觀點而形(xing)成，但過多的(de)(de)(de)作者和機構參與，龐大(da)的(de)(de)(de)創(chuang)作團(tuan)隊(dui)規模顯(xian)然容易出現各種“難以(yi)預料的(de)(de)(de)問題”。

16篇文章組成的綜述報告部分存問題：網友呼吁不應抹殺全部價值

最初(chu)發(fa)起指控的(de)Nicholas Carlini本人近(jin)日(ri)也更新評(ping)論發(fa)出呼吁，“不(bu)要把這(zhe)變成一場獵巫(wu)行(xing)動。” Carlini在評(ping)論中表(biao)示，“這(zhe)篇論文有(you)100位作者(zhe)，任何事情都有(you)可能發(fa)生。” “跨度這(zhe)么大(da)(da)的(de)涉嫌抄襲行(xing)為(wei)(wei)，絕對不(bu)止涉及個別作者(zhe)。一小部分作者(zhe)的(de)不(bu)當行(xing)為(wei)(wei)，不(bu)應該被(bei)用來指責大(da)(da)多數行(xing)為(wei)(wei)良(liang)好的(de)作者(zhe)。”

16篇文章組成的綜述報告部分存問題：網友呼吁不應抹殺全部價值

還有一些網(wang)(wang)友(you)則(ze)直接認為，該文(wen)(wen)章的(de)(de)署名(ming)(ming)作(zuo)者“都有責(ze)(ze)任(ren)”。網(wang)(wang)友(you)表示，原則(ze)上來說，一篇文(wen)(wen)章的(de)(de)所(suo)(suo)有署名(ming)(ming)人(ren)員必須：對研究工作(zuo)的(de)(de)思路或(huo)設計有重要貢獻，或(huo)者為研究獲取、分(fen)析或(huo)解釋數據；起(qi)草研究論文(wen)(wen)或(huo)者在重要的(de)(de)智力性內容上對論文(wen)(wen)進行修(xiu)改；對將(jiang)要發表的(de)(de)版本(ben)作(zuo)最終(zhong)定稿；同意對研究工作(zuo)的(de)(de)各個方面承擔(dan)責(ze)(ze)任(ren)以確保(bao)與論文(wen)(wen)任(ren)何部分(fen)的(de)(de)準確性或(huo)誠信有關的(de)(de)問題(ti)得到恰當(dang)的(de)(de)調查和解決。換(huan)句(ju)話說，其所(suo)(suo)有署名(ming)(ming)的(de)(de)作(zuo)者都負有責(ze)(ze)任(ren)。

另外，還(huan)有部分媒(mei)體(ti)，對該事(shi)(shi)件可能對未來國內AI研(yan)究前景產生的(de)負面影(ying)響(xiang)表(biao)示擔(dan)心。有媒(mei)體(ti)撰文(wen)(wen)表(biao)示，該篇論(lun)文(wen)(wen)之所以得到關注(zhu)，正是因為作者(zhe)(zhe)署名(ming)多達100人，且其中(zhong)不乏國內AI業界和學界的(de)知(zhi)名(ming)學者(zhe)(zhe)，供職機(ji)構更是把(ba)中(zhong)國知(zhi)名(ming)高校和互聯(lian)網巨頭幾乎一網打(da)盡。此次事(shi)(shi)件，或許會(hui)給中(zhong)國 AI 學術研(yan)究熱潮造成(cheng)一定打(da)擊。

16篇文章組成的綜述報告部分存問題：網友呼吁不應抹殺全部價值

不過，也有(you)一些(xie)網(wang)友指出，作為世界上(shang)(shang)最大的(de)(de)(de)預印本網(wang)站，arXiv上(shang)(shang)發表(biao)的(de)(de)(de)論(lun)(lun)(lun)文(wen)(wen)(wen)有(you)“占(zhan)坑”性質，誰的(de)(de)(de)論(lun)(lun)(lun)文(wen)(wen)(wen)在(zai)arXiv 掛的(de)(de)(de)早(zao)，誰就(jiu)擁有(you)了這個(ge)論(lun)(lun)(lun)文(wen)(wen)(wen)的(de)(de)(de)權力，因此為了搶先占(zhan)住idea，有(you)些(xie)論(lun)(lun)(lun)文(wen)(wen)(wen)的(de)(de)(de)正規性欠缺打(da)磨和推(tui)敲，此次(ci)“論(lun)(lun)(lun)文(wen)(wen)(wen)抄襲事件”，在(zai)某種程度上(shang)(shang)也反映出一些(xie)AI學術研(yan)究機構本不應有(you)的(de)(de)(de)急(ji)躁情緒，應引以為戒(jie)。

沒有關鍵詞