生成式AI正在偷走你的数据

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

生成式AI正在偷走你的數據｜甲子光年

作者 | 甲子光年(nian)2023-08-16

作者|李晗朱悅

編輯|栗子

妙鴨相機火了。

無(wu)需高額的(de)(de)價格、無(wu)需耗時的(de)(de)定妝，只需要9.9元和20張個人照片，就可以利用AI生成媲美“海馬體”“天真藍”的(de)(de)精(jing)美照片。

憑(ping)借低廉(lian)的價(jia)格和較好的生成(cheng)效果，“妙鴨相機”一(yi)經推(tui)出(chu)便迅(xun)速出(chu)圈。

不過，這次出圈的不止是產(chan)品，還有當時近似“霸王條款(kuan)”的用戶協議。

據媒體報道，妙(miao)鴨(ya)相機初版(ban)用戶(hu)協議(yi)的“授(shou)權許(xu)可(ke)”條款頗具爭議(yi)。一句(ju)話就是：用戶(hu)授(shou)權妙(miao)鴨(ya)相機，無償且永久地(di)使用該信息。

圖片來源：網絡

“這樣操作，其實是國內無(wu)數軟(ruan)件、APP的默認選(xuan)項，但是正大光明地說(shuo)出來，可以說(shuo)‘有(you)恃無(wu)恐’了。”某互(hu)聯網(wang)數據(ju)信息(xi)安全企業(ye)負責人向「甲子光年」表示。

面對用(yong)戶的質疑，妙鴨相機很快修改了(le)相關條例，并在官(guan)方公眾號、小紅書等多個平臺(tai)發布(bu)了(le)道(dao)歉(qian)聲明(ming)，直言：已(yi)經收到用(yong)戶關于(yu)用(yong)戶協議(yi)的反饋，原協議(yi)內容有誤，已(yi)第一(yi)時間根(gen)據妙鴨的實(shi)際(ji)情況進行了(le)修改。“在這里鄭重地向大家承諾，您(nin)所(suo)上傳的照片(pian)只(zhi)會(hui)(hui)用(yong)于(yu)數字(zi)分身制作，不會(hui)(hui)提(ti)取也(ye)不會(hui)(hui)用(yong)于(yu)識別和其(qi)他用(yong)途(tu)，且(qie)分身制作完成后自動刪除。”

事(shi)實上，一(yi)直以來(lai)，“互聯網服務與(yu)數據安(an)全(quan)(quan)難以兩全(quan)(quan)”都是(shi)一(yi)個(ge)(ge)棘手的問(wen)題(ti)(ti)。妙鴨相(xiang)機用戶協(xie)議授(shou)權(quan)問(wen)題(ti)(ti)，僅僅是(shi)互聯網數據安(an)全(quan)(quan)問(wen)題(ti)(ti)的一(yi)個(ge)(ge)縮(suo)影(ying)。

長期專注(zhu)于數(shu)據(ju)合規(gui)領域，曾為多家境(jing)內外上市公司、知名企業提供(gong)數(shu)據(ju)合規(gui)服務(wu)的(de)北京植德(de)律師事務(wu)所(suo)合伙人(ren)王藝告(gao)訴「甲子光年」：“目前有較多因為‘AI換臉’軟件產(chan)生的(de)侵權案件，利用(yong)AI技(ji)術侵犯個人(ren)隱私數(shu)據(ju)的(de)案例(li)數(shu)量也在逐步上升。”

用戶處于被(bei)動位置，難以保(bao)障自身的數據安全(quan)，隱私(si)保(bao)護的無力感正(zheng)在從互聯網時期(qi)蔓延(yan)至AI時代(dai)。但顯而易見的是(shi)，在AI時代(dai)，企業(ye)對數據的爭奪更加激烈，用戶數據隱私(si)安全(quan)面臨(lin)的挑戰也(ye)更加嚴(yan)峻。

大模型訓練不僅離不開豐富(fu)的數據集，也愈加需要高質(zhi)量的數據;由于涉及到(dao)人(ren)與AI的交互，用戶的個人(ren)信息權利難(nan)以響應，技術(shu)開發者、服務提供(gong)者也面臨著潛(qian)在的合規風險。

當老生常談(tan)的(de)問題遇上新的(de)技(ji)術變革，大模(mo)型時代又將(jiang)打(da)響怎樣的(de)數(shu)據安全保衛(wei)戰?

在(zai)創新與(yu)安全的平(ping)衡(heng)中，法律規范、企業自治、數據安全技術正在(zai)給出它們的答案。

1.大模型時代，數據安全的新挑戰

數據，是AI發展的養料。人們在輕而易舉獲取數據的同時，對數據安全的討論也此起彼伏。

2013年(nian)，線上辭典Dictionary.com將(jiang)“Privacy(隱(yin)私)”選為當年(nian)的年(nian)度(du)詞匯。彼時美國政(zheng)府棱鏡計(ji)劃被曝光、谷(gu)歌修改隱(yin)私協(xie)議以整合旗下(xia)各服務(wu)用戶數(shu)(shu)據，個人(ren)隱(yin)私成為數(shu)(shu)據安全中關注度(du)最高、涉及人(ren)群最廣的方面。

相較(jiao)于互(hu)聯(lian)網(wang)對用戶上網(wang)習慣、消費記錄等信(xin)(xin)息的(de)覆蓋(gai)，人(ren)(ren)臉識別(bie)、智能設備、AI換臉等AI應用的(de)出現，對用戶個人(ren)(ren)信(xin)(xin)息的(de)采集范圍大幅(fu)擴大，包括人(ren)(ren)臉、指紋、聲(sheng)紋、虹(hong)膜、心跳、基(ji)因等強個人(ren)(ren)屬(shu)性的(de)生物特征信(xin)(xin)息。

2017年(nian)，中(zhong)國第一例利(li)用AI侵(qin)犯公民(min)個人(ren)(ren)信息案(an)犯罪在浙江(jiang)紹興(xing)破獲(huo)，其中(zhong)超10億條公民(min)個人(ren)(ren)信息被非法獲(huo)取。

360集團首席安全官杜躍進此前接受「甲子光年」采訪時就曾表示：“人工智能和(he)大數據的(de)安全必須放在一起看(kan)。”

生成式(shi)AI、大模型的出現，對數據(ju)提出了前(qian)所(suo)未(wei)有的要(yao)求，也(ye)隨之帶來(lai)了更加(jia)突出的數據(ju)安全問(wen)題。

在(zai)大模型的(de)訓練數據(ju)量(liang)上，以(yi)OpenAI的(de)GPT模型為例：GPT-1預訓練數據(ju)量(liang)僅(jin)為5GB;到了(le)GPT-2，數據(ju)量(liang)已經(jing)增加(jia)至(zhi)40GB;而GPT-3的(de)數據(ju)量(liang)已經(jing)直接飛升至(zhi)45TB(相當(dang)于GPT-2數據(ju)量(liang)的(de)1152倍)。

市場逐漸凝成這樣(yang)的共識：得數據者(zhe)得天下，數據是大模型競爭的關鍵(jian)。

頂象安全專(zhuan)家告訴「甲子光年」：“模型需要數據(ju)(ju)來訓(xun)練。數據(ju)(ju)除了自己(ji)采集，就是(shi)爬蟲爬取。爬取的(de)數據(ju)(ju)大(da)部(bu)分沒有(you)經過數據(ju)(ju)所有(you)者允許，可(ke)以說大(da)部(bu)分是(shi)非(fei)授權的(de)盜用。”

2022年(nian)11月，OpenAI和GitHub一起推(tui)出(chu)的代(dai)碼助手Copilot就曾被程(cheng)序員們告(gao)上法庭(ting)。原告(gao)們認(ren)為(wei)，Copilot在未獲(huo)得GitHub用(yong)戶授權的情況下，使(shi)用(yong)了(le)公共存(cun)儲庫進行訓練。

在今年6月(yue)，OpenAI同(tong)樣(yang)因為未經允許使用個(ge)人隱(yin)私數據收到(dao)了(le)一份長達157頁(ye)的訴訟書(shu)。

除(chu)了模(mo)型的(de)訓(xun)練階段，在(zai)模(mo)型的(de)實(shi)際(ji)應用階段中，個人隱私泄(xie)露的(de)風險持續存在(zai)。

頂象安全專家(jia)告訴「甲(jia)子光年」，生(sheng)(sheng)成式AI不(bu)僅(jin)僅(jin)泄露人的(de)(de)(de)隱私和秘密，甚(shen)至會讓人變得透(tou)明(ming)。“就跟《三體(ti)》中的(de)(de)(de)智子一樣，提問者說的(de)(de)(de)話會被(bei)記錄下來，生(sheng)(sheng)產(chan)生(sheng)(sheng)活產(chan)生(sheng)(sheng)的(de)(de)(de)數(shu)據信息會成為(wei)AIGC訓練的(de)(de)(de)素材。”

早在2020年，人(ren)們就發現OpenAI的(de)(de)(de)GPT-2會透露訓(xun)練數據(ju)中的(de)(de)(de)個人(ren)信息。隨后的(de)(de)(de)調查發現，語言模型越(yue)大，隱私信息泄(xie)露的(de)(de)(de)概率也越(yue)高(gao)。

今年3月，多名ChatGPT用(yong)戶在(zai)自己的歷史對話中看到了他人(ren)的對話記錄，包括用(yong)戶姓名、電子郵(you)件地(di)址、付(fu)款(kuan)地(di)址、信用(yong)卡號后四位以及信用(yong)卡有效期。

不到一個月(yue)之后，三(san)星(xing)電(dian)子就因員工使用(yong)ChatGPT，被迫面臨三(san)起數據泄露事故：其半導體設備(bei)測量、良品/缺陷率、內部會議內容等(deng)(deng)相關信息被上傳到了ChatGPT的(de)服(fu)務器中。隨后，三(san)星(xing)立即(ji)禁止員工在公(gong)司設備(bei)及(ji)內網上使用(yong)類ChatGPT的(de)聊(liao)天機(ji)器人(ren)，同樣禁用(yong)的(de)公(gong)司還包(bao)括(kuo)蘋果、亞馬遜、高(gao)盛等(deng)(deng)世界500強公(gong)司。

觀韜中茂律師事務所發布的(de)(de)《生成式(shi)AI發展(zhan)與監管(guan)白皮書(三)》解釋了大模型在應用(yong)上(shang)的(de)(de)特殊性。大模型與人之(zhi)間的(de)(de)交互，不同(tong)于(yu)(yu)一(yi)般應用(yong)程序(xu)中填入式(shi)的(de)(de)收集個人信(xin)(xin)息(xi)方(fang)式(shi)，所以對于(yu)(yu)個人信(xin)(xin)息(xi)的(de)(de)披露(lu)也不同(tong)于(yu)(yu)往常意義上(shang)的(de)(de)“公開(kai)披露(lu)”，更類似(si)于(yu)(yu)一(yi)種“被動公開(kai)”，即(ji)當某個用(yong)戶的(de)(de)真實個人信(xin)(xin)息(xi)被摘錄在語料庫后，之(zhi)后任(ren)意用(yong)戶通過詢問等方(fang)式(shi)均可以得(de)知(zhi)相關個人信(xin)(xin)息(xi)。

這意味著，在(zai)大模型時代，不僅個人(ren)信(xin)息(xi)泄露的(de)(de)范圍(wei)擴大了，個人(ren)信(xin)息(xi)的(de)(de)采(cai)集(ji)過程也變得(de)更為隱秘，難以辨(bian)認，而(er)且一旦侵權，就(jiu)是對(dui)大量用戶造成的(de)(de)侵權。那么(me)，泄露之后的(de)(de)個人(ren)信(xin)息(xi)去向了哪(na)里?究竟會對(dui)用戶造成什么(me)影響?

北京植德律師事務(wu)所合伙人王藝告(gao)訴了「甲子(zi)(zi)光(guang)年」答案。他表(biao)示，生成(cheng)式AI造(zao)成(cheng)的(de)個(ge)人信息(xi)泄露(lu)，輕(qing)則(ze)可能侵害他人的(de)肖像權(quan)，為造(zao)謠(yao)者實(shi)施便利，重則(ze)可能被犯罪分(fen)子(zi)(zi)利用，實(shi)施犯罪。

頂(ding)象的(de)安(an)全專家(jia)也表示，在所有(you)(you)互聯網產品或軟件(jian)都有(you)(you)可能被植入AI元素的(de)當下，AI濫(lan)用帶來(lai)(lai)(lai)的(de)社會問題會越來(lai)(lai)(lai)越多。“造假會更簡單，眼見不(bu)一定為實(shi)，電信(xin)詐騙、網絡(luo)詐騙越來(lai)(lai)(lai)越復雜。”

2023年5月(yue)，安全技術公司邁克(ke)菲對(dui)來(lai)自七(qi)個國家(jia)的(de)7054人(ren)進行了調查(cha)，發(fa)現有四分之一(yi)的(de)成(cheng)年人(ren)經歷過某(mou)種形式的(de)AI語音詐(zha)騙(10%發(fa)生在自己(ji)身上(shang)，15%發(fa)生在他們認識的(de)人(ren)身上(shang))，10%的(de)受(shou)害者因此造成(cheng)經濟損失(shi)。

「甲子光年」從慧科數據(ju)庫、公開報道中發現，今年以來全國各地發現利用AI技術竊取個(ge)人(ren)隱私(si)進(jin)行詐騙的(de)案例(li)至(zhi)少有14例(li)。

其中，大多數案例通過視頻聊(liao)天與(yu)受害者(zhe)進行聯系，逼(bi)真的人臉和聲音(yin)容易讓(rang)人們放下(xia)警惕，冒充朋友、親人也迅速讓(rang)受害者(zhe)交與(yu)信任(ren)。詐(zha)(zha)騙金額(e)(e)多在萬元以上，最高被(bei)詐(zha)(zha)騙金額(e)(e)甚至高達430萬元。

數據來源(yuan)：慧科新聞數據庫，綜合媒體(ti)報道

除此之外，通過“AI換臉”造(zao)成(cheng)肖像(xiang)權(quan)被侵犯的(de)案(an)(an)件(jian)也(ye)屢見不鮮。王藝表(biao)示(shi)，雖然此類案(an)(an)件(jian)的(de)數量(liang)在逐步上升，但由(you)于隱蔽性(xing)強，且是微型侵權(quan)，很多案(an)(an)例都(dou)沒(mei)有走上法(fa)庭，即使進(jin)行了法(fa)院(yuan)審判，得(de)到(dao)的(de)賠償金額(e)也(ye)并不高。

可以說(shuo)，普通人在面對(dui)利用AI技術進行的個人隱私(si)侵權面前，其實并沒有太多的辦法。

2.嚴苛的立法態度不是監管的唯一解法

技(ji)術發展(zhan)與法律監管總是(shi)并駕(jia)齊驅(qu)的(de)(de)。如果(guo)說數據安全已(yi)經成為人(ren)工(gong)智(zhi)能時代(dai)的(de)(de)必答(da)題，法律與監管便是(shi)解答(da)的(de)(de)關鍵。

今(jin)年(nian)(nian)4月，斯坦(tan)福大學以人(ren)(ren)為本人(ren)(ren)工智能(neng)研究所(Stanford HAI)發布了《2023年(nian)(nian)人(ren)(ren)工智能(neng)指(zhi)數報告(gao)》(Artificial Intelligence Index Report 2023)報告(gao)。通過對(dui)127個(ge)(ge)國(guo)(guo)家的(de)立法(fa)(fa)記錄(lu)調研，報告(gao)顯示，包含“人(ren)(ren)工智能(neng)”法(fa)(fa)案通過的(de)數量，從2016年(nian)(nian)的(de)1個(ge)(ge)增長到(dao)2022年(nian)(nian)的(de)37個(ge)(ge)。在對(dui)81個(ge)(ge)國(guo)(guo)家涉及人(ren)(ren)工智能(neng)的(de)議會記錄(lu)進(jin)行分(fen)析后，研究人(ren)(ren)員發現全球立法(fa)(fa)程(cheng)序中提及人(ren)(ren)工智能(neng)的(de)次數自2016年(nian)(nian)以來增加了近6.5倍。

區(qu)別(bie)于信息剽竊、隱私侵犯等“老(lao)生(sheng)常談”的數(shu)據(ju)安(an)全問(wen)題，由(you)于涉及到(dao)人與(yu)AI的交互，大模型時代數(shu)據(ju)安(an)全面臨著更為(wei)迫(po)切的難(nan)題——個人信息權利響應難(nan)以落(luo)實。

如何精(jing)準識別(bie)交互過(guo)程中收集的個人(ren)信(xin)息?如何劃清用(yong)戶(hu)服務與(yu)模型訓練的使用(yong)界限?面(mian)對全(quan)(quan)(quan)新(xin)的數據(ju)安全(quan)(quan)(quan)、個人(ren)信(xin)息安全(quan)(quan)(quan)、網(wang)絡安全(quan)(quan)(quan)難題，大模型時(shi)代亟須新(xin)的監管辦法出臺(tai)。

2023年7月13日(ri)，中國(guo)網信辦發布《生成式人(ren)工智能(neng)(neng)服務管理暫行辦法》(下文(wen)簡(jian)稱(cheng)《暫行辦法》，2023年8月15日(ri)施(shi)行)，明(ming)確規定了生成式人(ren)工智能(neng)(neng)服務提供者(zhe)的服務規范。

在涉及(ji)個人信息安全的相(xiang)關條(tiao)例中(zhong)，《暫(zan)行(xing)辦(ban)法》規定：

第(di)九條提供者(zhe)應當依法(fa)承(cheng)擔網絡(luo)信息(xi)內(nei)容生產者(zhe)責任，履行網絡(luo)信息(xi)安全義務。涉及個人信息(xi)的，依法(fa)承(cheng)擔個人信息(xi)處理(li)者(zhe)責任，履行個人信息(xi)保護義務。

提供者(zhe)應當與注(zhu)冊(ce)其(qi)服務的生(sheng)成式(shi)人工(gong)智能服務使(shi)用者(zhe)(以下稱(cheng)使(shi)用者(zhe))簽訂服務協議，明確雙(shuang)方權利義(yi)務。

第十(shi)一(yi)條提供(gong)者對使(shi)(shi)用者的輸入(ru)信息和使(shi)(shi)用記錄(lu)應(ying)當依(yi)法(fa)履行保(bao)護義務，不得(de)收集非(fei)必要個人(ren)(ren)信息，不得(de)非(fei)法(fa)留存能夠識別使(shi)(shi)用者身份的輸入(ru)信息和使(shi)(shi)用記錄(lu)，不得(de)非(fei)法(fa)向他(ta)人(ren)(ren)提供(gong)使(shi)(shi)用者的輸入(ru)信息和使(shi)(shi)用記錄(lu)。

提供者應當依法及時受理(li)和(he)處理(li)個人關于查(cha)閱、復制(zhi)、更正、補充、刪除其個人信息(xi)等的請(qing)求。

隨著管理細(xi)則逐步落實、施行日(ri)期臨近，多(duo)(duo)家服(fu)務(wu)提供商也在開展自(zi)檢自(zi)查。據了解，由(you)于數據采集和使用(yong)環節(jie)不夠(gou)規范，蘋果應(ying)用(yong)商店已(yi)經下架(jia)了多(duo)(duo)款AIGC相關軟件。數據規范的緊迫性可見一斑。

除了數據安全外，對技術的(de)監管不可(ke)避免(mian)地涉及“發展與(yu)監管”之間(jian)的(de)矛盾。北京(jing)植德律(lv)師事務(wu)所合(he)伙人王藝告(gao)訴「甲(jia)子光年」：“如何處理(li)二者之間(jian)的(de)矛盾，是不同國家的(de)戰略選擇。”

相較于4月11日發布的《生(sheng)成式人(ren)工智能服務(wu)管理(li)辦法(fa)(征求意(yi)見稿(gao))》(下(xia)文簡稱《征求意(yi)見稿(gao)》)，《暫行辦法(fa)》做出(chu)了較大改動。

《暫行(xing)辦法》刪除了對研發主(zhu)體的(de)監管要(yao)求(qiu)，將(jiang)《征求(qiu)意(yi)見稿》中將(jiang)強制(zhi)性的(de)“生成(cheng)內容應當真(zhen)實準確(que)”修改(gai)為非強制(zhi)性的(de)“提高生成(cheng)內容的(de)準確(que)性和可靠性”，并補充要(yao)求(qiu)提升(sheng)生成(cheng)式人(ren)工(gong)智(zhi)能服務的(de)透(tou)明度。

“監管部門對(dui)《征求意見稿》的(de)很多(duo)條款進行了(le)刪除或者松綁。從立法前后稿子的(de)變(bian)化，可以(yi)看出我國還是以(yi)發展為先(xian)的(de)。”王藝說道。

在監管(guan)和發(fa)展(zhan)平衡中，此次條例的(de)修改(gai)不無道理。因為(wei)立(li)法(fa)監管(guan)并非是一蹴而就的(de)，過于嚴苛的(de)立(li)法(fa)態(tai)度可(ke)能會成為(wei)技術發(fa)展(zhan)的(de)掣肘。在歐洲，部分技術從業(ye)者就該問題表達了擔憂。

ChatGPT推出后，歐洲國(guo)(guo)家(jia)對OpenAI的(de)監(jian)管逐(zhu)步加緊。意大利宣布禁用ChatGPT后，出于數據保護的(de)考慮(lv)，德國(guo)(guo)、法國(guo)(guo)、西(xi)班牙等(deng)國(guo)(guo)家(jia)也表示正在考慮(lv)對AI聊天機(ji)器人(ren)采取(qu)更嚴格的(de)監(jian)管。

6月14日(ri)，歐盟通過的(de)《人工智(zhi)能法(fa)案》最新草(cao)案，也(ye)貫徹了以往(wang)嚴苛的(de)立法(fa)態度(du)。法(fa)案對于(yu)“基礎模型”或經過大(da)量數(shu)據訓練的(de)強大(da)AI系統，明(ming)確(que)規定了透明(ming)度(du)和風險評估要求，包括在AI技術(shu)投入日(ri)常(chang)使(shi)用之前進行風險評估等(deng)。

對風(feng)(feng)險的(de)(de)猜想(xiang)是(shi)否高于實際?歐盟嚴苛的(de)(de)立法態度招致了歐洲風(feng)(feng)投公(gong)司和科技公(gong)司的(de)(de)許(xu)多(duo)不滿。

6月30日，歐洲各地的主要科技(ji)公(gong)司(si)創始(shi)人(ren)、首席執行官、風險(xian)投資家等(deng)150家企業高(gao)管共同簽署了一封(feng)致歐盟委員(yuan)會的公(gong)開信(xin)，警(jing)告歐盟法律草案中對人(ren)工智能的過度監(jian)管。

“想要將(jiang)生(sheng)成式人工(gong)智(zhi)(zhi)能(neng)的(de)(de)(de)監管納(na)入法(fa)律并以嚴格(ge)的(de)(de)(de)合規邏輯進行，這種方法(fa)是官僚主義的(de)(de)(de)，因為它無法(fa)有(you)效地實現(xian)其目(mu)的(de)(de)(de)。在(zai)我們(men)對真(zhen)正的(de)(de)(de)風險(xian)(xian)、商業模式或生(sheng)成人工(gong)智(zhi)(zhi)能(neng)的(de)(de)(de)應(ying)用知之(zhi)甚少的(de)(de)(de)情況下，歐洲法(fa)律應(ying)該僅限于以基于風險(xian)(xian)的(de)(de)(de)方法(fa)闡述廣泛(fan)的(de)(de)(de)原則。”公開信(xin)中指出，該立法(fa)草案將(jiang)危及(ji)歐洲的(de)(de)(de)競爭力和技術主權(quan)，而(er)無法(fa)有(you)效解決我們(men)現(xian)在(zai)和未(wei)來可能(neng)要面臨的(de)(de)(de)挑戰(zhan)。

無獨有偶，日本一名官員此前也表示，日本更傾向于采用比歐盟更寬松的規則來管理AI，因為日本希望利用該技術促進經濟增長，并使其成為先進芯片的領導者。

“一項新技術從研發到(dao)進(jin)入市場，再到(dao)融(rong)入社會生產、生活，產生風(feng)(feng)險是難以避免的，不能因為風(feng)(feng)險而放棄新技術的研發和應用。理想目標應是把風(feng)(feng)險最(zui)小化(hua)，把技術獲利最(zui)大化(hua)。”頂象的安全專家告訴「甲子光年」。

上述(shu)受訪(fang)者繼續說道，歐盟(meng)在(zai)(zai)規范(fan)AI問題上下手早，但其過度(du)監(jian)管也限制了相(xiang)關市場的發(fa)展(zhan)，造成歐盟(meng)數(shu)字產(chan)業的發(fa)展(zhan)速度(du)落后于全球。在(zai)(zai)全球技術主權激(ji)烈競爭(zheng)的背景下，立(li)法與(yu)監(jian)管政策需要(yao)保持(chi)謹慎思考，在(zai)(zai)治理與(yu)發(fa)展(zhan)之間做好(hao)平衡，在(zai)(zai)方便企業抵(di)御AI倫理風險(xian)的同時，為企業、行業以及相(xiang)關產(chan)業提供充分的發(fa)展(zhan)空(kong)間。

“不(bu)發(fa)(fa)展(zhan)是(shi)最大的(de)不(bu)安全(quan)。”嚴(yan)苛(ke)的(de)立法(fa)態(tai)度不(bu)是(shi)監管政策的(de)唯一解法(fa)，企業和立法(fa)者也不(bu)應該(gai)是(shi)矛盾(dun)雙方，而是(shi)謀求數據安全(quan)與(yu)技術(shu)發(fa)(fa)展(zhan)的(de)同路人(ren)。

以美國(guo)為例，谷歌、微(wei)(wei)軟(ruan)(ruan)(ruan)、OpenAI等科技(ji)巨(ju)頭也在主動構建安全屏(ping)障。7月21日，谷歌、微(wei)(wei)軟(ruan)(ruan)(ruan)、OpenAI、Meta在內的(de)7家(jia)AI公司參(can)與白宮峰會(hui)，并(bing)就AI技(ji)術和(he)研發(fa)的(de)安全、透明、風險等問題作出(chu)“八大承(cheng)諾”。7月26日，微(wei)(wei)軟(ruan)(ruan)(ruan)、谷歌、OpenAI、Anthropic四家(jia)AI科技(ji)巨(ju)頭宣布成立行業組(zu)織(zhi)——“前(qian)沿(yan)模型論壇”(Frontier Model Forum)，來確保前(qian)沿(yan)AI開發(fa)的(de)安全和(he)負責(ze)。

8月3日，我國網信辦發布關(guan)于《個(ge)(ge)人信息(xi)(xi)保護(hu)(hu)合規審計(ji)管理辦法(fa)(征(zheng)求(qiu)意見稿)》也進一(yi)步細化(hua)落實了(le)《個(ge)(ge)人信息(xi)(xi)保護(hu)(hu)法(fa)》中個(ge)(ge)人信息(xi)(xi)處理者合規審計(ji)的相關(guan)要求(qiu)，進一(yi)步完善了(le)我國個(ge)(ge)人信息(xi)(xi)處理者自(zi)我規制。

面(mian)對(dui)尚(shang)未確定的(de)(de)技(ji)術生(sheng)態，技(ji)術開發(fa)者、服(fu)(fu)務提(ti)供(gong)者都面(mian)臨著(zhu)潛在的(de)(de)合(he)規風險。只有明確了合(he)法獲取的(de)(de)路徑(jing)和規章(zhang)底(di)線，大模型(xing)訓(xun)練者、服(fu)(fu)務提(ti)供(gong)者才能放下戒(jie)備，在更大的(de)(de)空(kong)間施展拳腳(jiao)。

站在技(ji)術變革的十字路口(kou)，如何平衡好數(shu)據安全(quan)與技(ji)術發展(zhan)的需求，制定(ding)出(chu)更為系(xi)統、更具針對性的監管細(xi)則(ze)，也是對各國立(li)法者的新考驗(yan)。

3.在創新與安全之間，如何平衡?

“監(jian)管，如果不向前邁進，就會面(mian)臨人工智(zhi)能被濫用(yong)的(de)(de)風險(xian);如果倉促(cu)行事，就有導致行業(ye)陷入困境的(de)(de)危(wei)機。”

7月25日，Anthropic聯合創始人(ren)兼CEO Dario Amodei、加州大學(xue)伯克(ke)利(li)分(fen)校(xiao)教授(shou)Stuart Russell和(he)蒙特(te)利(li)爾大學(xue)教授(shou)Yoshua Bengio出(chu)席美國參(can)議(yi)院司法委(wei)員(yuan)會(hui)(hui)舉(ju)行的(de)人(ren)工智能聽(ting)證會(hui)(hui)。在會(hui)(hui)議(yi)上(shang)，他們一致達成這樣的(de)觀點：AI需要監管，但過猶不及。

面對大(da)模型對隱私數據的挑(tiao)戰，在創新與安全的博弈之間(jian)，我們還有(you)哪些解法?

加強數據安全(quan)保護(hu)可能是(shi)最容易想到(dao)的(de)答案。360集(ji)(ji)團首席安全(quan)官杜(du)躍進此前(qian)接受「甲子光年(nian)」采訪時曾表示：“數據安全(quan)不應該關注(zhu)采集(ji)(ji)了什么，而應該關注(zhu)采集(ji)(ji)的(de)數據是(shi)怎么用的(de)，怎么保護(hu)的(de)。”

隱(yin)私計(ji)算(suan)成為近(jin)些年數據隱(yin)私保(bao)護的技(ji)術(shu)最優解。與傳統的加密(mi)技(ji)術(shu)相比，隱(yin)私計(ji)算(suan)可(ke)以(yi)在不泄露原始數據的前提下對數據進行分析計(ji)算(suan)，實現(xian)數據的共享、互通、計(ji)算(suan)和建模(mo)。

讓數據變得“可用不可見”，也就規避(bi)了(le)個人數據泄露或不當(dang)使用的風險(xian)。這項技術目前已經(jing)在醫療、金融、政府等(deng)對數據高度敏(min)感的領域內相繼(ji)落地。

在大(da)模(mo)型時代，隱私(si)計算(suan)也同(tong)樣適用。中國信通院云計算(suan)與大(da)數據研究所(suo)副主任閆樹在7月的(de)兩次活動上都表達了這樣的(de)觀點，隱私(si)計算(suan)可以滿足(zu)大(da)模(mo)型預測階段的(de)隱私(si)保護需求。

具體來(lai)說，隱私計(ji)(ji)算(suan)的不(bu)同路線，包括可信執行(xing)(xing)環境(TEE) 、多方安全計(ji)(ji)算(suan)(MPC)等都可以與大模型進(jin)行(xing)(xing)結合(he)，“比(bi)如在(zai)(zai)云端(duan)部(bu)署TEE ，用(yong)(yong)戶在(zai)(zai)推理時將輸(shu)入數據加密傳輸(shu)至云端(duan)，在(zai)(zai)其(qi)內部(bu)解密然后進(jin)行(xing)(xing)推理;還(huan)有在(zai)(zai)模型推理階(jie)段使(shi)用(yong)(yong)多方安全計(ji)(ji)算(suan)來(lai)提升隱私保護能力”。但值(zhi)得注意(yi)的是(shi)，隱私計(ji)(ji)算(suan)也(ye)不(bu)可避免(mian)會(hui)對(dui)模型訓練和(he)推理的性能造成影響。

除(chu)了加強數據(ju)安全(quan)保護之外，還有一種可以從數據(ju)源頭(tou)上解決隱私安全(quan)問題(ti)的方法——合(he)成數據(ju)。

合(he)成數據(ju)指通過AI技術和算法模型，基(ji)于真實數據(ju)樣本生(sheng)成虛擬(ni)數據(ju)，因此也不(bu)存在(zai)用戶的(de)個人隱私信息。

隨著大模型的火(huo)熱，合成數據也越(yue)來越(yue)受到關注，保護(hu)隱私就(jiu)是合成數據研(yan)究背后強有(you)力的驅動力之一。

“合(he)成數(shu)據解決了三個挑戰(zhan)——質量、數(shu)量和隱私(si)。”合(he)成數(shu)據平臺Synthesis AI的(de)(de)創始人兼CEO Yashar Behzadi接受(shou)科技(ji)媒體《VentureBeat》采訪時(shi)表示：“通過(guo)使用合(he)成數(shu)據，公(gong)司可以明確定義所需要的(de)(de)訓練數(shu)據集，可以在最大程度上減少數(shu)據偏差并確保包容性，不會侵犯用戶的(de)(de)隱私(si)。”

OpenAI聯合創始人兼CEO Sam Altman同樣(yang)也(ye)看好(hao)合成數據。

根據英國(guo)《金(jin)融時報》報道，5月在倫(lun)敦舉行的(de)一(yi)次活動上(shang)，Sam Altman被(bei)問及(ji)是(shi)否擔心監管(guan)部門對ChatGPT潛(qian)在隱私侵犯的(de)調查，他并(bing)沒(mei)有(you)特別(bie)在意，而是(shi)認為(wei)(wei)“非常有(you)信心所有(you)的(de)數據很快會成為(wei)(wei)合成數據”。

在合成(cheng)數據方面，微(wei)軟在今年更是動(dong)作頻頻。5月，微(wei)軟在論文《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》中(zhong)描述(shu)了一個由GPT-4生(sheng)(sheng)成(cheng)的(de)短篇(pian)小說合成(cheng)數據集TinyStories，其中(zhong)只(zhi)包含了四(si)歲兒(er)童可以(yi)理(li)解的(de)單詞，用它來訓(xun)練簡單的(de)大語(yu)言模型，也能夠生(sheng)(sheng)成(cheng)出流暢且語(yu)法正確的(de)故事。

6月，微軟在(zai)發布(bu)的(de)論(lun)文《Textbooks Are All You Need》中論(lun)證，AI可以使用合(he)成的(de)Python代(dai)碼進行(xing)訓練，并(bing)且這些代(dai)碼在(zai)編(bian)程任務上(shang)表現得相當不錯(cuo)。

在AI的圈(quan)子內，通過合(he)成(cheng)數(shu)據進行(xing)大模型的訓(xun)練早已見怪不怪。全球IT研究(jiu)與(yu)咨詢(xun)機(ji)構Gartner預測(ce)，2030年，合(he)成(cheng)數(shu)據的體量(liang)將遠超真實數(shu)據，成(cheng)為AI研究(jiu)的主要數(shu)據來源。

在技術(shu)之外(wai)，數(shu)據(ju)市場也在漸漸明朗。北京植德律師事務所(suo)合伙人王藝向「甲子光年」介紹，目前已經有數(shu)據(ju)交易所(suo)建立了語料庫專區，并為(wei)相(xiang)關語料數(shu)據(ju)產品掛牌(包括文(wen)本、音頻、圖像等多模態，覆蓋金融、交通運輸(shu)和(he)醫療等領域)，方便技術(shu)提(ti)供(gong)者和(he)服務提(ti)供(gong)者合作采購。

在王(wang)藝(yi)看來(lai)，大模型數(shu)(shu)(shu)(shu)據的(de)合法(fa)合規，需要生成式(shi)AI服務提供(gong)者首先做好數(shu)(shu)(shu)(shu)據分(fen)(fen)類(lei)分(fen)(fen)級(ji)，區分(fen)(fen)不同(tong)(tong)數(shu)(shu)(shu)(shu)據類(lei)型，如個人數(shu)(shu)(shu)(shu)據、商業數(shu)(shu)(shu)(shu)據、重要數(shu)(shu)(shu)(shu)據等(deng)，并根據這些不同(tong)(tong)數(shu)(shu)(shu)(shu)據的(de)使用方式(shi)，找(zhao)到對應的(de)法(fa)律，分(fen)(fen)別開展數(shu)(shu)(shu)(shu)據來(lai)源合法(fa)性(xing)的(de)審查工作。

而在(zai)(zai)監(jian)管方面，為了平(ping)衡好數(shu)據安全(quan)(quan)和(he)AI的發(fa)展(zhan)，王(wang)藝(yi)表示，對(dui)AI的監(jian)管需要(yao)有(you)主次(ci)之分：重點(dian)在(zai)(zai)應用層(ceng)的監(jian)管，尤其是內(nei)容監(jian)管和(he)個人信息安全(quan)(quan);其次(ci)是基礎(chu)層(ceng)和(he)模型層(ceng)的監(jian)管，對(dui)于相關深度合(he)成算法(fa)要(yao)督促其及(ji)時(shi)完成備案;再次(ci)是要(yao)關注技術本身的主體是否涉(she)及(ji)境外，可能會存在(zai)(zai)數(shu)據出境、出口(kou)管制(zhi)等問題。

每一次技術產生(sheng)變革的時期(qi)，期(qi)待(dai)和恐懼總是如影(ying)隨形，發展和監(jian)管的呼(hu)聲向來不相(xiang)上下。

目前(qian)大(da)模型(xing)的(de)(de)發展還在早期，應(ying)用(yong)層的(de)(de)爆發尚未實現(xian)，但AI不會停(ting)下腳步，如何(he)把控前(qian)行的(de)(de)方向，如何(he)平(ping)衡安全與創新，或許(xu)是AI發展歷程(cheng)中(zhong)持續伴(ban)隨(sui)的(de)(de)命題。

(封面圖由(you)Midjourney生成)

生成式AI