作者|李晗 朱悅
編輯|栗子
妙鴨相機火了。
無需(xu)高額的(de)價(jia)格、無需(xu)耗時(shi)的(de)定(ding)妝(zhuang),只需(xu)要(yao)9.9元和20張個人照片(pian),就可以利用AI生成媲美(mei)“海馬體”“天真藍”的(de)精美(mei)照片(pian)。
憑(ping)借低廉(lian)的價格和(he)較好的生成效果,“妙鴨相機(ji)”一經推出便迅速出圈。
不(bu)過,這次出圈的(de)(de)不(bu)止是產品(pin),還有當時近似“霸王條款”的(de)(de)用戶協議。
據媒體(ti)報道,妙(miao)鴨(ya)相機初版用(yong)戶(hu)協議的“授權許可”條款(kuan)頗具爭(zheng)議。一句話(hua)就是:用(yong)戶(hu)授權妙(miao)鴨(ya)相機,無(wu)償(chang)且(qie)永久地使用(yong)該信息。
圖片來源:網絡
“這樣操作,其實(shi)是國內無(wu)數軟件、APP的默認選(xuan)項,但是正大(da)光明地說出(chu)來,可以說‘有恃無(wu)恐’了(le)。”某(mou)互(hu)聯網數據信息安全企業負責人(ren)向「甲子光年(nian)」表示。
面對用(yong)(yong)戶(hu)的質疑,妙(miao)鴨(ya)相機很快修(xiu)改了相關條例,并(bing)在官方公眾號、小紅書等多個平臺(tai)發布了道歉聲明,直言:已經(jing)收到用(yong)(yong)戶(hu)關于(yu)(yu)用(yong)(yong)戶(hu)協議(yi)的反饋,原協議(yi)內容(rong)有(you)誤,已第一時間根據妙(miao)鴨(ya)的實際情況進行了修(xiu)改。“在這里鄭重地向大(da)家(jia)承(cheng)諾(nuo),您(nin)所上(shang)傳的照(zhao)片只會(hui)用(yong)(yong)于(yu)(yu)數字分身(shen)制作(zuo),不(bu)會(hui)提取也不(bu)會(hui)用(yong)(yong)于(yu)(yu)識別和其他用(yong)(yong)途,且分身(shen)制作(zuo)完(wan)成后自動刪除。”
事實上,一直以來(lai),“互聯(lian)(lian)網服務與數(shu)據安全難以兩全”都是(shi)一個(ge)棘手的(de)問題。妙鴨相機用(yong)戶協(xie)議授權(quan)問題,僅(jin)僅(jin)是(shi)互聯(lian)(lian)網數(shu)據安全問題的(de)一個(ge)縮影。
長(chang)期專注于數據(ju)(ju)合(he)(he)規領(ling)域(yu),曾(ceng)為多家境(jing)內外(wai)上市(shi)公(gong)司、知(zhi)名企業(ye)提供數據(ju)(ju)合(he)(he)規服務的北京植德律師事(shi)務所合(he)(he)伙人王藝告(gao)訴「甲(jia)子(zi)光年」:“目前有較多因為‘AI換(huan)臉’軟件(jian)產生的侵權(quan)案(an)(an)件(jian),利用AI技術侵犯個(ge)人隱私數據(ju)(ju)的案(an)(an)例數量也在逐步(bu)上升。”
用戶處于(yu)被動位置(zhi),難以保障(zhang)自身的(de)(de)(de)數據(ju)安全, 隱私保護的(de)(de)(de)無力感正(zheng)在從(cong)互聯(lian)網時(shi)期蔓延(yan)至AI時(shi)代(dai)。但(dan)顯(xian)而易見的(de)(de)(de)是(shi),在AI時(shi)代(dai),企業對(dui)數據(ju)的(de)(de)(de)爭奪更加(jia)激烈,用戶數據(ju)隱私安全面(mian)臨的(de)(de)(de)挑戰也(ye)更加(jia)嚴峻。
大模型訓練不(bu)僅離不(bu)開豐富的(de)(de)數據(ju)集,也(ye)(ye)愈加(jia)需要高質(zhi)量的(de)(de)數據(ju);由(you)于涉(she)及到人與AI的(de)(de)交互,用戶的(de)(de)個人信息權利難以響應,技術開發者、服務提供者也(ye)(ye)面臨著(zhu)潛在(zai)的(de)(de)合規風險(xian)。
當老生常談的(de)問題遇上新的(de)技術變革(ge),大(da)模(mo)型時(shi)代又將(jiang)打(da)響怎樣的(de)數據安全(quan)保衛戰?
在(zai)創新與(yu)安(an)全的平衡(heng)中,法律規范(fan)、企業(ye)自(zi)治、數據安(an)全技術正(zheng)在(zai)給出它們的答案。
1.大模型時代,數據安全的新挑戰
數據,是AI發展的養料。人們在輕而易舉獲取數據的同時,對數據安全的討論也此起彼伏。
2013年,線上辭典Dictionary.com將“Privacy(隱(yin)私(si))”選為當年的年度(du)(du)詞匯。彼時美國(guo)政(zheng)府棱鏡計劃被曝光、谷(gu)歌修改隱(yin)私(si)協議以整合旗(qi)下各(ge)服務(wu)用戶數(shu)(shu)據,個人隱(yin)私(si)成為數(shu)(shu)據安全中關(guan)注度(du)(du)最(zui)高(gao)、涉及人群最(zui)廣(guang)的方面。
相較(jiao)于(yu)互聯(lian)網(wang)(wang)對用(yong)戶上網(wang)(wang)習慣、消費記錄等信息(xi)的覆(fu)蓋,人臉識(shi)別、智能設(she)備(bei)、AI換臉等AI應(ying)用(yong)的出(chu)現(xian),對用(yong)戶個(ge)人信息(xi)的采集范圍大幅擴(kuo)大,包括人臉、指紋(wen)、聲紋(wen)、虹膜、心跳、基因(yin)等強個(ge)人屬(shu)性(xing)的生(sheng)物(wu)特(te)征信息(xi)。
2017年(nian),中(zhong)(zhong)國第一例利用(yong)AI侵(qin)犯公民(min)個(ge)人信(xin)息案犯罪(zui)在浙江紹(shao)興破獲(huo),其中(zhong)(zhong)超10億條(tiao)公民(min)個(ge)人信(xin)息被非法(fa)獲(huo)取。
360集團首席安全官杜躍進此前接受「甲子光年」采訪時就曾表示:“人工智能和(he)大數(shu)據的安全(quan)必須放在一起看(kan)。”
生成式AI、大模型的(de)(de)出(chu)現,對數據(ju)提(ti)出(chu)了前所未有的(de)(de)要求(qiu),也(ye)隨之帶來了更加(jia)突出(chu)的(de)(de)數據(ju)安全問題。
在(zai)大(da)模型的(de)(de)訓練數(shu)(shu)據(ju)量上,以OpenAI的(de)(de)GPT模型為例:GPT-1預訓練數(shu)(shu)據(ju)量僅為5GB;到了GPT-2,數(shu)(shu)據(ju)量已經增加至(zhi)40GB;而(er)GPT-3的(de)(de)數(shu)(shu)據(ju)量已經直接(jie)飛升至(zhi)45TB(相當于GPT-2數(shu)(shu)據(ju)量的(de)(de)1152倍)。
市場逐漸凝成(cheng)這樣的(de)(de)共識:得數(shu)據者得天下,數(shu)據是大模型競爭的(de)(de)關鍵。
頂象安全專家告訴「甲子光年(nian)」:“模型需要數(shu)(shu)據來訓練。數(shu)(shu)據除(chu)了自己采集,就(jiu)是爬(pa)蟲爬(pa)取。爬(pa)取的數(shu)(shu)據大部分沒有(you)(you)經(jing)過數(shu)(shu)據所有(you)(you)者(zhe)允許,可以(yi)說大部分是非授權的盜用(yong)。”
2022年11月,OpenAI和GitHub一起推(tui)出的代(dai)碼助手Copilot就曾被程(cheng)序(xu)員們(men)告上法庭。原告們(men)認為,Copilot在未獲得GitHub用戶授權(quan)的情(qing)況下,使用了公共存(cun)儲庫進行訓練。
在今年(nian)6月,OpenAI同樣因為未經允許使用個(ge)人隱私數據收到了一份長達157頁的訴訟書。
除了模(mo)(mo)型的(de)訓練(lian)階段(duan),在模(mo)(mo)型的(de)實際應用階段(duan)中,個(ge)人(ren)隱私泄露(lu)的(de)風險持(chi)續(xu)存在。
頂象安全專(zhuan)家告訴「甲子光年」,生(sheng)成(cheng)式AI不僅僅泄露(lu)人的(de)隱私和(he)秘密,甚至會讓人變(bian)得透明。“就跟《三(san)體》中的(de)智子一樣,提問者(zhe)說(shuo)的(de)話會被記(ji)錄下來,生(sheng)產生(sheng)活產生(sheng)的(de)數據信息會成(cheng)為AIGC訓練的(de)素材。”
早在2020年,人們就發(fa)現OpenAI的(de)GPT-2會(hui)透(tou)露(lu)訓練數據中的(de)個人信息。隨后的(de)調查發(fa)現,語言模型(xing)越大,隱(yin)私(si)信息泄露(lu)的(de)概率也越高。
今年(nian)3月(yue),多(duo)名ChatGPT用(yong)(yong)戶在自己的歷(li)史對(dui)話(hua)中看(kan)到了他(ta)人(ren)的對(dui)話(hua)記錄,包括用(yong)(yong)戶姓名、電子郵件地(di)址、付款(kuan)地(di)址、信(xin)用(yong)(yong)卡號后四位以及信(xin)用(yong)(yong)卡有(you)效期。
不(bu)到(dao)一個(ge)月之后(hou),三(san)星電(dian)子(zi)就(jiu)因員(yuan)工使用(yong)ChatGPT,被迫面臨三(san)起數據泄露事故(gu):其半導體設(she)備(bei)測量、良(liang)品/缺(que)陷率(lv)、內部會議內容等相關信息被上傳到(dao)了ChatGPT的服務器中。隨后(hou),三(san)星立(li)即禁止員(yuan)工在公(gong)(gong)司設(she)備(bei)及內網(wang)上使用(yong)類ChatGPT的聊(liao)天機器人,同(tong)樣禁用(yong)的公(gong)(gong)司還(huan)包括(kuo)蘋果、亞馬(ma)遜、高盛等世界500強公(gong)(gong)司。
觀韜中茂律師事(shi)務所發布的(de)(de)(de)《生成(cheng)式AI發展與監管白(bai)皮(pi)書(三(san))》解釋了大(da)模型在應(ying)用上的(de)(de)(de)特殊(shu)性。大(da)模型與人(ren)(ren)(ren)之(zhi)間的(de)(de)(de)交互,不同于一般應(ying)用程序中填入式的(de)(de)(de)收集個人(ren)(ren)(ren)信(xin)息(xi)方(fang)式,所以對于個人(ren)(ren)(ren)信(xin)息(xi)的(de)(de)(de)披(pi)露也不同于往(wang)常(chang)意義(yi)上的(de)(de)(de)“公開(kai)披(pi)露”,更類似于一種“被動公開(kai)”,即當某個用戶的(de)(de)(de)真實個人(ren)(ren)(ren)信(xin)息(xi)被摘錄在語料庫后,之(zhi)后任意用戶通過詢問等方(fang)式均可以得(de)知(zhi)相關個人(ren)(ren)(ren)信(xin)息(xi)。
這意味著,在大(da)模型時代(dai),不僅個人信(xin)息(xi)泄露(lu)的(de)范圍(wei)擴大(da)了,個人信(xin)息(xi)的(de)采集過程也變得更為隱秘,難(nan)以辨認,而且一旦侵權,就是對(dui)(dui)大(da)量用戶造成(cheng)的(de)侵權。那么(me),泄露(lu)之后(hou)的(de)個人信(xin)息(xi)去向(xiang)了哪里?究(jiu)竟會對(dui)(dui)用戶造成(cheng)什么(me)影響(xiang)?
北京植德(de)律師事務所合伙人王藝(yi)告訴(su)了「甲子(zi)光(guang)年」答案。他表示,生成(cheng)式AI造成(cheng)的個人信(xin)息泄露,輕(qing)則可能侵害他人的肖(xiao)像權,為造謠者實施便利(li),重則可能被犯罪分子(zi)利(li)用,實施犯罪。
頂象的(de)安(an)全(quan)專(zhuan)家也表示,在所有互聯網(wang)產品或軟件都有可(ke)能被(bei)植入AI元素(su)的(de)當下,AI濫用(yong)帶(dai)來的(de)社會問題會越(yue)(yue)來越(yue)(yue)多。“造假會更簡單,眼見不一定為實,電信詐騙、網(wang)絡詐騙越(yue)(yue)來越(yue)(yue)復雜。”
2023年5月,安全技術公(gong)司邁克菲(fei)對來自七個國家的7054人進行了調(diao)查,發現有四分(fen)之一的成(cheng)年人經(jing)歷過(guo)某種(zhong)形式的AI語音詐騙(10%發生在(zai)自己身(shen)上,15%發生在(zai)他們認識的人身(shen)上),10%的受害者(zhe)因此造(zao)成(cheng)經(jing)濟損失。
「甲子(zi)光年(nian)(nian)」從(cong)慧科數據庫(ku)、公開報道中發(fa)現(xian),今年(nian)(nian)以(yi)來全國各地(di)發(fa)現(xian)利用AI技術竊取個(ge)人隱私進行詐騙的案例至(zhi)少有14例。
其中,大(da)多數案例通過(guo)視頻聊天與(yu)受害者(zhe)(zhe)進(jin)行聯系(xi),逼(bi)真的人臉和聲音(yin)容易讓(rang)人們(men)放(fang)下警(jing)惕,冒充朋友、親人也(ye)迅速讓(rang)受害者(zhe)(zhe)交與(yu)信任。詐(zha)騙金(jin)額多在萬(wan)元以上,最高被詐(zha)騙金(jin)額甚(shen)至高達430萬(wan)元。
數據(ju)來源:慧(hui)科新聞數據(ju)庫,綜(zong)合(he)媒體報道
除此(ci)之外(wai),通過“AI換臉”造(zao)成(cheng)肖(xiao)像權被侵犯(fan)的(de)案件也(ye)屢見不鮮。王(wang)藝(yi)表(biao)示,雖然此(ci)類案件的(de)數量在逐步(bu)上(shang)升,但由于(yu)隱蔽性強(qiang),且是(shi)微型(xing)侵權,很多案例都沒有走上(shang)法(fa)庭,即(ji)使進(jin)行了法(fa)院(yuan)審判,得(de)到的(de)賠償金額(e)也(ye)并不高(gao)。
可以說,普通(tong)人(ren)在(zai)面對利用AI技(ji)術進行的個人(ren)隱(yin)私(si)侵權面前,其(qi)實(shi)并沒有太多的辦(ban)法。
2.嚴苛的立法態度不是監管的唯一解法
技術發展與法律(lv)(lv)監(jian)管總是并駕齊驅的(de)。如果說數據安全已經成為人(ren)工智能時代的(de)必答(da)題,法律(lv)(lv)與監(jian)管便是解答(da)的(de)關鍵。
今年(nian)(nian)4月(yue),斯坦福大(da)學(xue)以人(ren)(ren)(ren)為(wei)本(ben)人(ren)(ren)(ren)工(gong)智(zhi)能研(yan)究所(suo)(Stanford HAI)發布了《2023年(nian)(nian)人(ren)(ren)(ren)工(gong)智(zhi)能指數(shu)報(bao)告(gao)》(Artificial Intelligence Index Report 2023)報(bao)告(gao)。通過對127個(ge)國(guo)家(jia)的立法記(ji)錄(lu)調(diao)研(yan),報(bao)告(gao)顯示,包含“人(ren)(ren)(ren)工(gong)智(zhi)能”法案通過的數(shu)量,從2016年(nian)(nian)的1個(ge)增(zeng)長(chang)到2022年(nian)(nian)的37個(ge)。在對81個(ge)國(guo)家(jia)涉及人(ren)(ren)(ren)工(gong)智(zhi)能的議會記(ji)錄(lu)進行(xing)分析后,研(yan)究人(ren)(ren)(ren)員發現全球立法程序中提(ti)及人(ren)(ren)(ren)工(gong)智(zhi)能的次數(shu)自2016年(nian)(nian)以來增(zeng)加了近6.5倍。
區別于信息剽竊、隱私侵犯等“老(lao)生(sheng)常談”的(de)數(shu)據(ju)安全問題,由于涉及到人與AI的(de)交互,大模型時(shi)代數(shu)據(ju)安全面臨著更(geng)為迫切(qie)的(de)難題——個人信息權利(li)響(xiang)應(ying)難以落實。
如何(he)精(jing)準識別(bie)交互過程中收集的個(ge)人(ren)信(xin)息?如何(he)劃清用(yong)戶服務(wu)與模型(xing)訓(xun)練的使用(yong)界限?面對全(quan)(quan)新的數據安(an)全(quan)(quan)、個(ge)人(ren)信(xin)息安(an)全(quan)(quan)、網絡安(an)全(quan)(quan)難題,大模型(xing)時(shi)代亟須(xu)新的監(jian)管辦法出臺(tai)。
2023年(nian)7月(yue)13日,中國網信辦發布《生(sheng)成(cheng)式人(ren)工智(zhi)能服務(wu)(wu)(wu)管理暫行(xing)(xing)辦法》(下文(wen)簡稱《暫行(xing)(xing)辦法》,2023年(nian)8月(yue)15日施行(xing)(xing)),明(ming)確(que)規(gui)定了(le)生(sheng)成(cheng)式人(ren)工智(zhi)能服務(wu)(wu)(wu)提供者的服務(wu)(wu)(wu)規(gui)范。
在涉及個人信息安全的相關條(tiao)例中,《暫行辦(ban)法(fa)》規定:
第九(jiu)條 提供者應(ying)當(dang)依法承擔網(wang)絡信(xin)息(xi)內容生產者責(ze)任,履(lv)行(xing)(xing)網(wang)絡信(xin)息(xi)安全義(yi)務。涉及個人(ren)信(xin)息(xi)的,依法承擔個人(ren)信(xin)息(xi)處理者責(ze)任,履(lv)行(xing)(xing)個人(ren)信(xin)息(xi)保護義(yi)務。
提供者(zhe)(zhe)應當與(yu)注(zhu)冊其服務的生成式人工智能服務使用者(zhe)(zhe)(以下稱使用者(zhe)(zhe))簽訂服務協議(yi),明(ming)確雙方權利義務。
第十一條 提供(gong)者(zhe)(zhe)對使(shi)用(yong)者(zhe)(zhe)的(de)輸(shu)入信息(xi)(xi)和使(shi)用(yong)記(ji)錄應當依法履行保護義(yi)務,不得(de)收集非(fei)必要個人信息(xi)(xi),不得(de)非(fei)法留存(cun)能夠識別使(shi)用(yong)者(zhe)(zhe)身份的(de)輸(shu)入信息(xi)(xi)和使(shi)用(yong)記(ji)錄,不得(de)非(fei)法向(xiang)他人提供(gong)使(shi)用(yong)者(zhe)(zhe)的(de)輸(shu)入信息(xi)(xi)和使(shi)用(yong)記(ji)錄。
提供者應當依法及時(shi)受(shou)理和處理個(ge)人(ren)關(guan)于查閱、復制、更正、補充、刪除其個(ge)人(ren)信息等的請(qing)求。
隨著管理(li)細(xi)則逐(zhu)步落實(shi)、施行日(ri)期臨近,多家服(fu)務提供商(shang)(shang)也在開展自檢自查(cha)。據了解,由于數(shu)據采集和使用環節不(bu)夠規范(fan),蘋果(guo)應用商(shang)(shang)店已經下(xia)架了多款AIGC相關軟件。數(shu)據規范(fan)的緊迫(po)性可見一(yi)斑。
除了數據安全外,對技(ji)術(shu)的(de)監(jian)管不可避免地涉及“發展與監(jian)管”之間(jian)的(de)矛盾。北京植德律師事(shi)務所合伙人王藝告訴「甲子光(guang)年」:“如何(he)處理二者之間(jian)的(de)矛盾,是不同國家的(de)戰略選擇。”
相較(jiao)于4月(yue)11日發布的《生成式人工智能服(fu)務管理辦法(fa)(征(zheng)求(qiu)意見稿(gao))》(下文(wen)簡稱(cheng)《征(zheng)求(qiu)意見稿(gao)》),《暫行辦法(fa)》做(zuo)出了較(jiao)大(da)改動。
《暫行辦(ban)法(fa)》刪除了對研發(fa)主體的(de)監管(guan)要求(qiu),將《征求(qiu)意見稿》中(zhong)將強制(zhi)性(xing)的(de)“生(sheng)成內容應(ying)當真實準確(que)”修(xiu)改(gai)為非(fei)強制(zhi)性(xing)的(de)“提高(gao)生(sheng)成內容的(de)準確(que)性(xing)和可靠性(xing)”,并補充要求(qiu)提升生(sheng)成式人工智能服務的(de)透明度。
“監管部門對《征(zheng)求意見稿(gao)》的(de)(de)很多條款進(jin)行了刪除或者松綁。從(cong)立法前后稿(gao)子的(de)(de)變化,可以看出我(wo)國(guo)還是以發展(zhan)為先的(de)(de)。”王藝說道。
在監管和發(fa)展平衡中,此次條例的(de)修(xiu)改不無道理。因(yin)為立法(fa)監管并(bing)非是一蹴而(er)就的(de),過于嚴苛的(de)立法(fa)態(tai)度可能會(hui)成為技(ji)術(shu)發(fa)展的(de)掣(che)肘。在歐洲,部分技(ji)術(shu)從業者(zhe)就該問題表達(da)了(le)擔(dan)憂。
ChatGPT推出(chu)后(hou),歐洲國家(jia)對(dui)OpenAI的監管逐步加緊。意大利宣布禁用ChatGPT后(hou),出(chu)于數據保護的考慮,德國、法國、西班牙等國家(jia)也表示正在考慮對(dui)AI聊天機器人采取更嚴格的監管。
6月14日(ri),歐盟通過(guo)的《人(ren)工智(zhi)能(neng)法(fa)案(an)》最新(xin)草(cao)案(an),也(ye)貫徹了以往(wang)嚴苛(ke)的立法(fa)態(tai)度(du)。法(fa)案(an)對于(yu)“基礎模型(xing)”或(huo)經過(guo)大(da)量數(shu)據訓練的強(qiang)大(da)AI系統,明確規定(ding)了透明度(du)和(he)風險評估(gu)要求,包括在AI技(ji)術投入(ru)日(ri)常(chang)使(shi)用(yong)之前進行風險評估(gu)等。
對風險的(de)(de)猜想(xiang)是否高于實(shi)際?歐(ou)盟(meng)嚴苛的(de)(de)立法態度招(zhao)致了歐(ou)洲風投(tou)公(gong)(gong)司和科(ke)技公(gong)(gong)司的(de)(de)許多不滿(man)。
6月30日,歐洲各地的主要(yao)科技公司創始(shi)人(ren)、首席執行官(guan)、風險投資家等(deng)150家企業高管(guan)共(gong)同簽署了(le)一封致歐盟委員會的公開(kai)信,警告歐盟法(fa)律(lv)草案中對人(ren)工(gong)智能的過(guo)度監管(guan)。
“想要(yao)將(jiang)(jiang)生(sheng)成式人工智能(neng)(neng)的(de)(de)(de)(de)(de)監(jian)管(guan)納入法(fa)(fa)(fa)律并(bing)以嚴格的(de)(de)(de)(de)(de)合規邏輯(ji)進行,這種方法(fa)(fa)(fa)是官僚主義的(de)(de)(de)(de)(de),因為它(ta)無法(fa)(fa)(fa)有效地實現(xian)其目的(de)(de)(de)(de)(de)。在我們(men)對真正的(de)(de)(de)(de)(de)風(feng)(feng)險、商業(ye)模式或(huo)生(sheng)成人工智能(neng)(neng)的(de)(de)(de)(de)(de)應(ying)用知之甚少的(de)(de)(de)(de)(de)情(qing)況下,歐洲(zhou)法(fa)(fa)(fa)律應(ying)該(gai)僅限于(yu)以基于(yu)風(feng)(feng)險的(de)(de)(de)(de)(de)方法(fa)(fa)(fa)闡述廣泛(fan)的(de)(de)(de)(de)(de)原則。”公開(kai)信中指出,該(gai)立法(fa)(fa)(fa)草案將(jiang)(jiang)危及(ji)歐洲(zhou)的(de)(de)(de)(de)(de)競爭(zheng)力和(he)技(ji)術主權,而(er)無法(fa)(fa)(fa)有效解決我們(men)現(xian)在和(he)未來可能(neng)(neng)要(yao)面臨(lin)的(de)(de)(de)(de)(de)挑戰。
無獨有偶,日本一名官員此前也表示,日本更傾向于采用比歐盟更寬松的規則來管理AI,因為日本希望利用該技術促進經濟增長,并使其成為先進芯片的領導者。
“一項新技術(shu)從研(yan)發到進入市場(chang),再到融入社會生產、生活,產生風(feng)險是難以(yi)避免的(de),不能因為風(feng)險而放棄新技術(shu)的(de)研(yan)發和應用。理想目標(biao)應是把(ba)風(feng)險最(zui)小化,把(ba)技術(shu)獲(huo)利最(zui)大化。”頂(ding)象的(de)安全專家告訴「甲子光年」。
上述受訪(fang)者繼(ji)續說道(dao),歐盟在(zai)規(gui)范(fan)AI問題(ti)上下手早,但其(qi)過度監管也限制了(le)相(xiang)關市場的(de)(de)發(fa)(fa)展(zhan)(zhan),造成歐盟數(shu)字產業(ye)的(de)(de)發(fa)(fa)展(zhan)(zhan)速度落(luo)后于全球。在(zai)全球技(ji)術主(zhu)權激(ji)烈競爭(zheng)的(de)(de)背(bei)景下,立法與監管政策需要保持(chi)謹慎思考,在(zai)治理與發(fa)(fa)展(zhan)(zhan)之間(jian)做好平衡,在(zai)方(fang)便企(qi)(qi)業(ye)抵(di)御AI倫理風險的(de)(de)同時,為企(qi)(qi)業(ye)、行業(ye)以(yi)及(ji)相(xiang)關產業(ye)提(ti)供(gong)充(chong)分的(de)(de)發(fa)(fa)展(zhan)(zhan)空間(jian)。
“不(bu)(bu)發(fa)(fa)展是最(zui)大的(de)不(bu)(bu)安全(quan)。”嚴苛(ke)的(de)立(li)法態(tai)度不(bu)(bu)是監(jian)管政策的(de)唯一解法,企業和立(li)法者也(ye)不(bu)(bu)應該是矛(mao)盾雙(shuang)方,而是謀求數據(ju)安全(quan)與技術發(fa)(fa)展的(de)同(tong)路(lu)人(ren)。
以美國(guo)為例,谷(gu)歌、微軟(ruan)、OpenAI等科技巨頭也在(zai)主動構(gou)建安(an)全(quan)(quan)屏障。7月21日,谷(gu)歌、微軟(ruan)、OpenAI、Meta在(zai)內的7家AI公(gong)司參(can)與白(bai)宮峰會(hui),并(bing)就AI技術(shu)和(he)研發(fa)的安(an)全(quan)(quan)、透(tou)明、風險等問(wen)題作(zuo)出(chu)“八大承諾(nuo)”。7月26日,微軟(ruan)、谷(gu)歌、OpenAI、Anthropic四家AI科技巨頭宣布成立(li)行(xing)業組(zu)織——“前沿(yan)模型(xing)論壇”(Frontier Model Forum),來確(que)保前沿(yan)AI開發(fa)的安(an)全(quan)(quan)和(he)負責(ze)。
8月3日,我(wo)(wo)國網信辦發布關(guan)于《個人(ren)信息(xi)保護合規審計(ji)管理辦法(征求意(yi)見稿)》也進一(yi)步細化落實了(le)《個人(ren)信息(xi)保護法》中個人(ren)信息(xi)處理者合規審計(ji)的相關(guan)要求,進一(yi)步完善了(le)我(wo)(wo)國個人(ren)信息(xi)處理者自我(wo)(wo)規制(zhi)。
面(mian)對尚未確定的(de)技術(shu)(shu)生態,技術(shu)(shu)開(kai)發者、服(fu)務提供者都面(mian)臨著(zhu)潛在(zai)(zai)的(de)合規(gui)風險(xian)。只有明確了合法獲取的(de)路徑和規(gui)章底(di)線,大(da)模型訓練者、服(fu)務提供者才能(neng)放下戒備,在(zai)(zai)更大(da)的(de)空間施展拳(quan)腳。
站(zhan)在技術變革的(de)(de)十(shi)字路(lu)口,如何平衡(heng)好(hao)數據安全與(yu)技術發(fa)展(zhan)的(de)(de)需求,制(zhi)定出更為系統、更具針對性的(de)(de)監管細(xi)則,也是對各國立(li)法者的(de)(de)新考驗。
3.在創新與安全之間,如何平衡?
“監(jian)管,如果不向前邁進,就會(hui)面臨人(ren)工智能被(bei)濫用的風險;如果倉(cang)促行事,就有導致行業陷入困境(jing)的危機。”
7月25日,Anthropic聯合創始人兼(jian)CEO Dario Amodei、加州(zhou)大學(xue)(xue)伯克利分校教(jiao)授(shou)(shou)Stuart Russell和蒙(meng)特利爾(er)大學(xue)(xue)教(jiao)授(shou)(shou)Yoshua Bengio出席美國參議(yi)院(yuan)司法委員會舉(ju)行(xing)的人工(gong)智能聽證會。在(zai)會議(yi)上,他(ta)們一(yi)致達成(cheng)這(zhe)樣(yang)的觀點:AI需要監(jian)管,但過猶不(bu)及。
面對大模型(xing)對隱私數據(ju)的挑戰,在創新(xin)與安全的博(bo)弈(yi)之(zhi)間,我們還(huan)有哪些解法?
加強(qiang)數據(ju)安(an)全保(bao)護(hu)可能(neng)是(shi)最容易想到的(de)答案。360集(ji)(ji)團首席安(an)全官杜躍進此前接受「甲子光年(nian)」采(cai)訪時曾表(biao)示:“數據(ju)安(an)全不應該關(guan)注采(cai)集(ji)(ji)了什(shen)么(me)(me),而應該關(guan)注采(cai)集(ji)(ji)的(de)數據(ju)是(shi)怎么(me)(me)用的(de),怎么(me)(me)保(bao)護(hu)的(de)。”
隱私(si)計算(suan)(suan)成為近(jin)些年數(shu)據隱私(si)保(bao)護(hu)的(de)技術最優解(jie)。與傳(chuan)統的(de)加密(mi)技術相(xiang)比,隱私(si)計算(suan)(suan)可(ke)以在不泄露原始數(shu)據的(de)前(qian)提下(xia)對數(shu)據進(jin)行分(fen)析計算(suan)(suan),實(shi)現數(shu)據的(de)共享、互通、計算(suan)(suan)和建模。
讓數據變得“可(ke)(ke)用不可(ke)(ke)見”,也就規避了(le)個人(ren)數據泄露(lu)或不當使用的(de)風險。這項技術目前已經在醫療、金融、政府等對數據高(gao)度敏感的(de)領域(yu)內相(xiang)繼落地。
在大(da)模型時代,隱私(si)(si)計(ji)算也(ye)同樣適用。中國信通院云(yun)計(ji)算與大(da)數據研(yan)究所副(fu)主任閆樹在7月(yue)的(de)兩次活(huo)動(dong)上都表達了這樣的(de)觀點,隱私(si)(si)計(ji)算可以滿足大(da)模型預(yu)測階段的(de)隱私(si)(si)保護需求。
具體來(lai)說(shuo),隱私(si)計(ji)算的不同路線,包括可信執行環境(TEE) 、多方(fang)安(an)全計(ji)算(MPC)等都(dou)可以與大模(mo)型進行結合,“比如在(zai)云端部署TEE ,用(yong)戶在(zai)推(tui)理(li)時(shi)將(jiang)輸入數據(ju)加密(mi)傳(chuan)輸至(zhi)云端,在(zai)其內部解(jie)密(mi)然后進行推(tui)理(li);還有(you)在(zai)模(mo)型推(tui)理(li)階段使用(yong)多方(fang)安(an)全計(ji)算來(lai)提升隱私(si)保護能力(li)”。但值(zhi)得(de)注(zhu)意(yi)的是,隱私(si)計(ji)算也不可避(bi)免會對模(mo)型訓練(lian)和推(tui)理(li)的性能造(zao)成影響。
除了加強數據安全(quan)保護(hu)之外,還有一種(zhong)可(ke)以從數據源頭上解決隱(yin)私安全(quan)問題的方法——合成數據。
合(he)成數(shu)據(ju)指(zhi)通(tong)過AI技(ji)術和算(suan)法模(mo)型,基于真實數(shu)據(ju)樣(yang)本生成虛擬數(shu)據(ju),因此也不存在用戶的(de)個人隱私(si)信息。
隨著大模(mo)型的火(huo)熱,合(he)成數據也(ye)越(yue)來越(yue)受(shou)到關(guan)注,保(bao)護隱私就是(shi)合(he)成數據研究背后(hou)強有力的驅(qu)動力之一(yi)。
“合(he)成(cheng)數據(ju)解決了三個挑戰——質量、數量和隱(yin)私。”合(he)成(cheng)數據(ju)平臺Synthesis AI的(de)創(chuang)始人兼CEO Yashar Behzadi接受科技媒體《VentureBeat》采訪時表示(shi):“通過使用(yong)合(he)成(cheng)數據(ju),公司(si)可以明確定義所(suo)需要的(de)訓練數據(ju)集,可以在最大程度上減少數據(ju)偏差并確保包容性,不(bu)會侵(qin)犯(fan)用(yong)戶(hu)的(de)隱(yin)私。”
OpenAI聯合創(chuang)始人兼CEO Sam Altman同樣也看好合成(cheng)數據。
根(gen)據(ju)英國《金(jin)融(rong)時(shi)報(bao)》報(bao)道,5月(yue)在倫(lun)敦舉(ju)行的(de)一次活(huo)動上(shang),Sam Altman被問及是否擔心(xin)監管部門對ChatGPT潛(qian)在隱(yin)私侵(qin)犯的(de)調查(cha),他并沒(mei)有(you)特別在意,而(er)是認(ren)為“非常有(you)信心(xin)所有(you)的(de)數據(ju)很快會成為合成數據(ju)”。
在合成(cheng)數據(ju)方面,微(wei)(wei)軟在今年更是動作頻頻。5月,微(wei)(wei)軟在論文《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》中描述(shu)了(le)一個(ge)由GPT-4生成(cheng)的(de)短篇小說合成(cheng)數據(ju)集TinyStories,其中只包含了(le)四歲(sui)兒童(tong)可以理(li)解(jie)的(de)單詞,用它來訓練簡(jian)單的(de)大語言(yan)模型,也能夠生成(cheng)出流(liu)暢且語法正確的(de)故事。
6月,微軟(ruan)在(zai)(zai)發(fa)布的(de)論(lun)文(wen)《Textbooks Are All You Need》中(zhong)論(lun)證,AI可以使用合成的(de)Python代碼進(jin)行訓練(lian),并且這些(xie)代碼在(zai)(zai)編程任務(wu)上表(biao)現得相當不錯。
在AI的圈子(zi)內,通過合成(cheng)數(shu)據進行(xing)大模(mo)型的訓(xun)練(lian)早已見怪不(bu)怪。全球IT研究與(yu)咨詢(xun)機(ji)構Gartner預(yu)測,2030年,合成(cheng)數(shu)據的體量將遠超真實數(shu)據,成(cheng)為AI研究的主(zhu)要數(shu)據來(lai)源。
在(zai)技術之外,數據(ju)市場也在(zai)漸漸明(ming)朗。北京(jing)植德律(lv)師事務所(suo)合伙人王藝向(xiang)「甲子光年(nian)」介(jie)紹,目前已經有數據(ju)交易所(suo)建立了語(yu)料庫專(zhuan)區(qu),并為相關語(yu)料數據(ju)產品掛牌(包括文本、音頻、圖(tu)像等(deng)多模態,覆蓋金(jin)融、交通(tong)運輸和醫療等(deng)領域),方(fang)便技術提供(gong)者和服務提供(gong)者合作采購(gou)。
在王(wang)藝看來,大模型數(shu)(shu)(shu)據(ju)(ju)(ju)的合法合規,需要(yao)生成式AI服務提供(gong)者首先(xian)做(zuo)好數(shu)(shu)(shu)據(ju)(ju)(ju)分(fen)(fen)類(lei)分(fen)(fen)級,區分(fen)(fen)不(bu)同(tong)數(shu)(shu)(shu)據(ju)(ju)(ju)類(lei)型,如個人數(shu)(shu)(shu)據(ju)(ju)(ju)、商業數(shu)(shu)(shu)據(ju)(ju)(ju)、重要(yao)數(shu)(shu)(shu)據(ju)(ju)(ju)等,并根(gen)據(ju)(ju)(ju)這些(xie)不(bu)同(tong)數(shu)(shu)(shu)據(ju)(ju)(ju)的使用方式,找到對應的法律,分(fen)(fen)別開展數(shu)(shu)(shu)據(ju)(ju)(ju)來源合法性的審查工作。
而在監管(guan)(guan)方(fang)面,為(wei)了平(ping)衡好數據安全(quan)(quan)和(he)AI的(de)發展,王藝(yi)表(biao)示,對AI的(de)監管(guan)(guan)需要有主(zhu)次(ci)(ci)之分:重點在應用(yong)層的(de)監管(guan)(guan),尤其是(shi)內容監管(guan)(guan)和(he)個人(ren)信息安全(quan)(quan);其次(ci)(ci)是(shi)基(ji)礎層和(he)模型層的(de)監管(guan)(guan),對于相關(guan)深度合成(cheng)算法要督促其及(ji)時完成(cheng)備案;再次(ci)(ci)是(shi)要關(guan)注技術本(ben)身的(de)主(zhu)體是(shi)否(fou)涉(she)及(ji)境外(wai),可能(neng)會存在數據出境、出口管(guan)(guan)制(zhi)等問題。
每(mei)一(yi)次技術產(chan)生變革的時期(qi),期(qi)待和恐懼總是(shi)如影隨形(xing),發展和監管(guan)的呼聲向(xiang)來不相(xiang)上下。
目前(qian)大模型(xing)的發展還(huan)在早(zao)期,應用層(ceng)的爆(bao)發尚未(wei)實現,但AI不會停下腳步,如何(he)把控前(qian)行的方向,如何(he)平衡安全與創(chuang)新,或(huo)許(xu)是AI發展歷程中持續伴(ban)隨的命題。
(封面圖由(you)Midjourney生成)