不過,今年的(de)高考作文整活,似乎(hu)因為某些(xie)東(dong)西的(de)出現而有了(le)不一樣的(de)結果。
是的(de),就(jiu)是登(deng)上(shang)熱搜的(de)AI高考作文,AI寫高考作文在去年(nian)其實就(jiu)已經(jing)有(you)公司在嘗試,寫出來(lai)的(de)文章從架構到(dao)立意都(dou)相當(dang)不錯,即(ji)使(shi)是有(you)著多(duo)年(nian)教學(xue)經(jing)驗的(de)老教師,看了都(dou)直(zhi)接(jie)打個高分。
看到這里,或許你已經知道小雷想要整什么活了。沒錯,作為AI測試大師的小雷(ID:leitech),決定拿今年的高考作文命題去考考國內的各大AI,看看大家寫的作文水平到底如何?
當然,除了國(guo)內的AI,小雷(lei)也(ye)找(zhao)來了一(yi)些海外的AI,看看這些“洋(yang)和尚(shang)”遇到中國(guo)高考,能(neng)不能(neng)整出一(yi)些新的花樣。
廢話不多說(shuo),讓我們直接來看看各家的作(zuo)文都(dou)寫得怎么(me)樣吧(ba)。
題目就一句話,能難倒AI嗎?
在今年的(de)(de)高(gao)考作(zuo)文(wen)命(ming)題中,上(shang)海卷可能(neng)是(shi)最(zui)讓(rang)學生蒙(meng)圈的(de)(de),上(shang)海卷的(de)(de)出題老師非常徹底的(de)(de)貫徹了(le)“惜字如金”四(si)個(ge)(ge)字,整個(ge)(ge)作(zuo)文(wen)命(ming)題的(de)(de)描(miao)述加起來只(zhi)有21個(ge)(ge)字:“一個(ge)(ge)人樂意去探索陌生世界,僅(jin)僅(jin)是(shi)因為好奇心嗎? ”,作(zuo)為曾經的(de)(de)高(gao)考生,小雷我是(shi)最(zui)怕遇(yu)到這種命(ming)題作(zuo)文(wen)的(de)(de),從網絡上(shang)的(de)(de)聲(sheng)音來看,大家也(ye)是(shi)如此。
面對(dui)這種只有(you)一句話描(miao)述的作文題目,AI又會如何去解讀并回答(da)呢?
先來看看訊飛的星火大模型。
圖源:雷科技
一篇(pian)標(biao)準的(de)討論文(wen),作為曾經的(de)文(wen)科生,小雷(lei)表(biao)示:“這(zhe)個(ge)我熟”,從個(ge)人角度而言,訊飛星(xing)火給(gei)的(de)這(zhe)篇(pian)文(wen)章質(zhi)量(liang)是(shi)很高的(de),AI首(shou)先肯定了(le)“好奇心”是(shi)人類探索陌生世界的(de)一大原因,并且對“好奇心”如何驅動我們去探索未知做出了(le)解釋。
然后訊飛星火以此進一步擴展,提出了探索陌生世界并非僅僅是因為好奇心,并且從個人的成長、情感以及精神追求等方面進行解讀,最后再用總結點題,我的評價就四個字:“有理有據,令人信服”。
唯一的問題是,文章的字數似乎不到800字,從WPS給出的字數統計來看是762個字(加上標點符號),按照審稿規范,估計會扣掉一些分數 。
接(jie)下來,我們有請(qing)通義千問來作答。
圖源:雷科技
與訊飛星火不同,通(tong)義千問(wen)用了另一個角度來解答命題,在(zai)開頭同樣先(xian)對“好奇心”驅使我(wo)們探索未知世界(jie)這段(duan)話進(jin)行了解析,然后再從社交需要、求知欲和探索欲等方(fang)面進(jin)行解讀(du)。
不過(guo),在文章的倒(dao)數(shu)第二段,或許(xu)是(shi)(shi)出(chu)于對(dui)提問(wen)者的建議(yi),通(tong)義千(qian)問(wen)加入了一(yi)段“安全提示”。雖(sui)然從內容(rong)來(lai)(lai)說(shuo)是(shi)(shi)沒有問(wen)題(ti)的,但(dan)是(shi)(shi),如果將(jiang)其(qi)作為高考作文來(lai)(lai)看(kan),倒(dao)數(shu)第二段就看(kan)起(qi)來(lai)(lai)有點(dian)突兀了,審(shen)稿老師估計(ji)也會一(yi)臉懵逼,所以,即使前面寫(xie)得不錯,也會因此(ci)而扣(kou)掉一(yi)些分數(shu)。
下一個“作者”是百度的文心一言,看看它又會怎樣回答(da)這個問題?
圖源:雷科技
文心(xin)一言同(tong)樣選擇以討論文的(de)形式來撰寫作文,當然,這也是(shi)(shi)目前AI最(zui)擅(shan)長的(de)文章(zhang)類型。從內容角度來說(shuo),文心(xin)一言的(de)回答也是(shi)(shi)十分不錯(cuo)的(de),但是(shi)(shi)過多的(de)段落(luo)和轉(zhuan)折詞,使得文章(zhang)有點像“流水賬”。
不過在最后的立意點題上,文心一言給出的回答則更好一些,沒有局限于個人層面,而是擴大到對其他個體的思考與包容中,給出了更宏大的立意。
接下來讓我們看看“洋和尚”的表現,首先是谷歌投資的Claude。
圖源:雷科技
首先從(cong)字(zi)數(shu)上(shang)看(kan),Claude恐怕就沒有(you)合格,WPS的(de)檢(jian)測結(jie)果顯(xian)示這(zhe)篇文章(zhang)的(de)字(zi)數(shu)為(wei)646,離800字(zi)還有(you)一些(xie)距離。不(bu)過(guo),從(cong)內容上(shang)看(kan),Claude確實是給出(chu)了不(bu)同于(yu)國產AI的(de)解答,它從(cong)人(ren)類本身(shen)出(chu)發(fa),以冒險基(ji)因和(he)進取精神為(wei)核(he)心,解讀了人(ren)類為(wei)什么要探索陌生世界(jie)。
從立意上來說,Claude或許是目前出場的AI中最高的,不僅僅是講到人類,更是將話題拓展到了文明的發展與延續、人類的未來等方面,讓人不禁有種“不明覺厲”的感覺。
不(bu)過,考慮到命(ming)題(ti)更(geng)多的是對個體想(xiang)法的探索,雖然文章內容(rong)不(bu)錯,但是恐怕也拿(na)不(bu)到滿分或是特別高的分數(shu)。
最(zui)后,就讓我們來看看ChatGPT的回答吧,鑒于時間關系,小(xiao)雷最(zui)終是在New Bing上得到的答復。
圖源:雷科技
不(bu)得(de)不(bu)說,New Bing給出的文(wen)章是所有回答(da)中最長的,字(zi)數(shu)高(gao)達1144個,考(kao)慮到文(wen)科答(da)卷的作文(wen)答(da)題區大小,恐(kong)怕會超出限制,卷面(mian)分和文(wen)章本身的分數(shu)都(dou)會因此大打折扣(kou)。
至(zhi)于文(wen)章本身(shen),New Bing選擇從人(ren)類本身(shen)去探討這(zhe)個(ge)問(wen)題(ti),然(ran)后分(fen)別從求知(zhi)欲、創造欲、競爭欲、自我實(shi)現等方面(mian)來(lai)討論人(ren)類為什么(me)要探索陌生世界,立意方面(mian)也是與Claude相似(si),喜歡(huan)從人(ren)類角度來(lai)思考(kao)這(zhe)個(ge)問(wen)題(ti)。
從這里其實就可以看出海內外生成式AI在邏輯上的區別,在面對相同的問題時,海外的AI有時候會傾向于從一個更大的層面上去進行解讀,而國內的AI則更加扣題,選擇從個人角度出發進行解讀。
我認為兩者存在差異的原因主要有兩點:一是海外的訓練數據與國內的訓練數據不同;二是對中文問題的理解不同,國內的中文互聯網有著過去歷年的高考題目,所以AI在看到類似的題目時,會優先與相近的數據進行匹配,最終寫出一篇類似于高考作文的成品,而海外的AI則是將其看做對“人類探索陌生世界”問題的解讀,所以選擇從一個更廣泛的角度進行回答。
至于(yu)哪個AI的(de)文章更好(hao),或許就(jiu)因人(ren)而異了,喜(xi)歡(huan)科(ke)幻、喜(xi)歡(huan)宏大敘事的(de)讀者,或許會更喜(xi)歡(huan)“洋和尚(shang)”的(de)文章,從個人(ren)角(jiao)度來說的(de)話,國內(nei)的(de)AI則表(biao)現得更好(hao)一些。
作文命題二選一,AI能理解嗎?
在本次的高考作文中,北(bei)京卷是給出了兩個(ge)命題,考生(sheng)可以(yi)二選一(yi)進行作答(da),那么對于AI來說,它們遇到“選擇(ze)題”時,又會給出怎樣的回答(da)呢?
首先是訊飛星火。
圖源:雷科技
內容來說是沒什么問題的,但是訊飛星火卻同時給出了兩篇文章,顯然是沒有意識到題目中的“任選一題”四個字的含義,而且從字數上看,兩篇均為500字左右,加起來是滿足700字以上的要求了,但是單獨算得話,全都不及格。
那么通義千問呢?
圖源:雷科技
問題同樣存在(zai),一(yi)(yi)樣是寫(xie)了(le)兩篇(pian)文章,一(yi)(yi)樣是五百字(zi)左(zuo)右(you),基本上與訊飛星火犯(fan)了(le)一(yi)(yi)樣的錯誤。
圖源:雷科技
國內三巨頭里,目前來看只有文心一言正確理解了題意,從中選擇了“續航”為題目并撰寫了一篇文章,單就這一點來說,已經是贏了。但是,具體到(dao)文章(zhang)本(ben)身(shen)來說,過(guo)于簡單且字數僅(jin)400+,甚(shen)至比訊飛星(xing)火(huo)和(he)通義(yi)千問還少,放到(dao)高(gao)考里(li)基本(ben)上就是不合格的(de)了。
再來看看兩個“洋和尚”表現如(ru)何,首先(xian)是(shi)Claude。
圖源:雷科技
Claude也成功理解了題意,并且給出了自己的見解,從字數上來看,居然是目前所有AI中最接近的,足足有625個字,而且文章也從“續航”本身的詞義,到人生、社會、科技等方面進行了不同的解讀,總體而言更具有可讀性和連貫性,表現十分不錯。
另一(yi)方面,New Bing則是給了我一(yi)個“驚喜”。
圖(tu)源(yuan):雷(lei)科技(ji)
是的,New Bing也理解了(le)題意,但是它(ta)反過來問(wen)(wen)我(wo)想讓(rang)它(ta)選(xuan)擇(ze)回答哪個問(wen)(wen)題,說(shuo)實話(hua)挺樂的,而在(zai)我(wo)做出了(le)選(xuan)擇(ze)后,New Bing又給了(le)我(wo)一篇900+字數的文章。從文章內容,結(jie)構以及字數要求來說(shuo),New Bing是在(zai)這個環節中表現最好的(如果(guo)忽(hu)略(lve)掉反問(wen)(wen)我(wo)如何選(xuan)擇(ze)的話(hua))。
而(er)且,在(zai)(zai)測試過(guo)程中,New Bing還(huan)會提(ti)示“正在(zai)(zai)思考,請等待”的回答,然(ran)后我足(zu)足(zu)等了五(wu)分鐘(zhong)都(dou)沒有下(xia)文(偷懶是吧(ba)?),最(zui)終在(zai)(zai)我的催促下(xia),New Bing的文章才姍姍來遲,活脫(tuo)脫(tuo)上(shang)班想摸魚卻被老板抓現行的員工。
最后
AI寫高考作文,雖然本質上是整活,但是也可以側面反映目前的各個平臺的AI技術能力如何。從以上兩個測試的表現來看,目前國內理解能力最強的應該是文心一言,畢竟是唯一能夠理解北京卷題意的AI,而在文章結構和內容來說,訊飛、文心、通義都差不多,不過訊飛的更像一篇普通作文。
至于海外的“洋和尚”,從表現來看確實是領先國內AI平臺不少的,至少在提問的理解能力上要高出不少,但是因為缺乏國內中文互聯網的訓練數據的原因,所有在遇到這些帶有“中國特色”的提問時,會選擇從普通提問的角度去解答。
總的(de)來說,目前生成式AI還在(zai)快速發展,各(ge)家(jia)都有著獨特的(de)優(you)點,同樣(yang)也存(cun)在(zai)一(yi)些問題,比如對文章的(de)字數(shu)要求總是(shi)誤發 正確理解等。但是(shi),考(kao)慮到它們誕生的(de)時間,已經(jing)是(shi)相當恐怖的(de)學習效率了。