
不過(guo),今年的(de)(de)高考作文整活,似乎(hu)因為(wei)某些東(dong)西的(de)(de)出現而有了不一樣的(de)(de)結果。
是的,就(jiu)(jiu)是登(deng)上熱搜的AI高考(kao)作文(wen),AI寫高考(kao)作文(wen)在去年(nian)其實就(jiu)(jiu)已經有(you)公司在嘗試,寫出來的文(wen)章從架構(gou)到立(li)意都相當不錯,即使是有(you)著多年(nian)教(jiao)學經驗(yan)的老(lao)教(jiao)師,看了都直接(jie)打個高分。
看到這里,或許你已經知道小雷想要整什么活了。沒錯,作為AI測試大師的小雷(ID:leitech),決定拿今年的高考作文命題去考考國內的各大AI,看看大家寫的作文水平到底如何?
當然,除了國內的(de)AI,小雷也找來了一些海外的(de)AI,看看這些“洋和(he)尚(shang)”遇(yu)到中國高考,能不(bu)能整出一些新的(de)花(hua)樣。
廢話不多(duo)說,讓我(wo)們直接(jie)來看看各(ge)家的作文都寫得怎么(me)樣(yang)吧。
題目就一句話,能難倒AI嗎?
在(zai)今年的(de)高考作文(wen)命(ming)(ming)題(ti)中,上海(hai)卷可能是(shi)(shi)最讓學(xue)生(sheng)蒙圈的(de),上海(hai)卷的(de)出題(ti)老師非(fei)常徹(che)底的(de)貫徹(che)了“惜字如金(jin)”四個字,整個作文(wen)命(ming)(ming)題(ti)的(de)描述加起來(lai)(lai)只(zhi)有(you)21個字:“一個人樂意去探索(suo)陌(mo)生(sheng)世(shi)界(jie),僅僅是(shi)(shi)因為(wei)好(hao)奇心嗎? ”,作為(wei)曾經的(de)高考生(sheng),小雷我是(shi)(shi)最怕遇到這種命(ming)(ming)題(ti)作文(wen)的(de),從網絡上的(de)聲音來(lai)(lai)看,大家也是(shi)(shi)如此。
面對(dui)這種(zhong)只(zhi)有一句話描述的作文題目,AI又會如何(he)去解讀并回答呢?
先來看看訊飛的星火大模型。

圖源:雷科技
一篇(pian)標準的(de)討論(lun)文,作為曾經(jing)的(de)文科生(sheng),小雷表(biao)示(shi):“這個我(wo)熟(shu)”,從個人角度(du)而言,訊飛星火給的(de)這篇(pian)文章質(zhi)量是(shi)很高的(de),AI首(shou)先肯定了“好奇心”是(shi)人類探索陌生(sheng)世界的(de)一大原因,并且(qie)對(dui)“好奇心”如何驅動我(wo)們去探索未知做出了解釋。
然后訊飛星火以此進一步擴展,提出了探索陌生世界并非僅僅是因為好奇心,并且從個人的成長、情感以及精神追求等方面進行解讀,最后再用總結點題,我的評價就四個字:“有理有據,令人信服”。
唯一的問題是,文章的字數似乎不到800字,從WPS給出的字數統計來看是762個字(加上標點符號),按照審稿規范,估計會扣掉一些分數 。
接下來,我(wo)們(men)有請通義千問來作(zuo)答。

圖源:雷科技
與訊(xun)飛星(xing)火不同(tong),通義千問(wen)用了(le)(le)另一個(ge)角度(du)來(lai)解(jie)答命(ming)題,在開頭同(tong)樣先對“好(hao)奇心”驅使我們(men)探(tan)索未(wei)知世界這(zhe)段話(hua)進行了(le)(le)解(jie)析,然后再(zai)從社交(jiao)需要、求知欲(yu)和探(tan)索欲(yu)等方面(mian)進行解(jie)讀。
不(bu)過(guo),在文章(zhang)的倒數(shu)(shu)第二段,或許是(shi)出(chu)于對提(ti)問者的建議,通義千問加入了(le)一(yi)段“安全(quan)提(ti)示(shi)”。雖(sui)然從內(nei)容來(lai)說是(shi)沒有(you)問題的,但是(shi),如果將其作為高考作文來(lai)看,倒數(shu)(shu)第二段就(jiu)看起來(lai)有(you)點突(tu)兀了(le),審(shen)稿老師估計(ji)也會一(yi)臉懵逼,所以,即使(shi)前面寫得不(bu)錯,也會因此而扣掉(diao)一(yi)些分數(shu)(shu)。
下一(yi)(yi)個(ge)“作者”是百度的文心一(yi)(yi)言,看看它又會(hui)怎樣回答這個(ge)問(wen)題?

圖源:雷科技
文(wen)心一(yi)言同樣選擇以討論文(wen)的(de)形式來撰寫作文(wen),當然,這也是目前AI最擅長的(de)文(wen)章類型。從內容(rong)角度來說,文(wen)心一(yi)言的(de)回答也是十分不錯的(de),但是過多的(de)段落(luo)和轉折詞(ci),使得(de)文(wen)章有點像“流水賬”。
不過在最后的立意點題上,文心一言給出的回答則更好一些,沒有局限于個人層面,而是擴大到對其他個體的思考與包容中,給出了更宏大的立意。
接下來讓我們看看“洋和尚”的表現,首先是谷歌投資的Claude。

圖源:雷科技
首先(xian)從(cong)(cong)字(zi)數上(shang)看,Claude恐怕(pa)就沒有合格,WPS的(de)(de)檢測結果顯示這篇文章的(de)(de)字(zi)數為646,離(li)(li)800字(zi)還有一些距離(li)(li)。不過(guo),從(cong)(cong)內容上(shang)看,Claude確實是給出了不同(tong)于國產AI的(de)(de)解答(da),它從(cong)(cong)人(ren)(ren)類(lei)本(ben)身出發,以冒險基因(yin)和進取精神為核心,解讀了人(ren)(ren)類(lei)為什么(me)要探(tan)索陌生(sheng)世界(jie)。
從立意上來說,Claude或許是目前出場的AI中最高的,不僅僅是講到人類,更是將話題拓展到了文明的發展與延續、人類的未來等方面,讓人不禁有種“不明覺厲”的感覺。
不(bu)過,考慮到(dao)(dao)命題更多(duo)的(de)是對(dui)個(ge)體想法的(de)探索,雖然文章(zhang)內容不(bu)錯(cuo),但是恐(kong)怕也拿不(bu)到(dao)(dao)滿分或(huo)是特別高的(de)分數。
最后(hou),就讓我們來看(kan)看(kan)ChatGPT的回答吧,鑒于時間關系,小雷最終是在New Bing上得到的答復。

圖源:雷科技
不(bu)得不(bu)說(shuo),New Bing給出(chu)的文章是(shi)所有回答(da)中最長的,字(zi)數高達1144個,考慮到文科答(da)卷的作文答(da)題區大小,恐怕會(hui)(hui)超出(chu)限(xian)制(zhi),卷面分(fen)和文章本身的分(fen)數都會(hui)(hui)因此大打折扣。
至于文(wen)章本(ben)身,New Bing選擇從人類(lei)本(ben)身去探討(tao)這個問(wen)題,然后分別從求知欲、創造(zao)欲、競爭欲、自我實(shi)現等(deng)方(fang)面(mian)來討(tao)論人類(lei)為什么要探索陌生世界,立意(yi)方(fang)面(mian)也是與Claude相(xiang)似,喜(xi)歡從人類(lei)角度來思考這個問(wen)題。
從這里其實就可以看出海內外生成式AI在邏輯上的區別,在面對相同的問題時,海外的AI有時候會傾向于從一個更大的層面上去進行解讀,而國內的AI則更加扣題,選擇從個人角度出發進行解讀。
我認為兩者存在差異的原因主要有兩點:一是海外的訓練數據與國內的訓練數據不同;二是對中文問題的理解不同,國內的中文互聯網有著過去歷年的高考題目,所以AI在看到類似的題目時,會優先與相近的數據進行匹配,最終寫出一篇類似于高考作文的成品,而海外的AI則是將其看做對“人類探索陌生世界”問題的解讀,所以選擇從一個更廣泛的角度進行回答。
至于哪個AI的(de)文章更(geng)好,或許(xu)就因人而異了,喜歡科(ke)幻(huan)、喜歡宏大敘(xu)事的(de)讀者(zhe),或許(xu)會(hui)更(geng)喜歡“洋和尚”的(de)文章,從個人角度來說(shuo)的(de)話,國內(nei)的(de)AI則表現得更(geng)好一些。
作文命題二選一,AI能理解嗎?
在本次的(de)(de)高考作文中,北京卷(juan)是給(gei)出(chu)了兩個命(ming)題(ti),考生(sheng)可以二選一(yi)進行作答,那么對于(yu)AI來說,它們遇到“選擇題(ti)”時,又會給(gei)出(chu)怎樣(yang)的(de)(de)回答呢?
首先是訊飛星火。

圖源:雷科技
內容來說是沒什么問題的,但是訊飛星火卻同時給出了兩篇文章,顯然是沒有意識到題目中的“任選一題”四個字的含義,而且從字數上看,兩篇均為500字左右,加起來是滿足700字以上的要求了,但是單獨算得話,全都不及格。
那么通義千問呢?

圖源:雷科技
問題(ti)同樣(yang)存在(zai),一(yi)樣(yang)是寫了兩篇(pian)文(wen)章,一(yi)樣(yang)是五百(bai)字左右,基(ji)本(ben)上與(yu)訊(xun)飛(fei)星火犯了一(yi)樣(yang)的錯誤。

圖源:雷科技
國內三巨頭里,目前來看只有文心一言正確理解了題意,從中選擇了“續航”為題目并撰寫了一篇文章,單就這一點來說,已經是贏了。但是,具體到文章本(ben)身來說,過于簡單且字數僅(jin)400+,甚至比訊(xun)飛星火和通(tong)義千問還少,放到高考里基本(ben)上就是不(bu)合格的了。
再來看看兩個(ge)“洋和尚”表現如(ru)何,首先是(shi)Claude。

圖源:雷科技
Claude也成功理解了題意,并且給出了自己的見解,從字數上來看,居然是目前所有AI中最接近的,足足有625個字,而且文章也從“續航”本身的詞義,到人生、社會、科技等方面進行了不同的解讀,總體而言更具有可讀性和連貫性,表現十分不錯。
另一方(fang)面(mian),New Bing則(ze)是(shi)給了我一個“驚喜”。

圖源:雷科(ke)技
是的,New Bing也理解了題(ti)意(yi),但是它反(fan)過來問(wen)我想讓它選擇回答哪個(ge)問(wen)題(ti),說實話(hua)挺樂(le)的,而在我做出了選擇后,New Bing又給了我一篇900+字(zi)數的文章(zhang)。從文章(zhang)內容,結(jie)構以及(ji)字(zi)數要(yao)求來說,New Bing是在這個(ge)環節中表現(xian)最(zui)好的(如果忽略掉反(fan)問(wen)我如何選擇的話(hua))。
而(er)且,在(zai)測試過(guo)程(cheng)中,New Bing還會(hui)提(ti)示“正在(zai)思(si)考,請等待”的回(hui)答,然后我足足等了五分鐘都沒有下文(wen)(偷懶是吧?),最終在(zai)我的催(cui)促下,New Bing的文(wen)章才(cai)姍姍來(lai)遲,活脫脫上(shang)班想摸魚卻被老板抓現行的員工(gong)。
最后
AI寫高考作文,雖然本質上是整活,但是也可以側面反映目前的各個平臺的AI技術能力如何。從以上兩個測試的表現來看,目前國內理解能力最強的應該是文心一言,畢竟是唯一能夠理解北京卷題意的AI,而在文章結構和內容來說,訊飛、文心、通義都差不多,不過訊飛的更像一篇普通作文。
至于海外的“洋和尚”,從表現來看確實是領先國內AI平臺不少的,至少在提問的理解能力上要高出不少,但是因為缺乏國內中文互聯網的訓練數據的原因,所有在遇到這些帶有“中國特色”的提問時,會選擇從普通提問的角度去解答。
總的(de)(de)來說,目前生成式AI還在快速(su)發展,各家(jia)都有著獨特的(de)(de)優點,同樣也存(cun)在一(yi)些問題,比如(ru)對文章(zhang)的(de)(de)字數要(yao)求總是誤發 正確(que)理解(jie)等。但(dan)是,考(kao)慮到(dao)它們(men)誕生的(de)(de)時(shi)間,已經(jing)是相(xiang)當恐(kong)怖的(de)(de)學(xue)習效率了。