百度、讯飞、阿里大模型高考作文挑战：都不及格，还有的读不懂题

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

百度、訊飛、阿里大模型高考作文挑戰：都不及格，還有的讀不懂題

作者 | 雷科技2023-06-08

又到了一年一度的高考時間，作為6月份關注度最高的事情，每年的高考總是能夠引來各路大神關注，不少自認文采出眾的網友，還會挑戰現場寫一篇高考作文，然后讓大家進行評分。

不過(guo)，今年的(de)(de)高考作文整活，似乎(hu)因為(wei)某些東(dong)西的(de)(de)出現而有了不一樣的(de)(de)結果。

是的，就(jiu)(jiu)是登(deng)上熱搜的AI高考(kao)作文(wen)，AI寫高考(kao)作文(wen)在去年(nian)其實就(jiu)(jiu)已經有(you)公司在嘗試，寫出來的文(wen)章從架構(gou)到立(li)意都相當不錯，即使是有(you)著多年(nian)教(jiao)學經驗(yan)的老(lao)教(jiao)師，看了都直接(jie)打個高分。

看到這里，或許你已經知道小雷想要整什么活了。沒錯，作為AI測試大師的小雷(ID：leitech)，決定拿今年的高考作文命題去考考國內的各大AI，看看大家寫的作文水平到底如何?

當然，除了國內的(de)AI，小雷也找來了一些海外的(de)AI，看看這些“洋和(he)尚(shang)”遇(yu)到中國高考，能不(bu)能整出一些新的(de)花(hua)樣。

廢話不多(duo)說，讓我(wo)們直接(jie)來看看各(ge)家的作文都寫得怎么(me)樣(yang)吧。

題目就一句話，能難倒AI嗎?

在(zai)今年的(de)高考作文(wen)命(ming)(ming)題(ti)中，上海(hai)卷可能是(shi)(shi)最讓學(xue)生(sheng)蒙圈的(de)，上海(hai)卷的(de)出題(ti)老師非(fei)常徹(che)底的(de)貫徹(che)了“惜字如金(jin)”四個字，整個作文(wen)命(ming)(ming)題(ti)的(de)描述加起來(lai)(lai)只(zhi)有(you)21個字：“一個人樂意去探索(suo)陌(mo)生(sheng)世(shi)界(jie)，僅僅是(shi)(shi)因為(wei)好(hao)奇心嗎? ”，作為(wei)曾經的(de)高考生(sheng)，小雷我是(shi)(shi)最怕遇到這種命(ming)(ming)題(ti)作文(wen)的(de)，從網絡上的(de)聲音來(lai)(lai)看，大家也是(shi)(shi)如此。

面對(dui)這種(zhong)只(zhi)有一句話描述的作文題目，AI又會如何(he)去解讀并回答呢?

先來看看訊飛的星火大模型。

圖源：雷科技

一篇(pian)標準的(de)討論(lun)文，作為曾經(jing)的(de)文科生(sheng)，小雷表(biao)示(shi)：“這個我(wo)熟(shu)”，從個人角度(du)而言，訊飛星火給的(de)這篇(pian)文章質(zhi)量是(shi)很高的(de)，AI首(shou)先肯定了“好奇心”是(shi)人類探索陌生(sheng)世界的(de)一大原因，并且(qie)對(dui)“好奇心”如何驅動我(wo)們去探索未知做出了解釋。

然后訊飛星火以此進一步擴展，提出了探索陌生世界并非僅僅是因為好奇心，并且從個人的成長、情感以及精神追求等方面進行解讀，最后再用總結點題，我的評價就四個字：“有理有據，令人信服”。

唯一的問題是，文章的字數似乎不到800字，從WPS給出的字數統計來看是762個字(加上標點符號)，按照審稿規范，估計會扣掉一些分數。

接下來，我(wo)們(men)有請通義千問來作(zuo)答。

圖源：雷科技

與訊(xun)飛星(xing)火不同(tong)，通義千問(wen)用了(le)(le)另一個(ge)角度(du)來(lai)解(jie)答命(ming)題，在開頭同(tong)樣先對“好(hao)奇心”驅使我們(men)探(tan)索未(wei)知世界這(zhe)段話(hua)進行了(le)(le)解(jie)析，然后再(zai)從社交(jiao)需要、求知欲(yu)和探(tan)索欲(yu)等方面(mian)進行解(jie)讀。

不(bu)過(guo)，在文章(zhang)的倒數(shu)(shu)第二段，或許是(shi)出(chu)于對提(ti)問者的建議，通義千問加入了(le)一(yi)段“安全(quan)提(ti)示(shi)”。雖(sui)然從內(nei)容來(lai)說是(shi)沒有(you)問題的，但是(shi)，如果將其作為高考作文來(lai)看，倒數(shu)(shu)第二段就(jiu)看起來(lai)有(you)點突(tu)兀了(le)，審(shen)稿老師估計(ji)也會一(yi)臉懵逼，所以，即使(shi)前面寫得不(bu)錯，也會因此而扣掉(diao)一(yi)些分數(shu)(shu)。

下一(yi)(yi)個(ge)“作者”是百度的文心一(yi)(yi)言，看看它又會(hui)怎樣回答這個(ge)問(wen)題?

圖源：雷科技

文(wen)心一(yi)言同樣選擇以討論文(wen)的(de)形式來撰寫作文(wen)，當然，這也是目前AI最擅長的(de)文(wen)章類型。從內容(rong)角度來說，文(wen)心一(yi)言的(de)回答也是十分不錯的(de)，但是過多的(de)段落(luo)和轉折詞(ci)，使得(de)文(wen)章有點像“流水賬”。

不過在最后的立意點題上，文心一言給出的回答則更好一些，沒有局限于個人層面，而是擴大到對其他個體的思考與包容中，給出了更宏大的立意。

接下來讓我們看看“洋和尚”的表現，首先是谷歌投資的Claude。

圖源：雷科技

首先(xian)從(cong)(cong)字(zi)數上(shang)看，Claude恐怕(pa)就沒有合格，WPS的(de)(de)檢測結果顯示這篇文章的(de)(de)字(zi)數為646，離(li)(li)800字(zi)還有一些距離(li)(li)。不過(guo)，從(cong)(cong)內容上(shang)看，Claude確實是給出了不同(tong)于國產AI的(de)(de)解答(da)，它從(cong)(cong)人(ren)(ren)類(lei)本(ben)身出發，以冒險基因(yin)和進取精神為核心，解讀了人(ren)(ren)類(lei)為什么(me)要探(tan)索陌生(sheng)世界(jie)。

從立意上來說，Claude或許是目前出場的AI中最高的，不僅僅是講到人類，更是將話題拓展到了文明的發展與延續、人類的未來等方面，讓人不禁有種“不明覺厲”的感覺。

不(bu)過，考慮到(dao)(dao)命題更多(duo)的(de)是對(dui)個(ge)體想法的(de)探索，雖然文章(zhang)內容不(bu)錯(cuo)，但是恐(kong)怕也拿不(bu)到(dao)(dao)滿分或(huo)是特別高的(de)分數。

最后(hou)，就讓我們來看(kan)看(kan)ChatGPT的回答吧，鑒于時間關系，小雷最終是在New Bing上得到的答復。

圖源：雷科技

不(bu)得不(bu)說(shuo)，New Bing給出(chu)的文章是(shi)所有回答(da)中最長的，字(zi)數高達1144個，考慮到文科答(da)卷的作文答(da)題區大小，恐怕會(hui)(hui)超出(chu)限(xian)制(zhi)，卷面分(fen)和文章本身的分(fen)數都會(hui)(hui)因此大打折扣。

至于文(wen)章本(ben)身，New Bing選擇從人類(lei)本(ben)身去探討(tao)這個問(wen)題，然后分別從求知欲、創造(zao)欲、競爭欲、自我實(shi)現等(deng)方(fang)面(mian)來討(tao)論人類(lei)為什么要探索陌生世界，立意(yi)方(fang)面(mian)也是與Claude相(xiang)似，喜(xi)歡從人類(lei)角度來思考這個問(wen)題。

從這里其實就可以看出海內外生成式AI在邏輯上的區別，在面對相同的問題時，海外的AI有時候會傾向于從一個更大的層面上去進行解讀，而國內的AI則更加扣題，選擇從個人角度出發進行解讀。

我認為兩者存在差異的原因主要有兩點：一是海外的訓練數據與國內的訓練數據不同;二是對中文問題的理解不同，國內的中文互聯網有著過去歷年的高考題目，所以AI在看到類似的題目時，會優先與相近的數據進行匹配，最終寫出一篇類似于高考作文的成品，而海外的AI則是將其看做對“人類探索陌生世界”問題的解讀，所以選擇從一個更廣泛的角度進行回答。

至于哪個AI的(de)文章更(geng)好，或許(xu)就因人而異了，喜歡科(ke)幻(huan)、喜歡宏大敘(xu)事的(de)讀者(zhe)，或許(xu)會(hui)更(geng)喜歡“洋和尚”的(de)文章，從個人角度來說(shuo)的(de)話，國內(nei)的(de)AI則表現得更(geng)好一些。

作文命題二選一，AI能理解嗎?

在本次的(de)(de)高考作文中，北京卷(juan)是給(gei)出(chu)了兩個命(ming)題(ti)，考生(sheng)可以二選一(yi)進行作答，那么對于(yu)AI來說，它們遇到“選擇題(ti)”時，又會給(gei)出(chu)怎樣(yang)的(de)(de)回答呢?

首先是訊飛星火。

圖源：雷科技

內容來說是沒什么問題的，但是訊飛星火卻同時給出了兩篇文章，顯然是沒有意識到題目中的“任選一題”四個字的含義，而且從字數上看，兩篇均為500字左右，加起來是滿足700字以上的要求了，但是單獨算得話，全都不及格。

那么通義千問呢?

圖源：雷科技

問題(ti)同樣(yang)存在(zai)，一(yi)樣(yang)是寫了兩篇(pian)文(wen)章，一(yi)樣(yang)是五百(bai)字左右，基(ji)本(ben)上與(yu)訊(xun)飛(fei)星火犯了一(yi)樣(yang)的錯誤。

圖源：雷科技

國內三巨頭里，目前來看只有文心一言正確理解了題意，從中選擇了“續航”為題目并撰寫了一篇文章，單就這一點來說，已經是贏了。但是，具體到文章本(ben)身來說，過于簡單且字數僅(jin)400+，甚至比訊(xun)飛星火和通(tong)義千問還少，放到高考里基本(ben)上就是不(bu)合格的了。

再來看看兩個(ge)“洋和尚”表現如(ru)何，首先是(shi)Claude。

圖源：雷科技

Claude也成功理解了題意，并且給出了自己的見解，從字數上來看，居然是目前所有AI中最接近的，足足有625個字，而且文章也從“續航”本身的詞義，到人生、社會、科技等方面進行了不同的解讀，總體而言更具有可讀性和連貫性，表現十分不錯。

另一方(fang)面(mian)，New Bing則(ze)是(shi)給了我一個“驚喜”。

圖源：雷科(ke)技

是的，New Bing也理解了題(ti)意(yi)，但是它反(fan)過來問(wen)我想讓它選擇回答哪個(ge)問(wen)題(ti)，說實話(hua)挺樂(le)的，而在我做出了選擇后，New Bing又給了我一篇900+字(zi)數的文章(zhang)。從文章(zhang)內容，結(jie)構以及(ji)字(zi)數要(yao)求來說，New Bing是在這個(ge)環節中表現(xian)最(zui)好的(如果忽略掉反(fan)問(wen)我如何選擇的話(hua))。

而(er)且，在(zai)測試過(guo)程(cheng)中，New Bing還會(hui)提(ti)示“正在(zai)思(si)考，請等待”的回(hui)答，然后我足足等了五分鐘都沒有下文(wen)(偷懶是吧?)，最終在(zai)我的催(cui)促下，New Bing的文(wen)章才(cai)姍姍來(lai)遲，活脫脫上(shang)班想摸魚卻被老板抓現行的員工(gong)。

最后

AI寫高考作文，雖然本質上是整活，但是也可以側面反映目前的各個平臺的AI技術能力如何。從以上兩個測試的表現來看，目前國內理解能力最強的應該是文心一言，畢竟是唯一能夠理解北京卷題意的AI，而在文章結構和內容來說，訊飛、文心、通義都差不多，不過訊飛的更像一篇普通作文。

至于海外的“洋和尚”，從表現來看確實是領先國內AI平臺不少的，至少在提問的理解能力上要高出不少，但是因為缺乏國內中文互聯網的訓練數據的原因，所有在遇到這些帶有“中國特色”的提問時，會選擇從普通提問的角度去解答。

總的(de)(de)來說，目前生成式AI還在快速(su)發展，各家(jia)都有著獨特的(de)(de)優點，同樣也存(cun)在一(yi)些問題，比如(ru)對文章(zhang)的(de)(de)字數要(yao)求總是誤發正確(que)理解(jie)等。但(dan)是，考(kao)慮到(dao)它們(men)誕生的(de)(de)時(shi)間，已經(jing)是相(xiang)當恐(kong)怖的(de)(de)學(xue)習效率了。

百度