今年(nian) 3 月 14 日,OpenAI 發布了新“核彈”——GPT-4。OpenAI 聯(lian)合創(chuang)始人 Sam Altman 表示,GPT-4 是“迄今為止功能最強(qiang)大的(de)語(yu)言模型”。與(yu)上一代相比(bi),GPT-4 更(geng)強(qiang)大更(geng)可(ke)靠,且(qie)更(geng)有創(chuang)造性。
GPT-4 的發布讓更多的人意識到,在聊天之外,人工智能的(de)(de)能力已不(bu)斷擴展,并(bing)引發(fa)(fa)了部分人群對職業危機的(de)(de)擔憂。有開發(fa)(fa)者(zhe)擔心,在(zai)未來的(de)(de)幾十年(nian)內(nei),AI 會循(xun)序漸進地取代一些(xie)開發(fa)(fa)崗位。
不(bu)過(guo),GPT-4 的(de)“野心”似乎不(bu)止于此,“取(qu)(qu)代(dai)程序(xu)員”浪(lang)潮(chao)未過(guo),新一(yi)輪“取(qu)(qu)代(dai)潮(chao)”已經(jing)掀起。這一(yi)次,GPT-4 瞄準了年薪 60 萬的(de)數據分析(xi)師。
近(jin)日,阿里達摩院與新加坡南洋理工大學發布了一個關于用 GPT-4 取代(dai)數據(ju)分析師的(de)(de)成本核算的(de)(de)研(yan)究論文。論文指出,隨著 LLM 的(de)(de)興起和(he)流行,不僅在(zai)(zai) NLP 社(she)區,其(qi)他諸多領(ling)域的(de)(de)人們都在(zai)(zai)考慮、或者擔心自己的(de)(de)崗位(wei)可能被(bei) AI 所取代(dai)。其(qi)中數據(ju)分析師成為 AI 時代(dai)下(xia)“首當其(qi)沖(chong)”的(de)(de)取代(dai)對(dui)象。
論(lun)文認(ren)為(wei),數據(ju)(ju)分析師(shi)(shi)的(de)主要工(gong)作(zuo)內容就是(shi)從業務數據(ju)(ju)中(zhong)識別出有(you)意義的(de)模式(shi)和(he)趨勢,并為(wei)利(li)益相關者提(ti)供(gong)有(you)價(jia)值的(de)見解、協助制定戰略決策。為(wei)了實現這個目標,數據(ju)(ju)分析師(shi)(shi)必須(xu)具備多種技能(neng),包括 SQL 查詢編寫、數據(ju)(ju)清洗和(he)轉換、可視(shi)化生(sheng)成和(he)數據(ju)(ju)分析。由于工(gong)作(zuo)流程(cheng)相對較(jiao)為(wei)固(gu)化確(que)定,因此公眾對于 AI 是(shi)否將取(qu)代數據(ju)(ju)分析師(shi)(shi)展開了激烈討論(lun)。
論(lun)文指出:“除了(le)所有數(shu)據(ju)分(fen)析(xi)師(shi)和(he) GPT-4 之(zhi)間(jian)(jian)的(de)可比績效外,我們可以(yi)注意到 GPT-4 所花費的(de)時(shi)間(jian)(jian)要比人(ren)類數(shu)據(ju)分(fen)析(xi)師(shi)短得多。我們假設每個月有大約 21 個工(gong)作(zuo)日(ri),每天工(gong)作(zuo) 8 小時(shi)左(zuo)右,并根(gen)據(ju)每個級別的(de)數(shu)據(ju)分(fen)析(xi)師(shi)所花費的(de)平均時(shi)間(jian)(jian)計算出每個實例在(zai)美(mei)元方(fang)面(mian)的(de)成本(ben)(ben)(ben)。GPT-4 的(de)成本(ben)(ben)(ben)約為初級數(shu)據(ju)分(fen)析(xi)師(shi)成本(ben)(ben)(ben)的(de) 0.71%和(he)高級數(shu)據(ju)分(fen)析(xi)師(shi)成本(ben)(ben)(ben)的(de) 0.45%。”
在脈(mo)脈(mo)上,不(bu)少(shao)數據分析(xi)(xi)師崗位給到了(le)月薪(xin) 40k 以(yi)上,以(yi)高級數據分析(xi)(xi)師年薪(xin) 60 萬(wan)元為例(li),GPT-4 的(de)成(cheng)本大概(gai)在 2700 元左右。
作為數據分析師,GPT-4 大概是什么水平?
在論文中,研究人(ren)員試圖分析:作為數據分析師,GPT-4 大概是(shi)個什么水(shui)平?
首先,研(yan)究(jiu)人員將數據分析(xi)師的主要工(gong)作內容分成三個(ge)步驟:
數據(ju)收集(ji):主(zhu)要包(bao)括理(li)解業務需(xu)求,并(bing)決定哪些數據(ju)源與需(xu)求有所關(guan)聯。確定了(le)相關(guan)數據(ju)后(hou),分析師就(jiu)可以通過 SQL 查詢或其(qi)他工(gong)具提取所需(xu)的(de)數據(ju)。
數據可視(shi)化:創建視(shi)覺輔助工(gong)具,例如圖(tu)形和圖(tu)表,借此高效(xiao)傳(chuan)達見解。
數據分(fen)(fen)析:在數據分(fen)(fen)析階段,分(fen)(fen)析師可能需要(yao)確定不同數據點之(zhi)間的(de)關聯性,識(shi)別異常和異常值,并跟蹤隨時間而(er)變化(hua)的(de)趨勢。在此過程中(zhong)得出的(de)見(jian)解,可以通過書面報告或演(yan)示文稿的(de)形(xing)式傳達給(gei)利益相(xiang)關者。
根(gen)據(ju)(ju)數據(ju)(ju)分(fen)析(xi)師(shi)的主(zhu)要工作范圍,研究人(ren)員專(zhuan)門(men)設計了一個 GPT-4 數據(ju)(ju)分(fen)析(xi)師(shi)模擬流程(cheng)。如下圖所示(shi),其中,業務問題(ti)和(he)數據(ju)(ju)庫等強制輸入信(xin)息顯示(shi)在右上角的藍色(se)框內,參考的外部知識源作為可選輸入則位于左上角的紅(hong)色(se)虛線框內。下方綠色(se)框中的是提取數據(ju)(ju)(data.txt)、數據(ju)(ju)可視化(figure.pdf)和(he)分(fen)析(xi)等輸出(chu)結果(guo)。
圖1
具體而言,給(gei)定一(yi)個與(yu)業務相關的問(wen)題(ti)(q)和一(yi)個或多個相關數據庫(ku)表(d)及(ji)其模式(s)。目(mu)標是提取所需數據(D),生(sheng)成(cheng)可視化圖(tu)表(G),并(bing)提供分析和見解(jie)(A)。
根據(ju)(ju)給定問題,分析(xi)(xi)師需(xu)要從(cong)數據(ju)(ju)庫中挑選出生成圖(tu)表所需(xu)要的數據(ju)(ju),并(bing)對這些數據(ju)(ju)做有意(yi)義(yi)的組織(zhi)排(pai)列。例如,“請展示散點圖(tu)中身高和(he)(he)體重(zhong)之間的相關性”。可以看到(dao),問題中還包含(han)了圖(tu)表類型信息,因此應當根據(ju)(ju)數據(ju)(ju)的性質和(he)(he)所提問題選擇合適(shi)(shi)的圖(tu)表類型,并(bing)使用(yong)合適(shi)(shi)的軟(ruan)件(jian)或(huo)編程語言生成圖(tu)表。最后,需(xu)要分析(xi)(xi)數據(ju)(ju)以確定有助于回答問題的趨勢(shi)、模式和(he)(he)見(jian)解。
研究(jiu)人員希望使用 GPT-4 實現整個數據分析過程(cheng)的自動化,并(bing)按圖 1 所示的步驟進行。這主要涉及三(san)個步驟:代(dai)碼(ma)生成(cheng)(藍色(se)箭(jian)頭(tou)所示)、代(dai)碼(ma)執(zhi)行(橙色(se)箭(jian)頭(tou)所示、分析生成(cheng)(綠色(se)箭(jian)頭(tou)所示)。該框架的算法如下圖所示:
圖2
為(wei)了(le)(le)判(pan)斷(duan) GPT-4 作為(wei)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)師(shi)的(de)(de)(de)水平(ping)如何,研究(jiu)(jiu)(jiu)人(ren)員(yuan)(yuan)選取(qu)了(le)(le) 200 個樣(yang)本,并對 GPT-4 的(de)(de)(de)輸出進行了(le)(le)系統(tong)且專業的(de)(de)(de)人(ren)工評(ping)估(gu)(gu)(gu)(gu),整個評(ping)估(gu)(gu)(gu)(gu)共分(fen)(fen)(fen)為(wei)兩組。研究(jiu)(jiu)(jiu)人(ren)員(yuan)(yuan)主要(yao)通(tong)過以下指標(biao),對 LLM 的(de)(de)(de)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)能力做定量評(ping)估(gu)(gu)(gu)(gu):性能、時間和(he)成(cheng)本。具(ju)體來說(shuo),研究(jiu)(jiu)(jiu)人(ren)員(yuan)(yuan)讓 GPT-4 作為(wei)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)師(shi)解決幾個端(duan)到端(duan)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)問題(ti)。由于此類(lei)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)問題(ti)沒有(you)可(ke)供參考的(de)(de)(de)現成(cheng)數(shu)(shu)據(ju)集,所以研究(jiu)(jiu)(jiu)人(ren)員(yuan)(yuan)選擇了(le)(le)相(xiang)關度最高的(de)(de)(de)數(shu)(shu)據(ju)集 NvBench,并在其中(zhong)添加了(le)(le)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)部分(fen)(fen)(fen)。研究(jiu)(jiu)(jiu)人(ren)員(yuan)(yuan)還設計了(le)(le)幾項自動和(he)人(ren)工評(ping)估(gu)(gu)(gu)(gu)指標(biao),用以綜合評(ping)估(gu)(gu)(gu)(gu)提取(qu)的(de)(de)(de)數(shu)(shu)據(ju)、繪(hui)制的(de)(de)(de)圖(tu)表和(he)生成(cheng)的(de)(de)(de)數(shu)(shu)據(ju)分(fen)(fen)(fen)析(xi)(xi)結論的(de)(de)(de)實際(ji)質量。
圖3
結果發(fa)現(xian),在(zai)正(zheng)(zheng)確選取圖(tu)(tu)(tu)表(biao)類型方(fang)(fang)面(mian)(mian),兩個評估(gu)(gu)組(zu)幾乎都拿下(xia)了(le)滿分(fen)(fen)(fen)。這說(shuo)明對(dui)于“繪制條形圖(tu)(tu)(tu)”、“顯示餅狀圖(tu)(tu)(tu)”等簡單明了(le)的(de)(de)指令(ling),GPT-4 能夠輕(qing)松理解(jie)其含義(yi),并結合關于圖(tu)(tu)(tu)表(biao)類型的(de)(de)背景知識正(zheng)(zheng)確繪制出適合的(de)(de)圖(tu)(tu)(tu)表(biao)。在(zai)美(mei)學得(de)分(fen)(fen)(fen)方(fang)(fang)面(mian)(mian),GPT-4 的(de)(de)平均得(de)分(fen)(fen)(fen)為 2.73 分(fen)(fen)(fen)(滿分(fen)(fen)(fen) 3 分(fen)(fen)(fen)),這表(biao)明生成(cheng)的(de)(de)大部(bu)分(fen)(fen)(fen)圖(tu)(tu)(tu)形對(dui)受眾來說(shuo)清晰、不存在(zai)格式(shi)錯(cuo)(cuo)誤(wu)。但在(zai)所繪制圖(tu)(tu)(tu)表(biao)的(de)(de)信息(xi)正(zheng)(zheng)確性方(fang)(fang)面(mian)(mian),GPT-4 的(de)(de)得(de)分(fen)(fen)(fen)無(wu)法(fa)令(ling)人(ren)滿意。研究人(ren)員手動檢(jian)查了(le)這些(xie)圖(tu)(tu)(tu)表(biao),從中發(fa)現(xian)了(le)一些(xie)小錯(cuo)(cuo)誤(wu),但大部(bu)分(fen)(fen)(fen)圖(tu)(tu)(tu)表(biao)仍給出了(le)基本正(zheng)(zheng)確的(de)(de)數字(zi)。研究人(ren)員的(de)(de)評估(gu)(gu)標(biao)準非常嚴格,只要任何(he)數據或者 x 軸(zhou)/y 軸(zhou)標(biao)簽有(you)誤(wu)就必須(xu)扣分(fen)(fen)(fen)。從這個角度(du)看,GPT-4 的(de)(de)工作(zuo)能力(li)仍有(you)進一步改(gai)進的(de)(de)空間。
在對分(fen)(fen)析(xi)(xi)能(neng)力的(de)評估方面,GPT-4 的(de)對齊度(du)(du)和流(liu)暢(chang)度(du)(du)均獲得(de)滿(man)分(fen)(fen)。這再次證明 GPT-4 特別善于(yu)生成(cheng)順(shun)暢(chang)且語法正(zheng)確(que)的(de)句子。不過(guo),分(fen)(fen)析(xi)(xi)的(de)平均正(zheng)確(que)性分(fen)(fen)數(shu)(shu)(shu)(shu)遠(yuan)高于(yu)數(shu)(shu)(shu)(shu)字(zi)的(de)信(xin)息正(zheng)確(que)性分(fen)(fen)數(shu)(shu)(shu)(shu),也(ye)就(jiu)是(shi)說(shuo),GPT-4 可能(neng)會生成(cheng)錯誤數(shu)(shu)(shu)(shu)字(zi),但分(fen)(fen)析(xi)(xi)結(jie)論(lun)卻是(shi)正(zheng)確(que)的(de)。圖表當中只有少(shao)數(shu)(shu)(shu)(shu)會產生重要影響的(de)數(shu)(shu)(shu)(shu)據錯誤點。而在復雜度(du)(du)得(de)分(fen)(fen)上,GPT-4 的(de) 2.16 分(fen)(fen)(滿(man)分(fen)(fen) 3 分(fen)(fen))也(ye)合理(li)且令人滿(man)意。
人類數據分析師 VS GPT-4,誰更勝一籌?
同樣的任務,專業的數據分析師會做得比 GPT-4 更好嗎?
為(wei)了(le)(le)(le)對比 GPT-4 與(yu)(yu)人類數據分析(xi)師的(de)表現,研(yan)究人員聘(pin)請了(le)(le)(le)幾(ji)位(wei)不同背景的(de)專業(ye)數據分析(xi)師重復完成任務,并與(yu)(yu) GPT-4 做了(le)(le)(le)全面比較。結(jie)果(guo)發現,總體(ti)來看,GPT-4 的(de)表現與(yu)(yu)人類數據分析(xi)師基本相當,但雙方在不同指標上各有優勢側重。
圖4
圖(tu) 4 第一(yi)部分(fen)(fen)表示一(yi)位在金融(rong)行業有 6 年以上(shang)(shang)工作經驗的高級(ji)數據分(fen)(fen)析師(Senior Data Analyst 1)在 10 個樣本上(shang)(shang)的表現。從(cong)表中可以看到,GPT-4 的性能在大多數指標上(shang)(shang)都與這位專(zhuan)業分(fen)(fen)析師相當(dang)。雖然(ran) GPT-4 的正確(que)性得分(fen)(fen)比(bi)人類分(fen)(fen)析師低,但復雜度得分(fen)(fen)和對齊度得分(fen)(fen)更(geng)高。
第二部(bu)分(fen)為 GPT-4 同另(ling)一位在互聯網領(ling)域(yu)擁有 5 年以(yi)上(shang)經驗(yan)的高級(ji)數據分(fen)析師(Senior Data Analyst 2)在 8 個樣本(ben)上(shang)的性(xing)(xing)能(neng)比較。由于樣本(ben)量相對較小,結果顯示人(ren)類(lei)分(fen)析師與(yu) AI 之間存(cun)在較大差異(yi)。人(ren)類(lei)分(fen)析師在信息(xi)正確(que)性(xing)(xing)、圖(tu)形(xing)美(mei)觀性(xing)(xing)、見解正確(que)性(xing)(xing)和復(fu)雜度等方面(mian)均超過了 GPT-4,表(biao)明大語言模型仍有改進的空間。
第三部(bu)分(fen)比較了 GPT-4 同一位在(zai)咨詢公司工作不足 2 年的(de)初級數(shu)據分(fen)析(xi)師(shi)間在(zai) 9 個隨機樣本上的(de)性能。GPT-4 不僅在(zai)數(shu)字和(he)分(fen)析(xi)正確性上表現更好,而且也(ye)比人類分(fen)析(xi)師(shi)更傾向于生成較為復雜的(de)分(fen)析(xi)結論(lun)。
此外,研(yan)究人(ren)(ren)員還對比(bi)(bi)了 GPT-4 與人(ren)(ren)類分析(xi)(xi)師所(suo)需的成本,結果發(fa)現(xian) GPT-4 花費的時間比(bi)(bi)人(ren)(ren)類分析(xi)(xi)師短得(de)多(duo)。
圖5
圖(tu) 5 為(wei)不(bu)同受試方(fang)之(zhi)間的(de)(de)成本比較。研究人員從 level.fyi 提取了(le)新(xin)加(jia)坡數(shu)(shu)(shu)據(ju)(ju)分(fen)析(xi)(xi)師(shi)的(de)(de)年薪中位(wei)數(shu)(shu)(shu),從 Glassdoor 查到了(le)新(xin)加(jia)坡數(shu)(shu)(shu)據(ju)(ju)分(fen)析(xi)(xi)師(shi)的(de)(de)平均年薪。假定每(mei)個月約(yue)有 21 個工(gong)作(zuo)日(ri),每(mei)天工(gong)作(zuo) 8 個小時(shi)左右,并按不(bu)同級(ji)別的(de)(de)數(shu)(shu)(shu)據(ju)(ju)分(fen)析(xi)(xi)師(shi)平均花費的(de)(de)時(shi)間來計(ji)算各個實例的(de)(de)具(ju)體(ti)成本(以美元計(ji)價)。最終結果是:在根(gen)據(ju)(ju)市場價格(ge)為(wei)各位(wei)數(shu)(shu)(shu)據(ju)(ju)分(fen)析(xi)(xi)師(shi)計(ji)費時(shi),GPT-4 的(de)(de)成本約(yue)是初級(ji)數(shu)(shu)(shu)據(ju)(ju)分(fen)析(xi)(xi)師(shi)的(de)(de) 0.71%,是高級(ji)數(shu)(shu)(shu)據(ju)(ju)分(fen)析(xi)(xi)師(shi)的(de)(de) 0.45%。
GPT-4 這樣的(de)(de)大語言模型真能取代人類(lei)(lei)數(shu)據(ju)分(fen)析師嗎?在論(lun)文的(de)(de)結尾,研究人員并未給出明確(que)結論(lun)。雖然(ran)從分(fen)析結果來(lai)看,GPT-4 的(de)(de)實(shi)際表現幾乎與(yu)人類(lei)(lei)相當,并且所(suo)需的(de)(de)成(cheng)本更低,但能否全面取代人類(lei)(lei)數(shu)據(ju)分(fen)析師仍(reng)需要進一(yi)步研究。
本文(wen)轉載來源:
//www.infoq.cn/news/6LAGtDef93ytGip8YVd1