
編譯 | 凌敏、核子可樂
自去年(nian)年(nian)底通(tong)(tong)過 ChatGPT 驚(jing)艷全球以來,OpenAI 一(yi)直保持著驚(jing)人的(de)(de)產品發布速度,通(tong)(tong)過迅如閃電的(de)(de)“組合拳”保持該公司在 AI 領(ling)域建立的(de)(de)統治地位與領(ling)導者(zhe)形象。
但其他科技巨頭(tou)絕不可(ke)(ke)能(neng)坐視 OpenAI 一(yi)家(jia)獨大(da)。谷歌已經公(gong)布大(da)語(yu)言模型 Gemini,計劃于今年秋季首次與(yu)廣大(da)用戶(hu)(hu)見(jian)面(mian),且有報(bao)道稱(cheng)該模型已經在接受指定企業客(ke)戶(hu)(hu)的(de)測試(shi)。從(cong)目前的(de)情(qing)況看,谷歌有可(ke)(ke)能(neng)后來(lai)居(ju)上、實現反超(chao)。
面對挑(tiao)戰,OpenAI 連續(xu)放(fang)大招,除了發(fa)布新指令語言模型(xing) GPT-3.5-turbo-instruct,還計劃(hua)推出(chu)多模態大模型(xing) GPT-Vision 與 Gobi。據一位(wei)未公開身份的知情人士(shi)透(tou)露,OpenAI 在積極將(jiang)多模態功能(類似于 Gemini 將(jiang)要提供(gong)的功能)納入 GPT-4。
新語言模型 InstructGPT-3.5
近日,OpenAI 推(tui)出(chu) GPT-3.5-turbo-instruct,這是(shi)一款新的指令(ling)語言(yan)模(mo)型(xing),效率(lv)可以與聊天優化的 GPT-3.5 Turbo 模(mo)型(xing)相媲美。
指令模(mo)型屬于大(da)語(yu)言模(mo)型的一(yi)種,會(hui)在(zai)使用一(yi)大(da)量數據進(jin)行預訓(xun)練之后,再通過人類(lei)反饋(RLHF)做進(jin)一(yi)步完(wan)善。在(zai)此過程中,會(hui)由人類(lei)負(fu)責評(ping)估(gu)模(mo)型根據用戶提示詞生成(cheng)的輸出,對結果做改進(jin)以達成(cheng)目標(biao)效果,再將更新后的素材用于進(jin)一(yi)步訓(xun)練。
因此,指令模型(xing)能夠更好地理(li)解并(bing)響應人(ren)類的(de)(de)(de)查詢預期(qi),減少錯誤并(bing)緩解有(you)(you)害內容的(de)(de)(de)傳(chuan)播(bo)。從 OpenAI 的(de)(de)(de)測試(shi)結果來(lai)看,盡管體量僅為(wei)后者(zhe)的(de)(de)(de)百(bai)分之(zhi)一,但(dan)人(ren)們明顯(xian)更喜歡擁有(you)(you) 13 億(yi)參數(shu)的(de)(de)(de) InstructGPT 模型(xing),而非擁有(you)(you) 1750 億(yi)參數(shu)的(de)(de)(de) GPT 模型(xing)。
據了(le)解(jie),GPT-3.5-turbo-instruct 的(de)成本(ben)與(yu)性能同其他具(ju)有 4K 上下文窗口(kou)的(de) GPT-3.5 模(mo)型相同,使用的(de)訓練數據截止于 2021 年 9 月。

GPT-3.5-turbo-instruct 將取代一系列現有 Instruct 模型,外加 text-ada-001、text-babbage-001
和 text-curie-001。這三款 text-davinci 模型將于 2024 年 1 月 4 日正式停用。
OpenAI 表示,GPT-3.5-turbo-instruct 的(de)訓練方式與之(zhi)前的(de)其他 Instruct 模(mo)型類似。該公司并未提供新 Instruct 模(mo)型的(de)細節(jie)或基準(zhun),而(er)是參考(kao)了 2022 年(nian) 1 月發布的(de) InstructGPT,即 GPT-3.5 模(mo)型的(de)實現基礎。
OpenAI 稱,GPT-4 擁有(you)超越 GPT-3.5 的復雜指(zhi)令遵循能力,生成(cheng)的結果也比 GPT-3.5 質量更高;但 GPT-3.5 也有(you)自己的獨特優(you)勢,例如速(su)度更快且運行成(cheng)本更低。GPT-3.5-turbo-instruct 并非(fei)聊天模型,這(zhe)一點(dian)與原始 GPT-3.5 有(you)所區別。具(ju)體來講,與之前的聊天應用模型不同,GPT-3.5-turbo-instruct 主要針對直接問答或文本補全進(jin)行優(you)化。
速(su)度(du)(du)方面,OpenAI 稱 GPT-3.5-turbo-instruct 速(su)度(du)(du)與 GPT-3.5-turbo 基本相(xiang)當。
下圖為 OpenAI 設計的(de) Instruct 指令模型與 Chat 聊天模型之(zhi)間的(de)區(qu)別。這(zhe)種固有差(cha)異自然(ran)會(hui)對提(ti)示(shi)詞的(de)具體(ti)編寫產生(sheng)影(ying)響。

OpenAI 負責開發者關系的 Logan Kilpatrick 稱,這套新的指令模型屬于向 GPT-3.5-turbo
遷移當中的過渡性產物。他表示其并不屬于“長期解決方案”。已經在使用微調模型的用戶,需要根據新的模型版本做重新微調。目前微調功能只適用于
GPT-3.5,GPT-4 的微調選項計劃于今年晚些時候發布。
多模態大模型GPT-Vision 與 Gobi
除(chu)了 GPT-3.5-turbo-instruct,OpenAI 近日還計劃發布(bu)多(duo)模(mo)態(tai)大(da)模(mo)型 GPT-Vision,以及一個(ge)代號為“Gobi”的更強大(da)的多(duo)模(mo)態(tai)大(da)模(mo)型。
據(ju)悉,GPT-Vision 在 3 月份的 GPT-4 發布期間首(shou)次預覽,是 OpenAI 融合文(wen)本(ben)和視(shi)覺(jue)領域的雄心勃(bo)勃(bo)的嘗試。雖然該功能(neng)最(zui)初(chu)實際用例(li)僅限于 Be My Eyes 公司(si)(si),這家公司(si)(si)通過其移(yi)動應用幫助(zhu)視(shi)力障礙或(huo)失明(ming)用戶(hu)進行日(ri)常活(huo)動。
GPT-Vision 有(you)(you)潛力重新(xin)定義創意內容(rong)(rong)生(sheng)(sheng)成的界限。想(xiang)象(xiang)一下使(shi)用簡單的文本(ben)提示生(sheng)(sheng)成獨特的藝術品、徽標(biao)或(huo)模(mo)因。或(huo)者考慮一下對有(you)(you)視覺(jue)(jue)(jue)障礙的用戶的好處,他們可以通過自然(ran)語言查詢與視覺(jue)(jue)(jue)內容(rong)(rong)交互并理解(jie)視覺(jue)(jue)(jue)內容(rong)(rong)。該技術還有(you)(you)望徹底改變視覺(jue)(jue)(jue)學(xue)習和教育(yu),使(shi)用戶能夠(gou)通過視覺(jue)(jue)(jue)示例學(xue)習新(xin)概(gai)念。
如今,OpenAI 正準備將這(zhe)項名為 GPT-Vision 的功(gong)能(neng)開放給更廣泛(fan)的市場受眾。
此外,據 The Information 報道,OpenAI 即(ji)將發布代號(hao)為(wei)(wei)“Gobi”的下(xia)一代多模態大語言模型(xing),希望借此擊敗谷歌并(bing)繼(ji)續保持市場領先地位。目前,Gobi 的訓(xun)練還沒有開(kai)始(shi),有評論認為(wei)(wei)其有機會成為(wei)(wei) GPT-5。
報(bao)道稱,OpenAI 之所以耗費大量(liang)時間(jian)來推出 Gobi,主要是擔心新的(de)視(shi)覺功能會被壞人(ren)利用(yong),例如通過(guo)自動解決驗(yan)證碼來冒充(chong)人(ren)類,或者通過(guo)人(ren)臉(lian)識(shi)別追蹤人(ren)們。但(dan)現在(zai),OpenAI 的(de)工程師(shi)們似乎(hu)想到(dao)辦法來緩解這個安全問(wen)題(ti)了。
OpenAI CEO:GPT-5 尚未出現,計劃將多模態功能納入 GPT-4
據了解(jie),多(duo)模(mo)態大(da)語(yu)言(yan)模(mo)型(xing)的(de)本(ben)(ben)質是一種先(xian)進(jin) AI 系統(tong),能(neng)夠(gou)理(li)解(jie)和處理(li)多(duo)種數(shu)據形式,包括(kuo)文本(ben)(ben)和圖像。與主要處理(li)文本(ben)(ben)內容的(de)傳統(tong)語(yu)言(yan)模(mo)型(xing)不同,多(duo)模(mo)態大(da)語(yu)言(yan)模(mo)型(xing)能(neng)夠(gou)同時對文本(ben)(ben)加視(shi)覺類(lei)內容進(jin)行(xing)分析和生成。
也就是說,這類模(mo)型可(ke)以(yi)解釋(shi)圖(tu)像、理(li)解上下文(wen)并生成包含文(wen)本和視(shi)覺輸入的響應結(jie)果。多模(mo)態(tai)大模(mo)型還(huan)擁有極高的通用(yong)(yong)(yong)性,適用(yong)(yong)(yong)于從自(zi)然(ran)語言理(li)解到圖(tu)像解釋(shi)的諸多應用(yong)(yong)(yong),借此提供更(geng)廣泛的信息處理(li)能力(li)。
報道指出,“這些模型能夠處理圖像(xiang)和文本,例(li)如(ru)(ru)通(tong)過查看用戶(hu)繪(hui)制的網(wang)站外觀草圖來生成網(wang)站構建代碼(ma),或者根據文本分析結果輸出可視化(hua)圖表(biao)。如(ru)(ru)此一來,普(pu)通(tong)用戶(hu)也能快速理解內容含義,不必再向(xiang)擁有技術背景(jing)的工程師們求助。”
OpenAI 首席(xi)執行(xing)官 Sam Altman 在最近的采訪中(zhong)表示(shi),盡(jin)管 GPT-5 尚未出現(xian),但他們正計劃對 GPT-4 進行(xing)各種增強(qiang)。而開放多(duo)模(mo)態支持功(gong)能(neng),也許(xu)就是這項計劃的一部分(fen)。
在上周(zhou)接受《連線(xian)》采(cai)訪時,谷(gu)歌 CEO 桑達爾·皮查伊表達了他對(dui)(dui)(dui)于谷(gu)歌當(dang)前 AI 江湖地(di)位的(de)信(xin)心,強(qiang)(qiang)調其(qi)仍(reng)掌(zhang)握(wo)著(zhu)技術領先優勢(shi)、并(bing)在創(chuang)新(xin)與責任方面求取平衡的(de)審(shen)慎戰略。他也對(dui)(dui)(dui) OpenAI ChatGPT 的(de)深遠意義表示(shi)認可,稱贊其(qi)擁有良好的(de)產品(pin) - 市場契合度(du)、讓用戶對(dui)(dui)(dui) AI 技術做(zuo)好了準備。但他同時強(qiang)(qiang)調,谷(gu)歌在產品(pin)信(xin)任和負(fu)責態度(du)方面會采(cai)取更加謹慎的(de)立場。
參考鏈接:
//the-decoder.com/openai-releases-new-language-model-instructgpt-3-5/
//www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm
//aibeat.co/openai-multimodal-llm-gpt-vision-google/