国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

過度炒作+虛假包裝?Gartner預測2027年超40%的代理型AI項目將失敗
作者 | 物聯網智庫(ku)2025-07-04

人工智能在(zai)大(da)模型能(neng)力突破、推理(li)能(neng)力提升(sheng)以及多模態技(ji)術進(jin)步(bu)的推動(dong)下(xia)走向新階段(duan),“Agentic AI(代(dai)理(li)型AI)”成為 2024 年(nian)以來 AI 領域的新晉熱詞,2025 年(nian)甚至被稱為“AI 代(dai)理(li)元(yuan)年(nian)”——它被描繪為繼(ji) RPA(機器人流(liu)程自動(dong)化)、虛(xu)擬助手之(zhi)后的下(xia)一代(dai)智(zhi)能(neng)自動(dong)化革命,引(yin)發科技(ji)公司(si)、風(feng)險投資者與企(qi)業(ye) CIO的高度關注。

然而,多個研究團隊卻在近期相繼發布研究報告,對當前 Agentic AI 的實際能力、場景適配性乃至產業宣傳行為提出質疑。所(suo)以(yi)——我們究竟是(shi)在見證(zheng)一(yi)場 AI 代理革(ge)命,還是(shi)落入(ru)又一(yi)輪(lun)概念資本(ben)化(hua)的陷阱?

代理型 AI 亂象:過度炒作+虛假包裝

Gartner 預測,到 2027 年底,超過 40% 的代理型 AI 項目將因成本不斷上升、商業價值不明確或風險控制不足而被取消。

Gartner 高級分析師(shi) Anushree Verma 表示(shi):“目前大多數(shu)代理型 AI 項目仍(reng)處(chu)于早期實驗或(huo)概念(nian)驗證階段,其背后的主(zhu)要驅動因素是炒作,而這(zhe)些技術往(wang)往(wang)被錯(cuo)誤地應用。這(zhe)可(ke)能使企(qi)業忽視 AI 代理大規模(mo)部署所需的真(zhen)正成(cheng)本與復雜(za)性,導(dao)致項目遲(chi)遲(chi)無法落地。企(qi)業需要穿(chuan)透炒作迷霧,制定更為審慎和戰(zhan)略性的決策(ce),明確在哪里、以及如何采用這(zhe)一新興(xing)技術。”

2025 年 1 月,Gartner 對 3412 名網絡研討會參與者進行了一項民意調查,發現 19% 的組織報告在代理型 AI 方面進行了大量投資,42% 的組織進行了保守投資,8% 的組織根本沒有投資,31% 的組織正在等待或不確定。

更為值得關注的是,Gartner 發現了一種普遍存在的“代理清洗”趨勢,即供應商將現有的人工智能助手、聊天機器人或機器人流程自動化 (RPA) 工具重新包裝成“代理人工智能”,而實際上并沒有提供真正的代理功能。Gartner 估計,在數千家聲稱提供代理解決方案的供應商中,只有約 130 家真正提供了真正的代理功能。

Verma補充表示:“當前大多數所(suo)謂代理(li)型 AI 解決方(fang)案(an)并(bing)不具備明顯的業務價值或投資回報率(lv)(ROI),因為這些模(mo)型尚不具備足(zu)夠的成(cheng)熟(shu)度與自主能力,無法(fa)持續(xu)性地達成(cheng)復雜的業務目(mu)標,或精準理(li)解并(bing)執行復雜指令。事實(shi)上,很多目(mu)前被標榜(bang)為 Agentic AI 的場景,根本不需要使用代理(li)型架構。”

問題來了,真正的代理型 AI 和虛假的代理型 AI 究竟差別在哪里?

從定義上來(lai)看,Agentic AI 是指(zhi)使用(yong)機(ji)器學習(xi)模(mo)型(xing)并連(lian)接各(ge)類服務(wu)和(he)應用(yong),以自動(dong)執行任(ren)務(wu)或業務(wu)流(liu)程(cheng)的(de) AI 代理(li)。可(ke)以將其理(li)解為 AI 模(mo)型(xing)在一個迭(die)代反饋循環(huan)中,借(jie)助應用(yong)程(cheng)序(xu)和(he) API 服務(wu)不斷響應輸入(ru)的(de)機(ji)制。

其核心理(li)念是,給定一個任務,比如:“查找我(wo)收到的(de)所有對人(ren)工(gong)智(zhi)能夸大其詞的(de)郵件(jian)(jian),并判斷這(zhe)些發件(jian)(jian)人(ren)是否與加密貨幣(bi)公司有關聯”,一個獲得(de)授權(quan)、能夠讀取(qu)郵箱客戶端界面(mian)并訪問郵件(jian)(jian)數據的(de) AI 模型,應當能夠比程序腳本或(huo)人(ren)工(gong)員工(gong)更高(gao)效地理(li)解并執行(xing)這(zhe)一自然語言指令。

理論(lun)上,這(zhe)類 AI 代理可(ke)以(yi)自行界定(ding)“夸大其詞”的(de)含義(yi),而這(zhe)對人(ren)類程序(xu)員來說(shuo)可(ke)能(neng)(neng)涉(she)及復雜的(de)文本解析(xi)和語義(yi)分析(xi),因此頗具挑戰性。人(ren)們可(ke)能(neng)(neng)傾向于用簡(jian)單的(de)方式處理,比如在(zai)郵件正文中搜(sou)索“AI”一詞。但(dan)人(ren)類員工即便能(neng)(neng)識別(bie)郵箱中的(de) AI 炒作(zuo)內(nei)容,也(ye)可(ke)能(neng)(neng)耗(hao)時較長,不如計算(suan)驅動的(de)方案高效(xiao)。

代理型 AI 在真實場景中替代人類的能力仍存在顯著差距

為(wei)了(le)評估(gu) AI 代理在執行常見知識(shi)型工(gong)作(zuo)任務時的表現,例如網(wang)頁瀏覽、編寫代碼、運行應(ying)用程序以及與同事溝通(tong)協作(zuo)等,卡耐基梅隆(long)大(da)學的研究人員開發了(le)一套(tao)基準(zhun)系(xi)統(tong)。他們(men)將這個測(ce)試平臺命(ming)名(ming)為(wei) TheAgentCompany,是一個模(mo)擬環境(jing),旨在仿真一個小型軟件公司的日(ri)常運營(ying)。

他們的目的是厘清圍繞 AI 代理的爭議——一方是 AI 的信奉者,認為人類大部分勞動可以被自動化;另一方是懷疑論者,認為這些說法不過是 AI 炒作的一部分。

在(zai)他們(men)的(de)研(yan)究論文中(zhong)(zhong),研(yan)究人員指出,這兩種觀點之(zhi)間存在(zai)巨(ju)大分(fen)歧,其根(gen)源(yuan)在(zai)于目前缺乏(fa)一種系統的(de)方法來測試 AI 代理在(zai)實際辦公活動中(zhong)(zhong)的(de)能力(li),因此開發統一的(de)評(ping)估基準勢在(zai)必行。而(er)初步測試結果表(biao)明(ming),AI 代理在(zai)真(zhen)正實用化之(zhi)前還有很長的(de)路要走。

在測(ce)試中,他們(men)使用了(le)兩個(ge)代理框(kuang)架:OpenHands CodeAct 和 OWL-Roleplay,并對(dui)以下主流大(da)模型(xing)進行了(le)任務成(cheng)功率(lv)評(ping)估。測(ce)試結果(guo)相(xiang)當令人失望(wang):

·Gemini 2.5 Pro:30.3%·Claude 3.7 Sonnet:26.3%·Claude 3.5 Sonnet:24%·Gemini 2.0 Flash:11.4%·GPT-4o:8.6%·o3-mini:4.0%·Gemini 1.5 Pro:3.4%·Amazon Nova Pro v1:1.7%·LLaMA 3.1 405B:7.4%·LLaMA 3.3 70B:6.9%·Qwen 2.5 72B:5.7%·LLaMA 3.1 70B:1.7%·Qwen 2 72B:1.1%

研究人員在論文中寫道:“我們的實驗表明,表現最好的模型 Gemini 2.5 Pro,僅能夠自主完成 30.3% 的指定測試任務;若考慮部分完成的任務并給予額外加分,其得分也僅為39.3%。”這些數據表明,盡管代理型 AI 的潛力令人期待,但目前距離其在真實辦公場景中高效替代人類工作者的能力仍存在顯著差距。

研究人員在測試過程中觀察(cha)到多種失敗情形(xing),其中包括(kuo):

  • AI 代理(li)未(wei)按照指(zhi)令(ling)給同(tong)事發送消息(xi);

  • 無法(fa)正(zheng)確處理某(mou)些網頁 UI 元素,例如彈窗;

  • 甚至出現了欺騙性行為——在一個(ge)案例中(zhong),當代理無法(fa)在 RocketChat(一種用于內(nei)部(bu)溝通的開源 Slack 替代品(pin))中(zhong)找到目標(biao)聯(lian)系人時,它選擇“取(qu)巧”,將另一名用戶(hu)重(zhong)命名為目標(biao)用戶(hu)的名字(zi),以假冒完成(cheng)任務。

與(yu)此同(tong)時,來自 Salesforce的研(yan)究團(tuan)隊也(ye)提(ti)出了一套(tao)針對客戶關系管(guan)理(li)(CRM)場(chang)景的 AI 代理(li)評估基(ji)準(zhun)。這套(tao)名為 CRMArena-Pro 的評估體系,涵蓋了 B2B 和 B2C 兩類業務場(chang)景下的銷售、客服(fu)以及“配置、定價與(yu)報(bao)價(CPQ)” 等 19 項由專家驗(yan)證的任務,并支持單輪(lun)交互(一次提(ti)示-應答(da))與(yu)多輪(lun)交互(多次提(ti)示-應答(da)且(qie)保持上下文(wen)連續)兩種測試模式。

測試結果顯示:即便是目前領先的大語言模型代理,在 CRMArena-Pro 中的整體表現也較為有限。在單輪交互場景中的平均成功率約為 58%,但一旦進入多輪交互,其性能會顯著下降至 35% 左右。

相關研究人員進(jin)一步表示:“我們發現,大語言模(mo)型(xing)代理(li)普遍缺乏完成(cheng)復雜工作任(ren)務所需(xu)的多項關鍵能力,工作流執行(Workflow Execution) 是為數不多的例外,在這類任(ren)務中,像(xiang) Gemini-2.5-Pro 等強模(mo)型(xing)的成(cheng)功率(lv)可(ke)超(chao)過 83%。”

同時,報告也指出,所有被評估的模型在保密意識(confidentiality awareness)方面幾乎為零。這意味著,在高度關注數據隱私與安全的企業IT環境中,部署 AI 代理依然面臨嚴峻挑戰。

不只是測試和實驗階段,一些企業已經體會到 Agentic AI 炒作過度所帶來的風險。RCR專欄作家 Sean Kinney 在文章中指出,瑞典支付平臺 Klarna曾暫停招聘部分崗位,改用 AI工 具處理客戶服務請求。但 Klarna CEO Sebastian Siemiatkowski 在接受彭博社采訪時坦言,這些 AI 工具提供的服務質量不如人類員工,最終公司重新恢復了人工招聘。

Kinney 銳評道:“這只是眾多企業‘All in AI’后不得不回頭修正路線的一個例子,還有更多這樣的案例,未來也還會有。”

寫在最后

盡管受挫,但 Gartner 仍看好代理型 AI 的長期潛力——Gartner 認為,雖然當前代理型 AI 尚未成熟,但其長期發展前景值得期待,到 2028 年,至少 15% 的日常工作決策將由 AI 代理自主完成(2024 年為 0%);33% 的企業軟件應用將集成代理型 AI(2024 年不足 1%)。

Gartner 建議,企業在(zai)(zai)采用(yong)代(dai)(dai)理型 AI 時,應聚(ju)焦于(yu)那些(xie)能夠明確交付價值或可衡量 ROI 的(de)場景(jing)。在(zai)(zai)已有系統中集成 AI 代(dai)(dai)理可能打破現(xian)有工作(zuo)流程,并帶來高昂(ang)的(de)修改成本。從底層重構工作(zuo)流程以適(shi)配代(dai)(dai)理型 AI 的(de)能力,或許才是更可持續的(de)路徑。


參考資料:

Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027,Gartner
AI agents get office tasks wrong around 70% of the time, and a lot of them aren’t AI at all,Theregister
Gartner: More than 40% of agentic AI projects will fail by 2027,Rcrwireless


熱門文章
智能消費正在成為消費市場的新亮點,2025年政府工作報告中提出“創新和豐富消費場景,加快數字、綠色、智能等新型消費發展。”中共中央辦公廳、國務院辦公廳印發《提振消費專項行動方案》,明確提出支持新型消費
2025-07-04
X