各家廠商都有自己的 AI 芯片,但華為率先做到了從芯片到應用,再到云服務的高度協同。
手機上的 NPU
推出了四年,時間已不算短,人工智能應用得怎么樣了?
現(xian)在很多手(shou)機(ji)(ji)芯片上都(dou)有 AI
計算單元,每個人(ren)都(dou)可(ke)以有自己的(de)答案。不(bu)過用華為手(shou)機(ji)(ji)的(de)人(ren),獲得(de)的(de)體驗經常比其(qi)他用戶好一(yi)點:他們的(de)手(shou)機(ji)(ji)有更(geng)強的(de)信(xin)號(hao),均衡(heng)的(de)能(neng)效比,還(huan)有融合在系統中,提供便(bian)利的(de)各種(zhong)
AI 功能(neng)。
華為的(de)(de)產品還(huan)支持最新 AI 算法(fa),你也許會發現,同樣(yang)的(de)(de) App 在(zai)華為手機上多了一些專屬(shu)的(de)(de)能(neng)力,如實時視頻超分(fen)辨率、視頻風格遷(qian)移、本地化的(de)(de)輸入法(fa)預測等(deng)等(deng)。
今天,人工智能不是「元宇宙」這樣遙不可及的(de)概念,而是已被(bei)每天數億人大(da)量使用的(de)普遍技術,它甚(shen)至改變了很多人打開 App 的(de)方式(shi)。
這些(xie) AI 技術的(de)效果(guo)超(chao)出了人(ren)們的(de)最初(chu)想(xiang)象。
我們對(dui)于「視頻(pin)超分辨率(lv)」的(de)印象,大多還停留在英(ying)偉達 GPU 對(dui)于游(you)戲(xi)大作的(de)幀率(lv)加成(cheng)(cheng)上。自從(cong) RTX 系列顯卡誕生以來(lai),深度學(xue)習超采樣技術 DLSS 大幅提升了玩家的(de)游(you)戲(xi)體驗。這種技術可以通(tong)過深度學(xue)習把低分辨率(lv)圖像(xiang)自動「腦(nao)補」成(cheng)(cheng)高分辨率(lv),輸出 4K 分辨率(lv)的(de)畫面時,只需(xu)生成(cheng)(cheng) 1080P 的(de)畫面再用(yong) AI 來(lai)轉化,可以減小顯卡負擔,提升效率(lv)。
打游戲有(you)這(zhe)么大(da)的提升,在(zai)手機上看(kan)短視頻和直播能(neng)不(bu)能(neng)加入超清效(xiao)果呢(ni)?HUAWEI HiAI Foundation 已經讓很多應用實現(xian)了這(zhe)個能(neng)力。
「在超分辨率任務上,傳統算法需要 CPU 和 GPU
對圖像進行二次加工計算,功耗極高,效果就像是『調亮了一點』,并不明顯,」華為技術專家表示。「若想解決算力、IO、功耗等問題需要結合 HUAWEI HiAI
Foundation 和 NPU 來完成。我們與很多廠商合作,在當前主流的 App 上集成了畫質增強功能。」
原畫面、AI 超分辨率算法和低分辨率 + 銳化處理的對比。
今年 3 月,在(zai)愛奇(qi)藝 App 最新發布的版本(ben)中,愛奇(qi)藝與(yu) HUAWEI HiAI Foundation 合作,在(zai)帶(dai)有 NPU
機型的應用上(shang)率(lv)先提供了(le)「增強畫質」功(gong)能。該功(gong)能可讓視(shi)頻在(zai) 480P 分辨(bian)率(lv)播放過程中,保持相同流量消耗的情況下(xia)體驗到更(geng)高清(qing)品質的視(shi)覺效果。
這項功能適配了從 Nova 6 到 Mate 40 系列等(deng)多個(ge)華為機型(xing)。

開(kai)啟(qi)畫(hua)質增強功能后,480P 及以下清晰度(du)的(de)視頻可以秒變(bian)高清,大致相(xiang)當于 1080P 的(de)水平。
「增強畫(hua)質」是(shi)基(ji)于愛奇藝自研超分算法部署在麒麟芯片 NPU 引擎(神經(jing)網絡處理器)和(he) HUAWEI HiAI Foundation 上的功能,可以在畫(hua)面(mian)輪廓清晰度、畫(hua)面(mian)通透性、色彩飽和(he)度等方面(mian)實現明顯提升。
通(tong)過這一(yi)能力,手(shou)機可以在本地完成視頻實時(shi)增強畫質(zhi)處理(li),在不影響(xiang)幀率的情況下(xia)把清(qing)晰度提升兩(liang)倍,有(you)效解(jie)決了(le)視頻播放卡頓問題(ti),在地鐵(tie)或高(gao)鐵(tie)等信號弱(ruo),網絡不流暢(chang)的場景下(xia),也能看(kan)高(gao)清(qing)視頻。
在愛奇藝、優酷等主流視頻(pin) App 平臺上,HUAWEI HiAI Foundation 加持的超分辨率性能最(zui)高可以(yi)提升 80%,功耗最(zui)高可降低 45%。
除了圖像技術,手(shou)機上還(huan)能直接跑一個(ge)完整的輸入法預測(ce)模型(xing)。譬如,在百度輸入法華為(wei)版中(zhong),其使用的 AI 算(suan)法結構復雜,但通過任務(wu)拆(chai)分,工(gong)程師們(men)把(ba)模型(xing)推理(li)的計(ji)算(suan)工(gong)作分配到 NPU 和 CPU 上進行(xing)異構計(ji)算(suan),并進行(xing)了極致的優(you)化,把(ba)輸入法預測(ce)任務(wu)從云端完全轉(zhuan)移到了手(shou)機上。
百度(du)語(yu)音語(yu)義的模型技術較(jiao)新,結構也(ye)(ye)很復雜,最近(jin)的很多 AI 應用都是(shi)如此。從最早的 CNN、LSTM,再(zai)到近(jin)期流行的 Transformer 結構,人(ren)們對 AI 專(zhuan)用計算(suan)(suan)單(dan)元的算(suan)(suan)力需求正在快(kuai)速提(ti)高。另一方面,不(bu)同廠家硬件的差(cha)別(bie)明顯,AI 計算(suan)(suan)的架構也(ye)(ye)在不(bu)斷演(yan)進,如何(he)充分利用好算(suan)(suan)力是(shi)開發者面臨的挑戰。
讓芯片上(shang)的(de) CPU、GPU 和 NPU 協同參與(yu) AI 計算(suan),是目前發展的(de)趨勢(shi)。「在語音語義類(lei)業務上(shang)如果用(yong)異(yi)構(gou)(gou)方(fang)式運(yun)(yun)行(xing)(xing)模型(xing)推理,其性(xing)能要比單 NPU 或單 CPU 運(yun)(yun)行(xing)(xing)提(ti)升超(chao)過(guo) 40% 以(yi)上(shang),很多業務適(shi)合通(tong)過(guo)異(yi)構(gou)(gou)方(fang)法運(yun)(yun)行(xing)(xing),」華為技術(shu)專家表示。「NPU 善(shan)于處理 CNN 等經(jing)(jing)典(dian)神經(jing)(jing)網絡,但業界(jie)近期獲得應用(yong)的(de)網絡類(lei)型(xing)變化較(jiao)快,很多新(xin)模型(xing)使(shi)用(yong) CPU 加 NPU 聯合計算(suan)可以(yi)獲得更(geng)高效率。」

華為提供的工具可以大幅提升 AI 算法的運行效率,快手和抖音也因此受益:兩家短視頻應用在接入 HUAWEI HiAI Foundation
后模型精度得以提高,通過充分利用算力實現了更加真實的 AI 特效,增加了業務場景。
對于應用開發者(zhe)(zhe)們來(lai)說,給應用接(jie)入(ru)異構計算能力并不需要訓練(lian)專用的(de)算法,也不需要重新(xin)構建一個 App,只需調用幾(ji)個接(jie)口就可以(yi)完(wan)成了(le),如(ru)果開發者(zhe)(zhe)使用的(de)機(ji)器學習平臺接(jie)入(ru)了(le) HUAWEI HiAI Foundation,這個過程(cheng)甚(shen)至可以(yi)是無感的(de),開發者(zhe)(zhe)無需進行操作即(ji)可獲得麒麟芯片 AI 算力的(de)優化。
為開(kai)(kai)發者(zhe)打開(kai)(kai)新世(shi)界大(da)門的(de) HUAWEI HiAI Foundation 是麒麟芯片(pian) AI 計算能力的(de)開(kai)(kai)放平臺,其目(mu)標是全(quan)面開(kai)(kai)放 NPU 能力。它可以自動把開(kai)(kai)發者(zhe)手(shou)中的(de) AI 模型輕量化(hua)成移動版,集成到 APP 上(shang),并(bing)獲得手(shou)機芯片(pian)異構(gou)算力的(de)原(yuan)生優化(hua)加速(su)。
2017 年(nian) 9 月,華(hua)為發布(bu)了(le)首款自(zi)帶神(shen)經(jing)(jing)網絡計(ji)算單(dan)元 NPU 的移動(dong)芯片麒(qi)麟 970。2018 年(nian) 3 月,HUAWEI HiAI Foundation 隨之發布(bu)。經(jing)(jing)過幾年(nian)發展(zhan),HUAWEI HiAI Foundation 已經(jing)(jing)從僅支持手機(ji)擴展(zhan)到了(le)全(quan)場景(jing)硬件,還可以做到一(yi)次開發多端運行。計(ji)算能力上看,則可以協(xie)同 NPU/CPU/GPU/DSP 實現異(yi)構計(ji)算,大(da)幅提(ti)升了(le)效率。
在 HUAWEI HiAI Foundation 的(de)最新版本上,新增的(de)能(neng)力主要有(you)三個方(fang)面:提供(gong) AI 模(mo)型性能(neng)優化快(kuai)速升(sheng)級的(de)端云協同;開放(fang)為開發者提供(gong)更多(duo)可選模(mo)型結(jie)構的(de) Model Zoo;還有(you)模(mo)型量(liang)化工具包,可以快(kuai)速壓縮 App 中(zhong) AI 模(mo)型的(de)體積。

經過多代持續打磨,HUAWEI HiAI Foundation 的兼容性和易用性已經相當成熟。人們熟知的鴻蒙 OS 的用戶已經超過了 1.5
億,是史上發展最快的終端操作系統。而作為麒麟芯片計算能力的開放平臺,HUAWEI HiAI Foundation 的應用范圍也是前所未有 ,它現在的日調用量高達
600 億次。
相比(bi) TensorFlow Lite GPU、Android NN 等(deng)端側 AI 計算(suan)生態,HUAWEI HiAI Foundation 已經成為了業內(nei)最流行(xing)的(de) AI 架構(gou),而(er)且領先幅度正變得越來越大。
每天(tian)百億(yi)調(diao)用(yong)量(liang)意(yi)味著海量(liang)的(de)(de)智慧業務正(zheng)在端側應用(yong),充(chong)分發(fa)揮了(le)麒(qi)麟芯片的(de)(de) AI 算力(li)(li),為(wei)用(yong)戶帶來(lai)了(le)前所未有的(de)(de)體驗。隨著 AI 生態(tai)的(de)(de)不(bu)斷演(yan)進(jin),技術應用(yong)的(de)(de)經驗也會為(wei)未來(lai)的(de)(de)改進(jin)打下基礎,助力(li)(li)下一(yi)代(dai)芯片的(de)(de)研發(fa)。
僅僅方便開(kai)發,體(ti)驗(yan)好還不夠(gou)。與高(gao)通(tong)、聯發科(ke)等公(gong)司提出的(de)工具相比(bi),華為的(de)優勢在于(yu)「端云協同」。
深度(du)學(xue)習算(suan)法由很多計算(suan)單(dan)元組(zu)成,我(wo)們稱這些計算(suan)單(dan)元為算(suan)子(zi)(Operator,簡稱 Op)。從(cong)廣義上講(jiang),對任何函數進行某一項操作(zuo)都可以認為是(shi)(shi)一個(ge)算(suan)子(zi)。在(zai)深度(du)學(xue)習框(kuang)架中,算(suan)子(zi)對應(ying)層(ceng)中的(de)計算(suan)邏(luo)輯,例如:卷積層(ceng)(Convolution Layer)中的(de)卷積算(suan)法,是(shi)(shi)一個(ge)算(suan)子(zi);全連接層(ceng)(Fully-connected Layer)中的(de)權值求和(he)過程(cheng)也是(shi)(shi)一個(ge)算(suan)子(zi)。

對于(yu)構建 AI 應用來說,算(suan)子提升(sheng)了效(xiao)率,然而大多(duo)數手機中的算(suan)子庫集成于(yu)系(xi)(xi)統中,加入新(xin)功能要等手機系(xi)(xi)統幾個月一次的更(geng)新(xin),這是很多(duo) AI
新(xin)算(suan)法(fa)難(nan)以(yi)落(luo)地的原因。
HUAWEI HiAI Foundation 選(xuan)擇把(ba)算子(zi)庫放到云端(duan),當有(you)新開(kai)發的(de)(de)算子(zi)時,只需要對比(bi)一下(xia)舊的(de)(de)算子(zi)庫,把(ba)更新算子(zi)下(xia)載(zai)到手(shou)機端(duan)里就可以讓所有(you)手(shou)機支持新技術了(le)(le)。這種(zhong)端(duan)云協(xie)同(tong)的(de)(de)方(fang)式既提高了(le)(le)開(kai)發者工作效率,又擴大了(le)(le)應用范圍,算子(zi)更新的(de)(de)頻率可以和(he) App 更新的(de)(de)速度同(tong)步。
相比之下,其他廠商(shang)發布的(de)深度學習(xi)框架,其算子更新速(su)度通常(chang)是以年(nian)為單位的(de)。
作為(wei)連接底(di)層硬(ying)件算力和應(ying)用之間的(de)橋(qiao)梁,HUAWEI HiAI Foundation 目前(qian)支持超過 300 個通用算子,TensorFlow、PyTorch 等主流深度學(xue)習框架(jia),國內(nei)(nei)開源(yuan)深度學(xue)習平臺(tai),以及很多(duo)廠商的(de)自(zi)用框架(jia)。硬(ying)件支持從麒麟(lin) 810 到麒麟(lin) 9000——內(nei)(nei)置華為(wei)自(zi)研 NPU 的(de)所(suo)有(you)芯片。
從(cong)一(yi)篇頂會論文到(dao)手(shou)機(ji)上的 App,AI 新技術的引入是一(yi)個(ge)復雜的工程化(hua)(hua)過程,需要(yao)保證(zheng)性能、功能要(yao)求,進(jin)行多輪優化(hua)(hua)。由于海思和華為終端聯合運作(zuo)的方式,在(zai) HUAWEI HiAI Foundation 上芯片廠商與開(kai)發者直接(jie)進(jin)行合作(zuo),在(zai)一(yi)些關鍵問(wen)題(ti)上能真正做到(dao)效果最(zui)優,這(zhe)是其(qi)他競爭對(dui)手(shou)無法比(bi)擬的。
HUAWEI HiAI Foundation 未來的發(fa)(fa)展(zhan)方向,是讓移動(dong)端 AI 模型更簡(jian)單、更安全、能效(xiao)更優(you),構筑(zhu)全面開放的智慧生態,讓開發(fa)(fa)者(zhe)能夠快速地利用(yong)華為強大的 AI 處理(li)能力(li),為用(yong)戶提供更好的智慧應用(yong)體(ti)驗。
機器學習(xi)模(mo)(mo)型(xing)在最(zui)初的研(yan)究階段可能(neng)需要泰(tai)坦 GPU 進行訓練,A40 進行推(tui)理,谷歌能(neng)讓機器學會「閱讀理解」的 BERT 模(mo)(mo)型(xing)在剛(gang)剛(gang)發布時體積達到了(le) 500MB 但手機 App 上,自然語言處(chu)理模(mo)(mo)型(xing)只有 50 到 100MB 的空間,模(mo)(mo)型(xing)必須被大幅壓縮。
HUAWEI HiAI Foundation 推出(chu)的 NAS 模(mo)型搜(sou)索技(ji)術(shu),能(neng)讓開(kai)發(fa)者只需要(yao)將自己的模(mo)型、數據集(ji)作為參數提交(jiao)給(gei)工具,隨后就能(neng)通過自動搜(sou)索獲得能(neng)在(zai)端側運行,效(xiao)果(guo)與原模(mo)型效(xiao)果(guo)相(xiang)當的模(mo)型出(chu)來(lai)。該技(ji)術(shu)目前(qian)主(zhu)要(yao)面向圖(tu)像(xiang)識別、分類、檢測等(deng)任務,在(zai)指(zhi)定任務中(zhong)可以自動搜(sou)索出(chu)效(xiao)率最優的模(mo)型,且搜(sou)索結果(guo)能(neng)夠(gou)實現在(zai) NPU 上性(xing)能(neng)、功耗比(bi)最優。
另一方面(mian),HUAWEI HiAI Foundation 提供(gong)的端(duan)側算力讓很多原先必須部署在云(yun)端(duan)的算法落(luo)在了(le)本(ben)地,所有數據(ju)形成(cheng)閉環,業務數據(ju)、照片、語音信息等敏感內容(rong)不離開用戶,保(bao)證了(le)數據(ju)安全。越來(lai)越多的端(duan)側 AI,會持續強化這一趨勢。
未來(lai),各類應用(yong)對 AI 的需求會越(yue)來(lai)越(yue)擁擠,華(hua)為(wei)還(huan)在(zai)繼(ji)續努力,讓麒(qi)麟芯片帶來(lai)更大價(jia)值。

2021 年,我國網民人均手機 App 安裝總量是 66 款,每人每天使用 App 的時長已超過 5.1
小時,這是一個前所未有的數字。人工智能技術帶來的便利,是手機承擔起越來越多任務的原因之一。
還記得 2017 年,華為發布第一(yi)款(kuan)帶有(you) NPU 的芯片麒麟(lin) 970 的時(shi)候(hou),有(you)很多人會問「它(ta)能做什么?」現(xian)在,問題已經變成了「這件事,麒麟(lin)芯片能不能也來做?」
昨天(tian)人們(men)還在開(kai)的腦洞,已(yi)經被 HUAWEI HiAI Foundation 一步步實現了。