各家廠商都有自己的 AI 芯片,但華為率先做到了從芯片到應用,再到云服務的高度協同。
手機上的 NPU
推出了四年,時間已不算短,人工智能應用得怎么樣了?
現在(zai)很(hen)多手(shou)(shou)機芯片上都有 AI
計算單(dan)元,每個人都可以(yi)有自己的(de)答案。不過用(yong)華為手(shou)(shou)機的(de)人,獲得的(de)體驗經常比其他用(yong)戶好一點:他們(men)的(de)手(shou)(shou)機有更強的(de)信號,均(jun)衡的(de)能(neng)效比,還有融合在(zai)系統中,提供(gong)便利的(de)各種
AI 功能(neng)。
華(hua)為(wei)的產品還支持(chi)最新 AI 算法(fa),你(ni)也(ye)許會發現,同樣(yang)的 App 在華(hua)為(wei)手機上多(duo)了(le)一些專屬的能力,如(ru)實(shi)時視頻(pin)(pin)超(chao)分(fen)辨率、視頻(pin)(pin)風格遷移、本地化的輸(shu)入(ru)法(fa)預測等(deng)等(deng)。
今天,人工智能不是「元宇宙」這樣遙不可及的(de)概念,而是已被每天數億人(ren)(ren)大量使用(yong)的(de)普遍技術,它甚(shen)至改(gai)變了很多人(ren)(ren)打開 App 的(de)方式。
這些 AI 技術(shu)的效果超(chao)出(chu)了人們(men)的最初(chu)想象。
我們對(dui)(dui)于「視頻超分辨(bian)率(lv)」的(de)(de)印象(xiang),大(da)多(duo)還停留(liu)在英偉達 GPU 對(dui)(dui)于游戲大(da)作的(de)(de)幀率(lv)加(jia)成上。自(zi)(zi)從 RTX 系列顯卡誕生以(yi)來(lai),深度學(xue)習(xi)超采(cai)樣技術 DLSS 大(da)幅提(ti)升了(le)玩家的(de)(de)游戲體(ti)驗。這種技術可(ke)以(yi)通(tong)過深度學(xue)習(xi)把低分辨(bian)率(lv)圖(tu)像自(zi)(zi)動(dong)「腦(nao)補」成高分辨(bian)率(lv),輸出 4K 分辨(bian)率(lv)的(de)(de)畫(hua)面時,只需生成 1080P 的(de)(de)畫(hua)面再(zai)用 AI 來(lai)轉化,可(ke)以(yi)減小顯卡負(fu)擔,提(ti)升效率(lv)。
打游(you)戲有這么大的提(ti)升,在手(shou)機(ji)上看(kan)短視頻和直播能不能加(jia)入超清效(xiao)果呢?HUAWEI HiAI Foundation 已(yi)經讓很(hen)多應用實(shi)現(xian)了這個(ge)能力。
「在超分辨率任務上,傳統算法需要 CPU 和 GPU
對圖像進行二次加工計算,功耗極高,效果就像是『調亮了一點』,并不明顯,」華為技術專家表示。「若想解決算力、IO、功耗等問題需要結合 HUAWEI HiAI
Foundation 和 NPU 來完成。我們與很多廠商合作,在當前主流的 App 上集成了畫質增強功能。」
原畫面、AI 超分辨率算法和低分辨率 + 銳化處理的對比。
今年 3 月,在愛(ai)(ai)奇藝 App 最新發布的(de)版本(ben)中,愛(ai)(ai)奇藝與 HUAWEI HiAI Foundation 合(he)作,在帶有 NPU
機型(xing)的(de)應用上率先(xian)提(ti)供了(le)「增強畫質」功(gong)能。該功(gong)能可讓視頻在 480P 分辨率播放過程(cheng)中,保持(chi)相同(tong)流量消耗(hao)的(de)情況(kuang)下體(ti)驗到更高(gao)清品質的(de)視覺效(xiao)果(guo)。
這項功能適配了(le)從(cong) Nova 6 到 Mate 40 系(xi)列等(deng)多個華為機型。
開啟畫質增強功能后,480P 及以下清晰度(du)的視(shi)頻可以秒變高(gao)清,大致(zhi)相當(dang)于(yu) 1080P 的水平。
「增強畫(hua)質」是基于愛奇藝自(zi)研超分(fen)算(suan)法部署在麒麟芯片 NPU 引擎(神經網(wang)絡處理器)和(he) HUAWEI HiAI Foundation 上的(de)功能,可以(yi)在畫(hua)面輪廓清晰度、畫(hua)面通(tong)透(tou)性、色彩飽和(he)度等方面實現明顯提升。
通過這(zhe)一能力,手機可(ke)以在本地完成視頻實(shi)時增強畫質處理,在不(bu)影響幀率(lv)的情況(kuang)下把(ba)清(qing)晰度提升兩倍,有(you)效解決了視頻播放卡(ka)頓問題(ti),在地鐵或高(gao)鐵等信號弱(ruo),網(wang)絡不(bu)流(liu)暢的場(chang)景下,也能看高(gao)清(qing)視頻。
在愛奇(qi)藝、優酷(ku)等主流(liu)視頻 App 平(ping)臺上,HUAWEI HiAI Foundation 加持(chi)的超分辨率性能最高(gao)可以(yi)提(ti)升(sheng) 80%,功耗最高(gao)可降低(di) 45%。
除了(le)(le)圖像(xiang)技術,手(shou)機上(shang)還(huan)能直接跑(pao)一個完(wan)(wan)整(zheng)的(de)(de)輸(shu)入(ru)(ru)法(fa)預(yu)測模型。譬如,在(zai)百(bai)度輸(shu)入(ru)(ru)法(fa)華為版中,其使用的(de)(de) AI 算法(fa)結構(gou)復(fu)雜,但通過任務拆分,工程師們把模型推(tui)理的(de)(de)計算工作分配(pei)到 NPU 和 CPU 上(shang)進行異構(gou)計算,并進行了(le)(le)極致的(de)(de)優化(hua),把輸(shu)入(ru)(ru)法(fa)預(yu)測任務從云端完(wan)(wan)全轉(zhuan)移到了(le)(le)手(shou)機上(shang)。
百度語音語義的(de)模(mo)型技術(shu)較新,結(jie)構也很(hen)復雜,最(zui)近(jin)的(de)很(hen)多 AI 應用都(dou)是如此(ci)。從最(zui)早的(de) CNN、LSTM,再到近(jin)期流(liu)行的(de) Transformer 結(jie)構,人(ren)們對 AI 專用計算(suan)單元的(de)算(suan)力需求正在快(kuai)速(su)提高。另一方面,不同廠家(jia)硬件(jian)的(de)差別(bie)明顯,AI 計算(suan)的(de)架構也在不斷演進,如何充分利用好算(suan)力是開發(fa)者面臨的(de)挑戰。
讓芯片上的(de) CPU、GPU 和 NPU 協同參與 AI 計算(suan),是目前(qian)發展的(de)趨勢(shi)。「在語音語義類(lei)業務上如果用(yong)異構(gou)方式運(yun)(yun)行(xing)模型(xing)推(tui)理,其性能要比單 NPU 或(huo)單 CPU 運(yun)(yun)行(xing)提升超過 40% 以上,很多業務適合通過異構(gou)方法(fa)運(yun)(yun)行(xing),」華(hua)為技術專家表示(shi)。「NPU 善于(yu)處理 CNN 等經典神經網絡(luo)(luo),但業界(jie)近(jin)期(qi)獲得應用(yong)的(de)網絡(luo)(luo)類(lei)型(xing)變化較快,很多新模型(xing)使用(yong) CPU 加 NPU 聯合計算(suan)可以獲得更(geng)高效率。」
華為提供的工具可以大幅提升 AI 算法的運行效率,快手和抖音也因此受益:兩家短視頻應用在接入 HUAWEI HiAI Foundation
后模型精度得以提高,通過充分利用算力實現了更加真實的 AI 特效,增加了業務場景。
對于應用(yong)開發者們來說(shuo),給應用(yong)接(jie)(jie)入(ru)異構計(ji)算能(neng)力并不需(xu)要(yao)訓練專用(yong)的(de)(de)算法,也不需(xu)要(yao)重新構建(jian)一(yi)個 App,只需(xu)調用(yong)幾個接(jie)(jie)口就可以完(wan)成了,如果開發者使用(yong)的(de)(de)機(ji)器學習平臺接(jie)(jie)入(ru)了 HUAWEI HiAI Foundation,這個過程甚至可以是無感的(de)(de),開發者無需(xu)進行(xing)操作(zuo)即可獲得麒麟芯片 AI 算力的(de)(de)優化。
為開(kai)(kai)發者打開(kai)(kai)新世界大門的 HUAWEI HiAI Foundation 是麒(qi)麟(lin)芯片(pian) AI 計算能力的開(kai)(kai)放(fang)平(ping)臺,其目(mu)標是全面開(kai)(kai)放(fang) NPU 能力。它可(ke)以自動把開(kai)(kai)發者手中的 AI 模型輕量化(hua)成移(yi)動版,集成到(dao) APP 上(shang),并獲得手機芯片(pian)異構算力的原生優化(hua)加速。
2017 年(nian) 9 月,華為發布了首款自帶神經網(wang)絡計算(suan)單元(yuan) NPU 的移動芯片麒麟 970。2018 年(nian) 3 月,HUAWEI HiAI Foundation 隨之發布。經過幾年(nian)發展,HUAWEI HiAI Foundation 已經從僅支(zhi)持手機擴展到了全場景(jing)硬件,還可(ke)以做到一次開發多(duo)端運行(xing)。計算(suan)能(neng)力上(shang)看(kan),則可(ke)以協同(tong) NPU/CPU/GPU/DSP 實(shi)現異構計算(suan),大幅提升(sheng)了效率。
在 HUAWEI HiAI Foundation 的最新版(ban)本上(shang),新增的能(neng)力主要有三(san)個方面:提供 AI 模(mo)型性能(neng)優化(hua)快速(su)升級的端云協(xie)同(tong);開放(fang)為開發者(zhe)提供更多(duo)可(ke)選模(mo)型結構的 Model Zoo;還(huan)有模(mo)型量(liang)化(hua)工具包(bao),可(ke)以快速(su)壓縮 App 中(zhong) AI 模(mo)型的體積。
經過多代持續打磨,HUAWEI HiAI Foundation 的兼容性和易用性已經相當成熟。人們熟知的鴻蒙 OS 的用戶已經超過了 1.5
億,是史上發展最快的終端操作系統。而作為麒麟芯片計算能力的開放平臺,HUAWEI HiAI Foundation 的應用范圍也是前所未有 ,它現在的日調用量高達
600 億次。
相比(bi) TensorFlow Lite GPU、Android NN 等端側 AI 計算生(sheng)態,HUAWEI HiAI Foundation 已經(jing)成為了(le)業(ye)內最流(liu)行(xing)的 AI 架構,而且領先幅度正變得越來越大。
每(mei)天百億調用量意味著(zhu)(zhu)海(hai)量的(de)智慧業務(wu)正在端側應用,充(chong)分發(fa)揮了麒麟芯(xin)片(pian)(pian)的(de) AI 算力,為用戶帶來了前所(suo)未有的(de)體驗。隨(sui)著(zhu)(zhu) AI 生態的(de)不斷演進,技(ji)術應用的(de)經驗也會為未來的(de)改進打下基礎(chu),助力下一代芯(xin)片(pian)(pian)的(de)研發(fa)。
僅(jin)僅(jin)方(fang)便開發,體驗(yan)好還不(bu)夠。與高(gao)通、聯發科等公司提出的工(gong)具相比,華為(wei)的優勢在于「端云(yun)協同」。
深度學習算(suan)法(fa)由很多計(ji)(ji)算(suan)單(dan)元組成,我們(men)稱這(zhe)些計(ji)(ji)算(suan)單(dan)元為算(suan)子(zi)(Operator,簡(jian)稱 Op)。從廣義上講,對任(ren)何函數進(jin)行某一(yi)項操作都可以認為是一(yi)個(ge)算(suan)子(zi)。在深度學習框架中(zhong),算(suan)子(zi)對應層中(zhong)的計(ji)(ji)算(suan)邏輯(ji),例(li)如:卷積(ji)層(Convolution Layer)中(zhong)的卷積(ji)算(suan)法(fa),是一(yi)個(ge)算(suan)子(zi);全連接層(Fully-connected Layer)中(zhong)的權值求(qiu)和過程(cheng)也是一(yi)個(ge)算(suan)子(zi)。
對于構建 AI 應(ying)用來說,算(suan)子提升了效率(lv),然而(er)大多數手機中(zhong)的(de)算(suan)子庫(ku)集成于系統(tong)中(zhong),加入新功能要等(deng)手機系統(tong)幾個月一次的(de)更新,這是很多 AI
新算(suan)法難以落地的(de)原因。
HUAWEI HiAI Foundation 選擇(ze)把算子庫放到(dao)云(yun)(yun)端,當(dang)有(you)新(xin)(xin)開(kai)發(fa)的(de)(de)算子時,只(zhi)需(xu)要對比一下舊(jiu)的(de)(de)算子庫,把更新(xin)(xin)算子下載到(dao)手機端里(li)就(jiu)可(ke)以(yi)讓所(suo)有(you)手機支持新(xin)(xin)技術了。這種端云(yun)(yun)協同(tong)的(de)(de)方式(shi)既提高了開(kai)發(fa)者工(gong)作效率(lv)(lv),又擴大(da)了應用范圍,算子更新(xin)(xin)的(de)(de)頻率(lv)(lv)可(ke)以(yi)和 App 更新(xin)(xin)的(de)(de)速度同(tong)步。
相比之下,其他廠商發布的(de)深度學習框架,其算子更新速(su)度通常是以年為單位的(de)。
作為(wei)連(lian)接底層(ceng)硬件(jian)算力和應用之間(jian)的橋梁,HUAWEI HiAI Foundation 目前支(zhi)持(chi)超(chao)過(guo) 300 個(ge)通用算子,TensorFlow、PyTorch 等主流(liu)深(shen)度學習(xi)框(kuang)(kuang)架,國(guo)內開源深(shen)度學習(xi)平臺(tai),以及很多廠商的自(zi)用框(kuang)(kuang)架。硬件(jian)支(zhi)持(chi)從(cong)麒麟 810 到麒麟 9000——內置華為(wei)自(zi)研 NPU 的所有芯片(pian)。
從一篇頂(ding)會論(lun)文到手機上(shang)的(de) App,AI 新技術的(de)引入(ru)是(shi)一個復(fu)雜的(de)工程化(hua)過程,需要保(bao)證(zheng)性能、功能要求,進(jin)行多輪(lun)優化(hua)。由于海(hai)思和華為終端(duan)聯合運(yun)作(zuo)的(de)方(fang)式,在 HUAWEI HiAI Foundation 上(shang)芯片(pian)廠商與開發者(zhe)直接進(jin)行合作(zuo),在一些關(guan)鍵問題上(shang)能真正做到效果最(zui)優,這是(shi)其他競爭對手無法比(bi)擬的(de)。
HUAWEI HiAI Foundation 未來的發展方(fang)向,是讓移動端 AI 模型更簡單、更安(an)全(quan)、能效更優,構筑(zhu)全(quan)面開放的智(zhi)慧(hui)生態,讓開發者能夠快(kuai)速地利用華為(wei)(wei)強(qiang)大的 AI 處理(li)能力,為(wei)(wei)用戶提(ti)供(gong)更好的智(zhi)慧(hui)應用體驗。
機器學習模型(xing)在最(zui)初的研究階段可(ke)能需(xu)要泰坦 GPU 進行(xing)訓練,A40 進行(xing)推理,谷(gu)歌(ge)能讓機器學會「閱讀理解(jie)」的 BERT 模型(xing)在剛(gang)剛(gang)發布時(shi)體積達到(dao)了 500MB 但手機 App 上,自然(ran)語言處理模型(xing)只有 50 到(dao) 100MB 的空間,模型(xing)必須被大幅壓(ya)縮。
HUAWEI HiAI Foundation 推出(chu)的(de) NAS 模型搜(sou)索技(ji)術(shu),能(neng)(neng)讓(rang)開發者只需要(yao)將自(zi)己(ji)的(de)模型、數據集(ji)作為參數提交給工(gong)具(ju),隨后(hou)就能(neng)(neng)通過(guo)自(zi)動搜(sou)索獲得(de)能(neng)(neng)在(zai)(zai)端側(ce)運(yun)行(xing),效(xiao)果與原模型效(xiao)果相當的(de)模型出(chu)來。該技(ji)術(shu)目前主要(yao)面向圖像(xiang)識(shi)別(bie)、分類(lei)、檢(jian)測等任務,在(zai)(zai)指定(ding)任務中可以自(zi)動搜(sou)索出(chu)效(xiao)率最(zui)優(you)的(de)模型,且搜(sou)索結果能(neng)(neng)夠實現(xian)在(zai)(zai) NPU 上性能(neng)(neng)、功(gong)耗比最(zui)優(you)。
另一(yi)(yi)方面(mian),HUAWEI HiAI Foundation 提供的(de)(de)端(duan)(duan)側算力(li)讓(rang)很多原先必須(xu)部(bu)署在云端(duan)(duan)的(de)(de)算法落(luo)在了本地,所有數據形成閉環,業務數據、照片、語音信息等敏感內容不離開用戶,保證了數據安全。越來越多的(de)(de)端(duan)(duan)側 AI,會持續強化這一(yi)(yi)趨勢。
未(wei)來,各類應用(yong)對 AI 的需求會越(yue)來越(yue)擁擠,華為(wei)還(huan)在繼(ji)續努(nu)力,讓麒麟芯片帶來更大價值(zhi)。
2021 年,我國網民人均手機 App 安裝總量是 66 款,每人每天使用 App 的時長已超過 5.1
小時,這是一個前所未有的數字。人工智能技術帶來的便利,是手機承擔起越來越多任務的原因之一。
還記得 2017 年(nian),華為發(fa)布第一(yi)款帶有(you) NPU 的(de)芯片(pian)麒麟 970 的(de)時候,有(you)很多人會問「它能(neng)做什么?」現在,問題已經變成了(le)「這件事,麒麟芯片(pian)能(neng)不能(neng)也(ye)來做?」
昨天人們還在開的(de)腦洞,已經被(bei) HUAWEI HiAI Foundation 一步步實(shi)現了。