国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

GenAI浪潮下 智能硬件如何實現低延時AI語音交互
作者 | 物聯網智(zhi)庫2024-10-12

在 GenAI 的(de)(de)浪潮(chao)下,各行(xing)各業(ye)正(zheng)迎來全新(xin)的(de)(de)變革(ge),作為(wei) AI 載(zai)體的(de)(de)智(zhi)(zhi)(zhi)能硬(ying)件(jian)行(xing)業(ye)也(ye)不例外,一方(fang)面,AIGC 與機器人(ren)的(de)(de)結(jie)(jie)合,推動具身智(zhi)(zhi)(zhi)能產(chan)業(ye)快速發展,科幻電影里善(shan)解(jie)人(ren)意的(de)(de)清掃機器人(ren)“瓦力”、醫療機器人(ren)“大(da)白”正(zheng)在走進現實。另一方(fang)面,以智(zhi)(zhi)(zhi)能手表、智(zhi)(zhi)(zhi)能眼鏡(jing)、智(zhi)(zhi)(zhi)能耳機為(wei)首的(de)(de)穿戴式智(zhi)(zhi)(zhi)能硬(ying)件(jian)與多(duo)模態(tai)大(da)模型的(de)(de)結(jie)(jie)合也(ye)成為(wei)當下的(de)(de)新(xin)趨勢(shi)。

在2017年以天貓精靈、小愛同學、小度等語音助手驅動的智能設備被視為第一批 AI 硬件革命,這類智能設備雖然經過多年的市場教育已逐漸融入了我們的生活,成為不少家庭的語音助手,但其中 AI 的智能化還較為初級。近兩年伴隨 GenAI 的興起,更智能化的多模態大模型賦予了智能硬件新的生命,帶來全新的人機交互體驗,催生智能硬件行業新的變革。

智能硬件+多模態大模型  穿戴式設備交互體驗迎來變革

聲網經過市場調研發現,目前多模態大模型在智能硬件場景的落地主要以智能眼鏡、智能手表、智能耳機等穿戴式設備為主,同時在智能門鈴、智能陪伴玩具等 IoT 場景也有一些應用。不同場景展現出的用戶需求與場景特點存在一定的差異化,例如:

  • 智能手表:智(zhi)能(neng)(neng)兒(er)(er)童(tong)手(shou)(shou)表(biao)是多(duo)模態大模型(xing)最早落地 IoT 行業(ye)的(de)(de)(de)硬件場景之一(yi),目前 360兒(er)(er)童(tong)手(shou)(shou)表(biao)、小天(tian)才等兒(er)(er)童(tong)手(shou)(shou)表(biao)中已率先集成應(ying)用。流暢的(de)(de)(de) AI 互動問答(da)可以(yi)填(tian)充兒(er)(er)童(tong)空閑時(shi)間(jian),智(zhi)能(neng)(neng)化(hua)的(de)(de)(de)回答(da)也為(wei)兒(er)(er)童(tong)帶來了知識科普的(de)(de)(de)價值,起(qi)到教(jiao)育學習的(de)(de)(de)輔助作用。同時(shi),智(zhi)能(neng)(neng)手(shou)(shou)表(biao)的(de)(de)(de)屏幕較小,對語音交互的(de)(de)(de)訴求更(geng)強,加入對話式 AI 顯(xian)得(de)更(geng)順其(qi)自然。

  • 智能眼鏡:不同于將重點放在(zai)虛擬(ni)與現(xian)實結合(he)的(de)(de)AR眼鏡,智能眼鏡更(geng)加注重通過 AI 提升語音(yin)(yin)交(jiao)互(hu)能力,今(jin)年 Meta 聯合(he)雷朋推出的(de)(de)「Ray-Ban Meta」智能眼鏡就(jiu)是代(dai)表產品。通過在(zai)智能眼鏡中加入攝像頭、AI 等功能,用戶(hu)可通過語音(yin)(yin)交(jiao)互(hu)讓眼鏡來(lai)幫(bang)助工作&日程安排,或者開啟百科問答(da)、學習(xi)輔助、英文翻(fan)譯(yi)、語音(yin)(yin)導航(hang)、超擬(ni)人情感陪伴及音(yin)(yin)樂(le)娛樂(le)等功能。

在 AI 與 RTC 能力(li)的加持下(xia),智能眼鏡可(ke)以(yi)支持第(di)一視角音視頻回(hui)傳(chuan)(包含音視頻通話、視頻錄(lu)制、直播等),還支持實時翻譯、同(tong)聲傳(chuan)譯等場(chang)景,搭配(pei)手勢(shi)識別(bie),實現(xian)跨語言環境的語義(yi)理解(jie)。

圖:「Ray-Ban Meta」智能眼鏡

  • 智能耳機:智(zhi)能(neng)耳機與大模(mo)型的結(jie)合主要(yao)集中(zhong)在實時(shi)(shi)翻(fan)(fan)(fan)譯(yi)、情感交(jiao)流、錄音轉寫等核(he)心(xin)功能(neng),在實時(shi)(shi)翻(fan)(fan)(fan)譯(yi)方(fang)面(mian),智(zhi)能(neng)耳機目前(qian)主要(yao)應用在1對(dui)1翻(fan)(fan)(fan)譯(yi),支持雙方(fang)對(dui)話過程隨(sui)時(shi)(shi)發言,無需等待翻(fan)(fan)(fan)譯(yi)完成或對(dui)方(fang)發言結(jie)束,適合雙人會議、差(cha)旅、教學、社(she)交(jiao)等高(gao)頻(pin)深度對(dui)話場(chang)景,代表產品有三星(xing) Galaxy Buds 系列無線(xian)耳機、時(shi)(shi)空壺 W4 Pro等。同(tong)時(shi)(shi),借(jie)助(zhu) RTC 的能(neng)力,在智(zhi)能(neng)耳機中(zhong)還能(neng)實現多人同(tong)頻(pin)道、AI降噪等功能(neng)。

在(zai)情(qing)感交流方面,代表產(chan)品有當下熱門的(de)Ola Friend 智能耳機(ji),該產(chan)品可(ke)實現(xian)英語陪練、旅行導(dao)游、情(qing)感交流等功能。開發(fa)者如想(xiang)快速上線(xian)此類(lei)型的(de)智能耳機(ji),聲網可(ke)以提供(gong)快速、已(yi)用(yong)、完整的(de)解決方案,并(bing)采用(yong)了靈活(huo)可(ke)擴展(zhan)的(de) AIAgent架構,具備工作流編排能力(li),開發(fa)者與企業可(ke)自主(zhu)選擇 LLM 等組件,根據(ju)特定需(xu)求定制和擴展(zhan) AI 驅動的(de)實時互動體(ti)驗。

  • 智能門鈴:在智能門鈴等IPC場(chang)(chang)景,加入(ru) AI 大模型的能力,可通過攝像頭(tou)實時識別并理解(jie)視頻(pin)內容,實現設備無(wu)人值守(shou)場(chang)(chang)景下的自(zi)定(ding)義交互,如:外賣、快(kuai)遞上門,在家中無(wu)人時,門鈴可自(zi)動識別并應答(da),指導快(kuai)遞員將貨物放到指定(ding)位置。

此外,在GenAI 的(de)趨勢下,IoT 行業還出現了智能(neng)(neng)陪伴機器人、智能(neng)(neng)兒童(tong)毛絨(rong)玩具(ju)、智能(neng)(neng)戒(jie)指等一系列智能(neng)(neng)硬件場景,帶來不同硬件終端(duan)下的(de) AI 語(yu)音交互(hu)體驗(yan)。

聲網 AI x IoT 智能硬件解決方案 低功耗、低延時、低成本

聲網作為全球實時互動云行業的開創者,一直在探索 GenAI 與 RTE 結合帶來的體驗提升和場景創新,此前發布了,在此基礎上,針對 IoT 行業的特殊性,聲網探索出了AI x IoT 智能硬件解決方案,該方案能夠在低功耗、低算力芯片上快速實現大模型的接入,具備低延時實時互動、低成本靈活適配的特性,通過豐富的功能在智能硬件場景中構建真實、自然的 AI 語音交互體驗。

例如對交互延遲進行優化,語音交互延時低至1s內;支持多模態 AI 語義識別和理解;支持 AI降噪,保證清晰的語音交互、支持小包體、低內存、低功耗;適配支持70+主流、高性價比的芯片等,幫助開發者與企業快速構建適配自己硬件的 AI 實時語音對話服務。

圖(tu):聲網 AI x IoT 智能硬件解決方(fang)案架構圖(tu)

1、毫秒級人機交互體驗:聲網(wang) AI x IoT 智能硬件解決方(fang)案(an)進(jin)一(yi)步優化了端(duan)到端(duan)互(hu)動(dong)(dong)體驗,實(shi)現人與(yu)設備之(zhi)間(jian)基(ji)于 LLM 的(de)毫秒級互(hu)動(dong)(dong)體驗。通過在客戶端(duan)進(jin)行低延遲(chi)的(de)音頻采集和(he)播放(fang)、借助聲網(wang)自研的(de) SD-RTN? 實(shi)時(shi)傳輸網(wang)絡實(shi)現全球范圍的(de)低延時(shi) RTC 傳輸,并進(jin)一(yi)步通過更快速的(de) LLM 推理(li)首字耗時(shi)、低延遲(chi)流式 TTS、同機部署等一(yi)系列技術手段(duan),保證對話(hua)的(de)實(shi)時(shi)性(xing)與(yu)流暢(chang)性(xing)。

2、文本/圖像/音頻/視頻的多模態交互:在(zai)智能硬件場景(jing),聲網的(de)解決(jue)方案同樣支(zhi)持(chi)文本/圖像/音(yin)(yin)頻(pin)/視頻(pin)的(de)組合輸入&輸出,同時開(kai)發者與企(qi)業也無(wu)需額外集成STT、TTS 等模塊化組件,一套方案就(jiu)能快速(su)構建 AI 實時語(yu)音(yin)(yin)對話服務。

3、聚焦關鍵信息,提升語義理解度:在 GenAI 場景,能(neng)否支(zhi)持(chi)隨(sui)時打斷(duan)也成為衡量大模型(xing)智(zhi)能(neng)化的(de)(de)重要指標,聲網的(de)(de)解決方案也支(zhi)持(chi)先進的(de)(de) AI-VAD 技術(shu),可(ke)實現(xian)靈敏的(de)(de)自然語(yu)音打斷(duan),模擬人類對話(hua)的(de)(de)自然流動,讓(rang)對話(hua)更加(jia)真(zhen)實、自然。

4、AI降噪保障語音對話清晰、順暢:針對(dui)語(yu)音對(dui)話(hua)中經常會出(chu)現的噪音、回聲等(deng)問題,聲網擁有行(xing)業領(ling)先的音頻(pin) 3A 能(neng)力,通過(guo)(guo)AI噪聲抑制、背景人聲過(guo)(guo)濾(lv)(lv)、音樂檢測/過(guo)(guo)濾(lv)(lv)等(deng)算(suan)法(fa),確保(bao)(bao)人與 AI 的對(dui)話(hua)不受(shou)環境干(gan)擾(rao),始終保(bao)(bao)持(chi)順暢。

5、實現多模態 AI 能力普適:實現任意可視設備的智能化體驗:在硬件場景構建音視頻互動需要特別注意 SDK 對芯片、系統(tong)的(de)(de)(de)(de)適配性以及包體的(de)(de)(de)(de)體積等。聲網的(de)(de)(de)(de)解決(jue)方案(an)適配支持(chi) 70+ 主流、高性價(jia)比的(de)(de)(de)(de)芯(xin)片(pian)/模組,例如:展銳 Cat.1系列芯(xin)片(pian)、樂鑫 ESP32-S2/S3、BK 7256、BK7258、杰理AC7916、博流BL808等 RTOS 芯(xin)片(pian),以及高通、聯發科(ke)、君正(zheng)、Sigmastar、全(quan)志、海思、Mstar 等 70+ Linux 芯(xin)片(pian)。

集成(cheng)包體積(ji)增量也<400KB,支(zhi)持(chi)在 RTOS、embedLinux 等低功(gong)耗系統流(liu)暢運行(xing),同(tong)時 SDK 還支(zhi)持(chi) PCM、G711U/A、G722、AAC、OPUS 等多種音(yin)頻格式。

如您想(xiang)進一步體驗 Demo或者接入(ru)聲網(wang)的(de)AI x IoT 智能硬件解決方(fang)案(an),可(ke)在聲網(wang)公(gong)眾號找到(dao)這篇文章,掃(sao)描文章底部(bu)的(de)二維碼(ma)聯系(xi)。


熱門文章
10月14日,正值第55個世界標準日,由卡奧斯COSMOPlat工業互聯網平臺牽頭申請的IEEE基于工業互聯網平臺的大規模個性化定制成熟度模型國際標準,經由IEEE SA(電氣與電子工程師協會標準協會
2024-10-12
X