眼(yan)動追蹤越發成為(wei)頭顯的(de)標準配置,各(ge)家廠(chang)商(shang)都(dou)在積極探索精確、輕(qing)型、緊湊和高成本效益的(de)眼(yan)動追蹤系統。早前(qian)映維網已經分(fen)享了一系列(lie)與所述(shu)主題(ti)相關的(de)廠(chang)商(shang)發明,而(er)美國專利(li)商(shang)標局日前(qian)又公布了一份名為(wei)“Distributed sensor module for eye-tracking”的(de)Meta專利(li)申請。
對于眼動追(zhui)蹤,其中一(yi)個挑戰是需要將功耗(hao)(hao)降(jiang)到最低,從而優化可穿戴設(she)備的形(xing)狀參數設(she)計和續(xu)航能(neng)力。一(yi)種降(jiang)低功耗(hao)(hao)的方(fang)法是利用機器(qi)學習來執行目(mu)標(biao)追(zhui)蹤,但所述(shu)方(fang)式(shi)需要一(yi)個大(da)型網絡(luo),而這不可避免地會(hui)產(chan)生功耗(hao)(hao),并且不能(neng)提供足夠精確的結果。
為了解決上述問題,Meta希望通過一個分布式設置來減少功耗,并提供足夠精確的結果。簡單來說,可以由頭顯搭載一個傳感器模塊,并由在與頭戴式設備分離的本地計算設備中實現一個中央模塊。然后,傳感器模塊來檢測來自下采樣圖像的特征,從而執行對象追蹤,而中央模塊可處理傳感器模塊的任何潛在請求/服務。
所(suo)述分布式傳感器(qi)模塊(kuai)(kuai)包括攝像(xiang)(xiang)頭(tou)、存儲單元、檢測單元和計(ji)算單元,并(bing)(bing)用于通過機器(qi)學(xue)習(xi)模型從下采樣的(de)圖像(xiang)(xiang)中有效地檢測特(te)定(ding)特(te)征。以(yi)(yi)所(suo)述方式,傳感器(qi)模塊(kuai)(kuai)可以(yi)(yi)生成(cheng)/計(ji)算特(te)定(ding)于特(te)征的(de)圖像(xiang)(xiang),無需(xu)過度讀取(qu)圖像(xiang)(xiang)中的(de)片段(duan)并(bing)(bing)降(jiang)低功耗。
在(zai)一(yi)(yi)(yi)個(ge)(ge)實(shi)施例中(zhong),攝(she)像(xiang)(xiang)頭(tou)配置(zhi)為(wei)捕捉描繪用(yong)戶(hu)眼睛的(de)(de)(de)(de)一(yi)(yi)(yi)個(ge)(ge)或多個(ge)(ge)用(yong)戶(hu)圖(tu)像(xiang)(xiang),存儲單(dan)元配置(zhi)為(wei)存儲圖(tu)像(xiang)(xiang),檢(jian)(jian)測單(dan)元可以從下采(cai)(cai)樣版(ban)本的(de)(de)(de)(de)圖(tu)像(xiang)(xiang)中(zhong)檢(jian)(jian)測包括用(yong)戶(hu)眼睛特征的(de)(de)(de)(de)一(yi)(yi)(yi)個(ge)(ge)或多個(ge)(ge)第(di)一(yi)(yi)(yi)片段(duan)(duan),并從存儲單(dan)元讀取與下采(cai)(cai)樣版(ban)本圖(tu)像(xiang)(xiang)中(zhong)的(de)(de)(de)(de)第(di)一(yi)(yi)(yi)片段(duan)(duan)相對(dui)應(ying)的(de)(de)(de)(de)一(yi)(yi)(yi)個(ge)(ge)或多個(ge)(ge)圖(tu)像(xiang)(xiang)中(zhong)的(de)(de)(de)(de)一(yi)(yi)(yi)個(ge)(ge)或多個(ge)(ge)第(di)二片段(duan)(duan)。然后,計(ji)算單(dan)元可以基于包括圖(tu)像(xiang)(xiang)中(zhong)眼睛特征的(de)(de)(de)(de)第(di)二片段(duan)(duan)來(lai)計(ji)算用(yong)戶(hu)的(de)(de)(de)(de)注視點,而(er)不(bu)搜索原(yuan)始(shi)圖(tu)像(xiang)(xiang)中(zhong)每個(ge)(ge)片段(duan)(duan)中(zhong)的(de)(de)(de)(de)特征(這需要(yao)額外(wai)的(de)(de)(de)(de)時(shi)間和能力來(lai)從原(yuan)始(shi)圖(tu)像(xiang)(xiang)讀取/檢(jian)(jian)測每個(ge)(ge)片段(duan)(duan))。因此,所述傳感器模塊可以在(zai)一(yi)(yi)(yi)定(ding)程(cheng)度降低功耗。

圖(tu)1示(shi)出(chu)了具有bounding box110和(he)分(fen)割遮罩120的(de)(de)(de)圖(tu)像100。在(zai)(zai)特定實(shi)施(shi)例(li)中,機(ji)器(qi)(qi)學(xue)(xue)習(xi)模(mo)型(xing)(xing)接(jie)受(shou)訓練以(yi)(yi)處理(li)圖(tu)像(例(li)如(ru)圖(tu)像100),并(bing)檢(jian)測圖(tu)像中的(de)(de)(de)特定對象。在(zai)(zai)所述(shu)示(shi)例(li)中,機(ji)器(qi)(qi)學(xue)(xue)習(xi)模(mo)型(xing)(xing)經過訓練以(yi)(yi)識別(bie)人的(de)(de)(de)特征。在(zai)(zai)特定實(shi)施(shi)例(li)中,機(ji)器(qi)(qi)學(xue)(xue)習(xi)模(mo)型(xing)(xing)可(ke)(ke)(ke)以(yi)(yi)輸出(chu)包圍檢(jian)測到的(de)(de)(de)對象類型(xing)(xing)實(shi)例(li)(例(li)如(ru)人)的(de)(de)(de)bounding box110。矩(ju)(ju)形bounding box可(ke)(ke)(ke)以(yi)(yi)表示(shi)為(wei)四個(ge)二維坐標,并(bing)表示(shi)框的(de)(de)(de)四個(ge)角。在(zai)(zai)特定實(shi)施(shi)例(li)中,機(ji)器(qi)(qi)學(xue)(xue)習(xi)模(mo)型(xing)(xing)可(ke)(ke)(ke)以(yi)(yi)附加地或可(ke)(ke)(ke)選地輸出(chu)識別(bie)屬(shu)于所檢(jian)測實(shi)例(li)的(de)(de)(de)特定像素(su)的(de)(de)(de)分(fen)割遮罩120。例(li)如(ru),分(fen)割遮罩120可(ke)(ke)(ke)以(yi)(yi)表示(shi)為(wei)二維矩(ju)(ju)陣(zhen),每個(ge)矩(ju)(ju)陣(zhen)元素(su)對應于圖(tu)像的(de)(de)(de)像素(su),而元素(su)的(de)(de)(de)值對應于關(guan)聯像素(su)是(shi)否屬(shu)于檢(jian)測目標。

圖(tu)(tu)2A示(shi)出了機(ji)器學(xue)習模型200的(de)(de)(de)架構(gou)。機(ji)器學(xue)習模型200配置為將圖(tu)(tu)像(xiang)210或(huo)圖(tu)(tu)像(xiang)的(de)(de)(de)預(yu)處理表示(shi)作為輸入,例(li)(li)如三維矩陣,其(qi)尺寸對應于圖(tu)(tu)像(xiang)的(de)(de)(de)高(gao)度、寬度和(he)顏色通道,比(bi)方說(shuo)紅色、綠色和(he)藍色。機(ji)器學(xue)習模型200識別(bie)包圍圖(tu)(tu)像(xiang)210中(zhong)的(de)(de)(de)目標(biao)對象(例(li)(li)如人(ren))的(de)(de)(de)bounding box212。另外(wai),機(ji)器學(xue)習模型200配置為讀取圖(tu)(tu)像(xiang)210的(de)(de)(de)下采樣版本(例(li)(li)如下采樣圖(tu)(tu)像(xiang)218)中(zhong)的(de)(de)(de)bounding box220中(zhong)的(de)(de)(de)片段(duan)222,并檢測作為與圖(tu)(tu)像(xiang)210中(zhong)的(de)(de)(de)bounding box212中(zhong)的(de)(de)(de)目標(biao)對象對應的(de)(de)(de)目標(biao)區域(RoI)的(de)(de)(de)區段(duan)222。在特(te)定實施例(li)(li)中(zhong),RoI可包括人(ren)、汽(qi)車或(huo)任何其(qi)他類型的(de)(de)(de)對象。
在一個實施例中(zhong),可以通(tong)過任何(he)可操作的(de)(de)(de)計(ji)算機(ji)視(shi)覺技術來檢測下(xia)采(cai)樣圖(tu)像218中(zhong)的(de)(de)(de)RoI。例如,包括RoIWarp for RoI pooling或RoaAign的(de)(de)(de)Mask R-CNN可以處理圖(tu)像210以確定作為RoI的(de)(de)(de)bounding box212,并(bing)通(tong)過使用ROAlign經由卷積層(ceng)214、216將(jiang)圖(tu)像210中(zhong)的(de)(de)(de)bounding box212映射到特(te)征映射(例如下(xia)采(cai)樣圖(tu)像218中(zhong)的(de)(de)(de)bounding box220對應(ying)于(yu)圖(tu)像210中(zhong)的(de)(de)(de)bounding box212),將(jiang)圖(tu)像210卷積到下(xia)采(cai)樣圖(tu)像218中(zhong),并(bing)在圖(tu)像210中(zhong)輸出與bounding box212中(zhong)的(de)(de)(de)特(te)征對應(ying)的(de)(de)(de)分割遮罩。
在(zai)(zai)特(te)定實(shi)施例(li)(li)中(zhong),機器學(xue)習模型(xing)200配置為輸出對(dui)象(xiang)檢測(ce)(例(li)(li)如(ru)(ru)圍繞(rao)人(ren)的(de)邊界框的(de)坐標(biao))、關(guan)鍵點(例(li)(li)如(ru)(ru)代表被檢測(ce)人(ren)的(de)姿勢)和/或分(fen)割(ge)遮罩(例(li)(li)如(ru)(ru)識別對(dui)應(ying)于(yu)被檢測(ce)人(ren)的(de)像(xiang)(xiang)(xiang)素)。在(zai)(zai)特(te)定實(shi)施例(li)(li)中(zhong),每(mei)個分(fen)割(ge)遮罩具有與輸入圖像(xiang)(xiang)(xiang)(例(li)(li)如(ru)(ru)圖像(xiang)(xiang)(xiang)210)相同(tong)數量的(de)像(xiang)(xiang)(xiang)素。在(zai)(zai)特(te)定實(shi)施例(li)(li)中(zhong),分(fen)割(ge)遮罩中(zhong)對(dui)應(ying)于(yu)目(mu)標(biao)對(dui)象(xiang)的(de)像(xiang)(xiang)(xiang)素標(biao)記為“1”,其余(yu)像(xiang)(xiang)(xiang)素則標(biao)記為“0”,以便(bian)當分(fen)割(ge)遮罩覆蓋在(zai)(zai)輸入圖像(xiang)(xiang)(xiang)上(shang)時,機器學(xue)習模型(xing)200可以有效地選(xuan)擇與捕獲圖像(xiang)(xiang)(xiang)中(zhong)的(de)目(mu)標(biao)對(dui)象(xiang)相對(dui)應(ying)的(de)像(xiang)(xiang)(xiang)素,例(li)(li)如(ru)(ru)包括(kuo)圖像(xiang)(xiang)(xiang)210中(zhong)用戶特(te)征的(de)區(qu)段。
Meta指出,機器學習模(mo)型(xing)的(de)(de)200架構旨在降低復(fu)雜性(xing),從而減少處理(li)需求,以在資源有限的(de)(de)設備產生足夠(gou)精確和快(kuai)速的(de)(de)結果,并滿(man)足實時應用的(de)(de)需求,例如每秒(miao)10、15或30幀。與基于(yu)ResNet或Feature Pyramid Networks(FPN)的(de)(de)傳統架構相比,機器學習模(mo)型(xing)200要小(xiao)得(de)多,并且(qie)可以更(geng)快(kuai)地生成預測(ce),例如大約快(kuai)100倍。
所以,這個機(ji)器學習模型可用(yong)(yong)(yong)于(yu)檢測(ce)關于(yu)用(yong)(yong)(yong)戶眼(yan)睛的(de)(de)(de)特征(例(li)如用(yong)(yong)(yong)戶眼(yan)睛的(de)(de)(de)輪(lun)廓),以便實時(shi)計(ji)算(suan)用(yong)(yong)(yong)戶的(de)(de)(de)注(zhu)視(shi)點。

圖(tu)2B示出了用于預測bounding box、分段(duan)遮罩和關(guan)鍵點的(de)機器(qi)學習(xi)模(mo)型201的(de)示例(li)(li)架構(gou)。機器(qi)學習(xi)模(mo)型201配置(zhi)為獲取輸入(ru)圖(tu)像(xiang)230,并且通過處理圖(tu)像(xiang)230的(de)下(xia)(xia)采樣版本(例(li)(li)如(ru)下(xia)(xia)采樣圖(tu)像(xiang)234),輸出N個區段(duan)236。其中(zhong)(zhong),區段(duan)236是下(xia)(xia)采樣圖(tu)像(xiang)234中(zhong)(zhong)的(de)RoI。在(zai)特定(ding)實施例(li)(li)中(zhong)(zhong),RoI是用戶(hu)的(de)眼(yan)睛特征(zheng)/關(guan)鍵點,例(li)(li)如(ru),用戶(hu)眼(yan)睛的(de)輪廓、虹膜(mo)的(de)邊緣和/或用戶(hu)眼(yan)球中(zhong)(zhong)的(de)反(fan)射(she)。
在圖(tu)(tu)(tu)(tu)(tu)(tu)2B中(zhong)(zhong)(zhong),輸入圖(tu)(tu)(tu)(tu)(tu)(tu)像230包括包圍用(yong)(yong)(yong)戶(hu)眼睛(jing)(jing)特征(zheng)并(bing)由一(yi)個(ge)或(huo)多(duo)個(ge)區(qu)(qu)段組成的(de)(de)(de)bounding box232。機(ji)(ji)器學習模型201處理輸入圖(tu)(tu)(tu)(tu)(tu)(tu)像230的(de)(de)(de)下(xia)(xia)采(cai)樣版本(例如下(xia)(xia)采(cai)樣圖(tu)(tu)(tu)(tu)(tu)(tu)像234),并(bing)讀取(qu)(qu)下(xia)(xia)采(cai)樣圖(tu)(tu)(tu)(tu)(tu)(tu)像234中(zhong)(zhong)(zhong)對(dui)應于輸入圖(tu)(tu)(tu)(tu)(tu)(tu)像230中(zhong)(zhong)(zhong)的(de)(de)(de)bounding box232的(de)(de)(de)bounding box236中(zhong)(zhong)(zhong)的(de)(de)(de)區(qu)(qu)段,以檢測包括目標眼睛(jing)(jing)特征(zheng)的(de)(de)(de)一(yi)個(ge)或(huo)多(duo)個(ge)第(di)一(yi)區(qu)(qu)段238。因此(ci),當需要計算(suan)用(yong)(yong)(yong)戶(hu)的(de)(de)(de)注視(shi)點時,用(yong)(yong)(yong)機(ji)(ji)器學習模型201實現的(de)(de)(de)追(zhui)蹤系統(tong)可以直接讀取(qu)(qu)/檢索輸入圖(tu)(tu)(tu)(tu)(tu)(tu)像230中(zhong)(zhong)(zhong)與在下(xia)(xia)采(cai)樣圖(tu)(tu)(tu)(tu)(tu)(tu)像234中(zhong)(zhong)(zhong)用(yong)(yong)(yong)眼睛(jing)(jing)特征(zheng)識別的(de)(de)(de)第(di)一(yi)區(qu)(qu)段238相對(dui)應的(de)(de)(de)區(qu)(qu)段240。
在特定實施例中,輸入圖(tu)像230可(ke)存儲(chu)(chu)(chu)在存儲(chu)(chu)(chu)器(qi)或任(ren)何存儲(chu)(chu)(chu)設備中,這樣,可(ke)以簡單地(di)從存儲(chu)(chu)(chu)器(qi)選擇(ze)性地(di)讀取下采樣圖(tu)像234和描繪眼睛特征(zheng)的(de)(de)全(quan)分(fen)辨率圖(tu)像的(de)(de)部分(fen)(例如下采樣圖(tu)像234的(de)(de)至少一(yi)部分(fen)),從而最(zui)小化消耗大量功(gong)率的(de)(de)存儲(chu)(chu)(chu)器(qi)訪問。
在(zai)特定實施(shi)例(li)中,機(ji)器(qi)學(xue)習模型200、201可(ke)包括若干高級組件(jian)以檢(jian)測bounding box、關鍵點和分(fen)割(ge)掩碼(ma)。組件(jian)中的每(mei)一個(ge)都可(ke)以配置為(wei)神經網絡。從(cong)概念(nian)上講,機(ji)器(qi)學(xue)習模型200、201在(zai)所示架(jia)構中配置為(wei)處理(li)輸入(ru)圖(tu)像并(bing)(bing)準備表示圖(tu)像的特征(zheng)映(ying)射(she),例(li)如卷積(ji)輸出的起始。RPN獲取由神經網絡生成(cheng)的特征(zheng)映(ying)射(she),并(bing)(bing)輸出N個(ge)可(ke)能包括感(gan)興趣對象的擬議RoI。

圖(tu)(tu)3示出了(le)根據(ju)追蹤(zong)(zong)系(xi)統架構(gou)。追蹤(zong)(zong)系(xi)統300包(bao)括至少一個(ge)傳感(gan)器(qi)模(mo)塊310和(he)中央模(mo)塊322。傳感(gan)器(qi)模(mo)塊310包(bao)括至少一個(ge)攝像(xiang)(xiang)頭312,其捕(bu)(bu)捉(zhuo)用(yong)戶(hu)(hu)(hu)(hu)的(de)一個(ge)或多個(ge)圖(tu)(tu)像(xiang)(xiang),而圖(tu)(tu)像(xiang)(xiang)可(ke)以是描(miao)繪用(yong)戶(hu)(hu)(hu)(hu)眼睛特征(zheng)的(de)用(yong)戶(hu)(hu)(hu)(hu)的(de)一系(xi)列(lie)幀。傳感(gan)器(qi)模(mo)塊同(tong)時可(ke)以包(bao)括存儲用(yong)戶(hu)(hu)(hu)(hu)捕(bu)(bu)捉(zhuo)的(de)圖(tu)(tu)像(xiang)(xiang)的(de)存儲單(dan)元314和(he)檢(jian)測單(dan)元316,后者利(li)用(yong)機器(qi)學習模(mo)型來(lai)實現,以在捕(bu)(bu)獲(huo)圖(tu)(tu)像(xiang)(xiang)的(de)下(xia)采樣(yang)版本(ben)中檢(jian)測包(bao)含用(yong)戶(hu)(hu)(hu)(hu)眼睛特征(zheng)的(de)區段(duan)。傳感(gan)器(qi)模(mo)塊同(tong)時包(bao)括計算(suan)單(dan)元318,其基于與(yu)捕(bu)(bu)獲(huo)圖(tu)(tu)像(xiang)(xiang)的(de)下(xia)采樣(yang)版本(ben)中的(de)檢(jian)測片(pian)段(duan)相對(dui)應(ying)的(de)捕(bu)(bu)獲(huo)圖(tu)(tu)像(xiang)(xiang)中的(de)片(pian)段(duan)來(lai)計算(suan)用(yong)戶(hu)(hu)(hu)(hu)的(de)注視點。
另外,中(zhong)央(yang)模塊(kuai)322包括(kuo)至少一個(ge)處(chu)(chu)理(li)(li)器324,處(chu)(chu)理(li)(li)器324進(jin)一步處(chu)(chu)理(li)(li)來(lai)自傳感(gan)器模塊(kuai)310的(de)(de)捕(bu)獲(huo)圖(tu)像320中(zhong)的(de)(de)用(yong)(yong)(yong)(yong)戶的(de)(de)計算(suan)注(zhu)視點(dian)和(he)識別片段。中(zhong)央(yang)模塊(kuai)進(jin)一步包括(kuo)來(lai)自一個(ge)或多個(ge)IMU 328的(de)(de)慣(guan)性(xing)(xing)測(ce)量(liang)單(dan)元(yuan)(IMU)數(shu)(shu)據330,所述(shu)慣(guan)性(xing)(xing)測(ce)量(liang)單(dan)元(yuan)(IMU)數(shu)(shu)據330在帶(dai)有傳感(gan)器模塊(kuai)310的(de)(de)頭戴式(shi)設備中(zhong)實現(xian)。例如,中(zhong)央(yang)模塊(kuai)322基(ji)于所拍攝(she)圖(tu)像的(de)(de)所識別片段中(zhong)的(de)(de)特(te)征,以及(ji)從IMU 328發送的(de)(de)IMU數(shu)(shu)據330中(zhong)提供的(de)(de)camera姿勢、速(su)度、加速(su)度和(he)運動來(lai)估(gu)計用(yong)(yong)(yong)(yong)戶的(de)(de)狀態,另外,中(zhong)央(yang)模塊(kuai)322可(ke)以利用(yong)(yong)(yong)(yong)用(yong)(yong)(yong)(yong)戶的(de)(de)狀態來(lai)細化捕(bu)獲(huo)圖(tu)像中(zhong)的(de)(de)片段,并將用(yong)(yong)(yong)(yong)戶326的(de)(de)細化片段/注(zhu)視點(dian)提供給傳感(gan)器模塊(kuai)310。
在(zai)特(te)定(ding)實(shi)施例中(zhong)(zhong),中(zhong)(zhong)央模(mo)(mo)塊(kuai)322可以為用(yong)(yong)(yong)戶320的(de)(de)(de)(de)計(ji)算注視執(zhi)行廣泛的(de)(de)(de)(de)服(fu)(fu)務(wu),以降(jiang)低功(gong)耗,例如在(zai)本地或全局(ju)定(ding)位(wei)(wei)(wei)用(yong)(yong)(yong)戶/設備(例如遠程定(ding)位(wei)(wei)(wei)服(fu)(fu)務(wu)334)。在(zai)特(te)定(ding)實(shi)施例中(zhong)(zhong),中(zhong)(zhong)央模(mo)(mo)塊(kuai)322處理(li)來(lai)自IMU 328的(de)(de)(de)(de)IMU數據330,以提供用(yong)(yong)(yong)戶的(de)(de)(de)(de)預測姿(zi)(zi)勢(shi)并幫助(zhu)生成用(yong)(yong)(yong)戶的(de)(de)(de)(de)狀態(tai)。在(zai)特(te)定(ding)實(shi)施例中(zhong)(zhong),如果需要,中(zhong)(zhong)央模(mo)(mo)塊(kuai)322可以通過(guo)基于從傳(chuan)感(gan)(gan)器模(mo)(mo)塊(kuai)310發(fa)送的(de)(de)(de)(de)捕獲圖像(xiang)(xiang)320中(zhong)(zhong)的(de)(de)(de)(de)識別(bie)片段中(zhong)(zhong)的(de)(de)(de)(de)特(te)征檢索實(shi)時映射(she)(she)332來(lai)定(ding)位(wei)(wei)(wei)傳(chuan)感(gan)(gan)器模(mo)(mo)塊(kuai)310。實(shi)時映射(she)(she)332包括用(yong)(yong)(yong)于用(yong)(yong)(yong)戶/傳(chuan)感(gan)(gan)器模(mo)(mo)塊(kuai)310的(de)(de)(de)(de)定(ding)位(wei)(wei)(wei)的(de)(de)(de)(de)映射(she)(she)數據334。中(zhong)(zhong)央模(mo)(mo)塊(kuai)322可以校準(zhun)用(yong)(yong)(yong)戶在(zai)映射(she)(she)數據334的(de)(de)(de)(de)姿(zi)(zi)勢(shi),并將用(yong)(yong)(yong)戶326的(de)(de)(de)(de)校準(zhun)姿(zi)(zi)勢(shi)提供給(gei)傳(chuan)感(gan)(gan)器模(mo)(mo)塊(kuai)310。在(zai)特(te)定(ding)實(shi)施例中(zhong)(zhong),中(zhong)(zhong)央模(mo)(mo)塊(kuai)322可以包括存儲設備,其用(yong)(yong)(yong)于存儲捕獲的(de)(de)(de)(de)圖像(xiang)(xiang)和/或用(yong)(yong)(yong)戶的(de)(de)(de)(de)計(ji)算注視點,以減輕(qing)傳(chuan)感(gan)(gan)器模(mo)(mo)塊(kuai)310的(de)(de)(de)(de)重量。
在特定實(shi)施(shi)(shi)例(li)(li)中(zhong),傳感器(qi)模(mo)塊(kuai)310可(ke)在頭(tou)戴式設(she)備(bei)中(zhong)實(shi)現,而中(zhong)央模(mo)塊(kuai)322可(ke)在與頭(tou)戴式設(she)備(bei)分離的(de)本(ben)(ben)地計(ji)算(suan)設(she)備(bei)實(shi)現。如在兩部分系(xi)統中(zhong)。頭(tou)戴式設(she)備(bei)包(bao)括一個(ge)(ge)或多個(ge)(ge)處(chu)理器(qi),配(pei)置為(wei)實(shi)現傳感器(qi)模(mo)塊(kuai)310的(de)攝(she)像頭(tou)312、存儲(chu)設(she)備(bei)314、檢測單(dan)元316和計(ji)算(suan)單(dan)元318。在一個(ge)(ge)實(shi)施(shi)(shi)例(li)(li)中(zhong),每個(ge)(ge)處(chu)理器(qi)被(bei)配(pei)置為(wei)分別(bie)實(shi)現攝(she)像頭(tou)312、存儲(chu)設(she)備(bei)314、檢測單(dan)元316和計(ji)算(suan)單(dan)元318。本(ben)(ben)地計(ji)算(suan)設(she)備(bei)包(bao)括配(pei)置為(wei)執行中(zhong)央模(mo)塊(kuai)322的(de)一個(ge)(ge)或多個(ge)(ge)處(chu)理器(qi)。
一(yi)種基(ji)于機器(qi)學習(ML)的輕(qing)型(xing)眼動追(zhui)(zhui)蹤系(xi)(xi)統可以分(fen)階(jie)段執行(xing),以最小(xiao)化功(gong)耗。執行(xing)眼動追(zhui)(zhui)蹤系(xi)(xi)統以對(dui)傳感器(qi)模塊(kuai)捕(bu)獲(huo)(huo)的圖(tu)像(xiang)(xiang)進(jin)行(xing)下采樣,從(cong)下采樣圖(tu)像(xiang)(xiang)中識(shi)別目標片(pian)(pian)段(例(li)如,基(ji)于眼睛輪(lun)廓(kuo)),基(ji)于識(shi)別的片(pian)(pian)段加載高(gao)分(fen)辨率圖(tu)像(xiang)(xiang)的目標區域,以及(ji)基(ji)于高(gao)分(fen)辨率圖(tu)像(xiang)(xiang)(例(li)如最初捕(bu)獲(huo)(huo)的圖(tu)像(xiang)(xiang))的RoI中的反射/折射計(ji)算注視點。眼動追(zhui)(zhui)蹤系(xi)(xi)統僅檢索高(gao)分(fen)辨率圖(tu)像(xiang)(xiang)的RoI,所以可以減少內存(cun)訪問和(he)功(gong)耗。

圖4A示(shi)出(chu)了傳感(gan)器模(mo)塊處檢(jian)測特征片段的(de)(de)示(shi)例方(fang)法400。方(fang)法400可以從(cong)步(bu)驟410開始(shi):使(shi)用(yong)一(yi)個(ge)或(huo)多(duo)個(ge)攝像頭(tou)捕捉(zhuo)用(yong)戶(hu)的(de)(de)一(yi)個(ge)或(huo)多(duo)個(ge)圖像,用(yong)戶(hu)的(de)(de)一(yi)個(ge)或(huo)多(duo)個(ge)圖像描(miao)繪了用(yong)戶(hu)的(de)(de)至少一(yi)只眼睛。在特定實施例中,用(yong)戶(hu)的(de)(de)一(yi)個(ge)或(huo)多(duo)個(ge)圖像包括從(cong)一(yi)個(ge)或(huo)多(duo)個(ge)攝像頭(tou)的(de)(de)一(yi)個(ge)或(huo)多(duo)個(ge)視(shi)角捕獲的(de)(de)不同注視(shi)方(fang)向,從(cong)而確定用(yong)戶(hu)的(de)(de)注視(shi)點。
在(zai)步(bu)驟(zou)420,方法(fa)400可以將(jiang)用戶的一(yi)個(ge)或(huo)多個(ge)圖像存(cun)(cun)儲(chu)在(zai)存(cun)(cun)儲(chu)單(dan)元(yuan)中。在(zai)特定實施例中,存(cun)(cun)儲(chu)單(dan)元(yuan)可以在(zai)具(ju)有一(yi)個(ge)或(huo)多個(ge)攝(she)像頭的頭戴(dai)式設備中實現。
在步(bu)驟430,方法400可(ke)以從存儲設備讀取(qu)用(yong)戶(hu)的一個(ge)或多個(ge)圖像的下采樣版本(ben)。
在(zai)步驟440,方(fang)法400可(ke)以通過使用(yong)機器學(xue)習模(mo)型(xing)處理一(yi)(yi)個(ge)(ge)(ge)或多個(ge)(ge)(ge)圖(tu)像的(de)(de)下采(cai)樣(yang)版(ban)本,在(zai)一(yi)(yi)個(ge)(ge)(ge)或多個(ge)(ge)(ge)圖(tu)像的(de)(de)下采(cai)樣(yang)版(ban)本中檢(jian)測包(bao)含用(yong)戶眼(yan)睛(jing)特征的(de)(de)一(yi)(yi)個(ge)(ge)(ge)或多個(ge)(ge)(ge)第(di)(di)一(yi)(yi)區段。在(zai)特定實施例中,一(yi)(yi)個(ge)(ge)(ge)或多個(ge)(ge)(ge)第(di)(di)一(yi)(yi)區段包(bao)括用(yong)戶眼(yan)睛(jing)輪廓的(de)(de)至少一(yi)(yi)部分(fen)。

圖(tu)(tu)4B的(de)示例(li)方(fang)法(fa)401通過讀取與(yu)傳感器模塊處下采樣圖(tu)(tu)像(xiang)中(zhong)(zhong)(zhong)檢測到的(de)區(qu)段(duan)(duan)相對應的(de)圖(tu)(tu)像(xiang)中(zhong)(zhong)(zhong)的(de)區(qu)段(duan)(duan)來計(ji)算用(yong)戶的(de)注(zhu)視點(dian)。方(fang)法(fa)401可以(yi)在(zai)(zai)方(fang)法(fa)400中(zhong)(zhong)(zhong)的(de)步驟440之后的(de)步驟450開始:從存儲單元讀取與(yu)一(yi)個或(huo)(huo)多(duo)個圖(tu)(tu)像(xiang)的(de)下采樣版本(ben)中(zhong)(zhong)(zhong)的(de)一(yi)個或(huo)(huo)多(duo)個第(di)一(yi)區(qu)段(duan)(duan)相對應的(de)一(yi)個或(huo)(huo)多(duo)個圖(tu)(tu)像(xiang)中(zhong)(zhong)(zhong)的(de)一(yi)個或(huo)(huo)多(duo)個第(di)二區(qu)段(duan)(duan)。在(zai)(zai)特定實施例(li)中(zhong)(zhong)(zhong),一(yi)個或(huo)(huo)多(duo)個第(di)二區(qu)段(duan)(duan)包(bao)括(kuo)用(yong)戶眼睛中(zhong)(zhong)(zhong)的(de)反(fan)射(she)和/或(huo)(huo)折射(she)。在(zai)(zai)特定實施例(li)中(zhong)(zhong)(zhong),一(yi)個或(huo)(huo)多(duo)個第(di)二區(qu)段(duan)(duan)包(bao)括(kuo)至少(shao)一(yi)個注(zhu)視方(fang)向。
在(zai)步驟(zou)460,方法401可以基于一個或多個圖像中(zhong)的一個或多個第二區段來計(ji)算用戶的注(zhu)視點(dian)。

圖4C示(shi)出了在中(zhong)央模塊(kuai)處理的圖像細化示(shi)例(li)方(fang)(fang)法402。在方(fang)(fang)法401中(zhong)的步(bu)驟(zou)(zou)460之后的步(bu)驟(zou)(zou)470,方(fang)(fang)法402可以開始向中(zhong)央模塊(kuai)發送一個(ge)或多個(ge)第二區(qu)段和(he)用戶的計算(suan)注(zhu)視點。
在步驟480,方法(fa)402可(ke)(ke)(ke)以從(cong)中(zhong)央模塊(kuai)接(jie)收用戶(hu)的第三(san)圖像,所述圖像基(ji)于一個(ge)或多個(ge)第二片段與用戶(hu)的計算注視(shi)點之(zhi)間的比較而實現細化。在特定實施例(li)中(zhong),中(zhong)央模塊(kuai)可(ke)(ke)(ke)以在與頭(tou)戴(dai)式設備分離的本地計算設備中(zhong)實現。中(zhong)央模塊(kuai)可(ke)(ke)(ke)處理傳感器模塊(kuai)的任何潛在請求/服務,以降低功耗(hao)。
相關專(zhuan)利:Facebook Patent | Distributed sensor module for eye-tracking
名為(wei)“Distributed sensor module for eye-tracking”的(de)Meta專(zhuan)利申請最初在(zai)2020年8月提交,并(bing)在(zai)日前(qian)由美國專(zhuan)利商標局公布。