您當前的位置是:  首頁 > 資訊 > IT與互聯(lián)網(wǎng) >

PICO自研算法解決了手柄小型化的技術難題

2023-09-21 15:25:37   作者:   來源:   評論:0  點擊:


  PICO 自研的多模態(tài)追蹤算法方案 Centaur,將「光學追蹤算法」與「CV 模態(tài)裸手追蹤算法」融合,并率先實現(xiàn)了融合算法的產(chǎn)品化,解決了小型化手柄在遮擋情況下識別難的問題。同時,手柄+裸手的融合式方案也為 XR 交互提供了新的思路。

  Apple Vision Pro 的無手柄設計引發(fā)了大量討論,它挑戰(zhàn)了我們對 XR 用戶體驗的傳統(tǒng)認知,提供了一種全新的、更為直觀的交互方式。然而,盡管這種去手柄化的趨勢在某些場景下可能有其獨特的優(yōu)勢,但手柄在 XR 頭顯的交互方式中的重要性仍然不容忽視。

  手柄作為一種成熟且被廣泛接受的交互工具,在需要精確輸入或復雜操作的情況下,例如一些游戲或繪畫、手術模擬等專業(yè)訓練中,通?梢蕴峁└玫捏w驗。此外,手柄能夠為用戶提供觸覺反饋,這是目前無手柄方案難以實現(xiàn)的,而觸覺對于創(chuàng)建沉浸式體驗又至關重要。

  不過,傳統(tǒng)的手柄往往體積較大,重量較重,長時間使用可能會引起用戶的疲勞。因此,許多 XR 廠商一直致力于研發(fā)更輕、更小巧的手柄設備,以提升用戶體驗。

  但是,輕量化手柄的研發(fā)面臨多個難點,其中一項主要的挑戰(zhàn)便是高精度追蹤的問題:首先,小型化設備限制了傳感器的大小和數(shù)量;其次,由于手柄小,用戶可能會更頻繁地做出快速和復雜的手勢,這也對追蹤系統(tǒng)的穩(wěn)定性和準確性提出了更高的要求;設備的小型化還可能會限制攝像頭的視場角,使得手柄在一些極端姿態(tài)下無法被有效追蹤。此外,高精度的追蹤通常需要進行更多的計算,因此功耗管理也是小型化手柄研發(fā)中的一個重要挑戰(zhàn)。

  融合光學追蹤與裸手識別算法,實現(xiàn)遮擋情況下穩(wěn)定追蹤

  基于 AI 方面的積累,PICO 創(chuàng)新性地提出了一種多模態(tài)的手柄追蹤解決方案,成功在小型化手柄上實現(xiàn)了穩(wěn)定的高精度追蹤。

  「我們在人手握姿的實時估計方法、多模態(tài)下的數(shù)據(jù)融合方法,以及基于 IMU(Inertial Measurement Unit,慣性測量單元)的高精度預測方法等方面,取得了一些突破創(chuàng)新,」PICO 研發(fā)團隊表示:「提出了一種多模態(tài)的手持控制器追蹤方法,能夠提供更廣的追蹤范圍,減小追蹤盲區(qū),為用戶帶來更好的體驗!

  PICO 此次自研的 Centaur多模態(tài)追蹤算法,將光學追蹤算法與 CV 模態(tài)下的手柄追蹤算法融合,其中光學追蹤算法通過識別手柄中 LED 燈發(fā)射出的紅外光(IR),實現(xiàn)對手柄的定位追蹤;CV 模態(tài)手柄追蹤算法,能夠在手柄上的 LED 燈被遮擋時,也即在極少 IR 或沒有 IR 的情況下,通過追蹤裸手的特征,準確還原出手柄控制器的 6DoF 信息,從而保持對手柄的穩(wěn)定追蹤。

  【圖說】 Centaur 多模態(tài)融合算法,將視覺信息與慣性信息融合,得到手柄位姿及速度的最優(yōu)估計。具體說,多模態(tài)追蹤算法使用從頭顯攝像頭、內(nèi)置IMU模塊、3-DOF模塊、深度學習手勢檢測及追蹤模塊、光學定位模塊采集到的多種模態(tài)數(shù)據(jù),分析手部特征、手柄運動信息、LED位置,以及全局上下文信息,進行精準的位姿預測和估計。最后,通過多幀融合濾波器對所有獲取的信息進行融合計算,產(chǎn)生高精度、高幀率的手柄位置、旋轉(zhuǎn)及速度信息,供上層應用使用。

  光學追蹤算法在 XR 產(chǎn)品中有著廣泛的應用,主要用于實現(xiàn)精準、低延遲的位置和運動追蹤。這些算法通常利用攝像頭(或其他光學傳感器)捕獲的圖像數(shù)據(jù),通過識別和追蹤特定的視覺特征,如顏色、紋理、形狀等,來計算物體(如用戶的頭部、手部或控制器)的位置和運動。

  PICO采用的是基于紅外光(IR)的主動式光學定位追蹤方案,這種技術可以通過頭顯攝像頭,觀測到手柄上發(fā)射的 IR,并通過光斑檢測和多視圖幾何原理來計算手柄的位置和姿態(tài)。與傳統(tǒng)的電磁定位和超聲波定位相比,具有高精度、低成本、低功耗等優(yōu)點。

  針對小型化手柄的一系列工程和技術挑戰(zhàn),PICO 組建了一個跨部門的攻關小組,包括交互感知內(nèi)部的數(shù)據(jù)交互團隊、裸手追蹤算法團隊和手柄追蹤算法團隊。

  經(jīng)過多次論證后,團隊設計了一套基于神經(jīng)網(wǎng)絡(AI 模型追蹤技術結構)的多模態(tài)手柄追蹤框架,其核心技術即上文提到的 Centaur多模態(tài)追蹤算法,該框架融合了 IMU、光學傳感器和手部圖像這幾種不同模態(tài)的信息,在手柄被遮擋的情況下,裸手追蹤能夠提供更加精準的觀測,同時手柄給手部追蹤提供更準確的預測,兩者深度融合,相互輔助。

  【圖說】 Centaur多模態(tài)追蹤算法,融合了 IMU、光學傳感器和手部圖像等不同模態(tài)的信息,在手柄被遮擋的情況下,裸手追蹤可以補充提供精準的觀測。

  裸手追蹤(hand-tracking),也叫手部追蹤或手勢追蹤,通過直接捕獲和分析用戶的手部姿態(tài)、位置和運動,使用戶可以在 XR 環(huán)境中直接用手勢進行交互,無需穿戴特殊設備(如手套或指環(huán)),也免去了學習復雜的控制器操作過程,大幅降低了使用門檻,因而在 XR 領域備受關注。

  不過,盡管裸手追蹤能夠提供更加流暢、自然的交互體驗,但也面臨諸多挑戰(zhàn)。例如,裸手追蹤需要高精度和低延遲,以便能夠?qū)崟r準確地捕捉用戶的動作。此外,光照條件、背景干擾、用戶的手部形狀和顏色差異等因素,也可能影響裸手追蹤的表現(xiàn)。

  「CV 模態(tài)手柄追蹤場景下,由于手柄的遮擋,導致裸手視覺特征不明顯,常常引發(fā)追蹤失效!筆ICO 裸手算法團隊成員表示:「針對該難點問題,我們創(chuàng)新性地融合了 Down-Top 的端到端 6DoF 追蹤算法,通過有效利用多目時序的全局上下文信息,比如身體的骨骼信息以及結合時間順序判斷,一次性準確且穩(wěn)定地預測手部位姿,能夠在手柄追蹤失效時,及時提供魯棒的位姿!

1.jpg

  【圖說】在計算機視覺和深度學習領域,Top-Down 和 Down-Top 是對象檢測和識別的兩種常見策略。Top-Down 通常從全局或更大尺度的視角開始,逐漸向更精細的細節(jié)進行;Down-Top 則從小尺度的細節(jié)開始,逐漸構建出全局的視圖。PICO 團隊采用 Down-Top 方案,能夠在精度相近的情況下,提高手柄的檢出率,從原先的 36% 提升到了93%。從上圖中看,右側 Down-Top 圖中連貫的綠線即表示系統(tǒng)有在持續(xù)并且穩(wěn)定地追蹤。

  裸手追蹤算法團隊設計的這個端到端 6DoF 追蹤算法,融合了 PICO 研發(fā)團隊在過去一年多的時間里取得的多項技術突破:

  • 手部多視角協(xié)同自監(jiān)督學習方法 HaMuCo:利用多視角的信息,通過自監(jiān)督學習和一致性損失函數(shù),能夠在沒有大規(guī)模 3D 標注數(shù)據(jù)集的情況下,獲得優(yōu)秀的手部姿態(tài)預測結果。這項工作也獲得了 ECCV HANDS22 Challenge 第一名。

  • 手部姿態(tài)預測和圖像對齊框架 DIR:DIR 是「解耦合迭代修正框架」(Decoupled Iterative Refinement)的縮寫,該框架解決了二維視覺特征空間和三維節(jié)點特征空間的耦合問題,DIR 在二維視覺特征空間中處理圖像信息,在三維節(jié)點特征空間中處理手部姿態(tài)信息。DIR 使用節(jié)點特征作為二維和三維空間之間的「橋梁」,使得這兩個空間可以相互溝通,從而實現(xiàn)特征增強和姿態(tài)修正。在最具挑戰(zhàn)性的雙手數(shù)據(jù)集上取得了 SOTA 精度,在處理復雜數(shù)據(jù)集和泛化到新情況方面也表現(xiàn)出色。該工作入選 ICCV2023 Oral 論文,足以證明其質(zhì)量。

  【圖說】圖片來自 DIR 論文:https://arxiv.org/abs/2302.02410

  • 從單視圖中重建雙手姿態(tài)的新方案:由于單視角固有的歧義性以及雙手具有相似的外觀、自遮擋嚴重等問題,從單視圖中重建雙手是一項巨大的挑戰(zhàn),團隊轉(zhuǎn)變思路,首先構建了一個雙手互動的先驗,然后將互動重建任務定義為從這個先驗中進行條件采樣的任務。具體說,團隊通過運動捕捉(MoCap)系統(tǒng)構建了一個大規(guī)模的雙手交互數(shù)據(jù)集,然后利用這些數(shù)據(jù)建立了一個基于 VAE 的雙手交互先驗網(wǎng)絡,再利用 ViT 從單視角圖像中提取特征,并充分融合雙手交互先驗的相關性,從而獲得了雙手重建的 SOTA 結果。

  • XR 場景全身姿態(tài)估計技術:提出了一個能夠建模全身關節(jié)點相關性的兩階段框架,基于 XR 場景下能夠獲取的有限的跟蹤信息(包括關節(jié)點位置特征、關節(jié)點旋轉(zhuǎn)特征以及輸入特征),回歸出準確、平滑和合理的全身姿態(tài)序列。模型在虛擬數(shù)據(jù)集(AMASS)和實采數(shù)據(jù)集上的實驗中,展現(xiàn)出了優(yōu)于現(xiàn)有方法的準確率、平滑性和物理合理性,極大地提高了用戶的沉浸式體驗。

  「這是團隊協(xié)作的成果,」PICO 攻關小組負責人表示:「數(shù)據(jù)交互團隊基于高精度動作捕捉系統(tǒng)完成了數(shù)據(jù)采集和標注;裸手追蹤算法團隊設計了 SOTA 的端到端 6DoF 位姿估計模型,提升了手部追蹤的穩(wěn)定性;手柄追蹤算法團隊則提升了光學追蹤的穩(wěn)定性和整個算法框架的實現(xiàn),多模態(tài)的手柄追蹤算法在手柄被遮擋情況下仍然能保持穩(wěn)定追蹤!

  「光學追蹤和裸手追蹤這兩大類算法,從追蹤框架上不是獨特唯一,也不是我們最先研究的,但是將它們?nèi)诤掀饋聿a(chǎn)品化,截至目前我們是第一家。」

  從研究到產(chǎn)品:新一代無燈環(huán)小手柄

  PICO 最新推出的小手柄,采用無燈環(huán)設計,配合頭顯進行雙手空間定位捕捉,通過頭顯的 inside-out 光學追蹤定位原理,計算出手柄的空間運動軌跡,并結合 6 軸傳感器完成無線控制器的 6DoF 捕捉,進而結合控制器的物理按鍵、馬達反饋、搖桿等反映到虛擬現(xiàn)實世界中,用于增強虛擬現(xiàn)實人機交互的能力,提升沉浸感。

  【圖說】PICO 最新一代無燈環(huán)小手柄。新手柄 LED 燈減少且均在手柄內(nèi),更容易被手部遮擋,因此對手柄追蹤的魯棒性帶來重大挑戰(zhàn)。

  相比上一代手柄,無燈環(huán)小手柄更加輕巧便攜,重心偏手心位置(電池和馬達更集中),握持手感更好;雙手柄的相互干涉概率更小,整體交互會更自然。重量相比上一代手柄輕約15g,高度減少50%。

  追蹤效果方面,采用自研 Centaur 多模態(tài)追蹤算法方案,有效解決了雙手遮擋情況下的手柄追蹤精度問題,毫米級追蹤精度,延遲<5ms。

  能耗方面,根據(jù) PICO 內(nèi)部測試的結果,在每天運動 1 小時的情況下,可以持續(xù)工作超過 80 天。

  實際上,在 PICO 4 早期的研發(fā)階段,團隊就有過制作無燈環(huán)小型手柄的想法。2022 年 6 月,小手柄研發(fā)項目正式啟動后,團隊探索過多種追蹤方案,包括自追蹤和其他傳感器的追蹤方案,考慮到精度及成本等因素,最終決定以光學追蹤為基礎,結合裸手追蹤的最新技術,探索出了一條多模態(tài)的追蹤方案。

  「以高精度光學位姿解算和裸手追蹤為基礎,實時估算手柄和手掌的相對位置關系。在光學解算失效的情況下,使用裸手檢測的結果還原出手柄控制器的 6DoF 信息。」PICO 裸手追蹤算法團隊成員表示。

  「這樣我們的手柄控制器追蹤系統(tǒng)不僅能夠使用紅外 LED 做到高精度的追蹤,也能夠利用裸手檢測“隔山打牛”,最終實現(xiàn)了抓握圓盤的握持方式下依然穩(wěn)定的追蹤效果,通過了極客玩家的挑剔測試!

  【圖說】小手柄會面臨更多低 LED 觀測數(shù)量下的初始化與追蹤問題,從數(shù)學上解算難度更大。上圖為僅有 3 顆 LED 燈時手柄靜止狀態(tài)下的追蹤效果,可以看出,多幀緊耦合比單幀松耦合的結果更加精確,追蹤更加穩(wěn)定,波動顯著減小。

  手柄交互+裸手交互,雙線布局應對未來

  光學追蹤和裸手追蹤兩大類算法,經(jīng)歷了 PICO Neo3 和 PICO 4 兩代產(chǎn)品的打磨,對用戶需求更了解,技術廣度和深度有足夠的積累。

  作為最早將光學追蹤產(chǎn)品化的 XR 企業(yè)之一,PICO 的光學追蹤系統(tǒng)在許多技術點上表現(xiàn)出優(yōu)勢,精度和性能等指標目前處于全球第一梯隊。PICO 的裸手追蹤技術則在這兩年間快速積累,已經(jīng)可以實現(xiàn)相當精確和穩(wěn)定的手部和指尖追蹤。

  「在高難度的快速運動場景下,我們通過不斷優(yōu)化端到端的時序模型、千萬級高精訓練集,以及 MTP(Motion to Photon,動顯延遲)測試方案,目前算法延遲與追蹤丟失率在全球范圍能做到技術領先,給用戶在游戲與運動場景帶來了流暢且穩(wěn)定的體驗!

  如今,數(shù)據(jù)驅(qū)動的 AI 正以前所未有的方式塑造著未來,尤其在 XR 領域,由于硬件和算法持續(xù)快速迭代,數(shù)據(jù)的效率、質(zhì)量和可擴展性對于開發(fā)交互式 AI 算法至關重要。

  PICO 擁有行業(yè)領先的全方位自研軟硬件基建,覆蓋數(shù)據(jù)生產(chǎn)平臺(含相機陣列與仿真系統(tǒng))和測試平臺等,特別關注高效數(shù)據(jù)獲取、高精度數(shù)據(jù)標注和數(shù)據(jù)應用相關的工作,也為技術和產(chǎn)品的研發(fā)奠定了堅實的基礎。

  「為了生產(chǎn)高精數(shù)據(jù),我們在小手柄裸手姿態(tài)數(shù)據(jù)的高精標注任務中,一方面采用了自研的業(yè)內(nèi)領先的基于相機陣列的多視角手部姿態(tài)標注技術方案;另一方面針對該特定任務進行了預重建,進一步提升了手部姿態(tài)數(shù)據(jù)的精度!筆ICO 數(shù)據(jù)交互團隊表示。

2.jpg

【圖說】PICO高精度數(shù)據(jù)采集與自動標注流程

  (多視角采集方案示意圖)

222.png

【圖說】AI合成方案,通過仿真手部模型擴大數(shù)據(jù)采集樣本

  「我們在數(shù)據(jù)生產(chǎn)上也提供了多套技術方案,如相機陣列的真實采集與仿真合成平臺方案,多種方案結合,有力保障 AI 訓練數(shù)據(jù)的支撐。」

  結語

  當前,XR 領域技術快速更迭,PICO 在光學追蹤和裸手追蹤兩條技術路線上雙線布局,表明了其在對技術發(fā)展趨勢的洞察上具有一定的前瞻性。

  「裸手+手柄」的融合式交互方案,結合了裸手追蹤的直觀性和手柄輸入的精確性,既可以提供自然、直觀的體驗,又可以實現(xiàn)精確、細致的操作,在游戲、教育、醫(yī)療、設計等領域,很多 XR 應用中都是一個非常有吸引力的選項,有望成為未來 2~3 年行業(yè)的主流交互趨勢。

  作為國內(nèi)最早參與 XR 領域的企業(yè)之一,PICO 憑借前瞻性的技術意識和充分的技術積累,確立了其在行業(yè)中的領先地位。此次自研 Centaur 多模態(tài)追蹤算法,申請專利并成功產(chǎn)品化,再加上全方位自研的軟硬件基礎設施,這些都是技術優(yōu)勢的體現(xiàn),也是 PICO 能持續(xù)領跑行業(yè)的關鍵。

  在科技產(chǎn)業(yè),尋找創(chuàng)新與保持一致性之間的平衡是挑戰(zhàn)也是藝術。一方面,創(chuàng)新性和差異性是推動行業(yè)向前發(fā)展的引擎,為用戶帶來更高效、更具吸引力的體驗。另一方面,一致性對于確保平穩(wěn)過渡和降低過渡成本具有至關重要的作用。PICO 的融合式交互方案巧妙地展現(xiàn)出了這樣的一致與創(chuàng)新。正如混合動力汽車為消費者和制造商提供了平滑過渡到全電動汽車的途徑。同樣,手柄+裸手的融合式交互技術也提供了一條路徑,使得 XR 行業(yè)可以更加平順地邁向下一階段。人機交互的設計應當始終以用戶為中心,包括那些有特殊需求或身體限制的人。讓我們期待 PICO 的這份執(zhí)著和專注,繼續(xù)為玩家?guī)砀喑较胂蟮捏@喜。

  參考資料

  • 高效數(shù)據(jù)獲取 HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning,https://arxiv.org/abs/2302.00988

  • 高精度數(shù)據(jù)標注 Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image,Reconstructing Interacting Hands with Interaction Prior from Monocular Images, https://arxiv.org/abs/2 302.02410

  • 單視圖中重建雙手Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2308.14082

  • 數(shù)據(jù)應用 Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling,https://arxiv.org/abs/2308.08855

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關熱詞搜索:

上一篇:UCP完美適配虛擬化方案Esxi/KVM

下一篇:最后一頁

相關閱讀:

專題

CTI論壇會員企業(yè)