導讀:深度傳遞關鍵信息——我們將需要深度感測和2D成像來捕獲現(xiàn)實世界的全部信息。
以前,我們一直認為傳統(tǒng)相機將3D世界轉換為2D圖像,已可以滿足我們對于圖像的應用,而2D圖像中丟失的三維似乎并不重要。
但隨著計算機視覺(CV)的飛速發(fā)展以及與深度學習的結合,許多雄心勃勃的研究人員試圖使機器通過攝像頭更好地了解我們的世界,以便它們可以通過許多任務來增強人類的能力。其中最有意義的是找回2D圖像中丟失的深度信息。
在如今諸多火爆的智能硬件中,如體感交互、遠程遙控機器人、無人駕駛等場景里,CV發(fā)揮著重要作用,成功完成諸如手寫識別,對象分類、輔助駕駛之類的工作。但是,當處理真實的3D世界時,CV就存在瓶頸。人類有兩只眼睛,使我們能夠自然地感知深度。但是,大多數(shù)CV應用程序都依靠一臺攝像機來捕獲和解釋其周圍的環(huán)境。丟失的三維尺寸嚴重限制了CV的性能,可以說傳感器的性能就是如今虛擬與現(xiàn)實世界之間的瓶頸。
深度傳遞關鍵信息——我們將需要深度感測和2D成像來捕獲現(xiàn)實世界的全部信息。
深度傳感器的三種技術
目前人們?nèi)绻胩綔y環(huán)境深度信息,主要依賴于三種技術,分別是相機陣列, TOF(time of flight)技術,以及基于結構光的深度探測技術。
結構光:
接收器使用激光光源投射目標物,檢測反射目標物的變形,以基于幾何形狀計算深度圖。它必須掃描整個平面以獲得需要時間的深度圖,因此它是非常準確的。但是,此方法對環(huán)境亮度敏感,因此通常僅在黑暗或室內(nèi)區(qū)域使用。
飛行時間(ToF):
ToF主要有兩種方法。第一個很簡單:激光源發(fā)出一個脈沖,傳感器檢測到該脈沖在目標物體上的反射,以記錄其飛行時間。知道了光的恒定速度后,系統(tǒng)可以計算出目標物體的距離。為了確保高精度,脈沖周期必須短,這導致較高的成本。另外,需要高分辨率的時間數(shù)字轉換器,這會消耗很多功率。這種方法通??梢栽诟咝阅躎oF傳感器中找到。
計算時間的另一種方法是發(fā)出調(diào)制光源并檢測反射光的相位變化。相變可以通過混合技術容易地測量。調(diào)制激光源比發(fā)出短脈沖更容易,并且混合技術比時間數(shù)字轉換器更易于實現(xiàn)。此外,LED可用作調(diào)制光源來代替激光。因此,基于調(diào)制的ToF系統(tǒng)適合于低成本ToF傳感器。
相機陣列:
攝像頭陣列方法使用放置在不同位置的多個攝像頭來捕獲同一目標的多個圖像,并根據(jù)幾何結構計算深度圖。在計算機視覺中,這也稱為“立體視圖”或“立體”。最簡單但最受歡迎的相機陣列是雙相機,其中兩個相機相隔一定距離以模仿人眼。對于空間中的每個點,在兩個攝像機圖像中的位置均出現(xiàn)可測量的差異。然后,通過基本幾何來計算深度。
相機陣列的主要挑戰(zhàn)是如何在多個圖像中找到匹配點。匹配點搜索涉及復雜的CV算法。目前,深度學習可以幫助您找到準確度較高的匹配點,但是其計算成本很高。另外,有很多點很難找到匹配點。例如,在上面的瓦格納雕像的兩個視圖中,鼻子是最容易匹配的點,因為它的特征易于提取和比較。但是,對于面部的其他部分(尤其是面部無紋理的表面),很難找到匹配點。當兩個相機圖像的遮擋不同時,匹配會更加復雜。目前,相機陣列作為深度傳感器的魯棒性仍然是一個具有挑戰(zhàn)性的問題。
三種深度感測技術的對比
整體表現(xiàn)
對于深度感測,最重要的指標是深度精度。結構光具有最佳的深度精度性能,而相機陣列往往具有最大的深度誤差。
就深度感測范圍而言,結構光的范圍最短,而ToF的范圍取決于光源的發(fā)射功率。例如,智能設備可能只需要幾米的距離,而自動駕駛汽車則需要幾百米。同樣,攝像機陣列的測量范圍取決于兩個攝像機之間的空間。對于常規(guī)攝像機陣列,最佳性能測量范圍通常在10m左右,盡管也顯示了某些具有極窄空間的特殊攝像機陣列可以在1m左右測量深度。
對于深度圖分辨率,結構光的性能優(yōu)于ToF,因為可以精確控制結構發(fā)光圖案并精確捕獲其反射圖案。從理論上講,攝像機陣列具有良好的分辨率,但這是基于兩個圖像中的完美點匹配。使用非理想的點匹配(如光滑表面)時,分辨率會降低。
最后,我們需要考慮對環(huán)境亮度的限制。結構光需要黑暗的環(huán)境,而ToF傳感器由于快速發(fā)展的背景消除技術而可以承受更大范圍的環(huán)境亮度。對于攝像機陣列,明亮的環(huán)境效果最佳。在黑暗的房間中,相機陣列捕獲的圖像會變得嘈雜,并且對比度變差,因此點匹配變得極為困難,從而導致深度估計不準確。
成本
攝像機陣列的成本通常最低,其開發(fā)工作主要在軟件方面。雙攝像頭解決方案已經(jīng)廣泛應用于許多智能設備和移動電話中。ToF傳感器的成本適中,而結構光的成本最高。但是,隨著ToF的批量生產(chǎn),預計其成本在不久的將來會大大降低。
可擴展性
通過展望這些技術的潛力,我們可以更好地利用它們來滿足未來的需求。
ToF是半導體技術,并且具有最佳的可伸縮性。它的深度精度可以通過片上時間數(shù)字轉換器/混合電路進行縮放,其深度圖分辨率可以通過傳感器尺寸進行縮放,其測量范圍可以通過光源功率/調(diào)制方案進行縮放,并且其功耗可以通過用半導體技術擴展規(guī)模。
另一方面,結構光具有不錯的可伸縮性。光學系統(tǒng)是結構光的關鍵組成部分,光學系統(tǒng)可以隨著封裝技術而擴展(盡管不如半導體快)。
最后,縮放攝像機陣列主要依賴于軟件:我們將需要更好的算法來縮放其深度感應性能。它更像是一個數(shù)學問題,而不是工程問題,而改進硬件并沒有太大幫助。即使使用分辨率更高的相機,點匹配問題仍然存在。
資料來源:德州儀器
建議僅使用結構光來執(zhí)行生物識別任務,因為它具有最佳的深度精度。游戲應用需要中等深度分辨率和快速響應,因此ToF傳感器似乎是最合適的。對于其他應用程序(包括定位,識別,測量和增強現(xiàn)實),所有技術都可以做到,但是某些技術比其他技術更適合特定的應用場景。例如,相機陣列可能最適合在需要深度測量范圍的開放空間中的AR應用,而ToF傳感器最適合可以控制環(huán)境亮度的室內(nèi)AR.
深度傳感器的應用
1. AR / VR:用于感知真實的3D環(huán)境并在虛擬世界中重建它們
深度信息對于VR / AR設備的人機交互也是必需的。設備必須準確響應用戶的3D運動,因此肯定需要高性能的深度傳感器。
例如,谷歌的Project Tango使用深度傳感器來準確地測量實際環(huán)境,并通知其圖形算法將虛擬內(nèi)容放置在適當?shù)奈恢谩EcPokemon Go的AR模式相反,由于算法沒有環(huán)境深度信息,因此用戶經(jīng)常可以看到Pokemon放置在不正確的位置。
2.機器人:用于導航,定位,地圖繪制和避免碰撞
許多倉庫已經(jīng)利用了將物品從一個地方運輸?shù)搅硪粋€地方的全自動駕駛汽車。車輛自行行駛的能力需要深度感應,以便能夠知道它在環(huán)境中的位置,其他重要事物的位置,最重要的是,它如何安全地從A移到B.類似地,任何用于拾取目的依賴于深度感應來了解目標對象在哪里以及如何獲取它。
這些相同的應用對于任何自動駕駛汽車的成功都是必不可少的。實際上,目前無人駕駛汽車面臨的最重大挑戰(zhàn)之一是為汽車配備精確的深度傳感器和CV系統(tǒng),而不會大幅增加成本。這仍然是一個競爭激烈的市場,許多新創(chuàng)公司都在爭奪領導地位。
3.面部識別:在防止欺詐的同時提高便利性
大多數(shù)人臉識別系統(tǒng)使用2D相機捕獲照片并將其發(fā)送給算法來確定人的身份。但是,這存在很大的漏洞:糟糕的演員會欺騙系統(tǒng),因為他們無法分辨是看到的是真實的3D面孔還是2D照片。為了使人臉識別安全,必須使用具有深度感應功能的3D相機。
除了阻止漏洞外,3D人臉建模還可以傳達人臉的更多特征,以實現(xiàn)更準確的識別。
4.手勢和接近檢測:用于游戲,安全性等
飛行時間(ToF)深度傳感器已被許多設備用于這些目的。在簡單的實現(xiàn)方式中,深度傳感器僅需要檢測一個點的深度信息,例如用于手勢檢測的手或用于接近度檢測的臉部。因此,具有簡單的光學器件(和較窄的視場)的深度傳感系統(tǒng)就足夠了。隨著手勢檢測的發(fā)展,使用了更復雜的深度感應系統(tǒng),例如Microsoft的Kinect.
深度傳感器的創(chuàng)業(yè)機會
在未來幾年中,深度感應將成為一個巨大的市場。當前,深度感測中的許多技術仍有很大的改進空間,這可能是技術初創(chuàng)公司的機會。此外,初創(chuàng)公司可以嘗試將當前的深度感應技術用于新興應用。
深度感測技術與CV應用程序的結合
深度感測系統(tǒng)可以與當前的計算機視覺應用程序結合使用,以大大提高其性能并滿足實際部署的需求。這也有助于減輕極端情況的影響-2D中的許多極端情況實際上可能是3D世界中的正常情況!結果,深度感測可以使CV算法執(zhí)行我們生活中更重要的事情,其中一些甚至可以是破壞性的創(chuàng)新,從而創(chuàng)造更多的市場,例如面部識別。
ToF傳感器——以合理的價格使用脈沖激光
當前,用于移動設備的ToF傳感器通常使用低成本的基于調(diào)制的光源。如前所述,基于調(diào)制的光源具有范圍模糊性,并且其性能通常不如脈沖激光器。脈沖激光器已經(jīng)成功地用于LiDAR中,但其成本,功耗和尺寸仍然不適用于移動設備。
但是,LiDAR中的激光源最近發(fā)展很快。初創(chuàng)企業(yè)有可能將脈沖激光引入用于深度動態(tài),性能至關重要的系統(tǒng)的移動式ToF傳感器中,例如針對面向業(yè)務的電子市場領域的AR和VR.這些應用程序還可以提供很高的利潤率,對于初創(chuàng)企業(yè)來說是一個理想的機會。
ToF傳感器——改善LED性能
ToF傳感器的另一端是對成本敏感的應用程序,例如IoT.對于低成本設備,激光仍然太昂貴。LED可以在ToF傳感器中用于低成本應用,但性能會下降。ToF傳感器的LED性能問題可以在設備或系統(tǒng)級別解決。通過該裝置,可以使用具有更高調(diào)制頻率容量的新型LED.通過改進系統(tǒng)的模擬信號處理電路,重新配置系統(tǒng)(即使用LED陣列并組合結果)或通過實施一種新的深度評估算法。
ToF和結構光——提高亮度容限
環(huán)境亮度是ToF和結構光深度傳感器的瓶頸。為了忍受來自環(huán)境的更多光,已經(jīng)提出了幾種背景消除技術。例如,在意法半導體(STMicroelectronics)生產(chǎn)的ToF傳感器芯片中,還集成了環(huán)境光傳感器和深度傳感器像素,以估算來自環(huán)境光的干擾。其他一些公司也提出了信號處理(模擬和數(shù)字)中的背景消除算法。
但是這些解決方案并不完美。為ToF和結構光提供更好的背景消除仍然是深度傳感技術中的一個懸而未決的問題。如果初創(chuàng)公司可以解決這個問題,那么它的價值將是巨大的,特別是對于背景消除而言,可以使結構的光深度感應系統(tǒng)在明亮的環(huán)境中工作。
攝像頭陣列與ToF結合使用可實現(xiàn)高分辨率
盡管ToF傳感器的分辨率較低,但相機陣列的分辨率較高,但存在匹配問題。但是,智能設備完全可能同時包含攝像頭陣列和ToF傳感器。相機陣列還可以用于深度感應以外的應用程序,例如智能對焦。可能會合并來自攝像機陣列和ToF傳感器的信息,從而以高分辨率和良好的深度精度計算深度圖。該深度傳感系統(tǒng)的總成本甚至可能低于具有更高分辨率的ToF傳感器。
這些只是帶有深度傳感器的新型計算機視覺應用的眾多未來機會中的少數(shù)。到目前為止,絕大多數(shù)計算機視覺應用程序都涉及通過攝像機解釋2D世界。借助深度傳感器,我們?yōu)橛嬎銠C提供了整個數(shù)據(jù)范圍,極大地擴展了計算機能夠執(zhí)行的功能的可能性。