導讀:在「完全自動駕駛」這個純技術的難題還未普及實現之前,「人機共駕」問題是所有汽車企業(yè)、自動駕駛企業(yè)都需要突破解決的另一道難題。這道難題的核心是「人」這個不確定因素。
「人」才是自動駕駛中最復雜和難以解決的那個因素。
圖片來自“東方IC”
「它經常會在不合適的時機進行變道,但如果你想撥一把方向盤救個急,它還會和你較勁,非常危險」,「整個過程就像看著自己孩子開車一樣,干著急還提心吊膽,搞得壓力很大」……
這里的「它」正是特斯拉 Autopilot 。之前美國《消費者報告》(Consumer Reports)曾報道稱,更新后的 Autopilot 具備了自動變道的功能,車主可以選擇在變道時不進行任何提醒,完全交由機器來抉擇。但試駕編輯們在體驗后卻紛紛吐槽了它。
特斯拉 Autopilot 一直以來都爭議不斷。一邊說它是新手們的福音,杜絕事故的好幫手,另一邊卻有人抨擊它是事故的罪魁禍首。這套系統(tǒng)帶來用戶體驗升級的同時也因為頻發(fā)的安全事故而備受關注。
不可否認的是,特斯拉 Autopilot 讓大家有機會一窺自動駕駛的未來,盡管它離真正意義上的「自動駕駛」還很遠。畢竟軟硬件的局限導致它最多只能實現 L2 級自動駕駛的能力,而這個階段中「人」依然是主體,需要機器和人相互配合完成,所以這些關于 Autopilot 的爭議全部都可以歸屬于典型的「人機共駕」問題。
(開啟了「Navigate on Autopilot」功能的特斯拉車型能夠實現自主變道 | Teslarati)
在「完全自動駕駛」這個純技術的難題還未普及實現之前,「人機共駕」問題是所有汽車企業(yè)、自動駕駛企業(yè)都需要突破解決的另一道難題。
這道難題的核心是「人」這個不確定因素。按照控制權的劃分,「人機共駕」又可分為「雙駕單控」和「雙駕雙控」兩種模式。前者關注的是駕駛權的交接和人車在主駕、副駕時的問題;而后者關乎駕駛自信,在人車都有控制權的情況下,該相信哪方多一點。
所以要建立一套高效、體驗舒適、安全的自動駕駛系統(tǒng)是及其復雜的。原因很簡單,機器是必須要和人進行互動的。而且這個互動的過程不光牽扯到機器人學科,還囊括了機器學習、心理學、經濟學及政策等領域的問題。同時它也對我們已有的認知和假設形成了挑戰(zhàn):到底人類的表現能有多糟?人工智能又會是多么強大的存在?
(MIT 進行的「人機共駕」研究,右上角為試驗車輛「Black Betty」| MIT)
MIT 之前曾進行過一項關于「人機共駕」的課題研究,從設計和開發(fā)「以人為中心」自動駕駛系統(tǒng)的角度出發(fā),提出了七大原則。這些指導原則中并沒有把人類本質的復雜性剔除掉,而是將其融合到了整套系統(tǒng)中。這也恰恰是這套課題研究的精髓所在。
實驗成果的展示我們可以在一輛叫做「Black Betty」的無人車上看到。它只搭載了攝像頭,主要通過機器學習的方式進行外部環(huán)境感知,規(guī)劃決策,駕駛員監(jiān)控,語音識別、聚合以及管理人機雙向操控的無縫切換(語音控制),方向盤上安裝了扭矩傳感器。通過下面的視頻,大家可以看到這輛無人車的具體表現:https://www.youtube.com/watch?v=OoC8oH0CLGc
「人」才是復雜因素?
在過去的十幾年里,汽車自動駕駛的能力在逐步提升,迫使政策制定者以及行業(yè)安全研究人員開始思考如何為「自動駕駛」定級的問題,目的是借此為相關法律、標準、工程設計甚至是業(yè)界交流提供可參考的框架。目前行業(yè)內普遍采納的是美國汽車工程學會 SAE 制定的分級標準,它將自動駕駛分為 L0 到 L5 共六個等級。不過 SAE 對每個級別的定義其實是很模糊的,并不能給出清晰、明確的區(qū)別,所以它似乎已經不太適合作為引發(fā)行業(yè)思考的「磚」了,更像是汽車系統(tǒng)設計開發(fā)的一套指導原則。
(美國汽車工程學會 SAE 對自動駕駛的分級 | SAE)
目前業(yè)界對自動駕駛汽車有如下三種普遍的觀點:1. 駕駛任務很簡單;2. 人類不擅長開車;3. 人類和機器無法做到良好的配合。相較這些觀點而言,MIT 的研究則完全朝著相反的方向進行:1. 開車這件事實際上很難;2. 人類是非常棒的駕駛員;3. 讓人和智能機器實現高效協(xié)作是能夠實現的,而且是很有價值的目標。
基于這樣的前提和假設,MIT 提出了「以人為中心」的框架并將其應用至人機共駕系統(tǒng)的開發(fā)過程中,在執(zhí)行具體的駕駛任務時將人類與機器的邊界完全去掉。與此同時,MIT 還提出了針對人機共駕的「七原則」,討論了在設計、開發(fā)、測試「Black Betty」的過程中如何應用這些原則。
「人機共駕」的七原則
一、人機共駕(Shared Autonomy)
MIT 認為自動駕駛應該分為兩個等級:一、人機共駕(Shared Autonomy);二、全自動駕駛(Full Autonomy)。這樣的分類方式不僅能夠提供有建設性的指導方針,添加必要的限制條件同時還可以對要實現的目標進行量化設定。甚至,對每個類別下要實現的功能、對應的技術需求以及可能遇到的問題都可以劃分出來。
這個原則的核心在于對「人類駕駛員在環(huán)」的討論。為了實現對車輛的有效控制,人和機器組成的團隊必須共同保持對外部環(huán)境有充分的感知。目標是促使整個行業(yè)對「人機共駕」和「全自動駕駛」進行清晰地劃分。
(表 I 「人機共駕」和「全自動駕駛」這兩種路徑中涉及的技術,包括用于大規(guī)模量產時對每項技術表現的等級要求 | MIT)
需要指出的是,表 I 中的術語「Good」和「Exceptional」用來表示解決 1% 極端案例的優(yōu)先級順序。遠程操控、V2X 和 V2I 等并非必須的技術,如果要使用的話需要達到特殊的能力要求。
在實現高等級自動駕駛的方法上,傳統(tǒng)思路全程都跳過了對「人」這個因素的考慮,精力主要集中在對地圖、感知、規(guī)劃以及表 I 中「全自動駕駛」一欄標注為「exceptional」的技術上。實際來看,考慮到目前的硬件和算法能力,這種解決方案對高精度地圖、傳感器套件的魯棒性要求很高,提供的是較為保守的駕駛策略。
而正如表 I 所述,「以人為中心」的自動駕駛汽車著眼點主要在司機身上。負責控制車輛的依然是人,但前提是要對人的狀態(tài)、駕駛方式及之前的人機合作經驗做充分的考量,同時把車輛的轉向、加減速等交由人工智能系統(tǒng)負責。以特斯拉的 Autopilot 為例,之前 MIT 的研究顯示,測試中有超過 30% 的行程都是由這套 L2 級駕駛輔助系統(tǒng)控制完成的。而如果人機共駕應用成功的話,應該能實現超過 50% 的機器控制率。在這次實驗中,MIT 表示無人車系統(tǒng)在接管過程中呈現出了不同程度的能力,而人類駕駛員始終在密切關注著機器的動態(tài),根據感知系統(tǒng)獲得的信息及時預測可能發(fā)生的危險。
二、從數據中學習(Learn from Data)
從表 I 不難發(fā)現,這其中涉及的任何一項車輛技術都是數據驅動的,需要搜集大量的邊緣案例數據,利用這些數據持續(xù)不斷地優(yōu)化算法。這個學習過程的目的應該是,通過大量數據實現從傳統(tǒng)的模塊化監(jiān)督學習向端到端半監(jiān)督式和無監(jiān)督學習過渡。
要實現車輛的自動駕駛,傳統(tǒng)的方法,不管是哪個級別,幾乎都不會大量的應用機器學習技術。除了在一些特殊的線下場景,比如 Mobileye 的視覺感知系統(tǒng)要進行車道線識別,或者是通用 Super Cruise 搭載的紅外攝像頭要對駕駛員頭部動作進行預測等。
特斯拉的 Autopilot 可能要比其他方案更進一步,在開發(fā)針對第二代硬件平臺 HW 2.0 的軟件算法時,在視覺感知上應用了越來越多監(jiān)督機器學習的原理。但即便如此,對車輛的絕大部分控制以及對駕駛員狀態(tài)監(jiān)測的實現中,并沒有利用大數據驅動的方式,也幾乎不涉及線上學習的過程。
而在目前業(yè)界進行的一些全自動駕駛技術的路測中,機器學習主要應用于環(huán)境感知這一環(huán)節(jié)。更甚的是,這些車輛采集到的數據,無論是從量還是多樣性來看,和具備 L2 級自動駕駛能力的車型相比,遜色不少。
(特斯拉 Autopilot 對目標物、車道線的檢測主要依賴機器學習算法進行 | Electrek)
MIT 認為,「L2 級自動駕駛系統(tǒng)中機器學習框架使用的數據,從規(guī)模和豐富性的角度來看都具有足夠的擴展能力,可以覆蓋多變的、具有代表性、挑戰(zhàn)性的邊緣案例。」人機共駕(Shared Autonomy)要求同時搜集人和車輛的感知數據,挖掘分析后用于監(jiān)督學習的標注。在 MIT 的實驗過程中,駕駛場景感知、路徑規(guī)劃、駕駛員監(jiān)控、語音識別以及語音聚合都應用了深度神經網絡模型,可以通過搜集到的大量駕駛體驗數據進行持續(xù)性的調校和優(yōu)化。
在進行數據采集時,MIT 表示并不會只局限于單一的傳感器來源,而是對整個駕駛體驗通盤考慮,并將所有的傳感器數據流通過實時時鐘(real-time clock)匯總、聚合,用于多個神經網絡模型的標注。這種方式能夠讓駕駛場景與駕駛員狀態(tài)能夠很好地匹配起來,而在聚合的傳感器數據流進行標注工作,使模塊化的監(jiān)督學習可以在數據規(guī)模允許時輕松地向端到端學習過渡。
三、監(jiān)督人類(Human Sensing)
這個其實就是我們俗稱的「駕駛員監(jiān)控」。它指的是對駕駛員的整體心理以及功能特征,包括分心、疲憊、注意力分配和容量、認知負荷、情緒狀態(tài)等的不同程度進行多維度的衡量和評估。
目前除了通用 Super Cruise 在方向盤上裝有一枚紅外攝像頭外,不管是搭載了 ADAS 駕駛輔助系統(tǒng)的量產車型,還是在路測的全自動駕駛汽車,絕大部分都沒有提供任何有關駕駛員監(jiān)控的軟件和硬件。特斯拉 Model 3 其實也裝了一枚車內攝像頭,但目前尚未啟用,具體功用官方表示要等軟件更新后才知道。而基于視覺的解決方案以外,市面上還包括一些準確率不高的方式。比如特斯拉在方向盤上安裝了扭矩傳感器,也有的公司利用監(jiān)測方向盤是否發(fā)生倒轉的方式推斷駕駛員是否出現疲勞情況。
(全新一代凱迪拉克 CT6 搭載的駕駛員監(jiān)控系統(tǒng)由 Seeing Machines 提供 | 官方供圖 )
MIT 認為「對駕駛員狀態(tài)的感知和監(jiān)控是實現高效人機共駕的的第一步,同時也是最關鍵的一步。」在過去的二十多年里,來自機器視覺、信號處理、機器人等領域的專家都進行過相關課題的研究,目的都是在探討如何盡可能保證駕乘人員的安全。此外,對駕駛員狀態(tài)的監(jiān)測對如何改善和提升人機交互界面、高級駕駛輔助系統(tǒng) ADAS 的設計都有很大幫助。隨著汽車智能程度的不斷提高,如何準確、實時地探測到駕駛員的各種行為對打造安全的個性化出行體驗尤為重要。
比較有意思的一點是,從完全的手動駕駛到全自動駕駛,這其中涉及到不同模式切換的問題。一般來說雙手脫離方向盤(handoff)就是一種信號,可能表示系統(tǒng)要做好接管的準備了,但還有什么其他更準確的信息可以用來判斷,可能這也是「駕駛員監(jiān)控」的研究人員需要持續(xù)思考的地方。
四、共享的感知控制(Shared Preception-Control)
通俗點來說,這相當于為整個自動駕駛系統(tǒng)增加了「一雙眼睛和手」。目的是建立額外的感知、控制和路線規(guī)劃機制。即便在高度自動駕駛系統(tǒng)運行狀態(tài)下,也要及時地為駕駛員推送信息,將其納入到整個駕駛過程中。
研究全自動駕駛的目的就是為了完美地解決「感知-控制」的問題,考慮到人類的不靠譜和行為的不可測性。所以傳統(tǒng)觀點認為最簡單的辦法就是把人從開車這件事上排除掉,像十幾年前在 DARPA 挑戰(zhàn)賽中獲勝的隊伍一樣。
但和傳統(tǒng)解決思路相反的是,MIT 提出的「以人為中心」的理論將人置于感知和決策規(guī)劃閉環(huán)中的關鍵位置。因此,整車感知系統(tǒng)就變成了支持性的角色,為人類駕駛員提供外部環(huán)境信息,這其實也是為了解決機器視覺本身存在的局限性而考慮的。
(表 II MIT「以人為中心」自動駕駛系統(tǒng)執(zhí)行的感知任務,包括對駕駛員面部表情、動作以及可駕駛區(qū)域、車道線以及場景內物體的檢測 | MIT )
在 MIT 的研究中,工作人員圍繞這個原則設計了幾條關鍵的算法。表 II 是其中幾個典型的案例。首先,從視覺上可以看到神經網絡做出的判斷、道路分割的區(qū)域以及對駕駛場景狀態(tài)的預估的可信程度;其次,將所有的感知數據整合并輸出融合式的決策建議,這樣在表 IV 的場景下就能夠對整體風險進行預估;再次,MIT 一直使用的是模仿學習:將人類駕駛員操控車輛時方向盤的動作作為訓練數據,進一步優(yōu)化端到端的深度神經網絡;最后,MIT 使用的端到端的神經網絡屬于一個叫做「arguing machines(爭論機器)」框架的一部分,它為主要的感知-控制系統(tǒng)(表 III)提供了來自人類的監(jiān)督。
這里的「爭論機器框架」是 MIT 2018年提出的一個概念,詳細技術細節(jié)可點擊(http://1t.click/DAK)查看。它將主要 AI 系統(tǒng)與經過獨立訓練以執(zhí)行相同任務的次要 AI 系統(tǒng)配對。 該框架表明,在沒有任何基礎系統(tǒng)設計或操作知識的情況下,兩個系統(tǒng)之間的分歧足以在人工監(jiān)督分歧的情況下提高整體決策管道的準確性。
(表 III 對「爭論機器」框架在「Black Betty」自動駕駛測試車上的應用和評估 | MIT)
(表 IV 通過結合車內外感知系統(tǒng)數據得出的融合型決策能夠充分預估可能發(fā)生的風險 | MIT)
五、深度定制化(Deep Personalization)
這里涉及到一個「將人類融入到機器中」的概念。通過調整 AI 系統(tǒng)的參數,使其能夠更適合人類操作并呈現出一定程度的定制化。最終的系統(tǒng)應該帶有該駕駛員的行為特征,而不是像剛出廠時的普通配置一樣。
六、不回避設計缺陷(Imperfect by Design)
對整個汽車工業(yè)而言,處于很多原因的考慮,進行工程設計時通常考慮最多的是「安全」,所以要盡可能地講系統(tǒng)錯誤出現的頻率和程度降至最低。換句話說,對自動駕駛而言,完美是目標,這也導致了在進行某些功能設計時,可能會因其「不完美」和「不確定」的性質而放棄這些可能是「必要」的設計。
但是在 MIT 的研究看來,豐富、高效的溝通機制在設計用于實現「人機共駕」的人工智能系統(tǒng)時,是非常必要的因素。就「溝通」而言,系統(tǒng)存在的不完美對人和機器而言,在進行感知模型的交換和融合過程中,能夠提供密集、多樣的信息內容。如果將 AI 系統(tǒng)的不確定性、局限性和錯誤都隱藏起來,這也就錯失了與人建立信任、深度理解關系的機會。MIT 認為,此前業(yè)界在設計半自動駕駛系統(tǒng)時所采取的「完美」思路,可能是迄今為止所犯的嚴重錯誤之一。
而在開發(fā)「Black Betty」這輛無人車時,MIT 把人工智能系統(tǒng)的局限性通過文字和視覺的形式與人類進行充分溝通。例如將人類和機器對外部世界的感知視覺化,讓駕駛員知曉 AI 系統(tǒng)的局限所在。研究人員表示這種方式相比只是提供「報警」或者「模糊的信號」,是最簡潔有效的人機溝通方式。盡管這種溝通機制要實現還面臨一些技術上的難題,比如視覺化的過程通常對芯片的算力和實時調用的能力要求很高。但值得機器人、自動化以及人機交互等領域共同關注并思考解決的辦法。
七、系統(tǒng)級的駕駛體驗(System-Level Experience)
目前,汽車工業(yè)的工程設計過程中,一個最主要的目標就是「安全」。另一個則是「降低成本」。第二個目標導向的是模塊化、基于零部件的設計思考。但同樣的模式在面向機器人、計算機視覺、機器學習等領域的人工智能系統(tǒng)設計中卻有著迥異的理由。
譬如在設計中重視單一功能(目標物檢測等)的實現,能夠有效測試該算法的合理性并逐步使之得到改善和優(yōu)化。但是這個過程也難免會把注意力過渡集中在單一功能而忽略了系統(tǒng)的整體體驗。
在過去的幾十年里,「系統(tǒng)工程」、「系統(tǒng)思考」這樣的原則一直在指導著汽車工業(yè)產品的輸出。然后,類似的思考卻幾乎沒有應用在自動駕駛汽車的設計、測試和評估過程中。正如 MIT 上面提到的這六大原則,人和機器都不可避免會有缺陷,只有當「人機共駕」這個框架在系統(tǒng)層面上得到考慮時,這些缺陷才可能有機會成為優(yōu)勢。
對「人機共駕」的永恒討論
不管短期還是長期來看,其實很難預測自動駕駛的哪條實現路徑最終會成功,而且退一萬步說,你甚至都不知道什么樣的結果算得上是「成功」。在談到研究目的時,MIT 希望一套自動駕駛系統(tǒng)能夠同時滿足「安全」、「愉悅的駕駛體驗」和「提升的出行體驗」這三個要求,而不是彼此妥善折中。而盡管「人機共駕」這個話題在過去的十年里,是包括汽車工業(yè)、機器人在內很多領域研究的焦點,但它仍值得更深入的探討。
在今年四月份的上海國際車展上,Tier 1 供應商采埃孚聯合英偉達推出了coPILOT 智能高級駕駛輔助系統(tǒng)。這是一套定位「L2+級」 的自動駕駛輔助系統(tǒng),目的是提高乘用車的安全性和駕駛舒適性。從產品名稱不難看出,這套系統(tǒng)同樣強調了「人機共駕」的概念。它配備了相應的傳感器和功能,能夠監(jiān)控駕駛員并在發(fā)生潛在危險情況時觸發(fā)警告。例如,當發(fā)生駕駛員注意力不集中、幾乎完全未將注意力放在路面交通上或顯示出瞌睡跡象等。所以人工智能扮演了「私人駕駛助手」的角色,這個產品理念與 MIT 的研究不謀而合。
到底完美解決駕駛任務比完美管理人類的信任和注意力哪個更難?這是值得深思熟慮的問題。MIT 認為關于這個問題的討論仍不會停止,不管是這篇論文還是「Black Betty」這臺無人測試車,都是基于「人機共駕」研究的成果,MIT 認為它是開發(fā)「以人為中心」自動駕駛系統(tǒng)的必由之路。