導(dǎo)讀:隨著在COVID-19疫情封鎖期間會議轉(zhuǎn)移到網(wǎng)上,許多人發(fā)現(xiàn),嘰嘰喳喳的室友、垃圾車和其他響亮的雜音會打斷了重要的對話。這經(jīng)歷啟發(fā)了華盛頓大學(xué)的三位研究人員(他們在COVID-19期間是室友)研發(fā)出了更好的耳塞,為了增強說話人的聲音和減少背景噪音,“ClearBuds”使用了一種新的麥克風(fēng)系統(tǒng)和第一個實時操作的機器學(xué)習(xí)系統(tǒng),該系統(tǒng)可以在智能手機上運行。
隨著在COVID-19疫情封鎖期間會議轉(zhuǎn)移到網(wǎng)上,許多人發(fā)現(xiàn),嘰嘰喳喳的室友、垃圾車和其他響亮的雜音會打斷了重要的對話。這經(jīng)歷啟發(fā)了華盛頓大學(xué)的三位研究人員(他們在COVID-19期間是室友)研發(fā)出了更好的耳塞,為了增強說話人的聲音和減少背景噪音,“ClearBuds”使用了一種新的麥克風(fēng)系統(tǒng)和第一個實時操作的機器學(xué)習(xí)系統(tǒng),該系統(tǒng)可以在智能手機上運行。
研究人員于6月30日在ACM移動系統(tǒng)、應(yīng)用和服務(wù)國際會議上介紹了這個項目。
“ClearBuds在兩個關(guān)鍵方面區(qū)別于其他無線耳機,”Paul G. Allen(保羅·艾倫)計算機科學(xué)與工程學(xué)院的博士生Maruchi Kim說。首先,ClearBuds使用了雙麥克風(fēng)陣列,每個耳塞上的麥克風(fēng)可以產(chǎn)生兩個同步的音頻流,提供信息,并允許我們在空間上以更高的分辨率分離來自不同方向的聲音。其次,輕量級的神經(jīng)網(wǎng)絡(luò)進(jìn)一步增強了說話人的聲音。”
雖然大多數(shù)商業(yè)耳塞也在每個耳塞上都有麥克風(fēng),但只有一個耳塞在同一時間主動向手機發(fā)送音頻。使用ClearBuds耳機,每個耳塞都會向手機發(fā)送一串音頻,研究人員設(shè)計了藍(lán)牙網(wǎng)絡(luò)協(xié)議,允許這些數(shù)據(jù)流在70微秒內(nèi)同步。
該團隊的神經(jīng)網(wǎng)絡(luò)算法在手機上運行來處理音頻流。首先,它會抑制任何非語音的聲音,然后它會隔離并增強同時從兩個耳塞揚聲器的聲音——傳入的任何噪音。
Allen School的博士生Ishan Chatterjee說:“因為說話者的聲音與兩個耳塞的距離很近,而且距離大致相等,所以神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練成只關(guān)注他們的聲音,消除包括其他聲音在內(nèi)的背景聲音,這種方法和你自己耳朵的工作原理非常相似,它們利用聲音到達(dá)你左右耳朵的時間差來判斷聲音來自哪個方向?!?/p>
當(dāng)研究人員將 ClearBuds 與蘋果的AirPods Pro 進(jìn)行比較時,ClearBuds 表現(xiàn)更好,在所有測試中實現(xiàn)了更高的信號失真比。
”Allen School的博士生Vivek Jayaram說:“當(dāng)你考慮到我們的神經(jīng)網(wǎng)絡(luò)在iPhone上運行不到20毫秒這一事實時,這是非常了不起的,與通常用于運行神經(jīng)網(wǎng)絡(luò)的大型商業(yè)顯卡相比,iPhone的計算能力只是一個小部分,我們?nèi)绾卧诒3州敵鲑|(zhì)量的同時減少傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的大???這是我們在這篇論文中必須解決的挑戰(zhàn)的一部分。
研究小組還在“野外”對ClearBuds進(jìn)行了測試,他們記錄了8個人在嘈雜的環(huán)境中閱讀“古登堡計劃”,比如在咖啡店或繁忙的街道上。然后,研究人員讓37人對這些10到60秒的錄音片段進(jìn)行打分,參與打分者認(rèn)為通過ClearBuds的神經(jīng)網(wǎng)絡(luò)處理的片段具有最好的噪音抑制和最好的整體聆聽體驗。
研究人員說,ClearBuds的一個限制是人們必須同時戴上兩種耳塞才能獲得噪音抑制的體驗。
但該團隊表示,這里開發(fā)的實時通信系統(tǒng)可以用于各種其他應(yīng)用,包括智能家居揚聲器、跟蹤機器人位置或搜索和救援任務(wù)。
團隊目前正在努力提高神經(jīng)網(wǎng)絡(luò)算法的效率,以便它們能夠在耳塞上運行。