應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

每個周五夜晚,都有幾十萬個智能音箱被同時喚醒

2020-07-16 10:11 淺黑科技

導讀:當我得知,《向往的生活》第四季的贊助商名單里又有小度音箱時,我就知道,有趣的事情又要發(fā)生了。

愉快的周五晚上10點,我打開芒果臺,依照節(jié)目的廣告植入設(shè)定,何炅他們每一期都會命令小度音箱做點什么事,而每當電視里的何炅喊“小度小度”,我家的小度音箱就跟著響應(yīng):“在呢!”

那感覺,像家里養(yǎng)了一條會看電視的狗……

想想都覺得魔幻,小度在國內(nèi)市場份額排前三,《向往的生活》收視率在綜藝里又排前三。掐指一算,每周五的晚上,節(jié)目里的人一喊,世界各地少說也得有幾十萬個小度音箱一起被喚醒,場面感人。

類似的情況,在我的蘋果設(shè)備上也發(fā)生過。

我用電腦開著功放,刷一個數(shù)碼博主的視頻,只聽視頻里喊了一聲“嘿Siri”,我桌上的手機就蹦出一個女聲:“請講……”

我的Siri就這么被別的男人給嘿了,這讓我感到不爽,當時還發(fā)了一條微博吐槽。

印象中,Siri 能用聲紋識別功能來辨認它的主人,怎么會出現(xiàn)這種情況?我跑去網(wǎng)上查原理,發(fā)現(xiàn)早些年,華為手機也被類似吐槽過。

(沒有黑華為的意思,這是2016年的帖子,當年市面上的語音助手都這個德行,我不是針對誰,在座的各位都……)

還有我公司的那臺天貓精靈,有時我們正開會聊得火熱,它莫名奇妙就蹦出一句話,空氣突然安靜……

我就挺納悶:百度、蘋果、華為、阿里……這些都是科技公司里的扛把子,人工智能領(lǐng)域的佼佼者,為什么還會出現(xiàn)這種情況,語音喚醒技術(shù)就這么難嗎?

答案:是的。

我甚至找到2017年的一則舊新聞:

一個值得用收購公司的方式來解決的問題,一定值得考究。

智能音箱為何半夜說夢話,語音助手為何頻頻插嘴?是機性的喪失還是道德的淪喪?歡迎收看本期淺黑科技之“語音喚醒技術(shù)背后的小秘密”

Let's Rock!

1.世上本沒有“語音喚醒”

1952年,計算機第一次聽“懂”人類說話。

貝爾實驗室里,一個名叫Audrey的語音識別系統(tǒng)降生,像個牙牙學語的孩子,它只能識別單個數(shù)字0~9的英文發(fā)音,而且非?!罢J生”——對熟人的準確度超過90%,對陌生人則大打折扣。

之后的20年里,語音識別系統(tǒng)雖然有很大進步,但依然停留在孤立單詞識別的階段,沒法識別一整個句子。

1971年,美國國防部研究所(DARPA)開始贊助語音理解研究項目,希望將語音識別系統(tǒng)的詞匯量提到1000。

參與項目的既有IBM這樣的企業(yè),又有卡內(nèi)基梅隆大學、斯坦福大學之類頂尖高校的研究機構(gòu)。

卡內(nèi)基梅隆大學研發(fā)的“哈批”(harpy)語音識別系統(tǒng)拔得頭籌,不僅能識別1011個單詞,還能識別整句話。

從此,計算機語音識別從“單詞時代”邁入“句子時代”。

知道了這個發(fā)展過程,你就會明白:從一開始,“關(guān)鍵詞檢測”就是語音識別的一部分,或者說是“最初形態(tài)”。

有了關(guān)鍵詞檢測,計算機聽到“我們?nèi)コ钥系禄?!?/strong>才能檢測到你吃的究竟是肯德基,而不是肯德,或者別的……

而語音喚醒在學術(shù)上就叫“關(guān)鍵詞檢測”(Keyword Spotting),即檢測一段音頻里是否有特定的詞匯。

我們在用語音助手時,看起來是我們說出喚醒詞之后,它才開始工作,其實它每時每刻都在監(jiān)聽周圍的聲音,檢測其中是否包含喚醒詞。

20世紀90年代,人們開始把語音識別技術(shù)用于消費級產(chǎn)品,也就是賣給普通人用,語音助手一類的產(chǎn)品也開始出現(xiàn),“語音喚醒”變得越來越重要。

1992年,蘋果對外演示了一個名叫Casper的語音識別系統(tǒng),從形態(tài)上來看,和如今我們用的語音助手、智能音箱已經(jīng)非常類似,甚至和晚它26年的產(chǎn)品“TNT工作站”有著異曲同工之妙。/狗頭

從上面這段視頻可以看出,每次對著它說話時,都以“Casper”為命令的開頭。顯然,Casper就是它的“喚醒詞”,計算機會嘗試執(zhí)行單詞Casper之后的那一句話。

細心的觀眾朋友已經(jīng)發(fā)現(xiàn)了,視頻里那個亞洲面孔是李開復,他是世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”的發(fā)明者。視頻里的Casper正是他在蘋果時期的作品。

關(guān)于Casper,李開復的自傳里記錄著一個小故事。

由于種種原因,Casper 語音識別系統(tǒng)有不小的概率死機,在飛往紐約的飛機上,蘋果CEO斯卡利憂心忡忡,問:“開復,有沒有辦法讓死機的概率降到1%?”

收看他們直播的觀眾至少有2000萬,如果死機,那真是出大丑了。李開復咬了咬嘴唇,說,“那好吧,約翰?!?/p>

演示當天非常順利,節(jié)目播出后,蘋果的股票從60美元漲到63美元。斯卡利問李開復:“你到底怎么把死機率降到1%的?”

李開復笑著說:“老板,這很簡單啊,我?guī)Я藘膳_電腦,連在一起,如果一臺出了問題,立馬切換到另一臺。根據(jù)概率原理,一臺失敗的可能性是10%,兩臺同時失敗的概率就是10%×10%=1%,成功的概率自然就是99%了!”

之所以引用這個故事,我是想說明語音識別需要不少計算機資源。當時有新聞報道說,這個語音識別系統(tǒng)在運行時幾乎會占用所有計算機資源。

這也是為什么,我們?nèi)缃竦闹悄苷Z音助手和智能音箱大多要聯(lián)網(wǎng)才能用,因為本地的計算機資源帶不動(或者功耗大而不適合跑在本地),要把你的聲音傳到云端服務(wù)器,處理完再把結(jié)果傳回來。

沒聯(lián)網(wǎng),Siri決定罷工

語音喚醒詞就像一個開關(guān),告訴機器什么時候開始執(zhí)行指令,什么時候處于待命狀態(tài),不必處理這些聲音。

就像你去餐廳吃飯,如果服務(wù)員無限多,且很閑,當然可以專門安排一位站在桌子旁,你一摘下眼鏡,擦拭布就遞過來,你一喝完飲料,立刻就給滿上,都不需要你張嘴。

但實際情況是,餐廳人很多,有幾桌還鬧哄哄的,服務(wù)員就那么幾個,站著待命,誰吆喝一聲喚醒詞“服務(wù)員!”他們就立刻過來。

到了移動時代,雖然單臺設(shè)備的計算力上去了,手機性能秒殺二十年前的電腦,完全可以滿足離線語音識別的計算力需要,但又遇到另一個問題:電池不夠用了。

2.語音喚醒的背后發(fā)生了什么

講到這里,就引出了語音喚醒的四個關(guān)鍵指標:功耗、喚醒率、誤喚醒率、響應(yīng)時間(速度)。

這幾個指標,本質(zhì)上是相互制約的。

語音助手表示“我太難了”——既要我“豎起耳朵”努力聽,不漏過每一個喚醒詞,又不能太敏感聽錯,既要反應(yīng)速度快,又不能耗費太多力氣。

魚與熊掌不可兼得,怎么辦?答曰:砸錢攀科技。小孩子才做選擇,魚和熊掌我全都要!

細心的觀眾朋友也許會發(fā)現(xiàn),2011年的iPhone4s已經(jīng)能嘿Siri,但用起來很別扭,得手機插上電源才能嘿。

這個問題在4年后的iPhone6s上怎么解決的呢?得感謝它的好朋友:高通。

2013年,高通公司給他家的CPU芯片加了一個新功能:即使在休眠狀態(tài)也可以檢測到用戶的聲音并根據(jù)聲音進行相應(yīng)的操作。

大致原理說起來也簡單,加了一個功耗特別小的協(xié)處理器,專門負責在熄屏狀態(tài)下監(jiān)聽聲音,檢查里面有沒有喚醒詞。如果沒有,就讓聲音從左耳朵進右耳朵出,一旦發(fā)現(xiàn),就叫醒它的大哥——主處理器。

從此我們終于可以不插電,隨時隨地嘿Siri了。其他芯片廠基本也是在同一時期解決的這個問題。

和手機相比,插著電源用的智能音箱不必擔心電池問題,但如果功耗太高,即便放著不用,一天也得浪費不少電。

發(fā)展到現(xiàn)在,各大廠商的語音喚醒基本都有“多級喚醒”(非專業(yè)叫法)的機制。

你可以簡單理解為:聲音喚醒的流程就像是工廠里的一道流水線,旁邊依次站著葫蘆七兄弟,大娃時時刻刻醒著,檢查其中有沒有喚醒詞“葫蘆兄弟”。

通常情況下,其他幾個都在睡覺,節(jié)省體力。

大娃聽到稍微有點像“喚醒詞”的聲音,就趕緊叫醒二娃,錄音給它確認。

二娃仔細一聽,說的是“福祿兄弟”,心想莫非主人是弗蘭人?

二娃打了個電話喊醒云上的三娃,三娃一聽,好像是兩個人在聊天,一個人說:“麻麻,我作業(yè)做完納!可以看會兒福祿兄弟啵?”

三娃有聲紋識別的能力,聽出來是家里小孩在嚷嚷要看動畫片,而不想喚醒音箱,便不再繼續(xù)喊醒四娃,轉(zhuǎn)身對大娃二娃三娃說了句:“兄弟們,撤!”幾人扭頭又回去睡覺了,留大娃繼續(xù)看守。

就這樣,葫蘆兄弟明確分工,每次都在1秒鐘左右完成整個流程,只有當所有人都確認是喚醒詞,才開始執(zhí)行命令。

如此一來,既可以降低誤喚醒率,又可以盡可能降低功耗。

我們一起來看一個實際案例:蘋果的Siri。

2017年10月前后,蘋果專門發(fā)過一篇文章來講“嘿Siri”是怎么做的。

有興趣的淺友可以自行搜索讀讀這篇原文,沒興趣的接著往下讀。

iPhone的麥克風以每秒1.6萬次的速度,把聽到的聲音,切成0.2秒的音頻,丟進聲學模型。

這個聲學模型是用深度神經(jīng)網(wǎng)絡(luò)做的,它會把聲音數(shù)據(jù)轉(zhuǎn)換成概率分布,計算這個聲音是“嘿Siri”的信度

iPhone6s 以上的機型都有一個名叫“始終在線”(Always On Processor)的小型低功耗輔助處理器。也就是前文提到2013年高通做的那個。

這個處理器顧名思義,“始終在線”,里面始終跑著一個很小的,基于深度神經(jīng)網(wǎng)絡(luò)的聲學模型。

它每次給聲音打個分,如果分數(shù)“及格”,它就會叫醒主處理器,主處理器再運行一個更大一些的聲學模型,進入更復雜的評判流程。

“及格分”并不是一個固定的值,會根據(jù)聲音條件自動調(diào)整。在“惡劣的聲音條件”下會更低,Siri 更容易被激活。

深度神經(jīng)網(wǎng)絡(luò)有五層 ,每一層有32或128、192個單元,具體用多少,根據(jù)內(nèi)存和電源的情況來分配,以節(jié)省資源。

如果分數(shù)及格了,但是不高不低,可能是有點口音,或者有干擾,這時設(shè)備就進入“敏感模式”,持續(xù)幾分鐘,如果再次重復“嘿Siri”,即便并沒有比之前更清晰,Siri也會更容易被激活。

這也許可以解釋為什么“長沙小燕子”女士(主持人李維嘉的媽媽)用她可愛的塑料普通發(fā)說“稀米、稀味”也能喚醒Siri。

需要著重說明的是,Siri的大部分工作都在云端,手機設(shè)備只占很小的一部分。

本地的兩個處理器都通過之后,聲波會被傳送到云端服務(wù)器,進行更縝密的確認。

比方說,如果發(fā)現(xiàn)發(fā)音有點像“syria”(敘利亞)、“serious”(嚴肅的)之類的詞,就會對一整句進行分析,結(jié)合上下文來判斷是不是喊“嘿Siri”。

如果最終發(fā)現(xiàn)不是嘿Siri,服務(wù)器就會向手機發(fā)送一個取消信號:“兄弟們,撤!”讓手機重新進入睡眠狀態(tài)。

除了手機以外,像智能手表、智能音箱、智能無線耳機等等也都有類似的“多級喚醒”思路。

比方說國內(nèi)有一家聲音技術(shù)公司思必馳,阿里巴巴的“天貓精靈”、小米的“小愛同學”等都有用他們的技術(shù)方案。

在思必馳的技術(shù)方案里,通常情況下,初始語音喚醒的算法運行在一個名叫DSP的小型芯片里,通過之后,再把緩存的聲音數(shù)據(jù)輸送到一個叫AP的芯片里。

如果設(shè)備正在播放音樂,就會切換到“闖入模式”,語音數(shù)據(jù)會直接傳輸給AP芯片。這樣一來,播放音樂時就可以直接說“下一首”、“切歌”、“聲音小一點”之類的命令,而不必再反復地說喚醒詞。

除了喚醒驗證、聲紋驗證之外,思必馳還有一個名叫“骨導特征檢測”的奇特功夫,專門給智能耳機用,據(jù)說可以分辨聲音是由空氣傳導還是骨傳導,以此分辨是耳機主人還是周圍的人在說話,降低干擾。

所以,一部手機、一臺智能音箱擺在桌子上,表面上看起來風平浪靜,也沒被喚醒,實則內(nèi)部風起云涌,天翻地覆,跟外界產(chǎn)生了千絲萬縷的連接。

3.為什么會被電視機喚醒?

也許有淺友要問了,既然技術(shù)這么溜,為什么到頭來還是會被電視節(jié)目里的聲音喚醒?

其實這是個玄學問題。

語音識別分成近場遠場兩種,簡單理解,近場就是說話人離麥克風很近,遠場就是離得很遠。

雖然概念只差一個字,難度卻相隔十萬八千里。

為什么1992年李開復就做出來Casper,而2015年智能音箱才真正流行起來?一個很重要的原因就是解決不好遠場識別的諸多噪音、干擾等問題。

還是李開復的自傳里的一個故事,有一年愚人節(jié),蘋果的同事把他做的語音識別系統(tǒng)做進電梯,用話說控制電梯,很酷吧,可大家走到電梯里,沒人敢打招呼了,一說“Fine thank you and you?”五樓的電梯燈就亮起來——Fine被識別成了Five。

遠場識別會帶來太多不太可控的因素。

聲學領(lǐng)域有個概念叫“信噪比”,簡單理解就是,你要聽的那個聲音,和噪聲的比例。

近場識別時,信噪比很高,你要聽的那個聲音是鶴,噪音是一群雞,當然一眼就能把它拎清。

遠場識別時,信噪比很低,你要聽的那個聲音是雞,噪音還是雞,再要從中間挑出來就很難。

為了解決低信噪比的問題,智能音箱除了在算法模型層面下功夫,還得在硬件上下功夫,比如,用多個麥克風組成一個麥克風陣列。

你應(yīng)該有過類似體驗:當你認真聽一個聲音時,大腦會自動調(diào)集資源,辨別聲音的方位,然后集中處理這個方向上的聲音,抑制其他方向傳來的噪音。

麥克風陣列的作用類似,每個麥克風只負責一個方向的聲音,它們先對聲音進行“聲源定位”,再用“波束形成”技術(shù)集中收聽這一個方向的聲音,抑制其他方向的聲音,從而達到降噪的目的。

雖然這個方法能解決一部分環(huán)境噪音,但如果有多個人同時說話,還離得很近,這種技術(shù)就會大打折扣。

此時,又需要一種叫“語音分離”的技術(shù)來把重疊在一起的聲音分開。

遠場識別需要處理的情況太多太復雜,所以它是一個細活,需要一點一點慢慢打磨。

文章前面,我把語音識別比作一個工廠,里頭有一個長長的流水線,旁邊站著葫蘆七兄弟。按照真實的處理流程之復雜,葫蘆七兄弟恐怕遠遠不夠,得梁山一百單八將都出動才行。

4.再給它一些時間

回過頭來一想,我就覺得其實沒必要對智能音箱太苛刻。畢竟,即便是你,聽見電視里好像有人提到自個兒名字,也會一愣神。

人類已經(jīng)進化了幾十萬年,而動物聽覺誕生的時間更久遠。

據(jù)說,當人類“還是一條魚”的時候,聽覺就已經(jīng)產(chǎn)生。聲波沖擊魚鰾,引起魚鰾擴大或收縮,造成的震動刺激內(nèi)耳的靈敏感覺細胞,產(chǎn)生聽覺。

相比之下,計算機的語音識別能力誕生不過百年,語音助手出現(xiàn)不過30年,智能音箱從2015年開始流行,如今才幾年?

也許我們應(yīng)該多給它一些時間。

在寫這篇文章時,我想起2017年天貓精靈剛上市時,我做過一期調(diào)戲天貓精靈的視頻。

和當時相比,如今的天貓精靈已經(jīng)聰明太多太多,可我有時竟會懷念它當年的蠢萌帶給我們的快落。

就像一個總是不分場合亂說話的蠢萌朋友,多年以后,他變得成熟、深沉、冷靜,你竟有些懷念當年的那個他。

也許幾十年以后,人工助手變得極度聰明,再也不犯錯。那時我們也老了,也許會跟兒女、孫子吹牛:“當年我們的智能音箱,可蠢可逗了,冷不丁就蹦出一句騷話,比段子還搞笑……哈哈哈哈?!?/p>