導讀:在2017-2018慘烈的千箱大戰(zhàn)的一地雞毛之后,智能音箱市場從2018年底基本宣告進入三足鼎立時代,百度小度、阿里天貓精靈、小米的小愛成為市面上收割絕大部分市場的三巨頭。
【編者按】我們可以從技術邏輯上來認識這樣一個智能音箱市場的產業(yè)現狀:關于智能音箱未來在哪里,答案可以有很多選擇。
智能音箱市場上,風起云涌的變化還在繼續(xù)。
根據Canalys、Strategy Analytics、IDC三家機構提供的市場數據,2019年Q1小度系列智能音箱出貨量躍居中國第一、全球第三。
在2017-2018慘烈的千箱大戰(zhàn)的一地雞毛之后,智能音箱市場從2018年底基本宣告進入三足鼎立時代,百度小度、阿里天貓精靈、小米的小愛成為市面上收割絕大部分市場的三巨頭。
很多媒體與評論者都認定,今天這個階段,智能音箱已經陷入膠著的同質化競爭,巨頭的主要任務就是提高補貼和性價比、多找流量明星代言、多與家電和車企聯動。甚至認為如今智能音箱已經越來越難完成硬件創(chuàng)新,市場和營銷變成了唯一的突破口。
然而事實果真如此嗎?智能音箱是否真的已經抵達了紅海的末尾,只能靠外部玩法續(xù)命?
2019百度AI開發(fā)者大會(Baidu Create 2019)上,百度副總裁、百度智能生活事業(yè)群組(SLG)總經理景鯤正式發(fā)布小度助手(DuerOS)5.0。在這次升級中,我們至少可以從技術邏輯上來認識這樣一個智能音箱市場的產業(yè)現狀:關于智能音箱未來在哪里,答案可以有很多選擇。
向音箱內部,向技術體驗,向AI的宏觀曲線,還有眾多變數籠罩在音箱市場背后。而技術升級能力在這一新興市場中的杠桿作用,可能遠比外界認識的更加重要。
AI交互,從未標記為“已解決”
近兩年,我們開始習慣手機與音箱中的AI語音交互。然而,人類開始研究對話式AI的歷史,可以追溯到上世紀50年代貝爾實驗室的Audry系統。當時研究者們判斷對話AI具有三大難題:單詞識別、句子的理解、從語言分析對話方意圖的能力。
歷經了50年曲折的AI技術發(fā)展,最終人類搞定了詞義識別這件事。但如果說今天的智能音箱,已經缺乏硬件創(chuàng)新可能,人機對話能力將停留于此,那毫無疑問是過分自大的。
客觀來看,今天的智能音箱產品,在交互的自然、流暢與可持續(xù)能力上,依舊具有極大的阻礙,每一臺設備的語音交互都不足以稱為完整形態(tài)。主要來看,有三大問題縈繞在智能音箱左右:
1、喚醒效率問題。是否能適應遠場與復雜聲源環(huán)境的喚醒。這是一個軟硬一體化問題,需要算法創(chuàng)新與芯片側的聯合創(chuàng)新。
2、語義理解的深度問題。這個問題決定了對話是否能被理解,方言、個性化的語言習慣、中英夾敘、復雜長句的理解等領域構成了這一問題的主要挑戰(zhàn)。
3、機器記憶體驗的問題。這個問題決定了對話是否能夠持續(xù),主要挑戰(zhàn)包括機器能否有效記憶、篩選文本和跨時間保留對話。
三大基礎標準之外,多種AI技術的交互融合則構成了未來智能音箱的技術體驗。包括語音與視覺的結合,例如結合唇語的視覺識別來提升語音交互準確度一;以及語音與知識的結合,比如機器能否理解用戶表達的專用詞匯、形容式表達以及暗示。
這些問題的廣泛存在,讓智能音箱不能停留在今天??陀^來說,不管媒體和評論者是否認為今天的智能音箱普遍缺乏創(chuàng)新能力,小度助手,一直沒有停下解決最核心技術問題的努力。
去年7月,小度助手發(fā)布了3.0版本。其核心技術特點是在自然交互能力上進行了升級,強調自然語言處理能力支持下的深度語義分析,并且輸出為極客模式、兒童模式等差異化體驗。
事實上,小度助手3.0就可以看作對上述第二個問題進行的集中攻堅,以自然語言處理技術,結合多模態(tài)技術解決語義理解體驗深度。
而在剛剛發(fā)布的小度助手5.0中,對于前兩個問題都給出了新的答案。在聽清方面,小度助手如約引入了百度首創(chuàng)的流式截斷的多層注意力模型(SMLTA)。這個在AI圈中被稱為暴力到不講道理的模型,將極大程度增強小度助手的喚醒能力。搭配剛剛發(fā)布的語音芯片鴻鵠,未來喚醒之路上的小度助手還有很多底牌。
在聽懂方面,結合百度NLP的知識增強語義表示模型ERNIE,小度助手的核心理解算法全面升級為超大數據預訓練深度模型,并且通過融合百度全網搜索能力與大規(guī)模精準用戶畫像,小度助手可以學習用戶畫像,不斷升級語義理解的個性化能力。
而面對問題3,小度助手放出了刷屏級別的新技術——全雙工免喚醒能力。這讓小度助手5.0在可以理解更復雜語義的基礎上,能夠知道自己應該何時被喚醒,何時保持沉默繼續(xù)等待命令。這一技術突破,指向人類之間對話時的“拒絕反應”,是因為人類能夠記住上下文,不需要每一句都進行回復,才可以用沉默構成交互的一部分。這個能力,指向著上述第三個問題:機器記憶。
至此,智能音箱的排頭兵,已經不必拘泥于“一問一答”的機械模式,而是走入類似真人對話的連續(xù)交互。
梳理一下不難發(fā)現,小度助手不僅沒有喪失向內尋求技術突破的能力,而且還是在以年為單位,連續(xù)性系統性地直面語音交互的根本問題。而且小度助手的技術進化,是呈現出與百度AI技術發(fā)展同頻特征的,都表現為通過多AI基礎技術融合,更高效算法模型的使用,以及平臺化、模塊化的技術特性。
讓我們先把小度助手5.0帶來的結論——“AI向內創(chuàng)新,并非沒有可能”這句話放在這里。帶著它,我們可以重新審視一下今天三國鼎立的智能音箱市場。
同樣的中局,不同的終局
曾經很多人認為,千箱大戰(zhàn)無非是千篇一律的戰(zhàn)爭,這東西非常簡單,誰都能做。結果很快缺乏技術和產品創(chuàng)新力的音箱品牌就大面積死亡。這時我們發(fā)現,原來音箱之間還是有很大不同的。
到了今天,我們又認為市面上剩下的三家主要音箱本質是相同的,市場主旋律是膠著的補貼戰(zhàn)和流量戰(zhàn)。這種認識,似乎又回到了當年的老路上。
如果說當年的音箱是遍地石子,今天的音箱就是三大雪球滾動向前。我們需要注意的是,剝開這三個雪球,會發(fā)現它們的核心完全不同。
小米的小愛,包裹著IoT產品的連接;天貓精靈包括著電商和阿里生態(tài);而百度的核心是AI技術,是對話式AI解決方案的持續(xù)進化能力。
不同的核心,確立了不同的發(fā)展模式和市場行為。百度沒有阿里的電商狂歡,阿里沒有小米鋪天蓋地的IoT生態(tài),而小米的音箱也不太可能具備小度的拒絕反應和機器記憶能力。
雖然在音箱普及階段的推廣和促銷是各家都不可避免的,但是細致拆分下來每家的重點其實從來不曾重合。比如說,回看一下最近的新聞,我們會發(fā)現天貓精靈在主推方糖R型號,用明星定制化的特點來主推粉絲電商。而小愛在連接更多的IoT設備,最新上線的是按摩椅。小度助手則在上線新硬件的同時,解決AI交互中的機器記憶問題。
與眾多媒體認為的音箱紅海正相反。真正的音箱三巨頭之爭,是營銷好做、明星好請,但內在的技術與產品價值核心卻不好替換。
如果說三家音箱是三個雪球,天貓精靈可以被稱作“新零售雪球”,小愛叫做“米家雪球”,而小度則更適合“AI技術雪球”這個稱呼。
從頭到尾,智能音箱的中局就是一場差異化競爭。雖然目前在市場份額上似乎來到了驅動的臨界點,但接下來的走向,更可能是“你打你的,我打我的”,甚至各自把智能音箱打成截然不同的東西。
不同的內核,定會裹挾不同的外層,通往不同的方向。
技術雪球里的小度,要向何處去?
事實上,內核差異已經影響到了音箱市場的產品表現與市場競爭格局。比如說小度出貨量偏向長線持續(xù)增長,原因之一在于小度系列的技術體驗更突出,容易引發(fā)口碑傳播。
我們可以以技術雪球里的小度助手為例,看看它的內核會將智能音箱的未來帶到何處。
小度的技術差異化,體現在產品中可以歸納為三方面:底層技術能持續(xù)進化、技術與技能開放平臺、軟硬一體化能力。這三個能力,正在將多方面的市場與生態(tài)差異化納入小度雪球的范圍:
1、底層技術升級,連接的是用戶體驗的差異化。小度系列為什么不同,可以輕松用幾句對話感覺到。這讓小度更適合口碑傳播和體驗式傳播,造成了小度的一系列品牌建設順利展開,市場銷量持續(xù)快進。
2、基于技術模塊化打造的技術與技能平臺,連接的是內容和開發(fā)者、IoT設備。三者可以更低門檻接入小度生態(tài),完整利用小度的技術優(yōu)勢轉化為自身優(yōu)勢。比如,小度助手5.0帶來了更好的技能開發(fā)體驗。面向開發(fā)者的全雙工免喚醒能力使得人機交互更加自然,用戶的交互成本降低一半;DPL(DuerOS Presentation Language)則讓開發(fā)者可以自定義技能的視覺展現。在開發(fā)門檻不斷降低、開發(fā)體驗和想象力不斷飆升的情況下,最終可以看到小度用戶的沉浸時間更長,連接設備更廣泛,并且消費者應用第三方技能的時間不斷增加。平臺的技術便捷與高可用,構成了小度吸引開發(fā)者的核心價值。
3、軟硬一體化的技術架構,連接著硬件能力與核心算法模型的排列組合能力。新的硬件形態(tài)、新的硬件能力,比如帶屏、投影等,可以更快接入核心算法層。在本屆百度AI開發(fā)者大會上,小度系列又推出了小度智能音箱大金剛、小度智能音箱Play、小度在家1C 4G版,這些新產品滿足了不同人群和場景的需要,同時都具備投屏功能,可以一句話連接電視,一句話點播視頻,無縫連接小米、海信、創(chuàng)維、TCL等主流智能電視品牌。小度助手能夠源源不斷推出新品、新硬件能力的原因,是底層技術架構的模塊化與平臺化。
可以看到,小度能夠在不同領域后來居上,根本跳板是對話式AI底層技術與平臺化的領先性與持續(xù)進化能力。這種能力的延展性很廣闊,甚至現在已經有人說在小度的技術能力下,智能音箱已經完全不像是我們印象中的那種產品,達成了音箱不只是音箱的開始。
目前來看,小度代表的技術進化通道在產業(yè)內不具備可復制性。而與其他競品所代表的能力相比,到底哪種雪球會來滾動到最遠,可能還是要交給時間來審視。
但有個邏輯或許可以在今天進行類比:音箱到底是什么,能走到哪里;是一兩年的玩物,還是三五年的風口,抑或如同冰箱電視一樣永遠放在生活中的不可替代品?
想回答這個問題,我們可以想想當年的電視。如果電視永遠停留在12寸黑白的時代,那么沒有幾年它就將遭到膩煩,沉睡于垃圾箱和博物館。今天我們依舊在孜孜以求地購買合適的電視產品,原因在于電視的技術在進化,電視生態(tài)在發(fā)展。
技術進化是一切的開始,電視產品的技術進步,才能帶動電視網絡、電視內容、周邊產業(yè)(比如游戲機、音響)的滾動進步。
智能音箱正處在同樣的階段。向內尋找答案,以技術撬動進步或許是接下來很多故事不能或缺的前提條件。
電視可以永遠12寸黑白,也可以是8k高清的家庭娛樂平臺。智能音箱可能不是音箱,只是會一問一答交互,套用模板觸發(fā)語音指令的“人工智障玩具”;音箱也可能不是音箱,而是能滔滔不絕聊下去,背靠海量技能與IoT設備的家庭智慧中樞。
技術進化,是前后二者唯一的差別。