技術(shù)
導(dǎo)讀:阿里巴巴多個(gè)團(tuán)隊(duì)正聯(lián)合研發(fā)由數(shù)字人全面接管的終端交互引擎。
新浪科技訊 11 月 7 日晚間消息,新浪科技獲悉,阿里巴巴多個(gè)團(tuán)隊(duì)正聯(lián)合研發(fā)由數(shù)字人全面接管的終端交互引擎。預(yù)計(jì)第一款“數(shù)字人 + 終端”產(chǎn)品將在 2023 年一季度讓用戶體驗(yàn)。據(jù)介紹,該項(xiàng)目集合達(dá)摩院 NLP,語音,視覺,3D 構(gòu)建驅(qū)動(dòng)及大模型領(lǐng)域團(tuán)隊(duì),和天貓精靈 AliGenie 交互系統(tǒng)專家。
就像手指觸屏奠定智能手機(jī)交互,大模型數(shù)字人將接管未來智能交互。2022 年開始,達(dá)摩院多模態(tài)大模型開始應(yīng)用于天貓精靈語音搜索與百科場(chǎng)景。各方目前將合作場(chǎng)景推向 AliGenie 交互的系統(tǒng)層和用戶感知層。
當(dāng)前,數(shù)字人領(lǐng)域正由喧囂轉(zhuǎn)向理性。雖然高精度高顏值的人偶形象不斷出現(xiàn),但絕大部分場(chǎng)景缺乏與用戶的持續(xù)性、個(gè)性化互動(dòng),因而商業(yè)化規(guī)模有限。如只能在短視頻和動(dòng)畫中存在的虛擬偶像,或只在單一設(shè)備或界面中面向大眾支持問答的虛擬員工,這些形態(tài)缺乏大模型訓(xùn)練和大規(guī)模交互,無法個(gè)性化學(xué)習(xí)升級(jí),用戶感受就像“沒有靈魂”。
剛結(jié)束的云棲大會(huì)上,阿里巴巴集團(tuán)研究員李小龍透露了達(dá)摩院積累的包括多模態(tài)大模型、語音、自然語言、3D 構(gòu)建驅(qū)動(dòng)、各個(gè)領(lǐng)域近兩年百項(xiàng)專利與頂會(huì)論文,通過將這些成果,在諸多交互場(chǎng)景驗(yàn)證,一個(gè)多模態(tài)大模型為基礎(chǔ)的數(shù)字人的引擎已初顯雛形。
天貓精靈產(chǎn)品規(guī)劃負(fù)責(zé)人盧勇介紹,接入 AliGenie 系統(tǒng)的終端已覆蓋 4000 多萬家庭、包含 1600 多個(gè)品牌的 4.6 億已接入產(chǎn)品,能讓數(shù)字人在可持續(xù)、大規(guī)模、組合式的場(chǎng)景與用戶交互。AliGenie 此前公布,僅智能音箱產(chǎn)品每月交互 80 億次以上,70% 是主動(dòng)型服務(wù)。許多消費(fèi)硬件領(lǐng)域廠商,也迫切希望有超出單一連接、單一設(shè)備對(duì)話的智能體驗(yàn)。