掘金五千億市場(chǎng)!語(yǔ)音交互技術(shù)已立于智能家居風(fēng)口之上
點(diǎn)擊:1398
A+ A-
所屬頻道:新聞中心
想象著,當(dāng)你下班回到家,輕輕地對(duì)門說(shuō)聲“我回來(lái)啦”,在接收到你信息一瞬間,門不僅自動(dòng)打開(kāi),并在短時(shí)間內(nèi)開(kāi)啟了空調(diào)和電視。這種感覺(jué)是不是很棒!
在很多國(guó)外科幻大片所描述的未來(lái)生活中,使用語(yǔ)音方式來(lái)操控家電的炫酷場(chǎng)景也是無(wú)處不在。在《鋼鐵俠》系列電影中,男主角回到家以后,說(shuō)聲想喝咖啡,咖啡機(jī)便開(kāi)始沖咖啡,這種生活真是令人羨慕。隨著語(yǔ)音交互技術(shù)的不斷成熟,未來(lái)電影中的畫面將會(huì)很快變成現(xiàn)實(shí)喲!
語(yǔ)音交互與智能家居
數(shù)據(jù)顯示,2018年,中國(guó)智能家居規(guī)模將達(dá)到1800億元,到2020年,智能家居市場(chǎng)規(guī)模將達(dá)到3576億元。分析師預(yù)測(cè),2021年全球智能家居市場(chǎng)規(guī)模將達(dá)5000多億元。
在汽車及互聯(lián)網(wǎng)領(lǐng)域,語(yǔ)音交互功能已經(jīng)很普及。福特的SYNC系統(tǒng)專為手機(jī)和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂(lè)系統(tǒng),是目前車載系統(tǒng)中采用語(yǔ)音交互技術(shù)的成功的案例,已經(jīng)廣泛應(yīng)用在福特多個(gè)系列汽車中。互聯(lián)網(wǎng)巨頭蘋果在其iPhone 4S中推出智能語(yǔ)音助理應(yīng)用Siri后,Google公司也在其安卓智能手機(jī)操作系統(tǒng)中推出了GoogleNow智能語(yǔ)音搜索及問(wèn)答服務(wù),微軟公司也將語(yǔ)音技術(shù)應(yīng)用于WindowsPhone。
在智能家居領(lǐng)域,國(guó)外的IT巨頭已先后以智能家庭產(chǎn)品與語(yǔ)音相結(jié)合的方式進(jìn)入智能家庭領(lǐng)域:谷歌收購(gòu)NEST布局智能家庭,不斷強(qiáng)化Google Now的語(yǔ)音入口;蘋果HomeKit智能家居平臺(tái)與Siri也不斷加強(qiáng)融合;微軟也發(fā)布了語(yǔ)音助手Cortana(小娜),為它在智能家庭領(lǐng)域擴(kuò)展交互入口。
在國(guó)內(nèi),早于2014年8月,語(yǔ)音巨頭科大訊飛就宣布進(jìn)軍智能家庭市場(chǎng),并發(fā)布了智能語(yǔ)音助手靈犀3.0來(lái)操控智能家居設(shè)備,這些設(shè)備都需要事先和靈犀3.0對(duì)接,便可以在靈犀App中搜索到設(shè)備,然后進(jìn)行語(yǔ)音操控。目前支持的設(shè)備已經(jīng)有不少,包括了電視、咖啡機(jī)、電燈、空調(diào)、熱水器等。
隨著國(guó)內(nèi)外巨頭們對(duì)語(yǔ)音交互領(lǐng)域投入的增加,語(yǔ)音核心技術(shù)正逐步成熟,曾經(jīng)的技術(shù)瓶頸亦在慢慢被突破。這其中語(yǔ)音識(shí)別技術(shù)是語(yǔ)音交互的基礎(chǔ)與核心,“語(yǔ)音識(shí)別”技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”,使其具備“能聽(tīng)”的功能。該技術(shù)經(jīng)過(guò)語(yǔ)音信號(hào)處理、語(yǔ)音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z(yǔ)音中的內(nèi)容、說(shuō)話人、語(yǔ)種等信息識(shí)別出來(lái)。
主流的語(yǔ)音識(shí)別系統(tǒng)框架圖
語(yǔ)音交互的技術(shù)壁壘在哪里?
前文中說(shuō)到了語(yǔ)音交互技術(shù)在智能家居領(lǐng)域的運(yùn)用,作為主流人機(jī)交互方式之一,語(yǔ)音交互方式將人們的雙手從觸摸屏解放出來(lái),減少人們?cè)跀?shù)據(jù)輸入上花費(fèi)的時(shí)間。但語(yǔ)音交互并不適用于所有場(chǎng)景,目前,智能家居領(lǐng)域,語(yǔ)音交互還存在以下幾個(gè)問(wèn)題:
一張圖看懂語(yǔ)音交互
遠(yuǎn)場(chǎng)及噪音干擾下識(shí)別準(zhǔn)確率有待提升及端點(diǎn)檢測(cè)中的降噪處理技術(shù)。這也被稱為“雞尾酒會(huì)問(wèn)題”,寓意在嘈雜的雞尾酒會(huì)上遠(yuǎn)距離準(zhǔn)確識(shí)別某一個(gè)特定的聲音。當(dāng)前該問(wèn)題解決方式是多通道信號(hào)處理,例如麥克風(fēng)陣列的變換。相關(guān)落地技術(shù)包括思必馳&亞馬遜Echo“環(huán)形6+1”麥克風(fēng)陣列, 以及悠響聲學(xué)Mic隨意安裝語(yǔ)音拾取技術(shù)。
端點(diǎn)檢測(cè)、特征提取和解碼過(guò)程中模型優(yōu)化。如果放下現(xiàn)有問(wèn)題的假設(shè)與相關(guān)設(shè)計(jì),而是交托給機(jī)器,讓其從訓(xùn)練數(shù)據(jù)中學(xué)到的轉(zhuǎn)換模型來(lái)把語(yǔ)音轉(zhuǎn)成文字序列,可能更簡(jiǎn)單高效。
當(dāng)前主要用端到端CTC模型+Attention模型來(lái)優(yōu)化。地平線的內(nèi)部評(píng)測(cè)證明:在1000小時(shí)的數(shù)據(jù)上,CLDNN+CTC模型相比于之前的DCNN模型,性能大概提升了 15%~20%。但端到端的實(shí)用性存在爭(zhēng)議,現(xiàn)階段它只是流程中的某一個(gè)部分的步驟簡(jiǎn)化,尚未囊括解碼部分,而且需要大量的訓(xùn)練集。
增強(qiáng)預(yù)測(cè)性和可適應(yīng)性。在日常人際交流中,人們會(huì)預(yù)測(cè)對(duì)方下一句會(huì)說(shuō)什么。而讓機(jī)器獲得相似預(yù)測(cè)能力的突破口在半監(jiān)督,無(wú)監(jiān)督學(xué)習(xí),尤其是強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)。騰訊之前有一個(gè)PAC-RNN模型,能夠非常快地自適應(yīng),從而持續(xù)改進(jìn)識(shí)別結(jié)果。但是這個(gè)模型由于遞歸神經(jīng)網(wǎng)絡(luò)的環(huán)路比較大,訓(xùn)練上比較困難。
在硬件方面,AI語(yǔ)音識(shí)別領(lǐng)域的芯片研發(fā)也是熱點(diǎn)。而在終端,語(yǔ)音識(shí)別兩個(gè)關(guān)鍵因素是實(shí)時(shí)性與成本,研發(fā)語(yǔ)音識(shí)別專屬芯片是終端語(yǔ)音識(shí)別硬件發(fā)展趨勢(shì),終端芯片的例子包括:?jiǎn)⒂⑻﹤惤K端智能語(yǔ)音識(shí)別芯片CI1006,云知聲UniRobot硬件芯片系統(tǒng),和MIT在ISSCC2017上發(fā)表的paper里的芯片。
小結(jié):
投身消費(fèi)領(lǐng)域,智能家居改變了消費(fèi)者的居住方式,語(yǔ)音交互為智能家居創(chuàng)造了一個(gè)安全、舒適、便利和信息化的居住空間做了不少貢獻(xiàn),使人們適應(yīng)在信息社會(huì)的快節(jié)奏中家居與外部世界保持完全開(kāi)放的生存狀態(tài)。智能家居以家庭為單元,運(yùn)用多種信息技術(shù),達(dá)到監(jiān)控與信息交互的目的,在未來(lái),居住更加智能、消費(fèi)者的居住體驗(yàn)更加舒適,一場(chǎng)由語(yǔ)音交互的變革看起來(lái)勢(shì)在必行了。
(審核編輯: 智匯張瑜)
分享