北京時間1月10日上午,以“機(jī)器之光—2018 CES,騰訊汽車的朋友圈”為主題的特別沙龍活動在美國拉斯維加斯舉辦。
科大訊飛智能汽車事業(yè)部總裁劉俊峰介紹說,在2010年之前,幾乎在車上主流的交互模式或者是邏輯,都是由國外的一些車廠設(shè)計(jì)中心和供應(yīng)商聯(lián)合制訂的。再加上那時缺少互聯(lián)網(wǎng)、缺少鏈接、缺少數(shù)據(jù)迭代,也沒有更智能的計(jì)算平臺,這就造成盡管花了很多錢去做語音交互和設(shè)計(jì),但是用戶體驗(yàn)卻很糟。
據(jù)他透露,科大訊飛已經(jīng)在做基于場景的語義喚醒,由其配合國內(nèi)一些自主品牌廠商的設(shè)計(jì)中心,以及一些合資和外資品牌在中國的技術(shù)研發(fā)中心共同在做,開始重新制訂標(biāo)準(zhǔn)。
劉俊峰認(rèn)為,不管什么檔次的車,都需要在車上有非常好用的以安全為主、層級比較短的扁平化為主的語音交互系統(tǒng)。
劉俊峰指出,科大訊飛一直在嘗試做無屏化,但過程有很多的障礙。首先是人的習(xí)慣,人不愿意面對冷冰冰的機(jī)器講話,大多數(shù)人認(rèn)為應(yīng)該有互動。但如果互動是無屏化的,用戶又難以感受到互動的存在。
以下為發(fā)言實(shí)錄:
劉俊峰:在2010年之前,幾乎在車上主流的交互模式或者是邏輯,都是由國外的一些車廠設(shè)計(jì)中心和供應(yīng)商聯(lián)合制訂的。這個過程會造成從國外引入到國內(nèi)的時候,只通過一個簡單的漢化,造成很多界面操作的反人性。這也使得盡管花了很多的錢去做語音交互,去做所謂的設(shè)計(jì),但是從用戶在車上使用的體驗(yàn)來講是非常糟糕的。
因?yàn)槟莻€時候缺少了移動互聯(lián)網(wǎng),缺少連接,缺少數(shù)據(jù)的迭代,缺少更智能的計(jì)算平臺,也沒有辦法把非常好的一套算法優(yōu)化在嵌入式里面跑起來,這就使得想去突破變得異常難。
在2010年之后,至少我們可以勇敢地講出來,從語音交互的這個點(diǎn)上,就是從交互的這一點(diǎn)上,我們現(xiàn)在已經(jīng)是領(lǐng)先全球的。而且從2010年之后,我們幾乎把每一項(xiàng)技術(shù)創(chuàng)新全都做到了世界第一。
比方說在車上可以支持離線版本的語音搜索,然后云端加嵌入式的語音邏輯,再到車內(nèi)真正解決車開到120公里/時以上、高速關(guān)窗條件還能夠支持85%以上的識別率,然后再到現(xiàn)在不用語音喚醒詞了,當(dāng)然喚醒詞我們也是世界第一。
現(xiàn)在在做基于場景的語義喚醒,這樣一些規(guī)則現(xiàn)在已經(jīng)全部是由我們配合國內(nèi)的一些自主品牌廠商的設(shè)計(jì)中心,以及一些合資和外資品牌在中國的技術(shù)研發(fā)中心共同在做,開始重新制訂標(biāo)準(zhǔn)。
因?yàn)槲覀冋J(rèn)為應(yīng)該是這樣的邏輯產(chǎn)生過程。我們遵循以用戶體驗(yàn)為中心,以安全為第一等級的要求來制訂。大概在2016年有一個報(bào)告,稱基本上在車內(nèi)很難用語音交互做完整的事情。但是現(xiàn)在我們輸出的AI UI的1.0、2.0,已經(jīng)基本可以做到用戶不看屏幕,不做一個觸屏動作,不按一個按鍵就可以完成整個流程,包括常用的功能在內(nèi)。
我認(rèn)為這個事情已經(jīng)倒過來了,跟手機(jī)廠商的生產(chǎn)過程是一樣的。我們現(xiàn)在有了移動互聯(lián)網(wǎng),有了更強(qiáng)大的運(yùn)算平臺,有了大家習(xí)以為常的移動互聯(lián)網(wǎng)的使用經(jīng)驗(yàn)之后,用過好東西就不想在車上用到差東西,這一步走下來就沒有問題。
另外我認(rèn)為不管什么檔次的車,都需要在車上有非常好用的以安全為主、層級比較短的扁平化為主的語音交互系統(tǒng)。這套東西我們現(xiàn)在應(yīng)該也是跑在前面。
我們一直在嘗試做無屏化,這個過程有很多的障礙。一方面是人的習(xí)慣,不愿意去對著一個冷冰冰的機(jī)器講話,它應(yīng)該有互動。但這個互動如果是無屏化,怎么樣讓用戶感受到這個互動的存在呢?
第二個,整個對話的場景打開之后,其實(shí)空間是立體網(wǎng)狀的,而不單是一條場景走到頭的,中間可能會跳來跳去。這個時候?qū)φZ音識別的準(zhǔn)確度和語義理解的準(zhǔn)確度、搜索的準(zhǔn)確度,以及對于用戶屬性標(biāo)簽的準(zhǔn)確程度要越來越高。
另外一點(diǎn),在車上現(xiàn)在也很難做到百分之百聯(lián)網(wǎng),我們看三五年到2020年有50%的車輛聯(lián)網(wǎng),還有50%的車聯(lián)不聯(lián)網(wǎng),如果做到無屏化的交互,這個時候就有可能要求本地的處理能力非常強(qiáng)。用戶不管你到底聯(lián)網(wǎng)不聯(lián)網(wǎng),只是希望他隨意地講,你只要響應(yīng)我一個準(zhǔn)確的,我就覺得你是好用的。
再有就是像廠商對于一些新技術(shù)的追求,這些地方的追求是需要有節(jié)奏,這種控制的節(jié)奏也是我們一直配合廠商在把握的。
在AI未來發(fā)展中必須經(jīng)歷的五大應(yīng)用場景中,我認(rèn)為智能是我們最擅長的領(lǐng)域。
一方面,去年,科大訊飛在人工智能領(lǐng)域已經(jīng)拿到了全球頂尖的實(shí)力和好的成績。第二個是科大訊飛在汽車領(lǐng)域投入了15年,一直在做從語音到語音的事情,怎么聽清,怎么講明白?,F(xiàn)在開始做圖像的理解和圖像識別,我們并不是才做,是在研究怎么往車上引入。所以現(xiàn)在,科大訊飛已經(jīng)逐步形成從語音到語音、從圖像到圖像整個交互的鏈條。
另外形容一個人的聰明先是從表達(dá)上能做到能說會道、耳聰目明。我們在這一點(diǎn)上應(yīng)該是可以幫助每一個主機(jī)廠,把他們整個交互的邏輯重新按照人性化的方式實(shí)現(xiàn),并且形成自己核心化的東西。