珊珊(好居網(wǎng)用戶)
2191天前 / 閱讀 :
【好居網(wǎng)】說起來可笑,每次我找不到眼鏡的時(shí)候,我都想拿出手機(jī),給我的眼鏡“打個(gè)電話”,好聽聲辨位。
不知道有沒有人,開發(fā)這種功能?
不得不承認(rèn),在某些場(chǎng)景下,聲音具有很強(qiáng)的穿透力。也因此,智能音箱會(huì)被開發(fā)出來,一聲“小愛同學(xué)”省了我們不少力氣。
在智能語音這條賽道,可發(fā)揮的場(chǎng)景,待開發(fā)的空間還很大,這里列了幾個(gè)例子,供君參考。
充滿“人情味兒”的聲音
其實(shí)語音合成技術(shù)離我們很近,例如高德地圖里志玲姐姐的聲音,讀書軟件里有聲朗讀,科大訊飛研發(fā)的“訊飛留聲”還可以滿足你,10句話就可以復(fù)刻自己的聲音。
從早期“我-是-機(jī)-器-人”的機(jī)械聲,到如今我們聽到的Siri的回答,無論從音質(zhì)、復(fù)雜度還是自然度上,都近乎無可挑剔。但是在技術(shù)迭代的過程中,表現(xiàn)力一直是語音合成技術(shù)亟待解決的問題。
唯真性高,但是“人情味”不足。
而提到“人性化”的聲音,最驚艷的莫過于去年驚艷亮相谷歌I/O開發(fā)者大會(huì)的智能語音助手。
有沒有覺得,那句“Umm...”讓整個(gè)對(duì)話“真”了起來。
我們知道,人類在說話的時(shí)候會(huì)夾雜很多語氣詞,用來緩沖大腦思考問題。同樣,機(jī)器人進(jìn)行信息檢索的時(shí)候也需要時(shí)間,加入這些詞匯讓它們看起來更像人類。
一個(gè)會(huì)說人話的機(jī)器人,還是有機(jī)會(huì)殺一殺萌寵經(jīng)濟(jì)的銳氣。
49秒,點(diǎn)了34杯咖啡
此前,《麻省理工科技評(píng)論》評(píng)選出的2019年“全球十大突破性技術(shù)”,“阿里AI助手”是唯一上榜的國(guó)產(chǎn)技術(shù)。
原因在于專業(yè)技能過硬,僅49秒,點(diǎn)了34杯咖啡。
用戶只需要對(duì)點(diǎn)餐機(jī)進(jìn)行與正常人一樣的對(duì)話就可以完成。
“五個(gè)巧克力、兩個(gè)香草拿鐵,巧克力加奶油。”“兩個(gè)中杯焦糖拿鐵,一個(gè)熱的一個(gè)冷的。”“算了巧克力不要了。”“再要六個(gè)小杯少冰摩卡,三杯加焦糖三杯加香草”“再加一個(gè)大的冷的拿鐵,去冰半糖加脫脂奶,打包。”
在云棲大會(huì)現(xiàn)場(chǎng),阿里語音交互首席科學(xué)家鄢志杰最快以每秒5個(gè)字的語速向一臺(tái)機(jī)器點(diǎn)單。
而人類咖啡師在第一次沒記住的情況下,重聽之后完成了訂單,用時(shí)2分37秒。
該系統(tǒng)不僅可以在公共場(chǎng)所強(qiáng)噪聲環(huán)境下進(jìn)行信號(hào)處理和語音識(shí)別,還融合了視頻識(shí)別與面部識(shí)別、場(chǎng)景感知等多模態(tài)的感知技術(shù),同時(shí)更增加了多輪多意圖口語理解、業(yè)務(wù)知識(shí)圖譜自適應(yīng)等認(rèn)知技能。
這項(xiàng)技術(shù)除了可以替代收銀員之外,還被應(yīng)用在地鐵里。
據(jù)悉,上海地鐵已經(jīng)部署了這一技術(shù),乘客直接說出目的地,售票機(jī)便可選擇合適的站點(diǎn)和路線。
“語音流”里的廣告位
在語音助手界,最紅的莫過于微軟小冰,寫詩、唱歌、主持、嘮嗑無所不能。據(jù)悉,微軟小冰作為“社交化人工智能”已經(jīng)在全球積累了過億用戶,產(chǎn)生了300億條的對(duì)話記錄。
如今的第六代微軟小冰,已上線全新的共感模型(即小冰可以通過自創(chuàng)回應(yīng),來牽引對(duì)話向她所希望的方向進(jìn)行)。她可以實(shí)時(shí)預(yù)測(cè)人類即將說出的內(nèi)容,實(shí)時(shí)生成回應(yīng),并控制對(duì)話節(jié)奏,從而使長(zhǎng)程語音交互成為可能。
帶節(jié)奏,牽引對(duì)話,這是導(dǎo)購(gòu)員最擅長(zhǎng)的事情。
這是一個(gè)信號(hào)。
品牌廣告主可以憑借更具針對(duì)性、以語音為先的數(shù)字內(nèi)容搶占搜索結(jié)果的位置。
也就是,“語音流”里的廣告位。
這是是一片需要營(yíng)銷人員去探索的空白區(qū)域。想想看,當(dāng)語音助手的系統(tǒng)中,沒有數(shù)據(jù)來源或足夠深度的內(nèi)容為問題提供答案時(shí),品牌可以主動(dòng)參與到對(duì)話中去。
智能語音打造生產(chǎn)力工具?
在文章開篇,提到了給眼鏡“打電話”,那如果眼鏡可以自己發(fā)出聲音“我在這里”會(huì)如何?
事實(shí)上,這件事情,已經(jīng)有人做到了。
通用電氣開發(fā)出了一款原型機(jī),它可以讓機(jī)車給維修技術(shù)人員發(fā)送語音信息,描述需要修理的東西。或者,它可以直接打電話給他,說“我的轉(zhuǎn)子有問題了,你快來修”。
其實(shí),“機(jī)器自檢”這種模式,來自于通用電氣的Digital Twin。
專業(yè)術(shù)語小貼士(來自美國(guó)國(guó)防采辦大學(xué)DAU的術(shù)語):
Digital Twin,即數(shù)字孿生,指充分利用物理模型、傳感器更新、運(yùn)行歷史等數(shù)據(jù),集成多學(xué)科、多物理量、多尺度、多概率的仿真過程,在虛擬空間中完成映射,從而反映相對(duì)應(yīng)的實(shí)體裝備的全生命周期過程。
換句話說,就是在虛擬空間中對(duì)工廠進(jìn)行仿真和模擬,并將真實(shí)參數(shù)傳給實(shí)際的工廠建設(shè)。
通用電氣的Digital Twin項(xiàng)目不僅實(shí)現(xiàn)了工業(yè)資產(chǎn)的3D顯示,還可以處理從全球各個(gè)機(jī)器收集到的信息,從而更好地為決策提供信息。
更多的語音應(yīng)用場(chǎng)景,還有老羅發(fā)布的TNT工作站,用聲音控制電腦的操作,一度引起網(wǎng)友吐槽,最終寥寥收?qǐng)觥?/p>
作為對(duì)比,在今年的WWDC 2019上面世的macOS 10.15 系統(tǒng),也實(shí)現(xiàn)了語音控制Mac 設(shè)備,不禁令人感慨:
語音交互會(huì)成為下一代主流交互方式嗎?
記得科大訊飛AI產(chǎn)品副總裁陳亮在一次演講中說:“AI用得好不好,關(guān)鍵在于用的人的想象力”。
所以,我們其實(shí)要考慮的是:如何在合適的場(chǎng)景,選擇合適的交互方式。
當(dāng)我在跑步的時(shí)候,如果有一個(gè)虛擬語音助手可以直接告訴我應(yīng)該如何調(diào)整呼吸和步伐節(jié)奏,我是希望與“它”進(jìn)行對(duì)話的。
又或許,還有“會(huì)說話”的眼鏡......
(來源:科技樹)
免責(zé)聲明:文章內(nèi)容來源于網(wǎng)絡(luò),如侵犯了原作者的權(quán)益,請(qǐng)告知好居網(wǎng),本站將立即刪除。
不懂就來“課城”,為您提供終身知識(shí)服務(wù)!
“課城”在線教育現(xiàn)覆蓋了辦公效率、企業(yè)管理、經(jīng)濟(jì)金融、編程開發(fā)、人工智能、前端開發(fā)、產(chǎn)品設(shè)計(jì)、產(chǎn)品策劃、藝術(shù)設(shè)計(jì)、產(chǎn)品運(yùn)營(yíng)、生活方式、影視攝影、繪畫書法、投資理財(cái)、親子教育、語言學(xué)習(xí)、大學(xué)教育等50余個(gè)專業(yè)領(lǐng)域,現(xiàn)有合作講師580位。
課城官網(wǎng):http://www.coursemall.cn/