在將語(yǔ)音串流進(jìn)入辨識(shí)前,需要做雜音抑制處理,如果這部分沒有處理好,會(huì)降低系統(tǒng)的辨識(shí)率;例如在安靜的環(huán)境下,辨識(shí)率是很高的,而在雜音較多的地方,是不是也能確實(shí)做到語(yǔ)音識(shí)別呢?
如何的保持聲音的品質(zhì)呢?將噪音消除,可以透過(guò)降噪的處理方式,如下圖:
在降噪的技術(shù)里有Feedback ANC及Feed-Forward ANC等等,而這噪音的調(diào)校又會(huì)跟本身的機(jī)構(gòu)、麥克風(fēng)的位置、方向是息息相關(guān),缺一不可。
當(dāng)正確取得聲音串流時(shí),后續(xù)就是選擇語(yǔ)音的辨識(shí)伺服器,以Google所提供的平臺(tái)為例,它提供了一系列的Cloud Speech API,讓使用者可以輕松的應(yīng)用語(yǔ)音識(shí)別的控制。
而將聲音串流錄制并傳送到伺服器及進(jìn)行本地的語(yǔ)音回應(yīng)輸出、控制;這時(shí)你需要一個(gè)強(qiáng)而有力的控制平臺(tái),想當(dāng)然爾,大多數(shù)會(huì)選擇Linux平臺(tái),可以快速的取得相關(guān)的資源并連結(jié)網(wǎng)路,所以在挑選Linux開發(fā)平臺(tái)時(shí),最重要的要確認(rèn)平臺(tái)是否有持續(xù)支援Linux main line,這是一個(gè)非常重要的指標(biāo),以確保你的Linux平臺(tái)是可以持續(xù)的支援新的Linux版本。
Microchip的產(chǎn)品SAMA5D2系列提供Linux開發(fā)平臺(tái)及及豐富周邊控制模組,讓你可以快速的建立產(chǎn)品應(yīng)用。而為了縮短使用者的開發(fā)時(shí)間,也提供SoM的開發(fā)平臺(tái),這可以大大的降低使用者的開發(fā)時(shí)間及硬體的設(shè)計(jì)難度。
未來(lái)全球語(yǔ)音識(shí)別市場(chǎng)將會(huì)變得更加多樣化,同時(shí)軟體準(zhǔn)確度上會(huì)有大幅提升。
在醫(yī)療領(lǐng)域的應(yīng)用:
不僅是簡(jiǎn)單的通過(guò)智慧手表追蹤運(yùn)動(dòng)情況和心率,還有直接根據(jù)人的身體狀況匹配相應(yīng)的服務(wù)如合適的餐廳或食物等,當(dāng)然這些大多是基于穿戴式設(shè)備的。另外他們還考慮到更多場(chǎng)景,諸如緊急語(yǔ)音求助,醫(yī)患對(duì)話存檔,呼叫中心的對(duì)話聽寫等。由于醫(yī)療領(lǐng)域詞匯庫(kù)專業(yè)性強(qiáng)演變性弱,只要建立完整的數(shù)據(jù)庫(kù),就可以做到對(duì)疾病名稱、藥品名稱相對(duì)精確的識(shí)別。
在智慧車載的應(yīng)用:
行車安全問(wèn)題上一直聚焦了很多目光,去年有人曾經(jīng)設(shè)計(jì)出一個(gè)車載屏幕,可以利用多指的簡(jiǎn)單手勢(shì)解決司機(jī)操作觸控螢?zāi)贿^(guò)度分散注意力的問(wèn)題。通過(guò)將車載平臺(tái)與手機(jī)連接,可以幫用戶實(shí)現(xiàn)語(yǔ)音控制GPS導(dǎo)航,訊息收發(fā),電話接打,社群網(wǎng)路更新等等。