微軟在其Azure語(yǔ)音服務(wù)新增發(fā)音評(píng)估(Pronunciation Assessment)功能,該功能可以評(píng)估語(yǔ)音發(fā)音,提供說話者有關(guān)語(yǔ)音準(zhǔn)確性和流暢度的回饋,現(xiàn)在該功能美國(guó)英語(yǔ)已經(jīng)正式上市,其他語(yǔ)言則提供預(yù)覽版本。
發(fā)音評(píng)估是Azure認(rèn)知服務(wù)中,語(yǔ)音服務(wù)的一項(xiàng)功能,可提供主觀與客觀語(yǔ)音評(píng)估回饋,有助於以電腦輔助語(yǔ)言學(xué)習(xí)的效果,微軟提到,對(duì)語(yǔ)言學(xué)習(xí)者來說,練習(xí)發(fā)音能夠獲得即時(shí)的回饋,可以有效提高語(yǔ)言技能。過去發(fā)音評(píng)估都需要交由老師進(jìn)行,但這需要花費(fèi)大量的時(shí)間和精力,學(xué)習(xí)者必須要付出較高的學(xué)習(xí)成本,而發(fā)音評(píng)估是一個(gè)由人工智慧驅(qū)動(dòng)的語(yǔ)音功能,讓學(xué)習(xí)者可更容易地獲得發(fā)音校正指導(dǎo)。
發(fā)音評(píng)估能夠給出接近人類專家品質(zhì)的綜合評(píng)價(jià),以不同精細(xì)度評(píng)估用戶的發(fā)音,從單音素到完整段落輸入。在音素層面,發(fā)音評(píng)估會(huì)提供每個(gè)音素的準(zhǔn)確度分?jǐn)?shù),幫助學(xué)習(xí)者更好地理解語(yǔ)音發(fā)音細(xì)節(jié),而在單詞等級(jí),發(fā)音評(píng)估可以自動(dòng)檢測(cè)錯(cuò)誤提供準(zhǔn)確度分?jǐn)?shù),以及遺漏、重復(fù)和錯(cuò)誤發(fā)音等詳細(xì)資訊。
而在全文層級(jí),發(fā)音評(píng)估提供額外的流暢度和完整度分?jǐn)?shù),流暢度則是和母語(yǔ)者比較,在單詞之間中斷無(wú)聲的程度,而完整度則代表所輸入的參考文本中,用戶念出單詞的比例,然後從準(zhǔn)確度、流暢度和完整性匯總分?jǐn)?shù),給出整體的發(fā)音品質(zhì)評(píng)估,學(xué)習(xí)者可以利用這些評(píng)估,改進(jìn)口說弱點(diǎn)。
語(yǔ)音評(píng)估的核心,是使用發(fā)音錯(cuò)誤檢測(cè)和診斷(Mispronunciation Detection and Diagnose,MDD)技術(shù),對(duì)單詞層級(jí)的發(fā)音準(zhǔn)確度進(jìn)行評(píng)分,提供錯(cuò)誤判斷并且有助於整體評(píng)估,官方提到,為了提供準(zhǔn)確且一致的結(jié)果,發(fā)音評(píng)估采用新的神經(jīng)網(wǎng)路進(jìn)行建模,利用分層架構(gòu)從較低的單詞粒度,處理到更高的單詞粒度訊息。官方提到,這樣的設(shè)計(jì)讓發(fā)音評(píng)估,可以從微小的模式中,充分利用詳細(xì)的發(fā)音資訊,使得錯(cuò)誤發(fā)音檢測(cè)更準(zhǔn)確。
發(fā)音評(píng)估模型使用超過10萬(wàn)小時(shí),來自不同口音、地區(qū)和年齡的語(yǔ)音訓(xùn)練資料,發(fā)音評(píng)估可以處理各種類型用戶溝通的場(chǎng)景,像是成人到小孩,或是非母語(yǔ)人士到母語(yǔ)人士,提供一致的評(píng)估效能。官方提到,發(fā)音評(píng)估支援自由式談話,也就是說話者在說話之前沒有任何前綴參照,像是演講或是口語(yǔ)考試,透過使用Azure Speech-to-Text服務(wù),發(fā)音評(píng)估可以自動(dòng)準(zhǔn)確地轉(zhuǎn)錄語(yǔ)音,并提供各種粒度評(píng)估結(jié)果。