幾十年來(lái),人工智能領(lǐng)域一直在孜孜不倦的追求一個(gè)目標(biāo)——就是讓機(jī)器擁有人的能力。人工智能包含很多種能力,要有語(yǔ)音能力,做到能聽(tīng)會(huì)說(shuō);要有圖像能力,能看見(jiàn)和識(shí)別目標(biāo)對(duì)象;要有語(yǔ)言能力,能理解會(huì)表達(dá);還要有行為能力,懂得如何基于所見(jiàn)所聞所感,得出判斷,并產(chǎn)生動(dòng)作。而更深層次的,人工智能要賦予機(jī)器以思考能力和學(xué)習(xí)能力,以及人類千百年來(lái)積累下來(lái)的知識(shí)。
近年來(lái),隨著人工智能的腳步越來(lái)越近,“對(duì)話即平臺(tái)(Conversationas Platform)”的理念日益深入人心,很多互聯(lián)網(wǎng)產(chǎn)品和應(yīng)用開(kāi)始嘗試引入對(duì)話式的人機(jī)交互方式(CUI,Conversational UI,對(duì)話式交互)。一個(gè)完整的CUI,既需要包含能聽(tīng)會(huì)說(shuō)的語(yǔ)音識(shí)別與合成能力,更需要包含能理解會(huì)表達(dá)的語(yǔ)言對(duì)話能力。然而,研發(fā)一個(gè)對(duì)話系統(tǒng)對(duì)于大多數(shù)開(kāi)發(fā)者而言卻是一個(gè)很困難的任務(wù),對(duì)技術(shù)和數(shù)據(jù)的要求都很高。為此,百度于2017年7月5日的開(kāi)發(fā)者大會(huì)發(fā)布了面向第三方開(kāi)發(fā)者的對(duì)話系統(tǒng)開(kāi)發(fā)平臺(tái)-UNIT平臺(tái),以期能夠降低對(duì)話系統(tǒng)的研發(fā)門(mén)檻,賦能開(kāi)發(fā)者。
CUI能夠?yàn)橛脩魩?lái)什么便利?而UNIT又會(huì)如何幫助開(kāi)發(fā)者在產(chǎn)品中植入自己的CUI呢?讓我們?cè)O(shè)想一個(gè)場(chǎng)景,當(dāng)你一個(gè)人開(kāi)車(chē)走在路上,卻突然需要查看路況或者調(diào)整路線,你該怎么辦?邊開(kāi)車(chē)邊操作手機(jī)太危險(xiǎn),想找個(gè)地方停一下又找不到。這時(shí)候是不是恨不得自己再生出一雙眼睛、一雙手來(lái)幫自己搞定這個(gè)問(wèn)題?那么設(shè)想一下,如果我們能夠讓司機(jī)一邊開(kāi)著車(chē),一邊通過(guò)自然語(yǔ)言對(duì)話式交互來(lái)設(shè)置導(dǎo)航、查詢路況。相對(duì)于傳統(tǒng)的觸屏操作和鍵盤(pán)輸入,這種自然語(yǔ)言對(duì)話的交互方式既安全又方便。
其實(shí)車(chē)載環(huán)境只是自然語(yǔ)言對(duì)話式交互可以一展身手的眾多場(chǎng)景之一。在手機(jī)智能助手、智能家居控制、在線智能客服、以及機(jī)器人等場(chǎng)景里,對(duì)話式交互都是最自然的方式。而自然語(yǔ)言理解和交互,則是這些應(yīng)用背后的核心技術(shù)。比如,在上面的對(duì)話中,對(duì)話系統(tǒng)需要理解靈活的語(yǔ)言表述方式背后的語(yǔ)義和需求,需要結(jié)合多輪交互的上下文信息來(lái)綜合判斷當(dāng)前交互的狀態(tài),進(jìn)而作出反饋或者執(zhí)行指令。同時(shí),對(duì)話系統(tǒng)還需要有更基礎(chǔ)的語(yǔ)言處理和分析技術(shù),需要掌握目標(biāo)場(chǎng)景下的知識(shí)以及可用于所有技術(shù)訓(xùn)練的數(shù)據(jù)。所以說(shuō),實(shí)現(xiàn)自然語(yǔ)言理解與交互,需要雄厚而完備的技術(shù)積累和數(shù)據(jù)積累,對(duì)于很多開(kāi)發(fā)者來(lái)說(shuō),存在不小的困難。