幾十年來,人工智能領(lǐng)域一直在孜孜不倦的追求一個(gè)目標(biāo)——就是讓機(jī)器擁有人的能力。人工智能包含很多種能力,要有語音能力,做到能聽會(huì)說;要有圖像能力,能看見和識(shí)別目標(biāo)對(duì)象;要有語言能力,能理解會(huì)表達(dá);還要有行為能力,懂得如何基于所見所聞所感,得出判斷,并產(chǎn)生動(dòng)作。而更深層次的,人工智能要賦予機(jī)器以思考能力和學(xué)習(xí)能力,以及人類千百年來積累下來的知識(shí)。
近年來,隨著人工智能的腳步越來越近,“對(duì)話即平臺(tái)(Conversationas Platform)”的理念日益深入人心,很多互聯(lián)網(wǎng)產(chǎn)品和應(yīng)用開始嘗試引入對(duì)話式的人機(jī)交互方式(CUI,Conversational UI,對(duì)話式交互)。一個(gè)完整的CUI,既需要包含能聽會(huì)說的語音識(shí)別與合成能力,更需要包含能理解會(huì)表達(dá)的語言對(duì)話能力。然而,研發(fā)一個(gè)對(duì)話系統(tǒng)對(duì)于大多數(shù)開發(fā)者而言卻是一個(gè)很困難的任務(wù),對(duì)技術(shù)和數(shù)據(jù)的要求都很高。為此,百度于2017年7月5日的開發(fā)者大會(huì)發(fā)布了面向第三方開發(fā)者的對(duì)話系統(tǒng)開發(fā)平臺(tái)-UNIT平臺(tái),以期能夠降低對(duì)話系統(tǒng)的研發(fā)門檻,賦能開發(fā)者。
CUI能夠?yàn)橛脩魩硎裁幢憷?而UNIT又會(huì)如何幫助開發(fā)者在產(chǎn)品中植入自己的CUI呢?讓我們?cè)O(shè)想一個(gè)場(chǎng)景,當(dāng)你一個(gè)人開車走在路上,卻突然需要查看路況或者調(diào)整路線,你該怎么辦?邊開車邊操作手機(jī)太危險(xiǎn),想找個(gè)地方停一下又找不到。這時(shí)候是不是恨不得自己再生出一雙眼睛、一雙手來幫自己搞定這個(gè)問題?那么設(shè)想一下,如果我們能夠讓司機(jī)一邊開著車,一邊通過自然語言對(duì)話式交互來設(shè)置導(dǎo)航、查詢路況。相對(duì)于傳統(tǒng)的觸屏操作和鍵盤輸入,這種自然語言對(duì)話的交互方式既安全又方便。
其實(shí)車載環(huán)境只是自然語言對(duì)話式交互可以一展身手的眾多場(chǎng)景之一。在手機(jī)智能助手、智能家居控制、在線智能客服、以及機(jī)器人等場(chǎng)景里,對(duì)話式交互都是最自然的方式。而自然語言理解和交互,則是這些應(yīng)用背后的核心技術(shù)。比如,在上面的對(duì)話中,對(duì)話系統(tǒng)需要理解靈活的語言表述方式背后的語義和需求,需要結(jié)合多輪交互的上下文信息來綜合判斷當(dāng)前交互的狀態(tài),進(jìn)而作出反饋或者執(zhí)行指令。同時(shí),對(duì)話系統(tǒng)還需要有更基礎(chǔ)的語言處理和分析技術(shù),需要掌握目標(biāo)場(chǎng)景下的知識(shí)以及可用于所有技術(shù)訓(xùn)練的數(shù)據(jù)。所以說,實(shí)現(xiàn)自然語言理解與交互,需要雄厚而完備的技術(shù)積累和數(shù)據(jù)積累,對(duì)于很多開發(fā)者來說,存在不小的困難。