下面是VCA開(kāi)發(fā)所需要面臨的一些關(guān)鍵問(wèn)題:
VCA首先需要大量語(yǔ)句進(jìn)行練習(xí)
開(kāi)發(fā)人員需要模擬用戶語(yǔ)氣來(lái)訓(xùn)練VCA的反應(yīng),這個(gè)過(guò)程包含了數(shù)以千計(jì)的常見(jiàn)口語(yǔ)化問(wèn)題,囊括我們?nèi)粘?赡芊傅囊恍┑图?jí)錯(cuò)誤,比如方言、語(yǔ)法和拼寫(xiě)錯(cuò)誤。然而現(xiàn)實(shí)是,并沒(méi)有那么多的可供訓(xùn)練的句型。對(duì)此有兩種解決方法,第一種是開(kāi)發(fā)人員人為的寫(xiě)上千種句子,第二種是等VCA上線后,在實(shí)踐中搜集用戶的反饋。第二種顯然不行,會(huì)極大影響第一批用戶的體驗(yàn),形成不了口碑,很有可能造成惡性循環(huán)。即使公司有成千上萬(wàn)條語(yǔ)句,這些語(yǔ)句對(duì)VCA來(lái)說(shuō)也是無(wú)效的,因?yàn)樗麄儧](méi)有和說(shuō)話人的意圖掛上鉤。(舉個(gè)例子,“你想干什么”這句話,生氣時(shí)說(shuō)和日常說(shuō)萬(wàn)萬(wàn)全全是不同的效果。)所以,如果人為的給這么多語(yǔ)句加上與之相配的“意圖”,是一件非常耗時(shí)的工作。公司的解決方案是開(kāi)發(fā)一套半自動(dòng)的“問(wèn)題——意圖”配對(duì)工具,大大縮短了配對(duì)時(shí)間。
不可能用一種算法來(lái)理解所有用戶的意圖。
機(jī)器人學(xué)習(xí)途徑還是從用戶先前的對(duì)話中學(xué)習(xí),簡(jiǎn)單點(diǎn)說(shuō),從用戶過(guò)往的聊天記錄中揣測(cè)用戶的意圖。問(wèn)題是,用戶對(duì)銀行的問(wèn)題和對(duì)電信公司提出的問(wèn)題是完全不同的,沒(méi)有現(xiàn)成的一種算法,可以一次性讓機(jī)器從這兩種完全不同的情境中,猜對(duì)用戶意圖。解決辦法自然是設(shè)置不同的算法,如SVMs、Naive Bayes、LSTMs和feedforward neural networks的組合,匹配不同情景下的提問(wèn),提煉出不同的意圖。這種方法可以創(chuàng)造更加準(zhǔn)確的答案。
兩種使VCA超越目前人工智能的方法
要知道,從一大段對(duì)話中提取信息是一件極其困難的事情,你在看一篇文章時(shí),不僅需要讀懂文字浮于表面的意思,還要將這些意思映射到你對(duì)世界的理解中。
舉個(gè)例子,一句很簡(jiǎn)單的話,“我的哥哥騎自行車(chē)”,有很多隱藏在語(yǔ)句之下的邏輯。比如,我和我的哥哥是擁有同一對(duì)父母,我的哥哥比我大,我哥是一個(gè)人,自行車(chē)是一樣可以被拿來(lái)用的、沒(méi)有生命的物品······這些認(rèn)知,或者說(shuō)世界觀,是我們?cè)诤瓦@個(gè)世界長(zhǎng)期接觸中學(xué)到的。如果在將文本意思映射到世界觀中出現(xiàn)了匹配錯(cuò)誤或者無(wú)法匹配,這句話將被認(rèn)為是毫無(wú)意義的。
由于今天造一臺(tái)計(jì)算機(jī),不包括世界觀的輸入,所以在它看來(lái),一句話僅僅就是一串毫無(wú)意義、被動(dòng)鏈接起來(lái)的字符串。好比工作人員想造一臺(tái)回答金融問(wèn)題的機(jī)器人,由于與金融服務(wù)相關(guān)問(wèn)題是相當(dāng)具體的,必須加強(qiáng)人工智能NLP語(yǔ)言學(xué)習(xí)的能力,以及給機(jī)器輸入豐富的語(yǔ)義。一定要設(shè)計(jì)“語(yǔ)義本體”——通俗點(diǎn)說(shuō),讓機(jī)器明白“貓和狗都是寵物,自行車(chē)是沒(méi)有生命的”。
還有一種方法是設(shè)計(jì)一種架構(gòu),讓VCA根據(jù)上下文內(nèi)容,對(duì)已知和未知的語(yǔ)境進(jìn)行標(biāo)記。
目前VCA還是對(duì)大公司最有效
根據(jù)以往的經(jīng)驗(yàn),大部分人在面對(duì)客服時(shí)是沒(méi)有耐心的,可以想象,很多人可能會(huì)略過(guò)向人工智能提問(wèn)時(shí),建議的提問(wèn)方法和需要注意的問(wèn)題。我們所提出的問(wèn)題是十分具體的,并且要求及時(shí)、直接了當(dāng)?shù)拇鸢浮_@對(duì)人工智能提出了很高的要求,目前人工智能成功解決問(wèn)題的概率徘徊在10%-20%之間。
不過(guò)考慮到大公司需要成百上千的人,回答無(wú)數(shù)次重復(fù)的問(wèn)題,這個(gè)比率可以省去大量這樣的,重復(fù)工作時(shí)間,把人力和時(shí)間成本花在創(chuàng)造性工作上面