多點觸控技術(shù)是具有開創(chuàng)性、革命性的發(fā)明。iPhone手機(jī)憑此技術(shù),在短短幾年時間內(nèi),引領(lǐng)手機(jī)從按鍵時代進(jìn)入觸控時代。單就中國手機(jī)市場來看,智能手機(jī)占比已經(jīng)超過90%,而智能手機(jī)的人機(jī)交互方式,基本以觸控為主。
當(dāng)智能手機(jī)創(chuàng)新面臨乏力時,Google、蘋果等巨頭開始智能硬件創(chuàng)新探索。一方面在于設(shè)備形態(tài)上的創(chuàng)新,如推出谷歌眼鏡、蘋果手表等產(chǎn)品,另一方面是在人機(jī)交互的方式上變革,如從iPhone 4S開始,蘋果力推Siri智能語音助手,語音控制技術(shù)在國內(nèi)外得到熱捧。
一、人機(jī)交互未來發(fā)展三個發(fā)展趨勢:多元化、智能化、人格化
人機(jī)交互的歷史可以追溯到18世紀(jì)中期的珍妮紡紗車,即從第一次工業(yè)革命,人們就開始了系統(tǒng)思考人機(jī)交互的問題。20世紀(jì)之后,人機(jī)交互的問題,從工業(yè)領(lǐng)域進(jìn)入到生活領(lǐng)域,這與計算機(jī)的發(fā)明與普及有很大關(guān)系。進(jìn)入21世紀(jì),隨著傳感器的普及與應(yīng)用,人機(jī)交互出現(xiàn)了本質(zhì)性變化,正朝著三個方向發(fā)展。
一是多元化。鍵盤和鼠標(biāo)控制在與計算機(jī)的交互上應(yīng)用廣泛,觸控主要是在平板電腦和智能手機(jī)的操作上,隨著智能終端種類越來越多,人們對交互體驗要求越來越高,交互方式也越來越多元化,人機(jī)交互體驗更加自然、直接。當(dāng)前并存的幾種交互方式是:鍵盤、鼠標(biāo)控制,觸控,語音控制,體感控制,眨眼及眼球控制,甚至是腦波控制?梢钥闯,只要是能夠向機(jī)器傳遞出信息的方式,人們都在進(jìn)行探索。
二是智能化。人機(jī)交互的第一階段是人適應(yīng)計算機(jī),計算機(jī)的功能是固有的,交互的意義就在于通過一定的指令獲得相應(yīng)的反饋。而到了第二階段,則是計算機(jī)逐步適應(yīng)人。比如傳感器的發(fā)展,使得人的各個器官都可以與機(jī)器進(jìn)行交互;再比如,在下班路上讓家里的空調(diào)自動開啟,讓機(jī)器人幫我們做家務(wù),讓汽車自動駕駛等服務(wù),正在陸續(xù)實現(xiàn)并在生活中應(yīng)用。
三是人格化。接著上面向人提供更多服務(wù)來談,為你提供服務(wù)的也許沒有一個機(jī)器人的實體,但會讓你感覺到是在與人交互。典型的例子如siri、微軟小冰等語音助理軟件,它們沒有實體,而是通過大量的語言、語義的學(xué)習(xí),更加了解人的思維、文化等,在你提出問題時,它盡可能的去理解你的意思,提供相應(yīng)的答案。從交互體驗來講,人們更需要的是,與同伴或者助理之間或親密或輕松的交互氛圍,基于人工智能的交互方式正向這種人格化的方向發(fā)展。
三個發(fā)展趨勢現(xiàn)在已有雛形,在接下來的一段時期內(nèi),將會繼續(xù)深化。能夠順應(yīng)這三種趨勢進(jìn)行人機(jī)交互變革的企業(yè),將會在未來發(fā)展中掌握主動權(quán)。
二、一段時期內(nèi),語音控制將是人機(jī)交互的核心,引領(lǐng)智能硬件創(chuàng)新
包括手機(jī)在內(nèi)的智能硬件面臨創(chuàng)新困境,人機(jī)交互方式變革是一個較好的切入點。從對操作個性化、方便快捷的智能化角度看,無論是鍵盤還是觸控都遠(yuǎn)遠(yuǎn)不能與語音相比,語音才是人類溝通和獲取信息最自然的便捷手段和方式。在未來一段時期內(nèi),語音控制方式將是人機(jī)交互的核心。輸入法中加入語音輸入基本已經(jīng)成為標(biāo)配,基于IM軟件的智能機(jī)器人越來越活躍,語音助理軟件、語音搜索也被蘋果、Google等企業(yè)應(yīng)用。
致力于語音控制研究與實踐的企業(yè)及機(jī)構(gòu)較多。2014年9月業(yè)內(nèi)成立的“智慧語音聯(lián)盟”,將整合產(chǎn)業(yè)鏈上下游的語音技術(shù)和資源優(yōu)勢,共同完善終端語音生態(tài)系統(tǒng)。這里面有我們耳熟能詳?shù)钠髽I(yè),包括中興、Nuance、Audience、高德、百度、中國科學(xué)院自動化所等。Nuance曾是蘋果語音助手siri的技術(shù)提供商;Audience是音訊芯片解決方案廠商,相關(guān)產(chǎn)品在三星、LG、小米等手機(jī)有所應(yīng)用。需要特別強(qiáng)調(diào)的是中興和百度。
中興看準(zhǔn)的是用戶對語音控制需求的快速膨脹,遂將智慧語音定位為戰(zhàn)略級技術(shù),在人機(jī)交互上解放雙手。應(yīng)用智慧語音的星星系列產(chǎn)品,與蘋果siri不同,是系統(tǒng)級的語音手機(jī),能夠用于多種場景,包括撥打電話、駕車、出國旅行、辦公記錄等。試想,當(dāng)你行駛在高速路上需要導(dǎo)航時,只需說出目的地手機(jī)就能迅速做出反應(yīng)并給出路線圖,是不是更安全、更方便呢。事實上,中興發(fā)布的星星2號手機(jī)已經(jīng)可以實現(xiàn)這一功能,帶來了優(yōu)秀的全語音操控的駕駛模式體驗。當(dāng)然,此類的應(yīng)用還有很多,比如出國游,對于多數(shù)國內(nèi)游客而言語言不通是最大的障礙,而現(xiàn)在用戶只需要對著星星2號說出想要表達(dá)的句子或單詞,手機(jī)能快速準(zhǔn)確的實現(xiàn)翻譯,仿佛有“同聲翻譯”陪伴左右。
中興通訊終端CEO曾學(xué)忠表示:在星星2號上,中興已經(jīng)實現(xiàn)了系統(tǒng)級別的語音控制,基本實現(xiàn)了對話式的操控體驗。在語音操控方面,我們要做的是突破人機(jī)之間語言的障礙,通過一步步研究的深入,對交互技術(shù)的深入,從產(chǎn)品設(shè)計、功能設(shè)定、場景應(yīng)用等方面,深入到心理、語義、語調(diào)、行為乃至情感層面。聲控只是最終的表現(xiàn),中興要挖掘潛藏在背后的人機(jī)交互的深層。而在產(chǎn)品布局方面,未來3-5年,中興將建立起語音操控的平臺,以智能手機(jī)為中心,將語音操控的人機(jī)互動模式輻射到穿戴、智能家居、汽車等不同領(lǐng)域,推動物聯(lián)網(wǎng)、車聯(lián)網(wǎng)的發(fā)展和完善。最終,在以語音操控為核心的人機(jī)交互領(lǐng)域,中興將成為行業(yè)領(lǐng)導(dǎo)者、規(guī)則的制定者。
而百度語音是基于深度學(xué)習(xí),以百度大腦為基礎(chǔ)的。百度大腦是百度在人工智能時代的核心智能平臺。在語音識別、語義理解上,百度具有較大的優(yōu)勢。百度公司CEO李彥宏在今年兩會提案中,還提出建立“中國大腦”計劃,讓大家在語音識別、視覺識別和自然語言理解上進(jìn)行技術(shù)創(chuàng)新。百度同時也在打造開放的語音平臺,深度融合百科知識、地圖路線、問答結(jié)果、天氣等中間頁服務(wù),向不同行業(yè)提供不同的模板。
曾有人說,打電話撥號就好,為什么要對著電話說“打電話給XX”呢?并認(rèn)為語音控制只是噱頭,其實這是沒有找對應(yīng)用場景,在大量的生活領(lǐng)域甚至是工作領(lǐng)域,都有需要解放雙手的場景。比如,你正在洗菜為家人準(zhǔn)備晚飯,忽然想電話問問女兒何時到家,但雙手沾滿了水騰不出來,這時候星星2號就體現(xiàn)出優(yōu)勢了,“打電話給女兒”兩個字就能讓你順利撥打電話而不用停下手中的活,諸如此類場景還有很多?梢韵胂笤谖磥淼闹悄苌钪校悄芷囆枰訌氐椎倪x擇語音控制,觸控、手勢和眼睛都不理想;智能電視會給觸控留下生存的機(jī)會嗎?如果是的話,僅停留在部分遙控器上;智能手表、眼睛等可穿戴設(shè)備,太小的屏幕和特殊的位置,語音控制的優(yōu)勢更加明顯。
當(dāng)前,語音控制確實存在一定的問題,如語音識別的準(zhǔn)確性和交互的人性化等,但不要低估它五到十年的未來。隨著語音控制交互方式更加智能化、人格化的發(fā)展,其潛力將會被不斷激發(fā)出來。