5月20日,神州泰岳AI大數(shù)據(jù)副總裁張瑞飛受邀出席在國家會議中心舉辦的2018GAITC全球人工智能技術(shù)大會“自然語言處理”論壇,并做了題為“認(rèn)知能力:在成本與成效中平衡”的精彩主題演講。
神州泰岳AI大數(shù)據(jù)副總裁張瑞飛
張瑞飛指出,神州泰岳在人工智能領(lǐng)域主要的攻堅點在自然語言處理的能力,我們更加關(guān)注怎樣把人工智能技術(shù)轉(zhuǎn)化為企業(yè)的盈利目標(biāo),在自然語言處理方面要取得成本和成效的均衡。
神州泰岳在人工智能基礎(chǔ)上的投入非常堅定。在數(shù)據(jù)的獲取和處理層面,神州泰岳投入大量資源,成功獲取400萬份有效樣本,并在此基礎(chǔ)上做了向量化和特征提取,可覆蓋99%的應(yīng)用場景,有效提升了系統(tǒng)的泛化能力。同時,神州泰岳采用獨特方法,解決多態(tài)性的問題,實現(xiàn)了屬性要素的提取,尤其是對事件的地點、物品、手段、特征、碼號等要素的提取,其中包括190多萬個地址庫。
在上述投入的同時,神州泰岳引入最新的技術(shù)理念,優(yōu)化算法,提升成效:采用遷移學(xué)習(xí),減少樣本模型訓(xùn)練的樣本量;通過深度學(xué)習(xí)和DINFO-OEC非結(jié)構(gòu)化文本分析挖掘平臺,在命名實體識別場景,實現(xiàn)數(shù)據(jù)處理10%-15%的結(jié)果優(yōu)化。
在談到人工智能的應(yīng)用成效時,張瑞飛指出,神州泰岳面向公安系統(tǒng),建立了一體化的合成作戰(zhàn)平臺,在語義解析引擎、互聯(lián)網(wǎng)數(shù)據(jù)采集、大數(shù)據(jù)流水線、數(shù)據(jù)展現(xiàn)、流程引擎以及融合通訊等基礎(chǔ)能力上,不斷擴(kuò)充應(yīng)用,最終形成可落地的行業(yè)應(yīng)用體系。最近神州泰岳和北京師范大學(xué)的自然語義聯(lián)合實驗室在業(yè)界首次推出了NLP集成開發(fā)環(huán)境,把語義資源、算法體系、場景化能力等集成在一起。
“自然語言處理”論壇
最后,張瑞飛呼吁,鑒于自然語義處理技術(shù)開發(fā)的難度,業(yè)界應(yīng)當(dāng)建立生態(tài)聯(lián)盟,在共同在生態(tài)中合作起來,共通共享,降低成本,發(fā)揮各自在不同的領(lǐng)域里形成的獨特優(yōu)勢,共同提升自然語言的處理能力。