中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

 首頁 > 新聞 > 專家觀點 >

App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析

2016-03-24 10:56:25   作者:環(huán)信聯(lián)合創(chuàng)始人 馬曉宇   來源:CTI論壇   評論:0  點擊:


  在近期做的一項2015年App統(tǒng)計中,以微信為首的社交類App占據(jù)了排行榜第一位,新聞類App位居第二,可見人們對社交的需求大過了獲取新聞資訊的需求。在馬斯洛需求層次理論中,社交需求僅次于生理需求和安全需求,位居第三,可見社交的重要性,恐怕這也是流行的那句話“無社交、不App”的真實本源。
環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
  App開發(fā)者想方設(shè)法在App里集成IM功能,鼓勵用戶溝通、互動、分享。但在享受用戶量迅速上漲的同時,卻也面臨著不小的麻煩——垃圾信息。用戶數(shù)量上來后,各種廣告、釣魚、色情等垃圾信息也不請自來。影響用戶體驗不說,一旦涉及到政治類信息,甚至?xí)oApp帶來下架的風(fēng)險,這實際上已經(jīng)有過前車之鑒。即使是過百萬用戶量,由于沒有即時采取措施遏制垃圾信息泛濫,最終導(dǎo)致被用戶拋棄的App也已是不乏其數(shù)了。有人對此總結(jié)了一句話:“始于約炮,發(fā)展于炫耀,終結(jié)于代購”。
  App植入IM功能是大勢所需,關(guān)鍵在于,如何有效過濾各種垃圾消息,讓App滿足用戶真正的社交需求。
  垃圾消息分類與偽裝術(shù)
  “知己知彼,百戰(zhàn)不殆”,我們先了解一下當(dāng)前IM軟件上垃圾信息的特點。
  從內(nèi)容上來看,垃圾信息通常分成這么幾類:
  廣告類:用于推銷商品、網(wǎng)站、店鋪等,例如減肥藥、化妝品、四六級答案等;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析
  釣魚類:通過發(fā)布一些虛假信息,誘使人們點擊或是回復(fù),從而一步步陷入騙局;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析
  色情類:用于色情交易或事色情網(wǎng)站宣傳等;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析
  SEO類:通過讓用戶點擊提高小網(wǎng)站的搜索排名;
  政治類:例如境外勢力支持下的對重大事件的負(fù)面輿論。這類信息風(fēng)險極大,一旦廣為擴散極有可能造成App被下架。
  對于簡單的垃圾信息,管理員只要設(shè)置好關(guān)鍵字過濾即可。但發(fā)送者為了逃避攔截,通常都會對垃圾信息進行偽裝,幾種典型的偽裝術(shù):
  • 不相關(guān)內(nèi)容+垃圾內(nèi)容。例如在四、六級或考研季來臨時,常常會收到這種垃圾消息:“白日依山盡,黃河入海流?佳写鸢,聯(lián)系QQ******”。前半句“白日依山盡,黃河入海流”即為干擾項。
  • 添加隨機噪聲,包括文字變換,隨機字母,不同字體等。例如,“QQ群”改寫成“藤訓(xùn)裙”、“叩叩裙”等,或者同時使用符號、文字變換:
  • 使用多媒體技術(shù),例如使用圖片或者音視頻來封裝廣告。
  垃圾信息檢測技術(shù)
  從垃圾消息的偽裝技術(shù)來看,僅依靠傳統(tǒng)關(guān)鍵字過濾顯然是無效的,必須另辟蹊徑。目前在學(xué)術(shù)界和業(yè)界的幾個研究方向:
  1. antispam_based_user_keyword,基于敏感詞的模糊匹配技術(shù)。
  這項技術(shù)的核心是實用雙數(shù)組字典樹算法進行關(guān)鍵詞的查詢。首先服務(wù)會對輸入的內(nèi)容先進行簡繁體、全半角、火星文、同義詞、特殊字符過濾等一系列預(yù)處理。然后進行高效的關(guān)鍵詞查詢,主要功能點:
  基于基本詞庫進行過濾(如政治、色情、暴力等),同時支持用戶自定義詞庫;
  大小寫模糊匹配;
  將需要屏蔽的關(guān)鍵詞替換為通配符(如星號*);
  2. antispam_based_user_behavior,基于用戶行為檢測
  基于用戶行為的反垃圾算法的核心是使用聚類算法對用戶行為進行識別,識別維度包括行為要素(如發(fā)送者、發(fā)送時間、內(nèi)容類型等等)和行為關(guān)系。所謂行為關(guān)系,是指用戶的社交屬性,例如消息發(fā)送頻率,時間間隔,消息響應(yīng)率等等。通過高效的聚類算法可實現(xiàn):
  單用戶行為識別:如單一用戶發(fā)送大量的垃圾信息;
  多用戶行為識別:大量馬甲發(fā)送大量的垃圾信息;
  識別圖片、語音、視頻等多媒體類型的垃圾信息。
  3. antispam_based_user_content,基于用戶內(nèi)容的識別
  基于內(nèi)容的反垃圾服務(wù)的核心是構(gòu)建分類器模型,采用自然語言處理技術(shù)(NLP),對內(nèi)容進行語義分析,利用持續(xù)的機器學(xué)習(xí)與分類器訓(xùn)練,使機器能夠理解語句的真實含義。該技術(shù)可實現(xiàn):
  經(jīng)過內(nèi)容偽裝的垃圾信息。例如加入了隨機干擾內(nèi)容的垃圾信息;
  局部熱點聚類并攔截。通過聚類算法可識別一些特定范圍內(nèi)大量傳播的垃圾信息,通過生產(chǎn)規(guī)則遏止這些信息進一步擴散。
  國內(nèi)市場上為APP提供即時通訊能力的廠商中,目前市場占有率第一的環(huán)信率先將上述技術(shù)集成至其IM產(chǎn)品中,為APP提供反垃圾信息服務(wù)?梢栽贏PP中實現(xiàn)幾種垃圾信息的攔截:
  單一用戶行為,如發(fā)送大量重復(fù)的“你好”、“hi”、可愛表情等打招呼行為,或冒充官網(wǎng)人員發(fā)送惡意鏈接、營銷廣告、色情信息等,這種類型的垃圾信息可基于用戶行為檢測技術(shù)+內(nèi)容檢測技術(shù),同時借助NLP及訓(xùn)練模型對內(nèi)容進行識別和攔截,緊急情況下可使用敏感詞進行攔截。
  多用戶行為。例如垃圾信息發(fā)送者擁有馬甲庫,切換不同馬甲來進行垃圾信息發(fā)送,甚至展開小型DDoS攻擊,此類可基于全局用戶行為檢測技術(shù),以及全局消息內(nèi)容聚合進行識別和攔截;
  高級形式的垃圾信息。如“目的內(nèi)容+隨機干擾”,這種形式的垃圾信息可通過局部聚類檢測技術(shù)對熱詞進行識別,同時結(jié)合語義分析技術(shù)進行識別攔截;
  對于內(nèi)容完全隨機的垃圾信息,可以采用發(fā)送頻率限制技術(shù)增加發(fā)送者的成本,讓他們趨于正常用戶的行為,削減影響。
\
環(huán)信反垃圾技術(shù)流程圖
  從在APP中實際部署的效果來看是非常明顯的,過濾率基本在99%左右。下圖是在環(huán)信產(chǎn)品后臺看到的實際攔截效果,分別是基于行為的攔截和基于內(nèi)容的攔截。
\
基于行為的垃圾信息攔截
\
基于用戶內(nèi)容的垃圾信息攔截
  反垃圾信息服務(wù)是一項“長期斗爭”,除了技術(shù)手段外,還可以采取一些管理手段。例如,注冊時要求綁定手機號,而非郵箱號。設(shè)置舉報機制和拉黑功能等等,從而提升垃圾消息發(fā)送者的成本。通過技術(shù)手段,再輔以管理手段,必將遏止App中的垃圾消息,打造一個健康的網(wǎng)絡(luò)社交環(huán)境。
  作者簡介:
  馬曉宇,環(huán)信聯(lián)合創(chuàng)始人,擁有17年研發(fā)經(jīng)驗,先后任職于Symbian、Nokia,帶領(lǐng)團隊主持開發(fā)了數(shù)款Nokia手機的操作系統(tǒng)及內(nèi)核軟件,手機操作系統(tǒng),手機應(yīng)用軟件專家。

相關(guān)熱詞搜索: 環(huán)信

上一篇:“過氣網(wǎng)紅”BYOD的逆襲之旅

下一篇:最后一頁

分享到: 收藏

專題