中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

 首頁 > 新聞 > 專家觀點 >

App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析

2016-03-24 10:56:25   作者:環(huán)信聯(lián)合創(chuàng)始人 馬曉宇   來源:CTI論壇   評論:0  點擊:


  在近期做的一項2015年App統(tǒng)計中,以微信為首的社交類App占據(jù)了排行榜第一位,新聞類App位居第二,可見人們對社交的需求大過了獲取新聞資訊的需求。在馬斯洛需求層次理論中,社交需求僅次于生理需求和安全需求,位居第三,可見社交的重要性,恐怕這也是流行的那句話“無社交、不App”的真實本源。
環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
  App開發(fā)者想方設(shè)法在App里集成IM功能,鼓勵用戶溝通、互動、分享。但在享受用戶量迅速上漲的同時,卻也面臨著不小的麻煩——垃圾信息。用戶數(shù)量上來后,各種廣告、釣魚、色情等垃圾信息也不請自來。影響用戶體驗不說,一旦涉及到政治類信息,甚至?xí)oApp帶來下架的風(fēng)險,這實際上已經(jīng)有過前車之鑒。即使是過百萬用戶量,由于沒有即時采取措施遏制垃圾信息泛濫,最終導(dǎo)致被用戶拋棄的App也已是不乏其數(shù)了。有人對此總結(jié)了一句話:“始于約炮,發(fā)展于炫耀,終結(jié)于代購”。
  App植入IM功能是大勢所需,關(guān)鍵在于,如何有效過濾各種垃圾消息,讓App滿足用戶真正的社交需求。
  垃圾消息分類與偽裝術(shù)
  “知己知彼,百戰(zhàn)不殆”,我們先了解一下當(dāng)前IM軟件上垃圾信息的特點。
  從內(nèi)容上來看,垃圾信息通常分成這么幾類:
  廣告類:用于推銷商品、網(wǎng)站、店鋪等,例如減肥藥、化妝品、四六級答案等;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析
  釣魚類:通過發(fā)布一些虛假信息,誘使人們點擊或是回復(fù),從而一步步陷入騙局;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析
  色情類:用于色情交易或事色情網(wǎng)站宣傳等;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務(wù)難點和技術(shù)實現(xiàn)全解析
  SEO類:通過讓用戶點擊提高小網(wǎng)站的搜索排名;
  政治類:例如境外勢力支持下的對重大事件的負(fù)面輿論。這類信息風(fēng)險極大,一旦廣為擴(kuò)散極有可能造成App被下架。
  對于簡單的垃圾信息,管理員只要設(shè)置好關(guān)鍵字過濾即可。但發(fā)送者為了逃避攔截,通常都會對垃圾信息進(jìn)行偽裝,幾種典型的偽裝術(shù):
  • 不相關(guān)內(nèi)容+垃圾內(nèi)容。例如在四、六級或考研季來臨時,常常會收到這種垃圾消息:“白日依山盡,黃河入海流?佳写鸢,聯(lián)系QQ******”。前半句“白日依山盡,黃河入海流”即為干擾項。
  • 添加隨機(jī)噪聲,包括文字變換,隨機(jī)字母,不同字體等。例如,“QQ群”改寫成“藤訓(xùn)裙”、“叩叩裙”等,或者同時使用符號、文字變換:
  • 使用多媒體技術(shù),例如使用圖片或者音視頻來封裝廣告。
  垃圾信息檢測技術(shù)
  從垃圾消息的偽裝技術(shù)來看,僅依靠傳統(tǒng)關(guān)鍵字過濾顯然是無效的,必須另辟蹊徑。目前在學(xué)術(shù)界和業(yè)界的幾個研究方向:
  1. antispam_based_user_keyword,基于敏感詞的模糊匹配技術(shù)。
  這項技術(shù)的核心是實用雙數(shù)組字典樹算法進(jìn)行關(guān)鍵詞的查詢。首先服務(wù)會對輸入的內(nèi)容先進(jìn)行簡繁體、全半角、火星文、同義詞、特殊字符過濾等一系列預(yù)處理。然后進(jìn)行高效的關(guān)鍵詞查詢,主要功能點:
  基于基本詞庫進(jìn)行過濾(如政治、色情、暴力等),同時支持用戶自定義詞庫;
  大小寫模糊匹配;
  將需要屏蔽的關(guān)鍵詞替換為通配符(如星號*);
  2. antispam_based_user_behavior,基于用戶行為檢測
  基于用戶行為的反垃圾算法的核心是使用聚類算法對用戶行為進(jìn)行識別,識別維度包括行為要素(如發(fā)送者、發(fā)送時間、內(nèi)容類型等等)和行為關(guān)系。所謂行為關(guān)系,是指用戶的社交屬性,例如消息發(fā)送頻率,時間間隔,消息響應(yīng)率等等。通過高效的聚類算法可實現(xiàn):
  單用戶行為識別:如單一用戶發(fā)送大量的垃圾信息;
  多用戶行為識別:大量馬甲發(fā)送大量的垃圾信息;
  識別圖片、語音、視頻等多媒體類型的垃圾信息。
  3. antispam_based_user_content,基于用戶內(nèi)容的識別
  基于內(nèi)容的反垃圾服務(wù)的核心是構(gòu)建分類器模型,采用自然語言處理技術(shù)(NLP),對內(nèi)容進(jìn)行語義分析,利用持續(xù)的機(jī)器學(xué)習(xí)與分類器訓(xùn)練,使機(jī)器能夠理解語句的真實含義。該技術(shù)可實現(xiàn):
  經(jīng)過內(nèi)容偽裝的垃圾信息。例如加入了隨機(jī)干擾內(nèi)容的垃圾信息;
  局部熱點聚類并攔截。通過聚類算法可識別一些特定范圍內(nèi)大量傳播的垃圾信息,通過生產(chǎn)規(guī)則遏止這些信息進(jìn)一步擴(kuò)散。
  國內(nèi)市場上為APP提供即時通訊能力的廠商中,目前市場占有率第一的環(huán)信率先將上述技術(shù)集成至其IM產(chǎn)品中,為APP提供反垃圾信息服務(wù)?梢栽贏PP中實現(xiàn)幾種垃圾信息的攔截:
  單一用戶行為,如發(fā)送大量重復(fù)的“你好”、“hi”、可愛表情等打招呼行為,或冒充官網(wǎng)人員發(fā)送惡意鏈接、營銷廣告、色情信息等,這種類型的垃圾信息可基于用戶行為檢測技術(shù)+內(nèi)容檢測技術(shù),同時借助NLP及訓(xùn)練模型對內(nèi)容進(jìn)行識別和攔截,緊急情況下可使用敏感詞進(jìn)行攔截。
  多用戶行為。例如垃圾信息發(fā)送者擁有馬甲庫,切換不同馬甲來進(jìn)行垃圾信息發(fā)送,甚至展開小型DDoS攻擊,此類可基于全局用戶行為檢測技術(shù),以及全局消息內(nèi)容聚合進(jìn)行識別和攔截;
  高級形式的垃圾信息。如“目的內(nèi)容+隨機(jī)干擾”,這種形式的垃圾信息可通過局部聚類檢測技術(shù)對熱詞進(jìn)行識別,同時結(jié)合語義分析技術(shù)進(jìn)行識別攔截;
  對于內(nèi)容完全隨機(jī)的垃圾信息,可以采用發(fā)送頻率限制技術(shù)增加發(fā)送者的成本,讓他們趨于正常用戶的行為,削減影響。
\
環(huán)信反垃圾技術(shù)流程圖
  從在APP中實際部署的效果來看是非常明顯的,過濾率基本在99%左右。下圖是在環(huán)信產(chǎn)品后臺看到的實際攔截效果,分別是基于行為的攔截和基于內(nèi)容的攔截。
\
基于行為的垃圾信息攔截
\
基于用戶內(nèi)容的垃圾信息攔截
  反垃圾信息服務(wù)是一項“長期斗爭”,除了技術(shù)手段外,還可以采取一些管理手段。例如,注冊時要求綁定手機(jī)號,而非郵箱號。設(shè)置舉報機(jī)制和拉黑功能等等,從而提升垃圾消息發(fā)送者的成本。通過技術(shù)手段,再輔以管理手段,必將遏止App中的垃圾消息,打造一個健康的網(wǎng)絡(luò)社交環(huán)境。
  作者簡介:
  馬曉宇,環(huán)信聯(lián)合創(chuàng)始人,擁有17年研發(fā)經(jīng)驗,先后任職于Symbian、Nokia,帶領(lǐng)團(tuán)隊主持開發(fā)了數(shù)款Nokia手機(jī)的操作系統(tǒng)及內(nèi)核軟件,手機(jī)操作系統(tǒng),手機(jī)應(yīng)用軟件專家。

相關(guān)熱詞搜索: 環(huán)信

上一篇:“過氣網(wǎng)紅”BYOD的逆襲之旅

下一篇:最后一頁

分享到: 收藏

專題