電信運營商說大數(shù)據(jù)變現(xiàn)也有快一年了,這一年不能說沒有進(jìn)展,但相對互聯(lián)網(wǎng)行業(yè)的秒速來說,實在只能說是龜速。有人這時候會跳出來說是因為體制問題,基因問題,這個說法是萬金油,一般運營商的問題歸結(jié)到體制上都不會出大錯,仿佛這么一說,大家就覺得一切都有了合理解釋,然后各自該干嘛干嘛去了,也就不需要再動腦子了。但是今天,我想再繼續(xù)就這個話題深入聊一聊。本文就是起到拋磚引玉的作用,大家可以一起來討論,運營商做大數(shù)據(jù)運營的切入點究竟該如何選取。
俗話說,存在即合理,任何貌似不合理的事情背后你深究下去都是這樣。運營商大數(shù)據(jù)變現(xiàn)進(jìn)展為什么這么慢?只能說,因為運營商還是沒有從大數(shù)據(jù)里面看到真金白銀。為什么中國移動在LTE上的投入那么大手筆,那是因為他看明白了,這是人家未來10年吃飯的飯碗,所以錢砸下去決不手軟。相比而言,大數(shù)據(jù)只能算是一塊試驗田,而試驗田上的收成還真不好說。
過去大半年我們一直在研究移動的數(shù)據(jù),做過企業(yè)級別的數(shù)據(jù)資產(chǎn)咨詢,也做過幾個落地的應(yīng)用項目的探索,做來做去,我們對移動的大數(shù)據(jù)認(rèn)識也越來越清晰。在14年初的時候,運營商對自己的數(shù)據(jù)還是充滿自信的,說起來,移動手里的數(shù)據(jù)無外乎兩大類:一大類是用戶的位置數(shù)據(jù),另一大類是用戶電話、短彩信及上網(wǎng)行為的數(shù)據(jù)。讓我們再深入看看這兩類數(shù)據(jù)。
先說位置數(shù)據(jù),移動網(wǎng)絡(luò)記錄用戶的位置說到底也是為了給用戶提供移動通信服務(wù)的,而不是為了窺探用戶隱私的,因此:首先它沒有必要實時關(guān)注所有用戶的位置變化,對于沒有在使用業(yè)務(wù)的靜默用戶來說,隔段時間看看他在哪里就可以了,這個用專業(yè)術(shù)語說就是周期性的位置更新,這個對于系統(tǒng)降低負(fù)荷是很必要的,這樣就有第一個結(jié)論:網(wǎng)絡(luò)對于有業(yè)務(wù)的用戶,需要實時關(guān)注其位置變化,根據(jù)這個位置變化選擇不同的基站和小區(qū)為其提供服務(wù),對于無業(yè)務(wù)的用戶,僅需輪詢其位置變化,這個輪詢周期通常是40分鐘(根據(jù)網(wǎng)絡(luò)負(fù)荷情況調(diào)整)。也就是說,網(wǎng)絡(luò)感知的用戶位置不實時,最壞情況時延可達(dá)40分鐘!其次:網(wǎng)絡(luò)需要了解用戶位置的精度到底到什么程度就夠了呢?答案也很容易想到,只要知道用戶在哪個小區(qū)的服務(wù)范圍就可以了,因此,移動網(wǎng)絡(luò)記錄的用戶位置信息,精度只能到基站的經(jīng)緯度(小區(qū)的經(jīng)緯度和基站是一樣的),這是什么概念呢?2G小區(qū)的覆蓋范圍是數(shù)公里,3G的是數(shù)百米,4G的小一些會在百米之內(nèi)。也就是說,網(wǎng)絡(luò)感知的用戶位置在地理上的精度基本是百米量級。
知道了運營商用戶位置數(shù)據(jù)在時間和空間上的精度后,對這些數(shù)據(jù)可以支撐什么應(yīng)用也就心中有數(shù)了,哪些是靠譜的,哪些是純忽悠也就一目了然。如果是用來做要求不高的人流密度分析,常住人口分析,人口遷移去向分析夠了,如果是做精度要求稍高些的交通疏導(dǎo),店鋪選址,那就需要看實際情況,具體問題具體分析,說不準(zhǔn)能不能支持,先別拍胸脯;可如果說要做實時營銷,這牛就吹大了,不光實時你保證不了,空間上的準(zhǔn)頭也有點差,搞不好營銷沒成反被當(dāng)騷擾。
再說說用戶行為數(shù)據(jù),用戶的語音、短信類傳統(tǒng)業(yè)務(wù)有一個特點是個人對個人,因此肯定是有一個對端的號碼對應(yīng)的活生生的人,那其中的價值點在哪里就很清楚了,通過這些傳統(tǒng)業(yè)務(wù)的用戶行為,你可以很清楚的了解用戶的現(xiàn)實交往圈(現(xiàn)實交往圈是和虛擬交往圈相對的,各有各的用處)。但不幸的是,用戶往往認(rèn)為現(xiàn)實交往圈的隱私性很強,目前比較敏感,屬于雷區(qū),運營商輕易不敢越的,所以這部分?jǐn)?shù)據(jù)的價值在可以預(yù)見的未來還不可能發(fā)掘。
再有一大類重頭的用戶行為是用戶的上網(wǎng)行為,現(xiàn)在大有手機取代電腦之勢,看看低頭一族那么多就知道了。所以新新人類的大量碎片時間基本都被手機上網(wǎng)行為所占據(jù)了。對于用戶通過手機進(jìn)行的上網(wǎng)行為,網(wǎng)絡(luò)側(cè)會紀(jì)錄下用戶訪問的地址,理論上可以通過該URL地址,結(jié)合網(wǎng)絡(luò)爬蟲或APP抓包技術(shù),將實際內(nèi)容獲取回來,然后采用內(nèi)容識別技術(shù)對其中的關(guān)鍵內(nèi)容進(jìn)行識別,這樣就可以獲取到用戶行為的相關(guān)數(shù)據(jù)。但我們再進(jìn)一步看看理論后面的一些落地階段遇到的問題。至于網(wǎng)絡(luò)記錄的地址長度有限(128位),超出部分會被截斷,這些地址也就廢了,這些都是小問題,因為記錄最初也不是設(shè)計來干這個的,而且超出的比例也不是很大,大數(shù)據(jù)也不在乎少那百分之幾的數(shù)據(jù)。主要的問題有幾個,一是APP和網(wǎng)頁層出不窮,每天都是爆發(fā)式的增多,需要有一個動態(tài)更新的APP和網(wǎng)站的分類庫,這個庫里有網(wǎng)站和APP的多級分類,還需要有網(wǎng)站和APP的多個服務(wù)器地址/域名對應(yīng)關(guān)系,這實際上是做了URL分類的基礎(chǔ)工作。有效的URL庫及后期良性的維護(hù)機制是非常重要的;第二,內(nèi)容分詞/識別的復(fù)雜度和識別率,每個網(wǎng)站和APP的內(nèi)容識別往往需要采取不同的方法,具體情況具體分析,需要看頁面有無設(shè)計規(guī)律等,進(jìn)一步設(shè)計具體的內(nèi)容提取、識別算法,工作量巨大,一旦網(wǎng)站/APP改版,這些工作還要重新進(jìn)行,因此也要有一套動態(tài)維護(hù)機制。這兩項工作都是非,嵥榉彪s的工作,又很難體現(xiàn)具體的價值,因此很少有廠家愿意投入大量的資源去做。基本還是需求來了,再根據(jù)具體的需求具體分析的模式,支撐的時間周期和質(zhì)量都不穩(wěn)定。
在APP內(nèi)容識別的過程中,我們也發(fā)現(xiàn)了一些APP分析廠家目前的一些嘗試,他們會和APP開發(fā)廠家簽署協(xié)議,直接在APP代碼中嵌入數(shù)據(jù)采集代碼,通過在APP運行過程中采集的數(shù)據(jù),有針對性地對用戶的行為進(jìn)行分析,通常他們獲取的位置和內(nèi)容精度會很高,而且他們不會因為APP的升級改版而很被動,造成自身程序的大規(guī)模修改。與電信運營商相比,他們的劣勢是不能獲取到所有競爭對手的數(shù)據(jù),但是對于APP分析廠家來說,只要和更多的APP廠家簽署的協(xié)議,他們慢慢也會積累到這部分?jǐn)?shù)據(jù)。而且他們獲取數(shù)據(jù)到形成可供分析的基礎(chǔ)數(shù)據(jù)中所作的附加工作比電信運營商少的多,可以把更多的精力放在業(yè)務(wù)運營上而不是數(shù)據(jù)準(zhǔn)備上。
也許,電信運營商需要重新評估自己的數(shù)據(jù)適合做什么,不適合做什么,對需要做復(fù)雜的數(shù)據(jù)準(zhǔn)備和精度提升才能支撐的應(yīng)用場景,也許更好的辦法是換一個別的方式去做,那樣才更符合客觀規(guī)律。
以上信息純屬一家之言,還希望大家能多多討論,發(fā)表各自的看法。