暗網(wǎng)(Deep Web)又被稱為不可見網(wǎng)、隱藏網(wǎng),是指不能被搜索引擎抓取,需要通過動態(tài)網(wǎng)頁技術訪問的網(wǎng)絡資源。盡管我們?nèi)粘.斨锌山佑|到的網(wǎng)絡信息已經(jīng)是海量,實際上也不過是所有網(wǎng)絡信息的冰山一角。任何關鍵詞的谷歌搜索都無法訪問深層網(wǎng)絡,這些信息隱藏在密碼和特殊訪問軟件背后,暗網(wǎng)中的信息量至少是表層網(wǎng)絡(Surface Web)的500倍。
表層網(wǎng)絡的數(shù)據(jù)已經(jīng)成就了大量成功的科技公司,暗網(wǎng)的數(shù)據(jù)體量如此龐大,這部分數(shù)據(jù)如何挖掘和應用呢?
印度初創(chuàng)公司Quantta Analytics正是一家做暗網(wǎng)數(shù)據(jù)(Dark data)挖掘、分析和應用的公司。截止到目前,已經(jīng)有超過100家企業(yè)為Quantta Analytics的數(shù)據(jù)分析服務付費,包括印度國家銀行、麥當勞、星巴克等。Auantta Analytics為金融、零售、酒店、醫(yī)療保健、能源和餐飲行業(yè)提供服務。
Quantta Analytics擁有一支約20人的團隊,包括數(shù)學家、統(tǒng)計學家和工程師,來自哈佛大學、馬里蘭大學、密歇根大學、印度理工大學、印度統(tǒng)計學院等。他們正在應用AI模型實時監(jiān)測暗網(wǎng)數(shù)據(jù),并將數(shù)據(jù)與行為心理學結合,以預測用戶行為。
Quantta Analytics創(chuàng)始人Ritesh Bawri以耐克為例,以說明暗網(wǎng)數(shù)據(jù)如何幫助零售企業(yè):比方說,耐克在印度不同地方有200家商店,耐克向Quantta Analytics提供客戶在店內(nèi)的消費數(shù)據(jù),如消費金額、消費明細、逗留時間等等,Quantta Analytics會添加耐克商店周邊相關數(shù)據(jù),為耐克反饋市場信息,例如他們可以告訴耐克在特定商店周圍還有多少用戶沒有到店消費。
聽起來似乎與其他大數(shù)據(jù)公司無疑,Quantta的特別之處在于他們不是通過爬蟲抓取表層網(wǎng)絡信息,而是不斷地接入深層網(wǎng)絡數(shù)據(jù)點,以獲得與其他大數(shù)據(jù)公司不同的數(shù)據(jù)源。Ritesh Bawri介紹,Quantta的系統(tǒng)已經(jīng)有600億個數(shù)據(jù)點流入。
本質(zhì)上Quantta Analutics還是家大數(shù)據(jù)挖掘和分析的公司,但我覺得有趣的是他們對接暗網(wǎng)數(shù)據(jù)源的策略。這是一個數(shù)據(jù)源和建模能力雙力齊驅(qū)的賽道,早期進入暗網(wǎng)數(shù)據(jù)挖掘,是大數(shù)據(jù)公司建立差異化優(yōu)勢和競爭壁壘的好方法。