动漫美女不穿衣服视频,大臀美女视频,什么都不穿的美女视频

數(shù)據(jù)挖掘工具：誰(shuí)最適合CRM

2007/09/29

　　自從我上次斗膽回答“如何選擇數(shù)據(jù)挖掘工具”之后，已經(jīng)好幾年過(guò)去了。本文主要闡述以下兩個(gè)核心觀點(diǎn)：

沒(méi)有最好的工具;更確切地說(shuō)，沒(méi)有適合所有人的最好的工具。

最有用的工具，是那些能夠滿足你所需要的絕大多數(shù)數(shù)據(jù)挖掘任務(wù)的工具。

　　主要的數(shù)據(jù)挖掘任務(wù)

　　過(guò)去，數(shù)據(jù)挖掘工具的開(kāi)發(fā)主要側(cè)重于提供強(qiáng)大的分析算法上。但是，分析“引擎”只能完成數(shù)據(jù)挖掘項(xiàng)目中的一小部分任務(wù)。大多數(shù)數(shù)據(jù)挖掘人員都明白，數(shù)據(jù)挖掘項(xiàng)目中70%到90%的工作是做數(shù)據(jù)準(zhǔn)備。在數(shù)據(jù)挖掘工具的演進(jìn)過(guò)程中，數(shù)據(jù)準(zhǔn)備功能的開(kāi)發(fā)一直被放在次要位置上。最后，你要能夠?qū)δＰ蜏?zhǔn)確評(píng)估，才能比較多個(gè)模型，并將它們推薦給市場(chǎng)人員。

　　數(shù)據(jù)準(zhǔn)備任務(wù)

　　常見(jiàn)的數(shù)據(jù)準(zhǔn)備任務(wù)包括：

進(jìn)行數(shù)據(jù)評(píng)估，以判別出：

缺失值(空字符串、空格、空值)

孤立點(diǎn)

共線性評(píng)估(自變量之間的相關(guān)性)

給定變量多個(gè)編碼的出現(xiàn)頻率

合并多個(gè)數(shù)據(jù)集;

從不同輸入格式到通用分析格式的元數(shù)據(jù)(字段的名稱和類(lèi)型)映射;

將類(lèi)似變量的值變換為通用格式;

某些算法對(duì)輸入變量有特殊要求，需要將數(shù)值型變量變換為類(lèi)別型(通過(guò)數(shù)據(jù)分箱和分類(lèi))，或者將類(lèi)別型變換為數(shù)值型;

將變量值切分為多個(gè)字段，或?qū)⒍鄠€(gè)字段合并為一個(gè)字段;

從現(xiàn)有變量中派生新變量。大多數(shù)數(shù)據(jù)挖掘人員發(fā)現(xiàn)，有些最具有預(yù)測(cè)能力的變量，正是派生出來(lái)的變量。

　　大多數(shù)數(shù)據(jù)挖掘工具會(huì)把這些數(shù)據(jù)挖掘功能放在次要的地位，本文則會(huì)側(cè)重評(píng)估常見(jiàn)數(shù)據(jù)挖掘工具處理這些任務(wù)的能力。

　　除了能支持以上的數(shù)據(jù)準(zhǔn)備任務(wù)，一個(gè)好的數(shù)據(jù)挖掘工具還應(yīng)該包含模型評(píng)估的功能，以便比較建模過(guò)程中產(chǎn)生的多個(gè)模型，并用于支持直效營(yíng)銷(xiāo)(direct marketing)。

模型評(píng)估工具

　　在分析理論中，最好的模型是具有最佳精度的模型，可以準(zhǔn)確預(yù)測(cè)出目標(biāo)變量的類(lèi)別，同時(shí)在驗(yàn)證數(shù)據(jù)集上也能表現(xiàn)穩(wěn)定。這就是說(shuō)，在預(yù)測(cè)中我們要考慮響應(yīng)目標(biāo)和非響應(yīng)目標(biāo)的組合精度。這種方法稱為全局精度方法(Global Accuracy method)。大多數(shù)數(shù)據(jù)挖掘工具使用這種方法來(lái)確定“最佳”模型。但是，它也有美中不足。全局精度評(píng)估方法的背后有一個(gè)前提假設(shè)，就是各種分類(lèi)錯(cuò)誤的代價(jià)是相同的。這種方法在課堂上表現(xiàn)不錯(cuò)，但在實(shí)際的CRM數(shù)據(jù)挖掘應(yīng)用上則可能存在問(wèn)題，特別是在那些用于直郵營(yíng)銷(xiāo)的應(yīng)用上。實(shí)際上，這也是過(guò)去很多用CRM來(lái)支持直郵營(yíng)銷(xiāo)而未能產(chǎn)生明顯商業(yè)價(jià)值的一個(gè)主要原因。對(duì)模型的評(píng)估有一些主要原則，而其中只有一部分是營(yíng)銷(xiāo)部門(mén)真正關(guān)心的：最大化目標(biāo)客戶的響應(yīng)率，最小化所需成本。大多數(shù)數(shù)據(jù)挖掘工具都把注意力集中在預(yù)測(cè)的組合精度上，卻完全忽略了成本的因素。

　　在直效營(yíng)銷(xiāo)活動(dòng)中，向未響應(yīng)的潛在客戶(稱為“錯(cuò)誤肯定”錯(cuò)誤，false-positive)發(fā)送郵件的成本是相當(dāng)?shù)偷?而如果一個(gè)潛在客戶可能會(huì)響應(yīng)(稱為“錯(cuò)誤否定”錯(cuò)誤，false-negative)，你卻沒(méi)有向他發(fā)送郵件，那么這個(gè)代價(jià)就相當(dāng)大了(因?yàn)闆](méi)有把他發(fā)展為客戶，您會(huì)損失他所繳納的會(huì)員費(fèi)，而且他也不可能購(gòu)買(mǎi)您的其它服務(wù))。因此在直銷(xiāo)營(yíng)銷(xiāo)模型的評(píng)估中，就應(yīng)該盡量最小化錯(cuò)誤否定的錯(cuò)誤，而不是錯(cuò)誤肯定。因?yàn)闋I(yíng)銷(xiāo)部門(mén)只關(guān)注響應(yīng)率和成本，如果前30%的客戶名單中包含了全體響應(yīng)者的60%，就可以滿足他們的需求。對(duì)于直銷(xiāo)營(yíng)銷(xiāo)來(lái)說(shuō)，盡管前30%的客戶仍會(huì)有部分人不會(huì)響應(yīng)(錯(cuò)誤肯定錯(cuò)誤)，向他們發(fā)送郵件依然是值得的。那是因?yàn)槲覀円呀?jīng)聯(lián)系了全體響應(yīng)者中的60%。此時(shí)就比隨機(jī)發(fā)郵件的有效性提高了一倍，也就更加合算。

　　大多數(shù)數(shù)據(jù)挖掘工具都使用全局精度方法來(lái)進(jìn)行模型評(píng)估。它們可能會(huì)要求你使用這種方法，通過(guò)工具的報(bào)表功能來(lái)識(shí)別出“最佳”模型。不同算法會(huì)產(chǎn)生多個(gè)模型，我們不應(yīng)該只是查看工具提供的精度報(bào)告，簡(jiǎn)單比較后就判別哪個(gè)是最佳的模型。實(shí)際上，更合適的評(píng)估應(yīng)該根據(jù)如下條件來(lái)做出：按照預(yù)測(cè)概率值順序排列模型結(jié)果，生成評(píng)分列表，然后看真正的響應(yīng)者是否被放在最前面的分段中。盡管分類(lèi)算法可以輸出分類(lèi)概率，實(shí)際的類(lèi)別(例如，0或1)還是對(duì)分類(lèi)概率的進(jìn)一步歸納(例如，<0.5 = 0; ≥ 0.5 = 1)。大量真正的“金塊”隱藏在數(shù)據(jù)挖掘工具的功能模塊之中。初級(jí)的CRM挖掘人員會(huì)把注意力放在分類(lèi)和精度上面，但真正的“金塊”應(yīng)該是客戶保持、購(gòu)買(mǎi)傾向以及新客戶獲取的概率值。

　　我們應(yīng)該查看累積提升表(cumulative lift table;例如表1)，來(lái)判別模型是否真正有效地把正確肯定(true-positives)放在了靠前的分組里。累積提升表可以通過(guò)以下方式創(chuàng)建：　　

預(yù)測(cè)概率值按降序方式存儲(chǔ)為有序列表

把這個(gè)有序列表劃分為10段(分組)

計(jì)算每組中的實(shí)際命中數(shù)(actual hits，實(shí)際的響應(yīng)數(shù))

計(jì)算每個(gè)分組的隨機(jī)期望值(random expectation)，該期望值等于實(shí)際響應(yīng)總數(shù)除以10。也就是說(shuō)，在每個(gè)分組中我們期望會(huì)有實(shí)際響應(yīng)總數(shù)的10%會(huì)響應(yīng)。如果命中率超過(guò)了隨機(jī)期望值，就意味著模型為該分組帶來(lái)了提升

　表1：提升表

　圖1：增量提升圖示例

在增量提升曲線中標(biāo)示了各個(gè)分段的命中數(shù)。在圖1中可以看到，增量提升曲線在第4個(gè)分段后和隨機(jī)期望線(275個(gè)響應(yīng)的10%，即平均每個(gè)分段27.5個(gè)響應(yīng))交叉。不管營(yíng)銷(xiāo)經(jīng)理怎么去看，上述的表格和圖形都可以把必要的信息傳遞給他們。營(yíng)銷(xiāo)人員可以借助模型評(píng)估工具，來(lái)設(shè)定要給多少個(gè)客戶發(fā)郵件。以表1為例，營(yíng)銷(xiāo)人員可以向前四個(gè)分段的客戶(占整個(gè)評(píng)分名單的40%)發(fā)郵件，并預(yù)期可以命中70%的潛在響應(yīng)客戶。

我們現(xiàn)在已經(jīng)了解該如何評(píng)估數(shù)據(jù)挖掘模型，接下來(lái)就可以深入分析和調(diào)整業(yè)務(wù)流程，借助模型的結(jié)果來(lái)提高企業(yè)的盈利。業(yè)務(wù)流程包括：

數(shù)據(jù)挖掘過(guò)程

知識(shí)發(fā)現(xiàn)過(guò)程

業(yè)務(wù)流程管理(BPM)軟件

知識(shí)管理系統(tǒng)

商業(yè)生態(tài)系統(tǒng)管理

數(shù)據(jù)挖掘過(guò)程

一個(gè)發(fā)現(xiàn)過(guò)程

具有靈活的框架

按照清晰定義的策略進(jìn)行

包含多個(gè)檢查點(diǎn)

多次定期的評(píng)估

允許在反饋環(huán)路中對(duì)函數(shù)進(jìn)行調(diào)整

組織為疊代式的架構(gòu)

過(guò)程模型

　　圖2： CRISP圖例

　　使用數(shù)據(jù)建模其實(shí)和做陶土模型或者大理石模型差不多。藝術(shù)家首先從一大堆材料開(kāi)始著手，經(jīng)過(guò)許多次的加工和檢查，才誕生了最終的藝術(shù)品。很多人在建模過(guò)程中常常沒(méi)有充分理解建模的本質(zhì)，由此帶來(lái)了一系列問(wèn)題，使得建模變得很復(fù)雜。 Eric King發(fā)現(xiàn)數(shù)據(jù)挖掘是一個(gè)循環(huán)的過(guò)程(就象上圖中的CRISP流程圖)，而非線性的過(guò)程。這種循環(huán)式的數(shù)據(jù)挖掘過(guò)程會(huì)讓您想起Wankel轉(zhuǎn)式汽車(chē)發(fā)動(dòng)機(jī)。這種發(fā)動(dòng)機(jī)是一圈一圈旋轉(zhuǎn)的(而非上下運(yùn)動(dòng))，不斷輸出動(dòng)能來(lái)驅(qū)動(dòng)汽車(chē)。與之相似，數(shù)據(jù)挖掘過(guò)程也是不斷循環(huán)，產(chǎn)生信息來(lái)幫助我們完成商業(yè)目標(biāo)。信息就是推動(dòng)商業(yè)的“能量”。在挖掘過(guò)程中會(huì)有很多對(duì)前一個(gè)階段的反饋(例如，在完成初步建模之后可能需要獲取更多的數(shù)據(jù))。

　　不過(guò)，在CRISP流程中還是遺漏了一個(gè)要素——那就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)或源系統(tǒng)的反饋。前一次CRM營(yíng)銷(xiāo)活動(dòng)的結(jié)果應(yīng)該導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)，為后續(xù)的建模提供指導(dǎo)，并能跟蹤營(yíng)銷(xiāo)活動(dòng)間的變化趨勢(shì)。我在CRISP流程圖中加入了這些反饋，以紅線表示(見(jiàn)圖2)。

　　通過(guò)數(shù)據(jù)挖掘過(guò)程的結(jié)構(gòu)，我們可以得知數(shù)據(jù)挖掘工具必需能完成那些任務(wù)，但是工具常常會(huì)缺少對(duì)部分功能的支持。當(dāng)產(chǎn)生了挖掘結(jié)果時(shí)，你會(huì)怎么使用這些結(jié)果呢? 此外，針對(duì)挖掘結(jié)果所采取的這些行動(dòng)又將如何影響后續(xù)的挖掘? 數(shù)據(jù)挖掘工具應(yīng)該具備的一些功能包括：

將模型導(dǎo)出到多種數(shù)據(jù)庫(kù)結(jié)構(gòu)中

模型的導(dǎo)出格式，適合于決策支持和商業(yè)行動(dòng)的應(yīng)用

挖掘算法的輸出數(shù)據(jù)，可以為另外的算法所用

能夠比較不同算法的結(jié)果

IT專(zhuān)家網(wǎng)

相關(guān)鏈接:

如何在Linux平臺(tái)上遷移SugarCRM？ 2007-09-29

B2B和B2C CRM：差異概述 2007-09-29

CRM的誘惑 2007-09-27

CRM：中資銀行競(jìng)爭(zhēng)力短板 2007-09-27

CRM應(yīng)用實(shí)戰(zhàn)之一：如何利用CRM制定銷(xiāo)售目標(biāo)？ 2007-09-27

分類(lèi)信息:
相關(guān)頻道: 數(shù)據(jù)挖掘 IP呼叫中心