精品99一区二区三区麻豆,精品久久久久久

數(shù)據挖掘工具：誰最適合CRM

2007/09/29

　　自從我上次斗膽回答“如何選擇數(shù)據挖掘工具”之后，已經好幾年過去了。本文主要闡述以下兩個核心觀點：

沒有最好的工具;更確切地說，沒有適合所有人的最好的工具。

最有用的工具，是那些能夠滿足你所需要的絕大多數(shù)數(shù)據挖掘任務的工具。

　　主要的數(shù)據挖掘任務

　　過去，數(shù)據挖掘工具的開發(fā)主要側重于提供強大的分析算法上。但是，分析“引擎”只能完成數(shù)據挖掘項目中的一小部分任務。大多數(shù)數(shù)據挖掘人員都明白，數(shù)據挖掘項目中70%到90%的工作是做數(shù)據準備。在數(shù)據挖掘工具的演進過程中，數(shù)據準備功能的開發(fā)一直被放在次要位置上。最后，你要能夠對模型準確評估，才能比較多個模型，并將它們推薦給市場人員。

　　數(shù)據準備任務

　　常見的數(shù)據準備任務包括：

進行數(shù)據評估，以判別出：

缺失值(空字符串、空格、空值)

孤立點

共線性評估(自變量之間的相關性)

給定變量多個編碼的出現(xiàn)頻率

合并多個數(shù)據集;

從不同輸入格式到通用分析格式的元數(shù)據(字段的名稱和類型)映射;

將類似變量的值變換為通用格式;

某些算法對輸入變量有特殊要求，需要將數(shù)值型變量變換為類別型(通過數(shù)據分箱和分類)，或者將類別型變換為數(shù)值型;

將變量值切分為多個字段，或將多個字段合并為一個字段;

從現(xiàn)有變量中派生新變量。大多數(shù)數(shù)據挖掘人員發(fā)現(xiàn)，有些最具有預測能力的變量，正是派生出來的變量。

　　大多數(shù)數(shù)據挖掘工具會把這些數(shù)據挖掘功能放在次要的地位，本文則會側重評估常見數(shù)據挖掘工具處理這些任務的能力。

　　除了能支持以上的數(shù)據準備任務，一個好的數(shù)據挖掘工具還應該包含模型評估的功能，以便比較建模過程中產生的多個模型，并用于支持直效營銷(direct marketing)。

模型評估工具

　　在分析理論中，最好的模型是具有最佳精度的模型，可以準確預測出目標變量的類別，同時在驗證數(shù)據集上也能表現(xiàn)穩(wěn)定。這就是說，在預測中我們要考慮響應目標和非響應目標的組合精度。這種方法稱為全局精度方法(Global Accuracy method)。大多數(shù)數(shù)據挖掘工具使用這種方法來確定“最佳”模型。但是，它也有美中不足。全局精度評估方法的背后有一個前提假設，就是各種分類錯誤的代價是相同的。這種方法在課堂上表現(xiàn)不錯，但在實際的CRM數(shù)據挖掘應用上則可能存在問題，特別是在那些用于直郵營銷的應用上。實際上，這也是過去很多用CRM來支持直郵營銷而未能產生明顯商業(yè)價值的一個主要原因。對模型的評估有一些主要原則，而其中只有一部分是營銷部門真正關心的：最大化目標客戶的響應率，最小化所需成本。大多數(shù)數(shù)據挖掘工具都把注意力集中在預測的組合精度上，卻完全忽略了成本的因素。

　　在直效營銷活動中，向未響應的潛在客戶(稱為“錯誤肯定”錯誤，false-positive)發(fā)送郵件的成本是相當?shù)偷?而如果一個潛在客戶可能會響應(稱為“錯誤否定”錯誤，false-negative)，你卻沒有向他發(fā)送郵件，那么這個代價就相當大了(因為沒有把他發(fā)展為客戶，您會損失他所繳納的會員費，而且他也不可能購買您的其它服務)。因此在直銷營銷模型的評估中，就應該盡量最小化錯誤否定的錯誤，而不是錯誤肯定。因為營銷部門只關注響應率和成本，如果前30%的客戶名單中包含了全體響應者的60%，就可以滿足他們的需求。對于直銷營銷來說，盡管前30%的客戶仍會有部分人不會響應(錯誤肯定錯誤)，向他們發(fā)送郵件依然是值得的。那是因為我們已經聯(lián)系了全體響應者中的60%。此時就比隨機發(fā)郵件的有效性提高了一倍，也就更加合算。

　　大多數(shù)數(shù)據挖掘工具都使用全局精度方法來進行模型評估。它們可能會要求你使用這種方法，通過工具的報表功能來識別出“最佳”模型。不同算法會產生多個模型，我們不應該只是查看工具提供的精度報告，簡單比較后就判別哪個是最佳的模型。實際上，更合適的評估應該根據如下條件來做出：按照預測概率值順序排列模型結果，生成評分列表，然后看真正的響應者是否被放在最前面的分段中。盡管分類算法可以輸出分類概率，實際的類別(例如，0或1)還是對分類概率的進一步歸納(例如，<0.5 = 0; ≥ 0.5 = 1)。大量真正的“金塊”隱藏在數(shù)據挖掘工具的功能模塊之中。初級的CRM挖掘人員會把注意力放在分類和精度上面，但真正的“金塊”應該是客戶保持、購買傾向以及新客戶獲取的概率值。

　　我們應該查看累積提升表(cumulative lift table;例如表1)，來判別模型是否真正有效地把正確肯定(true-positives)放在了靠前的分組里。累積提升表可以通過以下方式創(chuàng)建：　　

預測概率值按降序方式存儲為有序列表

把這個有序列表劃分為10段(分組)

計算每組中的實際命中數(shù)(actual hits，實際的響應數(shù))

計算每個分組的隨機期望值(random expectation)，該期望值等于實際響應總數(shù)除以10。也就是說，在每個分組中我們期望會有實際響應總數(shù)的10%會響應。如果命中率超過了隨機期望值，就意味著模型為該分組帶來了提升

　表1：提升表

　圖1：增量提升圖示例

在增量提升曲線中標示了各個分段的命中數(shù)。在圖1中可以看到，增量提升曲線在第4個分段后和隨機期望線(275個響應的10%，即平均每個分段27.5個響應)交叉。不管營銷經理怎么去看，上述的表格和圖形都可以把必要的信息傳遞給他們。營銷人員可以借助模型評估工具，來設定要給多少個客戶發(fā)郵件。以表1為例，營銷人員可以向前四個分段的客戶(占整個評分名單的40%)發(fā)郵件，并預期可以命中70%的潛在響應客戶。

我們現(xiàn)在已經了解該如何評估數(shù)據挖掘模型，接下來就可以深入分析和調整業(yè)務流程，借助模型的結果來提高企業(yè)的盈利。業(yè)務流程包括：

數(shù)據挖掘過程

知識發(fā)現(xiàn)過程

業(yè)務流程管理(BPM)軟件

知識管理系統(tǒng)

商業(yè)生態(tài)系統(tǒng)管理

數(shù)據挖掘過程

一個發(fā)現(xiàn)過程

具有靈活的框架

按照清晰定義的策略進行

包含多個檢查點

多次定期的評估

允許在反饋環(huán)路中對函數(shù)進行調整

組織為疊代式的架構

過程模型

　　圖2： CRISP圖例

　　使用數(shù)據建模其實和做陶土模型或者大理石模型差不多。藝術家首先從一大堆材料開始著手，經過許多次的加工和檢查，才誕生了最終的藝術品。很多人在建模過程中常常沒有充分理解建模的本質，由此帶來了一系列問題，使得建模變得很復雜。 Eric King發(fā)現(xiàn)數(shù)據挖掘是一個循環(huán)的過程(就象上圖中的CRISP流程圖)，而非線性的過程。這種循環(huán)式的數(shù)據挖掘過程會讓您想起Wankel轉式汽車發(fā)動機。這種發(fā)動機是一圈一圈旋轉的(而非上下運動)，不斷輸出動能來驅動汽車。與之相似，數(shù)據挖掘過程也是不斷循環(huán)，產生信息來幫助我們完成商業(yè)目標。信息就是推動商業(yè)的“能量”。在挖掘過程中會有很多對前一個階段的反饋(例如，在完成初步建模之后可能需要獲取更多的數(shù)據)。

　　不過，在CRISP流程中還是遺漏了一個要素——那就是對數(shù)據倉庫或源系統(tǒng)的反饋。前一次CRM營銷活動的結果應該導入數(shù)據倉庫，為后續(xù)的建模提供指導，并能跟蹤營銷活動間的變化趨勢。我在CRISP流程圖中加入了這些反饋，以紅線表示(見圖2)。

　　通過數(shù)據挖掘過程的結構，我們可以得知數(shù)據挖掘工具必需能完成那些任務，但是工具常常會缺少對部分功能的支持。當產生了挖掘結果時，你會怎么使用這些結果呢? 此外，針對挖掘結果所采取的這些行動又將如何影響后續(xù)的挖掘? 數(shù)據挖掘工具應該具備的一些功能包括：

將模型導出到多種數(shù)據庫結構中

模型的導出格式，適合于決策支持和商業(yè)行動的應用

挖掘算法的輸出數(shù)據，可以為另外的算法所用

能夠比較不同算法的結果

IT專家網

相關鏈接:

如何在Linux平臺上遷移SugarCRM？ 2007-09-29

B2B和B2C CRM：差異概述 2007-09-29

CRM的誘惑 2007-09-27

CRM：中資銀行競爭力短板 2007-09-27

CRM應用實戰(zhàn)之一：如何利用CRM制定銷售目標？ 2007-09-27

分類信息:
相關頻道: 數(shù)據挖掘 IP呼叫中心