首頁>>>技術(shù)>>>CRM  CRM產(chǎn)品

數(shù)據(jù)挖掘講座之一:我所知道的一點(diǎn)Data Mining

趙民德 2003/01/24

  市場競爭的激烈迫使企業(yè)高層尋找更為科學(xué)、系統(tǒng)、有效的輔助決策技術(shù)和整體解決方案來處理日益復(fù)雜的公司事務(wù)。毫無疑問,數(shù)據(jù)挖掘就是很好的選擇之一。數(shù)據(jù)挖掘到底是什么?數(shù)據(jù)挖掘作為一個(gè)過程,是否有章可循、有規(guī)可依?企業(yè)應(yīng)該在哪些領(lǐng)域應(yīng)用數(shù)據(jù)挖掘技術(shù)?目前,數(shù)據(jù)挖掘的技術(shù)咨詢、系統(tǒng)集成、工具軟件的狀況究竟怎樣?新年伊始,我們和中國人民大學(xué)數(shù)據(jù)挖掘中心一起精心組織推出這個(gè)專題,希望通過這個(gè)專題向讀者傳遞實(shí)用的信息

  作者簡介

  趙民德(Min-Te Chao) 教授,美國加州大學(xué)柏克萊分校統(tǒng)計(jì)博士(1967),數(shù)據(jù)挖掘國際刊物JDSA執(zhí)行總編。主要研究方向:抽樣論、自動(dòng)重抽法、衰變量據(jù)的分析。

  Data Mining(數(shù)據(jù)挖掘,下文簡稱DM),光是看它的數(shù)據(jù)量,絕對是一頭大象。各家各派對它的看法不同,因?yàn)楦魅嗣降氖亲约嚎梢悦降哪且徊糠。我雖然知道,同時(shí)也極力呼吁DM應(yīng)以實(shí)用為主,但基本上還是學(xué)院派。通常,學(xué)院派的人認(rèn)為,如果一件事一定可以做成,那么也就不免無趣。
  

數(shù)據(jù)挖掘的緣起

  什么叫Data Mining?關(guān)于定義,各人的說法不一;旧衔覀兛梢杂靡粋(gè)例子講清楚:先給你一個(gè)大的數(shù)據(jù)集──假設(shè)你可以從中讀取數(shù)據(jù),下面的問題是:從這里你可以得到什么?從某種角度來看,這是百分之百的統(tǒng)計(jì)分析工作,只是數(shù)據(jù)集太多的緣故罷了。但我們并不想忘記這些數(shù)據(jù)集是做 IT 的人這么多年來逐漸制造出來的,更何況他們對于如何有效而快速地存儲、選取和管理數(shù)據(jù),確是有一套真功夫。在 IT 的骨架上把統(tǒng)計(jì)的精髓放進(jìn)去,這的確是對現(xiàn)在這個(gè)信息時(shí)代的大挑戰(zhàn)。

  時(shí)代變了,現(xiàn)在的數(shù)據(jù)來得既多又快還便宜,多到?jīng)]有人有時(shí)間去看的程度。這就如同我們的醫(yī)療體系。早先的醫(yī)生還要望聞問切,在少量的數(shù)據(jù)中,設(shè)法提取、組合出最好的治療方案,F(xiàn)在則是一個(gè)名醫(yī),一上午要在門診醫(yī)治一百五十個(gè)病人以上。他只能憑某種算法、也就是經(jīng)驗(yàn)來看病:問一兩個(gè)問題,聽一兩個(gè)問題,然后開藥。這種對數(shù)據(jù)的不同的處理方式是數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)分析的主要區(qū)別。

  說實(shí)在的,我們已經(jīng)在某些方面具有相當(dāng)?shù)男畔⒒潭攘。你去任何一家醫(yī)院看病,哪一個(gè)窗口沒放著一臺PC?醫(yī)生暗示你可以離開的時(shí)候,值班的護(hù)士已經(jīng)在她的 PC 上鍵入了許多你的資料。于是你直接可以去劃價(jià)、取藥,連下一次的預(yù)約也有人安排好了。前天,我去醫(yī)院借了一張X光片,一位五十多歲的老職員用“一陽指”在鍵盤上一步一個(gè)“腳印”地敲了不知多久,才輸入了該有的個(gè)人信息,然后大家就都松一口似地讓計(jì)算機(jī)去跑,最后當(dāng)然是拿到X光片。這時(shí)回顧身后,已排了一條長龍。

  這種情況,也暗示著目前信息社會(huì)的一類尷尬問題:很多事情都還配不上如此快的計(jì)算機(jī)—老職員的手指速度固然配不上,我們做統(tǒng)計(jì)的人和現(xiàn)有的某些統(tǒng)計(jì)方法也配不上,甚至于很多統(tǒng)計(jì)觀念恐怕也都配不上。于是 IT 的人就跳進(jìn)來做了個(gè)項(xiàng)目:既然有了花大錢做出來的數(shù)據(jù)庫,而且這么多年下來數(shù)據(jù)堆得滿坑滿谷,好歹要告訴出錢的老板“這有什么用”。于是,DM便應(yīng)運(yùn)而生了。

  
如何看待數(shù)據(jù)挖掘

  數(shù)據(jù)挖掘是先有了數(shù)據(jù)才興起的行業(yè)。我不想說“學(xué)問”,因?yàn)榈浆F(xiàn)在為止,我好像都看不到大學(xué)問。數(shù)據(jù)挖掘能幫我做什么?不同的人有不同的看法,比較樂觀的是Berry and Linoff (1997) 的說法:分析報(bào)告給你后見之明 (hindsight);統(tǒng)計(jì)分析給你先機(jī) (foresight);數(shù)據(jù)挖掘給你洞察力 (insight)。

  這話說得太強(qiáng),我不是那么地相信。因?yàn)檫@三者都是在既有的數(shù)據(jù)上做分析,在概念上應(yīng)該并無本質(zhì)區(qū)別,差別只是手上的數(shù)據(jù)集的大小和性質(zhì),因此,由方法的不同才有定義的不同。

  較負(fù)面的理解來自Friedman (1997),他說:“Data mining is a commercial enterprise that seeks to mine the miners。(數(shù)據(jù)挖掘就是商業(yè)企業(yè)竭力去尋找挖掘者的過程。)”這句話有多少真實(shí)的成分,我并不清楚,但是酸味還是有一點(diǎn)的。在雅虎上鍵入“Data Mining”,立刻便找到一百五十多個(gè)網(wǎng)址。如果用Google 搜尋,它在0.34秒內(nèi)就找到1,260,000項(xiàng)查詢結(jié)果。這是在方法論都還沒有成熟之前便已有大量商品充斥的情形。看起來真是商機(jī)無限。在另一方面,我卻在文獻(xiàn)上讀到:“…… while I appreciate the importance of data mining, in practice the profit it brings has turned out to be surprisingly limited in many key businesses.(雖然我認(rèn)可數(shù)據(jù)挖掘重要性,事實(shí)上,在很多關(guān)鍵的業(yè)務(wù)中,它所帶來的利潤已證明出奇有限。” (Kann 2000)

  多半的數(shù)據(jù)庫在建造時(shí)都另有目的,并不是設(shè)計(jì)來給大家挖掘的。上帝給我們大海,也許只是想給我們鹽,F(xiàn)在鹽的利潤有限,大家就拼命去提煉鈾,結(jié)果自然就不會(huì)十分理想。

  我認(rèn)為,比較中肯的是 Hand et al. (2000) 的說法:“Data mining is the process of seeking interesting or valuable information in large data bases.(數(shù)據(jù)挖掘是一種在大型數(shù)據(jù)庫中尋找你感興趣或是有價(jià)值信息的過程。)”

  
挖掘需要“用心看”

  Demming (1943) 曾說過:“搜集數(shù)據(jù)的目的是為了行動(dòng)!边@是在數(shù)據(jù)的搜集并不便宜的時(shí)候所說的話。現(xiàn)在要反過來看:已經(jīng)有了一大堆數(shù)據(jù),當(dāng)初只是為了搜集而搜集──因?yàn)榉凑毁F,而且說不定某一天會(huì)有用─現(xiàn)在我們應(yīng)該問,這些數(shù)據(jù)可以提供怎樣的信息,能讓數(shù)據(jù)的所有者采取何種有效的行動(dòng)?我的意思是我們需要用心地去看這些數(shù)據(jù)!坝眯目础庇袃蓚(gè)角度:整體和局部。

  從整體看: 模型

  從整體的角度來看一個(gè)數(shù)據(jù)集,是靠統(tǒng)計(jì)學(xué)里面的抽樣方法就可以發(fā)揮得不錯(cuò)的。抽樣的要點(diǎn)是細(xì)化──用一組較小的、容易處理的精選的數(shù)據(jù)來反映整體。在這里我們可以做一大堆傳統(tǒng)的建模工作,但這里面最主要的觀念是抽樣。

  例如 SAS 的Enterprise Miner軟件中所構(gòu)建出來的“表格”,就是全部數(shù)據(jù)的抽樣所得。從抽樣的觀點(diǎn)來看,數(shù)據(jù)量再多也不是問題──它反而可使抽樣理論更加簡單。在數(shù)據(jù)庫上抽樣,成本低,且沒有我們最頭痛的non-response(無反應(yīng))問題。這一部分,可以說是所有我們想做的理論和方法都十分成熟, 只要找一群還不錯(cuò)的人,將這些已知的事物組合包裝就好。在表格上做傳統(tǒng)分析,最后的結(jié)果當(dāng)然是一個(gè)可以用來描繪所有數(shù)據(jù)之間的關(guān)系的模型。

  從局部看: 模式發(fā)現(xiàn)

  從局部的角度來看數(shù)據(jù)挖掘,到目前為止,主要的目的是模式發(fā)現(xiàn)。這和我們常聽到的模式識別頗有不同。用雷達(dá)找飛機(jī)的工作,算是后者──我們知道飛機(jī)是我們要找的對象。但是在數(shù)據(jù)挖掘中,我們在通常情況下并不知道我們要找的東西是什么。在技術(shù)上,這也不能通過抽樣的方法來做。模式是數(shù)據(jù)的局部結(jié)構(gòu),在這一部分,數(shù)據(jù)挖掘強(qiáng)調(diào)的方法是算法。數(shù)據(jù)一多,光憑人力是不能完全解決問題的,我們只有靠明確的指令讓計(jì)算機(jī)一個(gè)一個(gè)幫我們找。那么在這里,我們就完全用不上統(tǒng)計(jì)方法嗎?也不盡然。在提取訓(xùn)練樣本(training sample)的時(shí)候,我們是可以把實(shí)驗(yàn)設(shè)計(jì)的想法放進(jìn)去的。

中國計(jì)算機(jī)用戶-賽迪網(wǎng)


相關(guān)鏈接:
CRM(客戶關(guān)系管理)的發(fā)展現(xiàn)狀以及展望 2003-01-24
關(guān)于客戶關(guān)系管理的十個(gè)觀察與議論 2003-01-22
用CRM眼光來看待"市場" 2003-01-21
面對CRM 企業(yè)決策層該如何選擇? 2003-01-21
用CRM眼光來看待服務(wù) 2003-01-20

分類信息:     文摘   技術(shù)_CRM_技術(shù)文摘