從統(tǒng)計學(xué)角度看質(zhì)檢作業(yè)的幾大問題 (上)

許乃威 2007/10/16

  質(zhì)檢一直是我認(rèn)為最沒用、卻是最重要的一個管理手段。

  我?guī)状紊瞎_課,都會點名問:請問在座有沒有做質(zhì)檢的?然后每次都有不少學(xué)員舉手,我就會說:你們的崗位,是最沒用的,完全沒有數(shù)學(xué)根據(jù)的,不如不要做算了,然后這些舉手的學(xué)員就會很生氣,問我說:都交了這么多學(xué)費(fèi)來,老師在胡說八道什么?

  我當(dāng)然是在講反話,但以一個學(xué)習(xí)統(tǒng)計學(xué)多年的老家伙來說,現(xiàn)行質(zhì)檢作業(yè)的方式,真的跟數(shù)學(xué)沒有關(guān)系。

  我常常開玩笑說(雖然有時是講的很認(rèn)真嚴(yán)肅的),質(zhì)檢就是找一群人,躲在一個屋子里,偷偷摸摸聽別人講電話,然后光明正大的說:你這里講錯了,那里講不好了。

  這種方式,在管理學(xué)上稱為恐嚇法,也就是讓座席員知道,你盡量接電話,接越多越好,但只要你服務(wù)不到位,得罪了我們客戶,我們有人偷聽你電話的,隨時準(zhǔn)備扣你工資!

  恐嚇法是一種心理學(xué)的管理方式,在數(shù)學(xué)上是不成立的。

  大家有注意到我講的這句話嗎?質(zhì)檢打分?jǐn)?shù)來評斷座席員好壞的這種方式,在數(shù)學(xué)上,是不成立的!

  大家以為自己質(zhì)檢的作業(yè),是符合科學(xué)的,是公平的,但統(tǒng)計學(xué)很輕易可以證明,很多公司的質(zhì)檢作業(yè),基本上跟擲骰子是沒有兩樣的。

  講到這里,我應(yīng)該是引起眾怒了,這么多人花了這么多力氣的心血,我盡然說這跟擲骰子沒有兩樣,浪費(fèi)了大家的心血不說,更嚴(yán)重的問題是,質(zhì)檢分?jǐn)?shù)高度跟工資掛勾,如果這些質(zhì)檢分?jǐn)?shù)是不科學(xué)的,那啟不是說決定座席員工資的方法,也是用骰子擲的?

  我曾經(jīng)在前幾期文章講過一個例子,一個呼叫中心在全國各地有2千多個座席員,深圳區(qū)一個很認(rèn)真的小姑娘被客戶一直辱罵,最后她以為客戶掛線,電話也不再錄音了,就講了句[變態(tài)],一天3百通電話,一個月6、7千通電話,總部質(zhì)檢就只有抽4通,偏偏就抽到這一通,當(dāng)月分?jǐn)?shù)是全國2千多個座席代表的倒數(shù)前十名,把深圳區(qū)分?jǐn)?shù)整個拖垮,對自己期許過高的她還搞的尋死尋活的。

  同樣的戲劇情節(jié)在同一個月,發(fā)生在同一個呼叫中心,也就在深圳區(qū)的另外一個座席代表,有嚴(yán)重的服務(wù)態(tài)度問題,會收客戶線,就是要客戶掛機(jī),深圳主管都警告這座席員說要炒掉她了,結(jié)果同月份總部質(zhì)檢,也是抽4通,這座席員知道總部質(zhì)檢的漏洞,總部沒有抽到她任何一通要客戶掛機(jī)的電話,結(jié)果被打深圳區(qū)第三名,這姑娘跟主管說,現(xiàn)在不是要炒掉我的問題,而是要加多少工資的問題,因為我是深圳之光!

  每個月有幾千通的電話,只有抽幾通電話,可以看到事情的真相嗎?

  從統(tǒng)計學(xué)的角度來看,質(zhì)檢作業(yè)有6大問題完全不符合統(tǒng)計學(xué)的要求,這些問題的任何一點都足以讓質(zhì)檢分?jǐn)?shù)完全不具有數(shù)學(xué)意義,只是對座席員進(jìn)行恐嚇法管理而已。

抽樣數(shù)不足

  這是筆者說的質(zhì)檢作業(yè)的第一個大問題,當(dāng)你抽樣數(shù)不足,也就是樣本不夠,卻要說這個座席員[是屬于這種特質(zhì)]時,這跟擲骰子的情況只有稍微好一點而已。

  到底要多少樣本數(shù)才對事情的真相有足夠的信心呢?

  如果是平均值的樣本數(shù)計算,所需最少樣本數(shù)=概率度2 x 標(biāo)準(zhǔn)差2 / 極限誤差2

  大家看到這公式肯定是昏倒的,換成一個容易懂的方式說。

  假設(shè)一個座席員過去曾經(jīng)被抽檢過10通電話,分?jǐn)?shù)分別是100、95、94、90、85、80、80、75、75、70,這10通電話的平均值是84.4分,標(biāo)準(zhǔn)差是10分(如果不懂標(biāo)準(zhǔn)差的定義,請參考筆者上一期的文章)。

  如果我們問說,在95%的信心水平下,這座席員質(zhì)檢分?jǐn)?shù)的平均值大約會落在那個范圍?

  這是一個很重要的問題,因為你給這座席員打出了84.4的平均分,但這分?jǐn)?shù)卻是一個抽樣的結(jié)果,只要是抽樣,一定有誤差,你必須要估計誤差,也就是在古代,如果你是大宋提刑官,打算要?dú)⑷,你必須估計你殺錯人的機(jī)會有多大,而這公式如下:

  平均誤差=標(biāo)準(zhǔn)差 / √抽樣數(shù)

  極限誤差=概率度 x平均誤差

  大家如果沒有看明白這公式,完全沒有關(guān)系,只要知道結(jié)論就好,也就是利用上面這兩個公式,平均誤差是 10 / √10 ,也就是3.16

  95%的信心水平,概率度是1.96,極限誤差也就是6.2

  我們得到了一個重要結(jié)論:

  換句話說,如果你說,你有95%的信心判斷這座席員的分?jǐn)?shù),那這分?jǐn)?shù)應(yīng)該是落在78到90之間(84.4 ─ 6.2和 84.4 + 6.2)。

  大家看到這分?jǐn)?shù)范圍有多寬了嗎?

  一個座席員被打分?jǐn)?shù)的標(biāo)準(zhǔn)差在10分左右,是很常見的,只要最高分跟最低分的差距高于20分,就有可能標(biāo)準(zhǔn)差會大于10分,如果你的質(zhì)檢員打分的錄音抽樣數(shù)目只有10通,她打出了84分,那這座席員真正的分?jǐn)?shù),很有可能在78到90分之間!

  換句話說,你說這座席員的84分,高于另外一個座席員的80分,你要獎勵這座席員,在統(tǒng)計上來說,這很可能是抽樣誤差造成的,根本不是事實!

  上面這兩個公式轉(zhuǎn)換一下,就會得到最少樣本數(shù)的公式,我們可以計算一下,如果這個座席員的分?jǐn)?shù)標(biāo)準(zhǔn)差還是10分,如果想要在95%的信心水平下,有把握的講出上下分?jǐn)?shù)不多于3分的話(也就是81分和87分之間,也就是84.4 ─ 3和 84.4 + 3),那應(yīng)該要抽多少錄音檔呢?

  所需最少樣本數(shù)=概率度2 x 標(biāo)準(zhǔn)差2 / 極限誤差2,把數(shù)據(jù)帶入這個公式,所需最少樣本數(shù)=1.962 x 102 / 32,也就是43個。

  大家說這么少啊,一個座席員一個月只要抽43通,等于一個禮拜抽10通,這應(yīng)該不是太難的事情。但大家要注意的是,最少樣本數(shù)是跟標(biāo)準(zhǔn)差的平方成正比的,我們剛剛只是用10分來算而已,但再好的座席員都很難達(dá)到標(biāo)準(zhǔn)差為10分,為何?

  因為這里講的標(biāo)準(zhǔn)差是指這個座席員的標(biāo)準(zhǔn)差,而不是這個月抽聽錄音檔評分出來的標(biāo)準(zhǔn)差,只是因為我們不知道這座席員真正的標(biāo)準(zhǔn)差,只好權(quán)宜行事,用這次抽樣錄音分?jǐn)?shù)的標(biāo)準(zhǔn)差來計算。

  真正的作法,應(yīng)該把你以前曾經(jīng)替這座席員打過的分?jǐn)?shù),所有給這座席員打分的歷史都拿出來,計算所有打分紀(jì)錄的標(biāo)準(zhǔn)差,也就是不能只看這個月的。

  用這算法,一個座席員的標(biāo)準(zhǔn)差就很容易擴(kuò)大了。如果擴(kuò)大到了15分,帶入公式,所需樣本數(shù)就變成了96通,也就是一禮拜要抽24通。

  萬一這座席員的標(biāo)準(zhǔn)差是20分,就需要抽取 171通,一禮拜要抽42通,這基本上是不可能的!

  大家應(yīng)該很難做到高樣本數(shù)的要求,因為要做到高樣本數(shù),成本是受不了的,那應(yīng)該要怎么辦呢?

  其實統(tǒng)計學(xué)要求高樣本數(shù),大家剛剛應(yīng)該注意到了,是對于座席員標(biāo)準(zhǔn)差大的,也就是座席員質(zhì)檢分?jǐn)?shù)忽高忽低、上上下下的,如果標(biāo)準(zhǔn)差小,只需要少數(shù)的抽樣就能看到事情的真相。

  這個統(tǒng)計學(xué)上的特性,讓我們對于質(zhì)檢作業(yè)有了一個新的作法,就是:不同標(biāo)準(zhǔn)差的座席員應(yīng)該要有不同的抽檢率。

  呼叫中心把座席員按照質(zhì)檢分?jǐn)?shù)的標(biāo)準(zhǔn)差來分類,甚至更簡單,按照座席員質(zhì)檢分?jǐn)?shù)的好壞來分類(通常分?jǐn)?shù)高,標(biāo)準(zhǔn)差也。煌诸惖某闄z率不同,這樣可以讓質(zhì)檢員的力氣,花在真正需要花的地方,也就是分?jǐn)?shù)高的,不需要抽聽太多電話,分?jǐn)?shù)低的,需要花更多力氣來確認(rèn)到底這座席員表現(xiàn)的是好還是壞,這種分類抽檢的方式,是完全符合統(tǒng)計學(xué)的。

  很多國外的專家們最近一直大力呼吁,與其測量平均分?jǐn)?shù),還不如測量座席員的一次解決率和致命錯誤率,因為這兩個指針需要的樣本數(shù)比較少,這兩個指標(biāo)才具有數(shù)學(xué)上的意義。

  具有數(shù)學(xué)上的意義,這是很重要的,有數(shù)學(xué)上的意義,作為主管的你,罵起人來才會比較大聲,不是嗎?

  不然你看到一個座席員的質(zhì)檢分是79分,你拿來跟另外一位的83分比,你想起來許乃威講過的,這兩個分?jǐn)?shù)在數(shù)學(xué)上的意義,可能跟拿骰子隨便亂擲結(jié)果差不多,你恐怕就罵不下去了。

  困惑是阻止有效管理的重大障礙,一個在數(shù)學(xué)上不成立的績效測量,是造成困惑最直接的原因。

  打分?jǐn)?shù)主要分成兩種方式,一種是平均數(shù)打分,也就是有一個范圍要你打分,例如從0到100分(正向),或是從0扣分扣到40分(負(fù)向)。

  另外一種打分?jǐn)?shù)是叫做合格率打分,也就是你只判斷座席員這通電話的服務(wù)是否合格,而合格與否只有兩種可能,過關(guān)或不過關(guān)。

  是否統(tǒng)計學(xué)就像是這些國外專家講的,少量的抽樣就足以判斷座席員的合格率(例如100通電話其中有多少通合格)?

  很不幸的,筆者也一度以為是,結(jié)果發(fā)現(xiàn)完全不是。

  合格率的最少樣本數(shù)=(全部錄音檔數(shù)量x概率度2 x 合格率x(1-合格率) )/ (全部錄音檔數(shù)量x極限誤差2 +概率度2 x 合格率x(1-合格率) )

  套用這個公式,假設(shè)全部錄音檔數(shù)量是2千通,如果合格率是95%,你希望95%的信心水平下,合格率出現(xiàn)在92%到98%的范圍(上下3%),你至少要抽取184通電話的樣本才能確認(rèn)!

  如果合格率降到90%,你就需要322通電話才能確認(rèn)。

  座席員的合格率很容易低于90%,如果你有測量致命錯誤率或一次解決率,你就會發(fā)覺這數(shù)據(jù)太容易低過90%,一旦低過90%,你不禁就要問自己:

  我有足夠的樣本數(shù)來支持我的結(jié)論嗎?

  我們從上面可以看到,如果你測量的是平均值,也就是你測量0到100分這種分?jǐn)?shù)的,最少樣本數(shù)是跟座席員的標(biāo)準(zhǔn)差有很大關(guān)連,座席員標(biāo)準(zhǔn)差越高你就需要越多的樣本數(shù),如果你是測量合格率的話,最少樣本數(shù)是跟合格率高度相關(guān)的,也就是合格率越低,你需要越多的樣本數(shù)。

  其實這跟直覺是符合的,一個標(biāo)準(zhǔn)差越大的座席員,通常合格率就越低。

  談到平均數(shù)和合格率的公式,大家應(yīng)該還有注意到一個重點:就是極限誤差的選擇影響很大,如果你可以接受上下5分(平均分?jǐn)?shù))或上下5%(合格率)的誤差,那需要的最小樣本數(shù)就少很多了,拿上面的例子來說,這個座席員的分?jǐn)?shù)標(biāo)準(zhǔn)差是15分,平均分?jǐn)?shù)是85分,在95%的信心水平下,分?jǐn)?shù)介于上下3分(82分和88分之間),需要抽96通錄音文件,但如果容許分?jǐn)?shù)介于上下5分(80分和90分之間),那就只要抽35通就可以確認(rèn)了,這是一個巨大的差別。

  對合格率來說,全部錄音檔數(shù)量是2千通,如果合格率是90%,95%的信心水平下,合格率出現(xiàn)在87%到93%的范圍(上下3%),至少要抽取322通電話,但如果放寬到85%到95%的范圍(上下5%),這時就只要129通電話就能確認(rèn)。

  換句話說,到底要抽取多少通錄音檔才在數(shù)學(xué)上有意義,還是要看你希望要多精確,也就是你的績效評核系統(tǒng)要求有多么的精確。

  如果一個座席員的分?jǐn)?shù)是85分,另外一位是82分,兩人的工資因此就會有差距,那你就必須要采用3分以上的誤差來估算才行,如果你采用的是5分以上的估算,那這兩位座席員的差距是3分,完全在這5分的誤差范圍之內(nèi),他們的差距,太有可能是抽樣導(dǎo)致的誤差,而不是他們兩位真實的情況了。

  筆者對不同的標(biāo)準(zhǔn)差,不同的合格率,還有不同的極限誤差,做了兩張表,可以讓讀者直接查表,不必套用上面這么復(fù)雜的公式,可以直接找出自己到底需要多少樣本數(shù),有興趣的讀者歡迎寫郵件來索取。

  如果你的樣本數(shù)無論如何沒有辦法這么多,那是不是說質(zhì)檢分?jǐn)?shù)的測量就沒有意義了?

  這到也不是,在統(tǒng)計學(xué)上有另外一個現(xiàn)象對我們有幫助,就是如果這個月一個座席員分?jǐn)?shù)是79,另外一位是83,你千萬不要馬上下結(jié)論說,這個79分的座席員比較差,因為很可能是抽樣誤差導(dǎo)致的,但如果,大家聽到[如果]這兩個字了,這個座席員連續(xù)三個月都比另外一個座席員的分?jǐn)?shù)低4分以上,這在統(tǒng)計學(xué)上就有了相當(dāng)?shù)男判恼f,79那個座席員的質(zhì)檢分?jǐn)?shù)是低于83的。

  所以有不少的呼叫中心對于這種0到100分的質(zhì)檢分?jǐn)?shù)(負(fù)向打分也是一樣),不是每個月都馬上進(jìn)行考核罰錢的,而是每一季,也就是會看三個月的變化情況。

  請注意,筆者講的是[變化情況],不是平均值,如果你把座席員三個月的質(zhì)檢分?jǐn)?shù)拿來做平均,然后用這個平均值進(jìn)行比較,仍舊在數(shù)學(xué)上是不成立的!

抽樣偏見

  我前面談到的第一個問題是抽樣數(shù)不足,造成質(zhì)檢分?jǐn)?shù)在數(shù)學(xué)上是不成立的,第二個問題是統(tǒng)計上常說的[抽樣偏見]。

  上面我講到那個有2千多個座席員的呼叫中心,有一個小姑娘抓到質(zhì)檢的漏洞,讓她收客戶線的電話,一通都沒有被抓到,她利用的方法就是抽樣偏見。

  質(zhì)檢人員一般進(jìn)行錄音檔抽樣時,不會抽一分鐘以下的電話,因為一分鐘以下的電話,通常都是一般咨詢電話,沒有什么內(nèi)容可以評分。

  這個小姑娘就是抓住這個特性,只要她打算要收客戶線,她就會在一接到電話就做,例如她會跟客戶說,對不起,現(xiàn)在系統(tǒng)當(dāng)機(jī),無法服務(wù),或是說,你的聲音太小,請你掛機(jī)重打。

  這通電話的通話時長肯定低于一分鐘,自然沒有質(zhì)檢人員會抓到她。

  質(zhì)檢人員利用抽樣的偏見,也能做很多文章,我在公開課上,很喜歡跟學(xué)員討論這個話題:

  質(zhì)檢員要怎樣利用抽樣偏見來整她不喜歡的座席員?

  也就是說,只要抽錄音檔的時候做點手腳,分?jǐn)?shù)還沒有打,這個座席員的分?jǐn)?shù)很自然就會比較低。

  大家都知道答案嗎?

  這是質(zhì)檢員都知道的手法,就是抽比較長的電話,或是抽忙時或忙日的電話,或是抽抱怨的電話,這種電話在統(tǒng)計上,分?jǐn)?shù)都傾向比較低。

  要克服這問題,就必須要求質(zhì)檢員抽樣時,要[均衡]。

  怎么測量『均衡』?利用錄音抽樣均衡度測量表,也稱為MITLA檢查法,進(jìn)行均衡性的檢查,確保抽樣的均衡性。

  MITLA這五個英文字分別代表:   簡單講,質(zhì)檢員應(yīng)該要把自己對某個座席員評分的錄音檔,按照上面的T、L、A,就是長度、錄音時間點、業(yè)務(wù)內(nèi)容,畫個頻次表(筆者在上一期內(nèi)容有介紹頻次表的畫法),跟其它座席員進(jìn)行比較,看有沒有重大差異,如果有,對這座席員的抽樣,就是[不均衡]。

  每個座席員所有被抽檢錄音檔的MITLA檢查表,更是質(zhì)檢主管應(yīng)該要親自檢查的。

  畢竟抽樣上只要有偏見,不管是質(zhì)檢員有意,或是系統(tǒng)抽出來就自然出現(xiàn)了偏見,都會對座席員不利,造成嚴(yán)重的偏差。

質(zhì)檢員打分標(biāo)準(zhǔn)不一

  我常常會講這個故事,筆者念大學(xué)的時候,跑去修一門課,叫做[嬰兒與母親]。當(dāng)時筆者只有19歲,一個小男生,跑去學(xué)怎么給寶寶洗澡,不是我在當(dāng)時特別喜歡寶寶,而是那門課的老師,是一個慈祥的媽媽,我一堂課都沒去上,還是拿到80分,因為她給的最低分就是80分。

  我當(dāng)時念物理系,我們必須要數(shù)學(xué)系去修微積分,數(shù)學(xué)系里面都是被我們稱為[大刀]的老師,我們就碰上了楊大刀,第一天上課,他就說:同學(xué)們,我知道大家都會很認(rèn)真,但30%的同學(xué)還是會被我當(dāng)?shù)簟?br />
  我那門課就剛好拿了60分。

  你會寧愿遇到慈祥的媽媽,還是楊大刀?

  如果質(zhì)檢員的評分標(biāo)準(zhǔn)不一樣,一個松,一個緊,兩個質(zhì)檢員的分?jǐn)?shù)是沒有辦法比較的。

  從統(tǒng)計學(xué)的角度,如何檢查兩個質(zhì)檢員的評分行為是否一致?

  利用筆者之前講過的頻次表,就可以很輕易的畫出質(zhì)檢員的落點分布圖,比較兩個質(zhì)檢員的落點分布圖,就很容易看出來兩個人的行為差異。


  上圖是兩個質(zhì)檢員在今年9月份打的質(zhì)檢分?jǐn)?shù),每個質(zhì)檢員分別對80人打了分?jǐn)?shù),然后把這些分?jǐn)?shù)做成頻次表(如果不知道怎么做頻次表,可以看筆者上一期的文章有詳細(xì)介紹)。
底下是這兩位質(zhì)檢員打的分?jǐn)?shù)統(tǒng)計:
第一位質(zhì)檢員
第二位質(zhì)檢員

  把這兩列人數(shù)放在一起畫圖,就看到上面的頻次表。

  可以看到第一個質(zhì)檢員(藍(lán)色)整條線比較平滑,分?jǐn)?shù)越高打的人越多,而第二個質(zhì)檢員(紅色)顯然行為跟第一位質(zhì)檢員很不一致,第二位在95分評出的人比90分評出的人少了不少,80分評出的人比75分評出的人又少了不少,也就是第二位質(zhì)檢員跟第一位相比,跑出來了兩個低谷。

  如果你把不同質(zhì)檢員的落點分布圖畫出來,發(fā)現(xiàn)類似上面這張頻次表出現(xiàn)了不一致的行為,只有兩種解釋:
不然就是這兩組被測量的座席員的確有本質(zhì)上很大的差異(一般可能性較低),再不然就是質(zhì)檢員測量在用的尺歪了。

  不管是哪一種可能,對管理者都是很有價值的管理線索。

  不僅要比較質(zhì)檢員和質(zhì)檢員之間的落點分布圖,藉此來看出質(zhì)檢員打分的公平性與否,同時也要看同一個質(zhì)檢員每個月不同的落點分布圖,藉此來檢查質(zhì)檢員評分行為是否隨著時間而改變了。

質(zhì)檢員打分出現(xiàn)不作為的情況

  什么叫做不作為?

  這在問卷統(tǒng)計上,稱為[不回答率[,也就是你發(fā)出了問卷,結(jié)果客戶有的問題回答,有的問題卻沒有回答。

  如果客戶整個問卷都不回答,事情還好辦些,最多就是不計算這個問卷,當(dāng)它不存在,但有的問題回答了,有的不回答,這對統(tǒng)計結(jié)果會造成很嚴(yán)重的偏差。

  質(zhì)檢員也會出現(xiàn)這種[不回答率],而且很頻繁,也就是說,質(zhì)檢員對于某些錄音檔會有聽沒有到,聽到了,打分了,但都是打滿分,或是一分都沒有扣。

  質(zhì)檢員為了避免引起座席員反彈,很容易會產(chǎn)生這種[不作為]的行為,因為只要她扣了座席員的分?jǐn)?shù),這通錄音文件很可能就需要經(jīng)過復(fù)核,座席員會抗議,這通錄音文件的分?jǐn)?shù)變成了顯著的目標(biāo)。

  要避免這通錄音文件變成顯著的目標(biāo),最簡單的方法就是,讓它滿分過關(guān),這樣大家都開心。

  但學(xué)過問卷調(diào)查的人都知道,這種[不回答率]有時比抽樣誤差造成結(jié)果的偏差,可能還要嚴(yán)重。

  我們要怎么用統(tǒng)計學(xué)的辦法偵測出來質(zhì)檢員是不是有真的在做她的工作,每通錄音都有真的在打分呢?

  關(guān)于作者:許乃威 呼叫中心資深顧問 email: will_hsu@126.com

CTI論壇編輯



相關(guān)鏈接:
蕭昆龍:軟件服務(wù)化發(fā)展趨勢 以Salesforce.com為例 2008-04-18
蕭昆龍:呼叫中心人力優(yōu)化管理Verint Impact 360 2008-04-18
宏盛科技蕭昆龍:客戶服務(wù)的最新發(fā)展趨勢 2008-04-15
戴明控制圖中的6、9、12法則 2008-01-15
關(guān)鍵KPI指標(biāo)的定義與參考標(biāo)竿數(shù)字(下) 2008-01-10

分類信息:     運(yùn)營管理專欄_文摘