醫(yī)療大數(shù)據(jù)專家：淺談醫(yī)學大數(shù)據(jù)

2015-03-26 10:06:29 作者：來源：36氪評論：0 　點擊：

　　大數(shù)據(jù)特性對統(tǒng)計應用上的際遇和沖擊

　　大數(shù)據(jù)的獨特性對傳統(tǒng)的統(tǒng)計方法發(fā)出了挑戰(zhàn)，刺激著新的，適用于大數(shù)據(jù)分析的統(tǒng)計方法的發(fā)展。本文提到的一些際遇和問題，一部分是作者自己的觀點，一部分摘自其他文章（（Fan, Han, & Liu, 2014）（Wang & Wang, 2014）。

　　相較于統(tǒng)計文章的專業(yè)寫作手法，作者試圖用更淺顯易懂的說法來介紹這些問題，讓一般的讀者對此也能有一定的了解并對此產(chǎn)生興趣。傳統(tǒng)數(shù)據(jù)一般來說是樣本量遠遠大于感興趣的因素，比如一數(shù)據(jù)有200條記錄關于個人是否有心血管病，可能相關因素為性別，年齡，血壓。這兒只有4個因素，但樣本量為 200（200>>4）。

　　而大數(shù)據(jù)則擁有海量的樣本及相當多的因素。還是用心血管的例子，現(xiàn)在比如我們有了幾萬條記錄的樣本量，但同時也擁有了上百個的因素，各種以前沒法收集的因素都收集了，像運動與否，運動量如何，運動類型，飲食習慣，飲食內(nèi)容，喝酒與否，喝什么酒，喝酒習慣次數(shù)等等。這使統(tǒng)計中對數(shù)據(jù)的研究應用得到了新的際遇同時也面臨了新的挑戰(zhàn)。

　　數(shù)據(jù)異質(zhì)性（heterogeneity）

　　數(shù)據(jù)異質(zhì)性，可以簡單理解成一個大樣本數(shù)據(jù)里有很多小樣本，每個小樣本有著不同的數(shù)據(jù)特征，比如小樣本的平均值有高有低，離散程度有密有疏，就好象海洋中有著不同溫度，不同密度的各種洋流一樣。我們不能簡單的只在大樣本的層面進行統(tǒng)計分析，這樣得出的結(jié)果如果被用于對小樣本或樣本中的個體的估計或預測時就會出現(xiàn)偏差，因為每個小樣本可能有著一些它自己獨特的特征。

　　在數(shù)據(jù)樣本小的時候，里面的小樣本相應的就更小。這種情況下小樣本里的數(shù)據(jù)記錄可能只有一，兩個，它們只能被當作異常值處理，無法分析。而在大數(shù)據(jù)里，這種具有獨特特征的數(shù)據(jù)記錄收集出現(xiàn)多了，就擁有了被統(tǒng)計分析的條件，從而使我們更好地探究特定因素的關聯(lián)性，理解這些數(shù)據(jù)異質(zhì)性。比如有些只在特定人群里發(fā)生的極其罕見的疾病，大數(shù)據(jù)使我們得以研究發(fā)病原因，發(fā)病風險因素；理解為什么有些治療方法對某些人群有利，而同樣的方法對另一人群卻有害，等等。

　　同樣，由于海量樣本和巨多的因素存在于大數(shù)據(jù)里，信息的復雜度也會增加不少，受復雜度的影響，可能導致統(tǒng)計上的過度擬合（overfitting）。過度擬合就是指我們建立了一個復雜的統(tǒng)計模型，它能很好的描述現(xiàn)有數(shù)據(jù)的情況，但當我們想把這模型應用到預測新數(shù)據(jù)時，它的表現(xiàn)卻相當差。比如圖九所示：

　　圖九

　　圖九左邊上的曲線是我們針對藍點（當作現(xiàn)有數(shù)據(jù)）做出的模型，基本上能很好的描述藍點的分布及曲線和藍點的吻合度較高。用這曲線去描述黃點（當作新數(shù)據(jù)），吻合度也還不錯。圖九右邊的曲線則完全通過了每一藍點，吻合度極高，完全描述了藍點的復雜特性。然而，它在描述黃點時，吻合度就差多了，偏差就比左邊的曲線大不少。簡單來說，數(shù)據(jù)越復雜，需要考慮的因素越多，建立普遍有效的統(tǒng)計模型的難度就越大。

　　偏差識別（Bias accumulation）

　　分析數(shù)據(jù)時，我們需要估計或測試很多參數(shù)用以建立可靠的統(tǒng)計數(shù)據(jù)模型。期間不可避免會產(chǎn)生偏差，這些估計中產(chǎn)生的偏差積累，很大程度上受著數(shù)據(jù)量大小及參數(shù)多寡的影響。在一般小數(shù)據(jù)時，這問題可以并不顯著。但在大數(shù)據(jù)的情況下，這問題就變的相當值得注意。我們用一簡化的例子來說明這個問題。

　　假設我們有兩組數(shù)據(jù)A和B，A組數(shù)據(jù)收集估算時沒有偏差，所有樣本數(shù)值都為1000。B組數(shù)據(jù)，實際所有樣本數(shù)值也是1000，但存在偏差，而且偏差隨收集樣本量的增加呈指數(shù)式成長（為了說明情況，偏差指數(shù)式成長是一個很極端的例子）。每增加一個記錄，偏差增長公式為：

　　這樣B組第一個記錄包含偏差為1.001=1.0011. B組第一個值為1000×1.001=1001. B組第二個記錄包含偏差為 1.002001=1.0012. B 組第一個值為 1000×1.002001=1002.001. B 組第十個值為 1000×1.01004512=1010.045. 這樣如果是小數(shù)據(jù) n=10, A組數(shù)據(jù)其實和B組數(shù)據(jù)比起來相差是不大的。B 組內(nèi)的每一個數(shù)字增加的偏差不足以引起注意，如果2%以內(nèi)的偏差都可以接受的話。