首頁 > 新聞 > 專家觀點(diǎn) >

數(shù)據(jù)中心發(fā)生故障后如何進(jìn)行故障分析

2014-08-01 09:58:34   作者:   來源:比特網(wǎng)   評論:0  點(diǎn)擊:


  7月24日,阿爾及利亞航空公司的一架客機(jī)從瓦加杜古飛往阿爾及利亞首都阿爾及爾中墜毀,在此之前的7月23日,臺灣復(fù)興航空一架客機(jī)在澎湖馬公機(jī)場墜毀……在飛機(jī)墜毀后的第一時(shí)間,就是尋找飛機(jī)上的黑匣子,因?yàn)楹谙蛔佑涗浿w機(jī)墜毀前的飛機(jī)各種運(yùn)行參數(shù)和飛行員的談話等錄音記錄,這些是分析飛機(jī)墜毀原因的最重要數(shù)據(jù)來源。

  那么對于數(shù)據(jù)中心也一樣,如今的數(shù)據(jù)中心已經(jīng)承載著太多的重要業(yè)務(wù),人們的生活早已經(jīng)離不開數(shù)據(jù)中心,它已經(jīng)成為了人們生活的一部分,一旦數(shù)據(jù)中心發(fā)生故障將給人們帶來很多不便和經(jīng)濟(jì)損失。因?yàn)槊慨?dāng)數(shù)據(jù)中心發(fā)生故障后,既然可以通過一些歷史記錄去還原故障的發(fā)生原貌,對數(shù)據(jù)中心的未來發(fā)展建設(shè)都會(huì)很有借鑒意義。

  當(dāng)然,絕大多數(shù)的數(shù)據(jù)中心都是運(yùn)行在固定的建筑當(dāng)中,不過也有一些可以移動(dòng)的數(shù)據(jù)中心,這些移動(dòng)的數(shù)據(jù)中心在工作時(shí)也基本是在固定的位置,這就和飛機(jī)有最大的不同。飛機(jī)發(fā)生墜毀一切設(shè)備都無法再繼續(xù)工作,現(xiàn)場也會(huì)被破壞,而數(shù)據(jù)中心是在固定的位置,故障現(xiàn)場依然可以被很好地保留著,這就為故障分析提供了很好的參考依據(jù)。從以往數(shù)據(jù)中心發(fā)生的故障來看,主要有三類:自然災(zāi)害;人為故障;設(shè)備故障,這三個(gè)方面。90%以上的故障都來自于這三個(gè)方面。

  對于地震、火災(zāi)、雷擊等天然災(zāi)害,從故障現(xiàn)場的受損情況就可以分析出來。比如雷擊,會(huì)產(chǎn)生強(qiáng)大的沖擊電流,打到設(shè)備上,就會(huì)引起設(shè)備器件短路,產(chǎn)生瞬間的高壓,使電路急劇生溫,輕微的可引起設(shè)備短路故障,嚴(yán)重的還能引起火災(zāi)。對于這些自然災(zāi)害,數(shù)據(jù)中心也有很多的技術(shù)手段可以最大程度上避免災(zāi)害的發(fā)生,針對每一種自然災(zāi)害數(shù)據(jù)中心都需要加以重視,才能躲避開這些自然災(zāi)害。比如增加機(jī)柜和機(jī)房地面的固定螺絲,安裝避雷針,增加放火報(bào)警系統(tǒng)和防火器材。當(dāng)出現(xiàn)這些自然災(zāi)害時(shí),減少對數(shù)據(jù)中心的沖擊。

  人為故障占到了數(shù)據(jù)中心的故障中的70%,其中也可以分為有意的和無意的。有意的是指明知道一些操作會(huì)造成數(shù)據(jù)中心故障,仍執(zhí)意去做的,這些人往往希望通過造成數(shù)據(jù)中心運(yùn)行癱瘓,而達(dá)到不可告人的目的。常見的有黑客、情報(bào)人員、商業(yè)機(jī)密小偷等等,他們攻擊的對象往往是數(shù)據(jù)中心里的數(shù)據(jù),通過造成數(shù)據(jù)中心故障來達(dá)到竊取或損壞數(shù)據(jù)的目的。無意的是指本意并不想破壞數(shù)據(jù)中心,但是由于自己的技術(shù)積累經(jīng)驗(yàn)不夠或者疏忽,自己的操作引發(fā)了數(shù)據(jù)中心故障,這種故障占到了人為故障的80%以上。數(shù)據(jù)中心是一個(gè)復(fù)雜龐大的系統(tǒng),不可能一個(gè)人面面俱到都精通,當(dāng)接觸到自己不熟悉或不了解的地方,操作往往引發(fā)意想不到的結(jié)果,因此加強(qiáng)對人的管理尤為重要。在對數(shù)據(jù)中心做任何調(diào)整時(shí),都要從全局考慮,集中最優(yōu)秀的技術(shù)人員,將人為操作風(fēng)險(xiǎn)降低。這類事故往往也很容易留下證據(jù)記錄,給事故分析帶來方便。幾乎所有的數(shù)據(jù)中心都有門禁系統(tǒng)、視頻監(jiān)控系統(tǒng),任何人的出入都有記錄,很容易查到。有不少的數(shù)據(jù)中心提供遠(yuǎn)程的訪問,那么所有的訪問操作在數(shù)據(jù)中心后臺數(shù)據(jù)中心都有記錄,訪問者對數(shù)據(jù)中心業(yè)務(wù)調(diào)整、修改配置、甚至重起設(shè)備等任何操作都會(huì)記錄在案,只要數(shù)據(jù)中心不是全面的毀滅,這些記錄都會(huì)在后臺的數(shù)據(jù)庫中查到,通過記錄的時(shí)間和訪問的人就可以查明人為事故的原因。

  設(shè)備運(yùn)行故障也是數(shù)據(jù)中心故障的一類,大型的數(shù)據(jù)中心擁有數(shù)千臺設(shè)備很普遍,這些電子設(shè)備難免運(yùn)行中出現(xiàn)故障。一旦出現(xiàn)故障,就需要對設(shè)備進(jìn)行分析,很多現(xiàn)場操作人員并不具備分析問題的能力,為了恢復(fù)業(yè)務(wù),只能重起設(shè)備,或者將業(yè)務(wù)切割到別的備份設(shè)備上。當(dāng)故障設(shè)備上沒有業(yè)務(wù)或者已經(jīng)重起了,其上很多時(shí)時(shí)記錄都會(huì)沖掉,這樣給故障分析帶來難度。很多時(shí)候故障的表現(xiàn)也并非集中在某一臺設(shè)備上,心急的操作人員可能將所有設(shè)備全部重啟或?qū)I(yè)務(wù)全部割離,如果設(shè)備能提供詳細(xì)的歷史記錄,那么對于故障分析非常有幫助。數(shù)據(jù)中心不怕出故障,怕的是出了故障后找不到原因,這相當(dāng)于給數(shù)據(jù)中心埋了一個(gè)定時(shí)炸彈。其實(shí)在很多高端設(shè)備上已經(jīng)增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時(shí)時(shí)記錄設(shè)備運(yùn)行的各種參數(shù),當(dāng)設(shè)備發(fā)生故障后,哪怕是設(shè)備發(fā)生了斷電,這些器件依然可以正常運(yùn)行,記錄下來設(shè)備運(yùn)行的各種參數(shù),這些數(shù)據(jù)往往是故障后分析參考的最重要數(shù)據(jù)來源。當(dāng)數(shù)據(jù)中心出現(xiàn)故障后,有的設(shè)備可以提供故障時(shí)設(shè)備運(yùn)行的各種數(shù)據(jù)參數(shù),非常具有說服力,有時(shí)也是證明自己設(shè)備沒有問題的重要信息,而一旦在故障后,一些設(shè)備沒有可分析的數(shù)據(jù)記錄,根本分不清是不是自己的問題,這樣的設(shè)備很快就會(huì)被數(shù)據(jù)中心所棄用。如果通過數(shù)據(jù)分析是自己設(shè)備的問題,那么設(shè)備商依然可以根據(jù)這些數(shù)據(jù)去優(yōu)化設(shè)備設(shè)計(jì),從而避免這類故障的再次發(fā)生,讓設(shè)備運(yùn)行更加穩(wěn)定。

  數(shù)據(jù)中心也有各種各樣的監(jiān)控手段和歷史信息記錄,這些技術(shù)為數(shù)據(jù)中心的穩(wěn)定運(yùn)行提供了保障,也是不斷推動(dòng)數(shù)據(jù)中心完善的重要舉措。如同飛機(jī)上的黑匣子,數(shù)據(jù)中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時(shí)數(shù)據(jù)中心的完貌,通過對這些數(shù)據(jù)分析,不僅可以找到故障原因,還可以根據(jù)這些故障對數(shù)據(jù)中心進(jìn)行優(yōu)化,避免發(fā)生二次故障。

分享到: 收藏

專題