首頁 > 新聞 > 國際 >

Facebook采用開源工具檢測數(shù)據(jù)中心網(wǎng)絡(luò)故障

2016-02-22 10:31:41   作者:   來源:機(jī)房360   評論:0  點(diǎn)擊:


  幾年前,F(xiàn)acebook關(guān)閉了一個數(shù)據(jù)中心,以測試其應(yīng)用的靈活性。該公司工程主管杰瑞?帕瑞科斯表示這個測試順利。該數(shù)據(jù)中心的關(guān)閉測試沒有干擾客戶對Facebook網(wǎng)站的訪問。
  Facebook和其它網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)中心運(yùn)營商投資數(shù)億美元甚至數(shù)十億美元建立全球性的互聯(lián)網(wǎng)服務(wù),將重點(diǎn)轉(zhuǎn)向數(shù)據(jù)中心的彈性冗余和自動化的基礎(chǔ)設(shè)施–電源和冷卻系統(tǒng)–軟件驅(qū)動的故障。一個由許多服務(wù)器組成的全球分布式系統(tǒng),可以很容易地失去某些服務(wù)器,而不會對應(yīng)用程序的性能有任何重大的影響。
  這并不是說數(shù)據(jù)中心運(yùn)營商已經(jīng)放棄了備份發(fā)電機(jī),UPS系統(tǒng),自動轉(zhuǎn)換開關(guān)。人們?nèi)匀豢梢栽贔acebook數(shù)據(jù)中心可以看到所有這些東西,只是這些設(shè)施不再是最后單一的防線。
  如今,F(xiàn)acebook公司開放一些軟件工具的源碼,其內(nèi)置的軟件工具可以幫助工程師在幾秒鐘內(nèi)檢測到電力中斷的位置,并迅速隔離故障,避免更大范圍的問題。
  該工具是一個名為Net NORAD系統(tǒng),可以不斷監(jiān)控整個Facebook的數(shù)據(jù)中心基礎(chǔ)設(shè)施的數(shù)據(jù)包丟失率和延遲。并使用數(shù)據(jù)分析,可以檢測到異常模式和觸發(fā)警報(bào),通常發(fā)生在30秒內(nèi)的故障。
  “我們的規(guī)模意味著設(shè)備故障每天都有可能發(fā)生而且確實(shí)在發(fā)生,我們努力阻止那些必然事件對任何使用我們的服務(wù)的客戶的影響。”Facebook公司網(wǎng)絡(luò)工程師彼得?切赫拉普科霍爾在一篇博客文章中寫道。“最終的目標(biāo)是檢測網(wǎng)絡(luò)中斷,并在幾秒鐘內(nèi)自動地減少網(wǎng)絡(luò)干擾。相反,采用人工調(diào)查可能需要以分鐘計(jì)算,甚至是小時。”
  Facebook公司的Net NORAD組件是開源的響應(yīng)者,系統(tǒng)采用一組服務(wù)器不斷監(jiān)測Facebook公司數(shù)據(jù)中心的所有服務(wù)器,基于他們接收響應(yīng)數(shù)據(jù)包丟失和延遲的數(shù)據(jù),并采用自動確定故障確切位置的工具fbtracert。
分享到: 收藏

專題