首頁 > 新聞 > 專家觀點 >

如何有效避免IDC故障 騰訊云專家談IDC聯(lián)合運營經(jīng)驗

2015-06-29 09:51:54   作者:   來源:中文科技資訊   評論:0  點擊:


  近年,國內(nèi)云服務(wù)商迅速發(fā)展壯大,自建機房趕不上發(fā)展速度,云服務(wù)商普遍通過租用IDC的方式進行服務(wù)擴容。IDC供應(yīng)商眾多,而災(zāi)備能力卻參差不齊,電力中斷導(dǎo)致的故障最近更時有發(fā)生。

  租用機房的做法,在國內(nèi)云服務(wù)商提供海外云服務(wù)時更為常見,云服務(wù)商如何選擇海外數(shù)據(jù)中心,通過什么手段保障聯(lián)合運營效果,災(zāi)備能力是否足夠,成為用戶最關(guān)心的話題。

  為此,我們對騰訊云專家進行了關(guān)于海外云服務(wù)和災(zāi)備能力建設(shè)的主題專訪。若遇到電力中斷等意外事故,騰訊的海外數(shù)據(jù)中心將如何處理?專家的解讀,相信能給用戶與云服務(wù)商提供更多借鑒。

  Q:中國的云服務(wù)商在海外布局?jǐn)?shù)據(jù)中心一般采取什么策略,共建、租用還是自建?

  A:據(jù)我們了解,由于規(guī)模的原因,中國互聯(lián)網(wǎng)公司在海外的數(shù)據(jù)中心很少自建,大多是租用。騰訊云在香港和北美的數(shù)據(jù)中心采取的方式是租用+定制化。

  Q:在租用+定制化的策略下,騰訊云對合作伙伴有著怎樣的選擇標(biāo)準(zhǔn)?

  A:近期的多起云服務(wù)商故障大多緣于IDC基礎(chǔ)設(shè)施設(shè)計的冗余等級較低,且可用性運營經(jīng)驗匱乏。

  騰訊自QQ業(yè)務(wù)開始自建數(shù)據(jù)中心,擁有超過15年的IDC經(jīng)驗,擁有亞洲最大的互聯(lián)網(wǎng)數(shù)據(jù)中心,以及亞洲最大的數(shù)據(jù)中心群。在15年的發(fā)展過程中,騰訊不斷組建及壯大自己的IDC專家團隊,積累及沉淀IDC技術(shù),構(gòu)建運營及安全保障體系,技術(shù)實力在國內(nèi)數(shù)據(jù)中心行業(yè)處于領(lǐng)先地位。

  在海外,騰訊云采用的是租用+定制化方式,因此在選擇合作供應(yīng)商有嚴(yán)格的篩選要求,且每次機房選址都會投入技術(shù)專家參與數(shù)據(jù)中心選址。在香港,與騰訊云合作的供應(yīng)商是全球數(shù)一數(shù)二的數(shù)據(jù)中心提供商,在全球擁有超過15年的建設(shè)和運營經(jīng)驗,有體系化嚴(yán)謹(jǐn)?shù)倪\營安全及保障體系,機房有優(yōu)異的可用性記錄。

  事實上,騰訊為了支撐自身海外業(yè)務(wù)的發(fā)展(如QQ、微信等),每個地區(qū)其實有多個IDC,我們根據(jù)實際運行水平,其中再挑選出其中最好的數(shù)據(jù)中心,開放出來做云服務(wù)。

  Q:騰訊云如何保證聯(lián)合運營的效率,保障業(yè)務(wù)穩(wěn)定?

  A:騰訊自身互聯(lián)網(wǎng)業(yè)務(wù)眾多,發(fā)展迅猛,服務(wù)器規(guī)模從10W到20W僅僅用了1年時間,給業(yè)務(wù)穩(wěn)定運營帶來了前所未有的壓力。騰訊不單扛住了海量業(yè)務(wù)的挑戰(zhàn),更在這一過程中積累了豐富的運營商IDC及自建IDC運維經(jīng)驗。

  騰訊IDC運營歷史之悠久,自建和合作機房之多,均領(lǐng)先業(yè)界。我們將海內(nèi)外的百家優(yōu)勢和經(jīng)驗匯聚在一起,通過總結(jié)、提煉和分享創(chuàng)造共同財富,不讓同一問題在其他機房再出現(xiàn)。在安全可靠性運營方面,我們積累了非常豐富的經(jīng)驗。

  著眼于安全可靠性運營的核心問題,我們早些年就開始與各大運營商建立了一系列卓有成效的聯(lián)合運營機制。除了把騰訊自身積累的經(jīng)驗分享給IDC服務(wù)商之外,還提升到雙方高效溝通、規(guī)范流程體系、數(shù)據(jù)量化、聯(lián)合巡檢、聯(lián)合排查、聯(lián)合整治、聯(lián)合優(yōu)化、技術(shù)平臺共享的高度。一方面保障了騰訊的業(yè)務(wù),同時也促進各大運營商不斷進步,創(chuàng)造多方共贏。這的聯(lián)合運營方式,也是騰訊在業(yè)界的首創(chuàng)。

  隨著聯(lián)合運營的廣泛落地,騰訊最近幾年在基礎(chǔ)設(shè)施層面的重大故障幾乎為零,這也大大提升了行業(yè)內(nèi)眾多運營商的IDC運營水平。

  Q:近日,有云服務(wù)商香港數(shù)據(jù)中心因斷電,造成服務(wù)中斷十多個小時。數(shù)據(jù)中心是否應(yīng)當(dāng)有備用發(fā)電設(shè)備,一旦斷電作自動切換?騰訊云采取哪些措施來應(yīng)對類似突發(fā)狀況?

  A:就斷電故障而言,對災(zāi)備能力有充足投入的IDC運營商是可以實現(xiàn)斷電自動切換的,云服務(wù)商在選擇合作伙伴的時候需要嚴(yán)格把關(guān)。

  就供電系統(tǒng)而言,目前業(yè)界流行的是相對低成本的N+1設(shè)計,以及相對高成本的2N設(shè)計。整體而言,2N系統(tǒng)的可靠性比N+1系統(tǒng)要更高。

  騰訊云香港數(shù)據(jù)中心的電力系統(tǒng)從市電進線、柴發(fā)、UPS系統(tǒng),一直到機柜PDU,都是完全獨立2N系統(tǒng),中間不交叉,一旦其中一路系統(tǒng)的某個部件出現(xiàn)問題,都可以有另外一路進行全負(fù)載備份,可靠性更高。

  Q:除了近期的斷電事故,包括之前還有云服務(wù)商因機房遭受雷擊而故障的事件,數(shù)據(jù)中心的災(zāi)備還需要考慮什么情況,騰訊云是怎么做的?

  A:機房遭受雷擊,說明數(shù)據(jù)中心防雷設(shè)施可能存在一系列的問題。

  騰訊建設(shè)數(shù)據(jù)中心,在建設(shè)階段,會從數(shù)據(jù)中心全生命周期,設(shè)計、建設(shè)、驗收進行管理,且不同領(lǐng)域包括電力、空調(diào)、安全、網(wǎng)絡(luò),都會有專業(yè)人員參與,而且這些專業(yè)人員都是從騰訊所有IDC身經(jīng)百戰(zhàn)過來。

  運營階段,我們通過上述提及的聯(lián)合運營的機制,投入騰訊的專家人員,與運營商一起對相關(guān)IDC進行聯(lián)合巡檢、聯(lián)合排查、確保在事故前發(fā)現(xiàn)問題,提早整改,規(guī)避隱患。對于可能發(fā)生的風(fēng)險,騰訊是零容忍的,隱患只要在某一機房發(fā)現(xiàn),就會進行全國排查。過去幾年,我們曾在多個IDC發(fā)現(xiàn)過隱患,經(jīng)過聯(lián)合整改,最后規(guī)避了風(fēng)險。

  Q:在海外數(shù)據(jù)中心方面,異地災(zāi)備是必須的么?萬一出現(xiàn)斷電等問題,騰訊云將如何保證用戶的業(yè)務(wù)安全?

  A:以香港數(shù)據(jù)中心為例,騰訊云除了嚴(yán)格選擇合作伙伴、建立緊密聯(lián)運機制之外,在供電、防雷、制冷、UPS、底層光纖等方面,都具有較高的冗余設(shè)計,后續(xù)更計劃擴展第二個可用區(qū),為客戶提供更高級別的可用性。

 。▊渥ⅲ嚎捎脜^(qū),即同一地域下(如廣州),電力和網(wǎng)絡(luò)互相獨立的物理區(qū)域(一般是一個物理機房),目標(biāo)是能夠保證可用區(qū)間故障相互隔離(大型災(zāi)害或者大型電力故障除外),不出現(xiàn)故障擴散,使得用戶的業(yè)務(wù)持續(xù)在線服務(wù)?捎脜^(qū)類似同城容災(zāi),用戶可以選擇在不同的可用區(qū)部署來達(dá)到跨機房的高可用。)

  Q:中國很多云服務(wù)商,包括騰訊云在海外提供服務(wù)都首選香港,為什么?

  A:在海外選點部署IDC,網(wǎng)絡(luò)覆蓋是第一位的,在整個亞太區(qū),香港能實現(xiàn)良好的網(wǎng)絡(luò)覆蓋。

  香港大區(qū)目前的主要覆蓋用戶群體是東亞和東南亞區(qū)域,從亞太地區(qū)的海底光纜交匯點及互聯(lián)網(wǎng)的POP點看,香港的優(yōu)勢非常明顯,覆蓋東南亞地區(qū)的網(wǎng)絡(luò)質(zhì)量也比較平均;對于機房底層的設(shè)施看,不論選點在哪里,都是需要提供較高的可用性給客戶,騰訊云在香港提供了較高的服務(wù)能力。

  Q:云時代,云服務(wù)商和IDC提供商應(yīng)該是一個怎樣的關(guān)系,騰訊對此是否有創(chuàng)新的舉措?

  A:即便是在國內(nèi),云服務(wù)商的數(shù)據(jù)中心也很少是完全自建的,更多是和運營商租用或者合建。就騰訊云而言,IDC分布在多個運營商,各個IDC的基礎(chǔ)設(shè)施情況不同,運營水平有高有低。運營商的運營水平,將直接影響云服務(wù)商,最后影響到用戶。因此云服務(wù)商與運營商的依賴關(guān)系如同魚和水的關(guān)系。

  我們的CEOPony說過騰訊把半條命都交給了合作伙伴,這句話用來形容騰訊與IDC合作伙伴的關(guān)系,也非常適用。剛才提到,騰訊在業(yè)界首創(chuàng)聯(lián)合運營機制,不但確保了騰訊業(yè)務(wù)的安全可靠,同時也提升了運營商的運營能力。

  我們認(rèn)為,像騰訊、阿里這樣,擁有海量數(shù)據(jù)中心的互聯(lián)網(wǎng)企業(yè),在某種意義上被賦予了一個使命,通過“云”這個特殊的媒介,與下游產(chǎn)業(yè)每一家IDC相互分享經(jīng)驗,完善運營體系,落實最佳實踐,從而實現(xiàn)多方共贏,進而促進整個產(chǎn)業(yè)的進步。實際上,也只有像騰訊、阿里這樣擁有海量規(guī)模的互聯(lián)網(wǎng)公司才能承擔(dān)這樣的使命。

  我們非常高興看到許多運營商也持開放的態(tài)度,參與到騰訊IDC的聯(lián)合運營中,我們也有理由相信,在整個云產(chǎn)業(yè)及數(shù)據(jù)中心行業(yè)的共同努力,我們?yōu)橛脩籼峁┑脑品⻊?wù),一定會不斷提升。

分享到: 收藏

專題