首頁 > 新聞 > 專家觀點(diǎn) >

華勝天成何宇:天成云泰 云環(huán)境下監(jiān)控與運(yùn)作新思路

2012-09-06 16:25:43   作者:   來源:機(jī)房360    評論:0  點(diǎn)擊:


  各位嘉賓下午好!我的演講是下午的第一場,我今天演講的題目是“天成云泰,云環(huán)境下監(jiān)控與運(yùn)作新思路”。監(jiān)控我相信在座的各位應(yīng)該都非常熟悉了,因?yàn)槊總(gè)單位或多或少上了監(jiān)控軟件。過去幾年我跟IT人員溝通過,聽主管人員跟我講監(jiān)控軟件有用,但是又不是特別有用,慢慢就變成了IT部門變成了輔助部門,監(jiān)控軟件就變成了輔助工具。這些年我們不停地跟客戶交流溝通,幫客戶建設(shè)一些項(xiàng)目,我們有一些新思路分享給大家,就是IT基礎(chǔ)架構(gòu)到全業(yè)務(wù)的生命周期。
  
  一直以來,在我們企業(yè)的IT部門分成三種角色,這三種角色也像軟件廠商做IT維護(hù)和監(jiān)控軟件的廠商的客戶,不同的角色訴求不一樣,比如說對于基層的IT運(yùn)維工程師來說,關(guān)心的是如何監(jiān)控與管理因云環(huán)境下的IT基礎(chǔ)架構(gòu)?對企業(yè)IT部門最高的主管除了考慮業(yè)務(wù)的保障外,還關(guān)注的是如何體現(xiàn)IT部門的價(jià)值,難道IT部門永遠(yuǎn)是一個(gè)企業(yè)的輔助性的保障性的部門嗎?為什么IT部門不能夠業(yè)務(wù)部門一樣得到企業(yè)領(lǐng)導(dǎo)的關(guān)注呢?其實(shí),從監(jiān)控的角度來說,我們的傳統(tǒng)的監(jiān)控軟件,一直滿足的第一類客戶的需求,就是運(yùn)維工程師的需求。但是一直沒有很好的回答,IT部門的主管們的訴求,所以接下來我希望通過短短的15分鐘演講,讓大家知道我們的新思路如何讓一個(gè)企業(yè)更好的保障業(yè)務(wù),如何讓一個(gè)IT部門,不僅僅是只跟在業(yè)務(wù)部門后面的保障部門,其實(shí)他是可以引導(dǎo)業(yè)務(wù)部門的。
  
  在我開始接下來演講之前,我先舉一個(gè)例子,今天在會(huì)場上有以前的客戶來問,什么時(shí)候能給我們講講我們在北京電視臺做的案例呢?我今天就用一個(gè)簡短的5分鐘時(shí)間,先從一個(gè)案例開始。
  
  其實(shí)要把BTV的成功案例經(jīng)驗(yàn)分享給大家要用半個(gè)小時(shí),我就把最典型的場景給大家分析一下,我們在北京電視臺怎么幫我們的客戶從基礎(chǔ)架構(gòu)到業(yè)務(wù)系統(tǒng)。大家知道對于一個(gè)電視臺來說,最核心的業(yè)務(wù)就是節(jié)目的生產(chǎn)、制作到審核、最后播放。電視臺是一個(gè)高度政治性的部門,任何一個(gè)運(yùn)維的小事故都可能演變成一個(gè)政治性事件,所以他們的壓力非常大。這是北京電視臺系統(tǒng)的邏輯圖(PPT),左邊大家看到的這些就是北京電視臺分很多生產(chǎn)系統(tǒng),每個(gè)生產(chǎn)網(wǎng)生產(chǎn)出來的節(jié)目以媒體文件的方式通過主干系統(tǒng)到總編室去做審核,每一個(gè)節(jié)目播出一定得嚴(yán)格審核的,分技術(shù)審核、內(nèi)容審核,最后有可能也會(huì)到媒體系統(tǒng)作為一個(gè)倉庫,為將來的其他節(jié)目做素材用。一直以來業(yè)務(wù)部門,比如說在電視臺的業(yè)務(wù)人員就是制片人,在節(jié)目備播過程中非常關(guān)注被制播的過程,他關(guān)注我的節(jié)目被送到總編室處于哪個(gè)環(huán)節(jié),有沒有問題。上面大家看到這是一個(gè)標(biāo)準(zhǔn)的電視節(jié)目的完整的過程,從文稿素材的準(zhǔn)備,到制作,到審核,到遷移,到播出,是一個(gè)標(biāo)準(zhǔn)的過程。其實(shí)北京電視臺是中國最早實(shí)現(xiàn)全臺網(wǎng)的,對它來說每一個(gè)業(yè)務(wù)的環(huán)節(jié)完全實(shí)現(xiàn)了網(wǎng)絡(luò)化、信息化。也就是說,每一個(gè)環(huán)節(jié)其實(shí)依賴于若干個(gè)核心的業(yè)務(wù)服務(wù)支撐,比如說有直播的服務(wù),集成的服務(wù)、合成的服務(wù)等等。每個(gè)核心的業(yè)務(wù)服務(wù)又依托很多軟硬件系統(tǒng)技術(shù)架構(gòu)的支撐,就是網(wǎng)絡(luò)主機(jī)、數(shù)據(jù)庫、存儲(chǔ)。大家看這張圖,再結(jié)合您單位的IT業(yè)務(wù)部門的邏輯架構(gòu),其實(shí)大同小異,不同的就是業(yè)務(wù)流程不一樣,核心的業(yè)務(wù)服務(wù)部一樣,其實(shí)也就這三層架構(gòu)。
  
  我記得最早我在北京電視臺客戶交流的時(shí)候,他就跟我講過,我們想采購監(jiān)控,但是覺得監(jiān)控對我沒什么用,比如說它不能幫我解決這樣的問題。比如說在北京電視臺晚上八點(diǎn)鐘有一個(gè)節(jié)目要播出,但是到晚上6點(diǎn)鐘電視節(jié)目的媒體文件還沒有送到總編室做審核,大家知道其實(shí)這在電視臺是一個(gè)嚴(yán)重的播出事故了,因?yàn)橛锌赡?點(diǎn)鐘就沒有節(jié)目播了。我們的客戶跟我講,傳統(tǒng)的監(jiān)控軟件不能幫我發(fā)現(xiàn)這樣的問題呀,是不能發(fā)現(xiàn),后來我們就幫他建設(shè)了依托于我們自身的產(chǎn)品,BSM的基礎(chǔ)上,就幫他建設(shè)了從業(yè)務(wù)流程的監(jiān)控,到業(yè)務(wù)服務(wù)監(jiān)控,再到基礎(chǔ)架構(gòu)監(jiān)控,三位一體的完整的監(jiān)控。我用一個(gè)典型的場景跟大家分享一下,建設(shè)的內(nèi)容其實(shí)很多,還有運(yùn)維部分,但是在這兒我專門講一下業(yè)務(wù)流程這部分。
  
  大家看到,這是北京電視臺一個(gè)王牌節(jié)目,叫軍情解碼,某一天完整的業(yè)務(wù)流程。綠色的環(huán)節(jié)表示這個(gè)業(yè)務(wù)環(huán)節(jié)已經(jīng)走過去了,并且成功的執(zhí)行了,灰色的表示還沒有走到,藍(lán)色表示當(dāng)前正在執(zhí)行的業(yè)務(wù)環(huán)節(jié)。這張圖大家可以看到,不僅對IT運(yùn)維人員有用,其實(shí)對于一個(gè)業(yè)務(wù)人員也非常有用。電視臺的業(yè)務(wù)人員是什么?典型的像制片人,軍情解碼的制片人,當(dāng)他把這個(gè)業(yè)務(wù)送出去之后就要看這張圖,隨時(shí)知道我這個(gè)節(jié)目媒體文件到了哪個(gè)環(huán)節(jié),是不是停住了,停住了有幾種可能,有可能系統(tǒng)出了問題,也有可能是人為的,審核的人出去吃飯了,吃飯花了兩個(gè)小時(shí),節(jié)目就一直停在審核的環(huán)節(jié)。以這個(gè)例子為例,當(dāng)前在主干遷移這個(gè)環(huán)節(jié),這個(gè)環(huán)節(jié)標(biāo)紅了,什么意思?有問題了。我們多的平臺就會(huì)發(fā)給運(yùn)維人員,首先會(huì)看業(yè)務(wù)流程的業(yè)務(wù)信息是什么,是什么樣的節(jié)目,由誰制作的,接著可以看一下出問題的業(yè)務(wù)環(huán)節(jié)到底是什么問題。從這個(gè)信息里面可以看到,這時(shí)候的監(jiān)控已經(jīng)脫離了傳統(tǒng)意義上的CPU利用率、內(nèi)存利用率的信息,上面展現(xiàn)的全是業(yè)務(wù)信息,從這個(gè)業(yè)務(wù)信息會(huì)說原來是遷移超時(shí)了,趕緊得去解決,首先得找到故障,他只需要點(diǎn)擊進(jìn)入主干遷移的業(yè)務(wù)環(huán)節(jié),調(diào)出支撐這個(gè)業(yè)務(wù)環(huán)節(jié)的核心的業(yè)務(wù)服務(wù)的邏輯圖,從這個(gè)邏輯圖很容易看到原來是一個(gè)服務(wù)器亮了紅燈,他再點(diǎn)擊進(jìn)這個(gè)服務(wù)器去查,原來這臺服務(wù)器宕機(jī)了,這是一臺轉(zhuǎn)碼的服務(wù)器。接下來運(yùn)維人員怎么快速的找到這臺服務(wù)器,然后解決這個(gè)故障。你知道對于北京電視臺主干機(jī)房有上千臺設(shè)備,你怎么能快速的在上千臺設(shè)備里面找到服務(wù)器并且解除故障呢?傳統(tǒng)的方式要花很長時(shí)間,但是對于系統(tǒng)來說很簡單,只要點(diǎn)擊一個(gè)物理位置的按紐,就會(huì)調(diào)出主干機(jī)房3D全景機(jī)房圖,可以看到在機(jī)房里面有一個(gè)機(jī)柜亮了紅燈,點(diǎn)擊進(jìn)入這個(gè)機(jī)柜就很容易找到出故障的設(shè)備,就可以派工程師進(jìn)去解決故障。這就是一個(gè)典型的例子,怎么為BTV這個(gè)客戶實(shí)現(xiàn)了從基礎(chǔ)架構(gòu)艦空導(dǎo)業(yè)務(wù)服務(wù)監(jiān)控,到最上面的業(yè)務(wù)系統(tǒng)監(jiān)控,三位一體的監(jiān)控,用一套平臺實(shí)現(xiàn)這樣的關(guān)聯(lián)監(jiān)控。
  
  接下來我講一下產(chǎn)品怎么樣能夠分別做到呢?
  
  首先,基礎(chǔ)架構(gòu)的監(jiān)控對于產(chǎn)品來說,跟很多傳統(tǒng)的產(chǎn)品都能做到,比如說我們可以有在云環(huán)境下網(wǎng)絡(luò)TOP的自動(dòng)發(fā)現(xiàn),可以由在云環(huán)境下網(wǎng)絡(luò)TOP的管理和監(jiān)控,以及有對耽擱的網(wǎng)絡(luò)設(shè)備的監(jiān)控,以及對虛擬資源的監(jiān)控。有些企業(yè)還訂購了遠(yuǎn)在天邊的CRM的服務(wù),我們也可以幫你對它進(jìn)行監(jiān)控。機(jī)房所有的設(shè)備,軟硬件都在機(jī)房里面,對機(jī)房監(jiān)控也是基礎(chǔ)架構(gòu)很重要的一部分,我們提供了純3D實(shí)景的監(jiān)控。
  
  在基礎(chǔ)架構(gòu)這一層的監(jiān)控能監(jiān)控所有主流的,非主流的,網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)應(yīng)用,以及實(shí)時(shí)的高警平臺。就像北京電視臺一樣,有一個(gè)十幾平米的大屏幕,打在上面,運(yùn)維人員坐在下面,看實(shí)時(shí)更新的高警平臺。
  
  做了基礎(chǔ)架構(gòu)的監(jiān)控其實(shí)只是滿足了IT運(yùn)維工程師的需求,但是沒有滿足IT部門主管和CIO的需求,接下來您可以嘗試往前走一步,對企業(yè)里面的業(yè)務(wù)服務(wù)進(jìn)行監(jiān)控。什么是業(yè)務(wù)服務(wù)?
  
  其實(shí)業(yè)務(wù)服務(wù)概念很簡單,就是把企業(yè)里面的IT資源,不管是物理資源還是虛擬資源,還是云環(huán)境,以及企業(yè)的業(yè)務(wù)系統(tǒng)做一個(gè)打包,把它們之間的關(guān)聯(lián)關(guān)系定義上,以及哪些部門會(huì)影響使用到你的業(yè)務(wù)服務(wù),這樣就可以從業(yè)務(wù)的角度進(jìn)行監(jiān)控。業(yè)務(wù)服務(wù)定義出來之后,我們能對它做什么呢?第一,實(shí)時(shí)監(jiān)控;第二,故障影響,當(dāng)業(yè)務(wù)服務(wù)出現(xiàn)問題快速地知道會(huì)影響哪些業(yè)務(wù)部門;第三,還能進(jìn)行KPI的分析。你定義企業(yè)的業(yè)務(wù)服務(wù)能做什么?我們提供一個(gè)業(yè)務(wù)服務(wù)的雷達(dá),在業(yè)務(wù)服務(wù)的雷達(dá)商動(dòng)態(tài)的掃描定義出來的業(yè)務(wù)服務(wù)的健康狀況,如果有亮紅燈,運(yùn)維工程師可以點(diǎn)擊進(jìn)去調(diào)出業(yè)務(wù)服務(wù)的邏輯TOP圖,很容易的找到它是哪怕一般臺物理機(jī)器,或者是虛擬資源出了故障,然后進(jìn)去排除故障,找到它所在的位置,解除故障之后再回到這張業(yè)務(wù)服務(wù)的邏輯TOP圖,去驗(yàn)證這個(gè)故障是否得到了解除。
  
  做到了業(yè)務(wù)服務(wù)監(jiān)控還是不夠的,因?yàn)樽罱K的核心就是業(yè)務(wù)系統(tǒng),要能對業(yè)務(wù)系統(tǒng)進(jìn)行監(jiān)控。在業(yè)務(wù)系統(tǒng)監(jiān)控里面分兩個(gè)成面:一是像BTV能對業(yè)務(wù)的全流程,全生命周期進(jìn)行監(jiān)控,有些企業(yè)可能沒有業(yè)務(wù)的全流程,就需要對單個(gè)業(yè)務(wù)系統(tǒng)里面進(jìn)行監(jiān)控。我給大家講一個(gè)商業(yè)銀行的例子,就是對某一個(gè)核心業(yè)務(wù)系統(tǒng)里面進(jìn)行深入的監(jiān)控。大家知道銀行的業(yè)務(wù),有銀行的客戶會(huì)非常了解,銀行都有自己的核心業(yè)務(wù)系統(tǒng),前面有很多渠道,包括您去銀行交電話費(fèi)、水電費(fèi)其實(shí)也是一個(gè)渠道,當(dāng)然還有ATM機(jī),在渠道每天做的交易中都會(huì)通過大前置機(jī)最終進(jìn)入銀行的核心業(yè)務(wù)系統(tǒng),所以對銀行來說,大前置業(yè)務(wù)是非常核心的業(yè)務(wù),如果大前置Down掉了,也沒法交水電費(fèi),也沒有在POS機(jī)上取款了。我們就幫銀行監(jiān)控大前置,其實(shí)監(jiān)控大前置產(chǎn)生的數(shù)據(jù)不僅對IT運(yùn)維工程師有用,而且對業(yè)務(wù)部門的人有用,因?yàn)樗梢酝ㄟ^數(shù)據(jù)分析知道哪些渠道交易量非常大,哪些渠道交易不大,對銀行來說交易量太大太小都不好,大家可以看到做業(yè)務(wù)系統(tǒng)的監(jiān)控,不只是有益于IT運(yùn)維部門,其實(shí)對業(yè)務(wù)部門也非常有用。
  
  最后,我想總結(jié)一下,如果一個(gè)IT部門想真正能夠做到對業(yè)務(wù)的保障,光有基礎(chǔ)架構(gòu)是不夠的,必須能做到從基礎(chǔ)架構(gòu)到業(yè)務(wù)服務(wù),再到業(yè)務(wù)系統(tǒng)三位完整的監(jiān)控,而且這個(gè)監(jiān)控必須是關(guān)聯(lián)性監(jiān)控,相互之間是關(guān)聯(lián)的,不是脫節(jié)的,這樣才能真正做到業(yè)務(wù)保障。另外,當(dāng)IT部門真正能對業(yè)務(wù)系統(tǒng)進(jìn)行監(jiān)控的時(shí)候,其實(shí)你的IT部門已經(jīng)漸漸不再是一個(gè)服務(wù)性的部門了,因?yàn)槟闶诸^上有業(yè)務(wù)的監(jiān)控?cái)?shù)據(jù),你可以通過業(yè)務(wù)監(jiān)控?cái)?shù)據(jù)的分析引導(dǎo)業(yè)務(wù)部門。所以,這是我中間想講的,從基礎(chǔ)架構(gòu)監(jiān)控到業(yè)務(wù)系統(tǒng)全流程監(jiān)控的價(jià)值。
  
  這就是我簡短的介紹。謝謝大家!
分享到: 收藏

專題