您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

超融合環(huán)境下的運(yùn)維與傳統(tǒng)架構(gòu)有什么不同?

--如何評(píng)估自動(dòng)化運(yùn)維的收益?

2019-08-08 13:48:03   作者:twt云社區(qū)   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  本期專家:
  姚    彬 優(yōu)維科技 系統(tǒng)架構(gòu)師
  林    鋒 浪潮商用機(jī)器企業(yè)云創(chuàng)新中心 華南區(qū)技術(shù)總監(jiān)
  任龍飛 紅帽企業(yè)級(jí)開源解決方案中心 解決方案架構(gòu)師
  景顯強(qiáng) 紅帽企業(yè)級(jí)開源解決方案中心 軟件架構(gòu)設(shè)計(jì)師
  劉    康 日志易 系統(tǒng)分析師
  鐘錦鋅 SmartX超融合 產(chǎn)品經(jīng)理
  李    寧 博云企業(yè)級(jí)PaaS及云管理解決方案中心 高級(jí)架構(gòu)師
  01 如何評(píng)估自動(dòng)化運(yùn)維帶來的收益?
  @姚彬 優(yōu)維科技 系統(tǒng)架構(gòu)師:
  運(yùn)維核心職責(zé)是保證業(yè)務(wù)連續(xù)性,通常是花錢部門,建議量化圍繞這兩個(gè)方向:
  1.業(yè)務(wù):參考DevOps中四個(gè)核心指標(biāo),變更時(shí)長(zhǎng)、發(fā)布頻率、服務(wù)恢復(fù)時(shí)長(zhǎng)、變更失敗率。
  2.投入:運(yùn)維投入和業(yè)務(wù)量增長(zhǎng)的長(zhǎng)期曲線對(duì)比,短期不一定明顯。(資金、人員等)
  02 運(yùn)維自動(dòng)化的成功標(biāo)志是什么?
  @姚彬 優(yōu)維科技 系統(tǒng)架構(gòu)師:
  自動(dòng)化的基石是標(biāo)準(zhǔn)化,運(yùn)維自動(dòng)化最直接的收益是效率和質(zhì)量的提升,工具化處理運(yùn)維事物就是成功。
  03 如何利用大數(shù)據(jù)提升云平臺(tái)自動(dòng)化運(yùn)維管理能力?
  @林鋒 浪潮商用機(jī)器企業(yè)云創(chuàng)新中心 華南區(qū)技術(shù)總監(jiān):
  有同事在排查一些云平臺(tái)的問題過程中,就碰到過日志極為瑣碎,出現(xiàn)了大量日常信息將故障關(guān)鍵信息掩蓋的過程,在日常維護(hù)、故障排查過程中,如何在大量日志中快速地找到故障關(guān)鍵字是個(gè)涉及大數(shù)據(jù)、人工智能的領(lǐng)域,這方面確實(shí)有待加強(qiáng)。
  個(gè)人理解,利用大數(shù)據(jù)技術(shù)+人工智能,過濾日常常規(guī)信息應(yīng)該是容易做到,而不常出現(xiàn)的信息應(yīng)該是我們?nèi)粘>S護(hù)的關(guān)注點(diǎn)。目前業(yè)內(nèi)已經(jīng)有多家從事智能運(yùn)維的公司,可以提供支持Power、x86等多種異構(gòu)云環(huán)境的智能運(yùn)維平臺(tái)。
  04 如何構(gòu)建云計(jì)算場(chǎng)景下的自動(dòng)化運(yùn)維系統(tǒng)?
  @任龍飛 紅帽企業(yè)級(jí)開源解決方案中心 解決方案架構(gòu)師:
  個(gè)人觀點(diǎn),從現(xiàn)在的IT體系來看,從IaaS到SaaS, ansible工具已經(jīng)可以覆蓋大多數(shù)場(chǎng)景。今年RedHat/CoreOS開源了Operator framework,針對(duì)容器領(lǐng)域的運(yùn)維開發(fā)框架,值得關(guān)注。
  05 企業(yè)在控制風(fēng)險(xiǎn)這塊應(yīng)該如何控制自動(dòng)化運(yùn)維與人為干涉的優(yōu)先級(jí)?
  @景顯強(qiáng) 紅帽企業(yè)級(jí)開源解決方案中心 軟件架構(gòu)設(shè)計(jì)師:
  腳本(playbook)自身的安全可靠性,需要進(jìn)行生產(chǎn)前的反復(fù)驗(yàn)證。
  上生產(chǎn)后,盡量依靠ansible tower這樣的管理平臺(tái)進(jìn)行ansible的執(zhí)行,防止權(quán)限不匹配導(dǎo)致執(zhí)行錯(cuò)誤。
  06 面對(duì)應(yīng)用與應(yīng)用之間復(fù)雜的依賴和調(diào)用關(guān)系,如何快速定位排查問題?
  @劉康 日志易 系統(tǒng)分析師:
  這個(gè)問題我們先倒推一下:
  分析問題需要什么?
  分析問題問題肯定需要一些指標(biāo)和數(shù)據(jù),那么指標(biāo)和數(shù)據(jù)該是哪些東西呢?指標(biāo)和數(shù)據(jù)從哪里來呢?
  指標(biāo)肯定有系統(tǒng)層面也會(huì)有應(yīng)用層面。但是通過指標(biāo)一定能分析出問題嗎?不一定,萬一開發(fā)就想寫個(gè)bug玩呢?所以也得看下應(yīng)用的日志。
  如果需要分析依賴和調(diào)用,那就得下探針或者在日志中打出調(diào)用關(guān)系。
  知道了需要哪些東西該怎么收集呢?
  我們既要收集系統(tǒng)指標(biāo),又要收集應(yīng)用指標(biāo),還需要收集應(yīng)用日志。在進(jìn)行收集的時(shí)候我們不想消耗太多的資源。
  收集完成怎么分析呢?
  如果有了上面的數(shù)據(jù)只需要將我們的內(nèi)容進(jìn)行適當(dāng)?shù)奶崛【涂梢赃M(jìn)行串聯(lián)分析。比如:
  我通過日志發(fā)現(xiàn)在某一點(diǎn)交易失敗率高了,我只需要看一看此時(shí)系統(tǒng)層面的各個(gè)指標(biāo)是否正常就可以迅速判斷出是否系統(tǒng)層面影響。再接著我們只需要看看這個(gè)鏈路上的其他內(nèi)容各個(gè)指標(biāo)是否正常,可以快速判斷是哪個(gè)環(huán)節(jié)出問題。
  上面進(jìn)行完成了之后,再接著分析應(yīng)用的問題,看一眼應(yīng)用的運(yùn)行指標(biāo)情況,再看看日志,幾乎在一分鐘內(nèi)就可以判斷故障出現(xiàn)在哪里。
  甚至在進(jìn)一步可以做出實(shí)時(shí)告警。
  上面那個(gè)方式在分布式環(huán)節(jié)尤其好使,因?yàn)檫\(yùn)維人員不用去尋找是那一臺(tái)主機(jī)上的程序出現(xiàn)了問題。
  上面所說的分析方式有哪些軟件呢?
  開源的:ELK
  企業(yè)版:日志易、splunk
  ELK:開源,免費(fèi),但是需要較高的能力去維護(hù)(如果說日志量每天幾個(gè)G那種忽略),DSL語句需要有一定的學(xué)習(xí)能力,搜索較慢。
  日志易:操作簡(jiǎn)單,語句就是類SQL。
  splunk:美國(guó)的日志分析廠商。
  07 在運(yùn)維管理上,超融合架構(gòu)的優(yōu)勢(shì)是什么?在超融合環(huán)境下,運(yùn)維工作與傳統(tǒng)架構(gòu)有什么不同?
  @鐘錦鋅 SmartX超融合 產(chǎn)品經(jīng)理:
  超融合架構(gòu)在運(yùn)維管理上的優(yōu)勢(shì):
  1. 超融合省卻了原來集中式存儲(chǔ)的硬件管理以及 raid、mapping 等復(fù)雜的管理操作。
  2. 超融合硬件故障運(yùn)維更加簡(jiǎn)單,硬盤故障無需熱備盤情況下,也可以自動(dòng)恢復(fù),而且恢復(fù)速度遠(yuǎn)高于傳統(tǒng)存儲(chǔ)。
  3. 虛擬化和存儲(chǔ)以及硬件管理都集中在統(tǒng)一界面上,管理員可以很輕松地發(fā)現(xiàn)各個(gè)組件的運(yùn)行狀態(tài)。
  4. 在線擴(kuò)展,自動(dòng)負(fù)載均衡功能,比起傳統(tǒng)架構(gòu)擴(kuò)容,減少了大量數(shù)據(jù)遷移甚至是避免了停機(jī)時(shí)間。
  5. 可以設(shè)置郵件報(bào)警或者通過 SNMP 還有 restful api 與原有的監(jiān)控中心進(jìn)行對(duì)接,實(shí)現(xiàn)智能監(jiān)控管理。
  在超融合環(huán)境下,運(yùn)維工作的安排確實(shí)與傳統(tǒng)架構(gòu)有所不同:
  1、在傳統(tǒng)架構(gòu)下,很多企業(yè)會(huì)安排專門的存儲(chǔ)管理員、虛擬化管理員;而在超融合環(huán)境下這兩者已經(jīng)合為一體,存儲(chǔ)和虛擬化實(shí)現(xiàn)統(tǒng)一界面管理,也省卻了原來集中式存儲(chǔ)硬件較為復(fù)雜的管理和運(yùn)維。建議運(yùn)維工作安排可以將存儲(chǔ)管理員和虛擬化管理員合并管理。
  2、另外做得比較好的超融合平臺(tái)都有功能豐富的監(jiān)控分析系統(tǒng),并且可以支持通過 SNMP 或者 API 集成到第三方監(jiān)控平臺(tái)中進(jìn)行統(tǒng)一管理以及自動(dòng)報(bào)警等,這樣可以更有效地提升運(yùn)維管理水平。
  08 Docker的運(yùn)維中需要關(guān)注的是什么?
  @李寧 博云企業(yè)級(jí)PaaS及云管理解決方案中心 軟件架構(gòu)設(shè)計(jì)師:
  Docker運(yùn)維過程中,整體而言需要關(guān)注三個(gè)方面:
  1. Docker集群的部署規(guī)模;按照目前來講,針對(duì)大規(guī)模的Docker集群,需要上層的調(diào)度系統(tǒng)做進(jìn)一步的管理(例如基于Kubernetes或者swarm),而且只有達(dá)到一定規(guī)模以后,才會(huì)重點(diǎn)關(guān)注配置優(yōu)化的參數(shù)(例如內(nèi)部IP分配問題,單個(gè)容器的資源消耗限制等);
  2. Docker運(yùn)行環(huán)境的穩(wěn)定性,安全性,可靠性;需要做到Docker管理與運(yùn)行業(yè)務(wù)容器達(dá)到友好兼容,管理節(jié)點(diǎn)正常與否,不應(yīng)該影響運(yùn)行業(yè)務(wù)容器,保證業(yè)務(wù)的正常對(duì)外輸出;考慮業(yè)務(wù)容器彼此的隔離性,防止安全入侵;Docker與監(jiān)控告警系統(tǒng),日志系統(tǒng)的對(duì)接和管理,能夠及時(shí)發(fā)現(xiàn)并處理運(yùn)行過程中的問題。
  3. 保證業(yè)務(wù)容器的正常穩(wěn)定,因?yàn)樗械囊磺卸际菫闃I(yè)務(wù)服務(wù)的,業(yè)務(wù)正常穩(wěn)定,才有意義。
  歡迎企業(yè)IT領(lǐng)域原廠商入駐云社區(qū)。服務(wù)用戶,從解決用戶的日常問題入手!來源:tlalkwithtrend
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索:

上一篇:客服人,當(dāng)你想離開呼叫中心時(shí)……

下一篇:最后一頁

相關(guān)閱讀:

專題

CTI論壇會(huì)員企業(yè)