您當前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

GOPS2018華為云運維最佳CP引領AIOps新風向

--

2018-04-16 10:24:41   作者:   來源:CTI論壇   評論:0  點擊:


  在第九屆全球運維大會GOPS上,華為云應用運維域首席架構師蔡小剛做了以“華為三位一體探索AIOps關鍵技術的實踐”為主題的演講,從4個方面與大家分享華為云運維采用產(chǎn)學研三位一體模式促進云管平臺關鍵技術探索的實踐,涉及大規(guī)模Kubernetes容器集群的管控,Serverless環(huán)境中因果序列追蹤、多源數(shù)據(jù)的RCA分析探、聚類算法實現(xiàn)網(wǎng)絡包的Blackbox分析。
  作為全球領先的云計算服務商,華為云提供兩大運維服務——應用運維管理(AOM)和應用性能管理(APM)服務,實現(xiàn)復雜云應用的端到端性能洞察。華為云應用運維投入持續(xù)研發(fā),在智能AutoScaling、Serverless的調用跟蹤、基于AI的異常檢測和RCA分析、基于Clustering的Blackbox分析等方面進行了創(chuàng)新性探索并取得長足的進展,增強了大規(guī)模云應用的智能運維(AIOps)能力。
  華為云應用運維域首席架構師現(xiàn)場分享
  關于“華為三位一體探索AIOps關鍵技術的實踐”的演講
  大規(guī)模K8S容器集群的管控
  華為已經(jīng)在試驗環(huán)境中成功驗證了百萬容器級別的管控。由于容器集群的計算資源異構、網(wǎng)絡虛擬化、集群類型多樣、秒級擴縮容等導致的復雜性,以及客戶應用技術棧的多樣性(比如微服務化、Serverless化、基礎組件服務化)導致的復雜性,對管控提出了兩方面的要求:一是滿足平臺自身的OM運維;另外一方面要滿足部署在平臺上的客戶應用系統(tǒng)的運維訴求。華為云應用運維域針對性設計實現(xiàn)了應用及資源模型化---Inventory建模,實現(xiàn)了傳統(tǒng)意義上的CMDB和OSLC的能力,把基礎設施和應用映射起來,為跨資源、跨層面的關聯(lián)提供了現(xiàn)實可能。
  容器彈性伸縮Auto-Scaling的決策來自華為云運維服務,除了預定義的scaling外,還實現(xiàn)了機器學習算法的Auto-Scaling,為復雜的大規(guī)模應用提供更智能的選擇,最大化節(jié)省客戶資源成本開銷。
  除了上述兩點,華為云應用性能管理(APM)和應用運維管理(AOM)還實現(xiàn)了開箱即用的性能數(shù)據(jù)采集、在線感知和計算、異常告警、應用拓撲、調用鏈分析等功能,結合華為云性能測試服務(CPTS)、大數(shù)據(jù)智能分析等生態(tài)服務,實現(xiàn)對應用運維的端到端性能洞察。良好的云原生分布式架構成功解決了海量數(shù)據(jù)、大規(guī)模應用部署帶來性能下降的挑戰(zhàn)。

  大規(guī)模容器應用管控 — 支撐工具及生態(tài)環(huán)境
  Serverless環(huán)境中因果序列追蹤
  Serverless使得開發(fā)者無需關注基礎設施,只用聚焦業(yè)務邏輯并進行簡單部署就可以完成,提供了快捷的開發(fā)方式。這也意味著APM for Serverless是一個全新的子領域,需要一種針對性的應用性能跟蹤、評估的機制。華為云聯(lián)合美國加州大學教授,對Serverless場景進行深入研究,采用Go語言,對分布式日志記錄系統(tǒng)Chariots的理論進行了實現(xiàn)和擴展:GoChariots。它本質上是在logging之前通過隊列排序,按照因果順序(Causal Order)依次追加日志記錄。
  通過為Serverless和微服務云應用程序提供因果順序跟蹤,并且可以跨云(不與特定云服務商綁定)。它可以以復制模式運行,因此跨數(shù)據(jù)中心應用程序可以與最近的副本進行通信,大大降低了通信開銷,提高了可用性和進度。由于SDK使用HTTP POST將事件發(fā)送到后端,因此對function的開發(fā)語言沒有約束。
  另外,結合AWS Lambda環(huán)境,華為云開發(fā)了GammaRay,基于第三方開源AWS Instrument SDK for Python(Fleece)庫埋點,驗證了Causal Order Tracking(COT)理論。GammaRay是對X-Ray的擴展,只適用于AWS Lambda調用關系分析。
  (具體細節(jié)參考華為在IC2E的full paper: Tracking Causal Order in AWS Lambda Applications。)
  多源數(shù)據(jù)的RCA分析探索
  根因分析RCA已經(jīng)是個老話題了,單點技術不斷進步完善、積累和突破,但仍然是森林中的“樹”,為了避免盲人摸象的問題,必須進行全面的分析。
  一個復雜系統(tǒng)中,一旦故障的發(fā)生會引起連鎖反應,直接體現(xiàn)就是故障的傳導鏈。在此場景中,首先要解決異常檢測(anomaly detection);其次要解決問題的定界定位(RCA:root cause analysis)。針對異常檢測,除了傳統(tǒng)靜態(tài)閾值比較,華為云還開發(fā)了基于時序數(shù)據(jù)分析的動態(tài)閾值,典型的有ARIMA算法等。大部分情況下,利用APM的應用拓撲、事務分析就能發(fā)現(xiàn)性能瓶頸或者問題。為了更全面的分析,華為云聯(lián)合歐美大學教授和華為海外專家一起利用ML對調用鏈數(shù)據(jù)做了深層次的數(shù)據(jù)分析。如在多個時序變量預測的單一事件場景中,采用了隱馬爾科夫模型(HMM:Hidden Markov Model),在工程實現(xiàn)中結合APM中的Inventory數(shù)據(jù)、拓撲數(shù)據(jù)和調用鏈數(shù)據(jù)來確定事件依賴關系,從而發(fā)現(xiàn)故障傳導鏈。當前我們還在合作研究驗證無監(jiān)督機器學習應用在日志、指標的實時Stream關聯(lián)分析與預警。
  聚類算法實現(xiàn)網(wǎng)絡包的Blackbox分析
  在業(yè)務通用的兩種主流分布式追蹤技術采集方案代碼侵入式埋點和非侵入式探針外,華為云開發(fā)一種全新的用非侵入式方法來實現(xiàn)調用拓撲級別的分析。數(shù)據(jù)采集工具vProbe支持識主流的應用協(xié)議,通過旁路監(jiān)聽網(wǎng)絡獲得數(shù)據(jù)。數(shù)據(jù)只涉及基礎的性能數(shù)據(jù),不涉及業(yè)務或者隱私方面的數(shù)據(jù)(必要時采取數(shù)據(jù)脫敏措施)。
  在BlackBox分析研究中,學術界有很多研究,但是其工程實現(xiàn)遠遠滿足不了產(chǎn)品級別要求。華為云不斷嘗試創(chuàng)新方法,經(jīng)過理論分析和原型推導驗證,最后利用Hierarchical Clustering實現(xiàn)了服務之間的因果路徑推導,準確率基本達到了90~95%以上,與基于Whitebox方法得到的應用拓撲基本一致,區(qū)別在于不能做到單一transaction的性能追蹤,但對整個應用的性能態(tài)勢感知和瓶頸識別已經(jīng)完全可以滿足問題的及時告警和定界定位。
  我們相信云計算及其應用運維,單純的人海戰(zhàn)術已經(jīng)失靈,而DevOps、AIOps和NoOps是必然選擇。此路漫漫其修遠兮,同道攜手上下求索……
  長按二維碼即可免費體驗
  華為云應用運維APM服務~
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題