您當(dāng)前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

企業(yè)紛紛上云 IT運維如何借力AI實現(xiàn)智能化

2018-04-24 15:41:14   作者:   來源:至頂網(wǎng)   評論:0  點擊:


  隨著AI時代的到來,我們工作和生活中的一切都在被重新定義。企業(yè)在嘗試通過AI技術(shù)提高運維服務(wù)的有效性乃至預(yù)測性,同時降低成本,實現(xiàn)業(yè)務(wù)轉(zhuǎn)型。
  近幾年,各行各業(yè)紛紛擁抱互聯(lián)網(wǎng)+,借助云計算、大數(shù)據(jù)等技術(shù)來實現(xiàn)生產(chǎn)效率的提升,與之相關(guān)的就是企業(yè)IT系統(tǒng)越來越復(fù)雜。IT系統(tǒng)規(guī)模愈大、運維管理精細(xì)化要求更高、運維采集指標(biāo)更多、響應(yīng)時間需求更短等挑戰(zhàn)接踵而來。面對大量運維數(shù)據(jù),以及對數(shù)據(jù)的實時秒級分析處理要求,傳統(tǒng)IT系統(tǒng)和模式越來越難以滿足當(dāng)前運維需求。
  在過去,IT資源都是通過人工進行管理,需要經(jīng)過手動定義系統(tǒng)網(wǎng)絡(luò)架構(gòu)、配置并克隆虛擬機、配置OS、安裝數(shù)據(jù)庫等漫長的流程,才能夠使用,并且在部署過程中,人工操作易出錯。傳統(tǒng)運維壓力很大,疲于奔命和救火,必須要尋求改變,走向自動化、平臺化、智能化。
  在IT服務(wù)管理方面,借助ITSM以及自動化技術(shù)可以有效提升管理效率。ITSM中的自動化工具幫助企業(yè)更高效地提高管理任務(wù),大大縮短應(yīng)用發(fā)布流程,提高IT效率,提升對IT需求的響應(yīng)速度,有效節(jié)省運維、開發(fā)人員的工作時間。
  在IT運維方面,Docker、OpenStack、Puppet等技術(shù)的流行,以及微服務(wù)、CI/CD、DevOps等理念的落地生根,自動化運維的發(fā)展迎來了小高潮。整體來看,自動化運維平臺幫助提升了運維的效率,并減少了因人工疏忽和流程操作失誤而引起的運維故障。
  重新定義IT運維
  隨著企業(yè)加速自身業(yè)務(wù)互聯(lián)網(wǎng)化的進程,新業(yè)務(wù)和新場景不斷涌現(xiàn),這就要求企業(yè)在IT架構(gòu)方面進行與之適應(yīng)的調(diào)整,對于開發(fā)的訴求也更多放到需求實現(xiàn)上面。企業(yè)的數(shù)字化程度越高,運維的管理難度也越大。
  技術(shù)界逐漸催生出了服務(wù)化的軟件架構(gòu),以及持續(xù)交付過程,同時隨著業(yè)務(wù)體量快速膨脹,因服務(wù)化帶來的大量的應(yīng)用管理、持續(xù)交付、監(jiān)控、穩(wěn)定性、成本控制等非功能性體系的建設(shè)和保障就需要有專門的團隊來做,這時對于運維的訴求也在悄然發(fā)生著變化。
  在這個過程中,云計算的發(fā)展改變了IT資源供給模式的同時也對運維管理提出了新的變革要求,傳統(tǒng)的網(wǎng)絡(luò)、硬件和系統(tǒng)維護的職責(zé)在逐漸被弱化,也在逼迫著運維的關(guān)注點從底層轉(zhuǎn)向應(yīng)用和業(yè)務(wù)層面,現(xiàn)有運行制度和人員角色需要進行重新定位。
  AI使能IT運維
  隨著AI時代的到來,我們工作和生活中的一切都在被重新定義。企業(yè)在嘗試通過AI技術(shù)提高運維服務(wù)的有效性乃至預(yù)測性,同時降低成本,實現(xiàn)業(yè)務(wù)轉(zhuǎn)型。
  在2016年,Gartner提出了AIOps的概念,并預(yù)測到2020年,AIOps的采用率將會達(dá)到50%。簡單來說,AIOps就是希望基于已有的運維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等)并通過機器學(xué)習(xí)的方式來進一步解決在IT運維中通過自動化沒辦法解決的問題。
  作為一種將算法集成到工具里的新型運維方式,AIOps可以幫助企業(yè)最大程度的簡化運維工作,把IT從耗時又容易出錯的流程中解放出來。傳統(tǒng)IT運維管理工具更為關(guān)注突發(fā)事件(即告警)、配置和性能,而AIOps則更加關(guān)注問題、分析和預(yù)測,二者可謂互相補充相得益彰。
  有了AIOps,當(dāng)IT出現(xiàn)故障隱患,運維人員不需要再等待系統(tǒng)發(fā)出故障告警,通過內(nèi)置的機器學(xué)習(xí)算法以及大數(shù)據(jù)技術(shù),就能自動發(fā)現(xiàn)系統(tǒng)的各類異常,從而實現(xiàn)從異常入手判斷故障發(fā)生的可能性、嚴(yán)重性和影響,依賴機器對數(shù)據(jù)的分析結(jié)果,判斷最佳的應(yīng)對方案。
  數(shù)據(jù)只有全面才能進行科學(xué)的決策,很多時候如果看到的日志不全,或者拿到的監(jiān)控數(shù)據(jù)不準(zhǔn),在做決策的時候肯定就會比較貿(mào)然。比如數(shù)據(jù)中心某業(yè)務(wù)鏈路出現(xiàn)問題,是不是要切換?數(shù)據(jù)是不是還能保持一致?這個時候在沒有確定的數(shù)據(jù)來支撐你決策之前,你做決策時都會感到比較忐忑,猶豫不前。
  就目前來看,國內(nèi)的百度、搜狗、阿里巴巴等互聯(lián)網(wǎng)廠商已經(jīng)在探索嘗試AIOps,并且取得了不錯的效果。通過支持AIOps能力,平臺能夠提供更大的分析調(diào)整自修復(fù)能力,更進一步提高IT效率。
  如何從錯綜復(fù)雜的運維監(jiān)控數(shù)據(jù)中得出我們所需要的信息和結(jié)果,一句話就是分辨和精煉。同時,確保業(yè)務(wù)和SLA服務(wù)級別,出現(xiàn)問題要及時響應(yīng)、自動分析和優(yōu)化,把處理的流程精簡和高效組合起來,讓問題匹配正確的場景,找到正確的人,在第一時間正確處理。
  機器學(xué)習(xí)需要大量的數(shù)據(jù)來訓(xùn)練,故障出現(xiàn)的形態(tài)是千奇百怪,對故障的歷史數(shù)據(jù)進行場景分類和標(biāo)注,不斷用模式識別和數(shù)據(jù)來訓(xùn)練機器識別和分析,然后讓機器自動準(zhǔn)確判斷。
  基于數(shù)據(jù)和模型來提高事件的處理能力。很多事件有的工程師處理的特別快,反之如果對這個故障不熟悉的人可能花費的時間就很長。這就需要構(gòu)建一個策略知識庫,讓其他人來參考和學(xué)習(xí),提高同類場景事件處理的能力。
  我們以數(shù)據(jù)中心的管理與運維為例,數(shù)據(jù)中心的運維工作主要包括配置管理和監(jiān)控,運維人員每天都要進行大量的模塊維護操作,這個過程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及時發(fā)現(xiàn)所有的故障,另一方面,這一過程中人為失誤的可能性不可避免。將人工智能應(yīng)用于數(shù)據(jù)中心的管理和控制,通過機器學(xué)習(xí)模型進行精細(xì)化管理,可以實現(xiàn)智能化運維的目標(biāo)。
  谷歌可以說是最早在數(shù)據(jù)中心的管理方面運用人工智能技術(shù)的代表了,它使用人工神經(jīng)網(wǎng)絡(luò)對大型數(shù)據(jù)中心的運行進行分析,對數(shù)據(jù)進行了收集和匯總(像數(shù)據(jù)中心基礎(chǔ)設(shè)施的耗電量、為達(dá)到一定制冷效果所用的水的量),通過人工智能計算模型對數(shù)據(jù)中心的運行效率進行分析和評估,提出相應(yīng)的改進數(shù)據(jù)中心運行效率的解決方案。
  結(jié)語
  AI使能下的IT運維目標(biāo)就是減少對人的依賴,逐步信任機器,實現(xiàn)機器的自判、自斷和自決。技術(shù)在不斷進步,AI技術(shù)可以解決一些需要花費大量人力和時間才能解決的事情,但是AI不是一個很純粹的技術(shù),它也需要結(jié)合具體的企業(yè)場景和業(yè)務(wù),通過計算驅(qū)動和數(shù)據(jù)驅(qū)動,才能產(chǎn)生一個真正可用的產(chǎn)品。
  AI下IT運維在企業(yè)的落地,不是一蹴而就的,是一個漸進和價值普及的過程。當(dāng)前,IT運維已經(jīng)處于變革的窗口期,可以預(yù)見在更高效和更多的平臺實踐之后,AIOps將為整個IT領(lǐng)域注入更多新鮮和活力,在未來發(fā)展和壯大下去,成為引領(lǐng)潮流的重要性力量!
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題