您當(dāng)前的位置是:  首頁 > 新聞 > 文章精選 >
 首頁 > 新聞 > 文章精選 >

聽云科技趙宇辰:AI加業(yè)務(wù)運維成就商業(yè)價值

2019-01-24 09:41:07   作者:   來源:CAME體驗云研究院微信公眾號   評論:0  點擊:


  近日,易谷網(wǎng)絡(luò)“云相伴AI相隨”智能服務(wù)與營銷客戶大會在蘇州太湖萬豪酒店舉行。聽云科技首席科學(xué)家高級副總裁趙宇辰先生的主題演講分享:AI加業(yè)務(wù)運維成就商業(yè)價值。
  聽云科技首席科學(xué)家高級副總裁趙宇辰先生分享:
  大家下午好,我來自于聽云。講之前我先切個題,今天下午的主題分為兩塊,一塊叫AI相隨,一塊叫云相伴,我這個場正好是AI相隨的最后一場,又銜接著云相伴,大家如果看我們這個公司的名稱“聽云”也正好跟云相關(guān),其實聽云一直是從事AI賦能于云生態(tài)的一個廠商,具體我們做什么呢?可能很多在座的伙伴沒有聽過聽云,聽云是做應(yīng)用性能監(jiān)控,英文叫APM,我們這個應(yīng)用是指廣義的應(yīng)用,比如手機(jī)端的APP,包括網(wǎng)頁到后端的JAVA、程序等等,只要是數(shù)字化相關(guān)的東西,在我們看來都是為了輔助業(yè)務(wù)而做的應(yīng)用,我們聽云的職責(zé)就是把這些業(yè)務(wù)上的應(yīng)用正常的維持下去,保障我們業(yè)務(wù)的正常運行。
  其實在APM領(lǐng)域,在應(yīng)用性能監(jiān)控方面,聽云作為國際權(quán)威榜單GartierAPM魔力象限里中國唯一入圍的公司,2015年到2018年也和國際廠商進(jìn)行了很多次的交流,也受到了很多的認(rèn)可。在Linux基金會的CNL榜單中監(jiān)控類中國公司中,聽云和阿里、華為等等一起進(jìn)入了這個榜單。
  同時聽云是一個有十二年成長經(jīng)驗的公司,在這十二年中我們服務(wù)了非常多的企業(yè),比如金融支付、運營商及云服務(wù)、能源交通、科技制造、電子商務(wù)等等,小到幾十人的公司大到BAT,從互聯(lián)網(wǎng)到傳統(tǒng)的企業(yè)我們都服務(wù)過。
  結(jié)合我們今天的話題,十二年前我們剛開始的時候服務(wù)了很多互聯(lián)網(wǎng)的企業(yè),現(xiàn)在我們發(fā)現(xiàn)服務(wù)了越來越多傳統(tǒng)的企業(yè),這是微軟的Satya說的一句話,現(xiàn)在不管你是高科技還是傳統(tǒng)企業(yè)還是互聯(lián)網(wǎng),很多企業(yè)都運行在軟件或者應(yīng)用之上,所有的軟件、所有的應(yīng)用都依賴于數(shù)字化,我們正是服務(wù)好這些數(shù)字化。
  我們也發(fā)現(xiàn)數(shù)字化帶來了很多挑戰(zhàn),以前我們?nèi)ャy行直接去柜臺就可以了,現(xiàn)在我們都通過手機(jī)APP來進(jìn)行操作,這時候挑戰(zhàn)就來了,如果它的體驗不好的話,很多用戶可能會留下很多不好的印象,比如我們看蘋果APP市場里面,就會有很多評論,為什么這個APP打不開,為什么體驗這么差。
  對于數(shù)字化來說帶來這么大的挑戰(zhàn),但是一旦我的后端程序或者前端的APP不能正常工作了,直接影響了我后端業(yè)務(wù)的表現(xiàn),直接影響到今天的貸款量,今天到底有多少業(yè)務(wù)中斷了,所以應(yīng)用的性能直接影響到業(yè)務(wù)的表現(xiàn)。舉一個國外銀行的例子,大家可能都聽過巴克萊銀行的例子,是歐洲一個很大的銀行。在2017年某一個下午突然服務(wù)器崩潰,崩潰時間不長,只有90分鐘,但是這個崩潰造成了什么樣的影響呢?它造成的影響是用戶無法操作ATM,他在ATM取款的時候客戶很難正常操作,數(shù)千上萬客戶受到了影響,這個時候社交媒體就涌出了大量的客戶憤怒的抱怨,同時在媒體上面也有相應(yīng)的報道。對于巴克萊銀行的直接經(jīng)濟(jì)損失可能達(dá)到了上千萬元,有人說我就花17美分去購買一個香蕉它都不讓我去購買,我感到很羞愧。
  我們看到應(yīng)用是否正常運行其實直接影響到我們的業(yè)務(wù),在數(shù)字化的情況下對我們運維產(chǎn)生了非常大的挑戰(zhàn),比如我們簡單的在手機(jī)端查詢余額或者進(jìn)行轉(zhuǎn)帳的簡單操作,在我們看來很簡單,輕觸一下手機(jī)轉(zhuǎn)帳成功。但其實在后端我們看下來它有非常多的不同的數(shù)據(jù)的操作,數(shù)據(jù)的交互在進(jìn)行,可能我們輕輕的點擊后端生成了上千條的數(shù)據(jù),F(xiàn)在我們也看到很多新的技術(shù)也引入進(jìn)來,比如云計算、敏捷開發(fā)、大數(shù)據(jù)、人工智能、微服務(wù)等等,這些新的概念也涌進(jìn)來,各行各業(yè)都受到了影響,不光是銀行。
  如何在這些新的東西引入進(jìn)來的時候,能讓我們把運維服務(wù)做好,同時把我們的業(yè)務(wù)做好,這是一個非常難的難題。整體來說我們聽云的解決方案是什么呢?在我們左邊看起來,左邊是真實的用戶,比如說它可能是通過APP去訪問這個業(yè)務(wù),也有可能是通過瀏覽器去訪問這個業(yè)務(wù),他經(jīng)過了一系列網(wǎng)絡(luò)之后來到了右邊,基于云的基礎(chǔ)架構(gòu),私有化的基礎(chǔ)架構(gòu)之上有一些自己的業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)可能訪問不同的程序。
  聽云做的第一件事兒是什么呢?就是在全球有幾十萬的布點,在中國覆蓋了所有主流的鄉(xiāng)、市、鎮(zhèn),聽云這款產(chǎn)品叫Network是模仿真實的用戶訪問情況,主動的訪問后面的應(yīng)用情況,來判斷是不是應(yīng)用正在正常的進(jìn)行當(dāng)中。同時光有這個也不夠,我們還想知道真實用戶是怎么樣的,所以我們看到在真實用戶這兒有一個聽云APP產(chǎn)品,它可以監(jiān)控真實用戶APP的使用場景。在國內(nèi)我們現(xiàn)在大概有6億終端,可能后面都嵌的是聽云的SDK,可以獲取到真實的APP的響應(yīng)情況,有沒有崩潰,對于業(yè)務(wù)是否正常操作等等。這個只是覆蓋了用戶的前端,從用戶的角度來看這個問題。我們看看是不是能從后端也把它監(jiān)控起來。在基礎(chǔ)架構(gòu)之上我們也有一個聽云Sys的產(chǎn)品,覆蓋整個基礎(chǔ)架構(gòu)的監(jiān)控,同時在這個上面具體的業(yè)務(wù),我們有聽云的Server來覆蓋這樣的產(chǎn)品,所以整體來說我們打造了一個全平臺的產(chǎn)品,希望從用戶端一直打造到最后的服務(wù)器端或者云上,或者私有化各種場景下我們都能把相應(yīng)的數(shù)據(jù)采集到。
  具體我們能干什么呢?第一個,輔助研發(fā)測試,第二個,日常運維,第三,體驗改進(jìn),第四,運營優(yōu)化。我把這四點稍稍展開一點,講一些細(xì)節(jié)。研發(fā)測試其實痛點是什么,可能大家做業(yè)務(wù)的時候偶爾也會給研發(fā)測試的進(jìn)行溝通,會發(fā)現(xiàn)研發(fā)測試很難去完整的測試出APP,我這個應(yīng)用系統(tǒng)到底是否正常,它總會出現(xiàn)一些異常的情況。剛上線之后可能會出現(xiàn)大量不可控的bug和故障,IT團(tuán)隊時時刻刻都處于救火的狀態(tài),給用戶帶來不好的體驗,甚至嚴(yán)重影響業(yè)務(wù)的正常運行。面對這樣的挑戰(zhàn),我們通過興業(yè)銀行的一個落地案例來體現(xiàn)聽云如何應(yīng)對類似的研發(fā)測試場景。
  在興業(yè)銀行這兒我們可以快速的定位排查,比如我們的代碼中有沒有BUG,手機(jī)APP有沒有崩潰,有沒有各種異常,同時我們覆蓋了興業(yè)各種主流的APP包括我的網(wǎng)銀、家庭銀行、信用卡包括一些小程序等等。
  我們再看一個具體的實際的能力,剛剛也看到了,比如我們看到了一個后端的程序可能是跨過了多個服務(wù)器或者多個組件進(jìn)行的,如何把這些服務(wù)器、組件統(tǒng)一的綜合的看起來,我們會有一個全棧溯源式問題追蹤,能快速的知道到底具體是哪個服務(wù)器或者哪個具體的代碼出現(xiàn)了問題。同時我們也具有代碼級的根源分析能力,以前需要一些專家級的人員來進(jìn)行長時間的判斷,現(xiàn)在我們可以很快的把具體每一行代碼,哪一塊具體的錯誤給查找出來。
  日常運營的時候其實我們發(fā)現(xiàn)對于一些正常出現(xiàn)的業(yè)務(wù)失敗,比如無法登錄,APP閃退等等,很多時候我們是被動的解決問題,比如用戶投訴或者社交網(wǎng)絡(luò)上有人抱怨了,或者APP市場里面有人提意見了,這個時候我們才被動的解決問題。同時這個問題很難去有效的定位,比如可能會進(jìn)到網(wǎng)絡(luò)部門,網(wǎng)絡(luò)部門可能會覺得網(wǎng)絡(luò)沒有問題,那就流轉(zhuǎn)到數(shù)據(jù)庫部門,數(shù)據(jù)庫覺得數(shù)據(jù)庫也沒有問題,一看好像各個部門都覺得沒有什么問題,這就造成了一個非常耗時去解決真正問題的問題。
  舉一個興業(yè)銀行的例子,這邊我們應(yīng)用到了網(wǎng)絡(luò)金融部,覆蓋了多個渠道的服務(wù)器,當(dāng)這個事情真正發(fā)生的時候,比如有一些故障真正發(fā)生的時候不需要用戶主動來找我,而是我通過一些報警的機(jī)制主動的發(fā)現(xiàn)一些問題,這些報警會主動指出一些錯誤,我可能還能通過報表到底是哪個指標(biāo)出了錯誤。甚至我能看到每一個網(wǎng)絡(luò)請求,甚至每一個設(shè)備它們到底是哪里出現(xiàn)了問題,可以快速、精確的定位到具體的問題。
  我們再舉一個模仿落地的例子,這個是用聽云Network主動去探測尋找問題的案例,這條線明顯跟其他線不太一樣,講的是三大運營商,說明網(wǎng)銀業(yè)務(wù)的可用性突然下降了,同時三大運營商的客戶都受到了影響。我們再仔細(xì)下降一點,發(fā)現(xiàn)大量的線上任務(wù)超時,很多頁面超過60秒都不能打開。這個時候我們就要分析問題了,要通過一些比較偏技術(shù)的,比如說Ping、Tracer去看。最后我們發(fā)現(xiàn)是數(shù)據(jù)庫的變更造成的,那可以很快的去確定這個范圍,不在網(wǎng)絡(luò)部,在數(shù)據(jù)部門,可以盡快的去解決這樣的問題。其實我們碰到了很多這樣的場景,同樣是三大運營商受到了影響,但是后來發(fā)現(xiàn)根本不是數(shù)據(jù)庫的問題,而是DNS被劫持了,那我們就需要去那個城市或者那個省份去解決DNS劫持的問題。
  同時我們發(fā)現(xiàn)類似的場景還很多,背后的原因可能是多種多樣的。再舉一個例子,突然某一個運營商的波動特別大,它的延時特別長,那我們的建議是什么呢?趕緊聯(lián)系這個運營商,跟這個運營商探討一下到農(nóng)行的線路是不是有什么故障。
  所以我們看到一個簡單的問題,一個網(wǎng)銀慢的問題,可能它發(fā)生的根源是多種多樣的,只有通過數(shù)據(jù)和工具的手段能讓我們更好的服務(wù)好我們的客戶。這個例子也是20%的資源加載不出,可能在我測試這兒看來沒有問題,我的網(wǎng)站打開都沒問題,但是就有20%的客戶投訴說慢了,為什么呢?最后我們發(fā)現(xiàn)是適配的問題。
  第三點,如何用聽云來提升今天的體驗和客戶成功。在滿足客戶的基本需求之后,我們很難去進(jìn)一步提升客戶的體驗,比如說很多客戶會投訴慢、響應(yīng)時間長、效率低等等,怎么去解決這個問題呢?我來舉一個在光大銀行落地的實例,光大銀行大家看,左邊是光大銀行的網(wǎng)絡(luò)和APP,右邊是他們后端的架構(gòu),同時我們就把聽云的APP產(chǎn)品聽云的Sys產(chǎn)品部署在廣大上,一邊是監(jiān)控用戶端,一邊是監(jiān)控后端。當(dāng)用戶發(fā)生響應(yīng)時間慢,加載不出來的情況怎么辦呢?這個時候我們會聯(lián)系研發(fā)人員,去看到底崩潰、慢請求是什么原因。甚至我們能夠做到個性化的判斷,可能個別的用戶他不能訪問這個網(wǎng)站,但不代表所有客戶不能訪問這個網(wǎng)站,所以我們可以進(jìn)行個性化的用戶體驗,具體的去排除潛在的原因,然后把這個原因提交給業(yè)務(wù)人員,同時業(yè)務(wù)人員再把類似的信息提交給客服人員,這時候客服人員可能就可以確定確實剛剛發(fā)生了這樣的問題,問題可能出在什么地方,我們可能會用什么樣的方式來去解決這樣的問題。
  為什么剛剛說可以個性化呢?我們可以把具體的用戶定位出來,比如根據(jù)他的手機(jī)號或者唯一標(biāo)識符可以具體定義到它發(fā)生的崩潰,比如在崩潰之前他進(jìn)行了哪些操作,可能查了余額又提交了一個貸款申請,突然崩潰了,這個操作軌跡我們都能還原出來,以及相應(yīng)的技術(shù)方面的代碼歸棧等等我們都可以拿出來,第一是幫助客服人員去確認(rèn)確實有這樣的問題,更快的把這些錯誤信息傳遞到后端,讓開發(fā)人員去解決這樣的問題。
  第四個,運營優(yōu)化。在銀行內(nèi)部經(jīng)常會進(jìn)行一些營銷活動,比如需要拿一些用戶畫像,線上的營銷活動的跟蹤,精準(zhǔn)營銷等等。我們也可以把相應(yīng)的數(shù)據(jù)拿下來,不管是從APP端還是網(wǎng)頁端,我們都可以做漏斗轉(zhuǎn)化、留存分析、用戶體驗包括最后的用戶路徑,包括打用戶行為溯源等等。
  剛剛講四大場景,研發(fā)測試、體驗改進(jìn)、日常運維、運營優(yōu)化,我們講了三個例子,農(nóng)行、光大、興業(yè)。聽云在成長過程中也在不斷的發(fā)展,我們立足于應(yīng)用性能監(jiān)控也做了多方面的拓展,一方面希望能做到橫向拓展,能拓寬業(yè)務(wù)邊界,不光是我們知道有哪些代碼錯誤,哪些報錯,404,網(wǎng)頁錯誤等等,這些是給研發(fā)人員看的。在業(yè)務(wù)層面看是需要知道業(yè)務(wù)的可能性是怎么樣的,手下可能有幾十個業(yè)務(wù),業(yè)務(wù)下面可能還有子業(yè)務(wù),它們的表現(xiàn)怎么樣,有多少業(yè)務(wù)今天已經(jīng)完成了,有多少業(yè)務(wù)出錯了,這是我關(guān)心的事情。如何用業(yè)務(wù)的信息跟IT的信息結(jié)合起來,幫助我們的業(yè)務(wù)做更好的決策。
  另一方面我們希望能做縱向擴(kuò)展,利用AI人工智能的技術(shù),希望能幫助客戶提高效率,減少解決問題的時間,盡量能幫助他們更好的實現(xiàn)業(yè)務(wù)上的發(fā)展。
  一個是我們?nèi)绾谓Y(jié)合業(yè)務(wù)運維,這是南方電網(wǎng)的案例,可以把南方電網(wǎng)的業(yè)務(wù)建模成N層的構(gòu)建,比如它有它的營銷體系、4A平臺、資產(chǎn)管理等等,這些業(yè)務(wù)之下還有他們的子業(yè)務(wù),可能是呈樹狀結(jié)構(gòu)。對于每個業(yè)務(wù)流程怎么去分析,他們的業(yè)務(wù)操作有哪些,對于全棧的業(yè)務(wù),各種指標(biāo)如何做分析和判斷,做數(shù)據(jù)挖掘,這個是我們業(yè)務(wù)運維的場景。
  同時在AI方面,一個是智能警報,傳統(tǒng)上來說,可能很多時候我要做報警,我要去手動設(shè)置非常多的東西,去指定我要去什么東西做報警,上限是什么,下限是什么,閾值是什么,在現(xiàn)在看來我們希望把產(chǎn)品做的盡量簡單。用戶幾乎不需要進(jìn)行任何的輸入,背后我們有多個算法在同時進(jìn)行各種操作,判斷出來是不是當(dāng)前的場景異常,然后提醒客戶。
  其實我們發(fā)現(xiàn)異常之后這只是第一步,我們告訴你可能你現(xiàn)在APP有點問題,你的整個業(yè)務(wù)受到一些影響,但是客戶得解決問題,他得知道到底這個錯誤在什么地方,怎么去定位這個問題。比如我們看到這邊有一個波峰,在那段時間可能整個響應(yīng)時間變長了,對于業(yè)務(wù)方來說用戶體驗就下降了,對于運維來說也很難去挖到具體的根源是什么。
  我們做了一鍵根源分析的系統(tǒng),結(jié)合了大數(shù)據(jù)和實時計算,能夠快速的一鍵定位到真正的根源。比如這個例子,可能某一個城市的主站網(wǎng)絡(luò)發(fā)生了問題,或者新的Android版本發(fā)生了問題,定位這個問題我可能需要幾天甚至幾周的時間去把這個問題,現(xiàn)在我只需要輕輕一點,通過后臺大量的數(shù)據(jù)我可以分析出這個異常的潛在的根因是什么。
  在我們聽云看來,整個數(shù)字化分為五步,從一開始的IT是獨立成本中心,后來逐漸成了IT支撐業(yè)務(wù),到后來成了競爭優(yōu)勢,我們聽云希望幫助客戶在轉(zhuǎn)型當(dāng)中讓數(shù)字化成為業(yè)務(wù)的本身,同時可以讓我們的數(shù)字化和IT從一個成本中心變成它真正的競爭優(yōu)勢。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)