近幾年,各行各業(yè)紛紛擁抱互聯(lián)網(wǎng)+,借助云計算、大數(shù)據(jù)等技術(shù)來實現(xiàn)生產(chǎn)效率的提升,與之相關(guān)的就是企業(yè)IT系統(tǒng)越來越復(fù)雜。IT系統(tǒng)規(guī)模愈大、運維管理精細(xì)化要求更高、運維采集指標(biāo)更多、響應(yīng)時間需求更短等挑戰(zhàn)接踵而來。面對大量運維數(shù)據(jù),以及對數(shù)據(jù)的實時秒級分析處理要求,傳統(tǒng)IT系統(tǒng)和模式越來越難以滿足當(dāng)前運維需求。
在過去,IT資源都是通過人工進(jìn)行管理,需要經(jīng)過手動定義系統(tǒng)網(wǎng)絡(luò)架構(gòu)、配置并克隆虛擬機、配置OS、安裝數(shù)據(jù)庫等漫長的流程,才能夠使用,并且在部署過程中,人工操作易出錯。傳統(tǒng)運維壓力很大,疲于奔命和救火,必須要尋求改變,走向自動化、平臺化、智能化。
在IT服務(wù)管理方面,借助ITSM以及自動化技術(shù)可以有效提升管理效率。ITSM中的自動化工具幫助企業(yè)更高效地提高管理任務(wù),大大縮短應(yīng)用發(fā)布流程,提高IT效率,提升對IT需求的響應(yīng)速度,有效節(jié)省運維、開發(fā)人員的工作時間。
在IT運維方面,Docker、OpenStack、Puppet等技術(shù)的流行,以及微服務(wù)、CI/CD、DevOps等理念的落地生根,自動化運維的發(fā)展迎來了小高潮。整體來看,自動化運維平臺幫助提升了運維的效率,并減少了因人工疏忽和流程操作失誤而引起的運維故障。
重新定義IT運維
隨著企業(yè)加速自身業(yè)務(wù)互聯(lián)網(wǎng)化的進(jìn)程,新業(yè)務(wù)和新場景不斷涌現(xiàn),這就要求企業(yè)在IT架構(gòu)方面進(jìn)行與之適應(yīng)的調(diào)整,對于開發(fā)的訴求也更多放到需求實現(xiàn)上面。企業(yè)的數(shù)字化程度越高,運維的管理難度也越大。
技術(shù)界逐漸催生出了服務(wù)化的軟件架構(gòu),以及持續(xù)交付過程,同時隨著業(yè)務(wù)體量快速膨脹,因服務(wù)化帶來的大量的應(yīng)用管理、持續(xù)交付、監(jiān)控、穩(wěn)定性、成本控制等非功能性體系的建設(shè)和保障就需要有專門的團(tuán)隊來做,這時對于運維的訴求也在悄然發(fā)生著變化。
在這個過程中,云計算的發(fā)展改變了IT資源供給模式的同時也對運維管理提出了新的變革要求,傳統(tǒng)的網(wǎng)絡(luò)、硬件和系統(tǒng)維護(hù)的職責(zé)在逐漸被弱化,也在逼迫著運維的關(guān)注點從底層轉(zhuǎn)向應(yīng)用和業(yè)務(wù)層面,現(xiàn)有運行制度和人員角色需要進(jìn)行重新定位。
AI使能IT運維
隨著AI時代的到來,我們工作和生活中的一切都在被重新定義。企業(yè)在嘗試通過AI技術(shù)提高運維服務(wù)的有效性乃至預(yù)測性,同時降低成本,實現(xiàn)業(yè)務(wù)轉(zhuǎn)型。
在2016年,Gartner提出了AIOps的概念,并預(yù)測到2020年,AIOps的采用率將會達(dá)到50%。簡單來說,AIOps就是希望基于已有的運維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等)并通過機器學(xué)習(xí)的方式來進(jìn)一步解決在IT運維中通過自動化沒辦法解決的問題。
作為一種將算法集成到工具里的新型運維方式,AIOps可以幫助企業(yè)最大程度的簡化運維工作,把IT從耗時又容易出錯的流程中解放出來。傳統(tǒng)IT運維管理工具更為關(guān)注突發(fā)事件(即告警)、配置和性能,而AIOps則更加關(guān)注問題、分析和預(yù)測,二者可謂互相補充相得益彰。
有了AIOps,當(dāng)IT出現(xiàn)故障隱患,運維人員不需要再等待系統(tǒng)發(fā)出故障告警,通過內(nèi)置的機器學(xué)習(xí)算法以及大數(shù)據(jù)技術(shù),就能自動發(fā)現(xiàn)系統(tǒng)的各類異常,從而實現(xiàn)從異常入手判斷故障發(fā)生的可能性、嚴(yán)重性和影響,依賴機器對數(shù)據(jù)的分析結(jié)果,判斷最佳的應(yīng)對方案。
數(shù)據(jù)只有全面才能進(jìn)行科學(xué)的決策,很多時候如果看到的日志不全,或者拿到的監(jiān)控數(shù)據(jù)不準(zhǔn),在做決策的時候肯定就會比較貿(mào)然。比如數(shù)據(jù)中心某業(yè)務(wù)鏈路出現(xiàn)問題,是不是要切換?數(shù)據(jù)是不是還能保持一致?這個時候在沒有確定的數(shù)據(jù)來支撐你決策之前,你做決策時都會感到比較忐忑,猶豫不前。
就目前來看,國內(nèi)的百度、搜狗、阿里巴巴等互聯(lián)網(wǎng)廠商已經(jīng)在探索嘗試AIOps,并且取得了不錯的效果。通過支持AIOps能力,平臺能夠提供更大的分析調(diào)整自修復(fù)能力,更進(jìn)一步提高IT效率。
如何從錯綜復(fù)雜的運維監(jiān)控數(shù)據(jù)中得出我們所需要的信息和結(jié)果,一句話就是分辨和精煉。同時,確保業(yè)務(wù)和SLA服務(wù)級別,出現(xiàn)問題要及時響應(yīng)、自動分析和優(yōu)化,把處理的流程精簡和高效組合起來,讓問題匹配正確的場景,找到正確的人,在第一時間正確處理。
機器學(xué)習(xí)需要大量的數(shù)據(jù)來訓(xùn)練,故障出現(xiàn)的形態(tài)是千奇百怪,對故障的歷史數(shù)據(jù)進(jìn)行場景分類和標(biāo)注,不斷用模式識別和數(shù)據(jù)來訓(xùn)練機器識別和分析,然后讓機器自動準(zhǔn)確判斷。
基于數(shù)據(jù)和模型來提高事件的處理能力。很多事件有的工程師處理的特別快,反之如果對這個故障不熟悉的人可能花費的時間就很長。這就需要構(gòu)建一個策略知識庫,讓其他人來參考和學(xué)習(xí),提高同類場景事件處理的能力。
我們以數(shù)據(jù)中心的管理與運維為例,數(shù)據(jù)中心的運維工作主要包括配置管理和監(jiān)控,運維人員每天都要進(jìn)行大量的模塊維護(hù)操作,這個過程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及時發(fā)現(xiàn)所有的故障,另一方面,這一過程中人為失誤的可能性不可避免。將人工智能應(yīng)用于數(shù)據(jù)中心的管理和控制,通過機器學(xué)習(xí)模型進(jìn)行精細(xì)化管理,可以實現(xiàn)智能化運維的目標(biāo)。
谷歌可以說是最早在數(shù)據(jù)中心的管理方面運用人工智能技術(shù)的代表了,它使用人工神經(jīng)網(wǎng)絡(luò)對大型數(shù)據(jù)中心的運行進(jìn)行分析,對數(shù)據(jù)進(jìn)行了收集和匯總(像數(shù)據(jù)中心基礎(chǔ)設(shè)施的耗電量、為達(dá)到一定制冷效果所用的水的量),通過人工智能計算模型對數(shù)據(jù)中心的運行效率進(jìn)行分析和評估,提出相應(yīng)的改進(jìn)數(shù)據(jù)中心運行效率的解決方案。
結(jié)語
AI使能下的IT運維目標(biāo)就是減少對人的依賴,逐步信任機器,實現(xiàn)機器的自判、自斷和自決。技術(shù)在不斷進(jìn)步,AI技術(shù)可以解決一些需要花費大量人力和時間才能解決的事情,但是AI不是一個很純粹的技術(shù),它也需要結(jié)合具體的企業(yè)場景和業(yè)務(wù),通過計算驅(qū)動和數(shù)據(jù)驅(qū)動,才能產(chǎn)生一個真正可用的產(chǎn)品。
AI下IT運維在企業(yè)的落地,不是一蹴而就的,是一個漸進(jìn)和價值普及的過程。當(dāng)前,IT運維已經(jīng)處于變革的窗口期,可以預(yù)見在更高效和更多的平臺實踐之后,AIOps將為整個IT領(lǐng)域注入更多新鮮和活力,在未來發(fā)展和壯大下去,成為引領(lǐng)潮流的重要性力量!