湖北數(shù)產(chǎn)集團:智能運維賦能數(shù)字經(jīng)濟,一體化平臺助力轉型
湖北省數(shù)字產(chǎn)業(yè)發(fā)展集團(以下簡稱“湖北數(shù)產(chǎn)集團”)是湖北聯(lián)投集團于2020年6月全資組建的唯一省級數(shù)字產(chǎn)業(yè)投資建設運營平臺,肩負著“科技創(chuàng)新的引領者、產(chǎn)業(yè)發(fā)展的推動者、城市更新的建設者、美好生活的創(chuàng)造者”的使命。集團秉承“政府主導、市場運作”的原則,匯集管理政府數(shù)據(jù)資產(chǎn),激發(fā)數(shù)據(jù)要素價值,培育全數(shù)字產(chǎn)業(yè)鏈的集群生態(tài),具有“省市區(qū)數(shù)據(jù)聯(lián)動、多業(yè)務板塊協(xié)同、本地化長效運營”的核心優(yōu)勢,擔當湖北數(shù)據(jù)要素改革先行軍、數(shù)字經(jīng)濟發(fā)展排頭兵,是湖北省數(shù)字經(jīng)濟高質(zhì)量發(fā)展的“主力軍”,推動產(chǎn)業(yè)轉型升級的重要引擎和龍頭企業(yè),在數(shù)字湖北建設中發(fā)揮國有經(jīng)濟戰(zhàn)略支撐作用。
一、數(shù)字化轉型建設不斷深化,運維面臨新的挑戰(zhàn)
隨著數(shù)字化轉型的浪潮席卷各行各業(yè),企業(yè)運維體系也面臨著前所未有的轉型升級壓力。傳統(tǒng)的運維模式已難以充分滿足企業(yè)對高效、穩(wěn)定、智能運維的需求,特別是在云原生、大數(shù)據(jù)、人工智能等技術快速迭代的當下,運維體系的智能化、自動化、數(shù)字化成為企業(yè)持續(xù)發(fā)展的重要支撐。
在當前運維現(xiàn)狀下,聯(lián)投湖北數(shù)產(chǎn)集團在楚天云、國資云承接的眾多應用系統(tǒng)面臨著系統(tǒng)架構復雜、技術棧多樣、服務調(diào)用關系繁瑣等挑戰(zhàn)。云原生技術的引入進一步加大運維難度,且現(xiàn)有的運維團隊專業(yè)技術人才儲備有限,缺乏一體化、集約化運維手段,運維壓力增加,難以滿足未來架構擴展帶來的技術挑戰(zhàn)。同時,集團對應用系統(tǒng)的高質(zhì)量體驗提出更高要求,使得運維工作面臨新的機遇和挑戰(zhàn):
二、構建業(yè)務管理一體化平臺,打造運維監(jiān)管新體系
面對數(shù)字化轉型帶來的新挑戰(zhàn),湖北數(shù)產(chǎn)集團攜手嘉為藍鯨共同打造業(yè)務管理一體化平臺,構建“縱向監(jiān)督、橫向聯(lián)動”的一體化運維監(jiān)管體系。對于現(xiàn)有存量應用,采用“無感接入、運維融合”的策略;對于新增系統(tǒng),采用“三步走”方法,快速提升應用系統(tǒng)的運維能力,實現(xiàn)運維工作質(zhì)的飛躍。
業(yè)務管理一體化平臺集IT服務臺、統(tǒng)一配置管理、監(jiān)控告警、自動化運維等多種功能于一體,通過統(tǒng)一的平臺,運維團隊能更為高效地管理運維任務,減少信息孤島,提高協(xié)作效率。平臺支持自動化運維工具和運維開發(fā)框架,實現(xiàn)日常運維任務自動化,減少人工干預,提升運維效率與準確性。平臺具備靈活性和擴展性,支持新信創(chuàng)環(huán)境,且能通過API網(wǎng)關,無縫對接國資云、政務云、容器云及本地設備,確保功能模塊間有效協(xié)作,推動運維場景融合。
統(tǒng)一配置管理:建立統(tǒng)一配置管理系統(tǒng),規(guī)范數(shù)據(jù)標準與治理;為業(yè)務交付場景提供數(shù)據(jù)配置、實例拓撲及配置自動采集服務;通過自動化技術實現(xiàn)配置數(shù)據(jù)的增量采集。
統(tǒng)一監(jiān)控管理:構建統(tǒng)一監(jiān)控系統(tǒng),全方位監(jiān)控操作系統(tǒng)、數(shù)據(jù)庫、中間件、云平臺以及業(yè)務應用;基于多層架構,全面采集、處理、分析和展示監(jiān)控數(shù)據(jù);具備自動告警功能,根據(jù)設定閾值和規(guī)則生成告警信息,及時通知運維人員。
集中告警中心:構建集中告警中心,集中處理告警信息,實現(xiàn)自動化分派和自愈;通過靈活的告警策略配置、多渠道通知以及深入分析和趨勢預測,降低運維成本,增強對潛在系統(tǒng)風險的預測能力。
IT服務管理:構建IT服務管理平臺,提供統(tǒng)一訪問入口,集成服務請求、時間、問題、變更和知識管理等流程;支持多渠道訪問,滿足不同角色的需求;插件商店支持功能靈活擴展,具備多種平臺能力。
此外,為確保技術人員能夠熟練掌握新系統(tǒng)的操作,嘉為藍鯨提供了系統(tǒng)的培訓,包括平臺運維培訓、產(chǎn)品使用培訓、腳本開發(fā)培訓與運維開發(fā)培訓等,為集團的運維工作提供有力的知識支持。同時,項目實施后,嘉為藍鯨將提供7x24小時的技術支持,確保系統(tǒng)的穩(wěn)定運行,并及時解決用戶問題。通過建立用戶問題管理機制,運維團隊能夠快速響應用戶需求,提升服務質(zhì)量。
三、業(yè)務管理一體化推動運維數(shù)字化
1、統(tǒng)一配置管理:構建集團企業(yè)級數(shù)據(jù)管理新體系
建設集團企業(yè)級資源管理方案,實現(xiàn)數(shù)據(jù)統(tǒng)一管理,解決了數(shù)據(jù)開放性不足、數(shù)據(jù)質(zhì)量難以保障以及數(shù)據(jù)難以有效度量與復用等挑戰(zhàn)。以業(yè)務為導向,為各交付場景提供多種服務,涵蓋配置項管理、配置庫維護和配置審計等多個方面,保障集團IT配置信息的一致性和準確性。
目前,共設計了40+個IT資產(chǎn)模型對象,納管超過60個業(yè)務系統(tǒng)以及40+臺主機,并采集業(yè)務管理一體化平臺上的中間件和數(shù)據(jù)庫。
2、統(tǒng)一監(jiān)控管理系統(tǒng):全面提升運維效能
構建統(tǒng)一監(jiān)控管理系統(tǒng),全方位監(jiān)控操作系統(tǒng)、數(shù)據(jù)庫、中間件、云平臺以及業(yè)務應用。基于多層架構,全面采集、處理、分析和展示監(jiān)控數(shù)據(jù)。具備自動告警功能,根據(jù)設定閾值和規(guī)則生成告警信息,及時通知運維人員。
目前,監(jiān)控平臺已接入嘉為藍鯨全棧智能觀測中心和阿里云兩個告警源,并監(jiān)控40+臺主機,配置4類中間件、4類數(shù)據(jù)庫以及超過70個撥測任務。
3、統(tǒng)一告警管理:構建高效告警處理閉環(huán)
構建集中告警中心,集中處理告警信息,實現(xiàn)自動化分派和自愈。通過靈活的告警策略配置、多渠道通知以及深入分析和趨勢預測,降低運維成本,增強對潛在系統(tǒng)風險的預測能力。平臺具備告警自愈、告警分析、告警抑制、告警屏蔽、告警轉工單等功能,實現(xiàn)“告警精準捕獲-告警集中接入-告警快速豐富-告警高效抑制-告警主動屏蔽-告警定向派單-告警處理-告警及時關閉”告警事件全生命周期閉環(huán),提高告警處理的效率和準確性。
當前共接入20+個系統(tǒng),平均收斂率90%;截至目前共發(fā)生1100+次原始告警,有效告警轉工單100+。
4、IT服務管理:實現(xiàn)IT服務全生命周期管理
構建IT服務管理平臺,提供完整的IT服務管理流程和服務目錄。通過請求、事件、問題、變更、知識等流程管理服務,實現(xiàn)對IT服務全生命周期的管理和監(jiān)控。平臺支持與自動化執(zhí)行、配置管理系統(tǒng)、集中告警系統(tǒng)的數(shù)據(jù)交換和功能聯(lián)動,滿足流程功能自定義擴展需求。系統(tǒng)共上線8個流程,運行期間產(chǎn)生了20+條工單。
四、總結
通過構建業(yè)務管理一體化平臺,湖北數(shù)產(chǎn)集團的運維效率和質(zhì)量得到提升,實現(xiàn)運維工作的數(shù)字化轉型。未來,該平臺將持續(xù)發(fā)揮強大的運維管理能力,幫助數(shù)產(chǎn)集團更好地應對各種運維挑戰(zhàn)。湖北數(shù)產(chǎn)集團與嘉為藍鯨將共同致力于推動運維管理的創(chuàng)新發(fā)展,不斷深化合作成果,為數(shù)產(chǎn)集團的數(shù)字化轉型和業(yè)務發(fā)展提供強有力的支撐。