日期:2016-03-10 點擊: 關鍵詞:IT運維服務體系建設思路的思考
IT運維服務體系建設,應包含IT運維服務制度、流程、組織、隊伍、技術和對象等方面的內容。同時結合業務特色,整合IT運維服務資源,規范IT運維行為,確保服務質效,形成統一管理、集約高效的一體化IT運維服務體系,從而保障應用系統安全、穩定、高效、持續運行。
鑒于絕大多數公司現有系統的個性及用戶使用習慣等諸多客觀因素,IT運維服務體系的建議追從“易使用、易匯總、易管理”的先后順序,由重到輕的依次解決客觀存在的問題,以便最大程度的加快IT運維服務體系的建設的目標。
IT運維服務體系建設涉及面廣,具體基層操作人員使用困難等諸多因素的限制:
“易使用”,首先需要打開用戶如何能更便捷提交問題的大門,引導基層用戶逐步將長久以來“扔電話”的方式轉變為“提交在線運維工單”記錄的模式;提供給基層用戶一套“易接受、易操作”的在線信息系統運維平臺,進而使得全轄范圍內真正的使用起來。
“易匯總”,其次運維的目的是總結經驗減少乃至避免問題的發生從而減少系統運維成本;并在事中、事后能夠形成信息準確有效的報表協助分析問題并能夠提供出運維報告,從而協助優化問題結構進而達到減少問題提問頻率的目的。準確有效的報表可以協助優化問題,并可以加強上級領導對IT運維工作重視;古語講“做事不由東,累死也無功”,故而準確有效的運維報告就是最有力的數據依據,從而可以提高上級領導對IT運維的重視程度,也可以使得運維人員自身對自己有一個清醒的認識。
“易管理”,最后則是便于后臺系統管理員管理。必需要在滿足 “易使用、易匯總”2個基本條件使得運維體系全面鋪開以后才可進一步考慮深度優化后臺管理的相關事宜。
1、IT運維服務體系建設原則
IT運維服務體系建設的原則有以下幾個方面:
以完善的IT運維服務制度、流程為基礎。為保障運行維護工作的質量和效率,應制定相對完善、切實可行的運行維護管理制度和規范,確定各項運維活動的標準流程和相關崗位設置等,使運維人員在制度和流程的規范和約束下協同操作。
以先進、成熟的運維管理平臺為手段。通過建立統一、集成、開放并可擴展的運維管理平臺,實現對各類運維事件的全面采集、及時處理與合理分析,實現運行維護工作的智能化和高效率。
以高素質的運維服務隊伍為保障。運維服務的順利實施離不開高素質的運維服務人員,因此必須不斷提高運維服務隊伍的專業化水平,才能有效利用技術手段和工具,做好各項運維工作。
2、IT運維服務體系的總體架構
IT運維服務體系由運維服務制度、運維服務流程、運維服務組織、運維服務隊伍、運維技術服務平臺以及運行維護對象六部分組成,涉及制度、人、技術、對象四類因素。制度是規范運維管理工作的基本保障,也是流程建立的基礎。運維服務組織中的相關人員遵照制度要求和標準化的流程,采用先進的運維管理平臺對各類運維對象進行規范化的運行管理和技術操作。
2.1IT運維服務制度和流程
為確保運維服務工作正常、有序、高效、協調地進行,需要根據管理內容和要求制定一系列管理制度,覆蓋各類運維對象,包括從日常運維管理到線下管理以及應急處理的各個方面。此外,為實現運維服務工作流程的規范化和標準化,還需要制定流程規范,確定各流程中的崗位設置、職責分工以及流程執行過程中的相關約束。
2.2IT運維服務組織和隊伍
信息管理部根據其運維服務工作的內容和流程確定各項工作中的崗位設置和職責分工,并按照相應崗位的要求配備所需不同專業、不同層次的人員,組成專業分工下高效協作的運維隊伍。下級公司信息管理部門負責應用系統的部分運維并承擔轄內網絡的運行管理。轄內各下級單位信息管理人員承擔本單位系統運行維護和故障處理。
2.3IT運維服務工作流程
為保障運行維護體系的高效、協調運行,應依據管理環節、管理內容、管理要求制定統一的運行維護工作流程,實現運行維護工作的標準化、規范化。其環節包括事件管理、問題管理、變更管理和配置管理。
2.4IT運維技術服務平臺
運維技術服務平臺包含實施運行維護和技術服務的各種手段和工具,通過技術手段固化標準化的流程、積累和管理運維知識并開展主動性運維工作。
3、IT運維的范圍
集團型企業的核心應用系統的運維由公司總部的信息系統管理部門主要負責,分公司負責基礎運維并向股份公司定期反饋運維情況。
4、IT運維服務體系建設的內容
4.1IT運維管理制度建設
總結現有的運維管理經驗,遵照國內外相關運維標準,結合目前的實際情況,統一制定運維管理制度和規范。通過定期和不定期的檢查,促進各項制度規范在分公司的貫徹落實,從而建立起全轄統一、規范的運行維護管理工作方式。同時,隨著信息化建設的不斷發展,也要確保各項制度的及時更新。制度體系內容要涵蓋機房管理、網絡管理、資產管理、主機和應用管理、存儲和備份管理、技術服務管理、安全管理、文檔管理以及人員管理等類別。各類制度具體內容因需要而定,如網絡管理制度需覆蓋網絡的接入管理、用戶管理、配置管理及網絡日常運行管理和應急處理等。安全管理制度需覆蓋包括機房設施、網絡、主機、數據庫、中間件、應用軟件、數據信息的安全管理、其他機密資源和人員的安全管理以及安全事件的應急處理等。
4.2IT運維技術服務平臺
IT運維技術服務平臺由運維管理系統、運維知識庫構成。
(1)IT運維服務管理系統
運維流程管理系統的建立,可以使日常的運維工作有序化,職責角色清晰化,能夠有效地提高解決問題的速度和質量,使運維部門內的相關支持信息更為暢通、透明、完整,實現知識的積累和管理,更好地進行量化管理和設定優化指標,進行持續地服務改進,最終提高整個運維工作的效率和質量。
(2)IT運維知識庫建設
知識庫建設是信息系統運維體系的重要組成部分,基于統一的技術支持平臺,通過整合股份公司、分公司數據中心、合作單位和協作廠商的技術資源和解決方案,實現對全行有效的技術支持工作。
運行維護知識庫由知識庫平臺和知識庫內容兩部分組成。知識庫平臺包括知識檢索、知識維護與管理等,可以通過純Web方式向服務請求對象提供基于Web的查詢服務和檢索服務,以完全共享知識庫中的知識。
(3)IT運維輔助分析系統
以日常監控平臺、運維響應中心、運維流程管理系統為基礎,通過統計分析,了解運維服務能力與服務質量的現狀,并可以進行趨勢分析,為運維管理決策提供支持。
4.3運行維護管理流程
為加強對信息系統的運行維護管理,確保運行維護體系高效、協調運行,應依據運維管理環節、管理內容、管理要求制定統一的運行維護工作流程,實現運行維護工作的標準化、規范化和自動化。通過建立運維管理流程,可以使日常的運維工作流程化,職責角色更加清晰,從而使解決問題的速度和質量得到有效提高,實現知識積累和知識管理,并可以幫助運維部門進行持續的服務改進,提高服務對象的滿意度。運行維護流程包含的環節有事件管理、問題管理、變更管理及配置管理。
(1)事件管理
所謂事件,是指發生的對IT體系某一環節運行造成影響的事件,包括系統崩潰、軟件故障、任何影響用戶業務操作和系統正常運作的故障、以及影響業務流程的情況,事件也包括一個用戶的請求。
(2)問題管理
問題是指導致事件產生的原因,許多事件往往是由同一個問題引起的。問題的來源主要有以下幾種:①已經處理的事件,經過回顧分析后,可能形成一個問題;②重大事件,雖然經過緊急處理恢復服務,但未找到根本原因,也形成一個問題;③對于趨勢性事件的分析,并形成問題。
問題管理流程可以按照不同領域的問題由相關領域的技術支持專家來處理。要從發生的事件中找出事件的發展趨勢或潛在可能發生的問題,主動提供預防性措施,提高系統可靠性,降低運維成本。
問題管理流程著重于消除事件或減少事件發生,確定事件的根本原因,其流程如下:首先,定期分析事件,找出潛在問題,調查問題以找出其原因,制定解決方案、變通方法或提出預防性措施,以消除產生原因,或在重發時使其影響力最小化。其次,記錄解決方案、變通方法、預防性措施,根據需要添加到知識庫中。再次,提出變更請求,對問題的解決方案進行評估,通過提出變更請求以對該方案進行測試和實施。最后,問題必須進行事后回顧以找出改進機會或總結預防性措施,包括改進事件監測、找出技能差距和文檔資料改進等。
(3)變更管理
變更請求通常由于問題的解決方案中需要對生產環境進行某些改變而產生,變更請求來源于問題管理環節或由用戶提交。變更管理通過一個單一的職能流程來控制和管理整個信息系統運行環境中的一切變更,范圍可包括軟件,硬件,網絡設備和文檔等的變更,其流程如下。
①由用戶或問題管理環節的維護人員提出變更申請,由運維負責人檢查和完善其內容,并進行風險等級、優先級的初步評估。
②通過分類,確定是否為重大變更、緊急變更,如果是常規變更請求,則由運維負責人安排實施;如果是風險等級為“重大”的變更請求,則應上報變更管理小組。
③根據特定的變更請求成立特定的變更管理小組,成員包括對該變更申請有批準權的人員、對該變更的評估和批準提供參考意見的技術人員和管理人員。評估內容包括變更的技術可行性、對系統性能的影響、對現有服務的影響、對資源的需求等。
④變更管理小組評估后決定是否批準變更申請。變更請求得到批準后,運維負責人安排相應資源進行變更的計劃、測試,并制定實施方案,確定實施時間表,分配相應資源,通知請求人。
⑤相應崗位實施變更,運維負責人監視實施過程,并在必要時進行協調。
⑥定期回顧變更管理流程以提高效率和效能,在實施變更流程不久之后,可以進行第一次回顧,以確保流程得到正確實施并達到預期目的。對發現的問題必須追根溯源并盡快解決,之后可以定期舉行回顧。
(4)配置管理
配置管理是服務管理的一個核心流程,能確保應用系統及其運行環境中所有IT設備/系統及其配置信息得到有效完整的記錄和維護,包括各IT設備/系統之間的物理和邏輯關系,從而為實現有效服務管理奠定基礎。
配置管理流程著重于管理生產環境中所有必須控制的組成元素,并為其他相關流程(如事件管理等)提供信息,使這些流程更有效地運行,從而確保應用系統環境的完整性和穩定性,其主要流程內容如下。
①識別和維護配置元素:確定需要進行配置管理的元素及所有必需的配置屬性,并指明與生產環境中其他配置元素之間的關系。對配置管理數據庫提供日常維護。
②配置狀態匯總:根據需要定期產生配置管理報表,并能使相關人員進行相關配置的提取、查詢,定期產生配置項的狀態報告,并能反映配置項的版本和變動歷史。
③審計和確認:定期審核全部或部分配置數據庫中的配置項,確認其和物理環境的一致性,從而確保配置信息的完整性。
④計劃、回顧和改進:定期制定計劃(如半年),以明確下階段配置管理工作;定期回顧流程和審核結果,找出需要改進的配置項。
4.4IT運維知識庫系統
IT運維知識經驗的總結、維護和共享是提高員工運維技能水平、增強單位凝聚力的重要手段,也是把寶貴的經驗教訓從支持人員頭腦逐步沉淀、固化的重要方式。知識維護既要鼓勵員工積極提交知識,防止知識庫變成“空庫”;同時又要及時進行審核和維護,防止知識庫變為“垃圾庫”。
(1)知識來源主要有以下幾個方面:一是各級運維支持人員日常工作中積累的經驗;二是知識管理員總結、導入的經驗。知識管理員研究、獲取外部的知識和經驗后,定期或隨時整理這些知識,導入到知識庫中,供所有用戶共享。知識的獲取、維護是信息網絡管理員的重要職責之一。
(2)知識提交審核。各個系統管理員提交知識到知識庫之后,需要經過知識管理員的審查、修正,才變為正式發布狀態,以減少知識中的謬誤和差錯。知識管理員定期(每季度一次)檢查所有的正式知識,逐條進行核實、修正和優化。修正和維護操作與審核新提交知識草案過程相同。
(3)知識檢索和使用。在知識變為正式的發布狀態之后,可以供各類用戶隨時檢索引用。用戶可以研究學習這些知識,也可以在解決問題的過程中有目的地檢索。知識記錄維護用戶閱讀次數和用戶引用解決問題次數的計數器,引用和閱讀次數越多,該知識的價值越大。
云爍服務,您身邊的IT服務商! 期待與您的合作,相關需求請咨詢在線客服,或致電400-0806-056.
來源:互聯網