日期:2016-01-04 點擊: 關鍵詞:IT運維工程師如何規避可能發生的故障?
虛擬化、容器、NoSQL、Hadoop、Spark......層出不窮,令人眼花繚亂,云計算、大數據、移動通信等互聯網新技術不斷演進,系統IT運維服務的技術含量越來越大,對系統IT運維服務人員的綜合素質及能力要求也越來越高,系統IT運維也不再是部署系統、寫管理腳本那么簡單了。
而且,隨著業務應用越來越復雜,設備數量越來越多,管理難度越來越高,IT運維服務人員必須高屋建瓴,全面謀劃,有能力提供一個全局性、高效健壯、標準規范、自動化的解決方案并加以實現。51CTO記者就系統運維的職業技能要求、工作中會遇到哪些難點和解決方案,以及IT運維人員的職業發展等問題,請教了韓曉光老師。如下內容是采訪實錄,希望大家能夠有所收益。
韓曉光,專業IT運維、兼職開發、干過商務,從事系統運維工作近10年。現就職于新華網(http://www.xinhuanet.com/),帶領IT運維開發團隊,承擔社交互動媒體幾十套業務系統、技術平臺運維。
曾就職于中航信旗下航空結算公司,承擔國內外幾十家民航業務系統運維。
具有“信息系統項目管理師”、“IBM CATE”、“ITIL Foundation”、“RHCE”專業資格認證。
一、您是怎樣入行的呢?剛入行時,遇到了哪些令人苦惱的問題?
記得90年代末,中國互聯網迎來了春天,搭上了世界IT行業的末班車。那個時候,電視、冰箱、洗衣機還是奢侈三大件。我們小伙伴們還在搖桿式游戲廳度過,至于電腦是什么鬼,我們都很少接觸到。后來,有一次混進電腦室,面對窗明幾凈,齊刷刷的電腦,我小有震撼,但體驗并不好,就是學敲五筆。記得電腦里還有超級瑪麗,但我很疑惑:這么神秘的電腦房怎么還不如街頭游戲廳好玩呢:)。
再往后,我懷著一種憧憬選擇了計算機專業。那個時候,IT互聯網剛剛經歷了2000年前后的陣痛。起初有了OICQ,新浪,Yahoo,郵箱,再后來有了Google,有了百度,再后來有了博客、校內、開心。再后來,我畢業了,陣痛和迷茫了,我要干什么呢?
我曾經整過ERP ,做過Symbian,干過監理,弄過項目,也講過課,可是都沒找到感覺。后來我進入航空結算中心,開始接觸到IT運維工作,當初次進入企業級機房時,我被各種大型機,小型機,X86,以及機房(的轟鳴聲)又一次震撼了。
原來IT幕后是這樣的啊!我心里想,這貌似挺好玩的。從此,便走上了運維的“不歸路”,直至現在還“無法自拔”。可能人生就是這樣,在各種機緣巧合下,冥冥之中,你驀然回首,發現自己竟然在這個人生道路上已走了那么遠…….
在享受職業工作帶來享受的同時,也會經歷各種陣痛。
記得我的同事師傅喊我去機房進行設備上架布線。他帶個手套,我很疑惑,他笑了笑,再然后,我的手被機架導軌劃破流血了,他說他也是這么經歷過的。術業有專攻,原來上架布線還有這么多學問,一個好的機房建設,其風火水電,人、事、物流程其中也都大有學問。
剛接觸運維工作時,會突然冒出很多新鮮東西,有軟件也有硬件的,有文檔性也有技術性工作……這其中,有喜歡也有不喜歡的,有熟悉也有不熟悉的,但最終都是要面對的。
對于從新手到經驗者的轉變過程,往往會有一個煎熬的過程,熬得住就算入行了,熬不住則就仍然在徘徊、浮游中度過。
IT運維服務工作需要很多技能知識,有點像雜耍藝人的感覺,因此要有耐心,要虛心,多交流,一定要多實踐,不要認為書本上學到的就靠譜。
對于IT運維服務工作,不論新手還是老手,都可能經常遇到一系列痛處。比如以下幾個場景。
干IT運維服務工作需要有責任心,勇于擔當,巧干實干,但不能無腦地干,否則后果可能很嚴重,或許一個命令下去,全系統over,這樣案例在IT圈里還是很多的,后果是不堪設想的。
二、在您近十年的工作經驗里,有哪些讓您印象深刻的故障發生?您是如何解決的?
作為運維工作者,故障往往是必經之路。從到處救火的消防員到洞若觀火的觀察員職業發展道路上不斷磨練。這也是鳳凰涅槃,浴火重生,走向運維大神的必修課。
在我這些年的運維工作中,可謂故障叢生,五花八門,有合同流程問題,也有SLA服務問題,當然更多的是具體運維故障。作為職業IT消防員,我們在面對故障問題時,請盡量保持冷靜頭腦,有條不絮處理問題,不可輕舉妄動,避免導致次生故障。但同時也不能瞻前顧后太多,什么都不去嘗試,導致故障持續時間大大延長。處理運維故障,膽大心細是關鍵。
下面說幾個我具體經歷的故障。
故障一:小型機AIX系統報ADAPT[注]ER ERROR
這種故障是比較危險的也比較難處理,原因在于導致該故障的原因較多,故障后果很嚴重。很多故障原因都可能導致該錯誤信息,比如網卡故障、HBA故障、存儲故障、光纖線故障、交換機故障等等都可能導致該報錯信息,難以快速定位故障點在哪里。該故障導致的后果很嚴重,不是斷網就是斷數據…..后果可想而知……
對于故障處理要有流程規范,不能沒有章法。對上述故障,通常我的解決思路:
1.首先考慮該故障影響等級、范圍、都關聯什么業務,人員。是否需要上報或者請求支持。
2.查系統日志,尋找故障時間前后什么人登陸了,做了什么動作,發生了什么事情。
3.這里經查是HBA故障,那就繼續查看其關聯的SAN交換機端口是否狀態正常。
4.這里經查SAN交換機端口不亮。那就繼續查看是光纖線是否正常(有無光亮)。
5.最后定位在SFP光纖模塊故障。更換后,設備、線路、系統恢復正常。
6.處理業務邏輯問題。然后請業務人員驗證。
故障二:CentOS系統中GlusterFS副本無法同步
對于有些故障,其對技術的準確理解是解決技術難題的重要技能。既有的經驗和網絡上同行類似經驗都是很好的解決思路。
對于上述問題,既然無法同步,那么權限是否有問題呢?很快我們發現其mount的NFS無法讀寫,但df顯示還有很多剩余空間。隨后,我們又發現原來是inode用盡了。既然問題找到,那么就隨之解決inode數量問題。最后,同步glustefs,解決了問題。
故障三:小型機CPU故障
有時候設備硬件會異常故障,對此意外,往往出現在不恰當的時間、地點。我曾經遇到過小型機CPU故障,直接導致宕機,后果當然很嚴重。我們不得不備份恢復業務,遷移系統。
廠商配合我們解決問題,后來定位到CPU故障。其中有一個奇葩的現象和理由:同型號的產品對比國外,放到國內運行幾年就很容易出問題,故障的設備往往都灰塵堆積,特別的臟。
對上述故障,我們的反思總結:什么樣的故障都可能發生,不是別人都沒有發生過你就不能發生,因此做好應急備份,做好系統架構才是關鍵。后來我們的災備體系,HA集群都逐漸加強與完善。
三、在日常工作中,IT運維工程師如何規避可能發生的故障?
故障總會發生,沒有一個IT企業的運維會高枕無憂。但我們可以做到防微杜漸,大事化小,小事化了。在日常工作中,做好事前預測防范,事中解決應急,事后分析總結。
要想提高運維水平,盡量規避風險故障,從根本上需要建立一個好的運維體系。運維體系是運維的基礎和核心。通過運維體系的構建及完善,使我們的運維做到穩定可靠(+微信關注網絡世界),準確完備,規范科學。
從某種角度來看,系統運維體系可以用一個四面體來描述,包括四大方面:人、事、物、流程標準。
從人、事、物、流程這四個方面便可以很好地將運維體系進行解構,它們彼此互相作用,共同構建了一個完整實用的運維體系。
如果上述任何一個維度失衡,那么整個運維體系就是短板,水桶效應。例如隨著業務的發展,IT運維環境也要隨之發展。需要做的事情多了,可以花錢招兵買馬,購買新的軟硬件設備。但流程標準是否能配套跟得上IT發展呢?如果流程標準跟不上,那么可能做起事情就會一團糟糕,遍地是坑,舉步維艱。人力技能層次搭配不合理,職責混亂不清,資產設備管理混亂,不符合業務需要,此時可能就算招再多的人,購買再多的設備,只會使運維工作更加糟糕。
生產物件需要有模型,建設樓房需要有框架,干運維工作同樣需要構建體系。一個良好的框架體系是運維安全的最大保障。
綜上所述,這里列舉一些具體的措施,以期盡量規避和減輕故障影響。
1.排查安全隱患并進行整改。
2.故障分析的PDCA流程,查缺補漏。
3.按規章流程辦事。
4.建立應急預案體系。
5.定期不定期(桌面、實際)演練。
四、請您談下對IT運維發展趨勢的看法。
未來的發展總會有很多大家意料之外的事情,否則就不是未來的發展了。正如我們二十年前很難想到當今的移動互聯網時代。
但我覺得基于當前去暢想一下未來是很有意義的,因為今天的結果就是昨天的努力探索結果,而明天的結果也將是今天努力探索的結果。
1.云計算迅猛發展,混合云[注]廣泛應用。正如我有私家車,但我也會使用公共交通工具;我有自己的房子住所,但我也會去住酒店賓館。出于不同的業務發展需要,私有云[注]、公有云[注]、混合云的發展都將各有其應用場景。
2.由于互聯網+,物聯網,大數據、云計算等各種理念技術的發展,這些都將對運維工作帶來巨大的機遇與挑戰。很多企業都處在傳統IDC運維方式與云運維方式探索中。縱向行業大數據的海量運維服務正在廣泛興起。
3.傳統IT運維與互聯網IT運維仍將長期并存。基于IOE架構的業務系統正在處于轉型中,但基于開源互聯網技術的成功經驗也并非都能復制。
4.運維開發是一種趨勢,是一種最佳實踐。對于廣大運維工作者是技術轉型的一種好的思路。
5.運維部門由成本中心向利潤中心的轉變,運維工作由基建、救火角色向戰略服務的轉變。
五、您認為運維工程師,日常需要經常充電嗎?請您推薦些比較優秀的學習途徑?
時代在不斷發展,IT產業日新月異,今天的經驗知識未必還適用于明天,因此我們需要持續充電學習。
以前可以做個百年老店,現在能撐住二三十年的就是模范,可見時代變換之快。如今各種線上線下學習、培訓、交流日趨頻繁,你有沒有感覺到今年的各種交流會特別多呢?
每個人都有各自的學習方式。說說我的一些體會,僅作參考。
1.首先是自學成才,一切問題的解決首先要靠自己。
2.有目的、有輕重緩急地去研究學習新技術。
3.樂于互相分享知識經驗,互相幫助協作。
4.學習、研究外界同行/大師的經驗。
六、您新出了一本運維實戰指南書籍《系統運維全面解析:技術、管理與實踐》,從三個方面進行了介紹,其中您提到不僅僅是運維知識的敘述總結,同時更是對運維體系,運維之道探索的過程。那么,您認為的運維之道什么呢?
首先,說說本書《系統運維全面解析:技術、管理與實踐》,曾參與本書創作及運維開發的同事有:呂四海、彭燃、史影、童寧、高浩天、任勇斌、王天維。本書目前獲得了很多讀者的好評,算是達到了本書的初衷:希望帶給大家的是思路和視野。給大家帶來一束光亮,縱然不能照明所有模糊不清的地方,至少讓大家看到一個路子,找到一個方向,減少大家摸索成長中的迷惑與歧路。
所謂大道自然,IT運維服務工作理應立足實際,放眼未來。每個行業、每個企業,每個人獨特之處,彼此的成功有可復制之處,也有不可復制之處。真正的大神是磨練出來的,紙上得來終覺淺,只有不斷認知與實踐,做到知行合一,方為至善,至IT運維之大道。
大方無隅,大象無形,IT運維的大境界應該是大家都想不起來IT運維。唯有走出自己的IT運維大道,方能撥開云霧,放眼四海,剖解問題猶如隨風入夜、潤物無聲,IT運維決策于千里之外。
行文不易,最后感謝馬艷鋒(中國航空結算公司資深工程師,存儲團隊負責人)對本訪談提出的寶貴的建議與支持。
來源:互聯網