服務(wù)器應(yīng)急響應(yīng)體系PPT課件
,,*,盛大網(wǎng)絡(luò)服務(wù)器應(yīng)急響應(yīng)體系,,2011,年,11,月,內(nèi)容提綱,應(yīng)急響應(yīng)體系介紹,,,應(yīng)急響應(yīng)中的角色以及職責(zé),,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),,,應(yīng)急響應(yīng)中的輔助故障判斷工具,,,情景模擬,應(yīng)急響應(yīng)體系介紹,基本目標(biāo),,,積極預(yù)防,常備不懈;,,及時發(fā)現(xiàn),快速響應(yīng);,,定期分析,及時總結(jié)。,,,適用范圍,,,適用于突發(fā)的,不可預(yù)見的,對用戶(公司內(nèi)、外)造成影響的事件;,,適用于涉及,安全、網(wǎng)絡(luò)、應(yīng)用,在內(nèi)的多方面事件,包括:入侵、網(wǎng)絡(luò)中斷、服務(wù)器硬件故障、服務(wù)對內(nèi)對外不可達(dá)或異常等情況。,應(yīng)急響應(yīng)體系介紹,下列那些屬于應(yīng)急事件?,,,公司居里路辦公樓突然大面積斷電,無法正常辦公。老樓一切正常。,,小,A,的個人電腦無法使用公司網(wǎng)絡(luò),影響辦公。,,張江機(jī)房非我司服務(wù)器受到攻擊,…….,,農(nóng)行系統(tǒng)故障,導(dǎo)致玩家無法用農(nóng)行卡進(jìn)行充值。但我司電商系統(tǒng)正常。,,收取郵件發(fā)生延遲:只是不能及時收取,沒有發(fā)生郵件丟失狀況,,,,,應(yīng)急響應(yīng)體系介紹,體系結(jié)構(gòu)圖,,應(yīng)急體系中期執(zhí)行,應(yīng)急體系前期預(yù)案,應(yīng)急體系后期分析,準(zhǔn)備,/,預(yù)防,收集,/,點評,指導(dǎo),/,改進(jìn),周報,月報,分類統(tǒng)計,培訓(xùn),演習(xí),預(yù)案,報告,處理,協(xié)調(diào),反饋,指導(dǎo),應(yīng)急響應(yīng)體系介紹,整體,,,整個體系由前期預(yù)案、中期執(zhí)行和后期分析三個階段組成,這三個階段循環(huán)往復(fù),以達(dá)到系統(tǒng)不斷完善、改進(jìn)的目的。,,,前期預(yù)案為緊急事件的發(fā)生做預(yù)防準(zhǔn)備工作,后期分析對執(zhí)行中的各項問題進(jìn)行統(tǒng)計分析,分析結(jié)果指導(dǎo)改進(jìn)前期預(yù)防機(jī)制。,,,應(yīng)急響應(yīng)體系介紹,前期,-,培訓(xùn),,,主要對事件判定和處理流程等內(nèi)容的推廣和普及。,,,應(yīng)急響應(yīng)體系介紹,前期,-,預(yù)案,,,服務(wù)器管理員平時應(yīng)針對應(yīng)用、設(shè)備或某種類型的事件分別制定出完整的應(yīng)急預(yù)案。例如:可針對,DNS,、郵件、網(wǎng)站、游戲、網(wǎng)絡(luò)故障、入侵、攻擊等。,,,應(yīng)急預(yù)案的內(nèi)容應(yīng)包括:常見應(yīng)急事件列舉,分析判斷的原則、處理措施,責(zé)任的劃分,事故的報告要求,對應(yīng)的應(yīng)急聯(lián)絡(luò)人等。,應(yīng)急響應(yīng)體系介紹,前期,-,演習(xí),,,針對已發(fā)生過的重大事件進(jìn)行環(huán)境模擬,以摸索驗證突發(fā)事件的標(biāo)準(zhǔn)處理過程。演習(xí)必須嚴(yán)格按照演習(xí)計劃,且在不影響正常工作秩序的情況下進(jìn)行。,,,為保證能快速、準(zhǔn)確的處理公司可能遇到的各種突發(fā)事件,必須定期進(jìn)行演習(xí),一般應(yīng)為,1,至,3,個月進(jìn)行一次。,,,通過應(yīng)急預(yù)案的演習(xí),事件主處理人應(yīng)了解和熟練掌握應(yīng)急預(yù)案中的每一個步驟和方法。,,,每次演習(xí)的結(jié)果和演習(xí)相對于預(yù)案發(fā)現(xiàn)的問題,必須寫入演習(xí)報告,及時進(jìn)行總結(jié),并對預(yù)案進(jìn)行相應(yīng)調(diào)整。,,應(yīng)急響應(yīng)體系介紹,中期執(zhí)行,,,事件處理流程非常重要,直接決定事件處理的質(zhì)量和效率。,,,事件協(xié)調(diào)員統(tǒng)一分機(jī)號碼:,6308,、,6688,,提供,7*24h,值班響應(yīng);,,,事件平臺是統(tǒng)一記錄應(yīng)急事件處理過程的實時溝通、信息共享平臺,http://61.172.241.91:8080/,,應(yīng)急響應(yīng)體系介紹,中期執(zhí)行,,,發(fā)現(xiàn):有兩種情況:網(wǎng)絡(luò)監(jiān)控部通過監(jiān)控手段發(fā)現(xiàn);其他部門或人員發(fā)現(xiàn)的緊急事件。,,,協(xié)調(diào):任何人發(fā)現(xiàn)或接到外部緊急事件報告必須第一時間通知技術(shù)保障中心網(wǎng)絡(luò)監(jiān)控部的事件協(xié)調(diào)員。,,,處理:協(xié)調(diào)員證實事件后會將事件錄入事件平臺,并及時通知事件主負(fù)責(zé)人,在事件處理過程中協(xié)調(diào)員會與事件主處理人隨時保持聯(lián)絡(luò),跟進(jìn)事件的處理進(jìn)展直至影響消除,事件關(guān)閉。,內(nèi)容提綱,應(yīng)急響應(yīng)體系介紹,,,應(yīng)急響應(yīng)中的角色以及職責(zé),,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),,,應(yīng)急響應(yīng)中的輔助故障判斷工具,,,情景模擬,應(yīng)急響應(yīng)中的角色以及職責(zé),應(yīng)急響應(yīng)中的不同角色,,,事件報告人:,監(jiān)控人員,/,其他人員(例如客服、項目組、高層領(lǐng)導(dǎo))。,,,事件協(xié)調(diào)員:,接受緊急事件的報告,,,協(xié)調(diào)各方力量進(jìn)行應(yīng)急事件處理。,,,事件主處理人:,核心處理人員,負(fù)責(zé)調(diào)度事件處理人和各方資源去處理緊急事件。,,,協(xié)助處理人:,是緊急事件的協(xié)同處理人員,接受事件主負(fù)責(zé)人分配的工作。,,應(yīng)急響應(yīng)中的角色以及職責(zé),事件報告人的職責(zé),,,任何人,發(fā)現(xiàn)或接到外部緊急事件后,不論事件是否與自己、自己所在的項目有關(guān),均有責(zé)任在,第一時間通知技術(shù)保障中心網(wǎng)絡(luò)監(jiān)控部的事件協(xié)調(diào)員。,,,事件協(xié)調(diào)員的職責(zé),,,判斷事件類型和等級,通知事件主處理人;,,記錄事件發(fā)生梗概,跟進(jìn)事件處理進(jìn)展,并記錄到事件平臺,直至影響消除,事件關(guān)閉。,應(yīng)急響應(yīng)中的角色以及職責(zé),事件主處理人的職責(zé),,,事件主處理人必須具有,上網(wǎng)條件,,如果你接到通知作為事件主處理人,而又不具備上網(wǎng)條件時,你應(yīng)該,重新指派某人作為事件主處理人,并向協(xié)調(diào)員說明情況,讓他通知你所指派的人作為事件主處理人,。,,,接到協(xié)調(diào)員通知作為事件主處理人且具備上網(wǎng)條件的,應(yīng)該對協(xié)調(diào)員描述的問題,進(jìn)行初步檢查、分析和判斷。事件主處理人有責(zé)任負(fù)責(zé)聯(lián)系、協(xié)調(diào)其他協(xié)助處理人。對不屬于自己業(yè)務(wù)范圍的,向事件協(xié)調(diào)人反饋,通知其他事件處理人處理,。,應(yīng)急響應(yīng)中的角色以及職責(zé),事件處理人一旦確定事件屬于本職范圍內(nèi), 應(yīng)該,立即登陸事件平臺,打開當(dāng)前事件,(即進(jìn)入交流界面),,獲取事件概況并進(jìn)行相應(yīng)處理,;在處理過程中,可以通知其他相關(guān)人員加入交流界面協(xié)助處理,并將,處理進(jìn)展情況及時與在線人員溝通,,實現(xiàn)信息共享。,,,事件主負(fù)責(zé)人應(yīng)主動反饋事件處理進(jìn)展情況;,遇到協(xié)調(diào)員提問應(yīng)實事求是給予明確答復(fù),絕對不允許置之不理,防礙相關(guān)人員了解情況;更不能故意隱藏事故真相,逃避事故責(zé)任,。,應(yīng)急響應(yīng)中的角色以及職責(zé),事件主處理人通過事件平臺溝通界面統(tǒng)籌指揮處理過程,,當(dāng)事件處理結(jié)束時,主處理人應(yīng)及時通知事件協(xié)調(diào)員關(guān)閉事件,。,,,對于重大事件、不合理事件事件主處理人必須在事后提供,《,事件報告,》,。,應(yīng)急響應(yīng)中的角色以及職責(zé),協(xié)助處理人的職責(zé),,,配合事件主處理人對緊急事件進(jìn)行應(yīng)急響應(yīng),,接受事件主處理人的調(diào)度,。,,,在配合事件主處理人進(jìn)行處理的過程中,,隨時將處理進(jìn)展向事件主處理人報告,。,應(yīng)急響應(yīng)中的角色以及職責(zé),事件報告必須在一個工作日內(nèi)完成,必須包含以下內(nèi)容,,,事件發(fā)生時間,/,處理完成時間,,,事件類型,/IDC,機(jī)房,,,影響簡述(范圍,/,人數(shù),/,時長),,,原因,/,責(zé)任分析,,,處理過程(按時間記錄處理進(jìn)展),,,處理優(yōu)化建議,應(yīng)急響應(yīng)中的角色以及職責(zé),事件平臺界面,應(yīng)急響應(yīng)中的角色以及職責(zé),事件平臺界面,,應(yīng)急響應(yīng)中的角色以及職責(zé),應(yīng)急響應(yīng)中的角色以及職責(zé),事件報告撰寫界面,內(nèi)容提綱,應(yīng)急響應(yīng)體系介紹,,,應(yīng)急響應(yīng)中的角色以及職責(zé),,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),,,應(yīng)急響應(yīng)中的輔助故障判斷工具,,,情景模擬,應(yīng)急事件等級劃分標(biāo)準(zhǔn),應(yīng)急事件根據(jù)故障類型劃分為三大類,,網(wǎng)絡(luò)事件:,,,網(wǎng)絡(luò)中斷、網(wǎng)絡(luò)延遲增大、路由環(huán)路、交換機(jī)故障等;,,,安全事件:,,被入侵、感染病毒、受攻擊、中木馬、中蠕蟲等;,,,應(yīng)用事件:,,硬件故障:,cpu/,硬盤,/,內(nèi)存,/raid,卡,/,網(wǎng)卡,/,主板,/,電源;,,服務(wù),/,程序:失去響應(yīng)、自動重啟;,,服務(wù)器宕機(jī)等;,,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),事件等級反映了事件對業(yè)務(wù)的影響程度,,共分為三級。,,,一級事件指可能會,對公司造成重大損失,的緊急事件。,,,二級事件指可能,對公司某部分業(yè)務(wù)造成較大損失,的緊急事件。,,,三級事件指可能,對公司個別業(yè)務(wù)造成一定影響,的緊急事件。,應(yīng)急事件等級劃分標(biāo)準(zhǔn),應(yīng)急事件等級劃分表,應(yīng)急事件等級劃分標(biāo)準(zhǔn),核心業(yè)務(wù),,,計費、沖值、電子商務(wù)、密寶、DNS、集中備份、盛大通行證,,,主要業(yè)務(wù),,,各游戲服務(wù)器、數(shù)據(jù)庫、令牌服務(wù)器、郵件服務(wù)器、公司官方網(wǎng)站、以及傳奇、傳世、夢幻、冒險島、,BNB,、,DDO,、,Archlord,、游戲官方網(wǎng)站、圈圈、,P2P,、,EZ,、淘金樂園、積分游戲、客服事件遞交系統(tǒng)、外部應(yīng)用監(jiān)控平臺、事件平臺系統(tǒng)、人數(shù)監(jiān)控系統(tǒng)、,OCTOPOD,、,NETVIEW,、,KM,,,其他業(yè)務(wù),,核心業(yè)務(wù)和主要業(yè)務(wù)之外的其他業(yè)務(wù),應(yīng)急事件等級劃分標(biāo)準(zhǔn),核心機(jī)房,,,上海張江機(jī)房、上海外高橋機(jī)房,,,主要機(jī)房,,,南京電信龍江機(jī)房、上海網(wǎng)通漕河涇機(jī)房、北京電信通機(jī)房、哈爾濱網(wǎng)通第二樞紐機(jī)房、西安電信西部數(shù)據(jù)中心機(jī)房、杭州電信崗一號機(jī)房、成都天府熱線國際大廈機(jī)房、成都天府熱線二樞機(jī)房、武漢電信南垸機(jī)房、 廣州七星崗機(jī)房、青島網(wǎng)通二樞紐機(jī)房,,,其他機(jī)房,,其他合作,IDC,機(jī)房,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),輔助的細(xì)分判斷標(biāo)準(zhǔn)(一),,應(yīng)急事件等級劃分標(biāo)準(zhǔn),輔助的細(xì)分判斷標(biāo)準(zhǔn)(二),,應(yīng)急事件等級劃分標(biāo)準(zhǔn),試判斷以下事件的等級:,,,某日凌晨客服反饋:部分玩家 無法使用農(nóng)行卡進(jìn)行充值,我司技術(shù)人員結(jié)果檢查發(fā)現(xiàn):我方電商系統(tǒng)運行良好,為農(nóng)行系統(tǒng)故障。聯(lián)系農(nóng)行人員,,30,分鐘后故障解決。,,,,內(nèi)容提綱,應(yīng)急響應(yīng)體系介紹,,,應(yīng)急響應(yīng)中的角色以及職責(zé),,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),,,應(yīng)急響應(yīng)中的輔助故障判斷工具,,,情景模擬,應(yīng)急響應(yīng)中的輔助故障判斷工具,人數(shù)監(jiān)控二期(監(jiān)控),,應(yīng)急響應(yīng)中的輔助故障判斷工具,人數(shù)監(jiān)控二期(監(jiān)控)人數(shù)查詢界面,,應(yīng)急響應(yīng)中的輔助故障判斷工具,CobWeb,,應(yīng)急響應(yīng)中的輔助故障判斷工具,CobWeb,的節(jié)點分時走勢圖,,應(yīng)急響應(yīng)中的輔助故障判斷工具,CobWeb,的節(jié)點到節(jié)點分時走勢圖,,應(yīng)急響應(yīng)中的輔助故障判斷工具,人數(shù)監(jiān)控二期(分析),,應(yīng)急響應(yīng)中的輔助故障判斷工具,人數(shù)監(jiān)控二期(分析)選擇曲線對比界面,,應(yīng)急響應(yīng)中的輔助故障判斷工具,人數(shù)監(jiān)控二期(分析)選擇曲線對比界面,,應(yīng)急響應(yīng)中的輔助故障判斷工具,人數(shù)監(jiān)控二期(分析)明細(xì)查詢界面,,內(nèi)容提綱,應(yīng)急響應(yīng)體系介紹,,,應(yīng)急響應(yīng)中的角色以及職責(zé),,,應(yīng)急事件等級劃分標(biāo)準(zhǔn),,,應(yīng)急響應(yīng)中的輔助故障判斷工具,,,情景模擬,情景模擬,2006,年,1,月,30,日,23,:,55,泡泡堂監(jiān)控值班,A,下樓吃晚餐,監(jiān)控任務(wù)暫交傳奇監(jiān)控值班,B,代看,這時,B,發(fā)現(xiàn)泡泡堂,2,區(qū)人數(shù)突降,31000,多人,這時,B,該怎么辦?,,,首先判斷屬于應(yīng)急事件,,,應(yīng)立即打,6308,電話分機(jī)報告協(xié)調(diào)員,,情景模擬,協(xié)調(diào)員接到應(yīng)急事件報告,確認(rèn)情況后通知泡泡堂技術(shù)經(jīng)理,C,作為事件主負(fù)責(zé)人,并在事件平臺上新建事件,,情景模擬,泡泡堂技術(shù)經(jīng)理,C,接到協(xié)調(diào)員電話通知時,正在杭州出差無法處理,但能初步判斷事件可能和,2,區(qū)的游戲登陸服務(wù)器有關(guān),這時,C,該做些什么?,,,向協(xié)調(diào)員說明情況,并指定新的事件主負(fù)責(zé)人,情景模擬,協(xié)調(diào)員通知經(jīng)理指定人員,-,技術(shù)工程師,D,作為新的主負(fù)責(zé)人,,D,在家,可以上網(wǎng),這時,D,該做些什么?,,,立即登陸事件平臺,打開當(dāng)前事件,進(jìn)行協(xié)調(diào)處理,情景模擬,技術(shù)工程師,D,在線指導(dǎo)值班人員重啟泡泡堂,2,區(qū)登陸服務(wù)器,經(jīng)觀察后無效 ;后查看游戲服務(wù)器日志,發(fā)現(xiàn)與,DB,連接異常。由于值班人員無權(quán)限連,DB,,,D,在家有,IPsec,限制、登陸,DB,有防火墻限制,所以在家無法繼續(xù)進(jìn)行處理,而深夜也沒有項目值班。在這個階段中,D,應(yīng)該做些什么?接著該怎么辦?,,,在事件平臺上及時反饋處理過程和進(jìn)展,,,通知合適人員協(xié)助處理,情景模擬,技術(shù)工程師,D,通知住在公司附近的項目組成員,E,立即趕往公司進(jìn)行處理。,E,趕往公司清理,DB,空間,重啟全區(qū),人數(shù)回升至正常。,E,在工作中應(yīng)該做些什么?,,,同樣登陸事件平臺,隨時匯報事件處理進(jìn)展。,,情景模擬,事件至此是否已經(jīng)結(jié)束?結(jié)束的標(biāo)準(zhǔn)是什么?確認(rèn)事件結(jié)束后,主負(fù)責(zé)人還需要做哪件事?,,,結(jié)束,,,對公司業(yè)務(wù)影響或?qū)τ脩粲绊懴?,事件就結(jié)束了,,,通知協(xié)調(diào)員關(guān)閉當(dāng)前事件,Q&A,