09-MOTGSM無線內(nèi)部培訓(xùn)講義-BSC告警和告警處理
單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,*,單擊此處編輯母版標(biāo)題樣式,,MOT GSM,無線設(shè)備培訓(xùn),——BSC,告警和告警處理,——·,覃道滿,1,學(xué)習(xí)目標(biāo),掌握告警格式與組成,2,3,熟悉告警處理流程,學(xué)習(xí)內(nèi)容,告警格式和組成,,,告警處理流程,,,BSC,非正常重啟分析,,,簡述,機(jī)房運行維護(hù)人員經(jīng)常會碰到告警,有些告警是操作維護(hù)過程中自然產(chǎn)生的,有些告警是瞬時性的,不會影響系統(tǒng)正常運行,但大多數(shù)告警是會影響系統(tǒng)性能的,有的甚至?xí)?dǎo)致,BSS,復(fù)位,對移動通信系統(tǒng)造成嚴(yán)重影響。因此對于運維人員來說,了解告警系統(tǒng),掌握一定的告警分析和處理技能,顯得非常重要。,,告警系統(tǒng)是為了故障定位,系統(tǒng)性能分析及方便維護(hù)而設(shè)置的。,,告警信息可以在,OMCR,的告警窗口上顯示,也可以在本地維護(hù)終端(,LMT,)上顯示。,BSS,產(chǎn)生的告警信息,以字符的形式發(fā)往,OMCR,。,告警的種類和格式,告警可以分為硬件告警和軟件告警兩種:,,硬件告警是由于,BSS,內(nèi)的硬件故障所引起的告警。,,軟件告警是由,GPROC,檢測到軟件進(jìn)程運行出錯所引起的告警,,只有,GPROC,設(shè)備(,BSP,,,CSFP,,,DHP,,,BTP,,,pool GPROC,)才會產(chǎn)生軟件告警信息。,,,,告警舉例,#0,,–,,NEW,,–,,,*,NONE,*.,,,,,CommuncationFailureEvent-,CAGE,- BSS0,1,(BSS0,1,:SITE-0:): 0 CAGE 1 - 30/03/1999 14:23:56.,,,[18],Expansion KSWX Slot 22 Communication Failure - FMIC - Major - -/-.,,,(BSS01:SITE-0:):0 SITE Impacted to Major.,,,,,,告警解析,#0:告警ID,,NEW:告警狀態(tài),,NONE:正在處理此告警的人員,,CommuncationFailureEvent:告警的類型,,CAGE:告警級,,BSS01(BSS01:SITE-0:): 0 CAGE 1:發(fā)生告警的位置,,30/03/1999 14:23:56:告警發(fā)生時間,,[18]:告警編號,,Expansion KSWX Slot 22 (見框架配置表)Communication Failure:告警描述,,FMIC:告警的去除類型,,Major:告警嚴(yán)重等級(主要告警),,(BSS01:SITE-0:): 0 SITE Impacted to Major:告警附加信息,附,:BSC,機(jī)框配置圖,告警編號,告警編號對于每種設(shè)備都有唯一的一個十進(jìn)制數(shù)表示。每種設(shè)備的告警編號從0到254。(見附錄)對于不同的設(shè)備告警編號可能重復(fù),但與設(shè)備相關(guān)的編號是唯一的。有些情況下同樣的告警編號表示類似的告警。 例如242號告警表示設(shè)備退出效勞(MMS\MTL\RSL)。,,,告警消除類型,告警的去除類型可分為三類:,,Intermittent,,Fault Management Initiated Clear(FMIC),,Operator Initiated Clear(OIC),,Intermittent表示告警是偶發(fā)性的,對系統(tǒng)沒有危害。此告警發(fā)生后在OMCR會自動消除。當(dāng)此類告警頻繁產(chǎn)生時,會增加OML鏈路的負(fù)荷。我們可以使用disp_throttle命令來查看告警門限設(shè)置,還可用chg_throttle命令調(diào)節(jié)其門限值。,,FMIC告警的去除由系統(tǒng)的錯誤管理進(jìn)程(Fault Managerment Process)自動進(jìn)行。FM進(jìn)程管理一張現(xiàn)有告警的列表,只有當(dāng)告警產(chǎn)生的原因消失后FM才會產(chǎn)生‘clear’ 消息將此告警從告警列表中刪除。,,OIC需要由操作人員手動將告警去除。FM進(jìn)程檢測到告警產(chǎn)生并判斷為OIC類型時,將此告警參加現(xiàn)有告警列表中。此后FM不再進(jìn)行任何處理。當(dāng)操作人員將告警產(chǎn)生的原因解決后,必須將此告警去除。,去除告警步驟,在OMCR和BSC上均能夠去除告警。OMCR上去除告警按以下步驟進(jìn)行:,,翻開告警窗口,單擊鼠標(biāo)左鍵選中要去除的告警項,,單擊鼠標(biāo)右鍵彈出快捷菜單,,選擇快捷菜單的“Handle〞,,選擇快捷菜單的“Clear〞,,確認(rèn)告警已被去除,,在BSS上去除告警,先使用disp_act_alarm命令查看有哪些OIC告警。然后使用del_act_alarm命令將告警去除。去除命令如下:,,del_act_alarm (只對OIC告警),告警的類型,,OMCR,將告警分成六種不同的類型,可以在,OMCR,的告警說明中找到,"FailureEvents",字段,其為不同類型告警的名稱。,附,:,告警類型表,類型,,含義,,舉例,,Communication,,數(shù)據(jù)從一點傳到另一點時發(fā)生錯誤而產(chǎn)生的告警,,一般當(dāng)信令丟失或呼叫建立出錯時發(fā)生此種告警,1,、,mms syn loss,2,、,frame slip daily,3,、,bit error,4,、,dri-ctu activelinkcommunication failure(,critical,),,Quality of Service,,系統(tǒng)的服務(wù)質(zhì)量下降時產(chǎn)生此告警,,一般當(dāng)消息響應(yīng)超時或帶寬減少時會發(fā)生此種告警:多見于時鐘失鎖,gclk_mcuf phase lock failure,(,major,),,Processing,,當(dāng)軟件或進(jìn)程出現(xiàn)錯誤時產(chǎn)生此告警,,一般當(dāng)進(jìn)程數(shù)據(jù)被破壞或系統(tǒng)內(nèi)存溢出時產(chǎn)生此種告警,dri-CTU channelcoder internal messageerror,—,intermittent,(,warning,),,Equipment,,當(dāng)硬件出錯時產(chǎn)生此告警。,,一般當(dāng)出現(xiàn)配置錯誤,傳輸、電源等問題時產(chǎn)生此種告警,dri standby link communication failure(,minor,),,Environment,,當(dāng)設(shè)備所處的環(huán)境不利于正常工作時產(chǎn)生告警,,一般當(dāng)出現(xiàn)煙霧,火光被檢測到時產(chǎn)生此種告警,,Link,,當(dāng),OMCR,與,BSS,間的,X.25,鏈路出現(xiàn)問題時產(chǎn)生此告警,,告警的等級,影響,,行動,,舉例,,嚴(yán)重,,(Critical),,已經(jīng)影響了系統(tǒng)的服務(wù),,應(yīng)該立即采取措施,,當(dāng)系統(tǒng)的某一功能出現(xiàn)此種告警而退出服務(wù),應(yīng)立即將其恢復(fù)。,,重大,,(Major),,已經(jīng)影響了系統(tǒng)的服務(wù),,應(yīng)該馬上采取措施,,系統(tǒng)的服務(wù)容量降低,此時應(yīng)采取措施恢復(fù)容量。,,較輕,,(Minor),,此錯誤不會對系統(tǒng)的服務(wù)造成影響,,應(yīng)采取措施減少更多的此類告警產(chǎn)生,,當(dāng)此種告警數(shù)量不斷增加時,系統(tǒng)的容量可能受到影響。,,警告,,(Waring),,潛在產(chǎn)生影響系統(tǒng)服務(wù)的告警的可能,,如果必要應(yīng)該進(jìn)行必要的分析,采取措施避免產(chǎn)生更嚴(yán)重的告警,,清除,,(Clear),,告警已經(jīng)被清除,,無,,待定,,(Investigate),,表明此錯誤的等級無法確定,需要人工進(jìn)一步分析,,進(jìn)一步查找原因,,,,發(fā)現(xiàn)告警,第一種方法:OMCR桌面圖形界面GUI上的ALARM按鈕,,在OMCR桌面圖形界面GUI上雙擊告警按鈕,翻開告警窗口,可以看到所有網(wǎng)元(NE)的告警信息;,,第二種方法:通過GUI上的EVENT MANEGMENT,,點擊GUI上的EVENT MAMT按鈕,翻開Display Subscription List窗口,選擇窗口中告警中的一項,選擇open按鈕就翻開告警窗口;,,第三種方法:翻開MAP圖,然后選中對應(yīng)的單元節(jié)點,,從NETWORK MAP上查看告警,單擊GUI上的NETWORK MAP按鈕,翻開MAP LIST窗口,選定其中的一個網(wǎng)元,雙擊鼠標(biāo)左鍵翻開MAP窗口,在MAP圖上用鼠標(biāo)左鍵點擊要查看的網(wǎng)絡(luò)單元節(jié)點,選中后接點會變?yōu)樽仙?,單擊鼠?biāo)右鍵在快捷菜單內(nèi)選擇ALARM項,此時會出現(xiàn)告警窗口顯示此節(jié)點單元的所有告警。,,用disp_act_alarm 命令行查看告警.,告警處理優(yōu)先級別,我們可以根據(jù)告警的嚴(yán)重級別,以及出現(xiàn)告警的網(wǎng)元在系統(tǒng)中的重要性,對不同的告警情況進(jìn)行相應(yīng)的處理。在此我們提供一般原則下的優(yōu)先級別。對于基站來說從,RXCDR,到,BSC,,再到,BTS,;信令鏈路按照,MTL,、,RSL,、,XBL,的次序;告警嚴(yán)重級別由高到低分別是,Critical,、,Major,、,Minor,、,Warning,、,Investigate,、,Clear,。在相同的告警級別中,,Critical,告警按照以下順序,All RXCDR-All MTL -All BSC-All RSL-All BTS-All X.25 link-All other Critical alarms,。,Major,告警按照以下順序,All RXCDR-All BSC-All BTS-All other Major alarms,。其它告警按照,Minor,、,Warning,、,Investigate,、,Clear alarms,的順序進(jìn)行處理。,附,:,告警優(yōu)先級別圖,告警處理優(yōu)先級別,:,The sites,,,Remote Transcoder (RXCDR),,,Base Station Controller (BSC),,,Base Transceiver Station (BTS),,The links,,,Message Transfer part Link (MTL),,,Radio Signalling Link (RSL),,,X.25 link,,,,Critical,告警按照以下順序:,,,All RXCDR - Critical alarms,,,All MTL - Critical alarms,,,All BSC - Critical alarms,,,All RSL - Critical alarms,,,All BTS - Critical alarms,,,All X.25 link - Critical alarms,,,All other Critical alarms,,設(shè)備之間的附屬關(guān)系(parent-child),當(dāng)某個設(shè)備或鏈路處于,OOS,等非正常狀態(tài)時,不僅與起本身相關(guān),而且與其上一級(,parent,)設(shè)備有關(guān),對,parent,設(shè)備進(jìn)行進(jìn)行必要的處理是解決問題的重要手段。如果某個設(shè)備處于,OOS,等狀態(tài)下,此設(shè)備下一級(,child,)設(shè)備將也不能正常工作。,Device,,1,st,parent dev,,2,nd,parent dev,,3,rd,parent dev,,4,th,parent dev,,RSL,,MMS,,MSI,,CAGE,,CAB SITE BSS,,MTL,,MMS,,MSI,,CAGE,,CAB SITE BSS,,OML,,MMS,,MSI,,TCU,,DRI,,CAB,,SITE BSS,,XBL,,MMS,,MSI,,CAGE,,CAB SITE BSS,,告警處理的流程,查看告警,,,分清告警的級別,,,明確與告警有關(guān)的設(shè)備,,,根據(jù)告警手冊或經(jīng)驗對告警進(jìn)行處理,,,解決問題,消除告警,,常見告警及其處理方法,常見告警及其處理方法,.doc,BSC,非正常重啟分析,BSC,在網(wǎng)絡(luò)中的位置和作用,,重啟分類,,原因分析,,實例分析,,BSC,日常 維護(hù)應(yīng)注意的事項,,BSC,穩(wěn)定運行的條件,BSC,在網(wǎng)絡(luò)中的位置和作用,在GSM無線通信系統(tǒng)中,BSC作為基站控制器,是BSS子系統(tǒng)的關(guān)鍵節(jié)點,一套BSC管理幾十個基站和GPRS網(wǎng)絡(luò)關(guān)鍵節(jié)點PCU。BSC同時作為GSM語音業(yè)務(wù)和GPRS數(shù)據(jù)業(yè)務(wù)的無線關(guān)鍵設(shè)備,其作用可歸納為:無線管理、電路交換和接續(xù)以及協(xié)議轉(zhuǎn)換。BSC重啟,即BSC 退出效勞的過程,將中斷BSS子系統(tǒng)目前正在進(jìn)行的工作,受該BSC所控制的語音業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)將不能提供效勞,影響相當(dāng)嚴(yán)重。,附,:BSC,在網(wǎng)絡(luò)中的位置圖,BSC,在網(wǎng)絡(luò)中的位置,:,MSC,XCDR,BSC,BTS2,BTS1,PCU,SGSN,G,,P,,R,,S,,,G,,S,,M,,,,重啟原因分類,系統(tǒng)因故障自動重啟,,人為操作導(dǎo)致系統(tǒng)重啟,重啟原因分析,機(jī)房環(huán)境和動力。,,BSC,硬件故障。,,各種,LINK,的故障。,,總線的,Failured,。,,BSC,軟件故障。,,改變數(shù)據(jù)庫和參數(shù)設(shè)置。,,,機(jī)房環(huán)境和動力,主要是頻繁出現(xiàn)高溫告警,或灰塵比較大,或電源供給中斷或不穩(wěn)定造成的。高溫或灰塵比較大的時候,對那些運行時間已比較長的設(shè)備威脅比較大,當(dāng)某個芯片因灰塵積累得比較多而又散熱不充分時,芯片有可能因過熱被燒毀,芯片所在的插板將會退出效勞,當(dāng)系統(tǒng)容錯機(jī)制失效時,為了排除故障,系統(tǒng)將不可防止地自動重啟,若系統(tǒng)不能自己排除故障,在人為干預(yù)之前,系統(tǒng)將會一直處于重啟狀態(tài)。,BSC,硬件故障,這里說的硬件主要是插在BSC機(jī)框中的各種插板,每個插板的功能不同,出現(xiàn)故障時對整個BSC的影響也是不同的。從機(jī)框的背板到插槽上的每一塊插板的故障都有可能導(dǎo)致系統(tǒng)退出效勞,特別是系統(tǒng)不能識別故障板件時,重啟將不可防止地發(fā)生,其中GPROC(處理器板)、GCLK(時鐘)、LANx和KSWx (時隙交換擴(kuò)展板),因數(shù)量多或作用關(guān)鍵,出現(xiàn)故障時容易引起B(yǎng)SC的重啟。這其中又以時鐘板最為重要。,各種,LINK,的故障,與BSC相連的LINK有MTL、RSL、OML、XBL、GSL。對BSC影響最大的是MTL和GSL兩種鏈路,有可能導(dǎo)致BSC自動重啟或BSC中有死進(jìn)程存在,有死進(jìn)程時系統(tǒng)運行將非常緩慢,命令無法執(zhí)行,需要人為重啟BSC來去除。,總線的,Failured (1),PBUS:PBUS即Processor Bus ,它是MCAP總線在軟件上的一種表示,負(fù)責(zé)GPROC與其他大的插板(XCDR、GCLK、KSW、DRI)之間的通信。PBUS Device Failured的原因可能是:,,①LANx 板Faulty;,,③某塊板件故障。,,②可能是FTP(故障傳輸局部)和FCP(故障收集局部)之間的錯誤引起的。,,第三種情況屬于軟件故障,需要人為重啟BSC來重啟這兩個進(jìn)程。,總線的,Failured (2),SBUS:SBUS即Serial Bus ,它上面的通信由GPROC控制,主要負(fù)責(zé)GPROC與小插板板(如LANx、KSWx、CLKx)之間的通信。每個機(jī)框的SBUS也是一主一備的,但它們被分配不同的任務(wù),Standby 不享有Active SBUS的功能。,,當(dāng)SBUS failured后,BSC有可能會重啟,局部故障不會引起重啟。重啟結(jié)束后,如果SBUS仍然是不可用狀態(tài),那么就必須去檢查具體原因了。SBUS有故障時,必須考慮所有被主GPROC控制的SBUS上的通信。導(dǎo)致SBUS Failured的原因有以下幾種可能:,,①LANx插板沒有插到位,與背板的連接不正確,或光纖沒有連接好或連接了錯誤的光纖。,,②LANx插板Failured。,,③GPROC板Failured,導(dǎo)致SBUS上的通信不正常。,,④BTC板不能給背板供電。,總線的,Failured (3),TBUS:TBUS即TDM BUS 。它由KSW控制,每對KSW為系統(tǒng)提供1024個交換時隙,分配給其它大的插板如GPROC、MSI、XCDR、KSW使用,時隙可擴(kuò)展和擴(kuò)容。在TDM高速總線故障的情況下,系統(tǒng)的主用TBUS將會退出效勞,系統(tǒng)將要求TDM highway做倒換,進(jìn)而將會使所有機(jī)框里的的TBUS一起做倒換,如果此時備用的TBUS不可用,倒換將不能成功,機(jī)框?qū)顺鲂?,系統(tǒng)將會要求整個BSC重啟。引起TBUS Failured的原因可能如下:,,①連接本地與遠(yuǎn)端KSWx的光纖有問題,或者斷了。,,②KSWx插板Failured。,,③KSW插板故障或不可用。,總線的,Failured (4),CBUS,:,CBUS,即,Clock Distribution Bus,,通過此總線系統(tǒng)將時鐘信號傳送到機(jī)框背板。給各種大的插板,GPROC,、,KSW,、,MSI,、,XCDR,等插板提供時鐘,,CBUS,在整個系統(tǒng)一主一備的。當(dāng)主用的,CBUS,有故障時,系統(tǒng)會自動倒換到備用的,CBUS,,當(dāng)然備用的,CBUS,在此時是必須可用的。當(dāng)備用的,CBUS,不可用而系統(tǒng)倒換時,,BSC,將重啟。引起,CBUS Disabled,的原因可能如下:,,①GCLK,板硬件故障。,,②,擴(kuò)展時鐘信號的光纖有問題。,,③,擴(kuò)展時鐘信號的,KSWx,插板和,CLKx,插板故障。,,BSC,軟件故障,GPROC的內(nèi)存問題。我們知道,GPROC在BSC中處于相當(dāng)重要的位置是因為它擔(dān)任了控制處理功能,GPROC的CUP也有一定的工作極限,當(dāng)用作BSP的GPROC的CPU使用率到達(dá)100%,出現(xiàn)BSP[239] process safe test audit failure(檢測不到BSP板)告警,此時軟件故障可以稱為進(jìn)程吊死。遇到這種告警時,需要在BSC現(xiàn)場關(guān)掉OML,即將Slot16、Slot14板開關(guān)下置為 “disable〞,重啟BSC。為了節(jié)省故障恢復(fù)時間,可進(jìn)入第3層,等待出現(xiàn)[waiting for OMC-R]的提示時輸入如下命令:Msg_send 80 0 0 0 1978h---跳過從OMC-R下載數(shù)據(jù)以加快啟動過程。,,導(dǎo)致BSC 重啟的原因是因為BSC的SSM與BTS的CRM間通信量太大,使得產(chǎn)生的SM SWFMs過多所致。最直接的原因是基站的業(yè)務(wù)量太大,TCH擁塞所致。通過調(diào)整cp_messages.c SWFMs的量,可以解決此問題。為了減少此類故障的發(fā)生,建議用處理能力更強(qiáng)大的GPROC3做BSP,減少重啟的可能,當(dāng)BSP負(fù)荷很高時,可以考慮設(shè)置單獨的OMF,把OML別離出去,降低BSP的負(fù)荷。在系統(tǒng)話務(wù)忙時防止執(zhí)行大批量的命令,也可減少BSP重啟的時機(jī)。降低單個GPROC的負(fù)荷,防止某個GPROC因負(fù)荷太大時自動重啟后,負(fù)荷被其它GPROC分擔(dān)后出現(xiàn)多米諾骨牌效應(yīng),最終導(dǎo)致整個BSC重啟的悲劇的發(fā)生。,,有時侯內(nèi)存并沒有問題而是當(dāng)使用內(nèi)存時GPROC被locked了。這時可有三種方法來處理:,,①將此可能故障的GPROC(BSP)與其它的GPROC交換,即使此GPROC再次重啟,也不會使BSC重啟。,,②換一塊好的GPROC。,,③UNLOCK GPROC,改變數(shù)據(jù)庫和參數(shù)設(shè)置,有時數(shù)據(jù)庫某些參數(shù)做了改動后也需要,BSC,重啟,才能正常工作或發(fā)生作用,特別是一些影響基站正常工作的參數(shù),平時不要隨意改動。另外還有可能因為本身新版本軟件的缺陷也會偶爾出現(xiàn)問題,需要使,BSC,重啟。,事例分析,(1),BSC的3個GPROCs(0116, 0117, 0118)在不同時間自動reset,造成BSC reset。,,解決:從收集的數(shù)據(jù)發(fā)現(xiàn)MTL不穩(wěn)定,時好時壞,有告警產(chǎn)生。CA向GPROC發(fā)送fast_reset,將GPROC reset。,,因為GPROC控制的MTL和RSL負(fù)荷過大,使得MTL時好時壞。當(dāng)一條 MTL斷了,造成其超負(fù)荷,就會使得其他MTL退出效勞。這時可檢查此MTL的統(tǒng)計數(shù)據(jù),或檢查PGROC的CPU的使用率。,,因為處理能力的限制使得他們拒絕更多的消息進(jìn)入。建議用戶重新配置BSC的容量; 如某MSC下只有某BSC范圍電話難打,可考慮reset_site bsc; 如只有局部RSL負(fù)荷過大,造成電話難大打,可reassign lcf 。,事例分析,(2),Disable 第二個GPROC后BSC reboot,,解決:分析發(fā)現(xiàn):發(fā)現(xiàn)GCLK退出效勞, 使得BSC reset。因此使得BSC reset的原因不是lock GPROC 。而是GCLK的故障產(chǎn)生的,及時處理GCLK的問題,以防再次Reset BSC。,BSC日常維護(hù)的重點事項 (1),更換MSI板時,先用命令查看MSI板的工作狀態(tài),如果是未閉鎖狀態(tài),則應(yīng)該先將插板閉鎖,替換后再解鎖,防止在未閉鎖狀態(tài)下直接操作。,,GPROC板出現(xiàn)故障或告警需要拔出時,應(yīng)該先重啟此GPROC,確認(rèn)GPROC不能恢復(fù)正常,再將GPROC的面板上的按鍵撥到Disable,再操作。,,GCLK 板出現(xiàn)問題且需更換時,先倒換到備用 GCLK,將面板上的按鍵撥到Disable后再操作。,,安裝扳子要到位,要確保插板與背板能連接正確,這樣插板才能正常工作,也不會影響與其他插板之間的通信。,BSC日常維護(hù)的重點事項 (2),要注意光纖的清潔,特別是與半尺寸板連接的光纖,如果光纖不干凈也會導(dǎo)致插板Disabled,成為系統(tǒng)隱患。機(jī)柜和各種插板應(yīng)定期按照標(biāo)準(zhǔn)進(jìn)行清洗和除塵。,,一些GCLK、LANx、KSW等設(shè)備的告警和某些死進(jìn)程可能會使GPROC退出效勞,特別注意GPROC 245號告警,此告警表示一個GPROC或BTP退出效勞。如果主用的BSP出現(xiàn)此告警時,BSC已經(jīng)重啟了。如果一般的GPROC出現(xiàn)此告警,該板會重啟,并會影響相應(yīng)的信令鏈路,導(dǎo)致有關(guān)BTS退出效勞。當(dāng)在出現(xiàn)GPROC 245號告警前出現(xiàn)大量相關(guān)設(shè)備的告警時應(yīng)該注意及時排除,以免引起GPROC重啟。同時注意CPU工作時的負(fù)荷,超過60%或負(fù)荷值異常時,應(yīng)該排查原因,適當(dāng)?shù)貙⒐ぷ髁恳频狡渌腉PROC上或換用處理能力更強(qiáng)的板件。,BSC日常維護(hù)的重點事項 (3),注意日常的告警信息,經(jīng)常用disp_act_alarm和state 0 oos all命令查看系統(tǒng),發(fā)現(xiàn)有告警或不在效勞狀態(tài)的設(shè)備應(yīng)該及時進(jìn)行處理。要及時收集故障記錄數(shù)據(jù),因為系統(tǒng)的存儲有一定的限度,到一定的時間或者一定的數(shù)量它就會被覆蓋掉。,,板件插錯槽位會引起B(yǎng)SC不停的重啟。小插板的螺絲一定要擰到位,以免留下隱患。,,BSC的每個機(jī)框至少要有2塊GPROC板和2塊MSI板處于正常狀態(tài),以防止當(dāng)只有一塊GPROC和一塊MSI板時,如果其中的GPROC或MSI板有故障都會引起整個BSC重啟。在更換GPROC和MSI板時要特別注意:保持最少有一塊GPROC和MSI是B-U狀態(tài)。如果連續(xù)更換GPROC(在其它GPROC還未恢復(fù)正常B-U狀態(tài)時)板則整個BSC會重啟。,BSC日常維護(hù)的重點事項 (4),更換BTC(總線終結(jié))時,只能一塊一塊地操作,操作之前,先將一個可用的BTC板替換與將更換的BTC板在同一個機(jī)框同一側(cè)的KSW板,在狀態(tài)正常后再開始之后的更換操作,并在所有的更換操作完成后,插回KSW板,恢復(fù)原狀。,,通過集中性預(yù)防性維護(hù),可以及時發(fā)現(xiàn)系統(tǒng)隱患并加以排除,最大限度地提高現(xiàn)行系統(tǒng)設(shè)備的利用率,增強(qiáng)系統(tǒng)設(shè)備的可靠性,從而減輕平時日常維護(hù)的壓力。此類維護(hù)有:定期進(jìn)行主備用總線系統(tǒng)的倒換測試,以檢驗備用系統(tǒng)的可靠性;定期在適宜的時間里主動重啟設(shè)備,去除可能存在的死進(jìn)程;周期性地對信令負(fù)荷和GPROC板的CPU負(fù)荷進(jìn)行統(tǒng)計,對存在異常的GPROC板及時分析原因并采取適當(dāng)措施;定期對BSC機(jī)房進(jìn)行巡檢,檢查溫度、濕度和電源系統(tǒng),進(jìn)行告警驗證,使機(jī)房環(huán)境滿足穩(wěn)定運行的需要。,,加強(qiáng)專業(yè)技能的培訓(xùn)和實踐,提高維護(hù)人員的維護(hù)技能,盡量減少人為的操作失誤。,BSC,穩(wěn)定運行的條件,一是穩(wěn)定的符合設(shè)備運行標(biāo)準(zhǔn)的機(jī)房環(huán)境,包括適宜的溫度和濕度,鞏固結(jié)實的房屋架構(gòu),機(jī)房位置沒有水患和具有完善的報警和消防系統(tǒng)。,,二是平安穩(wěn)定的動力供給。包括滿足要求的設(shè)備備品備件,多路供電技術(shù)和停電后快速的發(fā)電措施。,,三是設(shè)備包括所有插板和連接光纖沒有隱患或可能影響設(shè)備運行的告警存在,同時需要24小時的告警監(jiān)控、齊全的備品和備件和及時的處理措施。,,四是完善的操作維護(hù)和施工標(biāo)準(zhǔn),完備的應(yīng)急處理流程和措施。,,五是建立一支具有一定維護(hù)技能的穩(wěn)定的維護(hù)隊伍也相當(dāng)重要。,BSC,非正常重啟案例,故障處理報告實錄,.doc,習(xí)題,分析BSC產(chǎn)生X.25中斷告警的原因。,——,中國聯(lián)通有限公司廣州分公司,·,覃道滿編制,Thank You !,44,