摘要:本文介紹了發生在某電廠的一例西門子epermXP控制系統非典型故障;分析了其原因并介紹了處理過程。
火電廠熱控技術規范要求:機組DCS控制器必須冗余配置;主控制器接收輸入信號,經過邏輯運算后,輸出控制指令至現場執行機構;而從控制器處于熱備用狀態,它同時接收輸入信號,其CPU邏輯運算后,輸出指令跟蹤主控制器的輸出,一旦主控制器故障,主控制器的所有邏輯功能立即無擾切換到從控制器上,以確保該控制器的控制對象正常運行。
一、非典型故障
8月24日,某電廠3號機組穩定在250MW負荷上以協調方式運行,23:13運行突然發現:報警窗上出現“AP計算機總線故障”等眾多報警,機組協調隨即退出。電廠DCS值班人員檢查發現AP34計算機原主機(上層機)故障燈亮,AP34負責主機功頻控制器SIMADYN及ETS主機保護SIEMENSS5-95F控制器與其它控制器的通訊,主機抗燃油泵的控制邏輯也在此AP中。AP34計算機原主機(上層機)故障后,自動切為原備用機(下層機)為主機運行,SIEMENSS5-95F控制器控制的所有主機主汽門及調門電磁閥雙線圈的一個線圈失電;原為主的左側IM614鏈路的IM614模塊的F綠燈(Function)滅、GLE紅燈(GroupLevelError)亮;原為從的右側IM614鏈路切為主,即:F綠燈亮。DCS值班人員于次日凌晨00:11手動復位上層AP,但故障無法消除,00:25停電拔插CPU模塊后,CPU恢復運行3秒左右自動停止,同時作為主且起作用的右側IM614模件的GLE紅燈全亮,主機控制油畫面元件變紅,所有I/O模塊紅燈閃亮。電廠檢修在電氣開關側的二次控制回路做好模擬措施(主要針對抗燃油泵)后,拔出所有的I/O模件,然后再停運更換上層控制器的CPU、IM614等模塊,故障仍無法消除。至此,只有下層控制器AP仍在運行,其余I/O模塊、IM614均退出運行,機組保持在故障發生時的250MW運行。
二、故障原因分析
由于AP34控制器的下層機(原備用機、現為主機)處于主運行狀態,且運行正常,所以在ES680工程師站上利用pgmaster指令對其進行連接,執行21和22選項(分別是DiagnosticH-Errorblock及DiagnosticDX4),生成診斷文件hdberror.txt和dx4.txt。
查看診斷文件hdberror.txt,有以下記錄:
464:Err35Reserve-Master-UmschaltungwegenMasterausfallZeitstempel=09.08.2423:13:57(這條信息表明AP34在23:13發生了主從切換)
472:Err33ParallelkopplungsfehlerZeitstempel=09.08.2500:11:36(這條信息表明AP34在00:11發生主從切換之后,出現了并口連接錯誤)
488:Err32Synchronisationsfehler32im
Anwenderprogramm
Zeitstempel=09.08.2500:25:32
(這條信息表明AP34在00:25發生并口連接錯誤之后,接著又出現了CPU的同步連接故障)
查看診斷文件dx4.txt,有以下記錄:
1292009.08.2423:13:57Err1037040dh:OB37-Aufruf->EintraginH-FehlerDB
(此條信息表明AP34的故障CPU在23:13發生故障時調用OB37組織塊)
1322009.08.2423:13:57Err2189088dh:Redundanz-Umschaltungim614.2
1352009.08.2423:13:57Err2190088eh:Redundanz-Umschaltungim614.3
(這兩條信息表明AP34的IM614在23:13發生主從切換)
1892009.08.240:25:24Err24000960h:FehlerbeiZeit-Synchronisation
(此條信息表明在0:25時間同步發生錯誤)
2042009.08.250:25:32Err371299109h:OB026UeberschreitenderOB1Zykluszeit
(此條信息表明在0:25系統對組織塊OB26進行調用)
2102009.08.250:25:32Err21770881h:TotalAusfahlim614.2
2162009.08.250:25:32Err21780882h:TotalAusfahlim614.3
(此兩條信息表明在0:2P34的兩路IM614均發生故障,所有I/O模件與AP34控制器的通訊中斷)
根據上述信息得知,AP34控制器發生主從切換是因為軟件對組織塊OB37調用所致。OB37屬于系統程序,它在軟件運行過程中,檢查到有錯誤發生時被調用。其結果是向CPU本身發出一條STOP指令,使其停止運行,同時將發生的*個錯誤作為錯誤記錄被CPU記錄下來。之后,下層主控制器又進行了OB26的組織塊調用。在上層從控制器進行啟動的時候與下層主控制器進行同步連接,當這一同步連接超出系統所設定的循環周期時,系統認為同步連接故障,發生ZYK錯誤,此時調用OB26組織塊。因此,總結如下:上層主控制器在運行過程中檢測到發生錯誤,從而調用OB37程序使其停止運行,切換到下層控制器運行。在切換之后,IM614也發生了相應的切換(右側IM614鏈路為主且在正常運行狀態),且切換正常。之后,在維護人員試圖重啟上層原主控制器的時候,由于并口連接錯誤的存在,導致主從控制器發生了同步連接錯誤,從而系統調用OB26組織塊,發生了右側IM614與下層的主AP控制器通訊中斷的故障。
西門子專家在收集epermXP使用故障匯總經驗認為:epermXP控制系統的主從AP控制器在使用硬件版本<9的IM324-3UR11主從控制器通訊模件時,或者在使用版本為1的IM304-3UB11的主從控制器通訊模件時可能會發生此類故障。
三、故障處理
此類故障由軟件故障引起,只有通過離線下載*代碼才能解決問題。由于機組處于運行狀態AP34負責主機功頻控制器SIMADYN及主機保護S5-95F控制器與其它控制器的通訊、以及主機抗燃油泵的控制,為降低消除缺陷帶來的機組運行風險,電廠方面計劃利用深夜電網低負荷時,向省電網調度申請低谷停機消缺。
電廠方面以停機不停爐為宗旨進行消缺。在代碼傳送過程中,為保證主機控制油泵的正常運行,故保持了先前在電氣開關側的二次控制回路做的針對抗燃油泵的模擬措施;為防止鍋爐滅火,將高低旁邏輯進行適當修改和信號強制,以避免在代碼傳送過程中,由于信號的丟失造成高低旁的關閉。
做好上述安全措施后,電廠DCS在ES680上生成AP34的硬件、軟件和LAN代碼;
發電機解列、汽機打閘后,更換AP34上層控制器的CPU模件;
將AP34下層主控制器停止運行,之后再將其重啟,它及其鏈路上的IM614通訊恢復正常;
將AP34控制器的上層故障控制器重新啟動,在等待約3分鐘之后,它及其鏈路上的IM614通訊恢復正常;
將AP34所管轄的所有FUM模件插入并送電,均正常啟動;
下載AP34的LAN代碼;
離線下載AP34的*代碼。
代碼下載完成之后,控制器正常啟動。利用pgmaster指令連接主從控制器,連接正常。在通訊服務器PU2A/2B上,利用rdb指令,檢查PU與AP34的通訊狀態正常。對AP34主從控制器進行冗余切換試驗,均切換正常,zui后維持下層機為主控制器,檢查邏輯圖動態工作正常,運行人員檢查OM畫面,各通訊點顯示和操作恢復到正常狀態。
恢復DCS、電氣專業相關模擬措施,運行人員重新啟動機組。
四、消缺總結
西門子專家認為此次故障原因是由于IM324和IM304版本較低所致,建議在以后的維護過程中,將這些主從控制器通訊模件和CPU模件進行重啟,它及其鏈路上的IM614通訊恢復正常;
將AP34控制器的上層故障控制器重新啟動,在等待約3分鐘之后,它及其鏈路上的IM614通訊恢復正常;
將AP34所管轄的所有FUM模件插入并送電,均正常啟動;
下載AP34的LAN代碼;
離線下載AP34的*代碼。
代碼下載完成之后,控制器正常啟動。利用pgmaster指令連接主從控制器,連接正常。在通訊服務器PU2A/2B上,利用rdb指令,檢查PU與AP34的通訊狀態正常。AP34主從控制器進行冗余切換試驗,均切換正常,zui后維持下層機為主控制器,檢查邏輯圖動態工作正常,運行人員檢查OM畫面,各通訊點顯示和操作恢復到正常狀態。
恢復DCS、電氣專業相關模擬措施,運行人員重新啟動機組。