目前了解到的情況是,從下午2點一刻開始,全省的語音業(yè)務(wù)中斷,而且兩個多小時都沒能修復(fù)。
按照天津這邊的故障分類,影響50萬戶以上屬于特別重大故障,應(yīng)當(dāng)在30分鐘內(nèi)修復(fù);這次是一省的業(yè)務(wù)全阻,影響1.88億用戶,而且長時間無法修復(fù),這種情況在電信行業(yè)內(nèi)十分罕見,已經(jīng)無法用常規(guī)的故障分類來衡量了。
個人猜測,最有可能的原因就是系統(tǒng)負(fù)荷本身較高,某一路光纜被挖斷后,另一路設(shè)備無法承受過高的負(fù)荷,最終引發(fā)連鎖反應(yīng),導(dǎo)致核心網(wǎng)設(shè)備大面積宕機(jī)。
(資料圖)
至于網(wǎng)上流程的IT系統(tǒng)升級,這不太可能,涉及全省的系統(tǒng)不可能在白天進(jìn)行升級,而且就算升級失敗,系統(tǒng)立刻進(jìn)行回滾,不至于兩個多小時都修不好。
這種級別的故障,三個多小時才修好,大概率是硬件問題,也就是設(shè)備在宕機(jī)之后起不來了。
就是核心網(wǎng)的問題……
根據(jù)運(yùn)營商內(nèi)部的初步判斷,是LDRA到HDRA之間鏈路擁塞。鏈路擁塞原因可能為某設(shè)備商的數(shù)通設(shè)備出現(xiàn)異常,導(dǎo)致數(shù)據(jù)包重傳,引起信令風(fēng)暴。應(yīng)急處理方法是在SBC部署了流量控制流程,以及將某設(shè)備商的路由器隔離。
目前,業(yè)務(wù)在逐步恢復(fù)中。
補(bǔ)充知識:什么是DRA
DRA,是Diameter Routing Agent,Diameter路由代理。
Diameter被廣泛應(yīng)用于核心網(wǎng)元之間通信,是網(wǎng)絡(luò)中應(yīng)用最廣泛的IP信令基礎(chǔ)協(xié)議,主要用于認(rèn)證、授權(quán)和計費(fèi)。
DRA是核心網(wǎng)的關(guān)鍵網(wǎng)元之一,作用就是Diameter協(xié)議的路由轉(zhuǎn)發(fā)。它有點類似于傳統(tǒng)2G/3G網(wǎng)絡(luò)的信令轉(zhuǎn)接點(STP),是信令網(wǎng)中的信令路由中樞,負(fù)責(zé)核心網(wǎng)中Diameter信令的轉(zhuǎn)接和路由。
再簡單一點說,就是核心網(wǎng)關(guān)鍵網(wǎng)元之間的協(xié)議路由器擁塞了,導(dǎo)致了信令中斷,引發(fā)業(yè)務(wù)故障。
現(xiàn)在就看為什么那個設(shè)備商的路由器會出現(xiàn)故障了。而且,為什么容災(zāi)機(jī)制沒有發(fā)揮作用。