應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

AI“慧眼”察異動,網(wǎng)絡(luò)保障好身手

2020-07-02 16:24 C114通信網(wǎng)

導(dǎo)讀:隨著無線網(wǎng)絡(luò)的發(fā)展和5G的興起,網(wǎng)絡(luò)變得更加復(fù)雜,中興通訊不斷同運營商加強合作,加速網(wǎng)絡(luò)智化技術(shù)創(chuàng)新和成果轉(zhuǎn)化,通過網(wǎng)絡(luò)進化、運維進化、運營進化三大進化助力運營商開源節(jié)流、提升效率,助力網(wǎng)絡(luò)智能化轉(zhuǎn)型。

無線網(wǎng)絡(luò)關(guān)鍵性能指標(biāo)(KPI)就猶如一把懸空之劍,讓無數(shù)運維人和網(wǎng)優(yōu)人為之費心勞神、殫精竭慮。KPI異動往往預(yù)示著網(wǎng)絡(luò)某個層面出現(xiàn)問題,就好像我們?nèi)祟惓霈F(xiàn)發(fā)燒,往往可能是身體某處出現(xiàn)炎癥一樣。作為“網(wǎng)絡(luò)醫(yī)生”的運維網(wǎng)優(yōu)人,每天面對成百上千KPI變化和大大小小的告警處理,很多時候疲于奔命,對KPI監(jiān)控?zé)o法做到精確化和快速化,經(jīng)常等到用戶投訴了才發(fā)現(xiàn)KPI的異常,才啟動處理流程,十分被動。出現(xiàn)這種情況,非運維網(wǎng)優(yōu)專家不為也,很多時候是真不能也。比如傳統(tǒng)KPI監(jiān)控只能設(shè)置靜態(tài)閾值,難以根據(jù)區(qū)域/場景以及時間段的不同差異進行區(qū)分,網(wǎng)絡(luò)指標(biāo)異動容易被波動淹沒,人工統(tǒng)計KPI很難判斷,即使發(fā)現(xiàn)問題,再“望、聞、問、切”,逐步定位病根,給出藥方,這周期難免較長,而且對技術(shù)人員的技能要求也很高(“老專家”凸顯價值啊)!自然,我們希望有個系統(tǒng)能實時監(jiān)控網(wǎng)絡(luò)KPI,對指標(biāo)異動自動識別并定位引起異動的根因,那面對復(fù)雜網(wǎng)絡(luò)也能應(yīng)對自如了。

中興無線智能運維系統(tǒng)借助AI人工智能,通過機器學(xué)習(xí)(ML:Machine Learning)和專家規(guī)則相結(jié)合來實現(xiàn)無線網(wǎng)絡(luò)KPI的異常檢測和故障診斷的自動化,相當(dāng)于一個24小時運行的“網(wǎng)絡(luò)健康監(jiān)測和診斷儀”,為網(wǎng)絡(luò)醫(yī)生們提供分析數(shù)據(jù)和根因診斷。

要想解決問題,先要能發(fā)現(xiàn)問題。無線網(wǎng)絡(luò)KPI隨著網(wǎng)絡(luò)制式及規(guī)模增長,應(yīng)用場景差異及話務(wù)潮汐變化等,數(shù)據(jù)量變得非常龐大,在海量數(shù)據(jù)中及時發(fā)現(xiàn)KPI是正常波動還是異常變化,即使對“老專家”來說,也是一個艱巨的挑戰(zhàn)。為降低各種KPI綜合建模的難度,系統(tǒng)引入了基于結(jié)構(gòu)特征的時間序列聚類方法。先通過傅立葉變換,將時間序列分為兩大類,重要周期性和非重要周期性,再基于KPI序列中提取的數(shù)個特征,采用k均值算法對每個主類別中的時間序列進行聚類。KPI分類完成后,系統(tǒng)為每個KPI類別選擇適當(dāng)?shù)臅r間序列模型,預(yù)測KPI在下個時間粒度的正?;€,如果網(wǎng)絡(luò)KPI實時測量值超過了在線檢測的基線,能夠在首個時間粒度內(nèi)及時發(fā)現(xiàn),也避免因潮汐效應(yīng)以及網(wǎng)絡(luò)基礎(chǔ)條件等差異導(dǎo)致的誤報,漏報。

當(dāng)系統(tǒng)檢測到KPI異常時,需要快速下鉆分析定位根因,以便于運維人員及時排除故障。智能運維系統(tǒng)采用基于規(guī)則的診斷模塊和基于ML的診斷模塊相結(jié)合的異常診斷方法,發(fā)揮中興在無線領(lǐng)域幾十年的經(jīng)驗積累及AI智能的自我學(xué)習(xí)能力,實現(xiàn)根因判斷的快速收斂和高準(zhǔn)確性,并適應(yīng)多種復(fù)雜場景應(yīng)用。

如下圖所示,當(dāng)檢測到的異常是已定義的已知故障時,系統(tǒng)根據(jù)關(guān)聯(lián)告警、操作日志、網(wǎng)絡(luò)拓?fù)浜蛯<乙?guī)則庫進行綜合分析,給出根因判斷和故障排查操作建議。

當(dāng)檢測到的異常是未知故障時,基于ML的診斷模塊使用部分最小二乘回歸算法(PLS:Partial Least Square)進行根因分析和定位,通過對可能原因進行貢獻度分析,找出頂端的根計數(shù)器指標(biāo)作為異常根因判定。

該系統(tǒng)建立在一個輕量化大數(shù)據(jù)底座上,與傳統(tǒng)部署在集群上的大數(shù)據(jù)系統(tǒng)不同,輕量化底座所需的硬件資源很少,甚至可以單機運行,但同時保留了傳統(tǒng)大數(shù)據(jù)系統(tǒng)的功能。這一特性可以使用戶利用現(xiàn)有環(huán)境或在資源受限時也能部署大數(shù)據(jù)和AI相關(guān)功能,大大減少了用戶網(wǎng)絡(luò)智能化轉(zhuǎn)型過程中的探索成本。同時,輕量化底座又有很好的可拓展性,可以從單機平滑拓展成分布式集群環(huán)境,且過程不影響業(yè)務(wù)的正常運行,可以將探索成果直接轉(zhuǎn)化上線。

目前,該功能在山東聯(lián)通和中興通訊聯(lián)合創(chuàng)新基地通過驗證,現(xiàn)網(wǎng)8萬小區(qū)成功接入無線網(wǎng)絡(luò)智能運維平臺,實現(xiàn)網(wǎng)絡(luò)KPI異動實時監(jiān)控和根因精準(zhǔn)定位分析,大幅縮短KPI異動小區(qū)問題定位和解決時間。這也是業(yè)界首個采用AI算法洞察網(wǎng)絡(luò)KPI異動,通過規(guī)則學(xué)習(xí)和機器學(xué)習(xí)快速準(zhǔn)確定位問題根因,實現(xiàn)端到端閉環(huán)的解決方案。

在驗證期間,某子網(wǎng)LTE的E-RAB建立成功率突然從99.9%下降到99.2%,系統(tǒng)異動根因檢測功能很快發(fā)現(xiàn)并下鉆分析本次異動的根因,快速定位到ID 208203的eNodeB,發(fā)現(xiàn)這個基站的一個小區(qū)的成功率指標(biāo)下降到0,引發(fā)全網(wǎng)相應(yīng)指標(biāo)異常波動。通過告警關(guān)聯(lián)分析,在KPI異動時間點,小區(qū)出現(xiàn)一次RRU異常導(dǎo)致的退服,后續(xù)的E-RAB空口建立指標(biāo)全部超時失敗,依據(jù)智能系統(tǒng)分析結(jié)果,快速得出RRU故障導(dǎo)致本次指標(biāo)下降異動的結(jié)論,整個故障定位分析時間不到10分鐘。而以前通過人工分析,一個有經(jīng)驗的工程技術(shù)人員通過網(wǎng)管統(tǒng)計KPI分析指標(biāo)異動,關(guān)聯(lián)告警、日志,下鉆TopN小區(qū)直至找出問題所在,至少得2小時。

隨著無線網(wǎng)絡(luò)的發(fā)展和5G的興起,網(wǎng)絡(luò)變得更加復(fù)雜,中興通訊不斷同運營商加強合作,加速網(wǎng)絡(luò)智化技術(shù)創(chuàng)新和成果轉(zhuǎn)化,通過網(wǎng)絡(luò)進化、運維進化、運營進化三大進化助力運營商開源節(jié)流、提升效率,助力網(wǎng)絡(luò)智能化轉(zhuǎn)型。