導(dǎo)讀:本文主要介紹機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用,討論建立反欺詐機器學(xué)習(xí)模型的流程以及提升模型效果的思路。
本文主要介紹機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用,討論建立反欺詐機器學(xué)習(xí)模型的流程以及提升模型效果的思路。
圖片來自“123rf.com.cn”
欺詐是一項超過十億美元的業(yè)務(wù),而且每年都在增長。普華永道2018年全球經(jīng)濟犯罪調(diào)查發(fā)現(xiàn),在被調(diào)查的7,200家公司中,有約一半(49%)經(jīng)歷過某種形式的欺詐。而相關(guān)第三方數(shù)據(jù)調(diào)查顯示,消費金融及互聯(lián)網(wǎng)金融公司的壞賬中接近50%來自于欺詐。其中,身份冒用類占比例最高,其次是團伙欺詐以及惡意違約等。另外,多頭借貸行為也非常猖獗。反欺詐簡單來說,就是為了找出“羊群中的狼”,其必要性和緊迫性不言而喻。
用于欺詐檢測的技術(shù)可分為兩大類:統(tǒng)計分析和人工智能。
統(tǒng)計分析技術(shù)的例子包括:
數(shù)據(jù)預(yù)處理 - 用于檢測、驗證、糾正和填充缺失或不正確數(shù)據(jù);
計算各種統(tǒng)計參數(shù) - 例如平均值、分位數(shù)、性能指標(biāo)、概率分布等。例如,用戶通話記錄的平均呼叫時長,每月平均呼叫次數(shù)和賬單支付的平均延遲天數(shù);
時間序列分析 - 預(yù)測變化趨勢與風(fēng)險;
聚類分析 - 查找數(shù)據(jù)之間的模式和關(guān)聯(lián)性;
匹配算法 - 檢測交易或用戶行為中的異常。
用于欺詐管理的主要人工智能技術(shù)包括:
數(shù)據(jù)挖掘 - 對數(shù)據(jù)進(jìn)行分類、聚類和分段,并自動查找數(shù)據(jù)中潛在的模式和規(guī)則,包括與欺詐相關(guān)的模式;
專家系統(tǒng) - 規(guī)則的形式來檢測欺詐的專業(yè)知識;
機器學(xué)習(xí) - 自動識別欺詐特征;
神經(jīng)網(wǎng)絡(luò) - 從樣本中學(xué)習(xí)可疑模式,并在未來檢測它們。
其他人工智能技術(shù),如鏈接分析、貝葉斯網(wǎng)絡(luò)、決策理論和知識圖譜等,也可用于欺詐檢測。
欺詐的新手段和方式層出不窮,僅依靠單一或簡單的方法遠(yuǎn)遠(yuǎn)不夠。上述方法和技術(shù)已經(jīng)在業(yè)界獲得一定程度的應(yīng)用,業(yè)界對于相關(guān)技術(shù)的認(rèn)可度和重視度也在與日俱增。
事實證明,充分利用統(tǒng)計分析、機器學(xué)習(xí)技術(shù)乃至復(fù)雜的人工智能模型等,能夠極大地提升公司的反欺詐水平,降低欺詐損失。
在下文中,筆者將主要介紹機器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用,討論建立反欺詐機器學(xué)習(xí)模型的流程以及分享一些提升模型效果的思路。
實際業(yè)務(wù)中,常見的反欺詐手段主要包括:黑名單法、反欺詐規(guī)則系統(tǒng)以及機器學(xué)習(xí)技術(shù)。前兩種方法實施簡單,且可解釋性較強,但往往存在滯后性嚴(yán)重和準(zhǔn)確度低的問題。而建立反欺詐模型,特別是基于機器學(xué)習(xí)的反欺詐模型,可以通過多樣的算法來準(zhǔn)確地識別欺詐屬性,降低欺詐風(fēng)險。
如上圖所示,我們將機器學(xué)習(xí)和人工智能解決方案分為兩類:“有監(jiān)督”和“無監(jiān)督”學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí),或者說監(jiān)督式學(xué)習(xí),是反欺詐檢測中最為廣泛使用的機器學(xué)習(xí)模式。其模型技術(shù)包括但不限于決策樹算法、隨機森林、最近鄰算法、支持向量機和樸素貝葉斯分類等。
監(jiān)督式學(xué)習(xí)的機器學(xué)習(xí)模型通常是從有標(biāo)簽的數(shù)據(jù)中自動創(chuàng)建出模型,來檢測欺詐行為。簡單地說,就是通過學(xué)習(xí)經(jīng)過分類的資料,建立一種模式,并依據(jù)這一模式來推測和判斷新的實例。
具體而言,監(jiān)督神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)以及神經(jīng)網(wǎng)絡(luò)和規(guī)則的組合已經(jīng)被廣泛應(yīng)用于電話網(wǎng)絡(luò)和財務(wù)報表欺詐;貝葉斯神經(jīng)網(wǎng)絡(luò)用于信用卡欺詐檢測、電信欺詐、汽車索賠欺詐檢測和醫(yī)療保險欺詐等。
這種類型的模型僅能夠檢測與先前已經(jīng)發(fā)生的欺詐案例相類似的欺詐。想要檢測新型欺詐,還需要使用無監(jiān)督的機器學(xué)習(xí)算法。
無監(jiān)督學(xué)習(xí)
相反,無監(jiān)督方法不需要預(yù)選和標(biāo)記欺詐類型。無監(jiān)督學(xué)習(xí)的反欺詐模型使用各維度的數(shù)據(jù)和標(biāo)簽進(jìn)行聚類,從而找出與大多數(shù)用戶行為相差較大的,并予以攔截。
下圖展示了主要反欺詐手段出現(xiàn)的先后以及各自的檢測效果和優(yōu)缺點。
黑名單和規(guī)則系統(tǒng)不能迅速和有效地應(yīng)對變化的欺詐手段,顯得有些“后知后覺”。有監(jiān)督的機器學(xué)習(xí)需要人工標(biāo)記欺詐標(biāo)簽來訓(xùn)練模型,無監(jiān)督學(xué)習(xí)則可以自動產(chǎn)生標(biāo)簽,挖掘和聚類未知的欺詐行為。
迄今為止,尚未出現(xiàn)較為成熟和經(jīng)過實踐驗證的無監(jiān)督學(xué)習(xí)解決方案,一方面,無監(jiān)督學(xué)習(xí)對于數(shù)據(jù)的廣度、深度都有著極其高的要求,另一方面,我們的對于該方法的探索還有待加強。
無論是使用監(jiān)督方法還是非監(jiān)督方法,輸出僅為我們提供欺詐的可能性,沒有獨立的統(tǒng)計分析可以確保特定對象是百分百欺詐性的,但是模型識別的準(zhǔn)確度非常高,尤其是結(jié)合黑名單和規(guī)則系統(tǒng)后,綜合準(zhǔn)確率會大大提升。
反欺詐模型的流程主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、風(fēng)險特征挖掘、模型構(gòu)建、模型監(jiān)控五個環(huán)節(jié),如下圖所示:
數(shù)據(jù)采集
數(shù)據(jù)的質(zhì)量和維度是成功模型的基礎(chǔ)。在數(shù)據(jù)采集階段,既需要整合內(nèi)部數(shù)據(jù),如用戶申請信息、交易數(shù)據(jù)、網(wǎng)絡(luò)及設(shè)備終端數(shù)據(jù)等,又需要外部數(shù)據(jù)的補充。許多用于反欺詐的外部數(shù)據(jù)來自法院、公安部、工商局、社保局等,包含了刑事犯罪信息、商業(yè)犯罪信息、違法賬戶等信息。同業(yè)共享的各類欺詐信息也是重要的外部數(shù)據(jù)。
由于數(shù)據(jù)來源廣泛,直接導(dǎo)致數(shù)據(jù)種類和規(guī)模急劇增加。公司在數(shù)據(jù)處理技術(shù)方面除了采用成熟的商用數(shù)據(jù)庫外,還應(yīng)廣泛應(yīng)用大數(shù)據(jù)分析技術(shù)。
數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的處理,比如數(shù)據(jù)類型轉(zhuǎn)換、缺失值和極端值的處理等,或是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
對于客戶數(shù)據(jù),可跨越不同渠道歸集客戶相關(guān)屬性,如年齡、賬齡、教育程度、地域等要素,建立客戶畫像檔案,描述客戶特征。對于商戶數(shù)據(jù),應(yīng)根據(jù)商戶信用評級信息、產(chǎn)品銷售量、商戶類別等要素,建立商戶檔案,劃分商戶風(fēng)險等級。
風(fēng)險特征挖掘
在風(fēng)險特征挖掘階段,常用的分析方法有假設(shè)分析、關(guān)聯(lián)分析、模式歸納分析等。比如,假設(shè)分析的目的是對問題提出各種可能的假設(shè),并評估假設(shè)的分析過程;關(guān)聯(lián)分析旨在從大量數(shù)據(jù)中發(fā)現(xiàn)事物之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。
對客戶的各類信息進(jìn)入深入分析,以時間、頻率、距離、比例等統(tǒng)計口徑,建立風(fēng)險特征庫,比如近3個月交易金額,距離一公里以內(nèi)的申請總?cè)藬?shù)等。運用大數(shù)據(jù)技術(shù),計算出每個風(fēng)險特征對相應(yīng)變量的貢獻(xiàn)能力,以及各風(fēng)險特征之間的相關(guān)性,選取重要性高和貢獻(xiàn)力強,以及相關(guān)性弱的變量,作為后續(xù)建模的備選變量。
模型構(gòu)建
反欺詐模型可使用傳統(tǒng)的邏輯回歸和流行的機器學(xué)習(xí)模型,比如Boosting算法類別的Adaboost、GBDT、XGBoost等。其中熱門的Xgboost模型,其主要優(yōu)化點在于對損失函數(shù)做了二階的泰勒展開,并在目標(biāo)函數(shù)之外加入了正則項對整體求最優(yōu)解,用以權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度,避免過擬合。
一般來說界定模型的好壞有兩個方面,一個是區(qū)分能力,另外一個是穩(wěn)定性,常用K-S值和PSI等指標(biāo)來衡量。
模型需要不斷迭代優(yōu)化,才能貼近真實情況。在模型迭代階段,運用交叉驗證等方法,不斷優(yōu)化模型,使模型各項指標(biāo)(包括準(zhǔn)確率、對數(shù)損失函數(shù)、精確率-召回率、混淆矩陣等),達(dá)到理想的預(yù)測效果。
模型監(jiān)控
經(jīng)過模型評估、選擇及審批后,需要技術(shù)部門配合進(jìn)行部署、生產(chǎn)測試,最終投入使用。在模型上線后,定期對模型的穩(wěn)定性、區(qū)分度、精確性等指標(biāo)進(jìn)行監(jiān)控。根據(jù)宏觀經(jīng)濟環(huán)境或內(nèi)部業(yè)務(wù)的變化,及時進(jìn)行模型檢測,及早發(fā)現(xiàn)隱患。根據(jù)監(jiān)控結(jié)果,在模型性能發(fā)生明顯退化時,根據(jù)退化的嚴(yán)重程度對模型進(jìn)行迭代調(diào)整,或是重新開發(fā)。
如果發(fā)現(xiàn)反欺詐模型的效果不太理想,可以嘗試從以下四個方面提升:
一是數(shù)據(jù)方面,如果最終模型效果不太好,首先考慮數(shù)據(jù)采集階段的變量維度是否足夠,同時也需要嘗試構(gòu)建出更多的特征來。數(shù)據(jù)預(yù)處理是否到位,是否考慮到各種情況,有沒有犯低級錯誤,導(dǎo)致后續(xù)建模效果不好等。
二是算法選擇,使用一個簡單的算法,比如線性模型,作為基準(zhǔn)模型,后續(xù)用復(fù)雜的算法來擬合數(shù)據(jù),對比各種模型在所擁有數(shù)據(jù)集上的表現(xiàn)與提升,通常復(fù)雜的算法會比線性的算法有著更好的效果,但也意味著更多的調(diào)參時間。
三是算法調(diào)參,一般說來,越復(fù)雜的算法所需要的參數(shù)越多。比如神經(jīng)網(wǎng)絡(luò)的參數(shù)就非常多,對算法本身需要有一定的了解,再花時間去一步步調(diào)參。
四是模型融合,當(dāng)我們使用不同的或相似模型不同參數(shù)的模型得到結(jié)果后,可將各個模型融合在一起,各模型作為新模型的輸入重新訓(xùn)練,這樣綜合起來的模型效果可能會出乎意料。
至此,我們還必須認(rèn)清一個現(xiàn)實:單純依靠機器學(xué)習(xí)模型來檢測欺詐是片面的。比較折中且可行的方法是把人為欺詐規(guī)則和機器學(xué)習(xí)模型合二為一,一起來使用。反欺詐模型難度很高,需要和反欺詐領(lǐng)域?qū)<乙黄饏f(xié)作才能有最好的結(jié)果。
互聯(lián)網(wǎng)金融科技的迅速發(fā)展成為整個新金融不可逆轉(zhuǎn)的大方向,新技術(shù)的逐步應(yīng)用落地將逐步擠壓“黑灰產(chǎn)業(yè)”的生存空間。隨著市場的相關(guān)政策法規(guī)的完善,以及大數(shù)據(jù)、人工智能等技術(shù)的應(yīng)用,互金行業(yè)必將走上發(fā)展的快車道。
有陽光的地方總會有陰影,陰影的存在方能彰顯陽光的難能可貴。技術(shù)、監(jiān)管和風(fēng)控三位一體助力金融反欺詐,金融行業(yè)的太陽每天都會照常升起。