萬字長文:漫話人工智能算法在智能風控領域中的應用

情感導師 8749

 添加導師LINE:jaqg

獲取更多愛情挽回攻略 婚姻修復技巧 戀愛脫單幹貨

來源 | 現代金融風險管理

作者 | 祝世虎 成學軍

萬字長文:漫話人工智能算法在智能風控領域中的應用

在金融科技的浪潮下,金融機構紛紛啟動了智能風控體系的建設,但是金融機構的關注點多在於業務規模、科技系統等硬實力的建設,而忽略了算法能力、智能風控文化等軟實力的建設。

本文聚焦智能風控的「算法能力」的建設,用通俗的語言「漫話算法」,首先講解算法的邏輯、筆者對算法的理解、算法在智能風控領域的應用經驗,而後講解如何在實戰中通過場景因素、數據因素、算力因素來選擇合適的算法。

本文結構如下:

1. 第一部分,在智能風控體系建設的這個後浪追逐前浪的過程中,和算法能力建設相關的四個筆者個人觀點:

(1) 觀點一:後浪要重視數據及算法能力的建設,避免落入「後發劣勢陷阱」。

(2) 觀點二:前浪不能安於現狀而固步自封,避免陷入「建模套路化」。

(3) 觀點三:智能風控領域模型算法的發展三階段為「專家評分卡——>邏輯回歸(高維邏輯回歸)——>集成學習、深度學習」。

(4) 觀點四:算法的選擇,要根據「場景需求」對症下藥,根據「數據基礎」量體裁衣,根據「科技算力」量力而為,「理性」選擇算法。

2. 第二部分,人工智能的發展與算法的進化。主要介紹人工智能的發展背景以及在金融領域中的應用。

3. 第三部分,人工智能算法在智能風控領域的經驗與思考。先介紹了如何根據場景、數據、算力選擇合適的算法,而後根據筆者經驗總結出人工智能算法在智能風控領域的發展趨勢。

(1) 趨勢1:深度學習算法將會被廣泛採用。

(2) 趨勢2:多模態數據將會被廣泛應用。

(3) 趨勢3:圖數據庫與圖深度網絡將會大規模落地。

(4) 趨勢4:聯邦學習將會大規模落地。

(5) 趨勢5:自動化建模平台將會升級為模型風險管理平台。

(6) 趨勢6:算法的可解釋性將會被逐步重視。

4. 第四部分,算法工程師必備算法知識與文獻推薦。筆者按照算法領域熱度與應用領域熱度挑選了一些常用算法,並分別介紹了算法的原理以及在智能風控領域的應用經驗。

(1) 圖學習算法、經驗及應用

(2) 聯邦學習算法、經驗及應用

(3) 集成學習算法、經驗及應用

(4) 自動化機器學習算法、經驗及應用

(5) 因子分解機算法、經驗及應用

(6) 結構化數據深度學習算法、經驗及應用

(7) 概率預測算法、經驗及應用

(8) 遷移學習/元學習算法、經驗及應用

(9) 半監督學習算法、經驗及應用

(10)強化學習算法、經驗及應用

(11)運籌優化算法、經驗及應用

(12)運籌優化算法、經驗及應用

聲明:本文觀點皆為世虎「一得之見」,壘土之作,投礫引珠而已!

一. 關於智能風控領域算法的四個觀點

在金融科技的浪潮下,金融機構紛紛啟動了智能風控體系的建設,在這個後浪追逐前浪的浪潮中,筆者明顯感覺無論是前浪還是後浪,均對算法人才的培養及算法能力的建設不夠重視。

這將導致兩個誤區:一是,後浪盲目地模仿前浪,照貓畫虎而陷入了「後發劣勢陷阱」;二是,前浪安於現狀而固步自封,算法能力遲滯不前,陷入「建模套路化」。算法能力的建設則是走出上述誤區的關鍵環節之一。

(一)觀點一:後浪要避免「後發劣勢陷阱」,重視數據及算法能力的建設

筆者提及的「後發劣勢陷阱」主要體現在,後浪由於缺乏業務的實踐經驗,對智能風控體系建設的要點理解並不充分,所以在學習前浪的過程中,僅僅模仿前浪表面的、容易實現的、容易出成果的部分,而選擇性地忽略了那些需要花時間、下苦功的基礎工作。

比較明顯的「後發劣勢陷阱」是,後浪一蜂窩地照貓畫虎進行IT系統的產品採購這個相對簡單的事情,而忽略了基礎數據、科技整合、算法能力等:

在數據基礎方面:要「俯首甘為孺子牛」,做大量的、耗時間的數據工作,以實現模型效能的提升;

在科技整合方面:要「橫眉冷對千夫指」,做革命性的、顛覆性的科技系統和科技流程的改造,進而實現對業務的敏捷支持;

在算法能力方面:要「甘做幕後英雄」,逐步建立算法研究能力,進而「隨風潛入夜,潤物細無聲」地實現智能風控對業務的完美支持。

後浪要重視數據及算法能力的建設,避免「金玉其外,敗絮其中」,這樣才能行長致遠,才能將金融科技真正打造為核心競爭力。

(二)觀點二:前浪不能安於現狀而固步自封,對於變化最快的算法領域要做到與時俱進,同時避免「建模套路化」

「建模套路化」的現象指的是,一些金融機構在業務實踐中,用「一套數據、一套算法、一套流程」應對幾乎所有業務場景和風控場景。

筆者認為,在場景金融中,場景方的流量分發模型與金融機構的流量准入模型,二者之間是「既合作,又對抗」的關係,所以,套路化的模型,會使得金融機構的風控流於形式,無法有效地對「流量」進行實質甄別。

(三)觀點三:智能風控領域模型算法的發展三階段為「專家評分卡——>邏輯回歸(高維邏輯回歸)——>集成學習、深度學習」

人工智能算法在風險評估領域的發展可以分為三個階段:

第一階段,規則驅動,多採用專家打分卡算法;

第二階段,規則+數據驅動,多採用邏輯回歸與高維邏輯回歸算法;

第三階段,大數據驅動,多採用集成學習與深度學習算法。

(四)觀點四:算法的選擇,要根據「場景需求」對症下藥,根據「數據基礎」量體裁衣,根據「科技算力」量力而為,「理性」選擇算法

如何根據場景、數據、算力這些因素「理性」選擇算法,是本文第三章重點說明的問題。在這裡主要強調另外一點,理性選擇算法的另一個障礙——算法工程師的主觀傾向。

筆者自認為是一個「理性的感性人」,每次根據場景、數據、算力這些因素「理性」選擇算法後,總有一些莫名的憂傷,總結起來就是如下三點:對集成學習的依賴、對深度學習的偏愛、對專家規則的無奈。

對於高維邏輯回歸、集成學習的依賴

毋庸置疑,高維邏輯回歸和集成學習這兩類算法各方面相對均衡,是目前智能風控領域算法的第一梯隊。

對於深度學習的偏愛

筆者對深度學習算法研究已久,日久生情,每次理性使用高維邏輯回歸和集成學習建模以後,便會感慨道:「曾經有一個模型任務放在我面前,我沒有選擇深度學習算法,等我建完模型的時候才後悔莫及,人世間最痛苦的事莫過於此。如果上天能夠給我一個再來一次的機會,我想對深度學習說三個字:我選你。如果非要在這個算法上加上一個期限,我希望是一萬年!」

對於專家規則的無奈

對於專家規則,不是愛也不是恨,而是無奈。「唉!要是數據充分,誰還用專家規則啊!」但是,話說回來,這種無奈的感覺並不是因為專家規則的效果不好,事實上,在某些數據基礎或者某些特定場景下,專家規則效果還可以,但是專家規則的主要缺陷是「無法自動更新」!業務在變化,風險在變化,專家模型原地不動,這些固化的規則就可能由「助力業務發展」變為「阻礙業務發展」。

所以,每次我用專家規則建模後,也會感慨道:「曾經有一個模型任務放在我面前,我選擇了專家規則,等我建完模型的時候才後悔莫及,人世間最痛苦的事莫過於此。如果上天能夠給我一個再來一次的機會,我覺得我會再看一眼數據基礎,如果還是選擇專家規則,我會給這份無奈加上一個期限——半年後重檢!」半年後,看看半年中業務積累的數據情況,然後打開月光寶盒,在月光下大喊「般若波羅蜜」……

二. 人工智能的發展與算法的進化

作為第一批人工智能的博士,畢業十年後,曾經多次感慨人工智能的發展:「十年前人工智能只在書本里,現在人工智能都在資本里;十年前我只能用人工智能來寫作業,現在人們都在用人工智能來創業!」十年間,人工智能的發展實在是太快了!這個發展主要體現在算法、應用兩個方面。

(一)人工智能發展的背景

1. 人工智能、機器學習、深度學習的概念辨析

(1) 人工智能(Artificial Intelligence)

「人工智能」一詞最初是在1956年Dartmouth學會上提出的,希望用計算機來構造複雜的、擁有與人類智慧同樣本質特性的機器。最初的人工智能技術主要包括:機器人、語言識別、圖像識別、自然語言處理和專家系統等。但隨着理論和技術日益發展,目前人工智能的五大主流技術為:生物特徵識別、機器學習、自然語言處理、計算機視覺、知識圖譜。

(2) 機器學習(Machine Learning)

機器學習是一種實現人工智能的方法。與傳統的為解決特定任務、流程固定的算法不同,機器學習是用大量的數據來「訓練」,通過各種算法從數據中學習如何完成任務。從學習方法的角度,機器學習算法可以分為監督學習(分類問題)、無監督學習(聚類問題)、半監督學習、集成學習、深度學習和強化學習。

(3) 深度學習(Deep Learning)

深度學習是一種實現機器學習的技術。嚴格地說,深度學習算法屬於機器學習算法的一個子類,是一種基於神經網絡的算法。最初的深度學習算法,由於當時訓練數據量不足、計算能力落後,因此最終的效果不盡如人意。但隨着數據和算力的飛速發展,再加上一些特有的算法相繼被提出(如殘差網絡),深度學習的效果脫穎而出,因此越來越多的人將其看作一種「單獨的」方法。

(4) 人工智能、機器學習、深度學習三者的關係:

機器學習是一種實現人工智能的方法,深度學習是一種實現機器學習的技術,這三者的關係並不是「哈爾濱紅腸」的級聯關係,而是「俄羅斯套娃」的包含關係,如圖所示:

看到這張圖,有人可能會產生一個誤解「機器學習的終點是深度學習」,對此,筆者的回答是:技術無終點。在我們每一個人工智能研究者的心裡,都應該牢牢銘記這句話:

Yoshua Bengio:「Science is NOT a battle, it is a collaboration. We all build on each other's ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking。」這句話的主旨是:科學不是戰爭而是合作,任何學科的發展就是同行之間互相切磋學習。機器學習也是這樣,博採眾長才能引領風騷。

2. 人工智能的主流算法與研究熱點

人工智能傳統的算法包括決策樹、聚類、貝葉斯分類、支持向量機、EM、Adaboost等。但是,隨着理論和技術的日益發展,目前主流的人工智能算法包括如下:

圖學習算法

聯邦學習算法

集成學習算法

因子分解機算法

自動化機器學習算法

結構化數據深度學習算法

概率預測算法

遷移學習/元學習算法

半監督學習算法

強化學習算法

運籌優化算法

在金融領域對於人工智能的投入不斷加大的趨勢下,可以預見,人工智能會不斷滲透金融領域中的更多業務,並且由輔助人工轉為價值創造。有研究人員統計了人工智能金融的研究熱點排序如下:

金融文本發掘(Financial Text Mining)

算法交易(Algorithmic Trading)

風險估計(Risk Assessment)

情感分析(Financial Sentiment Analysis)

投資組合管理(Portfolio Management)

欺詐檢測(Fraud Detection)

(二)人工智能在金融領域的應用

1. 人工智能在金融領域的應用簡析

2. 人工智能在金融領域發展的驅動因素

人工智能在金融領域的飛速發展,主要有以下幾個驅動因素:

(1) 監管的政策倡導

政策方面,在「科技向善」的前提下,鼓勵人工智能、大數據等新技術的落地實踐,支持金融與科技的深度融合。

(2) 金融機構的認可

金融機構認可人工智能的技術價值,金融業務創新越來越依賴於大數據和人工智能技術,金融科技水平正在成為金融企業的核心競爭力。

(3) 基礎算法的發展

人工智能領域匯集了一大批頂尖的研究人員,從理論方面推動着算法能力、數據能力、科技算力的不斷提升。算法基礎理論的進步,推動了人工智能在金融領域的應用實踐。

(4) 大數據的擴域融合

金融數據與其他跨域數據的融合,不僅使得金融機構的營銷與風控模型更準確,同時也催生出更多基於場景的金融產品,使得行業之間的交叉更加深入,從而帶來更多的商業價值與社會效益。

(5) 黑產手段的升級

目前各類金融場景中的欺詐行為逐步呈現出金融欺詐產業化、犯罪組織職業化、作案目標精準化、欺詐活動移動化、欺詐場景多樣化等特徵。這種「魔高一尺、道高一丈」的激烈對抗,更加促進了算法技術的發展。

三. 人工智能算法在智能風控領域的經驗與思考

(一)智能風控領域的算法選擇經驗

人工智能算法在金融領域的應用,需要場景、數據、算法、算力的有機結合,要做到:根據場景需求對症下藥,根據數據量體裁衣,根據算力量力而為。

由「場景需求」到「算法要求」

場景和業務的需求就是模型的產出,直接決定了模型的算法。由「場景需求」到「算法要求」分為兩步:

第一步,先根據場景業務的特點,歸納出場景需求;

第二步,由場景需求抽象成算法因素。

常用的算法因素一般包含如下:樣本量、預測時間、模型周期、泛化能力、優化目標、可解釋性等。

為了更好地理解場景對算法選擇的影響,筆者以廣告推薦場景、信用評估場景、智能投研場景舉例說明如下:

2. 由「數據稟賦」到「特徵工程」

智能風控領域的主流模型均依賴於特徵工程,其數據源主要包括:徵信報告、資產狀況、基本信息、多頭借貸、運營商數據、地理信息、設備信息等。通過對上述數據源進行特徵工程,可以提取統計量特徵、離散化特徵、時間序列特徵、組合特徵等。筆者在大學軍訓的時候,教官常說「鐵打的營盤,流水的兵」,筆者提及特徵工程的經常套用這句話提出「流水的數據、鐵打的特徵」,數據是流動的,不穩定的,容易受污染的,而特徵則是相對穩定的,只有特徵的穩定才能保證模型輸出的穩定。

(1) 特徵工程的基本流程

筆者在工作中總結了一套通用的特徵處理技巧,並經常戲稱為「把大象放在冰箱裡統共分三步」,大象就越是龐大的數據體系,冰箱就是實用的特徵庫。

第一步:特徵探索,從數據角度優先排除無效的特徵;

第二步:特徵變換,將特徵轉換為模型更容易識別的形式,並進行升維;

第三步:特徵選擇,從業務的角度選擇有效的特徵。

(2) 特徵工程的經驗分享

在實踐中,筆者有一些經驗可以與讀者分享:

經驗建議1:關注數據缺失特徵

筆者要提醒,千萬別把數據缺失認為是數據質量問題,這種缺失本身也是一種特徵。所以,在實踐中要關注原始數據的缺失是否具有業務含義,並據此構造相應的缺失值特徵。例如,筆者在衍生二代徵信變量的時候,構造「客戶特徵缺失數量」作為一個特徵,就這個簡單的缺失值統計數量都可以有效改善模型效果,更何況其他更有實際意義的數據缺失。

經驗建議2:關注時間差特徵

時間差特徵值得深入挖掘,時間差特徵主要指客戶兩次行為之間的時間差,可以是最近一次消費(取現/還款)距今時長,一段時間內最大單筆交易與最小單筆交易的時間差等。筆者在開發貸中模型的時候,通過數據挖掘,發現最近一次消費(取現/還款)距今時長的變量與客戶是否違約具有較高的相關性。

經驗建議3:關注離散變量與連續變量的聚合特徵

要關注離散變量與連續變量的聚合特徵。例如,筆者在開發貸款違約模型過程中,將分類變量(職業/卡類型/貸款類型)等對數值變量(貸款金額/消費金額)進行聚合匯總,構造了不同職業/業務類型的貸款金額的均值/方差/最大值/最小值的統計量,該類特徵的使用有效地提升了模型的效果。

經驗建議4:關注外部數據的使用

一些外部數據是金融數據的有效補充,特別是反欺詐和二次營銷類的外部數據,對於金融機構的模型效果貢獻度很高。

3. 算法選擇經驗總結

(1) 基於數據類型的算法選擇

金融領域的數據特點就是「多源異構」,其數據類型主要有:時間序列數據、網絡圖譜數據、結構化數據、文本數據、圖像數據、視頻數據、語音數據。下面根據筆者實踐,給出了針對不同的數據類型,選擇算法的經驗,如下表所示:

(2) 基於數據狀況的算法選擇

在實際工作中,經常會遇到樣本不足(尤其是黑樣本)、數據維度不足、人工標註成本高、標籤少、標籤錯誤等情況。面對這些數據的「狀況」,選擇合適的算法,可以做到事半功倍。下面根據筆者實踐,給出了針對不同的數據狀況,選擇不同算法的經驗,如下表所示。

(3) 關於數據,基於經驗的算法選擇

筆者在智能風控方面的算法實踐,總結如下經驗:

經驗建議5:對於結構化數據

當連續特徵數量大於離散特徵數量時,建議優先採用集成學習。

當離散特徵數量大於連續特徵數量時,集成學習與深度學習效果相當。

當離散特徵多(如大量ID類特徵)時,建議優先選擇深度學習。

經驗建議6:對於時間序列數據

對於純時間序列,「時序特徵+集成學習」的效果一般優於深度學習。

對於高維稀疏時間序列,深度學習與集成學習各有千秋。

經驗建議7:對於圖數據

對於關聯關係要求高的應用場景,例如圖反欺詐場景等,建議特徵作為節點採用GNN模型訓練。

對於關聯關係要求低的應用場景,例如圖關係特徵輔助信用評估等,建議直接學習節點的Vector,然後編碼到原始特徵中採用集成學習訓練。

4. 建模方法論的經驗總結

在建模的方法論上,筆者也有一些心得體會可以和讀者分享,以期批評指正。

經驗建議8:關於數據質量

數據是模型的根基,如果數據質量存在嚴重缺陷,後期很難通過算法來進行彌補,所以在建模前,要關注數據質量,準確評估數據質量對於模型的影響。

經驗建議9:關於專家經驗與專家規則

專家經驗與專家規則的主要缺陷是無法自我更新,但是在「規則有效期」內,專家經驗實際上是很好的「標尺」,所以要根據這些標尺對算法進行一定程度的糾偏。

經驗建議10:關於模型迭代與算法創新

創新是算法的生命力,迭代是模型的生命力,但是做這兩件事情之前,首先要確定一個「及格線」。對於算法創新,首先要保證經典算法(及格線)是有效的;對於模型迭代,首先要選好基線模型(及格線)。

(二)人工智能算法在智能風控領域的發展趨勢

筆者結合工作經驗拋磚引玉,思考了人工智能算法在智能風控領域的發展方向。

趨勢1:深度學習算法將會被廣泛採用

(1) 隨着數據的豐富與算力的不斷提升,深度學習模型的優勢逐步體現。

隨着數據的豐富與算力的不斷提升,傳統的評分卡模型在大數據風控能力上的缺陷逐漸顯露出來。與此同時,基於DeepFM類與基於Transformer類的深度學習算法在智能風控領域的優勢也不斷顯示出來。DeepFM類的模型從廣告推薦領域遷移而來,由於其在自動化特徵組合與客戶ID類數據的優勢,在用戶行為欺詐領域發揮越來越重要的作用;而最新的Transformer類模型的發展,平衡了深度學習模型表徵能力強與可解釋性差的特點,在智能風控領域也得到了越來越多的關注和應用。

(2) 深度學習模型對於用戶行為表徵能力強,既可以實現自動化特徵組合,又可以對用戶的行為進行精準、細緻的刻畫。

一方面,深度學習模型通過特徵表徵、元素點積、注意力機制等技術,實現自動化的特徵組合。另一方面,通過RNN等模型在用戶行為的序列建模,對用戶的行為序列進行更加細緻準確的刻畫。Tencent、FeedZai等公司均利用RNN類模型進行交易反欺詐與信用評估,該模型因為省去了特徵處理環節,大大提高了模型效率,且模型精準度更高。

(3) 深度學習模型對於數據的可擴展性好,在無標註數據、標註不準確數據、增量數據、不同分布數據、小樣本數據等場景的建模,相比其他算法有獨特的優勢。

在無標註數據、標註不準確數據、增量數據、不同分布數據、小樣本數據下,傳統算法的效果大打折扣,而深度學習模型通過神經網絡的結構設計與損失函數的優化,支持元學習、遷移學習、在線學習、半監督學習、持續學習等模型的場景應用,可探索性與可配置性都很強。

當建模樣本不足時,可以採用Transfer Learning或者Meta Learning的方式進行模型設計;

當樣本標註成本高時,可以採用Active Learning的方式進行樣本建模;

當樣本標籤有錯誤時,可以通過Learning With Noisy Label的方式進行模型訓練;

當只有部分樣本有標籤,可以採用Semi-supervised learning的方式進行建模。

2. 趨勢2:多模態數據將會被廣泛應用

算法的發展與數據的發展「東成西就」,數據成就了算法,算法也促進了數據。深度學習算法的發展,也將會有效推動多模態數據在風控領域的應用。

從算法上看,傳統的風控模型一般從用戶的信貸記錄上識別客戶風險,深度學習模型可以從多模態的數據中挖掘隱藏的風險信息。

從數據上看,圖像、語音、文本、圖等不同屬性的數據作為結構化數據的有效補充,能夠有效地將信貸記錄上未察覺的風險識別出來。

所以,可以預見多模態數據將會在風控領域發揮越來越大的價值。

3. 趨勢3:圖數據庫與圖深度網絡將會大規模落地。

(1) 網絡圖譜以顛覆性的「關係視角」來解決反欺詐問題

網絡圖譜用「事物間關係屬性」來代替「事物本身的屬性」,來表徵事物的特徵。

從這個顛覆性的視角,使得網絡圖譜在識別團伙欺詐、線上反欺詐領域發揮着重要的作用。例如,相對金融機構熟悉的線下反欺詐,線上反欺詐主要針對團伙欺詐行為,團伙欺詐行為的主要特徵是:「羊」的還款意願不取決於「羊的本身屬性」,而是取決於「羊和羊頭之間的關係屬性」,這恰恰是網絡圖譜的視角。

(2) 網絡圖譜衍生圖特徵在風控領域的深度應用

網絡圖譜衍生圖特徵分為三類:

基於專家經驗的網絡圖特徵:這類特徵通常具有可解釋性,是通過業務經驗構造網絡節點與邊的屬性特徵,用於後續風險預測模型的特徵輸入。

基於機器學習的網絡圖特徵:這類特徵通常是不可解釋的,是通過矩陣分解或者隨機遊走等圖表示方法,將圖網絡刻畫出的用戶/企業風險水平進行結構化向量表達,用於下游不同場景下風險模型的特徵輸入。

端到端的風險預測模型:這種方法融合結構化特徵屬性,通過圖神經網絡算法直接訓練風險預測模型。

第一種應用由於可解釋性強,業務應用便捷,目前已在眾多金融機構落地。第二第三種應用由於建模過程更複雜,目前只集中在互聯網大廠應用,筆者認為隨着金融機構對於智能的認知與應用不斷加深,未來也會逐漸被金融機構接受並應用。

(3) 網絡圖譜將成為金融機構「新的數據源」

筆者在原始數據特徵上建立了一套評分體系,隨後逐步嘗試將這套評分體系構建在網絡圖譜特徵上,發現兩者效果具有一定的可比性。並且,隨着圖譜構建算法和方法論的進步,網絡圖譜能夠基於有限的數據源挖掘出更多的內部關係,相當於形成了新的「關係數據源」。

4. 趨勢4:聯邦學習將會大規模落地

首先我們要有一個認識:數據是生產資料、模型算法形成生產力、聯邦學習本質上是一種生產關係,它能夠充分地調動數據生產資料,並集成模型算法而形成生產力。

聯邦學習在保護數據隱私前提下,讓數據和算力留在本地,並在此基礎上進行聯合模型訓練的計算框架。在金融領域,保護隱私和數據安全是一個永久的話題。聯邦學習在保護隱私和數據安全的前提下,帶動了場景生態和金融生態跨領域、企業級的數據合作,催生了聯合建模的新業態和新模式,在未來將會大規模落地實施。

5. 趨勢5:自動化建模平台將會升級為模型風險管理平台

筆者前文提到了「後發劣勢陷阱」中,後浪一蜂窩地照貓畫虎進行IT系統的產品採購這個相對簡單的事情,而忽略了基礎數據、科技整合、算法能力等。目前的狀況是,大部分的金融機構均採購了自動化的建模平台,那麼如何用好這個平台,可以總結為:一個核心問題,兩個應用感受,三個發展趨勢。

(1) 一個核心問題:責任劃分。

自動化建模產出的模型,如果用這個模型放的貸款出現不良,那麼誰來負責任?所以,這個平台必須嵌入銀行的模型風險管理流程,才能有明確的責任劃分。

(2) 兩個應用感受:

筆者曾經使用過自動化機器學習平台進行建模,在實踐中內心感受如下:

感受1:這個平台是在解一道數學題,而不是在做風控;

感受2:這個平台會不會形成一種新的「建模套路化」。

(3) 三個發展趨勢:

趨勢1:在數據清洗、特徵工程等領域將會發揮重要作用。

根據筆者經驗,一個模型的流程,通常會把60–80%的時間用在數據清洗和特徵工程上,用於微調算法的時間不足5%,並且數據清洗和特徵工程這兩個環節可以「套路化」。

趨勢2:自動化機器學習算法可以作為有效挑戰者用於模型驗證。

自動化機器學習算法是一個公平的尺子,可以作為有效挑戰者成為模型驗證的「基準線」,以節約模型驗證的工作量。

趨勢3:自動化建模平台將會升級為模型風險管理平台。

關於模型風險的重要性,可以參見筆者的另一篇萬字長文《銀行模型風險管理體系的構建與實踐》。模型風險管理平台是一個流程平台,將自動化建模平台嵌入流程,明確責任;並且將數據處理、特徵工程、模型驗證等可以自動化的環節均納入其中,有效提升建模整體的敏捷性。

6. 趨勢6:算法的可解釋性將會被逐步重視

風控領域對模型解釋性的要求高於其他領域,尤其在欺詐拒絕或者命中黑名單時,最好是能給出一定的解釋。而機器學習(深度學習)模型在該方面的缺陷也恰好限制了其在風控領域的應用,對於可解釋性的研究將會是智能風控領域的研究熱點。

但是,辯證地看問題,筆者的個人觀點是這樣的:雖然可解釋性在金融領域很重要,但不要一味追求可解釋性,智能的本質就是利用算法從數據中發掘出那些被埋沒的信息。

四.算法工程師必備算法知識與經驗分享

筆者在本章總結了一些金融領域的常用算法、筆者的經驗分享以及進一步自學的參考文獻,如下圖所示。

(一) 圖學習算法、經驗及應用

圖學習算法介紹

提到圖學習,筆者很喜歡達摩院2020年十大科技趨勢預測白皮書里提到的一段關於圖網絡的描述:「大規模圖神經網絡被認為是推動認知智能發展強有力的推理方法。圖神經網絡將深度神經網絡從處理傳統非結構化數據(如圖像、語音和文本序列)推廣到更高層次的結構化數據(如圖結構)。大規模的圖數據可以表達豐富和蘊含邏輯關係的人類常識和專家規則,圖節點定義了可理解的符號化知識,不規則圖拓撲結構表達了圖節點之間的依賴、從屬、邏輯規則等推理關係。以保險和金融風險評估為例,一個完備的 AI 系統不僅需要基於個人的履歷、行為習慣、健康程度等進行分析處理,還需要通過其親友、同事、同學之間的來往數據和相互評價進一步進行信用評估和推斷。基於圖結構的學習系統能夠利用用戶之間、用戶與產品之間的交互,做出非常準確的因果和關聯推理。」

數學領域有一個著名的理論,叫六度空間理論,你和任何一個陌生人之間所間隔的人不會超過六個,這充分說明了關係的重要性。圖網絡提供了數據的通用表示,基本萬事萬物的聯繫均可以使用「節點+關係」來表示,同時,大量的現實問題都可以作為圖上的一組計算任務來處理。圖數據可以說是一種最契合業務的數據表達形式。

從最近幾年的頂會情況來看,圖神經網絡在學術界已經掀起了新的熱潮,也會迎來工業界更多的關注。DeepMind關於深度學習的未來曾經提到「生物學裡先天因素和後天因素是共同發揮作用的,我們認為『人工構造』和『端到端』學習也不是只能從中選擇其一,我們主張結合兩者的優點,從它們的互補優勢中受益」。

筆者認為,圖神經網絡既利用了豐富的人工構造的屬性特徵信息,又利用了複雜的網絡結構信息,充分實現人工構造和端到端學習的統一。從圖中,可以進行多層關係推理。傳統的CNN,RNN等深度神經網絡只能處理歐式空間的數據,對於非歐式空間的圖數據無法有效表徵,圖學習算法正是針對非歐式空間的圖數據進行學習。

按照網絡知識本身,圖學習算法可以分為網絡表示學習算法與圖神經網絡算法兩個分支:

網絡表示學習算法(GraphEmbedding)希望得到節點的有效表徵應用於下游任務,整個模型的輸出是頂點或邊的向量化表示,不涉及上層業務的關聯,是通用的表徵,典型算法如DeepWalk、LINE算法。

圖神經網絡算法(GraphNetwork)則是對特定的任務進行網絡學習,是端到端的訓練,是具體的表徵,典型算法如GCN、GAT算法。

2. 圖學習算法經驗

傳統的客戶建模認為客戶與客戶之間是獨立的,但是風控場景存在大量複雜的關係,包括交易關係、轉賬關係、親屬關係等,這使得個體屬性不僅與自身的特性相關,還與其發生交互的個體有關。筆者結合實踐經驗,給出一些算法建議供參考:

GBDT與GNN的結合

GBDT與GNN的結合有三種方式,一是GBDT的輸出作為GNN的特徵輸入,二是GNN的輸出作為GBDT的特徵輸入,三是GBDT與GNN的聯合訓練。第三種方式由於統一了任務本身,因此模型效果更好。Catboost作者發表了一篇文章《Boost Then Convolve: Gradient Boosting meets graph neural networks》講的就是第三種方式的算法理論,最後比較其他的方法如GBDT這種淺層的機器學習模型,證明聯合訓練的效果是比較突出的。

圖網絡與時間序列的結合

無論是風控領域、營銷領域還是投資領域,時序圖網絡的作用越來越重要,如何高效地構建億節點級別規模網絡,實現相關領域知識圖譜融合以及關鍵節點辨識、推理和控制,達到風險預警及防範,是值得研究的領域。

金融圖網絡算法設計

圖網絡大多與場景直接相關,一個電商場景的圖和社交網絡的圖在數據構成與上層模型計算層面均有本質不同,只有針對業務屬性進行算法的改進,才能真正解決業務的痛點。研究人員針對金融圖網絡數據設計了一些專用金融圖網絡算法,如HACUD、MAHINDER、AMG等圖網絡算法。筆者認為,該類算法值得模型人員學習、研究並應用。

不同類型邊的處理

正如前文所言,風控場景存在大量複雜的關係,包括轉賬交易等資金往來關係,父母配偶等親屬關係、朋友同事等社會關係,以及代辦人等中介關係等。目前大部分圖算法在進行計算時,權重參數是基於節點屬性特徵的,而不考慮邊類型的影響。這要求我們進行落地實踐時,不能簡單的「拿來主義」,而要在場景分析、基礎網絡關係設計、算法分析設計等的基礎上,形成富有針對性的解決方案。

圖的分布式計算能力

不管是頭部互聯網公司、還是金融機構,均服務大量客戶,由此構建的客戶關係網絡可以達到數10億個節點、數100億條邊的規模。這要求必須重點考慮大規模圖的計算能力,甚至優先於考慮算法本身的設計。將合適的圖神經網絡算法與大規模計算能力相結合,方可孵化出好的模型。

3. 經典資料(個人推薦)

【1】圖網絡學習: http://cse.msu.edu/~mayao4/dlg_book/

【2】圖網絡論文: https://github.com/thunlp/GNNPapers

【3】BTC: Ivanov, Sergei, and Liudmila Prokhorenkova. Boost then Convolve: Gradient Boosting Meets Graph Neural Networks. arXiv preprint arXiv:2101.08543 (2021).

【4】HACUD: Hu B, Zhang Z, Shi C, et al. Cash-out user detection based on attributed heterogeneous information network with a hierarchical attention mechanism[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2019: 946-953.

【5】MAHINDER: Zhong Q, Liu Y, Ao X, et al. Financial Defaulter Detection on Online Credit Payment via Multi-view Attributed Heterogeneous Information Network[C]//Proceedings of The Web Conference.2020: 785-795.

【6】AMG: Hu B, Zhang Z, Zhou J, et al. Loan Default Analysis with Multiplex Graph Learning[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management.2020:2525-2532.

(二) 聯邦學習算法、經驗及應用

聯邦學習算法介紹

數據共享是數據流通和數據產業的重要基礎,但數據共享過程中存在數據孤島問題與數據安全與隱私問題。當前已有的基於雲的數據共享方法,存在數據泄露與數據壟斷的風險,且數據存儲與集中處理的資源與成本過大。因此,有必要探索新的技術解決數據共享中遇到的問題。

聯邦學習由Google最先提出,通過分布式機器學習技術解決跨域數據共享與數據共享中隱私泄露風險的問題。聯邦學習的研究一部分集中於改進機器學習算法,另一部分集中在密碼學技術。

聯邦學習的改進算法主要有聯邦線性回歸、聯邦梯度提升樹、聯邦深度學習等算法。筆者以聯邦線性回歸舉例說明:

首先,A,B兩個聯邦初始化參數,由第三方生成密鑰並向A和B發送公鑰。

然後,聯邦A,B分別計算各自的子損失函數,擁有Y標籤一方匯總誤差並分發,生成A與B各自加密的梯度。

最後,第三方將解密後的梯度發至A和B,從而更新A,B各自的參數,如此循環往復,直至滿足迭代次數或準確率的要求。

聯邦學習的密碼學技術包括加密樣本對齊和同態加密技術等。加密樣本對齊針對不同聯邦的同一客戶進行關聯,該過程一般通過RSA公開密鑰密碼體制與Hash編碼實現。同態加密屬於數據層面的信息保護,對於兩種不同的處理方式——對密文直接進行處理,與對明文進行處理後再對處理結果加密,該算法可以保證得到相同的結果。

聯邦學習按照參與方特性,通常分為三類:

橫向聯邦學習:用戶特徵相同,用戶不同;

縱向聯邦學習:用戶特徵不同,用戶相同;

聯邦遷移學習:用戶特徵不同,用戶不同。

(1) 橫向聯邦學習:

算法定義:參與方數據集具有高度重疊的特徵維度,樣本重疊較少,將數據集進行橫向切分,提取出數據集間特徵一致而樣本不完全相同的部分作為訓練數據。

理解:例如在銀行反欺詐場景,單獨A銀行的欺詐模型和B銀行的欺詐模型識別能力有限,為了調高模型的準確性和魯棒性,在A銀行與B銀行選取不一樣的客戶,分別做欺詐預測,在訓練過程中對不同來源的模型參數通過雲端控制方進行聚合,最終可以得到一個統一的欺詐模型。

(2) 縱向聯邦學習:

算法定義:在兩個數據集用戶重疊較多而特徵重疊較少的情況下,選擇數據集按照用戶相同而用戶特徵不同的部分數據進行訓練。

理解:例如A銀行與C互聯網公司合作進行建模,A銀行存儲的是信貸記錄數據,而C公司存儲的是電商數據,這兩部分數據許多是重疊的用戶,但用戶特徵交集較少。縱向聯邦學習通過加密將不同特徵進行聚合和梯度更新,增強模型能力。

(3) 聯邦遷移學習

算法定義:算法在用戶特徵與用戶重疊都很少的情況下,無法對數據切分,只能利用遷移學習來克服數據或者標籤不足的情況。

理解:例如一家是A金融機構,一家是境外的D電商,這兩家無論數據的針對用戶還是數據的特徵都沒有重疊,這種情況下要進行數據聯合建模,需要通過聯邦遷移學習來解決單邊數據規模小和標籤樣本小的問題。

2. 聯邦學習算法經驗

聯邦學習算法的實踐經驗實際上是在聯邦學習「技術之外」的經驗,比如配套的管理制度、多方科技系統的整合等:

獎懲機制設定:由於各方數據資源分布不均勻,各方對聯邦學習的結果貢獻度不同,所以在制度上要設計好獎懲機制。

多方工程優化:由於各方科技資源各不相同,聯邦學習在各方的工程落地時,會遇到集群配置、網絡配置等實際問題,因此工程優化在聯邦學習中應該得到充分重視。

3. 經典資料(個人推薦)

【1】聯邦學習白皮書:

https://aisp-1251170195.cos.ap-hongkong.myqcloud.com/wp-content/uploads/pdf/%E8%81%94%E9%82%A6%E5%AD%A6%E4%B9%A0%E7%99%BD%E7%9A%AE%E4%B9%A6_v2.0.pdf

【2】聯邦學習綜述:Kairouz, Peter, et al. "Advances and open problems in federated learning." arXiv preprint arXiv:1912.04977 (2019).

【3】收集聯邦學習資料:

https://github.com/ZeroWangZY/federated-learning

(三) 集成學習算法、經驗及應用

集成學習算法介紹

集成學習算法是目前風控領域主流的機器學習算法,一般也稱為GBDT類算法,據此擴展的算法有Xgboost、Lightgbm、Catboost、Snapboost等。

集成學習算法的原理是通過一系列弱分類器構建一個強分類器,其擴展算法Xgboost、Lightgbm、Catboost、Snapboost將Boosting的機理轉換為函數的梯度下降問題,用來支持各種不同的損失函數,同時,這些框架在訓練性能上做了大量算法優化,從而顯著降低計算複雜度。

Xgboost算法採用牛頓法進行損失函數優化,同時增加正則項,縮減係數和採樣步驟,提高模型泛化能力。

Lightgbm算法採用稀疏和稠密表示的混合存儲方式,並使用OpenNMP進行並行加速。

CatBoost算法針對類別變量採用了特殊處理,並且採用了高效的並行算法加速計算。

Snapboost算法採用異構的弱分類器來優化,弱分類器的選取按照概率質量函數來進行採樣。

2. 集成學習算法經驗

集成學習算法巧妙地利用樹結構,將特徵衍生和集成學習這兩個環節合二為一。所以客觀上「無心插柳柳成蔭」實現了兩個優勢:

一是,實現了特徵生成和算法決策的融合,提升了算法的穩定性,保證了算法的效果;

二是,由於特徵排序可以並行計算,所以GBDT算法支持分布式數據讀取與模型訓練,支持GPU高效訓練,且可靈活轉換為PMML等格式動態部署。

因此,GBDT類算法在智能風控、智能營銷、智能投顧等領域均有廣泛應用,並且是目前智能風控領域算法的優先選擇。

3. 經典資料(個人推薦)

【1】GBDT: Yoav Freund. Boosting a weak learning algorithm by majority. Information and computation, 121(2):256–285, 1995.

【2】Xgboost: Chen, Tianqi, and Carlos Guestrin. Xgboost: A scalable tree boosting system. In KDD, pages 785-794, 2016.

【3】Lightgbm: Ke Guolin, Meng Qi, Finley Thomas, Wang Taifeng, Chen Wei, Ma Weidong, Ye Qiwei, and Liu Tie-Yan.LightGBM: A highly efficient gradient boosting decision tree. In NIPS, pages 3149–3157, 2017.

【4】Catboost:Liudmila Prokhorenkova, Gleb Gusev, Aleksandr Vorobev, Anna Veronika Dorogush, and Andrey Gulin.CatBoost: unbiased boosting with categorical features. In NIPS, pages 6638–6648, 2018.

【5】Snapboost: Parnell, Thomas, et al. SnapBoost: A Heterogeneous Boosting Machine. In NIPS, pages 33, 2020.

(四)因子分解機算法、經驗及應用

因子分解機算法介紹

本章提到的因子分解機算法主要指DeepFM類算法及其變式,包括DeepFM、WDL、NFM、AFM、DCN、DIN、DIEN、xDeepFM等各種版本的改進算法。DeepFM的核心在於類別型變量的向量表徵與特徵間交叉組合,DeepFM算法適合於離散特徵較多的場景。

筆者以金融市場為例,嘗試解釋因子分解機類的算法思路:

向量表徵思想(Embedding)

向量表徵思想將事件通過模型表徵為更高層次的向量抽象表達。舉例說明,金融市場的事實、事件是動態的、複雜的,當我們無法對這些事實進行精確表徵時,可以依賴於神經網絡將事實向量化。

分類處理思想(Wide Deep)

分類處理思想是利用FM與DNN網絡分別針對離散型數據與連續型數據進行學習。舉例說明,金融市場既有離散型的數據,比如行業分類;又有連續型的數據,比如交易金額。由於數據差異,不同的數據類型需要設計不同的模型結構。

特徵交叉思想(Feature Crossing)

特徵交叉思想指的是特徵的內積或者外積。舉例說明,特徵有限的情況下,通過特徵交叉,自動組合形成新的特徵,這樣從中可以發現一些新的有效特徵。

注意力思想(Attention)

注意力思想是指,針對時間序列與非時間序列有不同的注意力機制。舉例說明,在不同市場下,不同的特徵重要性不同,讓模型自己去學習市場情況,不同市場情況下模型會「注意」不同的特徵。

2. 因子分解機算法經驗

因子分解機類算法在搜索推薦廣告領域發揮着十分重要的作用,在金融領域,對於金融信息的推薦與理財產品的推薦同樣可以應用。筆者認為該類模型與集成學習模型相比:

優勢1:可以通過批處理支撐大數據訓練,不一定需要大數據集群的支撐。

優勢2:可以對用戶進行細粒度的特徵刻畫。

另外,在實踐方面,筆者有如下經驗:

經驗1:增加離散特徵的比例。離散變量由於可以發揮向量表徵的優勢,更適合因子分解機類算法進行模型。

經驗2:增加客戶細粒度的行為數據。由於該模型為深度學習模型,為了保證模型穩定收斂,需要更多的客戶行為數據。

3. 經典資料(個人推薦)

【1】深度學習在CTR預估中的應用:https://zhuanlan.zhihu.com/p/59340370

【2】CTR預估入門及各種模型介紹:https://www.mayi888.com/archives/54482

【3】深度CTR特徵自動組合機制演化簡史:https://zhuanlan.zhihu.com/p/52876883

(五)自動化機器學習算法、經驗及應用

自動化機器學習算法介紹

金融機構在建模領域面臨着兩個問題:一是,許多情況業務人員不懂機器學習,而算法人員數量不足;二是,完整建模流程周期長、成本高。自動化機器學習算法的目標是完全自動化流程的創建,一方面,使得領域專家能快速使用機器學習,另一方面,使得算法工程師快速實現業務應用。

自動化機器學習(AutoML)一直是工業界所關注的機器學習技術,自動化機器學習方法目前研究的熱點有自動特徵組合與神經網絡結構搜索。

(1) 自動特徵組合

自動特徵組合目的是在有限時間和資源情況下高效地構造出衍生特徵。該類方法一般生成大量高階組合特徵,按照優化算法進行有效特徵選擇,並將選出的新特徵與原始特徵一起用於模型構建。由於特徵的可解釋性強,可以明確知道衍生的特徵是由原始的哪些特徵組合而來,因此適合於風控領域建模。

(2) 神經網絡結構搜索(NAS)

神經網絡結構搜索目的是在有限時間和資源情況下進行高效的、魯棒的搜索得到最優的模型。例如,谷歌採用進化算法與強化學習來尋找適宜的神經網絡結構,用於視覺分類任務。該類方法主要分為基於強化學習、遺傳算法、梯度優化的方法。由於該類方法基於神經網絡設計,因此適合於圖像識別,文本識別等神經網絡結構複雜的任務。

2. 自動化機器學習算法經驗

自動特徵組合的自動化機器學習算法(SAFE算法、AutoCross算法)可以清晰地知道衍生特徵的構造邏輯,在分布式計算上也支持較好,因此更適合於風控場景建模,筆者在具體實踐工作中,使用比較多的算法為螞蟻金服的SAFE算法與第四範式的AutoCross算法。

(1) 筆者對於「SAFE算法」的偏愛

SAFE算法來自螞蟻金服,通過多種特徵構造方法,經過特徵組合排序、特徵生成IV值篩選、皮爾遜相關係數冗餘特徵處理,來實現自動化特徵提取的功能。常用的特徵構造方法有一元特徵、二元特徵、群組統計特徵:

一元特徵:指特徵變換生成的特徵,如時間特徵的小時、日、周粒度的特徵算子;

二元特徵:指操作算子如+、-、*、/生成的特徵;

群組特徵:指基於數學統計意義生成的特徵,如min、max、std、mean、skew等。

(2) 筆者對於「AutoCross算法」的偏愛

AutoCross算法來自第四範式,通過Beam search方法來產生數據,進行高階特徵組合,然後採用Filed-wise logistic regression 和Successive mini-batch gradient descent方法來進行特徵評價,最終得到有效的特徵組合用於下游建模任務。

(3) 關注自動化機器學習算法用於數據清洗、特徵工程

筆者認為在風控領域,數據清洗、特徵工程等流程要得到充分的重視,自動化機器學習算法未來的關注點也應該包括數據清洗和特徵工程。

一方面,在一個模型的構建中,通常60–80%的時間用在數據清洗和特徵工程上,用於微調算法的時間不足5%。

另一方面,一些任務無法自動化,比如行業特定知識。

(4) 神經網絡結構搜索(NAS)可解釋性的困擾

在實時性和可解釋性要求高的風控場合,筆者認為基於深度學習的自動化機器學習算法若想大規模推廣使用,還需要進行必要的「改良」。

3. 經典資料(個人推薦)

【1】SAFE: Shi, Qitao, et al. Safe: Scalable automatic feature engineering framework for industrial tasks. IEEE 36th International Conference on Data Engineering. 2020.

【2】AutoCross: Luo, Yuanfei, et al. Autocross: Automatic feature crossing for tabular data in real-world applications. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

【3】AutoML綜述: Zller, Marc-André, and Marco F. Huber. Benchmark and survey of automated machine learning frameworks. Journal of Artificial Intelligence Research. 2021.

【4】NAS綜述: Elsken, Thomas, Jan Hendrik Metzen, and Frank Hutter. Neural architecture search: A survey. Journal of Machine Learning Research. 2019.

(六)結構化數據深度學習算法、經驗及應用

結構化數據深度學習算法介紹

結構化數據區別於圖形數據、文本數據、語音數據等非結構化數據,指可用關係型數據庫存儲的高度結構化的數據。在結構化數據算法這個傳統的領域,仍然不斷有一些新的深度學習算法湧現出來,這類算法大致可以分為兩類:

(1) 仿樹型結構網絡(Tree-based network)

該類算法使用神經網絡模擬樹模型的損失函數,代表的是DeepGBM算法。DeepGBM算法來自微軟亞洲研究院,通過神經網絡來擬合樹模型索引的輸出,將稀疏類別型特徵輸入CatNN子網絡,將稠密連續型特徵輸入GBDT2NN子網絡,最後將兩子網絡的輸出合併,使用神經網絡進行目標學習。

(2) 注意力類算法(Attention-based network)

該類算法通過引入注意力機制來進行網絡結構設計,代表的是TabNet算法、 TabTransformer算法、NODE算法等。

TabNet算法:來自谷歌,通過引入注意力機制進行網絡結構設計,效果好於其他神經網絡和樹形模型,並且兼顧可解釋性要求,在一些場景下的效果相比Xgboost算法得到了一定的提升。

TabTransformer算法:同樣來自谷歌,使用自注意力機制(Self-attention)來處理結構化數據,在半監督任務上顯著優於GBDT算法。

NODE算法:來自俄羅斯最大搜索門戶公司Yandex,該算法依據圖像處理的DenseNet框架進行網絡設計,構建基於結構化數據的DenseNet模型。

2. 結構化數據深度學習算法經驗

結構化數據深度學習算法幾乎適用於目前的所有風控模型與營銷模型,該類模型與集成算法模型相比:

優勢1:可以通過批處理支撐大數據訓練,不需要大數據集群的支撐。對於僅有風險數據集市,而沒有風險數據中台的金融機構,這類算法就是對風險數據集市的續命。

優勢2:可以靈活定義優化目標,支持半監督、自監督等特定數據場景。

劣勢:模型的調參複雜、可解釋性較差。

3. 經典資料(個人推薦)

【1】DeepGBM: Guolin Ke, Zhenhui Xu, Jia Zhang, Jiang Bian, and Tie-Yan Liu. Deepgbm: A deep learning framework distilled by gbdt for online prediction tasks. In KDD 』19 Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2019.

【2】TabNet: Sercan O Arik and Tomas Pfister. TabNet: Attentive interpretable tabular learning. arXiv preprint arXiv:1908.07442, 2019.

【3】TabTransformer: Huang X, Khetan A, Cvitkovic M, et al. TabTransformer: Tabular Data Modeling Using Contextual Embeddings[J]. arXiv preprint arXiv:2012.06678, 2020.

【4】NODE: Sergei Popov, Stanislav Morozov, and Artem Babenko. Neural oblivious decision ensembles for deep learning on tabular data. arXiv preprint arXiv:1909.06312, 2019.

(七)概率預測算法、經驗及應用

概率預測算法介紹

複雜經濟學創始人布萊恩阿瑟說過,不確定性是經濟世界的主旋律。今天筆者要講的正是不確定性。

統計學有兩大學派,頻率學派與貝葉斯學派。頻率學派研究的重點是樣本數據的分布,他們認為一個模型存在唯一的真實參數,但是貝葉斯派的觀點則大有不同,貝葉斯學派研究的重點是參數的分布,他們認為唯一的參數並不存在,參數只存在一定的概率分布。概率預測算法與貝葉斯學派的思想不謀而合,它試圖告訴你,這個世界是不確定性,不要想着去準確預測數據值,而是從分布的角度去看待問題本身,一切皆有可能,只不過可能性不等而已。

概率預測有兩個重要的部分,一部分是基於結果的分布預測,另一部分是基於參數的分布預測。基於結果的分布預測先假設預測值的分布,再求解該分布涉及的參數,基於參數的分布預測,則是先假設模型參數的分布,再求解模型參數分布涉及的參數,進而求出預測值的分布。例如假設正態分布,則分布涉及參數指的是正態分布的均值,方差。

基於結果的分布預測假設預測的結果服從一定的概率分布。區別於值預測(左圖)直接輸出預測的值,概率預測輸出預測值的分布(右圖)。因此,實現基於結果的分布預測,一般需要給出預測分布的類型,比如結果服從高斯分布、均勻分布,給出分布類型後,問題就轉化為學習分布的參數。

傳統的機器學習算法由於數據的複雜分布和表徵能力有效,並不能有效解決分布的參數問題,而神經網絡可以通過複雜非線性來擬合分布的參數,因此得到越來越多的關注。典型的神經網絡分布預測算法如亞馬遜的DeepAR算法、SDE-Net算法等。例如,亞馬遜運用DeepAR算法進行貨物需求預測,需求預測是為補貨服務的,貨物需求的預測一般考慮的是最大需求情況下需要多少庫存,該問題並不是平均意義的預測,而是極端值的預測,需要算法給出未來庫存需求的概率區間,因此採用基於結果的分布預測,並取分布的極端值作為預測庫存即可滿足要求。

圖片來源:http://www.indiana.edu/~kruschke/BMLR/

基於參數的分布預測假設模型的參數服從一定的概率分布,如上圖,預測結果y是各個分布的加權,該類方法典型的應用以貝葉斯神經網絡為主。貝葉斯神經網絡假設每個網絡參數都是一個分布,網絡的計算實質是分布間的計算。貝葉斯神經網絡對所有網絡參數採樣,每個神經網絡的權重都來自其後驗分布,通過蒙特卡洛模擬將通過不同分布預測的期望形式轉化成離散平均加和的形式,並提供預測結果的分布。貝葉斯深度學習相比於非貝葉斯深度學習,一方面由於採用多種結果求期望平均,使得模型魯棒性更強;另一方面,由於是概率預測,可以提供不確定性。騰訊將貝葉斯深度學習用於騰訊廣告系統的點擊率預測,並提供快速、準確的用戶偏好學習方法。

2. 概率預測學習算法經驗

概率預測輸出預測值的分布,適用於所有回歸問題建模,概率預測結果的邊界值提供了一種定量平衡風險的有效途徑,考慮極端情況正是風險管理的一個重要出發點。筆者認為,概率預測在風控業務最新的應用方向如下:

資金需求量預測。取預測範圍區間裡最極端的值,既能按照最壞打算儲備足夠的資本,又不至於資金浪費。

可信度評估。比如資金需求預測時,同樣500萬資金需求,疫情前可能有80%可信度,疫情下,就變成30%可信度,據此可以對宏觀風險進行量化。

3. 經典資料(個人推薦)

【1】貝葉斯神經網絡綜述:Goan, Ethan, and Clinton Fookes. Bayesian Neural Networks: An Introduction and Survey. Case Studies in Applied Bayesian Data Science. 2020. 45-87.

【2】DeepAR模型:Salinas, David, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. International Journal of Forecasting. 2020. 1181-1191.

(八)遷移學習/元學習算法、經驗及應用

1. 遷移學習算法介紹

遷移學習側重於將學習過的知識遷移應用於新的問題,在這一過程中的關鍵問題是要找到新問題和原問題之間的相似性。在實際工作中,針對一個新任務,如果重新訓練一個神經網絡,流程會很複雜,但是如果在已有的模型上微調,快速適應新的任務,則既簡化了任務,又節省了時間,這就是遷移學習的優勢。

具體到風控場景,假設已有業務A的風控模型,接到新業務B的建模需求,採用遷移學習的思想,可以解決業務B的冷啟動問題,由於不需要從頭訓練,也可以快速地實現業務B模型的部署。

遷移學習可以分為:樣本遷移、模型遷移、特徵遷移。筆者結合風控業務舉例解讀如下:

2. 元學習算法介紹

元學習是學會學習的學習(Learn to learn),目的是設計一種機器學習模型,經過不同任務訓練後,可以快速地適應並泛化到新的任務。通俗地講,加入模型是一個「智者」,智者從前通過很多的數據學到了一些經驗,現在面臨一個新的任務,想使用上這些經驗,智者通過元學習的流程快速地掌握了該任務的技能。筆者認為,元學習相比於遷移學習,更強調的是任務的概念(Task), 但在具體應用上,與遷移學習殊途同歸。

3. 遷移學習算法經驗

(1) 遷移學習的場景經驗

筆者認為遷移學習適合於如下風控場景:業務 A、B 對應的數據特徵大部分一致(允許存在部分特徵不同或者部分特徵取值不同),但業務A與業務B關於標籤的特徵重要程度不同(數據分布不同)。

例如,保險貸與房貸客群的特徵構造邏輯完全相同,但由於客群分布存在差異,某些特徵對保險貸客群有區分度,未必對房貸客群有區分度,因此保險貸的模型直接應用於房貸並不合適,這種情況下藉助遷移學習可以快速實現房貸模型的構建。

(2) 遷移學習的應用經驗

筆者經常將遷移學習用於兩種任務:一是,緊急業務的冷啟動;二是,模型的結構遷移與參數微調。緊急業務的冷啟動用於新業務的快速開展,多用於風控業務最初期。模型的結構遷移與參數微調則用於在新業務積累一定的標籤後的風控模型建設。

(3) 遷移學習的算法實踐

筆者建議從三個角度由淺入深地逐步實踐:基於邏輯回歸算法的優化目標設計、基於樹模型算法的參數微調、基於深度學習算法的模型結構設計。

基於邏輯回歸算法的優化目標設計,通過設計損失函數,綜合交叉熵損失與域適應損失,在兼顧邏輯回歸可解釋性條件下,同時提高了模型的泛化性能。

基於樹模型算法的參數微調,將原始樹模型用作新模型的參數初始化。

基於深度學習算法的模型結構設計,通過對抗訓練,使得網絡學習到的特徵表示可以同時用於多個業務線,實現特徵表徵上的遷移。

4. 經典資料(個人推薦)

【1】遷移學習簡介: https://github.com/jindongwang/transferlearning

【2】元學習簡介:https://zhuanlan.zhihu.com/p/146877957

(九)半監督學習算法、經驗及應用

半監督機器學習算法介紹

許多情況下,有標籤的樣本難以獲取,而無標記的樣本獲取成本很低,半監督學習算法正是充分利用這些無標籤的數據和有標籤數據,在分布上的連續性與一致性進行算法的設計。

半監督機器學習可以分為自訓練算法、基於圖的半監督算法、半監督支持向量機等。半監督深度學習可以分為半監督分段網絡、半監督一體化網絡等。

(1) 半監督機器學習

自訓練算法

利用有標籤樣本訓練的模型對無標籤樣本進行預測,得到無標籤樣本的偽標籤,然後按照一定策略選出其中的可信樣本加入訓練集中重新訓練模型。

基於圖的半監督

根據節點屬性與圖網絡的結構,尋找有標籤數據與無標籤數據的關係,預測無標籤節點的標籤。

半監督支持向量機

利用無標籤數據的空間分布信息調整SVM的決策超平面,是支持向量機在無標籤樣本下的改進版本。

(2) 半監督深度學習

半監督分段網絡

此類方法一般分為兩步,第一步利用無標籤數據進行預訓練;第二步利用有標籤數據微調模型。例如,可以通過自編碼器預訓練,然後將中間層的結果輸入網絡分類器,也可採用類似於自訓練算法的思想,將神經網絡作為分類器,生成偽標籤並重新訓練模型。

半監督一體化網絡

此類方法建立一個整體的損失函數進行端到端訓練。將有無標籤作為一個0-1的參數,並賦予於不同的權重,這樣就建立了有標籤與無標籤數據通用的損失函數,實現端到端的網絡訓練。

2. 半監督機器學習算法經驗

半監督學習算法通過在有監督的分類算法中加入無標記樣本以增強分類效果,並且在不斷接觸新樣本的過程中更新算法。筆者認為,在風控領域半監督的未來應用方向應該包含:

(1) 半監督學習與主動學習的結合

筆者認為,半監督學習利用了無標籤數據中的確定性信息,而主動學習利用了無標籤數據中的不確定性信息,兩者正好可以互補。主動學習與半監督學習結合,快速地構建基於已標記數據的模型,並應用於未標記數據,然後使用這些數據來強化訓練模型。阿里支付寶研發了基於主動學習與半監督機器學習結合的方法用於識別套現風險,相比無監督模型Isolation Forest ,將套現交易識別率提升了3倍。

(2) 半監督學習用於拒絕推斷與風控回撈:

在實踐中,通過半監督可以給拒絕的客戶打偽標籤,用於更新已有的風控模型,有兩個好處:一是,通過拒絕推斷訓練一個無偏的風險模型,避免由於缺少拒絕客戶的樣本數據,導致風控模型存在偏差。二是,從拒絕客群中識別優質客戶,提升客戶通過率,為銀行挽回更多的客戶。

3. 經典資料(個人推薦)

【1】半監督機器學習總結: https://zhuanlan.zhihu.com/p/252343352

【2】半監督學習綜述:https://arxiv.org/abs/1905.11590

【3】主動學習與半監督學習在風控應用:

https://developer.aliyun.com/article/582125

(十)強化學習算法、經驗及應用

強化學習算法介紹

強化學習的主要角色是智能體(agent)和環境(environment),智能體通過一個策略函數(policy function)來選取下一步的策略(action),同時也會按照價值函數(value function)來對當前狀態進行獎勵(reward)。

強化學習是一個序列決策問題,獎勵信號並不與當前行動直接掛鈎,可能很早之前的行動最近才有獎勵,當前行為又會在未來時刻產生獎勵,模型目的在於如何找到最好的策略空間在將來產生最大的回報。強化學習一定程度上提高了在線學習的效率,可以快速適應環境,做出新的決策。

在量化投資領域,研究員們採用強化學習算法實現在商品期貨、股票指數、固定收益和外匯市場的投資組合構建問題。傳統的量化模型分割為模型與策略兩部分,模型的目標與策略的目標存在差異,強化學習則將兩部分合併在一起,直接以收益為目標,因此模型的針對性更強。

在信貸公平性領域,研究員們利用強化學習仿真了不同信貸策略的影響。銀行在發放貸款的時候,存在兩種策略,一種叫利益最大化,一種叫機會均等。利益最大化策略按照總體利潤最大化來確定銀行貸款准入的閾值,從而判斷接受還是拒絕該筆貸款的申請。機會均等策略按照TPR相等來確定準入的閾值,保證在不同群體中,本應償還貸款的申請者中獲得貸款的人數比例相同。銀行利潤和借貸者信用的平均值並非同時達到峰值,也就是保證貸款群體信用最好的時候並非銀行利潤最大的時候。ICML2018最佳會議論文Delayed Impact of Fair Machine Learning分析了銀行借貸不同策略的公平性問題,該研究針對不同策略對於決策系統的短期影響進行分析;谷歌最近發表的文章 Fairness Is Not Static: Deeper Understanding of Long Term Fairness via Simulation Studies 則針對不同策略對於決策系統長期影響進行了建模仿真,而強化學習天然適合仿真該長期影響的場景。結果表明,利益最大化策略的閾值不隨時間變化,因此利益最大化的過程閾值是固定的。而機會均等策略認為TPR隨時間變化,從而對應不同的准入閾值變化。

2. 強化學習算法經驗

目前強化學習在金融領域一方面應用在量化投資領域;另一方面應用在信貸公平性仿真領域。筆者給出一些建議供參考:

強化學習在金融的應用依賴於領域知識與強化學習結合的經驗。因此,理解金融本質,將金融問題轉換為強化學習的模型問題至關重要。

強化學習在量化投資領域的前景廣闊。不少公募基金,私募基金均在嘗試使用強化學習去賺取市場的超額收益,而算法的獨特性恰好是戰勝市場的一個先決條件。

3. 經典資料(個人推薦)

【1】Fairness is not static:D'Amour, Alexander, et al. Fairness is not static: deeper understanding of long term fairness via simulation studies. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.

【2】RL for Trading: Fang, Yuchen, et al. Universal Trading for Order Execution with Oracle Policy Distillation. arXiv preprint arXiv:2103.10860. 2021.

【3】RLForFinanceBook: http://stanford.edu/~ashlearn/RLForFinanceBook/book.pdf

(十一)運籌優化算法、經驗及應用

運籌優化算法介紹

運籌優化算法一般分為精確解算法與啟發式算法。

(1) 精確解算法

精確解算法更側重於建模理論的實現,比如分支定價、拉格朗日鬆弛等方法,在這裡不詳細展開。

(2) 啟發式算法

啟發式算法本質上是在做有選擇的窮舉,所以更側重於編程能力的實現,分為鄰域搜索算法、群體智能算法。

鄰域搜索算法

鄰域搜索算法在每次迭代時通過搜索當前解的「鄰域」找到更優的解,比如模擬退火、禁忌搜索、迭代局部搜索、變鄰域搜索、自適應大鄰域搜索等算法。

群體智能算法

群體智能算法則是模擬生物群行為,利用群體中的個體之間的信息交互和合作來實現尋優的目的,比如遺傳算法、粒子群算法、蜂群算法。

(3) 在利率定價領域的典型應用

在利率定價領域,可以用組合優化來確定基於風險的最優利率,使貸款組合的期望利潤最大,在該優化問題建模中,風險響應關係與逆向選擇均會納入到利潤定價問題中。風險響應關係假設不同定價下客戶的響應概率不同,逆向選擇假設違約概率是利率的函數,對於兩個概率函數的不同刻畫會直接影響組合優化的結果。當然,實際情況有多種優惠條件的約束,使得利率定價的優化問題更加複雜。

(4) 在資產配置領域的典型應用

在資產配置領域,均值方差優化(Mean Variance Optimze,MVO)實現給定風險水平下組合收益的最大化,或者給定收益水平下組合風險的最小化,由於不同投資者風險承受能力不同,會使用風險厭惡係數來衡量風險承受能力。通過限制賣空/上限下限/資金投入比例,指數增強偏離限制等約束條件,可以構建更加全面的資產配置組合優化模型。

2. 運籌優化算法經驗

運籌優化算法在金融領域,一方面應用在風險定價領域,一方面應用在資產配置領域。在運籌優化算法解決金融問題時,筆者給出一些建議供參考:

(1) 明確是否屬於運籌優化求解的範疇

依據業務情況與數據情況,確定是屬於運籌優化問題,還是機器學習問題,或者是兩者的統一結合。對於問題的定義是解決業務痛點的前提。例如,信貸領域定價問題多為運籌優化問題,廣告領域定價問題多為機器學習問題,而物流領域庫存分配問題則為運籌優化與機器學習的結合問題(先預測銷量再優化庫存)。

(2) 確定優化目標與約束條件

運籌優化算法的關鍵在於如何定義優化目標與約束條件,要綜合業務知識和數據情況進行綜合設計。例如,在進行信貸風險定價時,是否要考慮風險響應關係,逆向選擇和負擔能力,如果考慮,如何設計相應的目標函數與約束條件。

3. 經典資料(個人推薦)

【1】基於學習的運籌優化算法進展與發展趨勢:https://bbs.huaweicloud.com/blogs/175251

【2】低調的運籌學,與金融業的契合點在哪裡? https://www.shanshu.ai/article/41

作者簡介:

祝世虎

祝世虎,光大銀行智能風控中心副主任、主任科學家。祝先生為北京大學第一批人工智能專業的博士,目前主要工作領域為:互聯網金融、智能風控等。祝先生獲得智能風控領域相關專利十餘項,並多次獲得人民銀行、銀保監會的獎項,多次在國內外智能風控論壇上作為主講嘉賓。

成學軍

成學軍,光大銀行智能風控中心算法研究員。成先生畢業於北京航空航天大學自動化學院,一直致力於將機器學習與深度學習算法應用於金融業務中,曾發表ESI高被引論文,擁有算法專利十餘項,並在魯豫有約節目中介紹相應算法成果。

End.

評論列表

頭像
2024-08-21 07:08:04

兩個人的感情往往都是當局者迷,找人開導一下就豁然開朗了

頭像
2024-07-14 07:07:18

求助

頭像
2024-04-08 06:04:42

求助

頭像
2023-12-12 09:12:07

發了正能量的信息了 還是不回怎麼辦呢?

 添加導師LINE:jaqg

獲取更多愛情挽回攻略 婚姻修復技巧 戀愛脫單幹貨

發表評論 (已有4條評論)