【风控体系】互联网反欺诈体系漫谈
轉:原文鏈接:https://mp.weixin.qq.com/s/9TUNBIbf85MVZ6QlyN34lw
感覺類似金融風控實驗室的概念,會越來越火,也希望越來越多志同道合的小伙伴可以加入這個圈子,推動中國金融科技事業的發展。畢竟,在國外,綜合數據分析、人工智能等相關技術已經有超過20年的積累了,而在中國,才剛剛起步。
這篇文章對于反欺詐的介紹屬于大綱式,講得還是比較全面,有條有理。其中建設反欺詐體系的實時性、自動化、數據化等原則;反欺詐團隊的架構;信譽庫、專家規則、機器學習等方法。對于初期著手反欺詐項目的伙伴,都有建設性、方向性的指導意義。
欺詐與反欺詐
要反欺詐,自然要明確什么是欺詐。
欺詐一詞,古已有之。在《現代漢語詞典》和《漢語大詞典》中,欺詐被解釋為“用狡猾奸詐的手段騙人”。在《中華人民共和國民法通則中》和相關司法解釋中,欺詐行為是“故意告知對方虛假情況,或者故意隱瞞真實情況,誘使對方做出錯誤的表示的行為”。
故此欺詐的核心要義,是“騙”,是通過欺騙以達到通過正常途徑無法達成的目的。欺詐一事,在人類社會中無處不在。小到孩童撒謊、大到軍事謀略,本質上都是欺詐。
正因為欺詐的無處不在,所以在古往今來的各行各業中,從商品上的防偽碼到收銀臺的驗鈔機,從登陸頁面的賬號密碼到當下熱門的人臉識別,反欺詐也以不同的面貌存在于人們身邊。
01
互聯網欺詐
互聯網是一把雙刃劍。進入互聯網時代以來,技術的飛速發展不斷的提升效率降低成本。遺憾的是,在提升服務的同時,互聯網也大幅的降低了欺詐成本,提高了欺詐的效率。更加不幸的是,由于互聯網服務的高度自動化,很多在過去需要有人工介入的環節都由系統自動化進行操作。缺少的人的主觀判斷,使得欺詐更加容易發生。
看似公開透明的網絡空間本質上如同一個群狼環伺的暗黑深林,一旦互聯網平臺出現了反欺詐漏洞或者出現了一種新的欺詐形式,各種黑產團伙便會群攻而上。在互聯網的加持之下,這種攻擊造成的損失規模巨大,輕則導致互聯網平臺傷筋動骨,重則直接倒閉。而由于法律法規和監管的滯后性,互聯網欺詐受到的威懾和懲戒又往往不足,導致當前互聯網領域的反欺詐壓力不斷增大。
常見的互聯網欺詐形態:
盜刷:通過互聯網交易平臺,將他人銀行賬戶中的資金進行轉移;
薅羊毛:利用互聯網平臺業務邏輯、技術上的漏洞,冒充正常用戶套取返現、積分、獎勵等;
騙貸:利用虛假資料騙取原本無法取得的互聯網平臺授信額度;
刷單:通過與賣方勾結,通過人工或利用技術手段,制造虛假交易量或訪問量;
刷好評:通過人工或技術手段,在互聯網平臺上進行留言,制造虛假的好評率;
……
隨著互聯網的發展,網絡購物、網絡游戲、網絡出行、網絡視頻、外賣、互聯網教育、互聯網金融等各種互聯網平臺如雨后春筍,越來越多曾經只能在線下享受的服務成為“互聯網+“。得益于互聯網服務的發展,互聯網欺詐也得到了充足的資源和動力實現快速的發展,欺詐手法多種多樣且靈活多變,隨著互聯網業務的變化和發展不斷的演進,并且迅速的開始規模化、產業化和專業化。
02
互聯網反欺詐
互聯網業務特點,對互聯網反欺詐體系提出了更高的要求。互聯網反欺詐體系存在著幾個原則:
實時性: 考慮到用戶體驗,互聯網反欺詐體系必須能夠在非常短的時間內對欺詐行為進行認定,并給出判斷。對于注冊、登陸、支付等一些場景,必須能夠在用戶無感知到情況下對欺詐行為進行檢測和認定。
自動化: 由于(準)實時性的要求較高,決定了互聯網業務無法通過人工操作進行反欺詐,必須使用更加高效的自動化反欺詐錯事。
數據化: 與傳統的線下反欺詐不同,自動化的反欺詐檢測本質上是數據應用能力的比拼。數據采集能力、挖掘能力和分析能力、建模能力,決定了互聯網反欺詐能力的高低。
這些原則決定了互聯網反欺詐體系對人員、方法、技術、數據等方面均存在特有的需求和特點:
2.1 人
傳統的線下反欺詐往往是單兵作戰,但建設互聯網反欺詐體系需要一個完整的團隊,各個崗位分工配合共同完成。一個完備的反欺詐策略體系需要以下幾類崗位人員。
策略人員: 互聯網反欺詐體系需要有大量熟悉互聯網欺詐手段和防范方法的反欺詐策略人員。反欺詐策略人員應當實時關注互聯網欺詐的動態,及時發現新出現的互聯網欺詐手段和手法,并有效的調度和利用既有的資源制定反欺詐的策略,進行防范。
運營人員: 由于互聯網欺詐行為的多樣性和靈活性,欺詐手段會不斷的出現變化和創新。反欺詐運營人員應當建立起各類反欺詐運營監控指標體系,通過監控指標的變化,不間斷的分析指標變化原因,及時發現穿透反欺詐策略體系的欺詐行為并予以應急響應。此外,運營人員還應該與業務部門、產品部門、營銷部門保持高度密切的溝通,做欺詐風險和用戶體驗的平衡。
調查人員: 反欺詐調查人員應當人工對各種已經發生或正在發生的互聯網業務請求進行人工的調查、核實。對于在人工調查中發現的漏報欺詐行為,應當及時的止損、追損,如取消訂單(互聯網電商)、攔截發貨(互聯網電商)、貸后提前介入(互聯網金融)等。
數據挖掘人員: 數據挖掘人員主要負責將系統采集的各種形式的數據進行解析和挖掘,輸出各種特征,使其能夠被應用于反欺詐建模和反欺詐策略工作。該崗位的工作可與公司數據分析、用戶畫像等部門共享。
數據建模人員: 數據建模人員負責利用系統采集到的客戶數據和數據挖掘輸出的特征,建立欺詐模型,對客戶的欺詐概率進行判斷。該崗位的工作可與企業內部其他數據建模工作共享。
研發人員: 負責各類反欺詐系統的開發和維護、反欺詐策略和模型的實現。
相較于線下反欺詐,互聯網反欺詐對于人員的需求的最大特點,在于對于研發人員和數據挖掘、數據建模人員的巨大需求。
2.2 方法
反欺詐的方法多種多樣,當前互聯網反欺詐體系中常用的方法有信譽庫、專家規則、機器學習等幾種:
信譽庫:
信譽庫即傳統的黑、白名單,通過內部積累、外部獲取的各種人員、手機號、設備、IP等黑、白名單對欺詐行為進行判斷,是一種實施簡單、成本較低的反欺詐手段。與此同時,信譽庫也存在著準確度低、覆蓋面窄的缺陷和不足,僅可作為互聯網反欺詐的第一道過濾網使用。
專家規則:
專家規則是目前較為成熟的反欺詐方法和手段,主要是基于反欺詐策略人員的經驗和教訓,制定反欺詐規則。當用戶的操作請求和操作行為觸發了反欺詐規則時,即被認定為欺詐行為并啟動攔截,常見的如各種聚集度規則等。
專家規則的優勢在于實現較為簡單、可結實性強,但缺陷在于專家規則存在有嚴重的滯后性,對于新出現的欺詐手段和方法無法及時的進行應對,往往需要著付出大量損失后才能總結教訓提取新的規則。此外,由于人腦的限制,專家規則只能使用一個或幾個維度的標量進行計算和識別,往往存在有較大的誤報率。
專家規則嚴重依賴于策略人員的經驗和教訓,不同水平的策略人員制定的專家規則效果也會純在較大區別,主要可以作為互聯網反欺詐的應急響應手段和兜底防線。
機器學習:
機器學習反欺詐是近年來比較火的一種反欺詐方法,目前也取得了一定的成果,最為常見的如芝麻信用分等。
機器學習反欺詐是通過機器學習方法,將用戶各個維度的數據和特征,與欺詐建立起關聯關系,并給出欺詐的概率。
常見的機器學習反欺詐包括有監督和無監督兩種:
基于有監督機器學習的反欺詐:
有監督機器學習反欺詐是目前機器學習反欺詐中較為成熟的一種方法。其基本思路是通過對歷史上出現的欺詐行為進行標記,利用邏輯回歸等機器學習算法,在海量的用戶行為特征、標簽中進行分類,發現欺詐行為所共有的用戶行為特征,并通過分值、概率等方式予以輸出。
由于互聯網欺詐行為的多樣性,很難百分百的將欺詐行為與正常行為完全進行區分,因此有監督機器學習反欺詐等最大難點在于如何準確獲取大量欺詐行為的標記。
基于無監督機器學習的反欺詐:
無監督機器學習反欺詐是近來行業內出現的一種新興思路,也成為一些公司的賣點,但迄今為止尚未出現較為成熟和經過實踐驗證的解決方案。
相對于有監督機器學習的反欺詐,無監督機器學習的反欺詐方法不需要預先標記欺詐行為,而是通過對所有用戶和所有操作行為各緯度數據和標簽的聚類,找出與大多數用戶和行為差異較大的用戶和操作請求,并予以攔截。
理論上,基于無監督機器學習的反欺詐方法可以使得反欺詐人員擺脫被動防守的局面。但是由于無監督機器學習算法對于數據的廣度、數據使用的深度都有著極其高的要求,因此無監督機器學習算法的效果仍需等待實踐的檢驗。
如果把互聯網反欺詐看作是一頓大餐的烹飪,那么互聯網反欺詐的方法就如同一本菜譜。就像天下烹飪無非煎炒烹炸蒸煮燉,反欺詐的方法也是萬變不離其宗。
但是,在不同的反欺詐團隊手里,同樣的反欺詐方法卻可以發揮出截然不同的效果。對于反欺詐方法運用的好,可以在準確攔截欺詐者避免欺詐損失的同時,讓正常用戶完全無感址。反之,若對欺詐方法等使用不當,則可能使得正常用戶被折磨的苦不堪言,欺詐者卻依然如入無人之境。因此,結合企業反欺詐需求和場景,組合各類反欺詐方法和手段,實現企業綜合利益最大化應當是每一個反欺詐團隊永遠的追求。
2.3 技術
互聯網反欺詐常用的技術主要包括數據采集、特征工程、決策引擎、數據分析等幾個類別:
數據采集技術:
數據采集技術主要是應用于從客戶端或網絡獲取客戶相關數據的技術方法。值得強調的是,數據采集技術的使用,應當嚴格遵循法律法規和監管要求,在獲取用戶授權的情況下對用戶數據進行采集。
設備指紋:
設備指紋是目前在互聯網領域被廣泛使用的一種技術手段,其在反欺詐體系中的作用也從最早的設備唯一標示,變為了客戶端數據采集器。
設備指紋服務目前市場上有大量的服務提供商,評價一個設備指紋服務的優劣應當綜合考慮覆蓋度、唯一性、全面性等幾個方面。
網絡爬蟲:
網絡爬蟲技術即可以用于用戶運營商數據、信用卡數據、網絡交易數據等各類數據等的爬取,也可以應用于司法老賴名單、網絡核查數據的爬取。
特征工程技術:
特征工程技術是指可以從原始數據中進行數據挖掘的各類技術。常見的特征工程技術如生物識別、活體檢測、文本語義分析、知識圖譜等。
生物識別:
生物識別,如聲音識別、人臉識別等,是指對用戶特定生物特征進行檢測和識別一種技術手段,通過比對用戶的生物特征信息,判斷用戶身份,主要用于用戶身份的核實等場景,防止出現用戶帳戶被盜用的情況。
活體檢測:
活體檢測技術主要通過要求用戶做特定動作或朗讀特定內容,對用戶是活人還是機器進行判斷和檢測,是防范欺詐團伙批量攻擊的一種有效手段。
文本語義分析:
文本語義分析主要用于對文本類數據的解析和挖掘,從用戶評論等文本內容中提取用戶特征。
知識圖譜:
知識圖譜是利用圖數據庫,從特定維度對不同用戶和不同操作行為之間進行關聯和計算,從而發現不同用戶和不同操作之間的關聯關系,可以用于團伙特征檢測等場景。
數據分析技術:
隨著互聯網反欺詐方法等不斷演進,數據分析技術也成為反欺詐能力構建的一個核心能力。海量數據和特征的處理也對數據分析技術提出了更高的要求。常見的數據分析技術包括實時分析(如Storm)和離線分析(如Hadoop)兩類,具體介紹可以參見大數據相關技術。
決策引擎:
反欺詐決策引擎是互聯網反欺詐體系的大腦和核心。一個功能強大的決策引擎,可以將信譽庫、專家規則和反欺詐模型等各類反欺詐方法有效的整合,并為反欺詐人員提供一個操作高效、功能豐富的人機交互界面,大幅降低反欺詐運營成本和響應速度。
對于決策引擎好壞的判斷,應當從引擎處理能力、響應速度、UI界面等多個維度進行綜合判斷。
反欺詐技術能力猶如鍋碗瓢盆灶,反欺詐技術能力的高低,決定了互聯網反欺詐能力的高度。與線下反欺詐不同,互聯網反欺詐是攻守雙方在技術上的對抗。特別是在欺詐團伙已經開始產業化,并且廣泛使用大數據、人工智能等前沿技術的時候,反欺詐技術能力直接影響著互聯網反欺詐效果的好壞。
2.4 數據
數據是互聯網反欺詐能力的基礎。互聯網反欺詐體系的建設,對于數據的廣度和深度都提出了非常高的要求。業內目前常用的數據從類別上可以分為以下幾類:
設備類:
設備類數據主要指用戶客戶端(如手機、平板電腦、筆記本、PC等 )等各類參數,主要通過頁面、APP內嵌入各類sdk,js腳本等方式進行采集和獲取。
環境類:
環境類數據是指用戶發起操作請求時所處環境的相關數據,可以分為虛擬環境和物理環境兩大類。
虛擬環境數據,主要指用戶所的IP、WiFi等網絡環境相關數據。
物理環境數據,主要指用戶的手機定位、基站位置等相關數據。
行為類:
行為類數據是指用戶在網頁或APP上進行各種操作時的各類數據,如用戶頁面停留時長、文本輸入時長、鍵盤敲擊頻次等。
第三方數據:
第三方數據指通過從公開途徑或第三方數據服務商處獲取的各類數據,包括但不限于用戶的運營商數據、電商消費數據、銀行數據、司法數據等各類數據。
由于監管要求,此類數據往往是已經進行脫敏處理的標簽數據。考慮到這類數據會產生一定的數據成本,同時其真實性和準確性也參差不齊,所以在使用這類數據時,應當十分謹慎。
反欺詐數據的分類和使用仁者見仁智者見智,但正所謂巧婦難為無米之炊,數據的完備性決定了反欺詐體系的天花板,直接限制了反欺詐體系效果可以達到最高水平。 E
后記:
反欺詐是一個跨安全、風控、數據、研發、內控等多學科的一個新興領域。正如本文開頭所述,反欺詐作為一個職能,在互聯網、金融、傳統零售等各行各業廣泛的存在,但卻沒有一套完整的理論框架和方法論。筆者在業內各種交流平臺,結識過許多“反欺詐”同行,但詳細交流下來,無論從所承擔的職責,還是從所使用的方法都相去甚遠。
本文結合近年來互聯網領域內的反欺詐現狀,針對互聯網反欺詐體系建設過程中的經驗和教訓進行了簡單的總結和羅列。在互聯網欺詐團伙已經集團化、產業化并且形成產業鏈的今天,筆者強烈呼吁作為防守一線的反欺詐從業者們能夠更多的協作、共享和交流,共御外敵!
總結
以上是生活随笔為你收集整理的【风控体系】互联网反欺诈体系漫谈的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【反欺诈】互金欺诈与反欺诈
- 下一篇: 【大佬漫谈】数字科技驱动的信贷风险技术—