信用卡欺诈检测:2021 年顶级机器学习解决方案
在公眾號「python風控模型」里回復關鍵字:學習資料
從電子商務支付系統(tǒng)出現(xiàn)的那一刻起,總是有人會找到新的方法來非法獲取某人的資金。這已成為現(xiàn)代時代的一個主要問題,因為只需輸入您的信用卡信息即可輕松在線完成所有交易。即使在 2010 年代,許多美國零售網(wǎng)站用戶在使用兩步驗證進行網(wǎng)上購物之前就已經(jīng)成為網(wǎng)上交易欺詐的受害者。當數(shù)據(jù)泄露導致金錢失竊并最終失去客戶忠誠度和公司聲譽時,組織、消費者、銀行和商家都會面臨風險。
2017 年,未經(jīng)授權的信用卡操作達到了驚人的 1670 萬受害者。此外,據(jù)美國聯(lián)邦貿(mào)易委員會 (FTC) 報告,2017 年信用卡欺詐索賠數(shù)量比上一年高出 40%。加利福尼亞州報告了大約 13,000 起案件,佛羅里達州報告了 8,000 起案件,這兩個州是此類犯罪人均最多的州。到 2020 年,所涉金額將超過約 300 億美元。以下是一些信用卡欺詐統(tǒng)計數(shù)據(jù):
機器學習信用卡欺詐檢測和傳統(tǒng)欺詐檢測有什么區(qū)別?
基于機器學習的欺詐檢測:
-
自動檢測欺詐
-
實時流媒體
-
驗證方法所需的時間更少
-
識別數(shù)據(jù)中隱藏的相關性
常規(guī)欺詐檢測:
-
確定方案的決策規(guī)則應手動設置。
-
需要大量時間
-
需要多種驗證方式;從而給用戶帶來不便
-
僅發(fā)現(xiàn)明顯的欺詐活動
什么是信用卡欺詐檢測?
“欺詐檢測是一系列旨在防止通過虛假借口獲取金錢或財產(chǎn)的活動。”
欺詐可以以不同的方式在許多行業(yè)實施。大多數(shù)檢測方法結合了各種欺詐檢測數(shù)據(jù)集,形成有效和無效支付數(shù)據(jù)的連接概覽,以做出決策。該決定必須考慮 IP 地址、地理位置、設備標識、“BIN”數(shù)據(jù)、全球緯度/經(jīng)度、歷史交易模式和實際交易信息。在實踐中,這意味著商家和發(fā)卡行部署基于分析的響應,這些響應使用內(nèi)部和外部數(shù)據(jù)來應用一組業(yè)務規(guī)則或分析算法來檢測欺詐。
使用機器學習進行信用卡欺詐檢測是數(shù)據(jù)科學團隊進行數(shù)據(jù)調(diào)查的過程,并開發(fā)了一個模型,該模型將在揭示和防止欺詐交易方面提供最佳結果。這是通過將卡用戶交易的所有有意義的特征(例如日期、用戶區(qū)域、產(chǎn)品類別、金額、供應商、客戶的行為模式等)結合在一起來實現(xiàn)的。然后通過一個經(jīng)過巧妙訓練的模型來運行信息,該模型會發(fā)現(xiàn)模式和規(guī)則以便它可以對交易是欺詐還是合法進行分類。
信用卡詐騙及防范技巧
| 1 | 互聯(lián)網(wǎng)服務 | 62,942 |
| 2 | 信用卡 | 51,129 |
| 3 | 衛(wèi)生保健 | 47,410 |
| 4 | 電視和電子媒體 | 38,336 |
| 5 | 外幣優(yōu)惠和偽造支票詐騙 | 27,443 |
| 6 | 計算機設備和軟件 | 18,350 |
| 7 | 投資相關 | 14,884 |
克隆交易。
克隆交易通常是一種與原始交易類似的交易或復制交易的流行方法。當組織試圖通過向不同部門發(fā)送相同的發(fā)票來多次從合作伙伴那里獲得付款時,就會發(fā)生這種情況。
基于規(guī)則的欺詐檢測算法的傳統(tǒng)方法不能很好地將欺詐交易與不規(guī)則或錯誤交易區(qū)分開來。例如,用戶可能會不小心點擊提交按鈕兩次或訂購同一產(chǎn)品兩次。
更好的選擇是,如果系統(tǒng)能夠將欺詐交易與錯誤交易區(qū)分開來。在這里,機器學習方法將更有效地區(qū)分由人為錯誤和真實欺詐引起的克隆交易。
帳戶盜竊和可疑交易。
當個人的個人信息(例如社會安全號碼、秘密問題答案或出生日期)被犯罪分子竊取時,他們可以使用這些信息進行財務操作。許多欺詐交易都與身份盜用有關,因此金融欺詐預防系統(tǒng)應最關注創(chuàng)建對用戶行為的分析。
如果客戶付款的方式有一定規(guī)律,例如某人每周同一時間訪問某個酒吧一次,并且總是花費大約 40 到 60 美元。如果使用同一個帳戶在位于城鎮(zhèn)另一部分的酒吧支付超過 60 美元的款項,則這種行為將被視為不正常。下一步是向卡號所有者發(fā)送驗證請求,以驗證他或她是否進行了交易。
標準偏差、平均值和高/低值等指標對于發(fā)現(xiàn)不規(guī)則行為最有用。將單獨的付款與個人基準進行比較,以識別具有高標準偏差的交易。然后,如果發(fā)生這種偏差,最好的選擇是驗證帳戶持有人。
虛假申請欺詐。
應用程序欺詐通常伴隨著帳戶/身份盜竊。這意味著某人以另一個人的名義申請新的信用賬戶或信用卡。首先,犯罪分子竊取將作為其虛假申請的支持證據(jù)的文件。
異常檢測有助于識別交易是否有任何異常模式,例如日期和時間或商品數(shù)量。如果算法發(fā)現(xiàn)這種異常行為,銀行賬戶的所有者將受到一些驗證方法的保護。
信用卡略讀(電子或手動)。
信用卡竊取是指使用可讀取和復制原始卡信息的設備制作信用卡或銀行卡的非法副本。欺詐者使用名為“撇渣器”的機器提取卡號和其他信用卡信息,將其保存并轉售給犯罪分子。
與身份盜竊的情況一樣,通過電子或手動卡的副本進行的可疑交易將因交易信息而被披露。分類技術可以根據(jù)硬件、地理位置和有關客戶行為模式的信息來定義交易是否具有欺詐性。
帳戶接管。
欺詐者可以向持卡人發(fā)送欺騙性電子郵件。這些消息看起來非常合法(例如,非常相似的銀行 URL 和值得信賴的徽標),就好像它們是由銀行發(fā)送的一樣。實際上,此類消息可用于竊取某人的個人信息、銀行帳號和在線密碼。如果您點擊錯誤的鏈接或提供有價值的信息以響應來自虛假銀行網(wǎng)站的消息,則在幾個小時內(nèi),您的銀行賬戶將被犯罪分子轉移到他們持有的賬戶中。
為了避免這種欺詐模式,人工智能驅動的解決方案依賴于神經(jīng)網(wǎng)絡或模式識別。神經(jīng)網(wǎng)絡可以學習可疑的模式以及檢測類別和集群以使用這些模式進行欺詐檢測。
信用卡詐騙是如何發(fā)生的?
信用卡欺詐通常是由于持卡人對其數(shù)據(jù)的疏忽或網(wǎng)站安全性遭到破壞。這里有些例子:
-
消費者向不熟悉的人透露他的信用卡號。
-
卡片丟失或被盜,被其他人使用。
-
郵件從目標收件人處竊取并被犯罪分子使用。
-
企業(yè)員工復制其所有者的卡片或卡號。
-
制作假信用卡。
當您的卡丟失或被盜時,可能會發(fā)生未經(jīng)授權的收費;換句話說,發(fā)現(xiàn)它的人使用它進行購買。不法分子還可以偽造您的姓名并使用該卡或通過手機或電腦訂購一些商品。此外,還存在使用假信用卡的問題——一張具有從持有人那里竊取的真實賬戶信息的假卡。這是特別危險的,因為受害者擁有他們的真實卡,但不知道有人復制了他們的卡。這種欺詐性卡片看起來非常合法,并且?guī)в性伎ㄆ臉俗R和編碼磁條。欺詐性信用卡通常在多次成功付款后被犯罪分子銷毀,就在受害者意識到問題并報告之前。
信用卡欺詐檢測系統(tǒng)和實施人工智能欺詐檢測系統(tǒng)的步驟
信用卡欺詐檢測系統(tǒng):
-
從第三方反欺詐公司提取的現(xiàn)成欺詐風險評分。
-
從先前數(shù)據(jù)中學習并估計欺詐性信用卡交易的概率的預測機器學習模型。
-
設置交易必須通過才能獲得批準的條件的業(yè)務規(guī)則(例如,沒有 OFAC 警報、SSN 匹配、低于存款/取款限額等)。
在這些欺詐分析技術中,預測性機器學習模型屬于智能互聯(lián)網(wǎng)安全解決方案。
AI欺詐檢測系統(tǒng)實施步驟:
-
數(shù)據(jù)挖掘。意味著對數(shù)據(jù)進行分類、分組和分段,以搜索數(shù)百萬筆交易以查找模式并檢測欺詐。
-
模式識別。意味著檢測可疑行為的類別、集群和模式。此處的機器學習代表選擇最適合某個業(yè)務問題的模型/模型集。例如,神經(jīng)網(wǎng)絡方法有助于自動識別欺詐交易中最常見的特征;如果您有大量交易樣本,此方法最有效。
一旦機器學習驅動的欺詐保護模塊被集成到電子商務平臺中,它就會開始跟蹤交易。每當用戶請求交易時,它都會被處理一段時間。根據(jù)預測的欺詐概率水平,存在三種可能的結果:
-
如果概率小于 10%,則允許交易。
-
如果概率介于 10% 和 80% 之間,則應應用額外的身份驗證因素(例如一次性 SMS 代碼、指紋或秘密問題)。
-
如果概率超過 80%,則交易被凍結,因此應手動處理。
使用基于 AI 的方法進行支付欺詐檢測的要求
要為信用卡欺詐分析運行 AI 驅動的策略,應滿足許多關鍵要求。這些將確保模型達到其最佳檢測分數(shù)。
數(shù)據(jù)量。
訓練高質(zhì)量的機器學習模型需要大量的內(nèi)部歷史數(shù)據(jù)。這意味著如果您之前沒有足夠的欺詐和正常交易,則很難在其上運行機器學習模型,因為其訓練過程的質(zhì)量取決于輸入的質(zhì)量。因為很少有訓練集包含兩個類中等量的數(shù)據(jù)樣本的情況,所以使用降維或數(shù)據(jù)增強技術。
數(shù)據(jù)質(zhì)量。
模型可能會因歷史數(shù)據(jù)的性質(zhì)和質(zhì)量而存在偏差。這種說法意味著,如果平臺維護者沒有對數(shù)據(jù)進行整齊、適當?shù)氖占团判?#xff0c;甚至將欺詐交易的信息與正常交易的信息混合在一起,那么很可能會導致模型結果出現(xiàn)重大偏差。
因素的完整性。
如果您有足夠多的結構良好且無偏見的數(shù)據(jù),并且您的業(yè)務邏輯與機器學習模型完美匹配,那么欺詐檢測很可能對您的客戶和您的業(yè)務有效。
先進的信用卡欺詐識別方法及其優(yōu)勢
高級信用卡欺詐識別方法分為:
-
無監(jiān)督。如PCA、LOF、One-class SVM、Isolation Forest。
-
監(jiān)督。例如決策樹(例如 XGBoost 和 LightGBM)、隨機森林和 KNN。
我們已經(jīng)介紹了機器學習用于欺詐檢測的工作原理的基本愿景。現(xiàn)在讓我們深入研究使之成為可能的確切模型。
無監(jiān)督。
無監(jiān)督機器學習方法使用未標記的數(shù)據(jù)來查找信用卡欺詐檢測數(shù)據(jù)集中的模式和依賴關系,從而可以通過相似性對數(shù)據(jù)樣本進行分組,而無需手動標記。
**PCA(主成分分析)**可以執(zhí)行探索性數(shù)據(jù)分析,以揭示數(shù)據(jù)的內(nèi)部結構并解釋其變化。PCA 是最流行的異常檢測技術之一。
PCA 搜索特征之間的相關性——在信用卡交易的情況下,可能是時間、地點和花費的金額——并確定哪些值的組合會導致結果的可變性。這種組合的特征值允許創(chuàng)建名為主_成分_的更緊密的特征空間。
**LOF(Local Outlier Factor)**是幫助了解某個數(shù)據(jù)樣本成為異常值(異常)的可能性有多大的分數(shù)因子。這是另一種最流行的異常檢測方法。
為了計算 LOF,考慮相鄰數(shù)據(jù)點的數(shù)量來計算其密度并將其與其他數(shù)據(jù)點的密度進行比較。如果某個數(shù)據(jù)點與其近鄰相比具有低得多的密度,則它是一個異常值。
**一類 SVM(支持向量機)**是一種分類算法,有助于識別數(shù)據(jù)中的異常值。該算法允許人們處理與數(shù)據(jù)不平衡相關的問題,例如欺詐檢測。
One-class SVM 背后的想法是僅對大量合法交易進行訓練,然后通過將每個新數(shù)據(jù)點與它們進行比較來識別異常或新奇事物。
**隔離森林 (IF)**是決策樹系列中的一種異常檢測方法。IF 區(qū)別于其他流行的異常值檢測算法的主要思想是它精確檢測異常而不是分析正數(shù)據(jù)點。隔離森林由決策樹構建,其中數(shù)據(jù)點的分離首先發(fā)生,因為在所選特征的最小值和最大值中隨機選擇一個分割值。
隨后,如果我們有一組合法交易,隔離森林算法將根據(jù)它們的價值來定義欺詐性信用卡交易——這通常與正交易的價值非常不同(即它們發(fā)生在離正常數(shù)據(jù)點更遠的地方)特征空間)。
監(jiān)督
有監(jiān)督的 ML 方法使用標記的數(shù)據(jù)樣本,因此系統(tǒng)將預測這些標記在未來數(shù)據(jù)之前看不見。在受監(jiān)督的 ML 欺詐識別方法中,我們定義了決策樹、隨機森林、KNN 和樸素貝葉斯。
K-Nearest Neighbors是一種分類算法,它根據(jù)多維空間中的距離計算相似性。因此,數(shù)據(jù)點將被分配到最近鄰居所具有的類別。
這種方法不易受到噪聲和數(shù)據(jù)點缺失的影響,這意味著可以在更短的時間內(nèi)組成更大的數(shù)據(jù)集。此外,它非常準確,并且需要開發(fā)人員進行較少的工作來調(diào)整模型。
**XGBoost (Extreme Gradient Boosting)和Light GBM (Gradient Boosting Machine)**是一種單一類型的梯度提升決策樹算法,它的創(chuàng)建是為了速度以及最大化計算時間和內(nèi)存資源的效率。該算法是一種混合技術,其中添加新模型以修復由現(xiàn)有模型引起的錯誤。
Light GBM 與其他基于樹的技術的不同之處僅在于它遵循葉子方向而不是水平方向來構建條件(圖 1,2)。一般來說,所有基于樹的梯度提升算法背后的思想都是一樣的。
為了將交易歸類為欺詐性費用,許多決策樹的結果(概率)被匯總——而每個未來的決策樹都根據(jù)其前輩所犯的錯誤來改進其結果。
隨機森林是一種由許多決策樹組成的分類算法。每棵樹都有帶條件的節(jié)點,這些節(jié)點定義了基于最高值的最終決策。
用于欺詐檢測和預防的隨機森林算法有兩個主要因素,使其擅長預測事物。第一個是隨機性,這意味著數(shù)據(jù)的行和列是從數(shù)據(jù)集中隨機選擇的,并適合不同的決策樹。假設樹 1 接收前 1,000 行,樹 2 接收 4,000 到 5,000 行,而樹 3 有 8,000 到 9,000 行。
第二個因素是多樣性,這意味著有一片樹林有助于最終決策,而不僅僅是一棵決策樹。這里最大的優(yōu)勢是這種多樣性降低了模型過度擬合的機會,而_偏差_保持不變。
可以使用不同的 ML 模型來檢測欺詐;它們中的每一個都有其優(yōu)點和缺點。有些模型很難解釋、解釋和調(diào)試,但它們具有很好的準確性(例如神經(jīng)網(wǎng)絡、Boosting、Ensembles 等);其他的更簡單,因此它們可以很容易地被解釋和可視化為一堆規(guī)則(例如決策樹)。
每當有新數(shù)據(jù)到達時,不斷訓練欺詐檢測模型非常重要,因此可以學習新的欺詐模式/模式并盡早檢測欺詐數(shù)據(jù)。關于更多風控模型知識,請參考《python金融風控評分卡模型和數(shù)據(jù)分析》,提供邏輯回歸評分卡,集成樹xgboost,lightgbm,catboost,svm,神經(jīng)網(wǎng)絡等諸多主流算法實戰(zhàn)案例。
常見的信用卡欺詐問題
讓我們回答一些經(jīng)常與信用卡欺詐相關的有趣問題。
誰應對信用卡欺詐負責?
在美國,聯(lián)邦法律(即《公平信用賬單法案》)為持卡人設定了 50 美元的責任限額,無論未經(jīng)授權的用戶收取多少費用。此規(guī)則適用于不安全的在線連接或數(shù)據(jù)泄露的情況。
如果受害者在未經(jīng)授權的交易發(fā)生之前報告卡丟失或被盜,他或她將不承擔任何費用。
個人信息被盜是很危險的,因為雖然受害者不承擔任何經(jīng)濟損失,但他或她可能會花幾年時間處理犯罪分子造成的所有金融和信用欺詐。
銀行會調(diào)查信用卡欺詐嗎?
在用戶通知銀行他或她注意到可疑的信用卡交易后,銀行會開始信用卡欺詐調(diào)查。
受害者必須立即通知銀行有關欺詐交易的信息,并且不得遲于事件發(fā)生后的 60 天。他或她必須提供有關損失的確切金額、日期以及交易看似欺詐的原因的描述的信息。然后,銀行開始調(diào)查,必須在不超過 45 天內(nèi)解決。如果 10 天后銀行發(fā)現(xiàn)欺詐確實發(fā)生,銀行必須向受害者賠償被盜的金額。
銀行必須將調(diào)查結果書面通知持卡人。如果這些文件影響了銀行的決定,持卡人有權要求銀行在調(diào)查過程中創(chuàng)建或收集的任何文件的副本。
總結
欺詐是整個信用卡行業(yè)的一個主要問題,隨著電子貨幣轉賬的日益普及,該行業(yè)變得越來越大。為有效防范導致銀行賬戶信息泄露、盜刷、偽造信用卡、每年數(shù)十億美元被盜以及聲譽和客戶忠誠度損失的犯罪行為,信用卡發(fā)卡機構應考慮實施高級信用信用卡欺詐預防和欺詐檢測方法。基于機器學習的方法可以根據(jù)每個持卡人的行為信息不斷提高欺詐預防的準確性。
總結
以上是生活随笔為你收集整理的信用卡欺诈检测:2021 年顶级机器学习解决方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 军火库(第一期):无线电硬件安全大牛都用
- 下一篇: gitbook asciidoc 项目生