三问(why?what?how?)金融领域的机器学习
摘要:?都喜歡人生三問,那么金融領域的機器學習三問了解一下。
機器學習可能會很有魔力,即使它背后沒有魔法。盡管如此,機器學習項目的成功更多地取決于構建高效的基礎架構,收集合適的數據集以及應用正確的算法。
機器學習已經在金融服務行業中取得重大進展。讓我們看看為什么金融公司可以通過AI和機器學習實現什么解決方案,以及他們如何應用這項技術。
定義
我們可以將機器學習定義為數據科學的一個子集,它使用統計模型來繪制洞察并進行預測。下圖解釋了人工智能,數據科學和機器學習之間的關系。為了簡單起見,我們在這篇文章中專注于機器學習。
機器學習解決方案的神奇之處在于,他們可以從經驗中學習而無需明確編程。簡而言之,你需要選擇模型并將數據提供給它們。然后,模型會自動調整其參數以改善結果。
數據科學家使用現有數據集訓練機器學習模型,然后將訓練有素的模型應用于現實生活中。
模型作為后臺進程運行,并根據其訓練方式自動提供結果。數據科學家可以根據需要重新訓練模型,以使其保持有效性。
通常,你提供的數據越多,結果就越準確。巧合的是,龐大的數據集在金融服務行業中非常普遍。關于交易、客戶、賬單、匯款等有PB級別的數據非常適合機器學習。
隨著技術的發展和最佳算法的開源,很難想象沒有機器學習的金融服務的未來。因為大多數金融服務公司都還沒有準備好來用這一技術的真正價值,原因如下:
1.????企業往往對機器學習及其組織的價值抱有完全不切實際的期望。
2.????人工智能和機器學習研究和開發成本很高。
3.????DS / ML工程師的短缺是另一個主要問題,下圖顯示了人工智能和機器學習技能需求的爆炸性增長。
4.????在更新數據基礎架構方面,老牌金融企業不夠靈活。
我們將在本文稍后討論如何克服這些問題。首先,讓我們看看為什么金融服務公司不能忽視機器學習。
為什么要考慮金融機器學習?
因為面臨挑戰,許多金融公司已經利用了這項技術。下圖顯示金融服務的高管非常重視機器學習,大多出于以下原因:
1.????由于過程自動化,降低了運營成本。
2.????通過提高生產力和增強用戶體驗,增加收入。
3.????更好地遵守和加強安全性。
有各種各樣的開源機器學習算法和工具,可以很好地適應金融數據。此外,成熟的金融服務公司擁有大量現金,他們可以負擔得起在最先進的計算硬件上花費。對于金融領域的定量性和大量的歷史數據,機器學習有望提升金融生態系統。
這就是為什么如此多的金融公司在機器學習研發方面投入巨資。至于落后者,忽視AI和ML可能會被證明是代價高昂的。
什么是金融機器學習用例?
讓我們來看看金融領域一些有前景的機器學習應用程序。
過程自動化
過程自動化是機器學習在金融領域最常見的應用之一。該技術可以替代手動工作,自動執行重復性任務并提高生產率。
因此,機器學習使公司能夠優化成本,改善客戶體驗并擴展服務。以下是金融機器學習的自動化用例:
1.聊天機器人;
2.呼叫中心自動化;
3.文本工作自動化等等;
以下是銀行業務流程自動化的一些示例:
摩根大通:推出了一個智能合約(COiN)平臺,該平臺利用自然語言處理技術,它解決了從法律文件中提取重要數據。對12,000份年度商業信貸協議進行人工審查通常需要約360,000個工時。然而,機器學習允許在短短幾個小時內審查相同數量的合同。
BNY Mello:將流程自動化集成到他們的銀行生態系統中。這項創新每年可節省30萬美元,并帶來了極大的改善了運營情況。
Privatbank:一家烏克蘭銀行,通過其移動和網絡平臺實施聊天機器人助理。Chatbots加快了一般客戶查詢的解決速度,并減少人工助理的數量。
安全
隨著交易、用戶和第三方集成的數量不斷增加,財務中的安全威脅也在不斷增加。機器學習算法非常適合檢測欺詐行為。
例如,銀行可以使用該技術實時監控每個賬戶的數千個交易參數。該算法檢查持卡人采取的每個動作,并評估嘗試的活動是否是該特定用戶的特征。這種模型具有高精度的欺詐行為。
如果系統識別可疑帳戶行為,則它可以請求用戶提供額外的標識以驗證交易。如果至少有95%的可能性是欺詐行為,甚至可以完全阻止交易。機器學習算法只需幾秒鐘來評估交易,有助于實時防止欺詐,而不僅僅是在犯罪發生后發現它們。
財務監控是金融機器學習的另一個安全用例。數據科學家可以訓練系統檢測大量小額支付,并將這種洗錢技術標記為smurfing。
機器學習算法也可以顯著增強網絡安全性。數據科學家訓練系統發現和隔離網絡威脅,因為機器學習在分析數千個參數和實時是首屈一指的。這項技術有可能在最近的將來為最先進的網絡安全網絡提供支持。
Adyen、Payoneer、Paypal、Stripe和Skrill是一些值得注意的金融科技公司,他們在安全機器學習方面投入巨資。
承保和信用評分
機器學習算法完全適合金融和保險行業中常見的承保任務。
數據科學家在數千個客戶檔案中訓練模型,為每個客戶提供數百個數據條目。然后,訓練有素的系統可以在現實環境中執行相同的承保和信用評分任務。這種評分引擎可以幫助人員更快,更準確地工作。
銀行和保險公司擁有大量歷史消費者數據,因此他們可以使用這些條目來訓練機器學習模型。他們可以利用大型電信或公用事業公司生成的數據集。
例如,BBVA Bancomer正與另一個信用評分平臺Destacame合作。該銀行旨在為拉丁美洲信用記錄薄的客戶增加信貸準入,Destacame通過開放API訪問公用事業公司的賬單支付信息。使用賬單支付行為,Destacame為客戶生成信用評分并將結果發送給銀行。
算法交易
在算法交易中,機器學習有助于做出更好的交易決策。數學模型實時監控新聞和交易結果,并檢測可能迫使股價上漲或下跌的模式。然后,它可以根據其預測主動出售、持有或購買股票。
機器學習算法可以同時分析數千個數據源,這是人類無法實現的。機器學習算法可以幫助人類交易者在市場平均水平上占據一席之地。而且,鑒于大量的交易操作,這種小優勢通常會轉化為巨額利潤。
ROBO-咨詢
機器人顧問現在在金融領域司空見慣。目前,在咨詢領域中有兩種主要的機器學習應用。
投資組合管理:是一種在線財富管理服務,它使用算法和統計數據來分配,管理和優化客戶的資產。用戶輸入他們目前的金融資產和目標,例如,在50歲時節省一百萬美元。機器人顧問然后根據風險偏好和期望目標在投資機會中分配當前資產。
金融產品推薦:許多在線保險服務使用機器人顧問向特定用戶推薦個性化保險計劃。由于費用較低,客戶選擇機器人顧問而不是個人理財顧問,以及個性化和校準的推薦。
如何利用金融機器學習?
盡管人工智能和機器學習具有所有優勢,但即使是擁有雄厚財力的公司也很難從這項技術中獲取真正的價值。金融服務公司希望利用機器學習的獨特機會,但實際上,他們對數據科學如何運作以及如何使用它有一個模糊的概念。
他們遇到類似的挑戰,例如缺乏業務KPI。反過來,這會導致不切實際的估計并導致預算耗盡。擁有合適的軟件基礎設施是不夠的,它需要一個清晰的愿景,扎實的技術人才,以及提供有價值的機器學習開發項目的決心。
一旦你充分了解此技術將如何幫助實現業務目標,請繼續進行構思驗證。這是數據科學家的任務。他們調查這個想法,幫助你制定可行的KPI并做出切合實際的估算。
根據具體的使用案例和業務條件,金融公司可以采用不同的途徑來采用機器學習。
放棄機器學習,轉而專注于大數據工程
通常,金融公司開始他們的機器學習項目只是為了意識到他們只需要適當的數據工程。馬克斯Nechepurenko的高級數據科學家為N-IX評論:
在開發數據科學解決方案時,我建議使用Occam的剃刀原理,這意味著不會過度復雜。大多數以機器學習為目標的公司實際上需要關注可靠的數據工程,將統計數據應用于聚合數據以及對數據進行可視化。
僅僅將統計模型應用于處理過的和結構良好的數據就足以讓銀行隔離其運營中的各種瓶頸和低效率。
這種瓶頸有哪些例子?這可能是特定分支的隊列,可以消除的重復性任務,低效的人力資源活動,移動銀行應用程序的缺陷等等。
更重要的是,任何數據科學項目中最重要的部分都歸結為構建一個協調的平臺生態系統,從數百個來源(如CRM、報告軟件、電子表格等)收集孤立的數據。
在應用任何算法之前,你需要對數據進行適當的結構化和清理。只有這樣,你才能進一步將這些數據轉化為洞察力。事實上,ETL(提取,轉換和加載)和進一步清理數據占機器學習項目時間的80%左右。
使用第三方機器學習解決方案
即使你的公司決定在即將開展的項目中使用機器學習,你也不一定需要開發新的算法和模型。
大多數機器學習項目都處理已經解決的問題。谷歌、微軟和阿里巴巴等科技巨頭將機器學習軟件作為一種服務出售。
這些開箱即用的解決方案已經過訓練,可以解決各種業務任務。如果你的項目涉及相同的用例,你是否認為你的團隊可以通過龐大的研發中心超越這些技術巨頭的算法?
機器學習工程師可以實施專注于你的特定數據和業務領域的系統。專家需要從不同來源提取數據,將其轉換為適合此特定系統,接收結果并可視化結果。
權衡取舍是缺乏對第三方系統的控制和有限的解決方案靈活性。此外,機器學習算法并不適合每個用例。高級數據科學家IHAR Rubanau評論:
尚不存在通用機器學習算法,數據科學家需要在將算法應用于不同領域的不同業務案例之前對其進行調整和微調。
因此,如果Google的現有解決方案解決了你特定域中的特定任務,你應該使用它。如果沒有,請致力于定制開發和集成。
創新與整合
從頭開始開發機器學習解決方案是風險最大,成本最高且耗時的選擇。盡管如此,這可能是將ML技術應用于某些商業案例的唯一方法。
機器學習研究和開發針對特定利基市場的獨特需求,并要求進行深入調查。如果沒有為解決這些特定問題而開發的現成解決方案,則第三方機器學習軟件可能會產生不準確的結果。
不過,你可能需要嚴重依賴Google的開源機器學習庫。當前的機器學習項目主要是將現有的最先進的庫應用于特定的域和用例。
在N-iX,我們確定了機器學習中成功的企業研發項目的七個共同特征:
1.????一個明確的目標:在收集數據之前,你至少需要對通過AI和機器學習實現的結果有一些大致的了解。在項目的早期階段,數據科學家將幫助你將這一想法轉化為實際的KPI。
2.????機器學習解決方案的強大架構設計:你需要經驗豐富的軟件架構師來執行此任務。
3.????適當的大數據工程生態系統(基于Apache Hadoop)是必不可少的:它允許從金融服務公司的眾多孤立數據源中收集、集成、存儲和處理大量數據。大數據架構師和大數據工程師負責構建生態系統。
4.????在新創建的生態系統上運行ETL過程(提取,轉換和加載):大數據架構師或機器學習工程師執行此任務。
5.????數據準備:除數據轉換和技術清理外,數據科學家可能還需要進一步優化數據,使其適用于特定的業務案例。
6.????應用適當的算法:基于這些算法創建模型,微調模型以及使用新數據重新訓練模型。數據科學家和機器學習工程師執行這些任務。
7.????清晰可見的洞察力:商業智能專家對此負責。此外,你可能需要前端開發人員創建具有易于使用的UI的儀表板。
小型項目可能需要更少的工作量和更小的團隊。例如,一些研發項目涉及小型數據集,因此他們可能不需要復雜的大數據工程。在其他情況下,根本不需要復雜的儀表板或任何數據可視化。
關鍵要點:
·? ? ? ?金融老牌企業最常使用機器學習來實現流程自動化和安全性;
·???????在收集數據之前,你需要清楚地了解數據科學所期望的結果;
? ? ?在項目開始之前,需要設置可行的KPI并做出切合實際的估算;
·???????許多金融服務公司需要數據工程、統計和數據可視化,而不是數據科學和機器學習;
·???????訓練數據集越大越清潔,機器學習解決方案產生的結果就越準確;
·???????你可以根據需要隨時重新訓練模型,而無需停止機器學習算法;
·???????沒有通用的機器學習解決方案適用于不同的業務案例;
·???????具有機器學習功能的財務軟件的開發成本很高;
·???????像谷歌這樣的科技巨頭創造了機器學習解決方案。如果你的項目涉及此類用例,那么你不能指望其優于Google,Amazon或IBM的算法。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的三问(why?what?how?)金融领域的机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 想要成为数据科学家?知道这11种机器学习
- 下一篇: 阿里巴巴开源的通用缓存访问框架JetCa