AI的发展:在金融行业的应用与机遇(附视频PPT)
人工智能技術目前得到了全球范圍內前所未有的矚目,已在多個行業內落地,幫助企業構建了在大數據和人工智能時代下的核心競爭力與商業壁壘。那在新的機器革命時代,我們如何應對機遇和挑戰?
本期我們很榮幸邀請到清華校友、清華數據創新基地首席金融大數據專家袁征女士,為大家展開題為《人工智能在金融領域的發展和展望》的分享。講座通過對最新的人工智能發展動態,豐富的音頻視頻展示和企業實踐案例解讀,希望幫助大家了解人工智能給傳統行業帶來的新機遇。
?講座完整視頻
▼
class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=l0604go79xm&width=670&height=376.875&auto=0" style="display: block; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=l0604go79xm&width=670&height=376.875&auto=0"/>
在公眾號對話框回復關鍵詞“AI金融”,下載完整版講座PPT。
清華數據創新基地首席金融大數據專家袁征
?
以下是部分講座內容整理:
今天和大家分享三個部分,一是另類視角的人工智能起源和發展歷史;二是當前人工智能發展的條件、爆點和一些工業界的用例;三是其在金融領域的應用現狀。這個課件來自于我和我的清華同學俞凱(上海交通大學人工智能方向教授、博士生導師)的合作。
2015年,國家發改委、科技部、工信部、中央網信辦制定《“互聯網+”人工智能三年行動實施方案》,計劃到2018年,基本建立人工智能的產業、服務和標準化體系,實現核心技術突破,培育若干全球領先的人工智能骨干企業,形成千億級的人工智能市場應用規模。結果如何,我們仍拭目以待。
涉及人工智能的歷史,圖靈是其中最早的開創性人物。接下來將從人物的八卦中復盤一下當時的歷史脈絡。圖靈,生于1912年,他相當聰明,用自己的人腦實現了后來用電腦才能做的事。他小時候曾經在給母親的一封信里寫到,“我總想從最普通的物質創造出新的物質,并且是以最小的能量”。在很年輕的時候他就預測到計算機的產生,設計了一種名為“imitationgame”的游戲,其測試標準就跟計算機和人工智能最早的一些idea一致,所以特別聰明的人能夠在相當早的時候看到未來幾十年甚至上百年的社會發展脈絡。
1936年,他的論文《論可計算數及其在判定問題上的應用》,開創了計算機時代。他不僅提出了可進行數字計算的電子計算機的最早理論設計,而且預言大約50年后將會出現會思維的機器,因此他被公認為計算機早期歷史上最偉大的理論家之一。正是在這個時期他構思出所謂的理想計算機,即圖靈機的原始模式。機器本身的智能難以準確地定義,怎么樣去判斷機器是智能的?首先要認為人類是智能的,機器如果像人類的行為模式差不多,就認為這個機器是智能的。但這個奇才與當時主流社會格格不入,年僅42歲就自殺結束了自己的生命,沒能親眼看到人工智能的誕生。
圖靈
人工智能涉及的內容有視覺的,聽覺的,還有觸覺等各個維度的,其中最深的是像人一樣思考,是最難的,也是研究最多的。
?
涉及人工智能的產生,它的代表人物為人工智能之父John McCarchy,他于1955年到1956年發表了相關論文。他在DartmouthCollege組織了名為“Dartmouth Conference”的會議,參加會議的幾個人就被大家公認為人工智能之父。他們最早提出來人工智能這個idea實際上有七個維度,到今天,這些維度幾乎是和我們所看到的已經發展的樣子,或者和未來想要發展的方向完全一致。這也是為什么偉人之所以為偉人。
第一個是人工智能,智能就是所謂的腦,為什么大家管計算機叫電腦,就是它在一定程度上相當于人腦。
第二個是Programming a computer to use general language,在我小的時候,我的父親是航天部的水下彈道設計工程師,他們已經可以用電腦做一些設計工作,感覺就像莫爾斯電碼似的,機器打出來好多點,然后人工翻譯出這些點的含義;在我們上學的時候,最早也學編譯語言,都是相對比較原始的計算機語言;當時的人就篤信我們未來會慢慢的讓計算機能夠理解普通人說話的語言,隨后就有了C++、Java;等我讀研究生比較普遍的是Matlab、S-Plus、Python等等,這些languages叫做Scriptlanguage,就像寫稿子一樣,我們寫出來人腦想的語言(很接近人和人交流的語言了),計算機就可以去執行;再往后發展,最普遍的日常生活的對話,計算機也可以聽懂了,這就是語音識別、人機交互。
第三個是Arranging hypothetical neurons on a manner so that they can formconcepts,即早期的神經網絡。現在的深度學習是基于深度的神經網絡,那神經網絡是怎么來的呢?電腦的神經網絡是受人的神經網絡啟發而來的,既然人能夠有這么復雜的語言、思考等各個方面的行為,電腦是不是也能夠通過這樣一種模式來實現它最終的功能?這就有了最早的神經網絡的雛形。
第四個是A way to determine and measure problem complexity,要先識別問題,尤其是特別復雜的問題,才有可能去解決它。
第五個是Self-improvement。怎么實現呢?self?learning。自己學習,自己挑戰自己。這就是deep learning的核心驅動。
第六個是具備抽象的能力。從一些idea把它抽象出來,抽象成電腦可以理解的東西。
第七個是Randomness和creativity,人現在這個階段的creativity創造力還是很難被機器獲取的。如果有一天電腦也有了隨機性和創造力,那真的就和人腦非常接近了。
說到深度學習,就要講第三個人物的八卦:Geoffrey Hinton,他被公認是深度學習之父。人工智能里面核心的部分,或者說現在應用的最廣泛和深入的部分就是深度學習的算法。在70年代左右,Hinton于卡內基梅隴大學開始執著研究深度的神經網絡、深度學習。他當時的導師一開始還支持他,后來因為覺得他這個想法太瘋狂,他的導師就不支持,不給經費,他之后去到加拿大多倫多大學,繼續執迷于深度神經網絡的研究。終于有一天他做出了“驚世駭俗”的成果,可惜當年反對他的導師已經去世了。最早期看到的DeepBlue,近期出現的AlphaGo涉及到的深度學習的算法,實際上都有他非常大的功勞,而他現在擔任Google Brain的首席科學家,依然繼續做著這個領域更加深入的研究和探索。???
以下圖展現了人工智能發展的主要脈絡。大家普遍認為在人工智能發展的道路上,巔峰與谷底并存。
為什么在很早的時候人工智能的某些方面就比較成熟了,卻到前幾年才能有更加突破性的發展呢?原因就是有一些條件不夠成熟,或者是歷史的機緣未到,或者沒有特別厲害的人物出現。就像我們經常說的“木桶原理”,水總是會從最短的那根木板處流出來,不能盛更多。
那為什么有些時候發展不下去了?其實需要有四個大方面的基礎技術支撐,使得人工智能有更加深入和長足的發展。
第一個是數據的儲存分析,即大數據。從05年到10年到2015年,大數據在呈級數增長,目前全球90%以上的數據是最近幾年才產生的,但是不是真的是最近幾年才產生的?不是,只不過之前我們沒有把它給記錄下來。移動互聯網高速發展的這段時間,互聯網上的數據每年增長50%,據IDC2012年發布的研究報告,接下來的八年中我們所產生的數據量將超過40ZB,1ZB相當于2的30次方TB,相當于地球上每個人產生5200GB的數據。
第二個是硬件的發展。與串型架構的CPU不同,后來發展的GPU有巨大的飛躍,從原來的靜態的緩存發展到用動態的緩存,導致它會產生一個很大的計算速度上和儲存能力上的差別。舉一個例子,英偉達和寒武紀兩家公司他們在短短三年內使得訓練速度,神經網絡的速度提升了50倍。寒武紀研究小組的結果顯示,GPU能夠提供平均58.82倍于CPU的速度,這兩年又發展出了TPU,即Tensor Processing Unit。TPU產生以后,支持深度神經網絡有了更大發展的前提。
第三個是云計算對計算資源的充分利用,使得計算成本和存儲成本在過去二十年內逐漸下降。根據KPCD的統計報告顯示,年均下降幅度高達33%,阿里云降價就是一個佐證,在2014年的時候阿里云的價格連續四次下調。由于這樣一些廉價的算力提升,人工智能就得以在相對廉價的基礎上發展。
第四個是深度學習。舉一個圖象識別的小例子,從最早的象素的特征,一點點上升到邊緣,然后把它抽象成眼睛、嘴、鼻子等器官,這些器官長成不同的樣子,它就是不同的動物,或者是不同的人。在現在人臉識別的很多項目中,最底層的框架實際上就是這樣一步一步來做的。
深度學習怎么做呢?底層的象素可以想象為10億甚至幾十億或者上百億的數量級,實際上就是一張臉的數據。深度學習,大數據把它喂進去,它就會慢慢自己學習。這個邊緣是什么樣的,就會是什么樣的輸出,它可能是什么樣的動物等等,這樣一步一步去做人腦模擬。
在目前的應用中,大家可以看到人工智能在語音、圖像、觸感或手勢、合成、運動、語言理解或生成、翻譯、博弈、問答等方面已經有很好的發展,神奇得令人瞠目結舌。
人工智能發展史上有兩件特別重要的事:一個是國際象棋手深藍的事,一個是圍棋手AlphaGo的事。1997年,IBM做電腦的棋手深藍“DeepBlue”,擊敗了當時的世界冠軍卡斯特羅夫。1996年卡斯特羅夫還打敗了深藍,但是經過算法不斷的進化,僅僅一年時間它就擊敗了卡斯特羅夫,當時用的是C語言。算法是最重要的,它的算法根本思路是Exhaustive,即窮舉,就是要把所有的可能性都列舉出來。從97年之后為什么經過了二十年才會有新的發展,主要就是因為當時采用窮舉法的局限。??
當我們當時還在用深藍去窮舉的時候,我們發現我們再怎么去窮舉,再大的計算機能力可能都沒有辦法把圍棋的問題解決了,然后就需要一個全新的,完全不同的理論框架來解決這個問題。是什么呢?深度學習,或者說自主學習算法。它就會摒棄掉很多的可能性,可能是99.99%的可能性,但是那些可能性都是幾乎不可能發生的,這樣就可以實現它能贏,但是它怎么摒棄呢?它通過機器一開始跟人或者跟其他的機器去對弈,來讓機器自己學習,做自主選擇,然后慢慢去學會這些東西。
AlphaGo最早的叫AlphaGoMaster在2015年以5:0擊敗了職業圍棋二段選手樊麾,16年3月4:1擊敗了李世石九段、17年以2:1擊敗了當時世界排名第一的柯杰。后來又出現了更神奇AlphaGoZero,AlphaGo Zero變成了AlphaGo Master的進化版。經過三天的訓練,不是用人的棋譜,而是自己和自己對陣,三天訓練之后它以100:0的成績擊敗了AlphaGoMaster。
那么問題來了, AlphaGo Zero有沒有可能輸給人類呢?AlphaGo Master都打敗了人類,AlphaGo Zero打敗了Master,那我們的邏輯是AlphaGoZero一定應該能夠打敗人類。但是這個邏輯的前提條件是什么?所有其他條件因素的背景全都一樣。理論上講AlphaGo Zero是有可能反而輸給人類的,尤其是它也許恰恰會偶爾輸給一個半調子的棋手。為什么?因為這個半調子的棋手有可能特別不按常理出牌,突破了AlphaGoZero之前學到的所有套路。因為它不是窮舉的,所以從統計學上來講,這種可能性一定存在,雖然很小很小。所以我想和大家說的是,要想在一些技術或者領域有創新的話,一定要突破我們的邊框,突破傳統的邏輯思維,有一些很開放的想法,不要怕腦洞太大,不要怕別人說你異想天開,一定要敢想。
小結一下,人工智能發展從計算智能(存儲、計算)到認知智能(聽、說、看觸、聞,理解、思考、反饋、適應等),再到抽象知識處理智能(分析、推理、演義、歸納)。
這幾年的移動互聯網和互聯網的發展的迅速發展導致的智能手機和智能移動設備的發展也同樣迅猛,為人工智能的發展提供了新的契機。
物聯網為萬物溝通提供了平臺,涵蓋了智能醫療、智能電網、智能教育多個熱點行業的應用,還與云計算、大數據、移動互聯網等息息相關,擁有廣泛的市場前景。物聯網被認為是繼房地產、互聯網之后下一個經濟增長點。我們生活周邊同樣有諸多應用,如智能家具、車載設備、穿戴式設備,機器人也是一個比較典型的應用形態。
這里稍微提及Gartner技術發展曲線,如下圖。在研究新技術的時候,這個曲線是非常重要的一個參考。Gartner網站每年都會去更新曲線,它的發展有一個起伏的過程,尤其在今后發展再更新更細的新技術的時候,都會遇到瓶頸,這些瓶頸都是類似的,所以這是為什么它會有特別大的凹陷,由于它是一個系統工程,在這個系統工程上有些地方是短板,它就在一個時期內很難得到長足的或者是迅速的發展。
接下來我們花一點時間稍微深入地講一下人機交互。
人們把人工智能比喻成電能,有發電的,有用電的,也有輸電環節。人機交互就像是輸電環節。人機交互的歷史變遷從80年代、90年代開始。從組織到90年代的瀏覽,00年代的搜索,到10年代的處理,互聯網時代的需求正在向處理任務變遷。人機交互是人工智能的典型應用。
人機交互的本質屬性-狀態模型和決策模型。用戶想干什么,曾經表達過什么,機器做了什么,是它的狀態模型。而決策模型指機器應該回答什么。
還有其他的未來人工智能的方向,比如說情感。現在的機器人是沒有感情的,可能慢慢的有些機器人比如在語音交互的過程中就可以把人們的語氣、情緒解析出來,由此賦予了機器情感。
接下來講一些AI在金融領域的應用案例。這個得益于幾個會員單位如元素征信、法海風控、百融金服、銀聯智策等的提供,具體的底層技術不便于太多公開,以下列舉幾例。
我們的會員單位擁有各大部委,各個企業還有個人的數據,根據這些做了企業的風險關聯分析,企業族群探索,對于分析一些大型的企業十分有益。
第二個應用案例是基于自然語言處理的輿情分析,用于對公業務的貸前貸中風險預警。自然語言處理是人工智能領域比較明確的分支。這個是來自于另外一個會員單位,他是專門做法院的文案分析,判決書非常冗長,他用自然語言處理,把它進行解析,包括一些法律相關的新聞。基于這樣一些算法做的風險預警管理系統,涉及到反欺詐,輿情分析。
第三個是基于機器學習的企業畫像,用于對公業務精準營銷和風險監測。這個是各個維度的,工商數據、稅務數據、海關數據,進出口,各種質監數據,包括公司的個人數據,一起來分析整個企業的全景畫像。結果可以用于風險監測和精準營銷。
此外,人工智能也在量化投資和智能投顧等方面有著全新的嘗試。
?
現場提問精選:
問:在現階段,每個人買金融產品的時候大部分是隨機的。您剛剛提到智能投顧在銀行里的推廣,我們作為企業方推薦一個產品給小白用戶,那么銀行應該通過這個給用戶最大收益,還是通過這個把銀行的贏利作為出發點?
袁征:這是一個很好又很現實的問題。我到底是為了我的終端客戶來服務,還是為了自身的贏利?這是大家都感覺非常矛盾的一件事,一方面銀行都想賣自己的產品,我在美國的時候先接觸資產配置,那個時候做財富管理的人都是獨立機構,因為他們不能代表任何一個機構去賣產品,不然就會讓人覺得不是對我個體的優化,而是對你公司的優化。我們現在想要讓廣大客戶去接受,就是希望能夠說服銀行在兩個利益上有一定的平衡,一方面我們會選擇全市場可以投資的東西,放到庫里面;另外一方面我們在比較類似的產品上,對銀行自身的產品有一定的推薦,希望做成這樣一種配置,能夠最大化滿足雙方共同的利益,盡量做到能夠在不影響個體投資人利益的情況下去賣銀行的產品。是否能做到,這就是個體差異了,首先是不是愿意去做,還是動力全都來自于為銀行購買產品,相信大家慢慢都會有感覺他這個產品是在專門推銷理財和基金,還是在為我們終端客戶提供更多的服務。
剛才提到了理想的配置,它其實有很多種,在前面我們需要做個性化的客戶畫像,包括風險偏好、資產水平以及各個維度的信息。你的配置模型可能跟我的模型跑出來的結果不一樣,因為我們倆的風險偏好和其他的參數不一樣,所以應該是根據每個人的不同而有一定的私人定制。
在公眾號對話框回復關鍵詞“AI金融”,下載完整版講座PPT。
“應用·創新”系列講座
清華-青島數據科學研究院“應用·創新”系列講座,分享大數據新應用與創新性商業模式;旨在介紹大數據在各行業的最新應用,激發校內利用大數據機遇進行創新的熱情。更多精彩干貨及線下活動,敬請關注THU數據派(ID:datapi)及姐妹號數據派THU(ID:DatapiTHU)。?????
整理:王志蒙
校對:龔力
為保證發文質量、樹立口碑,數據派現設立“錯別字基金”,鼓勵讀者積極糾錯。
若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到后臺反饋,經小編確認后,數據派將向檢舉讀者發8.8元紅包。
同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。
感謝一直以來您的關注和支持,希望您能夠監督數據派產出更加高質的內容。
總結
以上是生活随笔為你收集整理的AI的发展:在金融行业的应用与机遇(附视频PPT)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: es nested
- 下一篇: 【爬虫】案例(爬取豆瓣top250)[完