统计分析建模与人工智能建模
目錄
一、什么是人工智能?
二、什么是機器學習、深度學習?
三、什么是建模?
四、傳統建模與人工智能建模?
五、應用案例。
六、參考文章。
?????? 本文主要介紹統計分析建模與人工智能建模的區別,由于統計分析建模需要具備較強的專業知識,其中會涉及到人工智能、機器學習、深度學習等。為了方便讀者閱讀,文中會以傳統建模來稱呼統計分析建模,文章字數4900字左右,閱讀時間8分鐘。
一、什么是人工智能?
人工智能指的是由人類發明設計的智能系統,能夠模仿人類的思考方式,實現人腦的部分功能,替代人腦解決特定問題。根據從底層到應用的技術邏輯, 人工智能可以分成基礎層、技術層、應用層。
圖 1
基礎層從硬件和理論層面,為人工智能的實現提供了根本保障,主要包括AI芯片和深度學習算法。AI 芯片的發展進步,提供了越來越強的計算能力; 深度學習算法的建立,提供了AI解決問題的計算方法。
技術層是基于基礎層的支撐,設計出的解決某一類過去需要人腦解決問題的通用方法,包括智能語音、計算機視覺、自然語言處理以及其他類這四大類人腦功能的處理方法。這些方法基于深度學習算法,根據具體的數據以及處理場景,形成了專門的成套技術處理方法和最佳實踐。
應用層是基于技術層的能力,去解決具體現實生活中的問題。比如利用計算機視技術,實現金融、安防等多個領域的人臉識別;利用智能語音技術,實現智能音箱、錄音筆等的語音識別。
從上面介紹的內容,可以看出,人工智能的關鍵要素有幾點: 數據、算法、算力、領域專業能力。
數據,深度學習算法的核心在于通過優質的數據去訓練,是否取得足量優質數據集是人工智能技術取得成功的關鍵。科大訊飛在智能語音領域的重要優勢,是有足夠優秀的方言訓練數據,因此其語音識別產品能夠較好應對各種方言的情況,形成護城河。
算法,雖然深度學習的核心框架相對固定,但是為了使得學習模型在特定應用場景取得較好效果,往往需要做很多的算法優化和工程優化,以使得模型最終在具體場景取得更好的效果,比如更快的計算效率,更準確的分類概率等。
算力,由于現在需要解決的具體問題越來越復雜,云端的人工智能算法對硬件的計算能力需求近乎無止境。雖然當前芯片技術不斷進步,云計算的提供越來越完善,但是對于一些高難度高復雜度的人工智能工作,依然需要非常大的算力才能訓練出足夠好的解決模型。這樣強大的算力也非常昂貴,很多小公司無力承擔。
領域專業能力,人工智能技術的落地應用,最終還是要和應用場景結合起來,往往需要最終的實施公司,既理解行業痛點,又具備豐富的行業實施經驗以及渠道能力,方能更好地將技術和具體硬件以及流程結合,取得好的實施效果。
二、什么是機器學習、深度學習?
在上面的介紹中,我們了解到人工智能的發展離不開機器學習,而提到機器學習就會想到深度學習,很多小伙伴不理解這兩者之間有那些區別,一起來看下。
?????? 機器學習,Tom Mitchell 對機器學習給出了最佳解釋。下面是其中的內容:“計算機程序可以在給定某種類別的任務 T 和性能度量 P下學習經驗 E ,如果其在任務 T 中的性能恰好可以用 P 度量,則隨著經驗 E 而提高。” 光看概念是比較抽象的,讓我們用簡單的例子來分解下這個描述。
示例 1:機器學習和根據人的身高估算體重。假設你想創建一個能夠根據人的身高估算體重的系統。那么你可以使用機器學習去找出任何可能的錯誤和數據捕獲中的錯誤,首先你需要收集一些數據,讓我們來看看你的數據是什么樣子的。
圖 2
這些斜線能幫助我們做出預測,盡管這些斜線表現得很棒,但是我們需要理解它是怎么表現的,我們希望去減少預測和實際之間的誤差,這也是衡量其性能的方法。深遠一點地說,我們收集更多的數據,模型就會變得更好。我們也可以通過添加更多變量(例如性別)和添加不同的預測斜線來完善我們的模型。
示例2: 颶風預測系統。假如你要構建一個颶風預測系統,假設你手里有所有以前發生過的颶風的數據和這次颶風產生前三個月的天氣信息。如果要手動構建一個颶風預測系統,我們應該怎么做?
圖 3
首先,我們的任務是清洗所有的數據找到數據里面的模式進而查找產生颶風的條件。我們既可以將模型條件數據(例如氣溫高于40度,濕度在80-100等)輸入到我們的系統里面生成輸出;也可以讓我們的系統自己通過這些條件數據產生合適的輸出。我們可以把所有以前的數據輸入到系統里面來預測未來是否會有颶風。基于我們系統條件的取值,評估系統的性能(系統正確預測颶風的次數)。我們可以將系統預測結果作為反饋繼續多次迭代以上步驟。讓我們根據前邊的解釋來定義我們的預測系統:我們的任務是確定可能產生颶風的氣象條件。性能P是在系統所有給定的條件下有多少次正確預測颶風。經驗E是我們的系統的迭代次數。
通過這兩個例子,不知道你是否對機器學習有所了解,如果還有疑問的話,請往下看。
深度學習,這個概念并不新穎。它已經存在好幾年了。但伴隨著現有的炒作,深度學習越來越受到重視。先來看看深度學習的官方定義“深度學習是一種特殊的機器學習,通過學習將世界使用嵌套的概念層次來表示并實現巨大的功能和靈活性,其中每個概念都定義為與簡單概念相關聯,而更為抽象的表示則以較不抽象的方式來計算。” 這有點讓人混亂,同樣,我用兩個簡單示例來分解下此概念。
示例 1:形狀檢測,從概念層面上解釋究竟發生了什么的事情。我們來試試看如何從其他形狀中識別正方形。
圖 4
我們眼中的第一件事是檢查圖中是否有四條的線。如果我們找到這樣的四條線,我們進一步檢查它們是相連的、閉合的和相互垂直的,并且它們是否是相等的。所以,我們完成了一個復雜的任務(識別一個正方形),并以簡單、不太抽象的任務來完成它。深度學習本質上在大規模執行類似邏輯。
示例 2:貓VS狗,我們舉一個動物辨識的例子,其中我們的系統必須識別給定的圖像中的動物是貓還是狗。閱讀下此文,以了解深度學習在解決此類問題上如何比機器學習領先一步。現在的你應該已經對機器學習和深度學習有所了解,接下來我們將會學習其中一些重點,并比較兩種技術。
數據依賴性,深度學習與傳統的機器學習最主要的區別在于隨著數據規模的增加性能也不斷增長。當數據很少時,深度學習算法的性能并不好。這是因為深度學習算法需要大量的數據來完美地理解它。另一方面,傳統的機器學習算法使用制定的規則,性能會比較好。下圖總結了這一事實。
圖 5
硬件依賴,深度學習算法需要進行大量的矩陣運算,GPU 主要用來高效優化矩陣運算,所以 GPU 是深度學習正常工作的必須硬件。與傳統機器學習算法相比,深度學習更依賴安裝 GPU 的高端機器。
特征處理,將領域知識放入特征提取器里面來減少數據的復雜度并生成使學習算法工作的更好的模式的過程。特征處理過程很耗時而且需要專業知識。在機器學習中,大多數應用的特征都需要專家確定然后編碼為一種數據類型。特征可以使像素值、形狀、紋理、位置和方向。大多數機器學習算法的性能依賴于所提取的特征的準確度。深度學習嘗試從數據中直接獲取高等級的特征,這是深度學習與傳統機器學習算法主要的不同。基于此,深度學習削減了對每一個問題設計特征提取器的工作。例如,卷積神經網絡嘗試學習低等級的特征(邊界,線條),然后學習部分人臉,然后是高級的人臉的描述。
圖 6
問題解決方式,當應用傳統機器學習算法解決問題的時候,傳統機器學習通常會將問題分解為多個子問題并逐個子問題解決。最后,結合所有子問題的結果獲得最終結果。相反,深度學習提倡直接的端到端的解決問題。
舉例說明:假設有一個多物體檢測的任務需要圖像中的物體的類型和各物體在圖像中的位置。
圖 7
傳統機器學習會將問題分解為兩步:物體檢測和物體識別。首先,使用一個邊界框檢測算法掃描整張圖片找到可能的是物體的區域;然后使用物體識別算法(例如 SVM 結合 HOG )對上一步檢測出來的物體進行識別。相反,深度學習會直接將輸入數據進行運算得到輸出結果。例如可以直接將圖片傳給 YOLO 網絡(一種深度學習算法),YOLO 網絡會給出圖片中的物體和名稱。
執行時間,通常情況下,訓練一個深度學習算法需要很長的時間。這是因為深度學習算法中參數很多,因此訓練算法需要消耗更長的時間。最先進的深度學習算法 ResNet完整地訓練一次需要消耗兩周的時間,而機器學習的訓練會消耗的時間相對較少,只需要幾秒鐘到幾小時的時間。但兩者測試的時間上是完全相反。深度學習算法在測試時只需要很少的時間去運行。如果跟 k-nearest neighbors(一種機器學習算法)相比較,測試時間會隨著數據量的提升而增加。不過這不適用于所有的機器學習算法,因為有些機器學習算法的測試時間也很短。
可解釋性,至關重要的一點,我們把可解釋性作為比較機器學習和深度學習的一個因素。我們看個例子。假設我們試用深度學習去自動為文章評分。深度學習可以達到接近人的標準,這是相當驚人的性能表現。但是這仍然有個問題。深度學習算法不會告訴你為什么它會給出這個分數。當然,在數學的角度上,你可以找出來哪一個深度神經網絡節點被激活了。但是我們不知道神經元應該是什么模型,我們也不知道這些神經單元層要共同做什么。所以無法解釋結果是如何產生的。另一方面,為了解釋為什么算法這樣選擇,像決策樹(decision trees)這樣機器學習算法給出了明確的規則,所以解釋決策背后的推理是很容易的。因此,決策樹和線性/邏輯回歸這樣的算法主要用于工業上的可解釋性。
機器學習和深度學習用于那些領域,包括:
計算機視覺 用于車牌識別和面部識別等應用。
信息檢索 用于諸如搜索引擎的應用-包括文本搜索和圖像搜索。
市場營銷 針對自動電子郵件營銷和目標群體識別等的應用。
醫療診斷 諸如癌癥識別和異常檢測等的應用。
自然語言處理 如情緒分析和照片標記等的應用。
三、什么是建模?
建模,就是為了理解事物而對事物做出的一種抽象,是對事物的一種無歧義的書面描述。當然,建模的范圍非常的廣,有3D建模、數學建模等。本文介紹的是傳統建模,傳統建模指的是以計算機統計分析軟件為工具,利用各種統計分析方法對批量數據建立統計模型和探索處理的過程,用于揭示數據背后的因素,詮釋社會經濟現象,或對經濟和社會發展作出預測或判斷。
四、傳統建模與人工智能建模。
隨著技術的發展,人工智能的出現,傳統建模也朝著更高級的方向發展,由原來寫代碼結合建模工具的方式提升到利用工具完成整個建模流程,也就是自動化建模。自動化建模的出現除了縮短建模的周期之外,也讓建模人員更加合理的利用時間。為了更直觀的展示兩者之間的區別,請看下圖。
圖 8
?
圖 9
這兩張圖非常清晰的展示了傳統建模的特點,一來,建模要結合場景,每個模型都是用在特定的場景,無法復用;二來,建模的流程比較長,從問題定義到模型應用,總共有6個步驟,一般都要幾周到數月,效率低下;三來,建模對人的專業能力要求很高,要掌握非常多的技術,包括編碼能力、算法、數據等。因此,人才缺口很大,據獵聘網發布的招聘信息,3年以上的建模工程師年薪要50萬左右;最后,傳統建模是代碼結合工具的模式,一般采用Sas或者Spss 等分析建模工具,依賴性強。種種的因素,讓建模的門檻非常的高,隨著數字時代的到來,為了高效利用企業內部的數據,自動化建模成為助力企業轉型的有力工具,到底它有什么優勢呢,請看下圖。
圖 10
結合上圖,我們看到,自動化建模的價值非常明顯,一來降低建模的門檻,業務從業者不需要具備較強的專業知識,只要具備閱讀產品手冊的能力即可;二來,建模效率大幅提高,將原來很多需要人工做的工作封裝好,包括參數和算法選擇等,用戶只需要明確自己建模的目標,準備好數據,即可一鍵開始建模出結果;三來降低成本,建模的時間由原來的幾周,變成幾個小時,同樣的時間建模人員可以建更多的模型,時間利用最大化。
五、應用案例。
我們以某股份制銀行理財產品的推薦場景為例,該案例的目標是根據用戶的畫像,推薦相應的理財產品,達到用戶購買的目的,增加盈收。同時,會對使用專家規則以及自動化建模的結果做詳細的對比,來驗證自動化建模的價值,請看下圖。
圖 11
?
圖 12
?????? 從該案例中,可以看到采用機器學習建模也就是自動化建模之后購買理財產品的用戶提高了3倍以上,效果提升明顯,隨著市場競爭的白熱化,如何增加營收是每個企業非常關注的問題。在這種情況下,自動化建模便是企業提升競爭力的有力武器。我相信在不久的將來,它將會成為企業的標配,就跟財務軟件一樣。
六、參考文章。
https://www.zhihu.com/question/41268372
http://smarthome.qianjia.com/html/2019-12/5_357205.html
?
備注:?喜歡本文的話給作者點個贊,喜歡閱讀微信公眾號文章的朋友可以關注我,掃一掃下面的圖片,不時會發布關于職場方面的文章。
總結
以上是生活随笔為你收集整理的统计分析建模与人工智能建模的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 服务器日志显示system特殊登陆,事件
- 下一篇: 科普文章:公众电磁辐射与防护的研究