基于“小数据”的机器学习
機器學習作為人工智能的一種最重要的實現方式,其歷史可以追溯到20世紀50年代。
只不過,早期受制于計算機的算力,基本沒有什么能夠落地的實際應用,更多的是各類算法的研究和發展。
之后,隨著硬件的飛速發展,終于迎來了人工智能的春天,各種機器學習的算法在我們的日常生活中得到了廣泛應用(很多情況甚至我們都沒有感覺到)。
比如,小到各種的個性化推薦,語音控制,人臉識別等我們平時經常接觸的應用,
大的方面有醫療領域,機器學習的成果在這些領域幫助醫生進行疾病診斷、輔助手術和治療,以及提供個性化的健康管理方案;
還有交通領域,未來的自動駕駛會給我們的出行方式帶來革命性的變化。
此外,機器學習還滲透到很多其他的方方面面,這里不再一一列舉,
本文主要想討論的是機器學習在“小數據”上的應用前景。
1. 什么是“小數據”
介紹“小數據”之前,先從大數據的概念談起。
如今,我們早已進入大數據時代,當初大數據帶來的新奇之感早已不在,
大家對大數據概念的認知也日趨成熟,一致。
大數據的“大”不僅僅是指數據量的“多”,更多的是指數據的復雜。
這里的復雜是多方面的,包括:
- 數據來源多樣:可以來自網絡爬取,來自自己的數據庫,或是實時的監控等等
- 數據的屬性多樣:不同來源的數據,包含的屬性也各式各樣(相同的屬性在不要的來源中也許名稱也不一樣)
- 數據的格式多樣:除了文本格式,還有語音,圖片,視頻等等
與之相對,我們今天討論的“小數據”,一方面是數據量“少”,“少”到可以單機處理;
另一方面,數據簡單,也就是來源單一,屬性不多,格式固定。
舉例來說,圍繞我們個人的各種健康數據,消費數據就是“小數據”;
對某個特定企業來說,它的銷售數據,運營數據也是“小數據”;
還有,在科研上,針對某個領域的各類實驗數據其實也是“小數據”。
概括起來,“小數據”一般有下面三個特點:
- 自用:主要來自自身的數據或者可公開采集的數據,不需要考慮隱私
- 簡單:量小,這里的量小不是指只有幾百幾千條,而是指單機就能處理,不需要用到大數據平臺
- 精準:數據來源可靠,自己可控
2. “小數據”降低機器學習門檻
大數據讓機器學習在不知不覺中影響我們,在大數據時代,我們享受大廠通過機器學習訓練出的模型帶來的便利。
而小數據則讓我們有機會親自去實踐機器學習,讓機器學習成為個人和小企業手上的稱手工具,而不只是大廠的專有權利。
“小數據”降低了機器學習的門檻,這里的門檻是我們實踐機器學習的門檻,不再迷信只有在大數據基礎上訓練出來的模型才是可靠和精準的模型。
也就是說,沒有海量的數據也無妨,沒有超高的算力也無妨,我們依然可以在自己的“小數據”上利用機器學習利用分析和決策。
“小數據”雖然量少,但是數據的精度和可靠性很高,訓練出來的模型絕不是粗糙和低劣的。
挑兩個我自己的實際經驗來舉例,一個是銷售數據分析的項目;一個是量化交易相關的項目。
銷售數據分析那個項目中,數據是客戶從數據庫中導出的,大約6千多萬條,數據主要就是訂單和物流兩類,
數據字段和結構非常規整,符合“小數據”的特征。
在這個項目中,應用機器學習,得到了比傳統分析更多的信息,比如:
- 客戶的細分分類,使用決策樹、支持向量機(SVM)或樸素貝葉斯分類器等
- 客戶群體的相似性:使用聚類算法,比如K-Means,層次聚類等
- 產品之間隱含的關系:使用關聯規則算法
- 預測銷售額或銷售量:使用回歸算法
此外,還使用了一些異常數據檢測的算法,用來分析銷售額的突然下降和高退貨率的情況。
另一個量化交易的項目,這個項目的數據結構更加簡單,
基礎的數據其實就5個字段(交易時間,最高價,最低價,開盤價,收盤價,交易量),也就是K線圖上放映的內容。
在這個簡單的數據結構之上,可以構建各式各樣的分析指標,然后通過機器學習算法來驗證各種指標或指標組合的收益情況。
通過上面兩個實際的項目,可以看到,沒有用大數據和大數據平臺,機器學習依然對我們大有用處。
我剛開始了解機器學習之前,先去學了很多大數據相關的知識,還搭建了一些簡易的大數據平臺,去了解hadoop和spark之類的框架。
那時候,我覺得離開大數據,機器學習的模型只能當成“玩具”,但是,接觸和管理大數據是有門檻的,別說個人,即使是中小型規模的企業,也沒有時間和精力去維護一個大數據平臺。
如今,經歷了一些在“小數據”上的機器學習應用,我已經不再認為大數據和機器學習是密不可分的了。
離開大數據,機器學習應用的門檻不再高不可攀,“小數據”可以讓更多的程序員加入到開發機器學習應用的隊伍中來。
3. “小數據”機器學習的前景
之前學習大數據相關知識的時候,有一本書的作者提到,在大數據的項目中,數據的采集和清洗所占的工作量高達整個項目的80%以上。
在“小數據”項目中,這個工作量可以大大減少,我們可以把時間和精力更多的用在機器學習模型的調優中,而不是單純的數據管理上。
未來,隨著各種智能設備越來越多,圍繞我們個人的各種數據也會越來越多,基于這些針對個人的極端個性化的數據,細致的去分析各種結果。就是“小數據”機器學習的應用前景之一。
此外,隨著信息化越來越普及,企業中也會產生各種各樣分門別類的“小數據”,比如財務數據,客戶數據,市場數據,運營數據,銷售數據等等。這些也會成為“小數據”機器學習的應用場景。
在科研中,各種實驗數據也是“小數據”,也可以通過機器學習來發掘這些數據中可能存在的創新契機。
總之,擺脫“機器學習模型必須要大數據支撐才能更精確”的固有思維,我們也許可以讓機器學習在“小數據”上再次大放異彩。
總結
以上是生活随笔為你收集整理的基于“小数据”的机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浦语书生大模型实战训练营01笔记
- 下一篇: 网站优化之favicon.ico