四说大数据时代“神话”:从大数据到深数据
在機器學習方面始終有個基礎性的誤會,即更大的數據會形成更快的學習效果。殊不知,更大的數據并非意味著能發現更深刻的信息。事實上,與數據的規模相較,數據的質量、價值和多樣性更最該關注,即數據的“深度”勝于“廣度”。文中從三個角度思索了大數據時代的問題并提出了一些建議的做法以改進這些問題。
現今,人們看待數據理應更為深思熟慮,而不是不加刷選地搜集全部可獲取的數據來實現“大數據”。我們如今需要讓某些數據落實到位,并搜尋數量和質量的多樣性。這一措施將產生很多長久的利益。
四種大數據神話:
任何數據都能夠而且理應被捕捉和儲存。
大量的數據總是有利于創建更精確的分折模型。
存儲大量數據的成本基本上為零。
計算大量數據的成本基本上為零。
殊不知:
來自物聯網和網絡流量的數據明顯超出了人們的捕捉能力。許多數據都需要在抓取時進行預處理便于存儲和監管。人們需要按照其價值對數據做好歸類與篩選。
重復使用一千次同樣的數據開展訓練并不會提升預測模型的精確性。
儲存更多數據的成本不僅是亞馬遜網絡服務向您收取的以 TB 計費的美金。同時也包含系統在查尋和監管好幾個數據源的超額復雜性,及其員工移動和運用該數據的“模擬重量”。這些成本一般高過儲存和計算費用。
人工智能算法對計算資源的需求會迅速超過彈性云基礎設施能夠提供的算力。在沒有專業的管理模式的情形下,計算資源會呈線性增長,而計算需求則會出現超線性增長,乃至指數級增長。
假如輕信了這些神話,你所構筑的信息系統將會看上去會好似紙上談兵,或從長久角度看上去非常好,但在即時性的架構中實現起來則是繁雜且低效的。
四種大數據問題:
重復的數據對模型無益。在為 AI 構建機器學習模型時,訓練樣本的多樣性尤為重要。緣故是模型試圖明確概念界限。比如,假如您的模型試圖通過年紀和職業來界定“退休人員”的概念,那么像“32 歲的注冊會計師”這樣的重復樣本對該模型并沒什么價值,因為這些人大也沒有退休。在 65 歲的概念邊界中獲得樣本并掌握退休怎樣隨職業而轉變則更具備價值。
低質量數據會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中,如果新數據是不精確的,或存在錯誤,那么它會混淆這個邊界。在這種情況下,更多數據無濟于事,并且還有可能會降低現有模型的準確性。
大數據增加了時間成本。針對不一樣學習算法,在 TB 級的數據上構建模型將會會比在數 GB 的數據上構建模型多花費約千倍、乃至萬倍的時間。數據科學本就是迅速實驗,雖不完美卻輕量的模型更具備未來趨勢。數據科學一旦失去了速度,則失去了未來。
大數據環境下便于實現的模型。任何預測模型的最后目的都是構建一個可用于商業部署的高度精確的模型。有時使用來自數據庫深處陰暗面的模糊數據將會會產生更高的精確性,但所使用的數據針對實際部署可能是有風險的。應用一個不太準確卻能夠快速部署和運行的模型往往更好。
四種更好的措施
學會在準確性和執行性之前權衡。數據科學家大都喜愛將目標定為更精確的模型。事實上,你理應依據準確性和部署速度,測算合理的 ROI 期待,隨后再開始你的項目。
應用隨機樣本搭建每一模型。如果你已經獲取了大數據,那么沒理由不采用它。假如能使用好的隨機抽樣方法,那么你可以先使用小樣本建立模型,隨后在全部數據庫上開展訓練和調節以獲取更精確的預測模型。
丟棄一些數據。倘若你對來源于物聯網設施和其它來源的流數據覺得手足無措,請拋下一些數據,不必有太大的負擔。如果你沒法購買足夠的磁盤來儲存多余的數據,它會損毀你在計算機科學生產線末期的全部工作。
找尋更多數據源。人工智能近期的很多突破并非歸因于更大的數據集,而是能夠將機器學習算法成功的應用于這些數據,這在以前是沒法實現的。比如,現今普遍存在的大中型文本,圖像,視頻和聲頻數據集在20年前并非存在。你理應持續探尋新的數據以找出更好的機會。
總結
以上是生活随笔為你收集整理的四说大数据时代“神话”:从大数据到深数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iOS APP上架被拒重新提交审核教程
- 下一篇: PostgreSQL 无会话、有会话模式