51GIS学院|分享大数据项目架构思考(一)
大數據概念到今天,炒作的最高風口已經過去了,根據Gartent發布的HypeCycle曲線,大數據已經處于炒作頂點之后的衰退期。
HypeCycle曲線
而從HypeCycle曲線定義的階段來看,越過炒作頂點的技術,通常被認為已經滿足了技術可行性,進入了可實用的階段。
所以,對于大數據項目來說,技術上已經沒有什么太大的問題了,無論從軟件還是從人員來說,該填的空也都填得差不多了,剩下就是看整體項目建設中該考慮如何落地的問題。
項目如何實施,第一步應該怎樣走?為什么這樣走?怎么樣才算成功?
大數據不缺情懷,汗牛充棟的大數據情懷之作,讓大家打足雞血,甚至產生宗教崇拜情節——不用大數據的都是邪教,應該綁起來燒死:
技術上也不缺:各種Hadoox權威指南,Sparx權威指南……啥的書,也能夠壘成書山了,但是恰恰漏掉了大數據整個項目應該如何實施的?
安裝軟件工程的模式,最重要的就是三個字“里程碑”。(說起這三個字,想到蝦神才畢業時候做項目的經歷,動輒就是里程碑發版本,加班加得頭發一把把的掉……差點就聰明絕頂了)。
在一個單位內部,如何實施一個大數據項目?如何確定這個項目是成功還是失敗了,業界有個主流的觀點,認為大數據項目的里程碑,應該在下面三個關鍵點上面:
第一個節點稱之為:系統輕載,通俗說起來,就是輕裝上陣:
眾所周知,當一個系統運行到一定時候,系統中會存儲大量的歷史數據,而數據庫在訪問由1萬條記錄組成的表的效率,和訪問由1億條記錄組成的表的效率,那是完全不在一個數量級上的。
歷史數據的存放一直是個很大的問題,特別是電商、銀行這種,需要進行永久性存儲業務數據的企業來說,代價一直是很高昂的。
所以這個節點,是很多企業的“剛需”,而對于我們空間信息技術相關的企業來說,暫時還沒有那么大的“痛楚”,那么這個階段的剛需,就是“數據化石”的激活了。
地理信息相關的企業(或者應用單位)通常會收集很多很多的數據,而且還會做很多數據的處理——這樣導致了一個問題,在收集過程中,或者處理過程中,會生成非常多的過程數據(比如我見過的一個單位,在對矢量數據進行處理的時候,一天甚至能發出100多個版本)。
這些數據,要么因為存儲空間不夠或者認為意義不大,而直接丟棄了,要么就存儲在了磁帶機或者冷備硬盤上僅用于歷史存檔。而這些歷史存檔數據又因為技術上的“不可(不方便、不能快速)”訪問,變成了所謂的數據化石。
這些數據化石里面,保留了無數的有價值的數據,舉個簡單的例子:
某領導突然過來問:我記得當年(五年前),xx在做xx區域的時候,曾經出過一個專題圖,誰那還有?然后大家一陣雞飛狗跳,(幾小時 or 幾天后)好容易在哪個灰塵20cm厚的倉庫廢品堆里面把那個專題掛圖給找出來了。領導看過之后,嗯,不錯,這幾個地方重新改一下,再做一版拿給我……
這種情況,大家的表情肯定是:
五年前曇花一現的專題圖成果(已經打印成了掛圖),我去哪找原始數據啊?
大數據平臺的構建,在第一階段,就應該是解決這樣的一些問題。
那么第二個階段是什么呢?
第二個關鍵點,就是形成應用的閉環。
軟件企業開發軟件(或者項目),業務單位使用這些軟件(或者應用),那么在使用的過程中,自然會生成大量的數據,這些數據有的是工作過程中產生的(業務數據、工作記錄……),也有可能是軟件運行產生的(操作日志、系統日志、維護日志……),這些數據,一旦收集起來,對軟件廠商下一步軟件開發提供建議。
如果能夠對整個軟件運行進行監控,那么很容易的獲取所有功能模塊的用戶操作信息,包絡使用習慣、操作步驟,使用頻率等等,后期就能夠針對這些內容進行更精準的優化。
那么對于政府或者所謂公共服務性質的單位呢?比如國土部門可以通過對某些查詢的頻率(比如那些表格的哪些字段,何種查詢方式,需要何種結果),來決定數據庫的優化策略;或者針對兄弟部門服務需求或者上級領導提出的要求(匯總數據、制作專題圖等其他業務需求),來優化整個系統的功能設計。
說到這里,其實很多的實際應用場景與產品經理的設計是有沖突的。下面可以給大家舉個小例子:
程序員在做匯總查詢功能的時候,通常會按照數據計算引擎的模式,給出極高精確度的結果,比如要統計某個區域內的地塊類別匯總,程序員設計的方式是鼠標在地圖上一拉框,系統就會自動去計算這個區域內所有地塊信息的累加和,最后給出的來的結果精確到小數點后面6位數……
但是隨著數據體的變大,這種操作可能會非常非常慢……比如要統計整個長江流域的非農業用地面積,可能就需要幾個小時設置幾天的時間。
如果有一天,領導過來問你:從xx路到xx河,一共有多少畝農用土地?如果你花1小時后告訴領導,一共有44萬3652.173畝……和你花三分鐘就直接告訴領導,有44萬3千多畝,甚至1分鐘之后,就告訴領導,一共有40多萬畝。那么你覺得領導會對哪個結果更滿意?
因為領導并不是要你給出一個精確到小數點后N位的答案,他問你的時候,可能只需要一個大概的數字,與他現在正在進行考慮的某件事,形成一個決策數據鏈,所以,40多萬這個答案,和小數點后3位這個精度,完全沒有區別,而對響應時間要求非常高……一個小時以后,你的答案說不定已經沒有任何意義了。
那么這種犧牲精度提高響應速度的場景,在實際的應用中多不多?這就仁者見仁,智者見智了。
最后一個關鍵點,就是所謂的數據變現,也就是大家經常說的“這東西能賣錢么?”
數據變現做為一個遠景目標,也是很多決策者和架構師們在考慮的問題。
目前數據變現不一定指的是盈利,因為空間大數據有大量的用戶是政府部門,所以變現就分為經濟價值和社會價值兩個部分。
經濟價值就不說了,目前因為國內特殊情況,有些還處于探索階段,比如數據的交換(買賣)。
根據國外的一些發展,未來數據變現在經濟上可能有如下的發展:
1、資源買賣。通過原始數據的買賣產生經濟價值。目前國內處于有錢沒地方買,但是如果未來能夠放開,那么數據交易的市場將非常龐大。從科研到教學,從社會生產生活,到宏觀趨勢研究,如果能夠通過合理的價格來獲取數據,那么對提供方和需求方都是一個重大的利好。
2、數據產品。通過數據來生產各種產品,比如醫務工作者,對大醫院病例與治療方案的需求,相應的組織就可以針對醫療數據進行產品化(去除掉各種隱私、敏感等相關的信息)之后,可以對相應的機構提供。
3、專業分析服務。通過數據建模,可以提供各種專業的服務,比如投資、旅游、購物等。
4、軟件和人才,這個就不用說了。
而政府相關的部門,可能更在乎變現的社會價值。
比如交通管理部門,通過對LBS數據的分析,能夠對城市的交通管理決策更加優化。
在單位內部,大數據部門(極其使用者)可以變成行業(單位)的頂級智囊:能夠對行業內(外)若干年發生的任何事情、資料、數據了如指掌,能夠對任意決策提供數據支持和建議,能夠快速的針對業務制作各種專業的報表和專題圖,能夠成為所有“標準答案”的出口……像這樣的數據專家,哪個單位不想要?
那么,做為大數據的從業者,或者想從業者,你準備好了嗎?
總結
以上是生活随笔為你收集整理的51GIS学院|分享大数据项目架构思考(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 比较好的在线绘制图表工具
- 下一篇: Blender 2.9