生活随笔
收集整理的這篇文章主要介紹了
大数据采集方法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- 大數據采集
是指從傳感器和智能設備、企業在線系統、企業離線系統、社交網絡和互聯網平臺等獲取數據的過程。 - 數據
數據包括RFID數據、傳感器數據、用戶行為數據、社交網絡交互數據及移動互聯網數據等各種類型的結構化、半結構化及非結構化的海量數據。
大數據的分類
- 業務數據:消費者數據、客戶關系數據、庫存數據、賬目數據等。
- 行業數據:車流量數據、能耗數據、PM2.5數據等。
- 內容數據:應用日志、電子文檔、機器數據、語音數據、社交媒體數據等。
- 線上行為數據:頁面數據、交互數據、表單數據、會話數據、反饋數據等。
- 線下行為數據:車輛位置和軌跡、用戶位置和軌跡、動物位置和軌跡等。
數據源的分類
- 企業系統:客戶關系管理系統、企業資源計劃系統、庫存系統、銷售系統等。
- 機器系統:智能儀表、工業設備傳感器、智能設備、視頻監控系統等。
- 互聯網系統:電商那系統、服務行業業務系統、政府監管系統等。
- 社交系統:微信、QQ、微博、博客、新聞網站、朋友圈等。
采集方法和采集工具
- 大數據的采集
是指利用多個數據庫或存儲系統來接收發自客戶端(Web、App或者傳感器形式等)的數據。 - 在大數據時代,Redis、MongoDb和HBase等NoSQL數據庫常用于數據的采集。
- 大數據的采集過程的主要特點和挑戰是并發數高。
- 大數據采集時使用了大數據的處理模式即,MapReduce分布式并行處理模式或基于內存的流式處理模式。
- 大數據的采集方法
1)數據庫采集
Redis、MongoDB和HBase等NoSQL數據庫常用于數據的采集。企業通過在采集端部署大量數據庫,并在這些數據庫之間進行負載均衡和分片,來完成大數據采集工作。
2)系統日志采集
系統日志采集主要是手機公司業務平臺日常產生的大量日志數據,供離線和在線的大數據分析系統使用。高可用性、高可靠性、可擴展性是日志收集系統所具有的基本特征。系統日志采集工具均采用分布式架構,能夠滿足每秒數百MB的日志數據采集和傳輸需求。
3)網絡數據采集
網絡數據采集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息的過程。
4)感知設備數據采集
感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。
總結
以上是生活随笔為你收集整理的大数据采集方法的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。