url采集工具_大数据关键技术浅谈之大数据采集
在前幾篇文章中,企通查為大家介紹了大數(shù)據(jù)處理的基本流程。從大數(shù)據(jù)的一系列處理過程中(抽取、集成、分析、解釋),我們可以發(fā)現(xiàn)這一整套流程中涵蓋了數(shù)據(jù)存儲、處理、應(yīng)用等多方面的技術(shù)。
大數(shù)據(jù)價值的完美體現(xiàn)需要多種技術(shù)的協(xié)同。根據(jù)涉及領(lǐng)域的不同,大數(shù)據(jù)的關(guān)鍵技術(shù)可以分為大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)處理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展示等幾大方面。
本文將對大數(shù)據(jù)采集進(jìn)行介紹。
——
大數(shù)據(jù)采集處于大數(shù)據(jù)生命周期中第一個環(huán)節(jié),是大數(shù)據(jù)分析至關(guān)重要的一個環(huán)節(jié),也是大數(shù)據(jù)分析的入口。
圖:來源于網(wǎng)絡(luò)在互聯(lián)網(wǎng)行業(yè)技術(shù)快速發(fā)展的今天,數(shù)據(jù)采集廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域(常見的攝像頭、麥克風(fēng)等都可以成為數(shù)據(jù)采集的工具),此外還集合了信號、傳感器、激勵器、信號調(diào)流、數(shù)據(jù)采集設(shè)備和軟件應(yīng)用等。
大數(shù)據(jù)采集技術(shù)通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)。
因此,大數(shù)據(jù)采集技術(shù)也面臨著諸多挑戰(zhàn):一方面數(shù)據(jù)源的種類多,數(shù)據(jù)的類型繁雜,數(shù)據(jù)量大,并且產(chǎn)生的速度快;另一方面需要保證數(shù)據(jù)采集的可靠性和高效性,同時還要避免重復(fù)數(shù)據(jù)。
——
傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。
在大數(shù)據(jù)體系中,傳統(tǒng)數(shù)據(jù)分為業(yè)務(wù)數(shù)據(jù)和行業(yè)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源包括內(nèi)容數(shù)據(jù)、線上行為數(shù)據(jù)和線下行為數(shù)據(jù) 3 大類。
大數(shù)據(jù)體系中,數(shù)據(jù)源與數(shù)據(jù)類型的關(guān)系如下圖所示:
圖:數(shù)據(jù)源與數(shù)據(jù)類型的關(guān)系,來源于網(wǎng)絡(luò)和傳統(tǒng)的數(shù)據(jù)采集技術(shù)相比,大數(shù)據(jù)采集技術(shù)有2個特點(diǎn):
1.大數(shù)據(jù)采集通常采用分布式架構(gòu)
大數(shù)據(jù)采集的數(shù)據(jù)流量大,數(shù)據(jù)集記錄條數(shù)多,傳統(tǒng)的單機(jī)采集方式,在性能和存儲空間上都無法滿足需求。
2.多種采集技術(shù)混合使用
大數(shù)據(jù)不像普通數(shù)據(jù)采集那樣單一,往往是多種數(shù)據(jù)源同時采集,而不同的數(shù)據(jù)源對應(yīng)的采集技術(shù)通常不一樣,很難有一種平臺或技術(shù)能夠統(tǒng)一所有的數(shù)據(jù)源,因此大數(shù)據(jù)采集時,往往是多種技術(shù)混合使用,要求更高。
大數(shù)據(jù)的采集從數(shù)據(jù)源上可以分為四類:
Web數(shù)據(jù)(包括網(wǎng)頁、視頻、音頻、動畫、圖片等)
日志數(shù)據(jù)
數(shù)據(jù)庫數(shù)據(jù)
其它數(shù)據(jù)(感知設(shè)備數(shù)據(jù)等)
針對不同的數(shù)據(jù)源,所采用的數(shù)據(jù)采集的方法和技術(shù)也不相同。
圖:大數(shù)據(jù)采集技術(shù)分類,來源于網(wǎng)絡(luò)1.web數(shù)據(jù)采集
網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開 API 等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。
網(wǎng)絡(luò)爬蟲會從一個或若干初始網(wǎng)頁的 URL 開始,獲得各個網(wǎng)頁上的內(nèi)容,并且在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的 URL 放入隊(duì)列,直到滿足設(shè)置的停止條件為止。
這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式存儲在本地的存儲系統(tǒng)中。
2. 系統(tǒng)日志采集
系統(tǒng)日志采集主要是收集公司業(yè)務(wù)平臺日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線的大數(shù)據(jù)分析系統(tǒng)使用。
高可用性、高可靠性、可擴(kuò)展性是日志收集系統(tǒng)所具有的基本特征。系統(tǒng)日志采集工具均采用分布式架構(gòu),能夠滿足每秒數(shù)百 MB 的日志數(shù)據(jù)采集和傳輸需求。
3. 數(shù)據(jù)庫采集
傳統(tǒng)企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫 MySQL 和 Oracle 等來存儲數(shù)據(jù)。
隨著大數(shù)據(jù)時代的到來,Redis、MongoDB 和 HBase 等 NoSQL 數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。企業(yè)通過在采集端部署大量數(shù)據(jù)庫,并在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片,來完成大數(shù)據(jù)采集工作。
4. 其他數(shù)據(jù)(感知設(shè)備等數(shù)據(jù)采集)
感知設(shè)備數(shù)據(jù)采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。
大數(shù)據(jù)智能感知系統(tǒng)需要實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。其關(guān)鍵技術(shù)包括針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等。
圖:企通查-動態(tài)大數(shù)據(jù)資源中心數(shù)據(jù)維度數(shù)據(jù)的采集是挖掘數(shù)據(jù)“石油”的第一步,當(dāng)數(shù)據(jù)量越來越大時,可發(fā)掘的有價值的信息也就更多,反應(yīng)信息也就越加全面。只有更加充分地利用數(shù)據(jù)化處理平臺,才可以保證分析結(jié)果的有效性和準(zhǔn)確性,以便更加有效地助力企業(yè)實(shí)現(xiàn)驅(qū)動的數(shù)據(jù)化。
參考文獻(xiàn):
大數(shù)據(jù)采集技術(shù)概述_大數(shù)據(jù)基礎(chǔ)學(xué)習(xí)-CSDN博客?blog.csdn.net艾叔:最全【大數(shù)據(jù)采集技術(shù)】總結(jié)?bigdatastudy.net總結(jié)
以上是生活随笔為你收集整理的url采集工具_大数据关键技术浅谈之大数据采集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: set-cookie 和 cookie
- 下一篇: python find函数_Python