数据管护技术及应用
數(shù)據(jù)管護技術(shù)及應(yīng)用
于明鶴1,2,?聶鐵錚3,?李國良4
1?東北大學(xué)軟件學(xué)院,遼寧 沈陽 110169
2?廣東省普及型高性能計算機重點實驗室,廣東 深圳 518060
3?東北大學(xué)計算機科學(xué)與工程學(xué)院,遼寧 沈陽 110169
4?清華大學(xué)計算機科學(xué)與技術(shù)系,北京 100084
?
摘要:為了對海量數(shù)據(jù)進行充分和有效的處理、存儲以及應(yīng)用,數(shù)據(jù)管護技術(shù)應(yīng)運而生。數(shù)據(jù)管護技術(shù)是在數(shù)據(jù)整個生命周期內(nèi),對數(shù)據(jù)進行的主動并持續(xù)的管護,使數(shù)據(jù)得到最大化的利用,并且大程度地延長數(shù)據(jù)的使用壽命。圍繞數(shù)據(jù)管護技術(shù)的目的、解決方案和應(yīng)用,系統(tǒng)介紹了數(shù)據(jù)管護的處理過程和其中的關(guān)鍵技術(shù),并介紹了幾種基于數(shù)據(jù)管護的應(yīng)用,并對其技術(shù)特點進行了對比分析。最后,對數(shù)據(jù)管護技術(shù)的發(fā)展前景和未來挑戰(zhàn)進行了闡述。
關(guān)鍵詞:數(shù)據(jù)管護?;?數(shù)據(jù)清洗?;?數(shù)據(jù)集成?;?元數(shù)據(jù)管理?;?溯源管理
論文引用格式:
?于明鶴,聶鐵錚,李國良.數(shù)據(jù)管護技術(shù)及應(yīng)用. 大數(shù)據(jù)[J], 2019, 5(6):30-46
YU M H, NIE T Z, LI G L.Data curation technologies and applications.Big Data Research[J], 2019, 5(6):30-46
1 引言
數(shù)字化信息正以史無前例的速度產(chǎn)生,當(dāng)前科學(xué)界、產(chǎn)業(yè)界、社會以及日常生活中大數(shù)據(jù)方法被廣泛使用。這些應(yīng)用方法依賴于數(shù)據(jù)的質(zhì)量及其可用性。在數(shù)據(jù)驅(qū)動的科學(xué)研究或數(shù)據(jù)密集型研究中,科學(xué)家們需要大量使用和共享各種海量的數(shù)字資源,這就要求對科學(xué)數(shù)據(jù)進行有效的收集、加工、組織、保存、發(fā)布等。在數(shù)據(jù)科學(xué)和e-science中,將該類應(yīng)用稱為data curation或digital curation,中文譯為“數(shù)據(jù)策管”“數(shù)據(jù)監(jiān)護”“數(shù)據(jù)管護”等?。在圖書館和檔案館領(lǐng)域,同樣也使用“數(shù)據(jù)管護”一詞,該數(shù)據(jù)管護強調(diào)的是對數(shù)字化數(shù)據(jù)的維護、保存與增值。在該領(lǐng)域,基于數(shù)據(jù)管護技術(shù)的主要應(yīng)用為建立開放檔案信息系統(tǒng),如歐盟的電子資源保存與接入網(wǎng)絡(luò)項目(ERPANET)、美國佛羅里達數(shù)字檔案項目(FDA)開發(fā)的數(shù)字資源庫(DAITSS)等用于存儲數(shù)字化信息的資源庫。與圖書館學(xué)討論的“數(shù)據(jù)管護”相比,本文著重強調(diào)進行“數(shù)據(jù)管護”自動化和智能化處理技術(shù),更加面向?qū)iT領(lǐng)域的應(yīng)用,更加注重具體的實現(xiàn)細節(jié)。
一個典型的應(yīng)用案例是,在生物大數(shù)據(jù)應(yīng)用中,科學(xué)家們可以通過在線訪問現(xiàn)有生物和古生物數(shù)據(jù)集來研究生物多樣性。利用長期收集到的大量全球生物數(shù)據(jù),人們可以獲得與進化過程以及物種向極地遷移相關(guān)的科學(xué)知識,更進一步地,還可以獲得關(guān)于氣候變化的知識。利用數(shù)據(jù)管護技術(shù),可以對收集到的生物數(shù)據(jù)和信息進行管護,并形成一個全球生物的數(shù)據(jù)管護框架。目前已有一些工作對生物收集工作者進行數(shù)據(jù)管護問卷調(diào)查,他們負責(zé)管護美國國家生物多樣性建設(shè)相關(guān)項目的各類標本。調(diào)查結(jié)果表明,在生物數(shù)據(jù)的管護中存在著極大的數(shù)據(jù)多樣性,并且為了能夠反映生物數(shù)據(jù)管護的復(fù)雜性,還需要增加更多的數(shù)據(jù)管護問題。為了讓這些數(shù)據(jù)在未來研究中可以對特定的領(lǐng)域?qū)<乙酝獾难芯空咛峁┱f明與指導(dǎo),并使數(shù)據(jù)化的生物數(shù)據(jù)能夠得到長期持續(xù)的管護,需要使用專門的元數(shù)據(jù)創(chuàng)建工具和數(shù)據(jù)標準,對生物數(shù)據(jù)管護工作進行長期的維護。
數(shù)據(jù)管護在學(xué)術(shù)界和工業(yè)界尚沒有統(tǒng)一的定義。一般認為,數(shù)據(jù)管護是指關(guān)于數(shù)據(jù)在其生命周期,即從生成數(shù)據(jù)和初始存儲起,到繁衍變化或者廢棄刪除的整個過程中的持續(xù)管護活動。數(shù)據(jù)管護的主要目的是使數(shù)據(jù)在后續(xù)研究及重復(fù)利用的過程中保持可信任性,另外在商業(yè)用途中也需要確保數(shù)據(jù)的可重塑性。
圖1給出了數(shù)據(jù)管護的基本過程。該過程分為3個階段:數(shù)據(jù)收集、數(shù)據(jù)處理以及數(shù)據(jù) 發(fā)布。
(1)數(shù)據(jù)收集階段
該階段完成對原始基礎(chǔ)數(shù)據(jù)的獲取工作,主要包括數(shù)據(jù)加載和數(shù)據(jù)抽取。
數(shù)據(jù)加載主要指將外界的原始數(shù)據(jù)裝載到數(shù)據(jù)管護系統(tǒng)中的過程。原始數(shù)據(jù)的獲取有多種途徑。例如,在Web應(yīng)用中,用戶可以通過從網(wǎng)絡(luò)直接下載、網(wǎng)頁爬取以及利用應(yīng)用程序接口(application programming interface,API)抓取等方式得到互聯(lián)網(wǎng)中的信息,或者將傳統(tǒng)以紙質(zhì)媒介記錄的信息通過掃描、人工輸入等方式存入數(shù)字化存儲媒介中。需要將這些來源不同、格式不同的信息加載到用戶使用的編程環(huán)境下,以便對數(shù)據(jù)進行進一步的處理。
圖1???數(shù)據(jù)管護的基本過程
對于每一個獲取到的數(shù)據(jù),均需要確定它的質(zhì)量及整潔度(tidiness),即數(shù)據(jù)的內(nèi)容是否有效、數(shù)據(jù)格式是否易于解析。對于一個數(shù)據(jù)表格的評判主要有屬性值是否存在多值屬性、每一行或每一列表示的意義是否相同等。如果存在這些問題,則認為該數(shù)據(jù)為非整潔的數(shù)據(jù),需要進行進一步的處理。
數(shù)據(jù)抽取是指利用信息抽取技術(shù),從非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁、文本、新聞、郵件等)中識別有用的信息。與數(shù)據(jù)加載相比,系統(tǒng)認為數(shù)據(jù)加載的數(shù)據(jù)是全部有效的,而數(shù)據(jù)抽取則是進一步提取更加有效的信息的過程。具體技術(shù)有實體抽取(entity extraction)、識別命名實體。例如,使用自然語言處理技術(shù)和機器學(xué)習(xí)算法從網(wǎng)頁內(nèi)容中識別實體(如人物、地點、公司等)。
(2)數(shù)據(jù)處理階段
該階段主要將數(shù)據(jù)處理成可用的形式,主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)集成。
數(shù)據(jù)清洗是指對上一階段被判斷為低質(zhì)量或非整潔的數(shù)據(jù)進行清理,從而避免由于臟數(shù)據(jù)的存在而導(dǎo)致數(shù)據(jù)使用者做出不可靠的分析和錯誤的決定。
數(shù)據(jù)轉(zhuǎn)換是指對清洗過的數(shù)據(jù)進行格式轉(zhuǎn)換,以便后續(xù)使用。由于同一含義的數(shù)據(jù)可能有多個來源和多個表達形式,因此,需要將這些數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式,通過過濾、歸檔或者使用某些正則表達式對數(shù)據(jù)進行轉(zhuǎn)換,從而將來自多個數(shù)據(jù)集的同一數(shù)據(jù)進行合并。然后,用戶可以根據(jù)自身需求,將這些數(shù)據(jù)以數(shù)據(jù)庫或文件的方式進行歸檔存儲。例如將PDF、WORD、PPT等文件格式轉(zhuǎn)換成普通文本格式。
數(shù)據(jù)集成是指將多源異構(gòu)數(shù)據(jù)進行合并處理。通過消除異構(gòu)性,將已有的數(shù)據(jù)和關(guān)系合并成統(tǒng)一的數(shù)據(jù)格式和統(tǒng)一的語義。在數(shù)據(jù)集成過程中,還需要抽取元數(shù)據(jù)和記錄溯源信息,進行元數(shù)據(jù)管理和溯源管理。
數(shù)據(jù)整合是一種擴展的數(shù)據(jù)集成處理技術(shù),可以利用數(shù)據(jù)整合技術(shù)發(fā)現(xiàn)和增加新的語義,建立新的關(guān)聯(lián)關(guān)系。數(shù)據(jù)整合是一種擴展的數(shù)據(jù)集成處理,包括關(guān)聯(lián)發(fā)現(xiàn)、數(shù)據(jù)分類 等功能。關(guān)聯(lián)發(fā)現(xiàn)也稱作數(shù)據(jù)鏈接,利用相似性函數(shù),如歐氏距離、編輯距離、余弦距離、杰卡德函數(shù)等,建立數(shù)據(jù)實體之間的關(guān)聯(lián)關(guān)系。例如,將某一數(shù)據(jù)鏈接到WikiData或谷歌知識圖譜。數(shù)據(jù)分類指利用各種分類器,如貝葉斯、支持向量機、決策樹、KNN等機器學(xué)習(xí)算法,將數(shù)據(jù)實體進行分類或聚類。
(3)數(shù)據(jù)發(fā)布階段
該階段主要完成數(shù)據(jù)歸檔、數(shù)據(jù)產(chǎn)品生成。
數(shù)據(jù)歸檔是指按照某種存儲模型,將數(shù)據(jù)進行組織和存儲。例如,將管護好的數(shù)據(jù)集保存到關(guān)系數(shù)據(jù)庫或NoSQL鍵值數(shù)據(jù)庫中。
數(shù)據(jù)發(fā)布是指按照產(chǎn)品標準,將數(shù)據(jù)制作成產(chǎn)品并出版和發(fā)行,例如,圖書檢索數(shù)據(jù)庫、生物數(shù)據(jù)庫、遙感圖像數(shù)據(jù)庫、水文地理數(shù)據(jù)庫等。
在數(shù)據(jù)發(fā)布過程中,還需要考慮版本控制、隱私保護和 安全控制。
數(shù)據(jù)管護的典型應(yīng)用領(lǐng)域如下。
● 建立管護數(shù)據(jù)庫(curated database)。管護數(shù)據(jù)庫是一種結(jié)構(gòu)化的、高質(zhì)量的數(shù)據(jù)庫,其中的內(nèi)容是通過大量人力采集管護而成,如對已有的原始數(shù)據(jù)進行咨詢、驗證、匯聚,對新的原始數(shù)據(jù)進行解釋和合并等。許多管護數(shù)據(jù)庫已正式發(fā)布,可代替圖書館的字典、百科全書、地名辭典等,起到權(quán)威參考書的作用。典型的管護數(shù)據(jù)庫有蛋白質(zhì)序列數(shù)據(jù)的UniProt、人口統(tǒng)計數(shù)據(jù)的CIA World Fac ebook。
● 保證機器學(xué)習(xí)與數(shù)據(jù)挖掘的質(zhì)量。目前社交推薦技術(shù)大多數(shù)采用機器學(xué)習(xí)的算法,根據(jù)已知的用戶的基本信息,預(yù)測其可能感興趣的事物或?qū)ο蟆@脭?shù)據(jù)管護技術(shù),可以在選取訓(xùn)練樣本時將管護出來的集成數(shù)據(jù)作為初始數(shù)據(jù),使機器得到的數(shù)據(jù)內(nèi)容更為豐富,進而提高檢測結(jié)果的準確率,從而使人們能夠精確地將他們的知識添加到機器所需要學(xué)習(xí)的地方。
● 數(shù)據(jù)沼澤凈化與信息檢索。由于現(xiàn)在很多數(shù)據(jù)源存在設(shè)計不良、未有效維護等問題,導(dǎo)致其本身成為一個數(shù)據(jù)沼澤(data swap),從而降低了對數(shù)據(jù)的檢索能力,用戶無法有效地對這些數(shù)據(jù)進行分析和利用。為了將這類數(shù)據(jù)轉(zhuǎn)化為可利用、可再生的數(shù)據(jù)湖(data lake),需要通過數(shù)據(jù)管護技術(shù)對其進行“凈化”。一方面對數(shù)據(jù)集本身進行清洗和分類;另一方面,對新引入的數(shù)據(jù)進行系統(tǒng)歸檔,以便使該數(shù)據(jù)集一直維持在“清澈”狀態(tài),方便用戶對數(shù)據(jù)進行檢索訪問。
● 數(shù)據(jù)質(zhì)量保證與數(shù)據(jù)治理。數(shù)據(jù)管護者在進行數(shù)據(jù)管護時,會長期對數(shù)據(jù)本身進行監(jiān)督管理,從而使其監(jiān)管下的數(shù)據(jù)一直保持在“潔凈”狀態(tài)。例如,對于生物大數(shù)據(jù),需要對生物多樣性提供有效的保證,通過在物種分布建模過程中使用數(shù)據(jù)管護技術(shù)對數(shù)據(jù)源進行追蹤,保證生態(tài)圈的健全性。
2 關(guān)鍵技術(shù)
圖2給出了數(shù)據(jù)管護系統(tǒng)框架。在接口層分為管護者(curator)和普通用戶2種類型的接口,管護者具有工作流管理的權(quán)限,包括數(shù)據(jù)抽取、數(shù)據(jù)整合、數(shù)據(jù)清洗、數(shù)據(jù)歸檔和數(shù)據(jù)發(fā)布。普通用戶可以對數(shù)據(jù)進行檢索和查詢,并將結(jié)果以可視化的形式顯示。支撐層包括元數(shù)據(jù)管理、溯源管理、版本控制和訪問控制4個模塊,通過在4個模塊上的操作可以對底層數(shù)據(jù)進行訪問。數(shù)據(jù)層分為管護數(shù)據(jù)庫和元數(shù)據(jù)數(shù)據(jù)庫,元數(shù)據(jù)數(shù)據(jù)庫用于存儲該數(shù)據(jù)集中的所有基本數(shù)據(jù),用戶權(quán)限等操作信息則存放在管護數(shù)據(jù)庫中。
圖2???數(shù)據(jù)管護系統(tǒng)框架
2.1 數(shù)據(jù)抽取
對于抽取的數(shù)據(jù),需要判斷其質(zhì)量及整潔度。目前數(shù)據(jù)判斷的方法主要有2種:第一種方法為視覺化評估,即直接將數(shù)據(jù)加載到已有的應(yīng)用軟件(如Excel、GoogleSheet等)中,通過人工閱覽數(shù)據(jù)的方式來檢查數(shù)據(jù)的質(zhì)量和整潔度;第二種方法為程序化評估,即通過編寫程序的方式來檢查數(shù)據(jù)的摘要和特定部分,如數(shù)據(jù)的頭部或尾部。
2.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗技術(shù)包括對臟數(shù)據(jù)的發(fā)現(xiàn)與修復(fù)技術(shù)。數(shù)據(jù)清洗可以分為手動和自動2種方式。手動方式指人工對數(shù)據(jù)進行修正或清理,該方法操作簡單,但是存在著效率低、成本高的問題。因此,該方法僅適用于需要清洗的數(shù)據(jù)量極少的情況。自動清洗指通過編程的方式完成對數(shù)據(jù)的清洗。在利用程序?qū)?shù)據(jù)進行清洗時,首先要確定數(shù)據(jù)清洗的標準,包括數(shù)據(jù)中的關(guān)鍵詞以及表格的屬性標準。基于這些標準,用戶可以通過編寫相應(yīng)的程序?qū)?shù)據(jù)存在問題的地方進行清洗與修正。當(dāng)完成清洗程序并結(jié)束運行后,還要對清洗結(jié)果進行測試,以保證數(shù)據(jù)得到了有效的處理。測試可以采用與數(shù)據(jù)質(zhì)量評估相同的方法。此外,為了保證正確性,在數(shù)據(jù)清洗之前通常要對原始數(shù)據(jù)進行備份,以保證進行了錯誤處理后的數(shù)據(jù)可以恢復(fù)。
目前在學(xué)術(shù)界和工業(yè)界有大量的工作研究和設(shè)計相應(yīng)的數(shù)據(jù)清洗算法。對于臟數(shù)據(jù)發(fā)現(xiàn)問題,現(xiàn)有算法大多是使用完整性約束進行設(shè)計,通過捕獲數(shù)據(jù)庫需要確保的完整性規(guī)則(如函數(shù)依賴、否定約束等)來設(shè)計臟數(shù)據(jù)的判定條件。通過這種基于規(guī)則的算法,可以捕獲冗余、不一致以及缺失值等情況。當(dāng)捕捉到這些臟數(shù)據(jù)后,需要對其進行修復(fù),以保證數(shù)據(jù)的質(zhì)量。在修復(fù)階段,需要考慮修復(fù)程度與修復(fù)效率的平衡問題,現(xiàn)有方法通過制定修復(fù)標準以及設(shè)計修復(fù)模型來實現(xiàn)。對于修復(fù)標準,現(xiàn)有算法通常會制定多種關(guān)于數(shù)據(jù)和質(zhì)量規(guī)則的 假設(shè),包括信任所聲明的完整性約束,將所有不滿足約束條件的數(shù)據(jù)更新并移除錯誤;信任所給出的數(shù)據(jù)完整性,允許一定程度的放 松約束;對數(shù)據(jù)和完整性同時變化的可能性 進行檢測。現(xiàn)有的修復(fù)技術(shù)大多只能解決一種類型的錯誤,但已有一些工作開始考慮多種類型錯誤之間的相互影響,并提出一種數(shù)據(jù)的整體修復(fù)方法。在修復(fù)效率方面,現(xiàn)有算法主要采用2種策略來設(shè)計修復(fù)模型:一種策略是采用全自動機制,如根據(jù)某種代價函數(shù),計算原始數(shù)據(jù)集與修復(fù)后的數(shù)據(jù)集間的距離,使代價最小化;另一類策略則在修復(fù)過程中引入人工操作,識別錯誤并建議修復(fù)的方法,或通過機器學(xué)習(xí)模型來執(zhí)行自 動修復(fù)決策。
在現(xiàn)有的數(shù)據(jù)清洗算法中,基于規(guī)則的臟數(shù)據(jù)發(fā)現(xiàn)與修復(fù)是目前比較普遍的技術(shù)之一。基于規(guī)則的算法由于在結(jié)構(gòu)化數(shù)據(jù)中容易發(fā)現(xiàn)規(guī)則并以此確定和清洗數(shù)據(jù),因此具有很大的優(yōu)勢。但是,對于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)(如JSON或文本數(shù)據(jù)),由于規(guī)則難以捕獲,因此無法獲得很高的效率。近年來,一些研究引入了人工手段設(shè) 計數(shù)據(jù)清洗算法。這些采用眾包技術(shù)的算法通常在監(jiān)督學(xué)習(xí)算法中采用主動學(xué)習(xí)等方法選取更為有用的信息,以提高學(xué)習(xí)的效果,從而保證數(shù)據(jù)清洗的質(zhì)量。基于眾包技術(shù)的方法可以通過用戶的反饋,避免可能由于完整性約束而導(dǎo)致制定有害規(guī)則,從而使清洗結(jié)果更滿足用戶需求。除了上述問題外,目前數(shù)據(jù)清洗技術(shù)還面臨的一個問題是如何保證處理海量數(shù)據(jù)的穩(wěn)定性。隨著大數(shù)據(jù)時代的來臨,如何對大規(guī)模、快速增長的數(shù)據(jù)進行有效的清洗是一個重要的挑戰(zhàn)。現(xiàn)有的方法主要 采用冗余檢測的分塊技術(shù)、基于采樣的清洗技術(shù)、分布式數(shù)據(jù)清洗等來解決這一問題。
2.3 數(shù)據(jù)集成
數(shù)據(jù)集成技術(shù)是指將來自于不同數(shù)據(jù)源、不同結(jié)構(gòu)的數(shù)據(jù)整合在一起,以實現(xiàn)對數(shù)據(jù)內(nèi)容的擴充。具體而言,數(shù) 據(jù)集成主要分為如下3個部分。
● 模式匹配:對給定的兩個或多個模式中的元素生成相應(yīng)的聯(lián)系。
● 實體解析:從所有的數(shù)據(jù)中識別出在現(xiàn)實世界中表示同一實體的多個記錄。
● 數(shù)據(jù)整合:對于同一實體中出現(xiàn)分歧的內(nèi)容進行解決,并找出正確結(jié)論。
在模式匹配階段,主要完成的是對不同來源或結(jié)構(gòu)的數(shù)據(jù)實現(xiàn)模式級的匹配,即找出表示同一內(nèi)容的元素。由于各個數(shù)據(jù)集來源不同,可能會存在異構(gòu)的情況。因此,在模式匹配階段,首先要對異構(gòu)的數(shù)據(jù)模式進行調(diào)和,針對不同來源的數(shù)據(jù)生成一個統(tǒng)一的結(jié)構(gòu);然后,對數(shù)據(jù)中的屬性進行匹配,將各個數(shù)據(jù)中的屬性都與調(diào)和后的結(jié)構(gòu)中的屬性相映射;最后再對數(shù)據(jù)中的語義關(guān)系進行映射,以保證調(diào)和數(shù)據(jù)能夠被正確闡述。
在實體解析階段,主要是識別出在現(xiàn)實世界中表示同一實體的記錄。在近幾年的研究中,實體解析作為數(shù)據(jù)集成的一個核心組件,得到了廣泛的關(guān)注與研究,目前對實體解析問題的研究主要包括如下3個步驟。
● 在一個或多個屬性值上建立塊函數(shù),利用該函數(shù)把實體切分為幾個塊,然后,對最不相似的實體對進行過濾,從而減小需要進行匹配的數(shù)據(jù)數(shù)量。
● 使用給定的相似性函數(shù)或規(guī)則定義記錄間的相似性,將滿足閾值的記錄對認為是可以匹配的。
● 通過聚類算法將記錄進行分類,即將表示同一實體的記錄放在相同的類別中。
在數(shù)據(jù)整合階段,將表示現(xiàn)實世界中同一實體的多個記錄進行整合,形成一個簡單、一致、干凈的數(shù)據(jù)。在數(shù)據(jù)整合階段,最關(guān)鍵的部分是真值發(fā)現(xiàn),即確定來自多個數(shù)據(jù)源的數(shù)據(jù)中的真值。現(xiàn)有對數(shù)據(jù)整合的研究工作主要可以分為3類:第一類是對特定數(shù)據(jù)(如時態(tài)數(shù)據(jù)、圖數(shù)據(jù))的整合問題的研究;第二類是利用數(shù)據(jù)特性(例如長尾效應(yīng))和專家領(lǐng)域知識等技術(shù)對傳統(tǒng)整合技術(shù)的性能進行優(yōu)化;第三類是新興的數(shù)據(jù)整合問題(如知 識融合、基于查詢的數(shù)據(jù)整合等)。
數(shù)據(jù)集成面臨的一個主要問題是如何選擇數(shù)據(jù)。由于不同的相關(guān)數(shù)據(jù)源具有大量的重疊數(shù) 據(jù),目前的研究工作采 用概率統(tǒng)計、時間感知選擇等技術(shù),設(shè)計合理的算法來選擇一個好的數(shù)據(jù)源查詢順序,從而提高響應(yīng)速度。除此之外,數(shù)據(jù)集成面臨的另一問題是如何對來自不同數(shù)據(jù)源、不同格式的數(shù)據(jù)進行整合,參考文獻等采用最小代價模型、輕量級摘要構(gòu)建、統(tǒng)一的虛擬模式等方法執(zhí)行對異構(gòu)多源數(shù)據(jù)的查詢,從而達到異構(gòu)數(shù)據(jù)集成的目的。除此之外,在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)集成所要處理的數(shù)據(jù)是來自不同數(shù)據(jù)源的多模式、跨領(lǐng)域的數(shù)據(jù)。因此,傳統(tǒng)的基于某一特定領(lǐng)域并且模式已知的模式匹配技術(shù)無法直接應(yīng)用。對此,可以從尋找實體在不同領(lǐng)域下的異構(gòu)特征、識別出與實體相關(guān)的完整屬性特征集合等方面開始著手研究。
2.4 元數(shù)據(jù)管理
現(xiàn)有對元數(shù)據(jù)管理的研究大多以設(shè)計和開發(fā)元數(shù)據(jù)管理系統(tǒng)的形式實現(xiàn)對元數(shù)據(jù)的管理。目 前設(shè)計元數(shù)據(jù)管理系統(tǒng)主要有兩類方法。第一類方法為存儲元數(shù)據(jù)分析,該類方法把元數(shù)據(jù)視為整個數(shù)據(jù)的一個全局組件,每一個查詢或分析都要通過該組件來執(zhí)行。第二類方法把數(shù)據(jù)湖分解為多個數(shù)據(jù)池, 而每一個數(shù)據(jù)池都是某一特定類型的數(shù)據(jù)。在這種方法里,數(shù)據(jù)的存儲、元數(shù)據(jù)管理、查詢對于每類數(shù)據(jù)都是不同的,而這樣的方法有助于確保數(shù)據(jù)的特殊性。
在數(shù)據(jù)湖應(yīng)用中,原始數(shù)據(jù)在沒有被查詢前,都是以最原始的狀態(tài)存儲的,并且沒有任何明確的模式,這被稱為“schema-on-read”或延時綁定。但是,隨著海量數(shù)據(jù)以飛快的速度涌入數(shù)據(jù)湖,數(shù)據(jù)顯式模式的缺乏會迅速地導(dǎo)致數(shù)據(jù)湖變?yōu)閷嵱眯暂^低的數(shù)據(jù)沼澤。因此元數(shù)據(jù)管理成為數(shù)據(jù)湖的重要組成部分。另外,一個有效的元數(shù)據(jù)管理系統(tǒng)也是數(shù)據(jù)能夠被有效地檢索、查詢和分析的重要保證。元數(shù)據(jù)可以 分為數(shù)據(jù)集內(nèi)部和數(shù)據(jù)集間的元數(shù)據(jù)等類型。其中,數(shù)據(jù)集內(nèi)部的元數(shù)據(jù)構(gòu)成了各個數(shù)據(jù)集的概述輪廓,這些元數(shù)據(jù)包括描述內(nèi)容的屬性以及數(shù)據(jù)集的統(tǒng)計性、結(jié)構(gòu)性的信息。而數(shù)據(jù)集間的元數(shù)據(jù)表明了不同的數(shù)據(jù)集或其屬性間的關(guān)系,這些元數(shù)據(jù)包括數(shù)據(jù)約束(如包含依賴)、連接性、親和性等其他性質(zhì)。
當(dāng)前已有很多成熟的元數(shù)據(jù)管理系統(tǒng),但是這些管理系統(tǒng)各自獨立開發(fā),同一開發(fā)者開發(fā)的產(chǎn)品具有很好的兼容性,但是在跨系統(tǒng)進行元數(shù)據(jù)管理時,這些系統(tǒng)的性能不盡如人意。另外,現(xiàn)有的元數(shù)據(jù)管理技術(shù)研究的大部分是表層的元數(shù)據(jù),即用于定義數(shù)據(jù)的數(shù)據(jù),忽略了深層的用于數(shù)據(jù)間的關(guān)系的數(shù)據(jù)。這樣的關(guān)系元數(shù)據(jù)需要在半結(jié)構(gòu)化數(shù)據(jù)中通過社區(qū)發(fā)現(xiàn)等技術(shù)分析得到。通過這些關(guān)系元數(shù)據(jù),可以更好地保證數(shù)據(jù)的質(zhì)量,同時進一步幫助用戶理解數(shù)據(jù)集的含義,以便后續(xù)對數(shù)據(jù)的應(yīng)用。因此在未來的工作中,可以從上述兩個方面著手設(shè)計更加完善的元數(shù)據(jù)管理系統(tǒng)。
2.5 溯源管理
溯源信息通常是指描述最終產(chǎn)品生產(chǎn)過程的任何信息,包含關(guān)于實體、數(shù)據(jù)、處理、活動等在生產(chǎn)過程中的各種元數(shù)據(jù)。本質(zhì)上,溯源信息可以當(dāng)作描述整個生產(chǎn)過程的元數(shù)據(jù)。而溯源信息的收集(也稱作捕獲)和處理是十分重要的,例如,可以利用溯源信息進行質(zhì)量評估、重現(xiàn)性保證以及對最終產(chǎn)品的信任增強。根據(jù)溯源管理的范圍,按照從一般化到特殊化或檢測程度從低到高,可以把溯源的類型分為溯源元數(shù)據(jù)、信息系 統(tǒng)溯源信息、工作流溯源信息和數(shù)據(jù)溯源信息。
溯源元數(shù)據(jù)是最基礎(chǔ)的溯源信息,包含了在生產(chǎn)過程中所有可能出現(xiàn)的元數(shù)據(jù)。它給用戶提供了對最終產(chǎn)品和生產(chǎn)過程中的任何溯源信息的建模、存儲和訪問操作的最大程度上的自由,并且還支持對那些內(nèi)部不允許公開的溯源管理的私有解決方案進行分類操作。另外,溯源元數(shù)據(jù)不需要對包括溯源操作、溯源信息的數(shù)據(jù)模型等涉及底層處理的操作加以限制或假設(shè)。因此,溯源元數(shù)據(jù)被定義為描述使用任何數(shù)據(jù)模型和計算模型的任一生產(chǎn)過程的元數(shù)據(jù)。
信息系統(tǒng)溯源信息是指在涉及信息傳播(例如存儲/檢索、通信、信息發(fā)布)的信息系統(tǒng)中有關(guān)處理過程的元數(shù)據(jù)。盡管每個過程的內(nèi)部通常是未知的,但是溯源信息可以通過處理過程的輸入、輸出和相關(guān)參數(shù)而收集到。
在工作流溯源信息中,工作流可看作一個有向圖,其頂點為帶有輸入、輸出或參數(shù)的任意函數(shù)或模塊,邊為這些模塊之間的預(yù)定義數(shù)據(jù)流或控制流。根據(jù)這個處理過程模型,支持工作流溯源的系統(tǒng)利用工作流圖中的所有信息,提高了對溯源收集的檢測程度。在工作流圖的特征發(fā)生變化時,這種豐富的信息允許處在不同應(yīng)用領(lǐng)域的溯源信息具有不同的形式和粒度。
數(shù)據(jù)溯源信息允許以“最高分辨率”追蹤單個數(shù)據(jù)項的處理,即溯源本 身是處于單個數(shù)據(jù)項及它們所經(jīng)歷的操作的級別。收集數(shù)據(jù)溯源信息通常應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)模型和聲明性查詢語言中,并且在這一過程中,數(shù)據(jù)溯源信息還利用了清晰語義,即基于代數(shù)、微積分或其他形式化方法。這也是數(shù)據(jù)溯源在工作流溯源的上一層(即數(shù)據(jù)溯源的檢測程度級別最高)的原因。
對于數(shù)據(jù)溯源 問題,其重要的兩個方面是數(shù)據(jù)標注與版本控制。數(shù)據(jù)溯源問題可以被解釋為標注的一種形式,即用數(shù)據(jù)的溯源標注數(shù)據(jù)元素。大多數(shù)被管護的數(shù)據(jù)都是與現(xiàn)有的數(shù)據(jù)結(jié)構(gòu)的標注相關(guān)的,這種標注可以通過關(guān)系數(shù)據(jù)庫中的主表所表現(xiàn),但是有時某些數(shù)據(jù)的最新性和有效性的重要信息被保存在輔助表中。實際上標注數(shù)據(jù)本質(zhì)上是半結(jié)構(gòu)化的,并且通常存在于輔助數(shù)據(jù)庫中。對“內(nèi)核”數(shù)據(jù)的查詢通常不會識別這種標注數(shù)據(jù),這就是管護數(shù)據(jù)庫中產(chǎn)生錯誤數(shù)據(jù)和臟數(shù)據(jù)的主要原因之一。目前有很多數(shù)據(jù)溯源工作在著手解決這一問題,例如參考文獻都是基于Polygen模型進行設(shè)計的,因而,數(shù)據(jù)的溯源對查詢形式十分敏感。而對于版本控制問題,為了保證溯源過程中引用的版本是合適的,一種直接的方法是將數(shù)據(jù)的所有版本都存儲下來,這樣用戶就有責(zé)任引用正確的版本,并從多個版本的數(shù)據(jù)中返回正確的查詢結(jié)果。但是這種方法對于經(jīng)度查詢(如“最近的4個版本都更新了那些內(nèi)容?”)難以處理。因為對于這類問題,這些方法需要將每一個相關(guān)數(shù)據(jù)至少瀏覽一次才能回答。為了解決這一問題,可以只存儲連續(xù)版本間的變量。但是這類方法對于“返回所有存在指定實體的版本”這類問題仍需要遍歷所有相關(guān)版本來返回結(jié)果。為了解決這些問題,參考文獻[51]提出了一個歸檔的方法來平衡這兩類方法。參考文獻也通過面向版本存儲引擎、在關(guān)系數(shù)據(jù)庫之上添加版本模塊等方法解決版本控制問題。
由于溯源管理可以對數(shù)據(jù)的發(fā)展乃至源頭加以追蹤,在未來的研究中,可以考慮將溯源管理結(jié)合在不同場景中進行應(yīng)用。例如在社交網(wǎng)絡(luò)中,利用溯源管理技術(shù)可以幫助發(fā)現(xiàn)和追蹤假信息或者謠言的源頭。但是由于一些文章缺乏創(chuàng)建者的信息,因此無法直接追蹤到其溯源信息。對于這類問題,目前已有一些工作正在開始著手解決。除了社交網(wǎng)絡(luò)外,溯源管理對于區(qū)塊鏈技術(shù)也有很好的幫助。在區(qū)塊鏈中,賬本可以被視為一個比特幣的溯源記錄,這樣區(qū)塊鏈技術(shù)就可以在其他情境下記錄溯源信息,如供應(yīng)鏈溯源等。
3 典型數(shù)據(jù)管護系統(tǒng)及工具
本節(jié)首先介紹近年來推出的幾種具有代表性的數(shù)據(jù)管護系統(tǒng)和工具,主要內(nèi)容包括:系統(tǒng)結(jié)構(gòu)、功能模塊、應(yīng)用范圍等,并對目前流行的典型數(shù)據(jù)管護系統(tǒng)的特點進行比 較和分析。
3.1 DBWiki
DBWiki是英國愛丁堡大學(xué)開發(fā)的一個支持數(shù)據(jù)管護的多用途數(shù)據(jù)平臺。該平臺收集數(shù)據(jù)并創(chuàng)建管護數(shù)據(jù)庫,該系統(tǒng)還支持版本追蹤、起源跟蹤、注釋等一些數(shù)據(jù)庫系統(tǒng)不常提供的功能。同時,DBWiki將使用的便捷性和百科的靈活性與數(shù)據(jù)庫的魯棒性和穩(wěn)定性相結(jié)合,提升自身的性能。DBWiki系統(tǒng)結(jié)構(gòu)如圖3所示。
在平臺構(gòu)建方面,該平臺分為數(shù)據(jù)存儲層、數(shù)據(jù)訪問與修改層、請求與響應(yīng)層。在數(shù)據(jù)存儲層,DBWiki是基于分層數(shù)據(jù)模型構(gòu)建的,采用有序、確定的數(shù)據(jù)樹對數(shù)據(jù)進行建模,并且每一個樹節(jié)點都有一個唯一標識,每一棵數(shù)據(jù)樹都分配一個模式來描述樹中的可能路徑。DBWiki目前支持一些常見的數(shù)據(jù)和模式修改操作,包括增加、刪除、修改、重命名等,同時還支持不同數(shù)據(jù)樹間的節(jié)點或子樹的復(fù)制、粘貼。對于每一個樹中的節(jié)點,都分配一個時間戳,用于列出該節(jié)點出現(xiàn)過的各個數(shù)據(jù)庫版本。基于時間戳和創(chuàng)建數(shù)據(jù)庫版本的操作信息,還可以對數(shù)據(jù)節(jié)點提供溯源信息。
在數(shù)據(jù)庫查詢方面,DBWiki可以對數(shù)據(jù)樹進行查詢,并且將結(jié)果切入該系統(tǒng)的Wiki頁面中,因此,DBWiki的頁面實際上是結(jié)合了結(jié)構(gòu)數(shù)據(jù)視圖的超文本的動態(tài)內(nèi)容。目前,DBWiki支持2種查詢類型:一種是根據(jù)節(jié)點標識從數(shù)據(jù)庫中檢索節(jié)點或相應(yīng)子樹,同時利用查詢可能包含的時間戳約束來過濾掉一些子樹中的節(jié)點;另一種是基于路徑表達式,即節(jié)點標識序列,路徑表達式允許通過位置參考及某一節(jié)點的子節(jié)點的取值構(gòu)成約束條件進行過濾。
在用戶接口方面,DBWiki是通過網(wǎng)頁瀏覽器與用戶進行交互的,并且用戶的查詢及對數(shù)據(jù)的操作是使用URL進行編碼的。一旦請求的數(shù)據(jù)被檢索,DBWiki將通過HTML生成器生成相應(yīng)的響應(yīng)頁面。DBWIki的一個設(shè)計標準是保持HTML的生成與系統(tǒng)的其他部分相分離,從而實現(xiàn)高度的定制化。HTML的生成主要由3個配置文件引導(dǎo):第一個配置文件是HTML模板,包含用于存放一些預(yù)定義的用戶接口組件的占位符;第二個配置文件是CSS文件,用于規(guī)定HTML的輸出格式;第三個配置文件是布局定義,用于說明如何把樹形結(jié)構(gòu)數(shù)據(jù)映射為HTML頁面、表格或列表。所有的文件都可以通過用戶接口進行編輯,并且通過這些配置文件使用戶在定制網(wǎng)頁的感官上更加靈活。
圖3???DBWiki系統(tǒng)結(jié)構(gòu)
3.2 Vizier
Vizier是一個多模塊的數(shù)據(jù)糾錯和管理工具。該系統(tǒng)支持與Python、SQL的無縫集成操作以及自動數(shù)據(jù)管護和糾錯方法。Vizier將Spark作為執(zhí)行后臺,可以處理多種格式的大規(guī)模數(shù)據(jù)集。同時該系統(tǒng)還支持對數(shù)據(jù)的起源和版本進行管理,從而允許協(xié)同和不確定性的管理操作。另外,將數(shù)據(jù)表方式(spreadsheet-style)接口、記事本(notebook)模塊以及系統(tǒng)的可視化集成,從而對局內(nèi)用戶(user in the loop)予以支持與引導(dǎo),使得該工具非常易于使用。
如圖4所示,Vizier分為前端和后端兩部分。前端的網(wǎng)絡(luò)用戶接口通過RESTAPI (網(wǎng)絡(luò)API)與Vizier進行交互,從而完成對Vizier記事本工作流的創(chuàng)建、查看和修改。同時該API還提供了分頁瀏覽功能,以便于對工作流中的結(jié)果數(shù)據(jù)集和各自相關(guān)元數(shù)據(jù)進行訪問。Vizier的API主要建立在3個后端組件的基礎(chǔ)之上,包括VisTrails、Mim ir和Spark。其中工作流是通過VisTrails進行管理的,它是一個能綜合支持數(shù)據(jù)和工作流轉(zhuǎn)換的數(shù)據(jù)探索系統(tǒng)。VisTrails的一個特性是在工作流步驟之間的數(shù)據(jù)流都是通過Spark數(shù)據(jù)幀實現(xiàn)的。因此,工作流操作步驟可以直接被轉(zhuǎn)換為Spark中 的操作,并且在Spark本地上直接執(zhí)行。Mimir組件實現(xiàn)的按需ETL工具Lenses,是Vizier中數(shù)據(jù)驗證和糾錯的主要使能器。同時, Mimir組件還實現(xiàn)了有限形式的細粒度溯源管理,用于跟蹤工作流中的錯誤或其他標注。
圖4???Vizie r系統(tǒng)結(jié)構(gòu)
3.3 Clowder
Clowder是一個開源數(shù)據(jù)管護系統(tǒng),它能夠支持多研究領(lǐng)域間的多數(shù)據(jù)類型的長尾數(shù)據(jù)和元數(shù)據(jù)的數(shù)據(jù)管護。機構(gòu)和實驗室可以在本地硬件或遠程云計算資源上安裝和定制自己的框架實例,為分散的研究人員團隊提供共享服務(wù)。該系統(tǒng)采用了一個開源數(shù)據(jù)管護模型,包括有效的工作流、行為準則、郵件列表和聊天通道。利用該系統(tǒng),數(shù)據(jù)可以被直接從儀器中讀取,或者用戶通過手動的方式上傳,然后利用Web前端與遠程合作者共享。
如圖5所示,Clowder框架遵從典型的網(wǎng)絡(luò)應(yīng)用層次框架,使用HTML/JavaScript 網(wǎng)絡(luò)前端和JSONRESTful網(wǎng)絡(luò)服務(wù)API作為系統(tǒng)頂層架構(gòu)。其主要的網(wǎng)絡(luò)應(yīng)用是采用PlayFramework和Scala程序語言編寫,其中Play Framework遵循的是模型-視圖-控制器模式。模型在圖形用戶界面和網(wǎng)絡(luò)API共享。而Scala特征將會利用依賴注入為一個或多個執(zhí)行提供服務(wù),這意味著在控制器中的代碼不會與后端服務(wù)通信中的代碼緊密相連。整個系統(tǒng)的所有信息都存儲在MongoDB數(shù)據(jù)庫中,其中索引建立在ElasticSearch中,而未處理的文件則存放在文件系統(tǒng)中,RabbitMQ是用于實施元數(shù)據(jù)抽取的總線。
圖5???Clowder系統(tǒng)結(jié)構(gòu)
3.4 MDCS
MDCS是由美國國家標準與技術(shù)研究院開發(fā)的一個開源的材料數(shù)據(jù)管護系統(tǒng)。該系統(tǒng)能夠?qū)⒉牧蠑?shù)據(jù)捕獲、共享并將其轉(zhuǎn)換為基于XML的結(jié)構(gòu)化形式。在該系統(tǒng)中,數(shù)據(jù)是使用XML模式中編碼的用戶自選擇模板組織的,而這些模板被用于創(chuàng)建數(shù)據(jù)表單。MDCS使用非關(guān)系(NoSQL)數(shù)據(jù)庫MongoDB存放文檔。利用該系統(tǒng),實現(xiàn)基于Web的模板驅(qū)動的表單數(shù)據(jù)檢索、基于RESTful API調(diào)用的數(shù)據(jù)搜索功能。同時,該系統(tǒng)還能夠?qū)崿F(xiàn)多個MDCS存儲庫之間的互聯(lián),以支持跨搜索庫的聯(lián)合搜索。該系統(tǒng)自2015年發(fā)布起,共發(fā)布了6個版本,添加了對圖像數(shù)據(jù)、BLOB (binary large objects)等類型數(shù)據(jù)的支持,資源庫的備份與恢復(fù)等功能。
3.5 系統(tǒng)比較
本節(jié)對近年發(fā)布的5種數(shù)據(jù)管護系統(tǒng)進行了比較,見表1。除上述DBWiki 、Vizie r、Clowd er和MDCS外,還包括幫助數(shù)據(jù)科學(xué)家探索和管護數(shù)據(jù)的CURAR E系統(tǒng)以及處理醫(yī)學(xué)影像的MA TA系統(tǒng)。
表1比較了上述系統(tǒng)所能實現(xiàn)的功能,包括支持的數(shù)據(jù)模態(tài),是否能夠?qū)崿F(xiàn)數(shù)據(jù)清洗、數(shù)據(jù)抽取(包括實體識別、數(shù)據(jù)分類、數(shù)據(jù)標注)、數(shù)據(jù)整合(包括模式匹配及實體鏈接)等功能,是否能夠?qū)υ獢?shù)據(jù)進行處理,是否能夠進行版本控制和溯源,以及是否能夠?qū)崿F(xiàn)可視化、檢索、發(fā)布。從表1中可以看出,各個系統(tǒng)都能夠支持包括元數(shù)據(jù)在內(nèi)的多種類型和格式的數(shù)據(jù),并且對這些數(shù)據(jù)都進行了整合操作,最后將其結(jié)果可視化地返回給用戶,這是由數(shù)據(jù)管護的目的所決定的,并且所有系統(tǒng)均支持簡單的搜索操作。由于部分系統(tǒng)處理的數(shù)據(jù)在輸入時已保證是干凈、有效的,因此不具有數(shù)據(jù)清洗和抽取的功能。對于版本控制及溯源功能,由于Clowder、CURARE和MATA均存儲的是當(dāng)前的最新數(shù)據(jù),并不對歷史數(shù)據(jù)進行追蹤,因此不具備版本控制和溯源的功能。
4 問題與挑戰(zhàn)
在工業(yè)界,數(shù)據(jù)本身已經(jīng)被各大公司和機構(gòu)認為是一種重要資產(chǎn),這些數(shù)據(jù)不僅需要存儲起來,而且需要對其進一步評估,發(fā)現(xiàn)其現(xiàn)有或潛在價值,并且舍棄其中無價值的部分。由于數(shù)據(jù)海量性以及來源多樣性的問題,數(shù)據(jù)管護技術(shù)成為科學(xué)界和工業(yè)界用于處理數(shù)據(jù)資產(chǎn)的重要手段,并且逐漸得到廣泛的關(guān)注。目前,有包括Vizier、Clowder等在內(nèi)的數(shù)據(jù)管護軟件和資源,利用這些產(chǎn)品可以實現(xiàn)對用戶數(shù)據(jù)的清洗、歸檔以及管理工作。
盡管這些數(shù)據(jù)管護產(chǎn)品在不斷地上線更新,但是在處理這些數(shù)據(jù)時還有許多問題需要解決。對于一個公司或機構(gòu)而言,如果想要實現(xiàn)數(shù)據(jù)的合理正確管護,需要大量的人力物力投入,如選擇合適的人員策劃如何管護數(shù)據(jù),并選擇合適的數(shù)據(jù)管護工具實現(xiàn)這一目標,或者自行開發(fā)一個符合自身要求的數(shù)據(jù)管護產(chǎn)品,實現(xiàn)對本公司數(shù)據(jù)資產(chǎn)的維護與管理。
5 結(jié)束語
數(shù)據(jù)管護技術(shù)是對海量數(shù)據(jù)進行有效處理的重要手段之一。數(shù)據(jù)管護技術(shù)通過對原始數(shù)據(jù)的清洗、集成、歸檔等操作,有效地提高了數(shù)據(jù)的使用率,并減緩了其淘汰的速度。本文圍繞著數(shù)據(jù)管護技術(shù)的發(fā)展現(xiàn)狀,系統(tǒng)介紹了數(shù)據(jù)管護中的關(guān)鍵技術(shù)和解決策略,并介紹了其在不同領(lǐng)域的應(yīng)用。可以看出,數(shù)據(jù)管護技術(shù)已經(jīng)在學(xué)術(shù)界和工業(yè)界得到了廣泛的研究與應(yīng)用。最后,本文提出了數(shù)據(jù)管護技術(shù)的發(fā)展前景與未來挑戰(zhàn),在今后的研究中將會根據(jù)這些問題進行更深入的探索與研究。
作者簡介
于明鶴(1989-),女,博士,東北大學(xué)軟件學(xué)院講師,主要研究方向為大數(shù)據(jù)、信息檢索等 。
聶鐵錚(1980-),男,博士,東北大學(xué)計算機科學(xué)與工程學(xué)院副教授,主要研究方向數(shù)據(jù)集成、大數(shù)據(jù)處理、區(qū)塊鏈 。
李國良(1980-),男,博士,清華大學(xué)計算機科學(xué)與技術(shù)系教授,主要研究方向為數(shù)據(jù)清洗、數(shù)據(jù)整合、眾包數(shù)據(jù)管理等 。
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的中文科技核心期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
往期文章回顧
一種基于Gradient Boosting的公交車運行時長預(yù)測方法
學(xué)術(shù)大數(shù)據(jù)在企業(yè)專家對接中的應(yīng)用
山東省地理信息時空大數(shù)據(jù)中心建設(shè)方法
人在回路的數(shù)據(jù)準備技術(shù)研究進展
工業(yè)時序大數(shù)據(jù)質(zhì)量管理
總結(jié)
- 上一篇: wireshark抓包详解
- 下一篇: linux随身记