《大数据》2021年第5期目次摘要
點擊上方藍字關注我們
《大數據》
第7卷第5期 2021年9月
大數據2021年第5期
(點擊原文鏈接在官網閱讀完整文章)
目次
01?專題導讀:國產環境下的大數據處理系統
陳剛
02?面向多星多任務的大數據處理系統設計
馬福利, 石濤, 陳玲, 鄭巖, 熊森林
03?基于國產處理器架構的高能物理數據處理系統
程耀東, 程垚松, 畢玉江, 高宇, 李海波, 汪璐, 姚秋玲
04?從格點量子色動力學應用看國產超算環境的基礎軟件
宮明, 蔣翔宇, 陳瑩, 劉朝峰
05?數值核反應堆大數據及其應用
汪岸, 任帥, 苗雪, 董玲玉, 朱迎, 陳丹丹, 胡長軍
06?廣域虛擬數據空間中邊緣緩存系統的研究與實現
霍建同, 肖利民, 霍志勝, 徐耀文
07?面向大數據處理應用的廣域存算協同調度系統
張晨浩, 肖利民, 秦廣軍, 宋堯, 蔣世軒, 王繼業
08?專欄導讀:數據驅動的優化
陳衛
09?基于樣本的優化
張智杰, 孫曉明, 張家琳, 陳衛
10?基于優化反饋的組合在線學習
孔芳, 楊悅然, 陳衛, 李帥
11?強化學習在資源優化領域的應用
王金予, 魏欣然, 石文磊, 張佳
12?基于分布式緩存加速容器化深度學習的優化方法
張凱, 車漾
13?基于法律裁判文書的法律判決預測
張虎, 潘邦澤, 譚紅葉, 李茹
摘要
專題:國產環境下的大數據處理系統
專題導讀:國產環境下的大數據處理系統
作者:陳剛
摘要:作為我國科學技術研究以及經濟活動的重要資源和技術,大數據正在成為科學發現和社會經濟發展的新引擎。盡管我國大數據已經具備了良好的技術基礎和獨特優勢,但仍然面臨某些“卡脖子”的技術問題。因此需要在關鍵領域實現國產化,實現安全自主可控,同時實現國內資源和自主創新的融合。本專題以“國產環境下的大數據處理系統”為主題匯集了相關專家學者的6篇文章。這些文章分別介紹了自主研發的大數據與應用系統。在大數據技術應用方面,其中4篇文章分別介紹了高能物理、空間科學衛星、核反應堆等領域的相關研究與應用。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00001.shtml
面向多星多任務的大數據處理系統設計
作者:馬福利,?石濤,?陳玲,?鄭巖,?熊森林
摘要:隨著我國發射的空間科學衛星越來越多,科學數據量爆發式增長,空間科學衛星大數據處理逐漸成為空間科學創新發展過程中被重點關注的環節,建設一套高性能的地面數據處理系統是建設我國自主可控的空間科學大數據生態、助力科學成果產出的重要推手。面向多星多任務并行處理的任務需求,針對空間科學衛星大數據處理中的多分級分類、多源產品融合組織以及高時效性要求等特點,提出了適用于大數據處理業務場景的高可靠硬件環境設計方案,并針對科學衛星處理任務類型多的特點,提出了基于任務類型感知的統一資源調度系統。完成了面向多星多任務的可擴展地面大數據處理系統的研制,支撐了中國科學院空間科學先導專項中的科學衛星數據處理任務。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00003.shtml
基于國產處理器架構的高能物理數據處理系統
作者:程耀東,?程垚松,?畢玉江,?高宇,?李海波,?汪璐,?姚秋玲
摘要:隨著規模的不斷擴大,高能物理實驗產生了越來越多的科學數據,迫切需要先進的數據處理系統來支撐科學研究。目前,以ARM架構等為代表的國產處理器發展迅速,高能物理數據處理系統面臨著新的機遇與挑戰。首先總結了高能物理數據處理系統的需求及體系架構;然后描述了在國產處理器上開展的高能物理數據處理軟件移植等相關工作,并提出了一種新的面向高能物理數據處理的可計算存儲技術方案;最后給出了在國產處理器架構上的典型應用評測結果。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00017.shtml
從格點量子色動力學應用看國產超算環境的基礎軟件
作者:宮明,?蔣翔宇,?陳瑩,?劉朝峰
摘要:格點量子色動力學(LQCD)是用數值模擬方法研究基本粒子的重要科學領域,因其巨大的數據量和計算規模而成為國際上超級計算機的主要科研應用之一。隨著國產新一代超級計算機的發展,LQCD的計算軟件由于其傳統編程模型的限制,面臨著更新換代的關鍵節點。從格點量子色動力學的視角出發,分析大規模科學應用軟件對底層基礎軟件的需求特點,面向國產超算平臺的發展方向,提出適配于大規模高效異構計算和大數據處理的新編程模型,為國產超算環境的基礎軟件建議了一個有潛力的發展方向。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00031.shtml
數值核反應堆大數據及其應用
作者:汪岸,?任帥,?苗雪,?董玲玉,?朱迎,?陳丹丹,?胡長軍
摘要:數值核反應堆(數值堆)運行過程中涉及的海量數據可被用于優化現有數值堆模型、獲取核能領域科學發現、推動數值堆研究。對現有的數據驅動建模和堆內微觀現象預測的相關工作進行綜述。在此基礎上,結合領域特點提出了數值核反應堆大數據的概念,并分析了它作為工業大數據和模擬大數據的重要特征。以中國數值反應堆原型系統(CVR 1.0)為例,從數值堆大數據的多樣性、關聯性、非精確性等特征出發,運用神經網絡、數理統計、數值分析等多學科的技術開展了建模優化和科學發現兩個方向的研究工作,證明了數值核反應堆大數據特征對數值堆研究的指導作用。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00040.shtml
廣域虛擬數據空間中邊緣緩存系統的研究與實現
作者:霍建同,?肖利民,?霍志勝,?徐耀文
摘要:針對廣域虛擬數據空間系統中邊緣客戶端訪問和共享遠程數據時,數據冗余傳輸造成大量網絡帶寬浪費的問題,通過研究廣域虛擬數據空間系統中的緩存技術,提出邊緣緩存機制優化數據訪問通路,將數據以文件粒度緩存在靠近邊緣客戶端的位置,從而提升上層應用訪問和共享數據的性能。測試結果表明,作為虛擬數據空間系統的補充,提出的邊緣緩存系統可提升廣域數據共享的性能。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00057.shtml
面向大數據處理應用的廣域存算協同調度系統
作者:張晨浩,?肖利民,?秦廣軍,?宋堯,?蔣世軒,?王繼業
摘要:以我國研發的高性能計算虛擬數據空間系統為基礎,針對大數據處理應用如何統籌利用廣域存儲和計算資源的問題,設計并實現了一套面向大數據處理應用的廣域存算協同調度系統。該系統可依據應用的計算特征和數據布局,通過存算協同、負載均衡、數據局部性感知等策略,在廣域環境中協同調度應用數據和計算任務,統籌利用廣域計算和存儲資源,有效提升大數據處理應用的運行性能。在國家高性能計算環境中實際測試的結果表明,提出的調度方法可有效地支撐大數據處理應用,跨域目標協同識別、分子對接等典型應用的運行效率可提升3~4倍。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00082.shtml
專欄:數據驅動的優化
專欄導讀:數據驅動的優化
作者:陳衛
摘要:優化是計算機科學和運籌學領域的一個分支,它研究在不同場景不同模型下達到最優解的方法,在計算機工程和工業工程等領域有廣泛的應用。傳統的優化基于給定的模型及其參數的輸入。這些模型和參數通常是通過從領域知識中獲得的經驗及對以往數據收集的結果進行分析獲得的,這屬于機器學習的范疇,即機器學習從收集的大量數據中總結出數據尊崇的模型和對應的參數設置。現有的從數據到優化結果的流程基本上先用機器學習學出模型和對應的參數,然后將模型和參數輸入一個基于模型的優化算法得到優化結果。該流程有“分而治之”的好處:機器學習和優化有不同的技術,傳統上也是兩個不同的計算機科學分支,由不同的領域專家對它們進行研究。機器學習著重于從數據中提取和抽象出模型,優化的任務是從學得的模型中找到最優解。
但在大數據和人工智能時代,這樣的分工可能會帶來從數據端到優化端整體性能的損失。Balkanski等人最近就指出有些優化問題從采樣數據到模型的學習過程是可行的,從模型到優化的過程也是可行的,但從采樣數據到優化的端到端的目標卻是不可行的。這樣的結果看似反直觀,但它表達了機器學習和優化兩個子任務潛在的不匹配問題。在大數據和人工智能的大背景下,很多應用需要不斷地收集實時數據,優化的結果需要基于這些實時數據,模型只是其中的一個過渡部分。我們把這樣的端到端的優化稱為數據驅動的優化。數據驅動的優化在理論和應用上都帶來了新的挑戰。本專欄請到了3組學者從理論和實踐的不同角度對數據驅動的優化加以闡述。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00098.shtml
基于樣本的優化
作者:張智杰,?孫曉明,?張家琳,?陳衛
摘要:基于樣本的優化研究的是如何通過用于學習目標函數的樣本數據直接優化目標函數。首先介紹這一問題的數學模型——樣本優化模型,以及這個模型下的不可近似性結果;然后介紹若干方法和樣本優化模型的變種,以繞過這個模型下的不可近似性結果,使得優化成為可能;接著著重介紹其中一個變種——結構化樣本優化模型,并詳細闡述該模型下的最大覆蓋問題和影響力最大化問題的優化算法;最后總結全文,并展望這一問題的未來研究方向。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00100.shtml
基于優化反饋的組合在線學習
作者:孔芳,?楊悅然,?陳衛,?李帥
摘要:組合在線學習問題研究如何在與環境的交互過程中學習未知參數,逐步找到最優的目標組合。該問題有豐富的應用場景,如廣告投放、搜索和推薦等。首先闡述了組合在線學習問題的定義及其框架——組合多臂老虎機問題,歸納了此框架下的經典算法和研究進展;然后具體介紹了該問題的兩個實際應用——在線影響力最大化和在線排序學習問題,以及其研究進展;最后展望了組合在線學習問題的未來研究方向。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00111.shtml
強化學習在資源優化領域的應用
作者:王金予,?魏欣然,?石文磊,?張佳
摘要:資源優化問題廣泛存在于社會、經濟的運轉中,積累了海量的數據,給強化學習技術在這一領域的應用奠定了基礎。由于資源優化問題覆蓋廣泛,從覆蓋廣泛的資源優化問題中劃分出3類重要問題,即資源平衡問題、資源分配問題和裝箱問題。并圍繞這3類問題總結強化學習技術的最新研究工作,圍繞各研究工作的問題建模、智能體設計等方面展開詳細闡述。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00131.shtml
研究
基于分布式緩存加速容器化深度學習的優化方法
作者:張凱,?車漾
摘要:使用GPU運行容器化深度學習模型訓練任務,性能往往受限于數據加載和預處理效率。很多GPU計算資源浪費在等待從遠程存儲服務讀取數據的過程中。首先介紹了基于容器和分布式緩存技術加速深度學習訓練的方法,以及使用Alluxio和Kubernetes實現的系統架構和初步優化手段;然后闡述了TDCS及其訓練任務與緩存數據互感知的協同調度策略;接著在Kubernetes容器集群中實現了TDCS,增強了分布式緩存加速大規模深度學習訓練的可擴展性;最后用ResNet50圖像分類模型訓練任務進行性能驗證。實驗結果表明,相較于直接從遠程存儲服務中讀取數據,TDCS可對運行在128塊NVIDIA V100 GPU設備上的分布式訓練任務實現2~3倍加速。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00150.shtml
基于法律裁判文書的法律判決預測
作者:張虎,?潘邦澤,?譚紅葉,?李茹
摘要:針對智慧司法服務領域中“法律判決預測”任務的實際需求,探討了法律判決預測任務的研究思路與實現路徑,介紹了法律判決預測的整體框架和具體過程。基于從中國裁判文書網獲取的海量真實案件數據和2018“中國法研杯”司法人工智能挑戰賽的評測數據,整理了實驗數據類別,規范了實驗數據格式,形成了基于法律裁判文書大數據的法律判決預測數據集。在判決預測模型中,首先使用判決要素抽取方法提取出高質量的判決要素句,然后借鑒法官的判案思路,將整個法律判決預測任務轉換為法條預測、罪名預測和刑期預測3項子任務,并分別構建了基于判決要素的預測模型。實驗結果表明,所提方法在刑法類判決預測數據集上得到了有效的結果。
原文鏈接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00164.shtml
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的《大数据》2021年第5期目次摘要的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重做实验七 寻址方式在结构化数据访问中的
- 下一篇: python boolean_如何在Py