实录分享 | 计算未来轻沙龙:大规模数据存储与挖掘(PPT下载)
11 月 10 日(周六)下午,PaperWeekly 攜手清華大學(xué)計算機(jī)系推出了計算未來輕沙龍第三期線下活動——大規(guī)模數(shù)據(jù)存儲與挖掘。來自清華大學(xué)計算機(jī)系的 8 位博士生和碩士生,系統(tǒng)而深入地分享了他們各自在自動機(jī)器學(xué)習(xí)領(lǐng)域的最新研究進(jìn)展。
本文將獨(dú)家分享本期活動的嘉賓課件下載。
?張凱 / SmartX 聯(lián)合創(chuàng)始人 & CTO?
張凱,畢業(yè)于清華大學(xué)計算機(jī)系高性能所,SmartX 聯(lián)合創(chuàng)始人 & CTO。
?存儲技術(shù)熱點和趨勢總結(jié)?
近年來,存儲技術(shù)的發(fā)展成為了熱門話題,無論在存儲硬件、存儲協(xié)議、還是存儲軟件架構(gòu)等領(lǐng)域,都出現(xiàn)了新的產(chǎn)品和技術(shù)。例如 NVMe SSD,NVM over Fabric,Persistent Memory,Software Defined Storage 等等。此外,也產(chǎn)生了一些新的應(yīng)用場景,例如虛擬化、容器等等。?
在本次報告中,我們將對近年來學(xué)術(shù)界和工業(yè)界的存儲技術(shù)熱點和趨勢進(jìn)行總結(jié),并介紹軟件定義存儲產(chǎn)品面臨的挑戰(zhàn)。
?李開宇 / 清華大學(xué)計算機(jī)系博士生?
李開宇,清華大學(xué)計算機(jī)系,碩轉(zhuǎn)博四年級在讀博士生,主要研究方向為數(shù)據(jù)庫下的近似查詢、眾包數(shù)據(jù)管理和時空數(shù)據(jù)庫,在國際會議 ACM SIGMOD、國際期刊 IEEE TKDE、國際期刊 CSE,均有一作文章發(fā)表。
?眾包數(shù)據(jù)庫中基于rating-ranking的Top-k查詢?
在這個 talk 中,我將會展示如何在眾包數(shù)據(jù)庫與中,基于概率模型 rating-ranking 推理給出 n 個實體的 Top-k 查詢結(jié)果。并展示如何優(yōu)化算法和節(jié)約查詢代價。
?李秀星?/ 清華大學(xué)計算機(jī)系博士生?
李秀星,博士在讀,主要研究方向為數(shù)據(jù)庫上的數(shù)據(jù)管理,相似度匹配與查詢。碩士期間曾經(jīng)在國際頂級會議 ICDE 上有論文發(fā)表。
?An Efficient Framework for Exact?Set Similarity?Search Using Tree Structure Indexes?
在這個 talk 里,我將會討論現(xiàn)代數(shù)據(jù)庫中的一個關(guān)鍵技術(shù):相似集合查詢。即給定一個集合,找到數(shù)據(jù)庫中所有與其相近的記錄。我提出了一種樹狀結(jié)構(gòu)對其進(jìn)行索引并且應(yīng)用哈希算法對其過濾操作進(jìn)行優(yōu)化。進(jìn)一步地,我提出了一種基于數(shù)據(jù)分塊的多索引結(jié)構(gòu)對查詢過程進(jìn)行了優(yōu)化。
?袁海濤 /清華大學(xué)計算機(jī)系碩士生?
袁海濤,碩士在讀,本科畢業(yè)于北京航空航天大學(xué),研究方向為時空大數(shù)據(jù)管理(包含軌跡大數(shù)據(jù)的管理與查詢),碩士期間曾在國際頂級會議 ICDE 上發(fā)表文章。
?基于路網(wǎng)的出行軌跡大數(shù)據(jù)相似性查詢與連接?
在這個 talk 中,我們將討論如何在時空數(shù)據(jù)庫當(dāng)中,基于路網(wǎng)提高出行軌跡數(shù)據(jù)在相似性查詢和鏈接的效率。具體來說,我們重新定義了時空數(shù)據(jù)中基于路網(wǎng)的軌跡表達(dá)以及軌跡相似性的計算方式,然后設(shè)計相應(yīng)的索引和查詢算法。最后,我們將介紹如何在 Spark 上實現(xiàn)相應(yīng)的分布式查詢框架。
?孫佶?/ 清華大學(xué)計算機(jī)系博士生?
孫佶,博士在讀,本科畢業(yè)于北京郵電大學(xué)計算機(jī)學(xué)院,研究領(lǐng)域為可擴(kuò)展數(shù)據(jù)融合。博士期間曾經(jīng)在頂級會議 VLDB 發(fā)表文章。
?分布式可擴(kuò)展字符串相似查詢系統(tǒng)?
本次報告,我將介紹一個易部署可擴(kuò)展分布式字符串查詢系統(tǒng)的設(shè)計原理以及其在實際數(shù)據(jù)融合、查詢推薦中的應(yīng)用。
?駱昱宇 / 清華大學(xué)計算機(jī)系碩士生?
駱昱宇,碩士在讀,研究領(lǐng)域為數(shù)據(jù)可視化和數(shù)據(jù)清洗。曾經(jīng)在 SIGMOD、ICDE、EDBT 發(fā)表文章。
?Towards Automatic Data Visualization?
This talk mainly introduces the key techniques of automatic data visualization. (I) Visualization Recognition: given a visualization, is it "good" or "bad"? (II) Visualization Ranking: given two visualizations, which one is better? (III) Visualization Selection: given a dataset, how to recommend top-k visualizations?
?秦雪迪?/ 清華大學(xué)計算機(jī)系博士生?
秦雪迪,博士在讀,本科畢業(yè)于哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)系,主要研究數(shù)據(jù)庫管理中如何高效的進(jìn)行數(shù)據(jù)可視化。博士期間曾經(jīng)在 EDBT、BIG DATA MINING AND ANALYTICS 發(fā)表文章。
?Visualizing Your Data by Keyword Search?
在這個 talk 中,我們會討論如何使用關(guān)鍵字搜索來為用戶推薦感興趣的可視化圖。并討論在用戶得到感興趣的可視化圖之后,如何進(jìn)行進(jìn)一步的數(shù)據(jù)探索,來發(fā)現(xiàn)更多有意義的信息。
?劉寧 / 清華大學(xué)計算機(jī)系博士生?
劉寧,清華大學(xué)計算機(jī)系在讀博士生,研究領(lǐng)域為知識庫管理及數(shù)據(jù)挖掘技術(shù)。
?知識驅(qū)動的基于文本的病人死亡預(yù)測?
在這個 talk 中,我們將介紹實體知識在醫(yī)療文本分類的一些應(yīng)用,以及如何更好地利用現(xiàn)有的知識庫中的實體提高預(yù)測系統(tǒng)的性能。
?冉晨偉?/ 清華大學(xué)計算機(jī)系博士生?
冉晨偉,博士在讀,本科畢業(yè)于清華大學(xué)計算機(jī)系,研究興趣圍繞知識圖譜的擴(kuò)充與推理。博士期間曾經(jīng)在頂級會議 WWW、ICDM 發(fā)表文章。
?針對微博實體鏈接的注意力因子圖模型?
在這次報告中,我們將關(guān)注微博中的實體鏈接問題。我們將介紹如何將因子圖應(yīng)用于該任務(wù),并通過引入注意力機(jī)制,使模型擁有更高的效率。
?1 / 掃碼關(guān)注?
長按識別二維碼,關(guān)注PaperWeekly
?2 / 回復(fù)暗號?
在PaperWeekly微信公眾號后臺
?回復(fù)暗號181110?
即可獲取嘉賓課件下載鏈接
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的实录分享 | 计算未来轻沙龙:大规模数据存储与挖掘(PPT下载)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不知道读什么好?这 16 篇最新论文,帮
- 下一篇: 第七期 | 90天带学《机器学习》西瓜书