新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》
題圖?| 作者為?Scott ?Ullman
《斯坦福數(shù)據(jù)挖掘教程(第3版)》上架之后,這是我們第一次整篇文章介紹這本書。
這本書相當(dāng)受歡迎(前兩個版本累計銷量超過 5 萬冊),尤其是受學(xué)校青睞——在此也說聲抱歉,出于出版時間的原因,很多學(xué)校依然采用了舊版作為教材;同時也請知悉,新版已上架,正在使用這本書作為教材的學(xué)校可以考慮更新了。
實際上,這本書已經(jīng)在大家面前出過 2 次鏡了,一次是 2020 年圖靈獎公布的次日圖靈君用一篇文章講了講圖靈獎得主之一 Jeffrey Ullman 和這本書「不一樣的」故事;一次是 423 活動那次,這本書在沒有趕上大促優(yōu)惠的情況下進入了新書暢銷榜單。
除了是一本暢銷多年的世界名校數(shù)據(jù)挖掘入門經(jīng)典書,《斯坦福數(shù)據(jù)挖掘教程(第3版)》之于 Jeffrey Ullman ?和弟子 Anand Rajaraman 還有特別的意義。那就是這本書原本只是作為開源電子版出版的,后來才有了紙質(zhì)書的誕生,個中原因大家可以在文末鏈接閱讀相關(guān)文章。
好了,回到這本書,我們繼續(xù)說說它的緣起。本書源于Ullman 及弟子? Rajaraman 在斯坦福大學(xué)教授多年的一門季度課程——「多年」真的不是隨便叫叫的,我去這本書的網(wǎng)站上看了看,斯坦福大學(xué)開設(shè)這門課程,最早可以追溯到 2000 年,著實佩服。
課程名為“Web 挖掘”(編號 CS345A),原本是為高年級研究生設(shè)計的,沒成想高年級本科生也非常感興趣,于是現(xiàn)在就成為本科生和研究生兼修的一門課程。Jure Leskovec 到斯坦福大學(xué)任職后,共同對相關(guān)材料進行了重新組織。他開設(shè)了一門有關(guān)網(wǎng)絡(luò)分析的新課程 CS224W, 并為 CS345A 增加了一些內(nèi)容,重新編號為 CS246。三位作者還開設(shè)了一門大規(guī)模數(shù)據(jù)挖掘的項目課程 CS341。目前本書包含了以上三門課程的所有教學(xué)內(nèi)容。
圖書核心特色
這本書核心的特色是:它是一本數(shù)據(jù)挖掘領(lǐng)域全景路線圖式的入門參考技術(shù)書,下面解釋一下關(guān)鍵詞。
1.全景路線圖??
一方面可以讓你了解數(shù)據(jù)挖掘這個大領(lǐng)域下的各個小領(lǐng)域;
另一方面讓你可以縱覽整個數(shù)據(jù)構(gòu)建模型的過程,這個過程中你會遇到什么問題,尤其是從普通規(guī)模數(shù)據(jù)到極大規(guī)模數(shù)據(jù)發(fā)生了哪些狀況,你的解決方案是如何轉(zhuǎn)換的。
2.入門?
跟上面一條緊密關(guān)聯(lián)。普通書入門從簡單操作開始,一步步來,讀者見樹木而不見森林,好書入門從全景圖開始,教讀者抓核心內(nèi)容,對整個領(lǐng)域了然于胸之后深入自己感興趣的關(guān)鍵點。而這本書介紹的正是高手入門之道,書中并沒有每個細分領(lǐng)域的詳細講解,但是為你展示了最新的參考論文和進階資料,方便你進一步探索。
3.技術(shù)?
雖然有概念,但并非聚焦于概念,而是教你怎么用,可直接應(yīng)用于實際的大規(guī)模數(shù)據(jù)挖掘工作——海量 Web 數(shù)據(jù)是目前大數(shù)據(jù)挖掘工作的核心,數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)專家都不可錯過。
接下來讓我們來詳細看看書中的內(nèi)容。
圖書核心內(nèi)容
本書是關(guān)于數(shù)據(jù)挖掘的,但是主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘?!皹O大規(guī)?!钡囊馑际?#xff0c;這些數(shù)據(jù)大到無法在內(nèi)存中存放。因為本書重點強調(diào)數(shù)據(jù)的規(guī)模,所以例子大多來自 Web 本身或者 Web 上導(dǎo)出的數(shù)據(jù)。另外,本書從算法的角度來看待數(shù)據(jù)挖掘,即數(shù)據(jù)挖掘是將算法 應(yīng)用于數(shù)據(jù),而不是使用數(shù)據(jù)來“訓(xùn)練”某種類型的機器學(xué)習(xí)引擎。
本書的主要內(nèi)容包括:
(1) 分布式文件系統(tǒng)和 MapReduce,其中后者用于創(chuàng)建在極大規(guī)模數(shù)據(jù)集上成功應(yīng)用的并行算法;
(2) 相似性搜索,包括最小哈希和局部敏感哈希的關(guān)鍵技術(shù);
(3) 數(shù)據(jù)流處理以及針對快速到達、須立即處理且易丟失的數(shù)據(jù)的專用算法;
(4) 搜索引擎技術(shù),包括谷歌的 PageRank、鏈接作弊檢測以及計算網(wǎng)頁導(dǎo)航度(hub)和權(quán)威度(authority)的 HITS 方法;
(5) 頻繁項集挖掘,包括關(guān)聯(lián)規(guī)則、購物籃分析、A-Priori 算法及其改進;
(6) 極大規(guī)模高維數(shù)據(jù)集的聚類算法;
(7) Web 應(yīng)用中的兩個關(guān)鍵問題——廣告管理和推薦系統(tǒng);
(8) 對極大規(guī)模的圖(特別是社會網(wǎng)絡(luò)圖)的結(jié)構(gòu)進行分析和挖掘的算法;
(9) 通過降維來獲得大規(guī)模數(shù)據(jù)集的重要性質(zhì)的技術(shù),包括 SVD 和隱性語義索引;
(10) 可以應(yīng)用于極大規(guī)模數(shù)據(jù)的機器學(xué)習(xí)算法,包括感知機、支持向量機、梯度下降法、決策樹和神經(jīng)網(wǎng)絡(luò);
(11) 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),包括最重要的幾個特例——卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短期記憶網(wǎng)絡(luò)(LSTM)。
用思維導(dǎo)圖展示一下圖書的內(nèi)容。
(放大可查看大圖)
作譯者團隊
這本《斯坦福數(shù)據(jù)挖掘教程》與《數(shù)據(jù)挖掘?qū)д?#xff08;完整版)》同為國內(nèi)讀者最喜愛的數(shù)據(jù)挖掘入門書之一。作者團超級強大,第一作者是 AI 領(lǐng)域無人不知的 Jure Leskovec,他在圖神經(jīng)網(wǎng)絡(luò)方面的研究用“頂尖”形容不為過。第三作者 Jeffrey Ullman 為 2020 年圖靈獎得主,因在編程語言實現(xiàn)領(lǐng)域?qū)A(chǔ)算法和理論的貢獻而獲獎。
在翻譯上,由國內(nèi)知名? NLP 專家王斌老師擔(dān)綱翻譯,王斌老師獨自翻譯了前兩個版本。到第 3 版,曾就讀于斯坦福大學(xué) Jure 實驗室的王達侃老師加入,共同翻譯。
Jure Leskovec(尤雷·萊斯科夫)
近年來最優(yōu)秀的 AI 科學(xué)家之一(其實沒有“之一”這兩個字,估計 99% 人也不會反對,從這里你就知道 Jure 的實力了,有其他很多媒體專門寫過??Jure?有多強大,回頭我們轉(zhuǎn)載一篇文章來看看)。
Pinterest 公司首席科學(xué)家,斯坦福大學(xué)計算機科學(xué)系副教授,研究方向為大型社交和信息網(wǎng)絡(luò)的數(shù)據(jù)挖掘。
他的研究成果獲得了很多獎項,如 Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship 和 Okawa Foundation Fellowship,還獲得了很多最佳論文獎,同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《連線》及 NBC、CBC 等流行的社會媒體刊載。
他還創(chuàng)建了斯坦福網(wǎng)絡(luò)分析平臺(SNAP)。
Anand Rajaraman(阿南德·拉賈拉曼)
數(shù)據(jù)庫和 Web 技術(shù)領(lǐng)域領(lǐng)軍者,硅谷連續(xù)創(chuàng)業(yè)者和風(fēng)險投資人,斯坦福大學(xué)計算機科學(xué)系助理教授。
自 1996 年起創(chuàng)立過多家公司,這些公司先后被亞馬遜、谷歌和沃爾瑪集團收購,而他本人歷任亞馬遜技術(shù)總監(jiān)、沃爾瑪負責(zé)全球電子商務(wù)業(yè)務(wù)的副總裁。之后創(chuàng)立了風(fēng)投公司 Milliways Ventures 和 Rocketship VC,投資過 Facebook、Lyft 等眾多公司。
作為學(xué)者,他主要研究數(shù)據(jù)庫系統(tǒng)、Web 和社交媒體,他的研究論文在學(xué)術(shù)會議上獲得了多個獎項,他在 2012 年被《快公司》雜志列入“商界最具創(chuàng)造力 100 人”。
Jeffrey Ullman(杰弗里·厄爾曼)
計算機科學(xué)家,美國國家工程院院士,2020 年圖靈獎得主。
早年在貝爾實驗室工作,之后任教于普林斯頓大學(xué),十年后加入斯坦福大學(xué)直至退休,一生的科研、著書和育人成果卓著。
他是 ACM 會員,曾獲 SIGMOD 創(chuàng)新獎、高德納獎、馮諾依曼獎等多項科研大獎;合著有“龍書”《編譯原理》、數(shù)據(jù)庫名著《數(shù)據(jù)庫系統(tǒng)實現(xiàn)》等多部經(jīng)典著作。
Ullman 培養(yǎng)了很多了不起的學(xué)生,其中包括谷歌聯(lián)合創(chuàng)始人 Sergey Brin,本書第二作者也是他的得意弟子。目前擔(dān)任 Gradiance 公司 CEO。
王斌博士
小米 AI 實驗室主任,NLP 首席科學(xué)家。中國中文信息學(xué)會理事,《中文信息學(xué)報》編委。
加入小米公司之前,是中科院研究員、博導(dǎo)及中科院大學(xué)教授。譯有《信息檢索導(dǎo)論》《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》和《機器學(xué)習(xí)實戰(zhàn)》等書。
王達侃
優(yōu)刻得 AI 部門負責(zé)人,曾任 WeWork Research & Applied Science ?中國區(qū)負責(zé)人,并曾在 LinkedIn、Twitter 和微軟亞洲研究院負責(zé) AI 以及大數(shù)據(jù)方向的研發(fā)工作。
碩士畢業(yè)于斯坦福大學(xué)計算機系,本科畢業(yè)于上海交通大學(xué) ACM 班。
國內(nèi)外讀者好評
| Amazon 讀者
斯坦福大學(xué)“海量數(shù)據(jù)挖掘”公開課課參考書
我買這本書是為了參加斯坦福大學(xué) MMDS 的在線課程,但后來決定全面閱讀這本書(課程不包括一些高級主題)。這本書的內(nèi)容是非常容易理解的。例如,在第 5 章中,作者介紹了 PageRank 算法,不同于一般書通過概率和線性代數(shù)(馬爾科夫鏈和特征向量)來介紹它,他們稍微介紹了一下理論,之后提供了許多例子,所以這本書的實用性深得我心。概率論和線性代數(shù)方面的知識會有幫助,但不強求,不過知道一些非常基本的概念,如矩陣乘法等是必需的。
這本書涵蓋的主題相當(dāng)廣泛,從 MapReduce 和位置敏感哈希(LSH),再到圖和大規(guī)模機器學(xué)習(xí)算法。朋友們,值得擁有。
數(shù)據(jù)挖掘就看這本書(某大學(xué)教授)
這本書是我在數(shù)據(jù)挖掘方法方面的首選參考書。名聲在外的作者團隊們對于自己的寫作主題門兒清。這些材料來自于作者所教授的幾門斯坦福大學(xué)計算機科學(xué)課程。就第 3 版而言,寫作清晰、簡潔,無重大錯誤。
本書涵蓋了許多最常用的數(shù)據(jù)挖掘方法的理論和實踐方面。作者不僅討論了這些算法如何工作的理論,還對其局限性和常見的失敗進行了深入探討。
我把這本書作為我教授的課程的補充教材。該書的處理水平適合高級本科生和初級研究生。
| 豆瓣讀者
真正講大數(shù)據(jù)處理思路的書
最好的數(shù)據(jù)挖掘圖書之一?
回到圖書
作者:Jure Leskovec,Anand Rajaraman,Jeffrey Ullman
譯者:王斌 , 王達侃
| 圖書特色
當(dāng)今 AI 領(lǐng)域最知名的學(xué)者之一Jure Leskovec、2020 年圖靈獎得主 Jeffrey Ullman 及弟子作品
國內(nèi)知名 NLP 專家王斌、AI 青年學(xué)者王達侃執(zhí)筆翻譯
“數(shù)據(jù)挖掘全景式入門參考書”,源自斯坦福大學(xué)公開課“CS246:海量數(shù)據(jù)挖掘”“CS224W:圖機器學(xué)習(xí)”和“CS341:項目實戰(zhàn)課”
配套資源豐富,包括開源英文原書 PDF、PPT、視頻講解
本書源自斯坦福大學(xué)公開課“CS246:海量數(shù)據(jù)挖掘”“CS224W:圖機器學(xué)習(xí)”和“CS341:項目實戰(zhàn)課”,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。書中包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類算法、廣告管理及推薦系統(tǒng)、社會網(wǎng)絡(luò)圖挖掘和大規(guī)模機器學(xué)習(xí)等主要內(nèi)容。第3版新增了決策樹、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等內(nèi)容。幾乎每節(jié)都有對應(yīng)的習(xí)題,以此來鞏固所講解的內(nèi)容。讀者還可以從網(wǎng)上獲取相關(guān)拓展資料。
數(shù)據(jù)挖掘是數(shù)據(jù)時代的一項必殺技
這本書可以帶你入門
贈?書?福?利
你的工作跟數(shù)據(jù)有關(guān)嗎?大部分工作時間耗費在了什么地方?
你是否學(xué)習(xí)過數(shù)據(jù)挖掘,有什么難點?
評論區(qū)挑選 2 位用戶, 每人送出《斯坦福數(shù)據(jù)挖掘教程(第3版)》1 本。
活動截止時間:2021 年 5 月 6 日 12:00 。
推 薦 閱 讀
《2020 年圖靈獎得主 Ullman :做開源電子書,讓肯掏錢買書的老實人免費讀》
圖 靈 社 群
總結(jié)
以上是生活随笔為你收集整理的新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 记录下被一只蝙蝠坏事的2020年春节
- 下一篇: 数电实验 数字电子钟设计 基于quart