必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢 原创 2017-07-10 爱收藏的 AI科技大本营 作者 | Flavian Hautbois 翻译 | AI科技大
必讀 | 六月份不容錯過的十大重磅好文,機器學習和數據科學的小伙伴拿走不謝
???AI科技大本營
作者 | Flavian Hautbois
翻譯 | AI科技大本營(rgznai100)
參與 |?JeyZhang,波波
上個月,我們發(fā)了很多文章。但是,機器學習和數據科學整個領域所發(fā)表的新文章更多。如何用一篇文章就能梳理好這些最新的內容呢?我們苦思冥想,從中找出了這十篇有關神經網絡、TensorFlow、數據可視化、生成式對抗網絡(GAN)以及LSTM的最佳文章。
只此一篇,你就能把握住機器學習和數據科學整個領域的新內容,絕對不容錯過。
如果你的閱讀習慣是邊看邊動手做,請一定先備好Python環(huán)境。
我們先從下面的漫畫開始:
圖片翻譯:
“這個問題已經困擾我們很多年了。”
“不用糾結,讓我用算法來替你解決它。”
6個月后…
“哇,你這問題確實好難。”“你不是說……”
?1 —? Dash入門
Dash提供了一套全新的用于web的圖表庫,而這篇文章深入介紹了Dash圖表庫是如何設計的,以及介紹了在Dash中如何有效地處理常見錯誤以及多重集成。文章中對Excel和R語言系統(tǒng)進行了很合理的對比。使用Dash進行圖表實現時,一個技術上的挑戰(zhàn)是,你需要維護一個flask應用以及擁有一個對ReactJS友好的前端。
Adil Baaj在我們的博客上發(fā)布了一篇對比多種javascript圖表庫的文章。如果希望入門Dash,可以閱讀來自plotly的《Dash入門》。
Dash入門
https://medium.com/@plotlygraphs/introducing-dash-5ecf7191b503
對比多種javascript圖表庫
https://blog.sicara.com/compare-best-javascript-chart-libraries-2017-89fbe8cb112d/
?2 — ?Google發(fā)布用于目標檢測的TensorFlow API
Google公司一直致力于讓大數據領域最新研究的實現變得更加簡單。本月他們在TensorFlow上發(fā)布了用于目標檢測的API,也發(fā)布了適用于移動設備的版本。
詳見Google Research Blog的原文:
https://research.googleblog.com/2017/06/supercharge-your-computer-vision-models.html
?3 ?— 初識生成式對抗網絡(Generative Adversarial Networks, GAN)
這是一篇介紹如何訓練一個神經網絡來生成手寫數字圖片的教程。我們很欣賞這種在對抗式網絡這個新的研究方向上的實踐技術,這又是一個在經典MNIST數據集上做的實驗。在這篇文章中,你將得知訓練生成式對抗網絡是一件困難的事,是因為你需要在生成器與判別器的訓練中找到平衡。本教程僅需要大概半小時就能讀完,屬同類教程中的佼佼者。
詳見O’Reilly原文
https://www.oreilly.com/learning/generative-adversarial-networks-for-beginners
?4 ?—? 使用深度學習技術重構出高分辨率的音頻
受到最近圖像方面研究的啟發(fā),文章作者嘗試用低質量的音頻文件來重構出分辨率更高的音頻,最終音頻質量上沒有取得大幅度的提高,但也一定程度上達到了目的。盡管實驗結果上的提升并不顯著,我們仍然認為該篇文章為本月最佳文章之一。原因如下:
-
本文著重于重構VoIP語音,這點很巧妙。
-
語音方面的研究工作比較復雜,而深度學習技術的應用除了在語音轉文本應用領域之外,其他的較少見到。
我們覺得如果作者在卷積網絡中使用頻譜表示而不是時間表示的話,實驗結果還能再提升一步。
詳見Insight Data原文
https://blog.insightdatascience.com/using-deep-learning-to-reconstruct-high-resolution-audio-29deee8b7ccd
?5 ?— ?探索LSTM
我們破例收錄了這篇文章(發(fā)表時間在5月30日,嚴格上說不是6月份的文章),因為文章寫得特別好。這篇文章的前半部分是一個LSTM教程,后半部分深入淺出對LSTM作了詳解。詳解部分使得本文非常有價值。審計 (Audit) 仍然是大數據算法中最困難的部分。正因如此,Edwin Chen做的可視化工具非常棒,因為它詳細解析了LSTM的原理。
詳見AI科技大本營的完整譯文:多圖|入門必看:萬字長文帶你輕松了解LSTM全貌
?6 ?— ?怎樣訓練神經網絡來自動寫代碼?
如果你閱讀了前面關于LSTM的文章,那么你已經看到了一個關于生成Java程序的例子。來自Thibault Neveu的這篇文章也在嘗試做同樣的事情。文中使用TensorFlow并且比之前的文章更易于上手,并且更適合做快速閱讀。
詳見AI科技大本營的完整譯文:手把手教你自制編程AI:訓練2小時,RNN就能寫自己的代碼
?7 ?— ?人工智能讓制藥業(yè)再創(chuàng)輝煌以及所面臨的挑戰(zhàn)
這篇文章介紹了如何使用生成式對抗網絡來生成新的抗癌藥物,思路很棒。在制藥研究領域有一個Eroom定律,與摩爾定律正相反(隨著時間推移,尋找新藥的難度呈指數增長)。Mostapha Benhenda強烈呼吁研究人員在大數據與藥理學交叉領域上的研究采取行動。
詳見Hackernoon原文:
https://hackernoon.com/make-pharma-great-again-with-artificial-intelligence-some-challenges-50e91ea9988d
?8 ?— ?你所不知道的圖表展示小技巧
注意到上面餅狀圖里一些奇怪的地方了嗎?你應該注意到,不過你可能沒有(至少我沒)。這篇文章詳細舉例說明了用圖表來做比較時的錯誤用法,從中你會學到在對比兩種相似的數據時,圖表展示的方式非常重要。
詳見Andrew Gelman的原文
http://andrewgelman.com/2017/06/02/youll-never-guess-one-quick-trick-diagnose-problems-graphs-make-improvements/
?9 — 我在Kaggle上獲勝的小技巧
Kaggle是一個數據科學方面在線競賽平臺。公司可以提交賽題以及相關數據集供參賽者解決。Kaggle是一個大型社區(qū),你在上面有機會獲得百萬美金大獎。這篇文章的作者分享了他從開始時的新手到后來比賽取得第五名的經驗。我們認為他總結的參賽小技巧也可供企業(yè)數據科學家參考,如果你想參與Kaggle上的競賽,那么這篇文章將非常值得一讀。
詳見Dataquest原文
https://www.dataquest.io/blog/kaggle-tips-tricks/
?10 — 大數據的體現:Amazon收購全食超市的交易
最后再介紹一篇關于商業(yè)上Amazon收購Whole Foods超市的文章。隨著大數據的研究逐漸滲透商界,我們認為這類文章是這個列表的重要補充。從企業(yè)獲取數據的角度來看,Amazon收購Whole Foods超市是明智之舉。因為Amazon雖然是個大公司,但是數量上遠不及Whole Foods超市多,所以收購將為其帶來巨大的數據財富。
詳見Dataiku:
https://blog.dataiku.com/big-data-is-the-big-news-in-amazon-whole-foods-deal
對于我們選出來的本月十佳文章,你都有看過嗎?你心里有沒有其他更好的選項?歡迎在評論中告訴我們,如果你們喜歡,咱們下期再見。
原文鏈接
https://blog.sicara.com/06-2017-best-big-data-new-articles-this-month-5c3478872a61
總結
以上是生活随笔為你收集整理的必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢 原创 2017-07-10 爱收藏的 AI科技大本营 作者 | Flavian Hautbois 翻译 | AI科技大的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中科院罗平演讲全文:自动撰写金融文档如何
- 下一篇: 安徽一个班37人考进清华北大,老师发来一