数据科学家如何找到心仪的工作?
本文是「打造數據科學的作品集」的第四篇,全文大約 9800 字,讀完大約需要 17 分鐘。如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。
作者:Vik Paruchuri,譯者:趙喧典,校對:EarlGrey,出品:PythonTG 翻譯組/編程派
在本系列中,我們已經討論了如何用數據講故事,如何打造一個完整的機器學習項目,以及如何搭建一個數據科學博客。而本文,我們將回過頭來,重點討論如何創建高大上的數據科學作品集。我們將討論什么技能是雇主希望看到的,以及如何創建一份作品集以有效地展示所有的技能。我們將舉例說明作品集中的項目應該如何呈現,并給你一些起步的建議。
讀完這篇文章之后,你應該能夠理解為什么要創建數據科學作品集,以及具體的方法。
雇主想要什么
雇主招人時,想要的是那些能為企業創造價值的人。這通常意味著,應聘者需要掌握能為企業帶來收入和機遇的技能。而作為數據科學家,可以通過以下 4 種方式為企業創造價值:
- 對原始數據的敏銳洞察,并向他人展示。
- 例子:分析廣告點擊率,會發現面向 18 到 21 周歲人群的廣告比面向 21 到 25 周歲人群的廣告帶來的成本收益高得多——企業據此調整它的廣告投入,這就創造了商業價值。
- 構建能為客戶帶去直接價值的系統。
- 例子:Facebook 的一位數據科學家通過優化新聞流為用戶展現更好的結果——這導致更多人訂閱新聞流,意味著更多的廣告訂閱,這就為 Facebook 帶來直接收入。
- 構建能為公司其他人帶去直接價值的系統
- 例子:編寫腳本自動地從 3 個數據庫提取數據并聚合,為他人進行分析通過干凈的數據集——通過提高他人的工作效率,這也創造了價值。
- 與公司其他人分享專業知識
- 例子:與產品經理討論如何實現用到機器學習算法的功能——通過防止不切實際的時間表和半成品,這也創造了價值。
毋庸置疑的是,當雇主考核應聘者時,他們會考核應聘者是否具備上述四項技能的一項或多項(根據公司和崗位不同,可能需要應聘者同時具備多項技能)。為了向企業證明你能在上述所列 4 個領域能幫到企業,你需要展示自身具備以下技能:
- 溝通能力
- 與他人協作能力
- 技術能力
- 數據推斷能力
- 主觀能動性
一個面面俱到的作品集應該足以展示你在上述各方面的技能,并且對他人而言是易審視的——作品集中的每一項都應該具備豐富的文檔,清晰明了,這樣,招聘經理才能快速地對你的作品集進行評估。
為什么要打造作品集
如果你擁有頂尖學府的機器學習或相關領域的學位,獲得數據科學相關的工作會相對容易。因為頂尖學府的聲譽以及專業對口的事實,雇主相信你能為企業創造價值。但如果你沒有來自頂尖學府的相關學位,你就不得不為自己建立這份信任。
這樣說吧:對于雇主而言,需求的崗位有多達 200 份的申請。假設 HR 總共花 10 小時過濾申請以確定電話面試哪些人。這意味著平均每個申請只有 3 分鐘的評估時間。開始時,HR 不相信你能為企業創造價值,而你有 3 分鐘的時間來建立他們對你的這份信任,進而為自己創造電話面試的機會。
數據科學的一大特征是,你在自己的項目中所做的工作,和你被錄用之后所做的工作幾乎一樣。作為數據科學家,在?Lending Club?分析信貸數據,可能與分析他們發布的匿名貸款數據有很大的相似之處。
Lending Club 匿名數據的前幾行
建立 HR 對你的信任,最重要的就是證明你能做他們需要你做的工作。對于數據科學而言,這就需要我們創建一套項目作品集。項目越“真實”,HR 越相信你將是企業的有用之人,你獲得電話面試的機會就越大。
數據科學作品集需要包含哪些內容
既然我們知道了需要一個作品集,我們就需要弄清楚它需要包含哪些內容。至少,你應該在?GitHub?或你的博客上有一些項目,代碼是可見的,并配有良好的文檔。HR 越是容易找到這些項目,他們就越容易對你的技能進行評估。每個項目都應該盡可能配有良好的文檔,用 README 文件說明如何進行設置,并介紹數據的特點。
GitHub 上一個組織良好的項目
我們將討論一些應該放入作品集的項目類型。建議每種類型都有多個項目,尤其是與你希望從事的崗位相關的項目類型。比方說,如果你申請的崗位需要大量機器學習的知識技能,那么多創建一些用到機器學習的項目會很有幫助。另一方面,如果你申請的是分析師的崗位,那么數據清理和數據呈現項目就更關鍵了。
數據清理項目
數據清理項目向 HR 展示了你能夠提取不同的數據集并加以利用。數據清理是數據科學家做的最多的工作,因此,它是需要展示的關鍵技能。這類項目涉及提取雜亂數據,然后清理,并做分析。數據清理項目證明了你的數據推理能力,以及你將多個數據源的數據提取整合為單個數據集的能力。數據清理是所有數據科學家工作的重要部分,展示你已經具備該項能力將是一大優勢。
你將需要把原始數據清理成易于分析的形式。要做到這一點,你需要:
- 找一個雜亂的數據集
- 選一個可用數據作答的問題
- 清理數據
- 如果有多個數據文件,將它們整合到一起
- 確保你希望進行探索的角度,在數據層面是可實現的
- 做一些基礎分析
- 展示結果
- 建議用?Jupyter Notebook?或?R Markdown?進行數據清理和分析
- 確保代碼和邏輯是可理解的,盡可能多地使用注釋和 Markdown 單元格闡明過程
- 將項目上傳到 GitHub
- 由于許可的問題,不是總能將原始數據一并提交到 Git 倉庫,因此你至少要描述一下原始數據,并說明出處。
本系列的第一篇文章在第一部分介紹了如何一步步創建一個完整的數據清理項目。你可以在這里查看。
部分紐約市學校數據的數據字典
如果你在尋找一個好的數據集上有困難,以下是一些例子:
紐約市地鐵,人來人往
如果你想要一些靈感,以下是一些優秀的數據清理項目的例子:
數據呈現項目
數據呈現項目展現了你對數據的洞察力,從數據中提取洞見并用數據說話的能力。用數據講故事對商業價值有巨大影響,因此,這將是你簡歷的重要組成部分。這個項目涉及提取一組數據,并用數據呈現一個令人信服的結論。例如,你可以利用航班數據說明某些機場存在顯著的航班延遲現象,而這也許可以通過改變航線改善。
一個優秀的數據呈現項目會用到大量的可視化,并能一步步地引導讀者了解分析結果。以下是創建一個優秀的數據呈現項目的參考步驟:
- 找一個有趣的數據集
- 從不同角度探索數據
- 探索數據
- 從數據中找出有趣的相關性
- 創建圖表并一步步展示你的發現
- 詳細記錄這個引人注目的過程
- 從所有的探索中挑選一個最有趣的角度
- 記錄從原始數據到最終發現的探索過程
- 創建令人信服的圖表
- 就探索過程中每一步的思考,進行充分闡述,也可以對代碼進行解釋
- 就每一步的結果,做豐富的分析,以清晰地告訴讀者
- 告訴讀者你在分析數據過程中的所思所想
- 展示結果
本系列的第一篇文章的第二部分,已經介紹了如何一步一步讓數據發聲。你可以在這里查看。
按街區 SAT 成績劃分的紐約市地圖
如果你在尋找一個好的數據集上有困難,這里有一些例子:
- Lending club 的貸款數據
- FiveThirtyEight 的數據集
- Hacker new 的數據
如果你想要一些靈感,以下是一些優秀的數據呈現項目的例子:
- Hip-hop 與美國總統候選人特朗普
- 紐約市出租車與優步數據分析
- 跟蹤研究 NBA 球員的運動
提及 2016 年美國總統大選候選人的歌詞(圖片來自以上第一個項目)
端到端項目
到目前為止,我們已經介紹了涉及探索性數據清理和分析的項目。這些項目能讓 HR 更好地認識到你對數據的洞察力以及呈現數據的能力。然而,它們并不足以展示你的創建面向客戶的系統的能力。面向客戶的系統涉及高性能的代碼,這意味著系統可以使用不同數據,運行多次,產生不同輸出。舉個例子,一個可以對股市進行預測的系統——每天早上,它會自動下載最新的股市數據,然后據此預測當天哪些股票會走紅。
為了展現我們能夠創建業務系統,我們需要創建一個端到端的項目。端到端的項目接收并處理數據,然后產生輸出。通常,這些輸出都是機器學習算法的結果,但也可以是其他輸出,比如符合某一標準的行總數。
這里的關鍵是,要讓系統能靈活地處理新的數據(比如股市數據),并具有高性能。此外,使代碼易于安裝設置與運行也很重要。以下是創建一個優秀的端到端項目的參考步驟:
- 找一個有趣的話題
- 我們不會僅處理一個單一的靜態數據集,因此,你需要定一個話題
- 該話題下應該有公開的、經常更新的數據
- 以下是一些例子:
- 導入并解析多個數據集
- 在你的能力范圍內,下載盡可能多的數據
- 閱讀理解數據
- 找出你所期望的預測內容
- 創建預測
- 整理代碼并配上文檔
- 將代碼分解為多個文件
- 在項目中添加一個 REAME 文件,闡述如何安裝和運行該項目
- 添加內聯文檔
- 使代碼能輕松地從命令行運行
- 上傳項目到 GitHub
本系列的第三篇文章中已經介紹了如何一步一步創建端到端的機器學習項目。你可以在這里查看。
如果你在定一個好的話題上有困難,以下是一些例子:
- 歷史上的 S&P 500 數據
- 流式 Twitter 數據
S&P 500 數據
如果你想要一些靈感,以下是一些優秀的端到端項目例子:
說明性文章
理解并解釋復雜的數據科學概念很重要,比如機器學習的算法。這可以讓 HR 認識到,你善于向公司內的其他人或客戶解釋復雜的概念。這也是數據科學作品集的關鍵點,因為它是現實世界中數據科學工作的重要部分。這同時還展示了你對概念及其工作原理有深入的理解,而不是僅僅停留在語法層面。深入的理解有助于你更好地判斷并做出更好的選擇,以及向他人介紹你的工作。
為了寫一篇說明性的文章,我們首先需要挑一個數據科學的話題,然后撰寫博客。這篇文章需要帶領讀者從一無所知到對概念有一個清晰的了解。而寫文章的關鍵是,使用樸實的、簡單的的語言——你寫得越專業,HR 就越難知道你是真懂還是裝懂。
寫說明性文章的幾個重要的步驟是:挑一個你熟悉的話題,帶領讀者理解概念,然后利用最終的概念做一些有趣的事。以下是一些的參考步驟:
- 找一個你熟悉的或想要去學習的概念
- 挑一個數據集輔助解釋
- 比方說,如果你選擇對 k-nearest nerghbors 進行闡述,你可以借助 NBA 的數據(尋找球路相似的球員)
- 列一個文章的大綱
- 假設讀者完全不了解你將闡述的概念
- 將概念分解成幾個部分
- 比如,k-nearest neighbors,可以分解為:
- 利用相似性進行預測
- 相似度量
- 歐式距離
- 利用 k = 1 進行匹配
- 利用 k > 1 進行匹配
- 比如,k-nearest neighbors,可以分解為:
- 撰寫文章
- 用直白的語言進行清晰的描述
- 圍繞一個中心點寫
- 試著找一個非技術人員讀一讀這篇文章,看看他們的反應
- 分享文章
- 最好發布到你自己的博客
- 如果沒有博客,就上傳到 GitHub
如果你在找一個好的概念上有困難,以下是一些例子:
k-平均算法的可視化
如果你想要一些靈感,下面是一些比較好的說明性文章的例子:
- 線性回歸
- 自然語言處理
- 樸素貝葉斯
- k-nearest neighbors
可選的作品集構件
雖然上傳至 GitHub 和博客的項目很關鍵,但是添加一些其他的組件也會很有幫助,比如 Quora 上的回答、演講以及數據科學競賽的結果。這些通常是 HR 第二關心的,但它們也是突出和證明你能力的一種很好的方式。
演講
演講是一種幫助教導他人的有效方式,它還能夠向 HR 證明你對某個話題已經熟悉到足以為人師的地步。它可以幫助 HR 認識你的溝通與演說能力。這些技能與作品集的其他部分在一定程度上會有重疊,但仍然是很好的證明。
最常見的演講地點是當地的?Meetup。Meetup 上的演講都是圍繞具體主題展開的,比如 “Python”,或者“利用 D3 進行數據可視化”。
要做好演講,以下是幾個值得參考的步驟:
- 找一個你從事過的項目或熟悉的概念
- 最好先看一看作品集中的項目和博客文章
- 無論你最終挑了什么,它應該與聚會的主題是一致的
- 分解項目,并用幻燈片演示
- 你需要將項目進行分解,并用一系列幻燈片進行演示
- 每張幻燈片上的文字說明盡量少
- 多練習幾次演講
- 正式演講
- 將幻燈片上傳到 GitHub 或你的博客
如果你需要一些靈感,以下是一些優秀的演講例子:
- 計算統計學
- Scikit-learn vs Spark for ML pipelines
- NHL(國家冰球聯盟) 點球分析
數據科學競賽
數據科學競賽涉及用大量數據訓練最精確的機器學習模型。因此參加競賽是很好的學習方式。從 HR 的視角來看,數據科學競賽可以證明你的技術能力(如果你做得夠好的話),你的主動性(如果你確實付出了很多努力)以及你的協作能力(如果你是與他人合作參賽的)。這同樣與作品集的其他項目有重疊,但它也是突出你能力的第二種方式。
大多數數據科學競賽都由?Kaggle?和?DrivenData舉辦。
要參加(以上的)的數據科學競賽,你只需要在相應的網站上注冊,然后就可以開始了!你可以從這里開始一項競賽,你也可以在這里找到一些教程。
Kaggle 上一項賽事的排行榜
小結
現在,你對于要在作品集中展示哪些能力,以及如何打造作品集,應該有了一個清晰的概念。現在就可以行動起來了!
如果你已經有一份簡歷,想秀一下,請在評論區告訴我們!
本系列其他譯文:
點此查看原文鏈接
?
本文是「打造數據科學的作品集」的第三篇,全文大約 25000 字符,讀完大約需要 37 分鐘。
作者:Vik Paruchuri,譯者:唐曉霆,校對:EarlGrey,出品:PythonTG 翻譯組/編程派
如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。
數據科學公司在招聘時越來越看重個人作品集,原因在于作品集是衡量實際能力最好的方式之一。好消息是,你完全掌控著自己的作品集。如果付出一些努力,你就可以打造出令用人單位印象深刻的高質量作品集。
想要打造高質量作品集,第一步需要搞清楚應該在作品中展現什么能力。公司希望數據科學家具備的能力(也就是他們希望作品集能夠展示的能力)包括:
- 溝通能力
- 與他人協作能力
- 技術能力
- 數據推斷能力
- 主觀能動性
一個好的作品集一般由多個項目構成,每一個項目展示以上 1-2 個能力點。本文是講述如何建立一個豐滿的數據科學作品集的第三篇。本文將介紹如何打造作品集中的第二個項目,以及如何創建一個完整的機器學習項目。最后,你會擁有一個可以展示合理解釋數據能力和技術能力的項目。如果你想一窺項目全貌的話,這里是完整的項目文件。
一個完整的項目
作為一個數據科學家,有時候你會被叫去分析一個數據集,然后設法用數據講故事。這時,良好的溝通和清晰的思路是非常重要的。像我們在之前用到的 Jupyter notebook 這樣的工具,就能很好地幫助你做到這點。客戶的預期是總結你發現的演示報告或文檔。
然而,有時候你也會被叫去做有業務價值的項目。一個有業務價值的項目會直接影響公司的日常業務,而且會被大家頻繁使用。類似這樣的任務可能會是“設計一個可以預測用戶變動率的算法”, 或者是“創建一個自動給文章打標簽的模型”。在這類情況下,講故事的能力就沒有技術能力重要了。你需要能夠分析數據集,理解它,然后編寫可以處理這些數據的腳本。這些腳本還要跑的快,耗費最少的資源,如內存,這些都是很常見的要求。通常這些腳本需要頻繁運行,所以最終的交付品就變成了這些腳本自身,而不是報告。這些成果經常集成到業務流程中,甚至可能會直接面對用戶。
創建一個完整項目,要求你:
- 理解整個項目環境
- 探索數據并找到其中的細微差別
- 建立一個結構良好的項目,使其容易集成至業務流程中
- 寫出既運行快又占用最少系統資源的高性能代碼
- 為代碼的安裝和使用寫出良好的文檔,方便他人使用
為了高效地創建這樣的項目,我們需要和許多文件打交道。我們非常推薦使用像?Atom?的文檔編輯器,或者像?PyCharm?這樣的IDE。這些工具允許你在不同文件間跳轉,并且可以編輯不同類型的文件,比如 markdown 文件,Python 文件和 csv 文件。給你的代碼建立良好的結構,方便進行版本管理,并上傳到像Github這樣的代碼協作工具。
在本文中,我們會使用?Pandas?和?scikit-learn?等庫。我們會大量用到 Pandas 的DataFrame,這使得在 Python 中讀取和處理表格數據變得非常簡單。
尋找優質數據集
尋找優質數據集進行完整的項目分析很困難。數據集需要足夠大,大到出現內存和性能的限制。還需要具備業務價值。舉個例子,這個數據集中包含了美國大學的招生條件、畢業率和畢業生未來收入的數據。這就是一個可以用來講故事的優質數據集。然而,如果你仔細想想,就會發現這里面沒有足夠的細節來建立一個完整的項目。
舉例說,你可以告訴別人如果他們去某些(好)大學,他們未來的潛在收入就會更高,但是這只需要一個很快的查找比較就可以完成,沒有足夠的空間去展示你的技術能力。你也可以發現如果大學有更高的入學條件,它們的畢業生就更有可能獲得高薪,但這些就更偏向于講故事,而非業務價值了。
當你有 GB 以上的數據量時,或者當你想要預測一些數據細節,內存和性能限制就會逐漸凸現出來,因為得對數據集運行算法運算。
一個優質數據集允許你編寫一系列腳本對數據做變形,從而回答一些動態問題。股票價格就是一個很好的數據集。你可以根據這些數據預測第二天的股價走勢,并且在閉市的時候把新數據提供給算法。這可以幫助你執行交易,甚至是獲取利潤。這就不是在講故事了 — 而是直接產生價值。
下面是一些能夠找到優質數據集的地方:
瀏覽這些數據集時,想一想如果有這些數據集,人們可能會問什么問題,然后再想想這些問題是否是一次性的(“S&P 500 和房價的相關性是怎樣的?”),或是持續性的(“你能預測股票價格嗎?”)。這里的關鍵在于找到那些持續性的問題,這些問題需要多次運行,并輸入不同的數據才能回答。
本文中,我們選擇房利美(Fannie Mae)的貸款數據。房利美是一個由美國政府資助的從貸方手里購買房貸的企業。購買房貸之后,它會把這些房貸打包為一些由房貸支撐的證券(MBS)里,再賣出去。這樣就幫助了貸方貸出更多的房貸,并給市場創造了更大的流動性。這從理論上說就會產生更多的房屋業主,進而產生更好的房貸政策。然而從借方的角度來看,情況并沒有什么不同。
房利美公開了兩種數據 — 收購到的房貸數據,和房貸表現情況數據。在最理想的情況下,一個人從貸方貸了款,然后一直還錢,直到貸款還清。然而,借方有幾次沒有還款,就可能會導致失去抵押品贖回權。這時,銀行就會獲得房屋的所有權,因為沒還清房貸。房利美記錄了哪些房貸沒有還,哪些房貸需要取消抵押品贖回權。這個數據每個季度發布一次,而且會滯后一年。撰寫本文時,最近的數據集是 2015 年第一季度。
房利美購買房貸時會發布收購信息,其中含有許多關于借方的信息,包括信用評分、房貸和房屋的信息。之后,每個季度發布房貸表現數據,涵蓋了借方的支付信息,和抵押權的狀態。房貸表現信息里可能有很多行。你可以這么想這個事,收購信息表示房利美現在控制了房貸,表現信息則包括了一系列房貸的狀態更新。有的狀態可能會說這筆貸款在某個季度借方抵押權被取消了。
一個借方失去了抵押品贖回權(止贖)的房子被出售
選擇分析角度
對于房利美數據集,我們可以有多個分析角度。我們可以:
- 嘗試預測一個止贖了的房屋的售價
- 預測一個借方的還款歷史
- 計算出一個被收購時房貸的評分
重要的事是要堅持一個角度。一次專注于太多事情會很難做成一個優秀的項目。選擇一個有足夠細節的角度這點也很重要。以下是一些沒有多少細節的角度:
- 哪家銀行賣給房利美最多止贖的房貸
- 借方信用評分的趨勢
- 哪些房屋類型最經常止贖
- 房貸金額和止贖售價的關系
上述的這些角度都很有趣,如果我們關注講故事的話是很棒的話題,但對于一個業務性的項目來說就沒那么好了。
有了房利美數據集,我們將嘗試僅僅使用收購房貸時的數據,預測房貸是否會被止贖。實際上,我們會為每一份房貸“打分”,這個分數表示房利美是否應該購買這份房貸。這將是一個良好的基礎,也是一個很棒的作品。
理解數據
我們首先快速查看原始數據文件。下面是 2012 年第一季度收購數據的前幾行:
100000853384|R|OTHER|4.625|280000|360|02/2012|04/2012|31|31|1|23|801|N|C|SF|1|I|CA|945||FRM| 100003735682|R|SUNTRUST MORTGAGE INC.|3.99|466000|360|01/2012|03/2012|80|80|2|30|794|N|P|SF|1|P|MD|208||FRM|788 100006367485|C|PHH MORTGAGE CORPORATION|4|229000|360|02/2012|04/2012|67|67|2|36|802|N|R|SF|1|P|CA|959||FRM|794下面是 2012 年第一季度的表現數據的前幾行:
100000853384|03/01/2012|OTHER|4.625||0|360|359|03/2042|41860|0|N|||||||||||||||| 100000853384|04/01/2012||4.625||1|359|358|03/2042|41860|0|N|||||||||||||||| 100000853384|05/01/2012||4.625||2|358|357|03/2042|41860|0|N||||||||||||||||在編寫代碼之前,花點時間去理解數據是很有用的。尤其對于業務型項目而言,因為我們沒有互動式地去探索數據,很難發現某些細節,除非一開始就找到它們。這種情況下,第一步就是去房利美的網站上讀一讀有關數據集的材料:
- 簡介
- 詞匯表
- 常見問題
- 收購和表現文件里的列
- 收購數據樣本文件
- 表現數據樣本文件
讀完這些材料之后,我們知道了一些有用的關鍵信息:
- 從 2000 年到現在,每個季度都有一個收購文件和表現文件。數據滯后一年,所以最近的數據是 2015 年的
- 這些文件是文本形式,用 | 作為分隔符
- 這些文件沒有頭文檔,但是我們有所有列名稱的列表
- 全部加起來,這些文件共包含 2.2 千萬個房貸的數據
- 因為表現文件涵蓋了之前的房貸信息,所以早些時候的房貸會有更多的表現數據(舉個例子,2014 年收購的房貸不會有太多表現信息)
在設計項目結構和處理數據時,這些信息能幫助我們節省一大筆時間。
設計項目結構
在開始下載和探索數據之前,設計好項目結構是非常重要的。在打造一個完整的項目時,我們的主要目標是:
- 輸出一個可行的解決方案
- 解決方案運行快且消耗最少資源
- 讓他人可以很容易地擴展項目
- 讓他人可以容易地理解代碼
- 寫的代碼越少越好
為了達到這些目標,我們要設計好項目的結構。一個結構良好的項目遵從以下規范:
- 數據文件和源代碼分開
- 原始數據和生成數據分開
- 有一個 README.md 文件,介紹如何安裝并使用這個項目
- 有一個 requirements.txt 文件,包含項目所需的所有模塊
- 有一個 settings.py 文件,包含所有其他文件所需的設置
- 例如,如果有很多Python腳本都讀取同一個文件,就不如讓它們都導入settings并從這一個地方來得到文件
- 有一個 .gitignore 文件,來防止一些特別大的或者私密的文件被提交到 Git
- 把任務分成幾步,并分別放在可以單獨執行的文件里
- 例如, 用一個文件讀取數據,一個文件建立特征,一個文件執行預測
- 儲存中間值。例如,一個腳本可能會輸出一個文件,這個文件又會被另外一個腳本讀取
- 這使得我們可以在數據處理的流程中做一些改動,而又不需要重新計算
該項目的文件結構如下:
loan-prediction ├── data ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py創建初始文件
首先,創建 loan-prediction 文件夾。在這個文件夾里,創建 data 文件夾和 processed 文件夾。第一個用來儲存原始數據,第二個用來儲存所有中間值。
接著,創建 .gitignore 文件。.gitignore 文件會確保一些文件會被 git 忽略,并不會被推送到 Github 上。OS X 在每個文件夾里創建的 .DS_Store 文件就是這類需要忽略的文件。要入門 .gitignore 文件,可以參考這里。還要忽略一些體積太大的文件,而且房利美的條款并不允許二次發布這些文件,所以我們應該在 .gitignore 文件最后加上這兩行:
這里是本項目的示例 .gitignore 文件。
接著,創建 README.md ,這有助于人們理解項目。.md 代表這個文件是 markdown 格式。Markdown 能讓你直接用純文本寫作,但是如果想的話,也可以添加一些好看的排版格式。這里是一個 markdown 指南。如果你往 Github 上傳了一個叫 README.md 的文件,Github 會自動處理該文件,把它作為主頁展示給瀏覽者。這里有一個例子。
目前,只需要在README.md里面放一段簡短的描述:
Loan Prediction -----------------------Predict whether or not loans acquired by Fannie Mae will go into foreclosure. Fannie Mae acquires loans from other lenders as a way of inducing them to lend more. Fannie Mae releases data on the loans it has acquired and their performance afterwards [here](http://www.fanniemae.com/portal/funding-the-market/data/loan-performance-data.html).現在,創建 requirements.txt 文件。這可以幫助其他人安裝我們的項目。目前還不知道具體需要哪些庫,但下面這些是一個好的起點:
pandas matplotlib scikit-learn numpy ipython scipy以上是用 Python 作數據分析最常用的幾個庫,在這個項目中應該會用到它們。這里是本項目的示例 requirements 文件。
創建 requirements.txt 之后,你應該安裝這些模塊。在本文中,我們使用 Python 3 。如果你還沒有安裝 Python,建議使用?Anaconda,這是一個可以安裝上述所有模塊的 Python 安裝器。
最后,創建一個空白的 settings.py 文件,因為項目還沒有任何設置。
獲得數據
創建好整個項目的框架之后,就可以獲取原始數據了。
房利美對數據下載有一些限制,所以你得先注冊一個賬號。下載頁面在這里。注冊完賬戶后,就可以隨意下載貸款數據了。文件是 zip 格式,解壓之后也挺大的。
本文中,我們會把 2012 年第一季度到 2015 年第一季度之間的所有數據都下載下來。然后解壓文件,解壓之后,刪除原始的 .zip 文件。最后,loan-prediction 文件夾的結構應該類似這樣:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py下載完數據之后,可以用 head 和 tail 等 shell 命令去觀察文件的前幾行和后幾行。有沒有不需要的列?查看數據時可以參考一下介紹列名稱的 PDF 文件
讀取數據
有兩個問題,使得直接處理數據比較困難:
- 收購和表現數據集被分散在了許多文件里
- 所有文件都缺少頭文檔
在開始處理這些數據之前,需要把所有的收購數據集中到一個文件,所有的表現數據集中到一個文件。每個文件只需要包含我們關心的列,和正常的頭文檔。這里有一個小問題,即表現數據特別大,所以可能的話我們得刪減一些列。
第一步是在 settings.py 里面增添一些變量,包含到原始數據和中間數據的路徑。我們也會加上一些之后會有用的設置:
DATA_DIR = "data" PROCESSED_DIR = "processed" MINIMUM_TRACKING_QUARTERS = 4 TARGET = "foreclosure_status" NON_PREDICTORS = [TARGET, "id"] CV_FOLDS = 3把路徑放在 settings.py 里面,會使得它們統一在一個地方,使得今后改動變得簡單。當許多文件都用了同一些變量的時候,把它們放在一起會比分別在每個文件里做改動要簡單得多。這里是該項目的示例 settings.py 文件。
第二步是創建一個叫做 assemble.py 的文件,這個文件會把分散的數據組合成 2 個文件。運行 python assemble.py 后,會在 processed 文件夾里面得到 2 個數據文件。
然后再 assemble.py 中寫代碼。首先,給每個文件定義頭文檔,所以我們需要查看解釋列名稱的 PDF 文檔,然后為收購數據和表現數據文件分別創建一個列表,表示其中的行。
HEADERS = {"Acquisition": ["id","channel","seller","interest_rate","balance","loan_term","origination_date","first_payment_date","ltv","cltv","borrower_count","dti","borrower_credit_score","first_time_homebuyer","loan_purpose","property_type","unit_count","occupancy_status","property_state","zip","insurance_percentage","product_type","co_borrower_credit_score"],"Performance": ["id","reporting_period","servicer_name","interest_rate","balance","loan_age","months_to_maturity","maturity_date","msa","delinquency_status","modification_flag","zero_balance_code","zero_balance_date","last_paid_installment_date","foreclosure_date","disposition_date","foreclosure_costs","property_repair_costs","recovery_costs","misc_costs","tax_costs","sale_proceeds","credit_enhancement_proceeds","repurchase_proceeds","other_foreclosure_proceeds","non_interest_bearing_balance","principal_forgiveness_balance"] }下一步是定義需要保留哪些列。因為我們關心的房貸只是關于它有沒有被止贖,所以可以從表現數據里面丟棄很多列(不影響是否止贖的數據)。但是我們需要保留所有收購數據,因為我們想要盡可能多的房貸信息(畢竟我們要在收購房貸時預測是否會被止贖)。丟棄一些列可以省下一些磁盤空間和內存,同時也會加速代碼的運行速度。
SELECT = {"Acquisition": HEADERS["Acquisition"],"Performance": ["id","foreclosure_date"] }接下來,寫一個函數來拼接所有的數據集。下面的代碼會:
- 導入一些需要的庫,包括settings
- 定義函數 concatenate,它可以:
- 拿到 data 目錄里面所有文件的名字
- 遍歷每個文件
- 如果文件的格式不對(并不是以預期的前綴開始),就忽略它
- 用 Pandas 的read_csv函數,把文件讀取到一個?DataFrame?里
- 把分隔符設置為 | ,正確讀取數據
- 數據現在沒有頭文檔,所以把 header 設置成 None
- 把 HEADERS 字典里的值設置為列的名稱,這些會成為 DataFrame 里面的列名稱
- 只把加在 SELECT 里面的列從 DataFrame 里面選出來
- 把所有的 DataFrame 拼接在一起
- 把拼接好的 DataFrame 輸出成一個文件
可以用參數 Acquisition 和 Performance 分別調用上面的函數,把所有的收購和表現文件拼接在一起。下面的代碼會:
- 只當腳本是在命令行用 python assemble.py 執行時運行
- 拼接所有文件,并輸出成兩個文件:
- processed/Acquisition.txt
- processed/Performance.txt
我們現在有了一個模塊化的 assemble.py 文件,既容易運行,又易擴展。像這樣把大問題劃分成小問題,我們將項目變得更簡單。我們把不同文件分離開,定義它們之間的數據,而不是用一個腳本做所有的事情。當你在做一個大項目的時候,這樣做通常很好,因為更改一些文件后不會產生不可預期的結果。
完成 assemble.py 腳本后,運行 python assemble.py 。你可以在這里找到完整的腳本。
這會在 processed 目錄里面輸出兩個文件:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt ├── .gitignore ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py表現數據計算
下一步就是從 processed/Performance.txt 數據中計算一些值。我們想做的就是預測一間房產以后會不會被止贖。為了弄明白這一點,我們只需要看看表現數據里面的房貸是否有一個 foreclosure_date 。如果 foreclosure_date 是 None ,那么這間房產就沒有被止贖。我們也需要規避那些在表現數據里沒有多少歷史數據的房貸,要做到這一點,通過計算它們在表現數據里面累計有多少行就可以。
可以用下面的方法來思考收購數據和表現數據的關系:
我們發現,收購數據里每一行都對應了表現數據中的多行。在表現數據中,當止贖發生的時候,當季度的 foreclosure_date 就會出現日期,在這之前都應該是空白的。一些貸款從未被止贖,所以與之相關的表現數據里的 foreclosure_date 都是空白的。
我們需要計算 foreclorsure_status ,這是一個布爾值,代表一個貸款 id是否有被止贖過。我們也要計算 performance_count ,也就是每個 id 在表現數據里有多少行。
有幾種方法可以計算 performance_count:
- 讀取所有的表現數據,然后用 Pandas 的?groupby?方法求每個貸款 id 相關聯的行數,同時 id 對應的 foreclosure_date 有沒有不是 None 過。
- 這樣做的好處是實現的語法很簡單
- 這樣做的壞處是讀取 129236094 行數據會花很多內存,而且極其慢
- 我們可以讀取所有的表現數據,然后在收購數據 DataFrame 上使用?apply?,從而求得每個 id 的計數
- 好處是概念上很簡單
- 壞處仍然是讀取 129236094 行數據會花很多內存,而且極其慢
- 我們可以遍歷表現數據里的每一行,然后保存一個單獨的包含計數的字典
- 好處是不需要把所有數據一起讀取進內存,所以這樣做會很快,也會優化內存
- 壞處是得花長一點時間來理清概念和實現,而且需要手工地解析每一行
把所有數據一并加載會花很多內存,所以我們采用第三種方法。我們所要的就是遍歷表現數據里面的每一行,并且保存一個包含每個 id 的計數字典。在字典里面,我們記錄下表現數據里面每個 id 出現了多少次,并且 foreclosure_date 是否為非 None 過。這樣就能求出 foreclosure_status 和 performance_count 。
新建一個文件 annotate.py ,并加入用來計算的代碼。在下面的代碼中,我們會:
- 導入需要的庫
- 定義一個叫做 count_performance_rows 的函數
- 打開 precessed/Performance.txt 。這不會把文件讀取進內存,而僅僅是打開一個文件句柄,一行一行地讀取文件內容
- 遍歷文件里的每一行
- 根據分隔符 | 分割字符串
- 檢查 loan_id 是否在 counts 字典里
- 給 load_id 對應的 performance_count 加1
- 如果 date 不是 None,那么我們就知道這筆貸款止贖了,所以設置相應的 foreclosure_status
得到計算結果
創建建了 counts 字典后,我們可以用一個函數抽取出和傳入的 load_id 和 key 相應的值了:
def get_performance_summary_value(loan_id, key, counts):value = counts.get(loan_id, {"foreclosure_status": False,"performance_count": 0})return value[key]上面這個函數會從 counts 字典里返回相應的值,并且可以讓我們為收購數據里每一行添加 foreclosure_status 和 performance_count 值。字典的?get?方法在沒有找到 key 的情況下就會返回一個默認值,所以就算沒有找到也能返回合理的默認值。
給數據做標記
我們已經在 annotate.py 中添加上一些函數,現在可以開始處理最有價值的部分了。我們需要把收購數據轉換成一個機器學習算法可以使用的訓練集。需要做以下幾件事:
- 把所有數據變成數字
- 補足空白的值
- 給每一行添加一個 performance_count 和一個 foreclosure_status
- 刪除那些沒有多少表現歷史數據的行(那些 performance_count 很低的行)
有幾列的數據都是文字,這在機器學習里沒有什么用。然而它們其實是類別變量,比如說 R、S 這樣的類別編號。我們分別賦予它們數字,從而把它們變成數字:
這樣轉化了之后,就能把它們用于機器學習。
一些列也包含了時間( first_payment_date 和 origination_date )。可以把它們各自分割成兩列:
下面的代碼中,我們會轉換收購數據。定義一個函數,這個函數會:
- 從 counts 字典里獲取數據,在 acquisition 里建立一個 foreclosure_status 列
- 從 counts 字典里獲取數據,在 acquisition 里建立一個 performance_count 列
- 把下面的列從文字轉成數字:
- channel
- seller
- first_time_homebuyer
- loan_purpose
- property_type
- occupancy_status
- property_state
- product_type
- 分別把 first_payment_date 和 origination_date 轉換成兩列:
- 以 / 為分隔符進行分割
- 把第一部分賦予 month 列
- 把第二部分賦予 year 列
- 刪除原本列
- 最后,我們就會有 first_payment_month、first_payment_year、origination_month 和 origination_year
- 將 acquisition里的所有缺失值都替換成 -1
拼接所有數據
很快就可以將所有數據拼接在一起了,在這之前我們只要再加一些代碼到 annotate.py 里。在下面的代碼中,我們:
- 定義一個函數來讀取收購數據
- 定義一個函數把處理過的數據寫入 processed/train.csv
- 如果文件是從命令行傳入的,比如 python annotate.py,則:
- 讀取收購數據
- 計算表現數據的累計數目,并賦值給 counts
- 給 acquisition DataFrame 做標記
- 把 acquisition DataFrame 寫入 train.csv
寫好文件后,記得用 python annotate.py 來運行它,這會生成一個 train.csv 文件。完整的 annotate.py 文件在這里。
文件夾現在應該長這樣:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py尋找誤差衡量指標
我們生成好了訓練數據,現在只需要完成最后一步,生成預測。我們需要找到一個誤差的衡量指標,以及如何評估數據。就本文而言,沒有被止贖的貸款比止贖的貸款多得多,所以典型的準確度衡量并不適用。
如果我們看一看訓練數據,并查看 foreclosure_status 列的計數,會發現:
import pandas as pd import settingstrain = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv")) train["foreclosure_status"].value_counts() False 4635982 True 1585 Name: foreclosure_status, dtype: int64因為只有這么一點點貸款是止贖了,所以如果我們只看有多少百分比的標簽被正確預測了,那我們即使建立了一個只預測 False 的模型,一樣可以得到很高的準確度。所以我們采用的衡量指標要把這種不平衡考慮進去,確保準確預測。我們不想要太多假正(False Positive),即預測一個貸款會止贖,但其實不會,或者太多假負(False Negative),即預測一個貸款不會被止贖,但其實會。在這兩者之間,假負對房利美來說成本更高,因為他們買的這些房貸沒法收回投資。
我們定義假負率為預測不會止贖但其實會的預測數量,除以總的止贖貸款數量。這就是模型沒有體現的實際止贖百分比。下面是一個圖表:
在上圖中,狀態為 1 的貸款被預測為非止贖,但它其實被止贖了。如果把它除以實際止贖貸款數量 2,錯誤的負預測率為 50% 。我們用它作為誤差衡量指標,這樣就能夠有效地評估模型的表現。
為機器學習設置好分類器
我們使用交叉驗證來做預測。為了進行交叉驗證,我們把數據分成 3 組,然后:
- 在 1 組和 2 組上訓練模型,然后在 3 組上預測
- 在 1 組和 3 組上訓練模型,然后在 2 組上預測
- 在 2 組和 3 組上訓練模型,然后在 1 組上預測
把數據分成幾組意味著我們不會用同樣的數據來訓練模型,然后又用同樣的數據來做預測。這就避免了過擬合。如果過擬合了,就會得到一個錯的低假負率,也就是說我們的模型很難應用于真實情況或進行后續改進。
Scikit-learn?中有一個叫做?cross_val_predict?的函數,使得交叉驗證變得很容易。
我們還需要挑選一個算法來做預測。我們需要一個分類器來做二元分類。因為目標變量 foreclosure_status 只有兩個值,True和Flase。
我們使用?邏輯回歸算法。因為它在二元分類下表現很好,運行得極快,而且消耗很少內存。這是因為這個算法的工作方式 — 它不會像隨機森林算法那樣建立一堆決策樹,或像支持向量機那樣做很耗資源的變換,其設計的矩陣操作相對來說少得多。
我們可以用 scikit-learn 里自帶的邏輯遞歸分類器算法。唯一需要注意的就是每個類的權重。 如果給每個類同樣的權重,,算法就會對每一行預測 False ,因為它要最小化誤差.。然而,我們更關心止贖的貸款而不是不會止贖的貸款。因此,我們給?Logistic Regression 類傳入 balanced 參數到 class_weight 關鍵字中,從而得到一個考慮樣本數量而給于平衡的比重的算法。這樣就能確保算法不會對每一行都預測 False。
進行預測
現在已經完成了前期準備工作,可以開始做預測了。創建一個叫 predict.py 的新文件,使用我們之前創建的 train.csv。下面的代碼會:
- 導入需要的庫
- 創建一個 cross_validate 函數,它會:
- 用正確的關鍵詞參數創建一個邏輯遞歸分類器
- 創建用來訓練模型的數據列列表,同時刪除 id 和 foreclosure_status 列
- 在 train DataFrame 上運行交叉驗證
- 返回預測
預測誤差
現在只需要寫一些函數來計算誤差。下面的代碼會:
- 創建 computer_error 函數,它會:
- 用 scikit-learn 計算一個簡單準確度評分(符合真實 foreclosure_status 值的預測的百分比)
- 創建 computer_false_negatives 函數,它會:
- 把目標和預測寫進一個 DataFrame
- 計算假負率
- 創建 computer_false_positives 函數,它會:
- 把目標和預測寫進一個DataFrame
- 計算假正率
- 找到模型預測為止贖但并未止贖的貸款數量
- 用這個數量除以不是止贖的貸款數量
整合所有函數
現在,把上面的函數都放在 predict.py 里面。下面的代碼會:
- 讀取數據集
- 計算交叉驗證預測
- 計算上面提到的 3 個誤差值
- 打印出誤差值
添加完這些代碼后,可以運行 python predict.py 來生成預測。結果顯示,假負率為 .26 ,也就是說對于止贖貸款來說,我們錯誤地預測了其中的 26% 。這是個好的開始,但還有很大的提升空間。
完整的 predict.py 文件在這里。
文件樹現在應該長這樣:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── predict.py ├── README.md ├── requirements.txt ├── settings.py撰寫 README
現在我們完成了這個完整的項目, 接下來只需要寫 README.md 文件進行總結,向他人說明我們做了什么,以及如何復制它。一個典型的 README.md 應該包括以下內容:
- 項目概覽及目標
- 如何下載所需數據或材料
- 安裝教程
- 使用教程
- 如何貢獻
這里是本項目的示例 README.md。
下一步
恭喜,你已經完成了一個完整的機器學習項目!你可在這里找到完整的示例項目。完成項目之后,記得上傳到 Github 上,這樣其他人就會看到這是你作品集的一部分。
這些數據尚有一些地方待你挖掘。大致來說,我們可以把它們分成 3 類 — 擴展項目提高準確率,利用其它數據列進行預測,進一步探索數據。以下想法僅供參考:
- 用 annotate.py 生成更多特征
- 在 predict.py 里換個算法
- 使用更多來自房利美的數據
- 加上一個預測未來數據的方法。如果添加更多的數據,目前的代碼都是可以運行的,所以我們可以加上更多過去的或者未來的數據
- 嘗試能不能預測銀行一開始該不該放出貸款(以及房利美應不應該收購貸款)
- 刪除那些銀行在發放貸款時不能獲得的信息列
- 做預測
- 探索一下能不能預測除了 foreclosure_status 以外的數據
- 探索一下表現數據更新時的細節
- 能不能預測借方遲付貸款的次數?
- 能不能畫出典型的貸款周期?
- 按州或郵編對數據進行繪圖
數據科學家如何找到心儀的工作?
閱讀 665 收藏 24 2016-10-14 原文鏈接:zhuanlan.zhihu.com 想要一氣呵成,進攻前端開發嗎?騰訊課堂前端開發NEXT學位課程,不僅有實習推薦還有學費減免機會!立即報名吧!https://ke.qq.com/next/index.html本文是「打造數據科學的作品集」的第四篇,全文大約 9800 字,讀完大約需要 17 分鐘。如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。
作者:Vik Paruchuri,譯者:趙喧典,校對:EarlGrey,出品:PythonTG 翻譯組/編程派
在本系列中,我們已經討論了如何用數據講故事,如何打造一個完整的機器學習項目,以及如何搭建一個數據科學博客。而本文,我們將回過頭來,重點討論如何創建高大上的數據科學作品集。我們將討論什么技能是雇主希望看到的,以及如何創建一份作品集以有效地展示所有的技能。我們將舉例說明作品集中的項目應該如何呈現,并給你一些起步的建議。
讀完這篇文章之后,你應該能夠理解為什么要創建數據科學作品集,以及具體的方法。
雇主想要什么
雇主招人時,想要的是那些能為企業創造價值的人。這通常意味著,應聘者需要掌握能為企業帶來收入和機遇的技能。而作為數據科學家,可以通過以下 4 種方式為企業創造價值:
- 對原始數據的敏銳洞察,并向他人展示。
- 例子:分析廣告點擊率,會發現面向 18 到 21 周歲人群的廣告比面向 21 到 25 周歲人群的廣告帶來的成本收益高得多——企業據此調整它的廣告投入,這就創造了商業價值。
- 構建能為客戶帶去直接價值的系統。
- 例子:Facebook 的一位數據科學家通過優化新聞流為用戶展現更好的結果——這導致更多人訂閱新聞流,意味著更多的廣告訂閱,這就為 Facebook 帶來直接收入。
- 構建能為公司其他人帶去直接價值的系統
- 例子:編寫腳本自動地從 3 個數據庫提取數據并聚合,為他人進行分析通過干凈的數據集——通過提高他人的工作效率,這也創造了價值。
- 與公司其他人分享專業知識
- 例子:與產品經理討論如何實現用到機器學習算法的功能——通過防止不切實際的時間表和半成品,這也創造了價值。
毋庸置疑的是,當雇主考核應聘者時,他們會考核應聘者是否具備上述四項技能的一項或多項(根據公司和崗位不同,可能需要應聘者同時具備多項技能)。為了向企業證明你能在上述所列 4 個領域能幫到企業,你需要展示自身具備以下技能:
- 溝通能力
- 與他人協作能力
- 技術能力
- 數據推斷能力
- 主觀能動性
一個面面俱到的作品集應該足以展示你在上述各方面的技能,并且對他人而言是易審視的——作品集中的每一項都應該具備豐富的文檔,清晰明了,這樣,招聘經理才能快速地對你的作品集進行評估。
為什么要打造作品集
如果你擁有頂尖學府的機器學習或相關領域的學位,獲得數據科學相關的工作會相對容易。因為頂尖學府的聲譽以及專業對口的事實,雇主相信你能為企業創造價值。但如果你沒有來自頂尖學府的相關學位,你就不得不為自己建立這份信任。
這樣說吧:對于雇主而言,需求的崗位有多達 200 份的申請。假設 HR 總共花 10 小時過濾申請以確定電話面試哪些人。這意味著平均每個申請只有 3 分鐘的評估時間。開始時,HR 不相信你能為企業創造價值,而你有 3 分鐘的時間來建立他們對你的這份信任,進而為自己創造電話面試的機會。
數據科學的一大特征是,你在自己的項目中所做的工作,和你被錄用之后所做的工作幾乎一樣。作為數據科學家,在?Lending Club?分析信貸數據,可能與分析他們發布的匿名貸款數據有很大的相似之處。
Lending Club 匿名數據的前幾行
建立 HR 對你的信任,最重要的就是證明你能做他們需要你做的工作。對于數據科學而言,這就需要我們創建一套項目作品集。項目越“真實”,HR 越相信你將是企業的有用之人,你獲得電話面試的機會就越大。
數據科學作品集需要包含哪些內容
既然我們知道了需要一個作品集,我們就需要弄清楚它需要包含哪些內容。至少,你應該在?GitHub?或你的博客上有一些項目,代碼是可見的,并配有良好的文檔。HR 越是容易找到這些項目,他們就越容易對你的技能進行評估。每個項目都應該盡可能配有良好的文檔,用 README 文件說明如何進行設置,并介紹數據的特點。
GitHub 上一個組織良好的項目
我們將討論一些應該放入作品集的項目類型。建議每種類型都有多個項目,尤其是與你希望從事的崗位相關的項目類型。比方說,如果你申請的崗位需要大量機器學習的知識技能,那么多創建一些用到機器學習的項目會很有幫助。另一方面,如果你申請的是分析師的崗位,那么數據清理和數據呈現項目就更關鍵了。
數據清理項目
數據清理項目向 HR 展示了你能夠提取不同的數據集并加以利用。數據清理是數據科學家做的最多的工作,因此,它是需要展示的關鍵技能。這類項目涉及提取雜亂數據,然后清理,并做分析。數據清理項目證明了你的數據推理能力,以及你將多個數據源的數據提取整合為單個數據集的能力。數據清理是所有數據科學家工作的重要部分,展示你已經具備該項能力將是一大優勢。
你將需要把原始數據清理成易于分析的形式。要做到這一點,你需要:
- 找一個雜亂的數據集
- 選一個可用數據作答的問題
- 清理數據
- 如果有多個數據文件,將它們整合到一起
- 確保你希望進行探索的角度,在數據層面是可實現的
- 做一些基礎分析
- 展示結果
- 建議用?Jupyter Notebook?或?R Markdown?進行數據清理和分析
- 確保代碼和邏輯是可理解的,盡可能多地使用注釋和 Markdown 單元格闡明過程
- 將項目上傳到 GitHub
- 由于許可的問題,不是總能將原始數據一并提交到 Git 倉庫,因此你至少要描述一下原始數據,并說明出處。
本系列的第一篇文章在第一部分介紹了如何一步步創建一個完整的數據清理項目。你可以在這里查看。
部分紐約市學校數據的數據字典
如果你在尋找一個好的數據集上有困難,以下是一些例子:
紐約市地鐵,人來人往
如果你想要一些靈感,以下是一些優秀的數據清理項目的例子:
數據呈現項目
數據呈現項目展現了你對數據的洞察力,從數據中提取洞見并用數據說話的能力。用數據講故事對商業價值有巨大影響,因此,這將是你簡歷的重要組成部分。這個項目涉及提取一組數據,并用數據呈現一個令人信服的結論。例如,你可以利用航班數據說明某些機場存在顯著的航班延遲現象,而這也許可以通過改變航線改善。
一個優秀的數據呈現項目會用到大量的可視化,并能一步步地引導讀者了解分析結果。以下是創建一個優秀的數據呈現項目的參考步驟:
- 找一個有趣的數據集
- 從不同角度探索數據
- 探索數據
- 從數據中找出有趣的相關性
- 創建圖表并一步步展示你的發現
- 詳細記錄這個引人注目的過程
- 從所有的探索中挑選一個最有趣的角度
- 記錄從原始數據到最終發現的探索過程
- 創建令人信服的圖表
- 就探索過程中每一步的思考,進行充分闡述,也可以對代碼進行解釋
- 就每一步的結果,做豐富的分析,以清晰地告訴讀者
- 告訴讀者你在分析數據過程中的所思所想
- 展示結果
本系列的第一篇文章的第二部分,已經介紹了如何一步一步讓數據發聲。你可以在這里查看。
按街區 SAT 成績劃分的紐約市地圖
如果你在尋找一個好的數據集上有困難,這里有一些例子:
- Lending club 的貸款數據
- FiveThirtyEight 的數據集
- Hacker new 的數據
如果你想要一些靈感,以下是一些優秀的數據呈現項目的例子:
- Hip-hop 與美國總統候選人特朗普
- 紐約市出租車與優步數據分析
- 跟蹤研究 NBA 球員的運動
提及 2016 年美國總統大選候選人的歌詞(圖片來自以上第一個項目)
端到端項目
到目前為止,我們已經介紹了涉及探索性數據清理和分析的項目。這些項目能讓 HR 更好地認識到你對數據的洞察力以及呈現數據的能力。然而,它們并不足以展示你的創建面向客戶的系統的能力。面向客戶的系統涉及高性能的代碼,這意味著系統可以使用不同數據,運行多次,產生不同輸出。舉個例子,一個可以對股市進行預測的系統——每天早上,它會自動下載最新的股市數據,然后據此預測當天哪些股票會走紅。
為了展現我們能夠創建業務系統,我們需要創建一個端到端的項目。端到端的項目接收并處理數據,然后產生輸出。通常,這些輸出都是機器學習算法的結果,但也可以是其他輸出,比如符合某一標準的行總數。
這里的關鍵是,要讓系統能靈活地處理新的數據(比如股市數據),并具有高性能。此外,使代碼易于安裝設置與運行也很重要。以下是創建一個優秀的端到端項目的參考步驟:
- 找一個有趣的話題
- 我們不會僅處理一個單一的靜態數據集,因此,你需要定一個話題
- 該話題下應該有公開的、經常更新的數據
- 以下是一些例子:
- 導入并解析多個數據集
- 在你的能力范圍內,下載盡可能多的數據
- 閱讀理解數據
- 找出你所期望的預測內容
- 創建預測
- 整理代碼并配上文檔
- 將代碼分解為多個文件
- 在項目中添加一個 REAME 文件,闡述如何安裝和運行該項目
- 添加內聯文檔
- 使代碼能輕松地從命令行運行
- 上傳項目到 GitHub
本系列的第三篇文章中已經介紹了如何一步一步創建端到端的機器學習項目。你可以在這里查看。
如果你在定一個好的話題上有困難,以下是一些例子:
- 歷史上的 S&P 500 數據
- 流式 Twitter 數據
S&P 500 數據
如果你想要一些靈感,以下是一些優秀的端到端項目例子:
說明性文章
理解并解釋復雜的數據科學概念很重要,比如機器學習的算法。這可以讓 HR 認識到,你善于向公司內的其他人或客戶解釋復雜的概念。這也是數據科學作品集的關鍵點,因為它是現實世界中數據科學工作的重要部分。這同時還展示了你對概念及其工作原理有深入的理解,而不是僅僅停留在語法層面。深入的理解有助于你更好地判斷并做出更好的選擇,以及向他人介紹你的工作。
為了寫一篇說明性的文章,我們首先需要挑一個數據科學的話題,然后撰寫博客。這篇文章需要帶領讀者從一無所知到對概念有一個清晰的了解。而寫文章的關鍵是,使用樸實的、簡單的的語言——你寫得越專業,HR 就越難知道你是真懂還是裝懂。
寫說明性文章的幾個重要的步驟是:挑一個你熟悉的話題,帶領讀者理解概念,然后利用最終的概念做一些有趣的事。以下是一些的參考步驟:
- 找一個你熟悉的或想要去學習的概念
- 挑一個數據集輔助解釋
- 比方說,如果你選擇對 k-nearest nerghbors 進行闡述,你可以借助 NBA 的數據(尋找球路相似的球員)
- 列一個文章的大綱
- 假設讀者完全不了解你將闡述的概念
- 將概念分解成幾個部分
- 比如,k-nearest neighbors,可以分解為:
- 利用相似性進行預測
- 相似度量
- 歐式距離
- 利用 k = 1 進行匹配
- 利用 k > 1 進行匹配
- 比如,k-nearest neighbors,可以分解為:
- 撰寫文章
- 用直白的語言進行清晰的描述
- 圍繞一個中心點寫
- 試著找一個非技術人員讀一讀這篇文章,看看他們的反應
- 分享文章
- 最好發布到你自己的博客
- 如果沒有博客,就上傳到 GitHub
如果你在找一個好的概念上有困難,以下是一些例子:
k-平均算法的可視化
如果你想要一些靈感,下面是一些比較好的說明性文章的例子:
- 線性回歸
- 自然語言處理
- 樸素貝葉斯
- k-nearest neighbors
可選的作品集構件
雖然上傳至 GitHub 和博客的項目很關鍵,但是添加一些其他的組件也會很有幫助,比如 Quora 上的回答、演講以及數據科學競賽的結果。這些通常是 HR 第二關心的,但它們也是突出和證明你能力的一種很好的方式。
演講
演講是一種幫助教導他人的有效方式,它還能夠向 HR 證明你對某個話題已經熟悉到足以為人師的地步。它可以幫助 HR 認識你的溝通與演說能力。這些技能與作品集的其他部分在一定程度上會有重疊,但仍然是很好的證明。
最常見的演講地點是當地的?Meetup。Meetup 上的演講都是圍繞具體主題展開的,比如 “Python”,或者“利用 D3 進行數據可視化”。
要做好演講,以下是幾個值得參考的步驟:
- 找一個你從事過的項目或熟悉的概念
- 最好先看一看作品集中的項目和博客文章
- 無論你最終挑了什么,它應該與聚會的主題是一致的
- 分解項目,并用幻燈片演示
- 你需要將項目進行分解,并用一系列幻燈片進行演示
- 每張幻燈片上的文字說明盡量少
- 多練習幾次演講
- 正式演講
- 將幻燈片上傳到 GitHub 或你的博客
如果你需要一些靈感,以下是一些優秀的演講例子:
- 計算統計學
- Scikit-learn vs Spark for ML pipelines
- NHL(國家冰球聯盟) 點球分析
數據科學競賽
數據科學競賽涉及用大量數據訓練最精確的機器學習模型。因此參加競賽是很好的學習方式。從 HR 的視角來看,數據科學競賽可以證明你的技術能力(如果你做得夠好的話),你的主動性(如果你確實付出了很多努力)以及你的協作能力(如果你是與他人合作參賽的)。這同樣與作品集的其他項目有重疊,但它也是突出你能力的第二種方式。
大多數數據科學競賽都由?Kaggle?和?DrivenData舉辦。
要參加(以上的)的數據科學競賽,你只需要在相應的網站上注冊,然后就可以開始了!你可以從這里開始一項競賽,你也可以在這里找到一些教程。
Kaggle 上一項賽事的排行榜
小結
現在,你對于要在作品集中展示哪些能力,以及如何打造作品集,應該有了一個清晰的概念。現在就可以行動起來了!
如果你已經有一份簡歷,想秀一下,請在評論區告訴我們!
本系列其他譯文:
點此查看原文鏈接
?
本文是「打造數據科學的作品集」的第三篇,全文大約 25000 字符,讀完大約需要 37 分鐘。
作者:Vik Paruchuri,譯者:唐曉霆,校對:EarlGrey,出品:PythonTG 翻譯組/編程派
如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。
數據科學公司在招聘時越來越看重個人作品集,原因在于作品集是衡量實際能力最好的方式之一。好消息是,你完全掌控著自己的作品集。如果付出一些努力,你就可以打造出令用人單位印象深刻的高質量作品集。
想要打造高質量作品集,第一步需要搞清楚應該在作品中展現什么能力。公司希望數據科學家具備的能力(也就是他們希望作品集能夠展示的能力)包括:
- 溝通能力
- 與他人協作能力
- 技術能力
- 數據推斷能力
- 主觀能動性
一個好的作品集一般由多個項目構成,每一個項目展示以上 1-2 個能力點。本文是講述如何建立一個豐滿的數據科學作品集的第三篇。本文將介紹如何打造作品集中的第二個項目,以及如何創建一個完整的機器學習項目。最后,你會擁有一個可以展示合理解釋數據能力和技術能力的項目。如果你想一窺項目全貌的話,這里是完整的項目文件。
一個完整的項目
作為一個數據科學家,有時候你會被叫去分析一個數據集,然后設法用數據講故事。這時,良好的溝通和清晰的思路是非常重要的。像我們在之前用到的 Jupyter notebook 這樣的工具,就能很好地幫助你做到這點。客戶的預期是總結你發現的演示報告或文檔。
然而,有時候你也會被叫去做有業務價值的項目。一個有業務價值的項目會直接影響公司的日常業務,而且會被大家頻繁使用。類似這樣的任務可能會是“設計一個可以預測用戶變動率的算法”, 或者是“創建一個自動給文章打標簽的模型”。在這類情況下,講故事的能力就沒有技術能力重要了。你需要能夠分析數據集,理解它,然后編寫可以處理這些數據的腳本。這些腳本還要跑的快,耗費最少的資源,如內存,這些都是很常見的要求。通常這些腳本需要頻繁運行,所以最終的交付品就變成了這些腳本自身,而不是報告。這些成果經常集成到業務流程中,甚至可能會直接面對用戶。
創建一個完整項目,要求你:
- 理解整個項目環境
- 探索數據并找到其中的細微差別
- 建立一個結構良好的項目,使其容易集成至業務流程中
- 寫出既運行快又占用最少系統資源的高性能代碼
- 為代碼的安裝和使用寫出良好的文檔,方便他人使用
為了高效地創建這樣的項目,我們需要和許多文件打交道。我們非常推薦使用像?Atom?的文檔編輯器,或者像?PyCharm?這樣的IDE。這些工具允許你在不同文件間跳轉,并且可以編輯不同類型的文件,比如 markdown 文件,Python 文件和 csv 文件。給你的代碼建立良好的結構,方便進行版本管理,并上傳到像Github這樣的代碼協作工具。
在本文中,我們會使用?Pandas?和?scikit-learn?等庫。我們會大量用到 Pandas 的DataFrame,這使得在 Python 中讀取和處理表格數據變得非常簡單。
尋找優質數據集
尋找優質數據集進行完整的項目分析很困難。數據集需要足夠大,大到出現內存和性能的限制。還需要具備業務價值。舉個例子,這個數據集中包含了美國大學的招生條件、畢業率和畢業生未來收入的數據。這就是一個可以用來講故事的優質數據集。然而,如果你仔細想想,就會發現這里面沒有足夠的細節來建立一個完整的項目。
舉例說,你可以告訴別人如果他們去某些(好)大學,他們未來的潛在收入就會更高,但是這只需要一個很快的查找比較就可以完成,沒有足夠的空間去展示你的技術能力。你也可以發現如果大學有更高的入學條件,它們的畢業生就更有可能獲得高薪,但這些就更偏向于講故事,而非業務價值了。
當你有 GB 以上的數據量時,或者當你想要預測一些數據細節,內存和性能限制就會逐漸凸現出來,因為得對數據集運行算法運算。
一個優質數據集允許你編寫一系列腳本對數據做變形,從而回答一些動態問題。股票價格就是一個很好的數據集。你可以根據這些數據預測第二天的股價走勢,并且在閉市的時候把新數據提供給算法。這可以幫助你執行交易,甚至是獲取利潤。這就不是在講故事了 — 而是直接產生價值。
下面是一些能夠找到優質數據集的地方:
瀏覽這些數據集時,想一想如果有這些數據集,人們可能會問什么問題,然后再想想這些問題是否是一次性的(“S&P 500 和房價的相關性是怎樣的?”),或是持續性的(“你能預測股票價格嗎?”)。這里的關鍵在于找到那些持續性的問題,這些問題需要多次運行,并輸入不同的數據才能回答。
本文中,我們選擇房利美(Fannie Mae)的貸款數據。房利美是一個由美國政府資助的從貸方手里購買房貸的企業。購買房貸之后,它會把這些房貸打包為一些由房貸支撐的證券(MBS)里,再賣出去。這樣就幫助了貸方貸出更多的房貸,并給市場創造了更大的流動性。這從理論上說就會產生更多的房屋業主,進而產生更好的房貸政策。然而從借方的角度來看,情況并沒有什么不同。
房利美公開了兩種數據 — 收購到的房貸數據,和房貸表現情況數據。在最理想的情況下,一個人從貸方貸了款,然后一直還錢,直到貸款還清。然而,借方有幾次沒有還款,就可能會導致失去抵押品贖回權。這時,銀行就會獲得房屋的所有權,因為沒還清房貸。房利美記錄了哪些房貸沒有還,哪些房貸需要取消抵押品贖回權。這個數據每個季度發布一次,而且會滯后一年。撰寫本文時,最近的數據集是 2015 年第一季度。
房利美購買房貸時會發布收購信息,其中含有許多關于借方的信息,包括信用評分、房貸和房屋的信息。之后,每個季度發布房貸表現數據,涵蓋了借方的支付信息,和抵押權的狀態。房貸表現信息里可能有很多行。你可以這么想這個事,收購信息表示房利美現在控制了房貸,表現信息則包括了一系列房貸的狀態更新。有的狀態可能會說這筆貸款在某個季度借方抵押權被取消了。
一個借方失去了抵押品贖回權(止贖)的房子被出售
選擇分析角度
對于房利美數據集,我們可以有多個分析角度。我們可以:
- 嘗試預測一個止贖了的房屋的售價
- 預測一個借方的還款歷史
- 計算出一個被收購時房貸的評分
重要的事是要堅持一個角度。一次專注于太多事情會很難做成一個優秀的項目。選擇一個有足夠細節的角度這點也很重要。以下是一些沒有多少細節的角度:
- 哪家銀行賣給房利美最多止贖的房貸
- 借方信用評分的趨勢
- 哪些房屋類型最經常止贖
- 房貸金額和止贖售價的關系
上述的這些角度都很有趣,如果我們關注講故事的話是很棒的話題,但對于一個業務性的項目來說就沒那么好了。
有了房利美數據集,我們將嘗試僅僅使用收購房貸時的數據,預測房貸是否會被止贖。實際上,我們會為每一份房貸“打分”,這個分數表示房利美是否應該購買這份房貸。這將是一個良好的基礎,也是一個很棒的作品。
理解數據
我們首先快速查看原始數據文件。下面是 2012 年第一季度收購數據的前幾行:
100000853384|R|OTHER|4.625|280000|360|02/2012|04/2012|31|31|1|23|801|N|C|SF|1|I|CA|945||FRM| 100003735682|R|SUNTRUST MORTGAGE INC.|3.99|466000|360|01/2012|03/2012|80|80|2|30|794|N|P|SF|1|P|MD|208||FRM|788 100006367485|C|PHH MORTGAGE CORPORATION|4|229000|360|02/2012|04/2012|67|67|2|36|802|N|R|SF|1|P|CA|959||FRM|794下面是 2012 年第一季度的表現數據的前幾行:
100000853384|03/01/2012|OTHER|4.625||0|360|359|03/2042|41860|0|N|||||||||||||||| 100000853384|04/01/2012||4.625||1|359|358|03/2042|41860|0|N|||||||||||||||| 100000853384|05/01/2012||4.625||2|358|357|03/2042|41860|0|N||||||||||||||||在編寫代碼之前,花點時間去理解數據是很有用的。尤其對于業務型項目而言,因為我們沒有互動式地去探索數據,很難發現某些細節,除非一開始就找到它們。這種情況下,第一步就是去房利美的網站上讀一讀有關數據集的材料:
- 簡介
- 詞匯表
- 常見問題
- 收購和表現文件里的列
- 收購數據樣本文件
- 表現數據樣本文件
讀完這些材料之后,我們知道了一些有用的關鍵信息:
- 從 2000 年到現在,每個季度都有一個收購文件和表現文件。數據滯后一年,所以最近的數據是 2015 年的
- 這些文件是文本形式,用 | 作為分隔符
- 這些文件沒有頭文檔,但是我們有所有列名稱的列表
- 全部加起來,這些文件共包含 2.2 千萬個房貸的數據
- 因為表現文件涵蓋了之前的房貸信息,所以早些時候的房貸會有更多的表現數據(舉個例子,2014 年收購的房貸不會有太多表現信息)
在設計項目結構和處理數據時,這些信息能幫助我們節省一大筆時間。
設計項目結構
在開始下載和探索數據之前,設計好項目結構是非常重要的。在打造一個完整的項目時,我們的主要目標是:
- 輸出一個可行的解決方案
- 解決方案運行快且消耗最少資源
- 讓他人可以很容易地擴展項目
- 讓他人可以容易地理解代碼
- 寫的代碼越少越好
為了達到這些目標,我們要設計好項目的結構。一個結構良好的項目遵從以下規范:
- 數據文件和源代碼分開
- 原始數據和生成數據分開
- 有一個 README.md 文件,介紹如何安裝并使用這個項目
- 有一個 requirements.txt 文件,包含項目所需的所有模塊
- 有一個 settings.py 文件,包含所有其他文件所需的設置
- 例如,如果有很多Python腳本都讀取同一個文件,就不如讓它們都導入settings并從這一個地方來得到文件
- 有一個 .gitignore 文件,來防止一些特別大的或者私密的文件被提交到 Git
- 把任務分成幾步,并分別放在可以單獨執行的文件里
- 例如, 用一個文件讀取數據,一個文件建立特征,一個文件執行預測
- 儲存中間值。例如,一個腳本可能會輸出一個文件,這個文件又會被另外一個腳本讀取
- 這使得我們可以在數據處理的流程中做一些改動,而又不需要重新計算
該項目的文件結構如下:
loan-prediction ├── data ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py創建初始文件
首先,創建 loan-prediction 文件夾。在這個文件夾里,創建 data 文件夾和 processed 文件夾。第一個用來儲存原始數據,第二個用來儲存所有中間值。
接著,創建 .gitignore 文件。.gitignore 文件會確保一些文件會被 git 忽略,并不會被推送到 Github 上。OS X 在每個文件夾里創建的 .DS_Store 文件就是這類需要忽略的文件。要入門 .gitignore 文件,可以參考這里。還要忽略一些體積太大的文件,而且房利美的條款并不允許二次發布這些文件,所以我們應該在 .gitignore 文件最后加上這兩行:
這里是本項目的示例 .gitignore 文件。
接著,創建 README.md ,這有助于人們理解項目。.md 代表這個文件是 markdown 格式。Markdown 能讓你直接用純文本寫作,但是如果想的話,也可以添加一些好看的排版格式。這里是一個 markdown 指南。如果你往 Github 上傳了一個叫 README.md 的文件,Github 會自動處理該文件,把它作為主頁展示給瀏覽者。這里有一個例子。
目前,只需要在README.md里面放一段簡短的描述:
Loan Prediction -----------------------Predict whether or not loans acquired by Fannie Mae will go into foreclosure. Fannie Mae acquires loans from other lenders as a way of inducing them to lend more. Fannie Mae releases data on the loans it has acquired and their performance afterwards [here](http://www.fanniemae.com/portal/funding-the-market/data/loan-performance-data.html).現在,創建 requirements.txt 文件。這可以幫助其他人安裝我們的項目。目前還不知道具體需要哪些庫,但下面這些是一個好的起點:
pandas matplotlib scikit-learn numpy ipython scipy以上是用 Python 作數據分析最常用的幾個庫,在這個項目中應該會用到它們。這里是本項目的示例 requirements 文件。
創建 requirements.txt 之后,你應該安裝這些模塊。在本文中,我們使用 Python 3 。如果你還沒有安裝 Python,建議使用?Anaconda,這是一個可以安裝上述所有模塊的 Python 安裝器。
最后,創建一個空白的 settings.py 文件,因為項目還沒有任何設置。
獲得數據
創建好整個項目的框架之后,就可以獲取原始數據了。
房利美對數據下載有一些限制,所以你得先注冊一個賬號。下載頁面在這里。注冊完賬戶后,就可以隨意下載貸款數據了。文件是 zip 格式,解壓之后也挺大的。
本文中,我們會把 2012 年第一季度到 2015 年第一季度之間的所有數據都下載下來。然后解壓文件,解壓之后,刪除原始的 .zip 文件。最后,loan-prediction 文件夾的結構應該類似這樣:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py下載完數據之后,可以用 head 和 tail 等 shell 命令去觀察文件的前幾行和后幾行。有沒有不需要的列?查看數據時可以參考一下介紹列名稱的 PDF 文件
讀取數據
有兩個問題,使得直接處理數據比較困難:
- 收購和表現數據集被分散在了許多文件里
- 所有文件都缺少頭文檔
在開始處理這些數據之前,需要把所有的收購數據集中到一個文件,所有的表現數據集中到一個文件。每個文件只需要包含我們關心的列,和正常的頭文檔。這里有一個小問題,即表現數據特別大,所以可能的話我們得刪減一些列。
第一步是在 settings.py 里面增添一些變量,包含到原始數據和中間數據的路徑。我們也會加上一些之后會有用的設置:
DATA_DIR = "data" PROCESSED_DIR = "processed" MINIMUM_TRACKING_QUARTERS = 4 TARGET = "foreclosure_status" NON_PREDICTORS = [TARGET, "id"] CV_FOLDS = 3把路徑放在 settings.py 里面,會使得它們統一在一個地方,使得今后改動變得簡單。當許多文件都用了同一些變量的時候,把它們放在一起會比分別在每個文件里做改動要簡單得多。這里是該項目的示例 settings.py 文件。
第二步是創建一個叫做 assemble.py 的文件,這個文件會把分散的數據組合成 2 個文件。運行 python assemble.py 后,會在 processed 文件夾里面得到 2 個數據文件。
然后再 assemble.py 中寫代碼。首先,給每個文件定義頭文檔,所以我們需要查看解釋列名稱的 PDF 文檔,然后為收購數據和表現數據文件分別創建一個列表,表示其中的行。
HEADERS = {"Acquisition": ["id","channel","seller","interest_rate","balance","loan_term","origination_date","first_payment_date","ltv","cltv","borrower_count","dti","borrower_credit_score","first_time_homebuyer","loan_purpose","property_type","unit_count","occupancy_status","property_state","zip","insurance_percentage","product_type","co_borrower_credit_score"],"Performance": ["id","reporting_period","servicer_name","interest_rate","balance","loan_age","months_to_maturity","maturity_date","msa","delinquency_status","modification_flag","zero_balance_code","zero_balance_date","last_paid_installment_date","foreclosure_date","disposition_date","foreclosure_costs","property_repair_costs","recovery_costs","misc_costs","tax_costs","sale_proceeds","credit_enhancement_proceeds","repurchase_proceeds","other_foreclosure_proceeds","non_interest_bearing_balance","principal_forgiveness_balance"] }下一步是定義需要保留哪些列。因為我們關心的房貸只是關于它有沒有被止贖,所以可以從表現數據里面丟棄很多列(不影響是否止贖的數據)。但是我們需要保留所有收購數據,因為我們想要盡可能多的房貸信息(畢竟我們要在收購房貸時預測是否會被止贖)。丟棄一些列可以省下一些磁盤空間和內存,同時也會加速代碼的運行速度。
SELECT = {"Acquisition": HEADERS["Acquisition"],"Performance": ["id","foreclosure_date"] }接下來,寫一個函數來拼接所有的數據集。下面的代碼會:
- 導入一些需要的庫,包括settings
- 定義函數 concatenate,它可以:
- 拿到 data 目錄里面所有文件的名字
- 遍歷每個文件
- 如果文件的格式不對(并不是以預期的前綴開始),就忽略它
- 用 Pandas 的read_csv函數,把文件讀取到一個?DataFrame?里
- 把分隔符設置為 | ,正確讀取數據
- 數據現在沒有頭文檔,所以把 header 設置成 None
- 把 HEADERS 字典里的值設置為列的名稱,這些會成為 DataFrame 里面的列名稱
- 只把加在 SELECT 里面的列從 DataFrame 里面選出來
- 把所有的 DataFrame 拼接在一起
- 把拼接好的 DataFrame 輸出成一個文件
可以用參數 Acquisition 和 Performance 分別調用上面的函數,把所有的收購和表現文件拼接在一起。下面的代碼會:
- 只當腳本是在命令行用 python assemble.py 執行時運行
- 拼接所有文件,并輸出成兩個文件:
- processed/Acquisition.txt
- processed/Performance.txt
我們現在有了一個模塊化的 assemble.py 文件,既容易運行,又易擴展。像這樣把大問題劃分成小問題,我們將項目變得更簡單。我們把不同文件分離開,定義它們之間的數據,而不是用一個腳本做所有的事情。當你在做一個大項目的時候,這樣做通常很好,因為更改一些文件后不會產生不可預期的結果。
完成 assemble.py 腳本后,運行 python assemble.py 。你可以在這里找到完整的腳本。
這會在 processed 目錄里面輸出兩個文件:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt ├── .gitignore ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py表現數據計算
下一步就是從 processed/Performance.txt 數據中計算一些值。我們想做的就是預測一間房產以后會不會被止贖。為了弄明白這一點,我們只需要看看表現數據里面的房貸是否有一個 foreclosure_date 。如果 foreclosure_date 是 None ,那么這間房產就沒有被止贖。我們也需要規避那些在表現數據里沒有多少歷史數據的房貸,要做到這一點,通過計算它們在表現數據里面累計有多少行就可以。
可以用下面的方法來思考收購數據和表現數據的關系:
我們發現,收購數據里每一行都對應了表現數據中的多行。在表現數據中,當止贖發生的時候,當季度的 foreclosure_date 就會出現日期,在這之前都應該是空白的。一些貸款從未被止贖,所以與之相關的表現數據里的 foreclosure_date 都是空白的。
我們需要計算 foreclorsure_status ,這是一個布爾值,代表一個貸款 id是否有被止贖過。我們也要計算 performance_count ,也就是每個 id 在表現數據里有多少行。
有幾種方法可以計算 performance_count:
- 讀取所有的表現數據,然后用 Pandas 的?groupby?方法求每個貸款 id 相關聯的行數,同時 id 對應的 foreclosure_date 有沒有不是 None 過。
- 這樣做的好處是實現的語法很簡單
- 這樣做的壞處是讀取 129236094 行數據會花很多內存,而且極其慢
- 我們可以讀取所有的表現數據,然后在收購數據 DataFrame 上使用?apply?,從而求得每個 id 的計數
- 好處是概念上很簡單
- 壞處仍然是讀取 129236094 行數據會花很多內存,而且極其慢
- 我們可以遍歷表現數據里的每一行,然后保存一個單獨的包含計數的字典
- 好處是不需要把所有數據一起讀取進內存,所以這樣做會很快,也會優化內存
- 壞處是得花長一點時間來理清概念和實現,而且需要手工地解析每一行
把所有數據一并加載會花很多內存,所以我們采用第三種方法。我們所要的就是遍歷表現數據里面的每一行,并且保存一個包含每個 id 的計數字典。在字典里面,我們記錄下表現數據里面每個 id 出現了多少次,并且 foreclosure_date 是否為非 None 過。這樣就能求出 foreclosure_status 和 performance_count 。
新建一個文件 annotate.py ,并加入用來計算的代碼。在下面的代碼中,我們會:
- 導入需要的庫
- 定義一個叫做 count_performance_rows 的函數
- 打開 precessed/Performance.txt 。這不會把文件讀取進內存,而僅僅是打開一個文件句柄,一行一行地讀取文件內容
- 遍歷文件里的每一行
- 根據分隔符 | 分割字符串
- 檢查 loan_id 是否在 counts 字典里
- 給 load_id 對應的 performance_count 加1
- 如果 date 不是 None,那么我們就知道這筆貸款止贖了,所以設置相應的 foreclosure_status
得到計算結果
創建建了 counts 字典后,我們可以用一個函數抽取出和傳入的 load_id 和 key 相應的值了:
def get_performance_summary_value(loan_id, key, counts):value = counts.get(loan_id, {"foreclosure_status": False,"performance_count": 0})return value[key]上面這個函數會從 counts 字典里返回相應的值,并且可以讓我們為收購數據里每一行添加 foreclosure_status 和 performance_count 值。字典的?get?方法在沒有找到 key 的情況下就會返回一個默認值,所以就算沒有找到也能返回合理的默認值。
給數據做標記
我們已經在 annotate.py 中添加上一些函數,現在可以開始處理最有價值的部分了。我們需要把收購數據轉換成一個機器學習算法可以使用的訓練集。需要做以下幾件事:
- 把所有數據變成數字
- 補足空白的值
- 給每一行添加一個 performance_count 和一個 foreclosure_status
- 刪除那些沒有多少表現歷史數據的行(那些 performance_count 很低的行)
有幾列的數據都是文字,這在機器學習里沒有什么用。然而它們其實是類別變量,比如說 R、S 這樣的類別編號。我們分別賦予它們數字,從而把它們變成數字:
這樣轉化了之后,就能把它們用于機器學習。
一些列也包含了時間( first_payment_date 和 origination_date )。可以把它們各自分割成兩列:
下面的代碼中,我們會轉換收購數據。定義一個函數,這個函數會:
- 從 counts 字典里獲取數據,在 acquisition 里建立一個 foreclosure_status 列
- 從 counts 字典里獲取數據,在 acquisition 里建立一個 performance_count 列
- 把下面的列從文字轉成數字:
- channel
- seller
- first_time_homebuyer
- loan_purpose
- property_type
- occupancy_status
- property_state
- product_type
- 分別把 first_payment_date 和 origination_date 轉換成兩列:
- 以 / 為分隔符進行分割
- 把第一部分賦予 month 列
- 把第二部分賦予 year 列
- 刪除原本列
- 最后,我們就會有 first_payment_month、first_payment_year、origination_month 和 origination_year
- 將 acquisition里的所有缺失值都替換成 -1
拼接所有數據
很快就可以將所有數據拼接在一起了,在這之前我們只要再加一些代碼到 annotate.py 里。在下面的代碼中,我們:
- 定義一個函數來讀取收購數據
- 定義一個函數把處理過的數據寫入 processed/train.csv
- 如果文件是從命令行傳入的,比如 python annotate.py,則:
- 讀取收購數據
- 計算表現數據的累計數目,并賦值給 counts
- 給 acquisition DataFrame 做標記
- 把 acquisition DataFrame 寫入 train.csv
寫好文件后,記得用 python annotate.py 來運行它,這會生成一個 train.csv 文件。完整的 annotate.py 文件在這里。
文件夾現在應該長這樣:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py尋找誤差衡量指標
我們生成好了訓練數據,現在只需要完成最后一步,生成預測。我們需要找到一個誤差的衡量指標,以及如何評估數據。就本文而言,沒有被止贖的貸款比止贖的貸款多得多,所以典型的準確度衡量并不適用。
如果我們看一看訓練數據,并查看 foreclosure_status 列的計數,會發現:
import pandas as pd import settingstrain = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv")) train["foreclosure_status"].value_counts() False 4635982 True 1585 Name: foreclosure_status, dtype: int64因為只有這么一點點貸款是止贖了,所以如果我們只看有多少百分比的標簽被正確預測了,那我們即使建立了一個只預測 False 的模型,一樣可以得到很高的準確度。所以我們采用的衡量指標要把這種不平衡考慮進去,確保準確預測。我們不想要太多假正(False Positive),即預測一個貸款會止贖,但其實不會,或者太多假負(False Negative),即預測一個貸款不會被止贖,但其實會。在這兩者之間,假負對房利美來說成本更高,因為他們買的這些房貸沒法收回投資。
我們定義假負率為預測不會止贖但其實會的預測數量,除以總的止贖貸款數量。這就是模型沒有體現的實際止贖百分比。下面是一個圖表:
在上圖中,狀態為 1 的貸款被預測為非止贖,但它其實被止贖了。如果把它除以實際止贖貸款數量 2,錯誤的負預測率為 50% 。我們用它作為誤差衡量指標,這樣就能夠有效地評估模型的表現。
為機器學習設置好分類器
我們使用交叉驗證來做預測。為了進行交叉驗證,我們把數據分成 3 組,然后:
- 在 1 組和 2 組上訓練模型,然后在 3 組上預測
- 在 1 組和 3 組上訓練模型,然后在 2 組上預測
- 在 2 組和 3 組上訓練模型,然后在 1 組上預測
把數據分成幾組意味著我們不會用同樣的數據來訓練模型,然后又用同樣的數據來做預測。這就避免了過擬合。如果過擬合了,就會得到一個錯的低假負率,也就是說我們的模型很難應用于真實情況或進行后續改進。
Scikit-learn?中有一個叫做?cross_val_predict?的函數,使得交叉驗證變得很容易。
我們還需要挑選一個算法來做預測。我們需要一個分類器來做二元分類。因為目標變量 foreclosure_status 只有兩個值,True和Flase。
我們使用?邏輯回歸算法。因為它在二元分類下表現很好,運行得極快,而且消耗很少內存。這是因為這個算法的工作方式 — 它不會像隨機森林算法那樣建立一堆決策樹,或像支持向量機那樣做很耗資源的變換,其設計的矩陣操作相對來說少得多。
我們可以用 scikit-learn 里自帶的邏輯遞歸分類器算法。唯一需要注意的就是每個類的權重。 如果給每個類同樣的權重,,算法就會對每一行預測 False ,因為它要最小化誤差.。然而,我們更關心止贖的貸款而不是不會止贖的貸款。因此,我們給?Logistic Regression 類傳入 balanced 參數到 class_weight 關鍵字中,從而得到一個考慮樣本數量而給于平衡的比重的算法。這樣就能確保算法不會對每一行都預測 False。
進行預測
現在已經完成了前期準備工作,可以開始做預測了。創建一個叫 predict.py 的新文件,使用我們之前創建的 train.csv。下面的代碼會:
- 導入需要的庫
- 創建一個 cross_validate 函數,它會:
- 用正確的關鍵詞參數創建一個邏輯遞歸分類器
- 創建用來訓練模型的數據列列表,同時刪除 id 和 foreclosure_status 列
- 在 train DataFrame 上運行交叉驗證
- 返回預測
預測誤差
現在只需要寫一些函數來計算誤差。下面的代碼會:
- 創建 computer_error 函數,它會:
- 用 scikit-learn 計算一個簡單準確度評分(符合真實 foreclosure_status 值的預測的百分比)
- 創建 computer_false_negatives 函數,它會:
- 把目標和預測寫進一個 DataFrame
- 計算假負率
- 創建 computer_false_positives 函數,它會:
- 把目標和預測寫進一個DataFrame
- 計算假正率
- 找到模型預測為止贖但并未止贖的貸款數量
- 用這個數量除以不是止贖的貸款數量
整合所有函數
現在,把上面的函數都放在 predict.py 里面。下面的代碼會:
- 讀取數據集
- 計算交叉驗證預測
- 計算上面提到的 3 個誤差值
- 打印出誤差值
添加完這些代碼后,可以運行 python predict.py 來生成預測。結果顯示,假負率為 .26 ,也就是說對于止贖貸款來說,我們錯誤地預測了其中的 26% 。這是個好的開始,但還有很大的提升空間。
完整的 predict.py 文件在這里。
文件樹現在應該長這樣:
loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── predict.py ├── README.md ├── requirements.txt ├── settings.py撰寫 README
現在我們完成了這個完整的項目, 接下來只需要寫 README.md 文件進行總結,向他人說明我們做了什么,以及如何復制它。一個典型的 README.md 應該包括以下內容:
- 項目概覽及目標
- 如何下載所需數據或材料
- 安裝教程
- 使用教程
- 如何貢獻
這里是本項目的示例 README.md。
下一步
恭喜,你已經完成了一個完整的機器學習項目!你可在這里找到完整的示例項目。完成項目之后,記得上傳到 Github 上,這樣其他人就會看到這是你作品集的一部分。
這些數據尚有一些地方待你挖掘。大致來說,我們可以把它們分成 3 類 — 擴展項目提高準確率,利用其它數據列進行預測,進一步探索數據。以下想法僅供參考:
- 用 annotate.py 生成更多特征
- 在 predict.py 里換個算法
- 使用更多來自房利美的數據
- 加上一個預測未來數據的方法。如果添加更多的數據,目前的代碼都是可以運行的,所以我們可以加上更多過去的或者未來的數據
- 嘗試能不能預測銀行一開始該不該放出貸款(以及房利美應不應該收購貸款)
- 刪除那些銀行在發放貸款時不能獲得的信息列
- 做預測
- 探索一下能不能預測除了 foreclosure_status 以外的數據
- 探索一下表現數據更新時的細節
- 能不能預測借方遲付貸款的次數?
- 能不能畫出典型的貸款周期?
- 按州或郵編對數據進行繪圖
總結
以上是生活随笔為你收集整理的数据科学家如何找到心仪的工作?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c++ primer plus 第 17
- 下一篇: Hadoop/R 集成 I:流处理