久久精品国产精品国产精品污,男人扒开添女人下部免费视频,一级国产69式性姿势免费视频,夜鲁夜鲁很鲁在线视频 视频,欧美丰满少妇一区二区三区,国产偷国产偷亚洲高清人乐享,中文 在线 日韩 亚洲 欧美,熟妇人妻无乱码中文字幕真矢织江,一区二区三区人妻制服国产

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据科学家如何找到心仪的工作?

發布時間:2023/12/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据科学家如何找到心仪的工作? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文是「打造數據科學的作品集」的第四篇,全文大約 9800 字,讀完大約需要 17 分鐘。如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。


作者:Vik Paruchuri,譯者:趙喧典,校對:EarlGrey,出品:PythonTG 翻譯組/編程派

在本系列中,我們已經討論了如何用數據講故事,如何打造一個完整的機器學習項目,以及如何搭建一個數據科學博客。而本文,我們將回過頭來,重點討論如何創建高大上的數據科學作品集。我們將討論什么技能是雇主希望看到的,以及如何創建一份作品集以有效地展示所有的技能。我們將舉例說明作品集中的項目應該如何呈現,并給你一些起步的建議。

讀完這篇文章之后,你應該能夠理解為什么要創建數據科學作品集,以及具體的方法。

雇主想要什么

雇主招人時,想要的是那些能為企業創造價值的人。這通常意味著,應聘者需要掌握能為企業帶來收入和機遇的技能。而作為數據科學家,可以通過以下 4 種方式為企業創造價值:

  • 對原始數據的敏銳洞察,并向他人展示。
    • 例子:分析廣告點擊率,會發現面向 18 到 21 周歲人群的廣告比面向 21 到 25 周歲人群的廣告帶來的成本收益高得多——企業據此調整它的廣告投入,這就創造了商業價值。
  • 構建能為客戶帶去直接價值的系統。
    • 例子:Facebook 的一位數據科學家通過優化新聞流為用戶展現更好的結果——這導致更多人訂閱新聞流,意味著更多的廣告訂閱,這就為 Facebook 帶來直接收入。
  • 構建能為公司其他人帶去直接價值的系統
    • 例子:編寫腳本自動地從 3 個數據庫提取數據并聚合,為他人進行分析通過干凈的數據集——通過提高他人的工作效率,這也創造了價值。
  • 與公司其他人分享專業知識
    • 例子:與產品經理討論如何實現用到機器學習算法的功能——通過防止不切實際的時間表和半成品,這也創造了價值。

毋庸置疑的是,當雇主考核應聘者時,他們會考核應聘者是否具備上述四項技能的一項或多項(根據公司和崗位不同,可能需要應聘者同時具備多項技能)。為了向企業證明你能在上述所列 4 個領域能幫到企業,你需要展示自身具備以下技能:

  • 溝通能力
  • 與他人協作能力
  • 技術能力
  • 數據推斷能力
  • 主觀能動性

一個面面俱到的作品集應該足以展示你在上述各方面的技能,并且對他人而言是易審視的——作品集中的每一項都應該具備豐富的文檔,清晰明了,這樣,招聘經理才能快速地對你的作品集進行評估。

為什么要打造作品集

如果你擁有頂尖學府的機器學習或相關領域的學位,獲得數據科學相關的工作會相對容易。因為頂尖學府的聲譽以及專業對口的事實,雇主相信你能為企業創造價值。但如果你沒有來自頂尖學府的相關學位,你就不得不為自己建立這份信任。

這樣說吧:對于雇主而言,需求的崗位有多達 200 份的申請。假設 HR 總共花 10 小時過濾申請以確定電話面試哪些人。這意味著平均每個申請只有 3 分鐘的評估時間。開始時,HR 不相信你能為企業創造價值,而你有 3 分鐘的時間來建立他們對你的這份信任,進而為自己創造電話面試的機會。

數據科學的一大特征是,你在自己的項目中所做的工作,和你被錄用之后所做的工作幾乎一樣。作為數據科學家,在?Lending Club?分析信貸數據,可能與分析他們發布的匿名貸款數據有很大的相似之處。

Lending Club 匿名數據的前幾行

建立 HR 對你的信任,最重要的就是證明你能做他們需要你做的工作。對于數據科學而言,這就需要我們創建一套項目作品集。項目越“真實”,HR 越相信你將是企業的有用之人,你獲得電話面試的機會就越大。

數據科學作品集需要包含哪些內容

既然我們知道了需要一個作品集,我們就需要弄清楚它需要包含哪些內容。至少,你應該在?GitHub?或你的博客上有一些項目,代碼是可見的,并配有良好的文檔。HR 越是容易找到這些項目,他們就越容易對你的技能進行評估。每個項目都應該盡可能配有良好的文檔,用 README 文件說明如何進行設置,并介紹數據的特點。

GitHub 上一個組織良好的項目

我們將討論一些應該放入作品集的項目類型。建議每種類型都有多個項目,尤其是與你希望從事的崗位相關的項目類型。比方說,如果你申請的崗位需要大量機器學習的知識技能,那么多創建一些用到機器學習的項目會很有幫助。另一方面,如果你申請的是分析師的崗位,那么數據清理和數據呈現項目就更關鍵了。

數據清理項目

數據清理項目向 HR 展示了你能夠提取不同的數據集并加以利用。數據清理是數據科學家做的最多的工作,因此,它是需要展示的關鍵技能。這類項目涉及提取雜亂數據,然后清理,并做分析。數據清理項目證明了你的數據推理能力,以及你將多個數據源的數據提取整合為單個數據集的能力。數據清理是所有數據科學家工作的重要部分,展示你已經具備該項能力將是一大優勢。

你將需要把原始數據清理成易于分析的形式。要做到這一點,你需要:

  • 找一個雜亂的數據集
  • 選一個可用數據作答的問題
  • 清理數據
    • 如果有多個數據文件,將它們整合到一起
    • 確保你希望進行探索的角度,在數據層面是可實現的
  • 做一些基礎分析
  • 展示結果
    • 建議用?Jupyter Notebook?或?R Markdown?進行數據清理和分析
    • 確保代碼和邏輯是可理解的,盡可能多地使用注釋和 Markdown 單元格闡明過程
    • 將項目上傳到 GitHub
    • 由于許可的問題,不是總能將原始數據一并提交到 Git 倉庫,因此你至少要描述一下原始數據,并說明出處。

本系列的第一篇文章在第一部分介紹了如何一步步創建一個完整的數據清理項目。你可以在這里查看。

部分紐約市學校數據的數據字典

如果你在尋找一個好的數據集上有困難,以下是一些例子:

紐約市地鐵,人來人往

如果你想要一些靈感,以下是一些優秀的數據清理項目的例子:

數據呈現項目

數據呈現項目展現了你對數據的洞察力,從數據中提取洞見并用數據說話的能力。用數據講故事對商業價值有巨大影響,因此,這將是你簡歷的重要組成部分。這個項目涉及提取一組數據,并用數據呈現一個令人信服的結論。例如,你可以利用航班數據說明某些機場存在顯著的航班延遲現象,而這也許可以通過改變航線改善。

一個優秀的數據呈現項目會用到大量的可視化,并能一步步地引導讀者了解分析結果。以下是創建一個優秀的數據呈現項目的參考步驟:

  • 找一個有趣的數據集
  • 從不同角度探索數據
    • 探索數據
    • 從數據中找出有趣的相關性
    • 創建圖表并一步步展示你的發現
  • 詳細記錄這個引人注目的過程
    • 從所有的探索中挑選一個最有趣的角度
    • 記錄從原始數據到最終發現的探索過程
    • 創建令人信服的圖表
    • 就探索過程中每一步的思考,進行充分闡述,也可以對代碼進行解釋
    • 就每一步的結果,做豐富的分析,以清晰地告訴讀者
    • 告訴讀者你在分析數據過程中的所思所想
  • 展示結果

本系列的第一篇文章的第二部分,已經介紹了如何一步一步讓數據發聲。你可以在這里查看。

按街區 SAT 成績劃分的紐約市地圖

如果你在尋找一個好的數據集上有困難,這里有一些例子:

  • Lending club 的貸款數據
  • FiveThirtyEight 的數據集
  • Hacker new 的數據

如果你想要一些靈感,以下是一些優秀的數據呈現項目的例子:

  • Hip-hop 與美國總統候選人特朗普
  • 紐約市出租車與優步數據分析
  • 跟蹤研究 NBA 球員的運動

提及 2016 年美國總統大選候選人的歌詞(圖片來自以上第一個項目)

端到端項目

到目前為止,我們已經介紹了涉及探索性數據清理和分析的項目。這些項目能讓 HR 更好地認識到你對數據的洞察力以及呈現數據的能力。然而,它們并不足以展示你的創建面向客戶的系統的能力。面向客戶的系統涉及高性能的代碼,這意味著系統可以使用不同數據,運行多次,產生不同輸出。舉個例子,一個可以對股市進行預測的系統——每天早上,它會自動下載最新的股市數據,然后據此預測當天哪些股票會走紅。

為了展現我們能夠創建業務系統,我們需要創建一個端到端的項目。端到端的項目接收并處理數據,然后產生輸出。通常,這些輸出都是機器學習算法的結果,但也可以是其他輸出,比如符合某一標準的行總數。

這里的關鍵是,要讓系統能靈活地處理新的數據(比如股市數據),并具有高性能。此外,使代碼易于安裝設置與運行也很重要。以下是創建一個優秀的端到端項目的參考步驟:

  • 找一個有趣的話題
    • 我們不會僅處理一個單一的靜態數據集,因此,你需要定一個話題
    • 該話題下應該有公開的、經常更新的數據
    • 以下是一些例子:
  • 導入并解析多個數據集
    • 在你的能力范圍內,下載盡可能多的數據
    • 閱讀理解數據
    • 找出你所期望的預測內容
  • 創建預測
  • 整理代碼并配上文檔
    • 將代碼分解為多個文件
    • 在項目中添加一個 REAME 文件,闡述如何安裝和運行該項目
    • 添加內聯文檔
    • 使代碼能輕松地從命令行運行
  • 上傳項目到 GitHub

本系列的第三篇文章中已經介紹了如何一步一步創建端到端的機器學習項目。你可以在這里查看。

如果你在定一個好的話題上有困難,以下是一些例子:

  • 歷史上的 S&P 500 數據
  • 流式 Twitter 數據

S&P 500 數據

如果你想要一些靈感,以下是一些優秀的端到端項目例子:

說明性文章

理解并解釋復雜的數據科學概念很重要,比如機器學習的算法。這可以讓 HR 認識到,你善于向公司內的其他人或客戶解釋復雜的概念。這也是數據科學作品集的關鍵點,因為它是現實世界中數據科學工作的重要部分。這同時還展示了你對概念及其工作原理有深入的理解,而不是僅僅停留在語法層面。深入的理解有助于你更好地判斷并做出更好的選擇,以及向他人介紹你的工作。

為了寫一篇說明性的文章,我們首先需要挑一個數據科學的話題,然后撰寫博客。這篇文章需要帶領讀者從一無所知到對概念有一個清晰的了解。而寫文章的關鍵是,使用樸實的、簡單的的語言——你寫得越專業,HR 就越難知道你是真懂還是裝懂。

寫說明性文章的幾個重要的步驟是:挑一個你熟悉的話題,帶領讀者理解概念,然后利用最終的概念做一些有趣的事。以下是一些的參考步驟:

  • 找一個你熟悉的或想要去學習的概念
  • 挑一個數據集輔助解釋
    • 比方說,如果你選擇對 k-nearest nerghbors 進行闡述,你可以借助 NBA 的數據(尋找球路相似的球員)
  • 列一個文章的大綱
    • 假設讀者完全不了解你將闡述的概念
    • 將概念分解成幾個部分
      • 比如,k-nearest neighbors,可以分解為:
        • 利用相似性進行預測
        • 相似度量
        • 歐式距離
        • 利用 k = 1 進行匹配
        • 利用 k > 1 進行匹配
  • 撰寫文章
    • 用直白的語言進行清晰的描述
    • 圍繞一個中心點寫
    • 試著找一個非技術人員讀一讀這篇文章,看看他們的反應
  • 分享文章
    • 最好發布到你自己的博客
    • 如果沒有博客,就上傳到 GitHub

如果你在找一個好的概念上有困難,以下是一些例子:

k-平均算法的可視化

如果你想要一些靈感,下面是一些比較好的說明性文章的例子:

  • 線性回歸
  • 自然語言處理
  • 樸素貝葉斯
  • k-nearest neighbors

可選的作品集構件

雖然上傳至 GitHub 和博客的項目很關鍵,但是添加一些其他的組件也會很有幫助,比如 Quora 上的回答、演講以及數據科學競賽的結果。這些通常是 HR 第二關心的,但它們也是突出和證明你能力的一種很好的方式。

演講

演講是一種幫助教導他人的有效方式,它還能夠向 HR 證明你對某個話題已經熟悉到足以為人師的地步。它可以幫助 HR 認識你的溝通與演說能力。這些技能與作品集的其他部分在一定程度上會有重疊,但仍然是很好的證明。

最常見的演講地點是當地的?Meetup。Meetup 上的演講都是圍繞具體主題展開的,比如 “Python”,或者“利用 D3 進行數據可視化”。

要做好演講,以下是幾個值得參考的步驟:

  • 找一個你從事過的項目或熟悉的概念
    • 最好先看一看作品集中的項目和博客文章
    • 無論你最終挑了什么,它應該與聚會的主題是一致的
  • 分解項目,并用幻燈片演示
    • 你需要將項目進行分解,并用一系列幻燈片進行演示
    • 每張幻燈片上的文字說明盡量少
  • 多練習幾次演講
  • 正式演講
  • 將幻燈片上傳到 GitHub 或你的博客

如果你需要一些靈感,以下是一些優秀的演講例子:

  • 計算統計學
  • Scikit-learn vs Spark for ML pipelines
  • NHL(國家冰球聯盟) 點球分析

數據科學競賽

數據科學競賽涉及用大量數據訓練最精確的機器學習模型。因此參加競賽是很好的學習方式。從 HR 的視角來看,數據科學競賽可以證明你的技術能力(如果你做得夠好的話),你的主動性(如果你確實付出了很多努力)以及你的協作能力(如果你是與他人合作參賽的)。這同樣與作品集的其他項目有重疊,但它也是突出你能力的第二種方式。

大多數數據科學競賽都由?Kaggle?和?DrivenData舉辦。

要參加(以上的)的數據科學競賽,你只需要在相應的網站上注冊,然后就可以開始了!你可以從這里開始一項競賽,你也可以在這里找到一些教程。

Kaggle 上一項賽事的排行榜

小結

現在,你對于要在作品集中展示哪些能力,以及如何打造作品集,應該有了一個清晰的概念。現在就可以行動起來了!

如果你已經有一份簡歷,想秀一下,請在評論區告訴我們!

本系列其他譯文:

  • 打造數據科學作品集:用數據講故事
  • 打造數據科學作品集:搭建一個數據科學博客
  • 打造數據科學作品集:從機器學習項目開始
  • 點此查看原文鏈接


    ?

    本文是「打造數據科學的作品集」的第三篇,全文大約 25000 字符,讀完大約需要 37 分鐘。

    作者:Vik Paruchuri,譯者:唐曉霆,校對:EarlGrey,出品:PythonTG 翻譯組/編程派

    如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。

    數據科學公司在招聘時越來越看重個人作品集,原因在于作品集是衡量實際能力最好的方式之一。好消息是,你完全掌控著自己的作品集。如果付出一些努力,你就可以打造出令用人單位印象深刻的高質量作品集。

    想要打造高質量作品集,第一步需要搞清楚應該在作品中展現什么能力。公司希望數據科學家具備的能力(也就是他們希望作品集能夠展示的能力)包括:

    • 溝通能力
    • 與他人協作能力
    • 技術能力
    • 數據推斷能力
    • 主觀能動性

    一個好的作品集一般由多個項目構成,每一個項目展示以上 1-2 個能力點。本文是講述如何建立一個豐滿的數據科學作品集的第三篇。本文將介紹如何打造作品集中的第二個項目,以及如何創建一個完整的機器學習項目。最后,你會擁有一個可以展示合理解釋數據能力和技術能力的項目。如果你想一窺項目全貌的話,這里是完整的項目文件。

    一個完整的項目

    作為一個數據科學家,有時候你會被叫去分析一個數據集,然后設法用數據講故事。這時,良好的溝通和清晰的思路是非常重要的。像我們在之前用到的 Jupyter notebook 這樣的工具,就能很好地幫助你做到這點。客戶的預期是總結你發現的演示報告或文檔。

    然而,有時候你也會被叫去做有業務價值的項目。一個有業務價值的項目會直接影響公司的日常業務,而且會被大家頻繁使用。類似這樣的任務可能會是“設計一個可以預測用戶變動率的算法”, 或者是“創建一個自動給文章打標簽的模型”。在這類情況下,講故事的能力就沒有技術能力重要了。你需要能夠分析數據集,理解它,然后編寫可以處理這些數據的腳本。這些腳本還要跑的快,耗費最少的資源,如內存,這些都是很常見的要求。通常這些腳本需要頻繁運行,所以最終的交付品就變成了這些腳本自身,而不是報告。這些成果經常集成到業務流程中,甚至可能會直接面對用戶。

    創建一個完整項目,要求你:

    • 理解整個項目環境
    • 探索數據并找到其中的細微差別
    • 建立一個結構良好的項目,使其容易集成至業務流程中
    • 寫出既運行快又占用最少系統資源的高性能代碼
    • 為代碼的安裝和使用寫出良好的文檔,方便他人使用

    為了高效地創建這樣的項目,我們需要和許多文件打交道。我們非常推薦使用像?Atom?的文檔編輯器,或者像?PyCharm?這樣的IDE。這些工具允許你在不同文件間跳轉,并且可以編輯不同類型的文件,比如 markdown 文件,Python 文件和 csv 文件。給你的代碼建立良好的結構,方便進行版本管理,并上傳到像Github這樣的代碼協作工具。

    在本文中,我們會使用?Pandas?和?scikit-learn?等庫。我們會大量用到 Pandas 的DataFrame,這使得在 Python 中讀取和處理表格數據變得非常簡單。

    尋找優質數據集

    尋找優質數據集進行完整的項目分析很困難。數據集需要足夠大,大到出現內存和性能的限制。還需要具備業務價值。舉個例子,這個數據集中包含了美國大學的招生條件、畢業率和畢業生未來收入的數據。這就是一個可以用來講故事的優質數據集。然而,如果你仔細想想,就會發現這里面沒有足夠的細節來建立一個完整的項目。

    舉例說,你可以告訴別人如果他們去某些(好)大學,他們未來的潛在收入就會更高,但是這只需要一個很快的查找比較就可以完成,沒有足夠的空間去展示你的技術能力。你也可以發現如果大學有更高的入學條件,它們的畢業生就更有可能獲得高薪,但這些就更偏向于講故事,而非業務價值了。

    當你有 GB 以上的數據量時,或者當你想要預測一些數據細節,內存和性能限制就會逐漸凸現出來,因為得對數據集運行算法運算。

    一個優質數據集允許你編寫一系列腳本對數據做變形,從而回答一些動態問題。股票價格就是一個很好的數據集。你可以根據這些數據預測第二天的股價走勢,并且在閉市的時候把新數據提供給算法。這可以幫助你執行交易,甚至是獲取利潤。這就不是在講故事了 — 而是直接產生價值。

    下面是一些能夠找到優質數據集的地方:

    瀏覽這些數據集時,想一想如果有這些數據集,人們可能會問什么問題,然后再想想這些問題是否是一次性的(“S&P 500 和房價的相關性是怎樣的?”),或是持續性的(“你能預測股票價格嗎?”)。這里的關鍵在于找到那些持續性的問題,這些問題需要多次運行,并輸入不同的數據才能回答。

    本文中,我們選擇房利美(Fannie Mae)的貸款數據。房利美是一個由美國政府資助的從貸方手里購買房貸的企業。購買房貸之后,它會把這些房貸打包為一些由房貸支撐的證券(MBS)里,再賣出去。這樣就幫助了貸方貸出更多的房貸,并給市場創造了更大的流動性。這從理論上說就會產生更多的房屋業主,進而產生更好的房貸政策。然而從借方的角度來看,情況并沒有什么不同。

    房利美公開了兩種數據 — 收購到的房貸數據,和房貸表現情況數據。在最理想的情況下,一個人從貸方貸了款,然后一直還錢,直到貸款還清。然而,借方有幾次沒有還款,就可能會導致失去抵押品贖回權。這時,銀行就會獲得房屋的所有權,因為沒還清房貸。房利美記錄了哪些房貸沒有還,哪些房貸需要取消抵押品贖回權。這個數據每個季度發布一次,而且會滯后一年。撰寫本文時,最近的數據集是 2015 年第一季度。

    房利美購買房貸時會發布收購信息,其中含有許多關于借方的信息,包括信用評分、房貸和房屋的信息。之后,每個季度發布房貸表現數據,涵蓋了借方的支付信息,和抵押權的狀態。房貸表現信息里可能有很多行。你可以這么想這個事,收購信息表示房利美現在控制了房貸,表現信息則包括了一系列房貸的狀態更新。有的狀態可能會說這筆貸款在某個季度借方抵押權被取消了。

    一個借方失去了抵押品贖回權(止贖)的房子被出售

    選擇分析角度

    對于房利美數據集,我們可以有多個分析角度。我們可以:

    • 嘗試預測一個止贖了的房屋的售價
    • 預測一個借方的還款歷史
    • 計算出一個被收購時房貸的評分

    重要的事是要堅持一個角度。一次專注于太多事情會很難做成一個優秀的項目。選擇一個有足夠細節的角度這點也很重要。以下是一些沒有多少細節的角度:

    • 哪家銀行賣給房利美最多止贖的房貸
    • 借方信用評分的趨勢
    • 哪些房屋類型最經常止贖
    • 房貸金額和止贖售價的關系

    上述的這些角度都很有趣,如果我們關注講故事的話是很棒的話題,但對于一個業務性的項目來說就沒那么好了。

    有了房利美數據集,我們將嘗試僅僅使用收購房貸時的數據,預測房貸是否會被止贖。實際上,我們會為每一份房貸“打分”,這個分數表示房利美是否應該購買這份房貸。這將是一個良好的基礎,也是一個很棒的作品。

    理解數據

    我們首先快速查看原始數據文件。下面是 2012 年第一季度收購數據的前幾行:

    100000853384|R|OTHER|4.625|280000|360|02/2012|04/2012|31|31|1|23|801|N|C|SF|1|I|CA|945||FRM| 100003735682|R|SUNTRUST MORTGAGE INC.|3.99|466000|360|01/2012|03/2012|80|80|2|30|794|N|P|SF|1|P|MD|208||FRM|788 100006367485|C|PHH MORTGAGE CORPORATION|4|229000|360|02/2012|04/2012|67|67|2|36|802|N|R|SF|1|P|CA|959||FRM|794

    下面是 2012 年第一季度的表現數據的前幾行:

    100000853384|03/01/2012|OTHER|4.625||0|360|359|03/2042|41860|0|N|||||||||||||||| 100000853384|04/01/2012||4.625||1|359|358|03/2042|41860|0|N|||||||||||||||| 100000853384|05/01/2012||4.625||2|358|357|03/2042|41860|0|N||||||||||||||||

    在編寫代碼之前,花點時間去理解數據是很有用的。尤其對于業務型項目而言,因為我們沒有互動式地去探索數據,很難發現某些細節,除非一開始就找到它們。這種情況下,第一步就是去房利美的網站上讀一讀有關數據集的材料:

    • 簡介
    • 詞匯表
    • 常見問題
    • 收購和表現文件里的列
    • 收購數據樣本文件
    • 表現數據樣本文件

    讀完這些材料之后,我們知道了一些有用的關鍵信息:

    • 從 2000 年到現在,每個季度都有一個收購文件和表現文件。數據滯后一年,所以最近的數據是 2015 年的
    • 這些文件是文本形式,用 | 作為分隔符
    • 這些文件沒有頭文檔,但是我們有所有列名稱的列表
    • 全部加起來,這些文件共包含 2.2 千萬個房貸的數據
    • 因為表現文件涵蓋了之前的房貸信息,所以早些時候的房貸會有更多的表現數據(舉個例子,2014 年收購的房貸不會有太多表現信息)

    在設計項目結構和處理數據時,這些信息能幫助我們節省一大筆時間。

    設計項目結構

    在開始下載和探索數據之前,設計好項目結構是非常重要的。在打造一個完整的項目時,我們的主要目標是:

    • 輸出一個可行的解決方案
    • 解決方案運行快且消耗最少資源
    • 讓他人可以很容易地擴展項目
    • 讓他人可以容易地理解代碼
    • 寫的代碼越少越好

    為了達到這些目標,我們要設計好項目的結構。一個結構良好的項目遵從以下規范:

    • 數據文件和源代碼分開
    • 原始數據和生成數據分開
    • 有一個 README.md 文件,介紹如何安裝并使用這個項目
    • 有一個 requirements.txt 文件,包含項目所需的所有模塊
    • 有一個 settings.py 文件,包含所有其他文件所需的設置
      • 例如,如果有很多Python腳本都讀取同一個文件,就不如讓它們都導入settings并從這一個地方來得到文件
    • 有一個 .gitignore 文件,來防止一些特別大的或者私密的文件被提交到 Git
    • 把任務分成幾步,并分別放在可以單獨執行的文件里
      • 例如, 用一個文件讀取數據,一個文件建立特征,一個文件執行預測
    • 儲存中間值。例如,一個腳本可能會輸出一個文件,這個文件又會被另外一個腳本讀取
      • 這使得我們可以在數據處理的流程中做一些改動,而又不需要重新計算

    該項目的文件結構如下:

    loan-prediction ├── data ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py

    創建初始文件

    首先,創建 loan-prediction 文件夾。在這個文件夾里,創建 data 文件夾和 processed 文件夾。第一個用來儲存原始數據,第二個用來儲存所有中間值。

    接著,創建 .gitignore 文件。.gitignore 文件會確保一些文件會被 git 忽略,并不會被推送到 Github 上。OS X 在每個文件夾里創建的 .DS_Store 文件就是這類需要忽略的文件。要入門 .gitignore 文件,可以參考這里。還要忽略一些體積太大的文件,而且房利美的條款并不允許二次發布這些文件,所以我們應該在 .gitignore 文件最后加上這兩行:

    這里是本項目的示例 .gitignore 文件。

    接著,創建 README.md ,這有助于人們理解項目。.md 代表這個文件是 markdown 格式。Markdown 能讓你直接用純文本寫作,但是如果想的話,也可以添加一些好看的排版格式。這里是一個 markdown 指南。如果你往 Github 上傳了一個叫 README.md 的文件,Github 會自動處理該文件,把它作為主頁展示給瀏覽者。這里有一個例子。

    目前,只需要在README.md里面放一段簡短的描述:

    Loan Prediction -----------------------Predict whether or not loans acquired by Fannie Mae will go into foreclosure. Fannie Mae acquires loans from other lenders as a way of inducing them to lend more. Fannie Mae releases data on the loans it has acquired and their performance afterwards [here](http://www.fanniemae.com/portal/funding-the-market/data/loan-performance-data.html).

    現在,創建 requirements.txt 文件。這可以幫助其他人安裝我們的項目。目前還不知道具體需要哪些庫,但下面這些是一個好的起點:

    pandas matplotlib scikit-learn numpy ipython scipy

    以上是用 Python 作數據分析最常用的幾個庫,在這個項目中應該會用到它們。這里是本項目的示例 requirements 文件。

    創建 requirements.txt 之后,你應該安裝這些模塊。在本文中,我們使用 Python 3 。如果你還沒有安裝 Python,建議使用?Anaconda,這是一個可以安裝上述所有模塊的 Python 安裝器。

    最后,創建一個空白的 settings.py 文件,因為項目還沒有任何設置。

    獲得數據

    創建好整個項目的框架之后,就可以獲取原始數據了。

    房利美對數據下載有一些限制,所以你得先注冊一個賬號。下載頁面在這里。注冊完賬戶后,就可以隨意下載貸款數據了。文件是 zip 格式,解壓之后也挺大的。

    本文中,我們會把 2012 年第一季度到 2015 年第一季度之間的所有數據都下載下來。然后解壓文件,解壓之后,刪除原始的 .zip 文件。最后,loan-prediction 文件夾的結構應該類似這樣:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py

    下載完數據之后,可以用 head 和 tail 等 shell 命令去觀察文件的前幾行和后幾行。有沒有不需要的列?查看數據時可以參考一下介紹列名稱的 PDF 文件

    讀取數據

    有兩個問題,使得直接處理數據比較困難:

    • 收購和表現數據集被分散在了許多文件里
    • 所有文件都缺少頭文檔

    在開始處理這些數據之前,需要把所有的收購數據集中到一個文件,所有的表現數據集中到一個文件。每個文件只需要包含我們關心的列,和正常的頭文檔。這里有一個小問題,即表現數據特別大,所以可能的話我們得刪減一些列。

    第一步是在 settings.py 里面增添一些變量,包含到原始數據和中間數據的路徑。我們也會加上一些之后會有用的設置:

    DATA_DIR = "data" PROCESSED_DIR = "processed" MINIMUM_TRACKING_QUARTERS = 4 TARGET = "foreclosure_status" NON_PREDICTORS = [TARGET, "id"] CV_FOLDS = 3

    把路徑放在 settings.py 里面,會使得它們統一在一個地方,使得今后改動變得簡單。當許多文件都用了同一些變量的時候,把它們放在一起會比分別在每個文件里做改動要簡單得多。這里是該項目的示例 settings.py 文件。

    第二步是創建一個叫做 assemble.py 的文件,這個文件會把分散的數據組合成 2 個文件。運行 python assemble.py 后,會在 processed 文件夾里面得到 2 個數據文件。

    然后再 assemble.py 中寫代碼。首先,給每個文件定義頭文檔,所以我們需要查看解釋列名稱的 PDF 文檔,然后為收購數據和表現數據文件分別創建一個列表,表示其中的行。

    HEADERS = {"Acquisition": ["id","channel","seller","interest_rate","balance","loan_term","origination_date","first_payment_date","ltv","cltv","borrower_count","dti","borrower_credit_score","first_time_homebuyer","loan_purpose","property_type","unit_count","occupancy_status","property_state","zip","insurance_percentage","product_type","co_borrower_credit_score"],"Performance": ["id","reporting_period","servicer_name","interest_rate","balance","loan_age","months_to_maturity","maturity_date","msa","delinquency_status","modification_flag","zero_balance_code","zero_balance_date","last_paid_installment_date","foreclosure_date","disposition_date","foreclosure_costs","property_repair_costs","recovery_costs","misc_costs","tax_costs","sale_proceeds","credit_enhancement_proceeds","repurchase_proceeds","other_foreclosure_proceeds","non_interest_bearing_balance","principal_forgiveness_balance"] }

    下一步是定義需要保留哪些列。因為我們關心的房貸只是關于它有沒有被止贖,所以可以從表現數據里面丟棄很多列(不影響是否止贖的數據)。但是我們需要保留所有收購數據,因為我們想要盡可能多的房貸信息(畢竟我們要在收購房貸時預測是否會被止贖)。丟棄一些列可以省下一些磁盤空間和內存,同時也會加速代碼的運行速度。

    SELECT = {"Acquisition": HEADERS["Acquisition"],"Performance": ["id","foreclosure_date"] }

    接下來,寫一個函數來拼接所有的數據集。下面的代碼會:

    • 導入一些需要的庫,包括settings
    • 定義函數 concatenate,它可以:
      • 拿到 data 目錄里面所有文件的名字
      • 遍歷每個文件
        • 如果文件的格式不對(并不是以預期的前綴開始),就忽略它
        • 用 Pandas 的read_csv函數,把文件讀取到一個?DataFrame?里
          • 把分隔符設置為 | ,正確讀取數據
          • 數據現在沒有頭文檔,所以把 header 設置成 None
          • 把 HEADERS 字典里的值設置為列的名稱,這些會成為 DataFrame 里面的列名稱
          • 只把加在 SELECT 里面的列從 DataFrame 里面選出來
        • 把所有的 DataFrame 拼接在一起
        • 把拼接好的 DataFrame 輸出成一個文件
    import os import settings import pandas as pddef concatenate(prefix="Acquisition"):files = os.listdir(settings.DATA_DIR)full = []for f in files:if not f.startswith(prefix):continuedata = pd.read_csv(os.path.join(settings.DATA_DIR, f), sep="|", header=None, names=HEADERS[prefix], index_col=False)data = data[SELECT[prefix]]full.append(data)full = pd.concat(full, axis=0)full.to_csv(os.path.join(settings.PROCESSED_DIR, "{}.txt".format(prefix)), sep="|", header=SELECT[prefix], index=False)

    可以用參數 Acquisition 和 Performance 分別調用上面的函數,把所有的收購和表現文件拼接在一起。下面的代碼會:

    • 只當腳本是在命令行用 python assemble.py 執行時運行
    • 拼接所有文件,并輸出成兩個文件:
      • processed/Acquisition.txt
      • processed/Performance.txt
    if __name__ == "__main__":concatenate("Acquisition")concatenate("Performance")

    我們現在有了一個模塊化的 assemble.py 文件,既容易運行,又易擴展。像這樣把大問題劃分成小問題,我們將項目變得更簡單。我們把不同文件分離開,定義它們之間的數據,而不是用一個腳本做所有的事情。當你在做一個大項目的時候,這樣做通常很好,因為更改一些文件后不會產生不可預期的結果。

    完成 assemble.py 腳本后,運行 python assemble.py 。你可以在這里找到完整的腳本。

    這會在 processed 目錄里面輸出兩個文件:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt ├── .gitignore ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py

    表現數據計算

    下一步就是從 processed/Performance.txt 數據中計算一些值。我們想做的就是預測一間房產以后會不會被止贖。為了弄明白這一點,我們只需要看看表現數據里面的房貸是否有一個 foreclosure_date 。如果 foreclosure_date 是 None ,那么這間房產就沒有被止贖。我們也需要規避那些在表現數據里沒有多少歷史數據的房貸,要做到這一點,通過計算它們在表現數據里面累計有多少行就可以。

    可以用下面的方法來思考收購數據和表現數據的關系:

    我們發現,收購數據里每一行都對應了表現數據中的多行。在表現數據中,當止贖發生的時候,當季度的 foreclosure_date 就會出現日期,在這之前都應該是空白的。一些貸款從未被止贖,所以與之相關的表現數據里的 foreclosure_date 都是空白的。

    我們需要計算 foreclorsure_status ,這是一個布爾值,代表一個貸款 id是否有被止贖過。我們也要計算 performance_count ,也就是每個 id 在表現數據里有多少行。

    有幾種方法可以計算 performance_count:

    • 讀取所有的表現數據,然后用 Pandas 的?groupby?方法求每個貸款 id 相關聯的行數,同時 id 對應的 foreclosure_date 有沒有不是 None 過。
      • 這樣做的好處是實現的語法很簡單
      • 這樣做的壞處是讀取 129236094 行數據會花很多內存,而且極其慢
    • 我們可以讀取所有的表現數據,然后在收購數據 DataFrame 上使用?apply?,從而求得每個 id 的計數
      • 好處是概念上很簡單
      • 壞處仍然是讀取 129236094 行數據會花很多內存,而且極其慢
    • 我們可以遍歷表現數據里的每一行,然后保存一個單獨的包含計數的字典
      • 好處是不需要把所有數據一起讀取進內存,所以這樣做會很快,也會優化內存
      • 壞處是得花長一點時間來理清概念和實現,而且需要手工地解析每一行

    把所有數據一并加載會花很多內存,所以我們采用第三種方法。我們所要的就是遍歷表現數據里面的每一行,并且保存一個包含每個 id 的計數字典。在字典里面,我們記錄下表現數據里面每個 id 出現了多少次,并且 foreclosure_date 是否為非 None 過。這樣就能求出 foreclosure_status 和 performance_count 。

    新建一個文件 annotate.py ,并加入用來計算的代碼。在下面的代碼中,我們會:

    • 導入需要的庫
    • 定義一個叫做 count_performance_rows 的函數
      • 打開 precessed/Performance.txt 。這不會把文件讀取進內存,而僅僅是打開一個文件句柄,一行一行地讀取文件內容
      • 遍歷文件里的每一行
        • 根據分隔符 | 分割字符串
        • 檢查 loan_id 是否在 counts 字典里
        • 給 load_id 對應的 performance_count 加1
        • 如果 date 不是 None,那么我們就知道這筆貸款止贖了,所以設置相應的 foreclosure_status
    import os import settings import pandas as pddef count_performance_rows():counts = {}with open(os.path.join(settings.PROCESSED_DIR, "Performance.txt"), 'r') as f:for i, line in enumerate(f):if i == 0:# Skip header rowcontinueloan_id, date = line.split("|")loan_id = int(loan_id)if loan_id not in counts:counts[loan_id] = {"foreclosure_status": False,"performance_count": 0}counts[loan_id]["performance_count"] += 1if len(date.strip()) > 0:counts[loan_id]["foreclosure_status"] = Truereturn counts

    得到計算結果

    創建建了 counts 字典后,我們可以用一個函數抽取出和傳入的 load_id 和 key 相應的值了:

    def get_performance_summary_value(loan_id, key, counts):value = counts.get(loan_id, {"foreclosure_status": False,"performance_count": 0})return value[key]

    上面這個函數會從 counts 字典里返回相應的值,并且可以讓我們為收購數據里每一行添加 foreclosure_status 和 performance_count 值。字典的?get?方法在沒有找到 key 的情況下就會返回一個默認值,所以就算沒有找到也能返回合理的默認值。

    給數據做標記

    我們已經在 annotate.py 中添加上一些函數,現在可以開始處理最有價值的部分了。我們需要把收購數據轉換成一個機器學習算法可以使用的訓練集。需要做以下幾件事:

    • 把所有數據變成數字
    • 補足空白的值
    • 給每一行添加一個 performance_count 和一個 foreclosure_status
    • 刪除那些沒有多少表現歷史數據的行(那些 performance_count 很低的行)

    有幾列的數據都是文字,這在機器學習里沒有什么用。然而它們其實是類別變量,比如說 R、S 這樣的類別編號。我們分別賦予它們數字,從而把它們變成數字:

    這樣轉化了之后,就能把它們用于機器學習。

    一些列也包含了時間( first_payment_date 和 origination_date )。可以把它們各自分割成兩列:

    下面的代碼中,我們會轉換收購數據。定義一個函數,這個函數會:

    • 從 counts 字典里獲取數據,在 acquisition 里建立一個 foreclosure_status 列
    • 從 counts 字典里獲取數據,在 acquisition 里建立一個 performance_count 列
    • 把下面的列從文字轉成數字:
      • channel
      • seller
      • first_time_homebuyer
      • loan_purpose
      • property_type
      • occupancy_status
      • property_state
      • product_type
    • 分別把 first_payment_date 和 origination_date 轉換成兩列:
      • 以 / 為分隔符進行分割
      • 把第一部分賦予 month 列
      • 把第二部分賦予 year 列
      • 刪除原本列
      • 最后,我們就會有 first_payment_month、first_payment_year、origination_month 和 origination_year
    • 將 acquisition里的所有缺失值都替換成 -1
    def annotate(acquisition, counts):acquisition["foreclosure_status"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "foreclosure_status", counts))acquisition["performance_count"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "performance_count", counts))for column in ["channel","seller","first_time_homebuyer","loan_purpose","property_type","occupancy_status","property_state","product_type"]:acquisition[column] = acquisition[column].astype('category').cat.codesfor start in ["first_payment", "origination"]:column = "{}_date".format(start)acquisition["{}_year".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(1))acquisition["{}_month".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(0))del acquisition[column]acquisition = acquisition.fillna(-1)acquisition = acquisition[acquisition["performance_count"] > settings.MINIMUM_TRACKING_QUARTERS]return acquisition

    拼接所有數據

    很快就可以將所有數據拼接在一起了,在這之前我們只要再加一些代碼到 annotate.py 里。在下面的代碼中,我們:

    • 定義一個函數來讀取收購數據
    • 定義一個函數把處理過的數據寫入 processed/train.csv
    • 如果文件是從命令行傳入的,比如 python annotate.py,則:
      • 讀取收購數據
      • 計算表現數據的累計數目,并賦值給 counts
      • 給 acquisition DataFrame 做標記
      • 把 acquisition DataFrame 寫入 train.csv
    def read():acquisition = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "Acquisition.txt"), sep="|")return acquisitiondef write(acquisition):acquisition.to_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"), index=False)if __name__ == "__main__":acquisition = read()counts = count_performance_rows()acquisition = annotate(acquisition, counts)write(acquisition)

    寫好文件后,記得用 python annotate.py 來運行它,這會生成一個 train.csv 文件。完整的 annotate.py 文件在這里。

    文件夾現在應該長這樣:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py

    尋找誤差衡量指標

    我們生成好了訓練數據,現在只需要完成最后一步,生成預測。我們需要找到一個誤差的衡量指標,以及如何評估數據。就本文而言,沒有被止贖的貸款比止贖的貸款多得多,所以典型的準確度衡量并不適用。

    如果我們看一看訓練數據,并查看 foreclosure_status 列的計數,會發現:

    import pandas as pd import settingstrain = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv")) train["foreclosure_status"].value_counts() False 4635982 True 1585 Name: foreclosure_status, dtype: int64

    因為只有這么一點點貸款是止贖了,所以如果我們只看有多少百分比的標簽被正確預測了,那我們即使建立了一個只預測 False 的模型,一樣可以得到很高的準確度。所以我們采用的衡量指標要把這種不平衡考慮進去,確保準確預測。我們不想要太多假正(False Positive),即預測一個貸款會止贖,但其實不會,或者太多假負(False Negative),即預測一個貸款不會被止贖,但其實會。在這兩者之間,假負對房利美來說成本更高,因為他們買的這些房貸沒法收回投資。

    我們定義假負率為預測不會止贖但其實會的預測數量,除以總的止贖貸款數量。這就是模型沒有體現的實際止贖百分比。下面是一個圖表:

    在上圖中,狀態為 1 的貸款被預測為非止贖,但它其實被止贖了。如果把它除以實際止贖貸款數量 2,錯誤的負預測率為 50% 。我們用它作為誤差衡量指標,這樣就能夠有效地評估模型的表現。

    為機器學習設置好分類器

    我們使用交叉驗證來做預測。為了進行交叉驗證,我們把數據分成 3 組,然后:

    • 在 1 組和 2 組上訓練模型,然后在 3 組上預測
    • 在 1 組和 3 組上訓練模型,然后在 2 組上預測
    • 在 2 組和 3 組上訓練模型,然后在 1 組上預測

    把數據分成幾組意味著我們不會用同樣的數據來訓練模型,然后又用同樣的數據來做預測。這就避免了過擬合。如果過擬合了,就會得到一個錯的低假負率,也就是說我們的模型很難應用于真實情況或進行后續改進。

    Scikit-learn?中有一個叫做?cross_val_predict?的函數,使得交叉驗證變得很容易。

    我們還需要挑選一個算法來做預測。我們需要一個分類器來做二元分類。因為目標變量 foreclosure_status 只有兩個值,True和Flase。

    我們使用?邏輯回歸算法。因為它在二元分類下表現很好,運行得極快,而且消耗很少內存。這是因為這個算法的工作方式 — 它不會像隨機森林算法那樣建立一堆決策樹,或像支持向量機那樣做很耗資源的變換,其設計的矩陣操作相對來說少得多。

    我們可以用 scikit-learn 里自帶的邏輯遞歸分類器算法。唯一需要注意的就是每個類的權重。 如果給每個類同樣的權重,,算法就會對每一行預測 False ,因為它要最小化誤差.。然而,我們更關心止贖的貸款而不是不會止贖的貸款。因此,我們給?Logistic Regression 類傳入 balanced 參數到 class_weight 關鍵字中,從而得到一個考慮樣本數量而給于平衡的比重的算法。這樣就能確保算法不會對每一行都預測 False。

    進行預測

    現在已經完成了前期準備工作,可以開始做預測了。創建一個叫 predict.py 的新文件,使用我們之前創建的 train.csv。下面的代碼會:

    • 導入需要的庫
    • 創建一個 cross_validate 函數,它會:
      • 用正確的關鍵詞參數創建一個邏輯遞歸分類器
      • 創建用來訓練模型的數據列列表,同時刪除 id 和 foreclosure_status 列
      • 在 train DataFrame 上運行交叉驗證
      • 返回預測
    import os import settings import pandas as pd from sklearn import cross_validation from sklearn.linear_model import LogisticRegression from sklearn import metricsdef cross_validate(train):clf = LogisticRegression(random_state=1, class_weight="balanced")predictors = train.columns.tolist()predictors = [p for p in predictors if p not in settings.NON_PREDICTORS]predictions = cross_validation.cross_val_predict(clf, train[predictors], train[settings.TARGET], cv=settings.CV_FOLDS)return predictions

    預測誤差

    現在只需要寫一些函數來計算誤差。下面的代碼會:

    • 創建 computer_error 函數,它會:
      • 用 scikit-learn 計算一個簡單準確度評分(符合真實 foreclosure_status 值的預測的百分比)
    • 創建 computer_false_negatives 函數,它會:
      • 把目標和預測寫進一個 DataFrame
      • 計算假負率
    • 創建 computer_false_positives 函數,它會:
      • 把目標和預測寫進一個DataFrame
      • 計算假正率
        • 找到模型預測為止贖但并未止贖的貸款數量
        • 用這個數量除以不是止贖的貸款數量
    def compute_error(target, predictions):return metrics.accuracy_score(target, predictions)def compute_false_negatives(target, predictions):df = pd.DataFrame({"target": target, "predictions": predictions})return df[(df["target"] == 1) & (df["predictions"] == 0)].shape[0] / (df[(df["target"] == 1)].shape[0] + 1)def compute_false_positives(target, predictions):df = pd.DataFrame({"target": target, "predictions": predictions})return df[(df["target"] == 0) & (df["predictions"] == 1)].shape[0] / (df[(df["target"] == 0)].shape[0] + 1)

    整合所有函數

    現在,把上面的函數都放在 predict.py 里面。下面的代碼會:

    • 讀取數據集
    • 計算交叉驗證預測
    • 計算上面提到的 3 個誤差值
    • 打印出誤差值
    def read():train = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"))return trainif __name__ == "__main__":train = read()predictions = cross_validate(train)error = compute_error(train[settings.TARGET], predictions)fn = compute_false_negatives(train[settings.TARGET], predictions)fp = compute_false_positives(train[settings.TARGET], predictions)print("Accuracy Score: {}".format(error))print("False Negatives: {}".format(fn))print("False Positives: {}".format(fp))

    添加完這些代碼后,可以運行 python predict.py 來生成預測。結果顯示,假負率為 .26 ,也就是說對于止贖貸款來說,我們錯誤地預測了其中的 26% 。這是個好的開始,但還有很大的提升空間。

    完整的 predict.py 文件在這里。

    文件樹現在應該長這樣:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── predict.py ├── README.md ├── requirements.txt ├── settings.py

    撰寫 README

    現在我們完成了這個完整的項目, 接下來只需要寫 README.md 文件進行總結,向他人說明我們做了什么,以及如何復制它。一個典型的 README.md 應該包括以下內容:

    • 項目概覽及目標
    • 如何下載所需數據或材料
    • 安裝教程
    • 使用教程
    • 如何貢獻

    這里是本項目的示例 README.md。

    下一步

    恭喜,你已經完成了一個完整的機器學習項目!你可在這里找到完整的示例項目。完成項目之后,記得上傳到 Github 上,這樣其他人就會看到這是你作品集的一部分。

    這些數據尚有一些地方待你挖掘。大致來說,我們可以把它們分成 3 類 — 擴展項目提高準確率,利用其它數據列進行預測,進一步探索數據。以下想法僅供參考:

    • 用 annotate.py 生成更多特征
    • 在 predict.py 里換個算法
    • 使用更多來自房利美的數據
    • 加上一個預測未來數據的方法。如果添加更多的數據,目前的代碼都是可以運行的,所以我們可以加上更多過去的或者未來的數據
    • 嘗試能不能預測銀行一開始該不該放出貸款(以及房利美應不應該收購貸款)
      • 刪除那些銀行在發放貸款時不能獲得的信息列
      • 做預測
    • 探索一下能不能預測除了 foreclosure_status 以外的數據
    • 探索一下表現數據更新時的細節
      • 能不能預測借方遲付貸款的次數?
      • 能不能畫出典型的貸款周期?
    • 按州或郵編對數據進行繪圖

    數據科學家如何找到心儀的工作?

    閱讀 665 收藏 24 2016-10-14 原文鏈接:zhuanlan.zhihu.com 想要一氣呵成,進攻前端開發嗎?騰訊課堂前端開發NEXT學位課程,不僅有實習推薦還有學費減免機會!立即報名吧!https://ke.qq.com/next/index.html

    本文是「打造數據科學的作品集」的第四篇,全文大約 9800 字,讀完大約需要 17 分鐘。如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。


    作者:Vik Paruchuri,譯者:趙喧典,校對:EarlGrey,出品:PythonTG 翻譯組/編程派

    在本系列中,我們已經討論了如何用數據講故事,如何打造一個完整的機器學習項目,以及如何搭建一個數據科學博客。而本文,我們將回過頭來,重點討論如何創建高大上的數據科學作品集。我們將討論什么技能是雇主希望看到的,以及如何創建一份作品集以有效地展示所有的技能。我們將舉例說明作品集中的項目應該如何呈現,并給你一些起步的建議。

    讀完這篇文章之后,你應該能夠理解為什么要創建數據科學作品集,以及具體的方法。

    雇主想要什么

    雇主招人時,想要的是那些能為企業創造價值的人。這通常意味著,應聘者需要掌握能為企業帶來收入和機遇的技能。而作為數據科學家,可以通過以下 4 種方式為企業創造價值:

    • 對原始數據的敏銳洞察,并向他人展示。
      • 例子:分析廣告點擊率,會發現面向 18 到 21 周歲人群的廣告比面向 21 到 25 周歲人群的廣告帶來的成本收益高得多——企業據此調整它的廣告投入,這就創造了商業價值。
    • 構建能為客戶帶去直接價值的系統。
      • 例子:Facebook 的一位數據科學家通過優化新聞流為用戶展現更好的結果——這導致更多人訂閱新聞流,意味著更多的廣告訂閱,這就為 Facebook 帶來直接收入。
    • 構建能為公司其他人帶去直接價值的系統
      • 例子:編寫腳本自動地從 3 個數據庫提取數據并聚合,為他人進行分析通過干凈的數據集——通過提高他人的工作效率,這也創造了價值。
    • 與公司其他人分享專業知識
      • 例子:與產品經理討論如何實現用到機器學習算法的功能——通過防止不切實際的時間表和半成品,這也創造了價值。

    毋庸置疑的是,當雇主考核應聘者時,他們會考核應聘者是否具備上述四項技能的一項或多項(根據公司和崗位不同,可能需要應聘者同時具備多項技能)。為了向企業證明你能在上述所列 4 個領域能幫到企業,你需要展示自身具備以下技能:

    • 溝通能力
    • 與他人協作能力
    • 技術能力
    • 數據推斷能力
    • 主觀能動性

    一個面面俱到的作品集應該足以展示你在上述各方面的技能,并且對他人而言是易審視的——作品集中的每一項都應該具備豐富的文檔,清晰明了,這樣,招聘經理才能快速地對你的作品集進行評估。

    為什么要打造作品集

    如果你擁有頂尖學府的機器學習或相關領域的學位,獲得數據科學相關的工作會相對容易。因為頂尖學府的聲譽以及專業對口的事實,雇主相信你能為企業創造價值。但如果你沒有來自頂尖學府的相關學位,你就不得不為自己建立這份信任。

    這樣說吧:對于雇主而言,需求的崗位有多達 200 份的申請。假設 HR 總共花 10 小時過濾申請以確定電話面試哪些人。這意味著平均每個申請只有 3 分鐘的評估時間。開始時,HR 不相信你能為企業創造價值,而你有 3 分鐘的時間來建立他們對你的這份信任,進而為自己創造電話面試的機會。

    數據科學的一大特征是,你在自己的項目中所做的工作,和你被錄用之后所做的工作幾乎一樣。作為數據科學家,在?Lending Club?分析信貸數據,可能與分析他們發布的匿名貸款數據有很大的相似之處。

    Lending Club 匿名數據的前幾行

    建立 HR 對你的信任,最重要的就是證明你能做他們需要你做的工作。對于數據科學而言,這就需要我們創建一套項目作品集。項目越“真實”,HR 越相信你將是企業的有用之人,你獲得電話面試的機會就越大。

    數據科學作品集需要包含哪些內容

    既然我們知道了需要一個作品集,我們就需要弄清楚它需要包含哪些內容。至少,你應該在?GitHub?或你的博客上有一些項目,代碼是可見的,并配有良好的文檔。HR 越是容易找到這些項目,他們就越容易對你的技能進行評估。每個項目都應該盡可能配有良好的文檔,用 README 文件說明如何進行設置,并介紹數據的特點。

    GitHub 上一個組織良好的項目

    我們將討論一些應該放入作品集的項目類型。建議每種類型都有多個項目,尤其是與你希望從事的崗位相關的項目類型。比方說,如果你申請的崗位需要大量機器學習的知識技能,那么多創建一些用到機器學習的項目會很有幫助。另一方面,如果你申請的是分析師的崗位,那么數據清理和數據呈現項目就更關鍵了。

    數據清理項目

    數據清理項目向 HR 展示了你能夠提取不同的數據集并加以利用。數據清理是數據科學家做的最多的工作,因此,它是需要展示的關鍵技能。這類項目涉及提取雜亂數據,然后清理,并做分析。數據清理項目證明了你的數據推理能力,以及你將多個數據源的數據提取整合為單個數據集的能力。數據清理是所有數據科學家工作的重要部分,展示你已經具備該項能力將是一大優勢。

    你將需要把原始數據清理成易于分析的形式。要做到這一點,你需要:

    • 找一個雜亂的數據集
    • 選一個可用數據作答的問題
    • 清理數據
      • 如果有多個數據文件,將它們整合到一起
      • 確保你希望進行探索的角度,在數據層面是可實現的
    • 做一些基礎分析
    • 展示結果
      • 建議用?Jupyter Notebook?或?R Markdown?進行數據清理和分析
      • 確保代碼和邏輯是可理解的,盡可能多地使用注釋和 Markdown 單元格闡明過程
      • 將項目上傳到 GitHub
      • 由于許可的問題,不是總能將原始數據一并提交到 Git 倉庫,因此你至少要描述一下原始數據,并說明出處。

    本系列的第一篇文章在第一部分介紹了如何一步步創建一個完整的數據清理項目。你可以在這里查看。

    部分紐約市學校數據的數據字典

    如果你在尋找一個好的數據集上有困難,以下是一些例子:

    紐約市地鐵,人來人往

    如果你想要一些靈感,以下是一些優秀的數據清理項目的例子:

    數據呈現項目

    數據呈現項目展現了你對數據的洞察力,從數據中提取洞見并用數據說話的能力。用數據講故事對商業價值有巨大影響,因此,這將是你簡歷的重要組成部分。這個項目涉及提取一組數據,并用數據呈現一個令人信服的結論。例如,你可以利用航班數據說明某些機場存在顯著的航班延遲現象,而這也許可以通過改變航線改善。

    一個優秀的數據呈現項目會用到大量的可視化,并能一步步地引導讀者了解分析結果。以下是創建一個優秀的數據呈現項目的參考步驟:

    • 找一個有趣的數據集
    • 從不同角度探索數據
      • 探索數據
      • 從數據中找出有趣的相關性
      • 創建圖表并一步步展示你的發現
    • 詳細記錄這個引人注目的過程
      • 從所有的探索中挑選一個最有趣的角度
      • 記錄從原始數據到最終發現的探索過程
      • 創建令人信服的圖表
      • 就探索過程中每一步的思考,進行充分闡述,也可以對代碼進行解釋
      • 就每一步的結果,做豐富的分析,以清晰地告訴讀者
      • 告訴讀者你在分析數據過程中的所思所想
    • 展示結果

    本系列的第一篇文章的第二部分,已經介紹了如何一步一步讓數據發聲。你可以在這里查看。

    按街區 SAT 成績劃分的紐約市地圖

    如果你在尋找一個好的數據集上有困難,這里有一些例子:

    • Lending club 的貸款數據
    • FiveThirtyEight 的數據集
    • Hacker new 的數據

    如果你想要一些靈感,以下是一些優秀的數據呈現項目的例子:

    • Hip-hop 與美國總統候選人特朗普
    • 紐約市出租車與優步數據分析
    • 跟蹤研究 NBA 球員的運動

    提及 2016 年美國總統大選候選人的歌詞(圖片來自以上第一個項目)

    端到端項目

    到目前為止,我們已經介紹了涉及探索性數據清理和分析的項目。這些項目能讓 HR 更好地認識到你對數據的洞察力以及呈現數據的能力。然而,它們并不足以展示你的創建面向客戶的系統的能力。面向客戶的系統涉及高性能的代碼,這意味著系統可以使用不同數據,運行多次,產生不同輸出。舉個例子,一個可以對股市進行預測的系統——每天早上,它會自動下載最新的股市數據,然后據此預測當天哪些股票會走紅。

    為了展現我們能夠創建業務系統,我們需要創建一個端到端的項目。端到端的項目接收并處理數據,然后產生輸出。通常,這些輸出都是機器學習算法的結果,但也可以是其他輸出,比如符合某一標準的行總數。

    這里的關鍵是,要讓系統能靈活地處理新的數據(比如股市數據),并具有高性能。此外,使代碼易于安裝設置與運行也很重要。以下是創建一個優秀的端到端項目的參考步驟:

    • 找一個有趣的話題
      • 我們不會僅處理一個單一的靜態數據集,因此,你需要定一個話題
      • 該話題下應該有公開的、經常更新的數據
      • 以下是一些例子:
    • 導入并解析多個數據集
      • 在你的能力范圍內,下載盡可能多的數據
      • 閱讀理解數據
      • 找出你所期望的預測內容
    • 創建預測
    • 整理代碼并配上文檔
      • 將代碼分解為多個文件
      • 在項目中添加一個 REAME 文件,闡述如何安裝和運行該項目
      • 添加內聯文檔
      • 使代碼能輕松地從命令行運行
    • 上傳項目到 GitHub

    本系列的第三篇文章中已經介紹了如何一步一步創建端到端的機器學習項目。你可以在這里查看。

    如果你在定一個好的話題上有困難,以下是一些例子:

    • 歷史上的 S&P 500 數據
    • 流式 Twitter 數據

    S&P 500 數據

    如果你想要一些靈感,以下是一些優秀的端到端項目例子:

    說明性文章

    理解并解釋復雜的數據科學概念很重要,比如機器學習的算法。這可以讓 HR 認識到,你善于向公司內的其他人或客戶解釋復雜的概念。這也是數據科學作品集的關鍵點,因為它是現實世界中數據科學工作的重要部分。這同時還展示了你對概念及其工作原理有深入的理解,而不是僅僅停留在語法層面。深入的理解有助于你更好地判斷并做出更好的選擇,以及向他人介紹你的工作。

    為了寫一篇說明性的文章,我們首先需要挑一個數據科學的話題,然后撰寫博客。這篇文章需要帶領讀者從一無所知到對概念有一個清晰的了解。而寫文章的關鍵是,使用樸實的、簡單的的語言——你寫得越專業,HR 就越難知道你是真懂還是裝懂。

    寫說明性文章的幾個重要的步驟是:挑一個你熟悉的話題,帶領讀者理解概念,然后利用最終的概念做一些有趣的事。以下是一些的參考步驟:

    • 找一個你熟悉的或想要去學習的概念
    • 挑一個數據集輔助解釋
      • 比方說,如果你選擇對 k-nearest nerghbors 進行闡述,你可以借助 NBA 的數據(尋找球路相似的球員)
    • 列一個文章的大綱
      • 假設讀者完全不了解你將闡述的概念
      • 將概念分解成幾個部分
        • 比如,k-nearest neighbors,可以分解為:
          • 利用相似性進行預測
          • 相似度量
          • 歐式距離
          • 利用 k = 1 進行匹配
          • 利用 k > 1 進行匹配
    • 撰寫文章
      • 用直白的語言進行清晰的描述
      • 圍繞一個中心點寫
      • 試著找一個非技術人員讀一讀這篇文章,看看他們的反應
    • 分享文章
      • 最好發布到你自己的博客
      • 如果沒有博客,就上傳到 GitHub

    如果你在找一個好的概念上有困難,以下是一些例子:

    k-平均算法的可視化

    如果你想要一些靈感,下面是一些比較好的說明性文章的例子:

    • 線性回歸
    • 自然語言處理
    • 樸素貝葉斯
    • k-nearest neighbors

    可選的作品集構件

    雖然上傳至 GitHub 和博客的項目很關鍵,但是添加一些其他的組件也會很有幫助,比如 Quora 上的回答、演講以及數據科學競賽的結果。這些通常是 HR 第二關心的,但它們也是突出和證明你能力的一種很好的方式。

    演講

    演講是一種幫助教導他人的有效方式,它還能夠向 HR 證明你對某個話題已經熟悉到足以為人師的地步。它可以幫助 HR 認識你的溝通與演說能力。這些技能與作品集的其他部分在一定程度上會有重疊,但仍然是很好的證明。

    最常見的演講地點是當地的?Meetup。Meetup 上的演講都是圍繞具體主題展開的,比如 “Python”,或者“利用 D3 進行數據可視化”。

    要做好演講,以下是幾個值得參考的步驟:

    • 找一個你從事過的項目或熟悉的概念
      • 最好先看一看作品集中的項目和博客文章
      • 無論你最終挑了什么,它應該與聚會的主題是一致的
    • 分解項目,并用幻燈片演示
      • 你需要將項目進行分解,并用一系列幻燈片進行演示
      • 每張幻燈片上的文字說明盡量少
    • 多練習幾次演講
    • 正式演講
    • 將幻燈片上傳到 GitHub 或你的博客

    如果你需要一些靈感,以下是一些優秀的演講例子:

    • 計算統計學
    • Scikit-learn vs Spark for ML pipelines
    • NHL(國家冰球聯盟) 點球分析

    數據科學競賽

    數據科學競賽涉及用大量數據訓練最精確的機器學習模型。因此參加競賽是很好的學習方式。從 HR 的視角來看,數據科學競賽可以證明你的技術能力(如果你做得夠好的話),你的主動性(如果你確實付出了很多努力)以及你的協作能力(如果你是與他人合作參賽的)。這同樣與作品集的其他項目有重疊,但它也是突出你能力的第二種方式。

    大多數數據科學競賽都由?Kaggle?和?DrivenData舉辦。

    要參加(以上的)的數據科學競賽,你只需要在相應的網站上注冊,然后就可以開始了!你可以從這里開始一項競賽,你也可以在這里找到一些教程。

    Kaggle 上一項賽事的排行榜

    小結

    現在,你對于要在作品集中展示哪些能力,以及如何打造作品集,應該有了一個清晰的概念。現在就可以行動起來了!

    如果你已經有一份簡歷,想秀一下,請在評論區告訴我們!

    本系列其他譯文:

  • 打造數據科學作品集:用數據講故事
  • 打造數據科學作品集:搭建一個數據科學博客
  • 打造數據科學作品集:從機器學習項目開始
  • 點此查看原文鏈接


    ?

    本文是「打造數據科學的作品集」的第三篇,全文大約 25000 字符,讀完大約需要 37 分鐘。

    作者:Vik Paruchuri,譯者:唐曉霆,校對:EarlGrey,出品:PythonTG 翻譯組/編程派

    如果你喜歡并希望及時獲取本系列的最新文章,可以訂閱我們。

    數據科學公司在招聘時越來越看重個人作品集,原因在于作品集是衡量實際能力最好的方式之一。好消息是,你完全掌控著自己的作品集。如果付出一些努力,你就可以打造出令用人單位印象深刻的高質量作品集。

    想要打造高質量作品集,第一步需要搞清楚應該在作品中展現什么能力。公司希望數據科學家具備的能力(也就是他們希望作品集能夠展示的能力)包括:

    • 溝通能力
    • 與他人協作能力
    • 技術能力
    • 數據推斷能力
    • 主觀能動性

    一個好的作品集一般由多個項目構成,每一個項目展示以上 1-2 個能力點。本文是講述如何建立一個豐滿的數據科學作品集的第三篇。本文將介紹如何打造作品集中的第二個項目,以及如何創建一個完整的機器學習項目。最后,你會擁有一個可以展示合理解釋數據能力和技術能力的項目。如果你想一窺項目全貌的話,這里是完整的項目文件。

    一個完整的項目

    作為一個數據科學家,有時候你會被叫去分析一個數據集,然后設法用數據講故事。這時,良好的溝通和清晰的思路是非常重要的。像我們在之前用到的 Jupyter notebook 這樣的工具,就能很好地幫助你做到這點。客戶的預期是總結你發現的演示報告或文檔。

    然而,有時候你也會被叫去做有業務價值的項目。一個有業務價值的項目會直接影響公司的日常業務,而且會被大家頻繁使用。類似這樣的任務可能會是“設計一個可以預測用戶變動率的算法”, 或者是“創建一個自動給文章打標簽的模型”。在這類情況下,講故事的能力就沒有技術能力重要了。你需要能夠分析數據集,理解它,然后編寫可以處理這些數據的腳本。這些腳本還要跑的快,耗費最少的資源,如內存,這些都是很常見的要求。通常這些腳本需要頻繁運行,所以最終的交付品就變成了這些腳本自身,而不是報告。這些成果經常集成到業務流程中,甚至可能會直接面對用戶。

    創建一個完整項目,要求你:

    • 理解整個項目環境
    • 探索數據并找到其中的細微差別
    • 建立一個結構良好的項目,使其容易集成至業務流程中
    • 寫出既運行快又占用最少系統資源的高性能代碼
    • 為代碼的安裝和使用寫出良好的文檔,方便他人使用

    為了高效地創建這樣的項目,我們需要和許多文件打交道。我們非常推薦使用像?Atom?的文檔編輯器,或者像?PyCharm?這樣的IDE。這些工具允許你在不同文件間跳轉,并且可以編輯不同類型的文件,比如 markdown 文件,Python 文件和 csv 文件。給你的代碼建立良好的結構,方便進行版本管理,并上傳到像Github這樣的代碼協作工具。

    在本文中,我們會使用?Pandas?和?scikit-learn?等庫。我們會大量用到 Pandas 的DataFrame,這使得在 Python 中讀取和處理表格數據變得非常簡單。

    尋找優質數據集

    尋找優質數據集進行完整的項目分析很困難。數據集需要足夠大,大到出現內存和性能的限制。還需要具備業務價值。舉個例子,這個數據集中包含了美國大學的招生條件、畢業率和畢業生未來收入的數據。這就是一個可以用來講故事的優質數據集。然而,如果你仔細想想,就會發現這里面沒有足夠的細節來建立一個完整的項目。

    舉例說,你可以告訴別人如果他們去某些(好)大學,他們未來的潛在收入就會更高,但是這只需要一個很快的查找比較就可以完成,沒有足夠的空間去展示你的技術能力。你也可以發現如果大學有更高的入學條件,它們的畢業生就更有可能獲得高薪,但這些就更偏向于講故事,而非業務價值了。

    當你有 GB 以上的數據量時,或者當你想要預測一些數據細節,內存和性能限制就會逐漸凸現出來,因為得對數據集運行算法運算。

    一個優質數據集允許你編寫一系列腳本對數據做變形,從而回答一些動態問題。股票價格就是一個很好的數據集。你可以根據這些數據預測第二天的股價走勢,并且在閉市的時候把新數據提供給算法。這可以幫助你執行交易,甚至是獲取利潤。這就不是在講故事了 — 而是直接產生價值。

    下面是一些能夠找到優質數據集的地方:

    瀏覽這些數據集時,想一想如果有這些數據集,人們可能會問什么問題,然后再想想這些問題是否是一次性的(“S&P 500 和房價的相關性是怎樣的?”),或是持續性的(“你能預測股票價格嗎?”)。這里的關鍵在于找到那些持續性的問題,這些問題需要多次運行,并輸入不同的數據才能回答。

    本文中,我們選擇房利美(Fannie Mae)的貸款數據。房利美是一個由美國政府資助的從貸方手里購買房貸的企業。購買房貸之后,它會把這些房貸打包為一些由房貸支撐的證券(MBS)里,再賣出去。這樣就幫助了貸方貸出更多的房貸,并給市場創造了更大的流動性。這從理論上說就會產生更多的房屋業主,進而產生更好的房貸政策。然而從借方的角度來看,情況并沒有什么不同。

    房利美公開了兩種數據 — 收購到的房貸數據,和房貸表現情況數據。在最理想的情況下,一個人從貸方貸了款,然后一直還錢,直到貸款還清。然而,借方有幾次沒有還款,就可能會導致失去抵押品贖回權。這時,銀行就會獲得房屋的所有權,因為沒還清房貸。房利美記錄了哪些房貸沒有還,哪些房貸需要取消抵押品贖回權。這個數據每個季度發布一次,而且會滯后一年。撰寫本文時,最近的數據集是 2015 年第一季度。

    房利美購買房貸時會發布收購信息,其中含有許多關于借方的信息,包括信用評分、房貸和房屋的信息。之后,每個季度發布房貸表現數據,涵蓋了借方的支付信息,和抵押權的狀態。房貸表現信息里可能有很多行。你可以這么想這個事,收購信息表示房利美現在控制了房貸,表現信息則包括了一系列房貸的狀態更新。有的狀態可能會說這筆貸款在某個季度借方抵押權被取消了。

    一個借方失去了抵押品贖回權(止贖)的房子被出售

    選擇分析角度

    對于房利美數據集,我們可以有多個分析角度。我們可以:

    • 嘗試預測一個止贖了的房屋的售價
    • 預測一個借方的還款歷史
    • 計算出一個被收購時房貸的評分

    重要的事是要堅持一個角度。一次專注于太多事情會很難做成一個優秀的項目。選擇一個有足夠細節的角度這點也很重要。以下是一些沒有多少細節的角度:

    • 哪家銀行賣給房利美最多止贖的房貸
    • 借方信用評分的趨勢
    • 哪些房屋類型最經常止贖
    • 房貸金額和止贖售價的關系

    上述的這些角度都很有趣,如果我們關注講故事的話是很棒的話題,但對于一個業務性的項目來說就沒那么好了。

    有了房利美數據集,我們將嘗試僅僅使用收購房貸時的數據,預測房貸是否會被止贖。實際上,我們會為每一份房貸“打分”,這個分數表示房利美是否應該購買這份房貸。這將是一個良好的基礎,也是一個很棒的作品。

    理解數據

    我們首先快速查看原始數據文件。下面是 2012 年第一季度收購數據的前幾行:

    100000853384|R|OTHER|4.625|280000|360|02/2012|04/2012|31|31|1|23|801|N|C|SF|1|I|CA|945||FRM| 100003735682|R|SUNTRUST MORTGAGE INC.|3.99|466000|360|01/2012|03/2012|80|80|2|30|794|N|P|SF|1|P|MD|208||FRM|788 100006367485|C|PHH MORTGAGE CORPORATION|4|229000|360|02/2012|04/2012|67|67|2|36|802|N|R|SF|1|P|CA|959||FRM|794

    下面是 2012 年第一季度的表現數據的前幾行:

    100000853384|03/01/2012|OTHER|4.625||0|360|359|03/2042|41860|0|N|||||||||||||||| 100000853384|04/01/2012||4.625||1|359|358|03/2042|41860|0|N|||||||||||||||| 100000853384|05/01/2012||4.625||2|358|357|03/2042|41860|0|N||||||||||||||||

    在編寫代碼之前,花點時間去理解數據是很有用的。尤其對于業務型項目而言,因為我們沒有互動式地去探索數據,很難發現某些細節,除非一開始就找到它們。這種情況下,第一步就是去房利美的網站上讀一讀有關數據集的材料:

    • 簡介
    • 詞匯表
    • 常見問題
    • 收購和表現文件里的列
    • 收購數據樣本文件
    • 表現數據樣本文件

    讀完這些材料之后,我們知道了一些有用的關鍵信息:

    • 從 2000 年到現在,每個季度都有一個收購文件和表現文件。數據滯后一年,所以最近的數據是 2015 年的
    • 這些文件是文本形式,用 | 作為分隔符
    • 這些文件沒有頭文檔,但是我們有所有列名稱的列表
    • 全部加起來,這些文件共包含 2.2 千萬個房貸的數據
    • 因為表現文件涵蓋了之前的房貸信息,所以早些時候的房貸會有更多的表現數據(舉個例子,2014 年收購的房貸不會有太多表現信息)

    在設計項目結構和處理數據時,這些信息能幫助我們節省一大筆時間。

    設計項目結構

    在開始下載和探索數據之前,設計好項目結構是非常重要的。在打造一個完整的項目時,我們的主要目標是:

    • 輸出一個可行的解決方案
    • 解決方案運行快且消耗最少資源
    • 讓他人可以很容易地擴展項目
    • 讓他人可以容易地理解代碼
    • 寫的代碼越少越好

    為了達到這些目標,我們要設計好項目的結構。一個結構良好的項目遵從以下規范:

    • 數據文件和源代碼分開
    • 原始數據和生成數據分開
    • 有一個 README.md 文件,介紹如何安裝并使用這個項目
    • 有一個 requirements.txt 文件,包含項目所需的所有模塊
    • 有一個 settings.py 文件,包含所有其他文件所需的設置
      • 例如,如果有很多Python腳本都讀取同一個文件,就不如讓它們都導入settings并從這一個地方來得到文件
    • 有一個 .gitignore 文件,來防止一些特別大的或者私密的文件被提交到 Git
    • 把任務分成幾步,并分別放在可以單獨執行的文件里
      • 例如, 用一個文件讀取數據,一個文件建立特征,一個文件執行預測
    • 儲存中間值。例如,一個腳本可能會輸出一個文件,這個文件又會被另外一個腳本讀取
      • 這使得我們可以在數據處理的流程中做一些改動,而又不需要重新計算

    該項目的文件結構如下:

    loan-prediction ├── data ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py

    創建初始文件

    首先,創建 loan-prediction 文件夾。在這個文件夾里,創建 data 文件夾和 processed 文件夾。第一個用來儲存原始數據,第二個用來儲存所有中間值。

    接著,創建 .gitignore 文件。.gitignore 文件會確保一些文件會被 git 忽略,并不會被推送到 Github 上。OS X 在每個文件夾里創建的 .DS_Store 文件就是這類需要忽略的文件。要入門 .gitignore 文件,可以參考這里。還要忽略一些體積太大的文件,而且房利美的條款并不允許二次發布這些文件,所以我們應該在 .gitignore 文件最后加上這兩行:

    這里是本項目的示例 .gitignore 文件。

    接著,創建 README.md ,這有助于人們理解項目。.md 代表這個文件是 markdown 格式。Markdown 能讓你直接用純文本寫作,但是如果想的話,也可以添加一些好看的排版格式。這里是一個 markdown 指南。如果你往 Github 上傳了一個叫 README.md 的文件,Github 會自動處理該文件,把它作為主頁展示給瀏覽者。這里有一個例子。

    目前,只需要在README.md里面放一段簡短的描述:

    Loan Prediction -----------------------Predict whether or not loans acquired by Fannie Mae will go into foreclosure. Fannie Mae acquires loans from other lenders as a way of inducing them to lend more. Fannie Mae releases data on the loans it has acquired and their performance afterwards [here](http://www.fanniemae.com/portal/funding-the-market/data/loan-performance-data.html).

    現在,創建 requirements.txt 文件。這可以幫助其他人安裝我們的項目。目前還不知道具體需要哪些庫,但下面這些是一個好的起點:

    pandas matplotlib scikit-learn numpy ipython scipy

    以上是用 Python 作數據分析最常用的幾個庫,在這個項目中應該會用到它們。這里是本項目的示例 requirements 文件。

    創建 requirements.txt 之后,你應該安裝這些模塊。在本文中,我們使用 Python 3 。如果你還沒有安裝 Python,建議使用?Anaconda,這是一個可以安裝上述所有模塊的 Python 安裝器。

    最后,創建一個空白的 settings.py 文件,因為項目還沒有任何設置。

    獲得數據

    創建好整個項目的框架之后,就可以獲取原始數據了。

    房利美對數據下載有一些限制,所以你得先注冊一個賬號。下載頁面在這里。注冊完賬戶后,就可以隨意下載貸款數據了。文件是 zip 格式,解壓之后也挺大的。

    本文中,我們會把 2012 年第一季度到 2015 年第一季度之間的所有數據都下載下來。然后解壓文件,解壓之后,刪除原始的 .zip 文件。最后,loan-prediction 文件夾的結構應該類似這樣:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed ├── .gitignore ├── README.md ├── requirements.txt ├── settings.py

    下載完數據之后,可以用 head 和 tail 等 shell 命令去觀察文件的前幾行和后幾行。有沒有不需要的列?查看數據時可以參考一下介紹列名稱的 PDF 文件

    讀取數據

    有兩個問題,使得直接處理數據比較困難:

    • 收購和表現數據集被分散在了許多文件里
    • 所有文件都缺少頭文檔

    在開始處理這些數據之前,需要把所有的收購數據集中到一個文件,所有的表現數據集中到一個文件。每個文件只需要包含我們關心的列,和正常的頭文檔。這里有一個小問題,即表現數據特別大,所以可能的話我們得刪減一些列。

    第一步是在 settings.py 里面增添一些變量,包含到原始數據和中間數據的路徑。我們也會加上一些之后會有用的設置:

    DATA_DIR = "data" PROCESSED_DIR = "processed" MINIMUM_TRACKING_QUARTERS = 4 TARGET = "foreclosure_status" NON_PREDICTORS = [TARGET, "id"] CV_FOLDS = 3

    把路徑放在 settings.py 里面,會使得它們統一在一個地方,使得今后改動變得簡單。當許多文件都用了同一些變量的時候,把它們放在一起會比分別在每個文件里做改動要簡單得多。這里是該項目的示例 settings.py 文件。

    第二步是創建一個叫做 assemble.py 的文件,這個文件會把分散的數據組合成 2 個文件。運行 python assemble.py 后,會在 processed 文件夾里面得到 2 個數據文件。

    然后再 assemble.py 中寫代碼。首先,給每個文件定義頭文檔,所以我們需要查看解釋列名稱的 PDF 文檔,然后為收購數據和表現數據文件分別創建一個列表,表示其中的行。

    HEADERS = {"Acquisition": ["id","channel","seller","interest_rate","balance","loan_term","origination_date","first_payment_date","ltv","cltv","borrower_count","dti","borrower_credit_score","first_time_homebuyer","loan_purpose","property_type","unit_count","occupancy_status","property_state","zip","insurance_percentage","product_type","co_borrower_credit_score"],"Performance": ["id","reporting_period","servicer_name","interest_rate","balance","loan_age","months_to_maturity","maturity_date","msa","delinquency_status","modification_flag","zero_balance_code","zero_balance_date","last_paid_installment_date","foreclosure_date","disposition_date","foreclosure_costs","property_repair_costs","recovery_costs","misc_costs","tax_costs","sale_proceeds","credit_enhancement_proceeds","repurchase_proceeds","other_foreclosure_proceeds","non_interest_bearing_balance","principal_forgiveness_balance"] }

    下一步是定義需要保留哪些列。因為我們關心的房貸只是關于它有沒有被止贖,所以可以從表現數據里面丟棄很多列(不影響是否止贖的數據)。但是我們需要保留所有收購數據,因為我們想要盡可能多的房貸信息(畢竟我們要在收購房貸時預測是否會被止贖)。丟棄一些列可以省下一些磁盤空間和內存,同時也會加速代碼的運行速度。

    SELECT = {"Acquisition": HEADERS["Acquisition"],"Performance": ["id","foreclosure_date"] }

    接下來,寫一個函數來拼接所有的數據集。下面的代碼會:

    • 導入一些需要的庫,包括settings
    • 定義函數 concatenate,它可以:
      • 拿到 data 目錄里面所有文件的名字
      • 遍歷每個文件
        • 如果文件的格式不對(并不是以預期的前綴開始),就忽略它
        • 用 Pandas 的read_csv函數,把文件讀取到一個?DataFrame?里
          • 把分隔符設置為 | ,正確讀取數據
          • 數據現在沒有頭文檔,所以把 header 設置成 None
          • 把 HEADERS 字典里的值設置為列的名稱,這些會成為 DataFrame 里面的列名稱
          • 只把加在 SELECT 里面的列從 DataFrame 里面選出來
        • 把所有的 DataFrame 拼接在一起
        • 把拼接好的 DataFrame 輸出成一個文件
    import os import settings import pandas as pddef concatenate(prefix="Acquisition"):files = os.listdir(settings.DATA_DIR)full = []for f in files:if not f.startswith(prefix):continuedata = pd.read_csv(os.path.join(settings.DATA_DIR, f), sep="|", header=None, names=HEADERS[prefix], index_col=False)data = data[SELECT[prefix]]full.append(data)full = pd.concat(full, axis=0)full.to_csv(os.path.join(settings.PROCESSED_DIR, "{}.txt".format(prefix)), sep="|", header=SELECT[prefix], index=False)

    可以用參數 Acquisition 和 Performance 分別調用上面的函數,把所有的收購和表現文件拼接在一起。下面的代碼會:

    • 只當腳本是在命令行用 python assemble.py 執行時運行
    • 拼接所有文件,并輸出成兩個文件:
      • processed/Acquisition.txt
      • processed/Performance.txt
    if __name__ == "__main__":concatenate("Acquisition")concatenate("Performance")

    我們現在有了一個模塊化的 assemble.py 文件,既容易運行,又易擴展。像這樣把大問題劃分成小問題,我們將項目變得更簡單。我們把不同文件分離開,定義它們之間的數據,而不是用一個腳本做所有的事情。當你在做一個大項目的時候,這樣做通常很好,因為更改一些文件后不會產生不可預期的結果。

    完成 assemble.py 腳本后,運行 python assemble.py 。你可以在這里找到完整的腳本。

    這會在 processed 目錄里面輸出兩個文件:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt ├── .gitignore ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py

    表現數據計算

    下一步就是從 processed/Performance.txt 數據中計算一些值。我們想做的就是預測一間房產以后會不會被止贖。為了弄明白這一點,我們只需要看看表現數據里面的房貸是否有一個 foreclosure_date 。如果 foreclosure_date 是 None ,那么這間房產就沒有被止贖。我們也需要規避那些在表現數據里沒有多少歷史數據的房貸,要做到這一點,通過計算它們在表現數據里面累計有多少行就可以。

    可以用下面的方法來思考收購數據和表現數據的關系:

    我們發現,收購數據里每一行都對應了表現數據中的多行。在表現數據中,當止贖發生的時候,當季度的 foreclosure_date 就會出現日期,在這之前都應該是空白的。一些貸款從未被止贖,所以與之相關的表現數據里的 foreclosure_date 都是空白的。

    我們需要計算 foreclorsure_status ,這是一個布爾值,代表一個貸款 id是否有被止贖過。我們也要計算 performance_count ,也就是每個 id 在表現數據里有多少行。

    有幾種方法可以計算 performance_count:

    • 讀取所有的表現數據,然后用 Pandas 的?groupby?方法求每個貸款 id 相關聯的行數,同時 id 對應的 foreclosure_date 有沒有不是 None 過。
      • 這樣做的好處是實現的語法很簡單
      • 這樣做的壞處是讀取 129236094 行數據會花很多內存,而且極其慢
    • 我們可以讀取所有的表現數據,然后在收購數據 DataFrame 上使用?apply?,從而求得每個 id 的計數
      • 好處是概念上很簡單
      • 壞處仍然是讀取 129236094 行數據會花很多內存,而且極其慢
    • 我們可以遍歷表現數據里的每一行,然后保存一個單獨的包含計數的字典
      • 好處是不需要把所有數據一起讀取進內存,所以這樣做會很快,也會優化內存
      • 壞處是得花長一點時間來理清概念和實現,而且需要手工地解析每一行

    把所有數據一并加載會花很多內存,所以我們采用第三種方法。我們所要的就是遍歷表現數據里面的每一行,并且保存一個包含每個 id 的計數字典。在字典里面,我們記錄下表現數據里面每個 id 出現了多少次,并且 foreclosure_date 是否為非 None 過。這樣就能求出 foreclosure_status 和 performance_count 。

    新建一個文件 annotate.py ,并加入用來計算的代碼。在下面的代碼中,我們會:

    • 導入需要的庫
    • 定義一個叫做 count_performance_rows 的函數
      • 打開 precessed/Performance.txt 。這不會把文件讀取進內存,而僅僅是打開一個文件句柄,一行一行地讀取文件內容
      • 遍歷文件里的每一行
        • 根據分隔符 | 分割字符串
        • 檢查 loan_id 是否在 counts 字典里
        • 給 load_id 對應的 performance_count 加1
        • 如果 date 不是 None,那么我們就知道這筆貸款止贖了,所以設置相應的 foreclosure_status
    import os import settings import pandas as pddef count_performance_rows():counts = {}with open(os.path.join(settings.PROCESSED_DIR, "Performance.txt"), 'r') as f:for i, line in enumerate(f):if i == 0:# Skip header rowcontinueloan_id, date = line.split("|")loan_id = int(loan_id)if loan_id not in counts:counts[loan_id] = {"foreclosure_status": False,"performance_count": 0}counts[loan_id]["performance_count"] += 1if len(date.strip()) > 0:counts[loan_id]["foreclosure_status"] = Truereturn counts

    得到計算結果

    創建建了 counts 字典后,我們可以用一個函數抽取出和傳入的 load_id 和 key 相應的值了:

    def get_performance_summary_value(loan_id, key, counts):value = counts.get(loan_id, {"foreclosure_status": False,"performance_count": 0})return value[key]

    上面這個函數會從 counts 字典里返回相應的值,并且可以讓我們為收購數據里每一行添加 foreclosure_status 和 performance_count 值。字典的?get?方法在沒有找到 key 的情況下就會返回一個默認值,所以就算沒有找到也能返回合理的默認值。

    給數據做標記

    我們已經在 annotate.py 中添加上一些函數,現在可以開始處理最有價值的部分了。我們需要把收購數據轉換成一個機器學習算法可以使用的訓練集。需要做以下幾件事:

    • 把所有數據變成數字
    • 補足空白的值
    • 給每一行添加一個 performance_count 和一個 foreclosure_status
    • 刪除那些沒有多少表現歷史數據的行(那些 performance_count 很低的行)

    有幾列的數據都是文字,這在機器學習里沒有什么用。然而它們其實是類別變量,比如說 R、S 這樣的類別編號。我們分別賦予它們數字,從而把它們變成數字:

    這樣轉化了之后,就能把它們用于機器學習。

    一些列也包含了時間( first_payment_date 和 origination_date )。可以把它們各自分割成兩列:

    下面的代碼中,我們會轉換收購數據。定義一個函數,這個函數會:

    • 從 counts 字典里獲取數據,在 acquisition 里建立一個 foreclosure_status 列
    • 從 counts 字典里獲取數據,在 acquisition 里建立一個 performance_count 列
    • 把下面的列從文字轉成數字:
      • channel
      • seller
      • first_time_homebuyer
      • loan_purpose
      • property_type
      • occupancy_status
      • property_state
      • product_type
    • 分別把 first_payment_date 和 origination_date 轉換成兩列:
      • 以 / 為分隔符進行分割
      • 把第一部分賦予 month 列
      • 把第二部分賦予 year 列
      • 刪除原本列
      • 最后,我們就會有 first_payment_month、first_payment_year、origination_month 和 origination_year
    • 將 acquisition里的所有缺失值都替換成 -1
    def annotate(acquisition, counts):acquisition["foreclosure_status"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "foreclosure_status", counts))acquisition["performance_count"] = acquisition["id"].apply(lambda x: get_performance_summary_value(x, "performance_count", counts))for column in ["channel","seller","first_time_homebuyer","loan_purpose","property_type","occupancy_status","property_state","product_type"]:acquisition[column] = acquisition[column].astype('category').cat.codesfor start in ["first_payment", "origination"]:column = "{}_date".format(start)acquisition["{}_year".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(1))acquisition["{}_month".format(start)] = pd.to_numeric(acquisition[column].str.split('/').str.get(0))del acquisition[column]acquisition = acquisition.fillna(-1)acquisition = acquisition[acquisition["performance_count"] > settings.MINIMUM_TRACKING_QUARTERS]return acquisition

    拼接所有數據

    很快就可以將所有數據拼接在一起了,在這之前我們只要再加一些代碼到 annotate.py 里。在下面的代碼中,我們:

    • 定義一個函數來讀取收購數據
    • 定義一個函數把處理過的數據寫入 processed/train.csv
    • 如果文件是從命令行傳入的,比如 python annotate.py,則:
      • 讀取收購數據
      • 計算表現數據的累計數目,并賦值給 counts
      • 給 acquisition DataFrame 做標記
      • 把 acquisition DataFrame 寫入 train.csv
    def read():acquisition = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "Acquisition.txt"), sep="|")return acquisitiondef write(acquisition):acquisition.to_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"), index=False)if __name__ == "__main__":acquisition = read()counts = count_performance_rows()acquisition = annotate(acquisition, counts)write(acquisition)

    寫好文件后,記得用 python annotate.py 來運行它,這會生成一個 train.csv 文件。完整的 annotate.py 文件在這里。

    文件夾現在應該長這樣:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── README.md ├── requirements.txt ├── settings.py

    尋找誤差衡量指標

    我們生成好了訓練數據,現在只需要完成最后一步,生成預測。我們需要找到一個誤差的衡量指標,以及如何評估數據。就本文而言,沒有被止贖的貸款比止贖的貸款多得多,所以典型的準確度衡量并不適用。

    如果我們看一看訓練數據,并查看 foreclosure_status 列的計數,會發現:

    import pandas as pd import settingstrain = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv")) train["foreclosure_status"].value_counts() False 4635982 True 1585 Name: foreclosure_status, dtype: int64

    因為只有這么一點點貸款是止贖了,所以如果我們只看有多少百分比的標簽被正確預測了,那我們即使建立了一個只預測 False 的模型,一樣可以得到很高的準確度。所以我們采用的衡量指標要把這種不平衡考慮進去,確保準確預測。我們不想要太多假正(False Positive),即預測一個貸款會止贖,但其實不會,或者太多假負(False Negative),即預測一個貸款不會被止贖,但其實會。在這兩者之間,假負對房利美來說成本更高,因為他們買的這些房貸沒法收回投資。

    我們定義假負率為預測不會止贖但其實會的預測數量,除以總的止贖貸款數量。這就是模型沒有體現的實際止贖百分比。下面是一個圖表:

    在上圖中,狀態為 1 的貸款被預測為非止贖,但它其實被止贖了。如果把它除以實際止贖貸款數量 2,錯誤的負預測率為 50% 。我們用它作為誤差衡量指標,這樣就能夠有效地評估模型的表現。

    為機器學習設置好分類器

    我們使用交叉驗證來做預測。為了進行交叉驗證,我們把數據分成 3 組,然后:

    • 在 1 組和 2 組上訓練模型,然后在 3 組上預測
    • 在 1 組和 3 組上訓練模型,然后在 2 組上預測
    • 在 2 組和 3 組上訓練模型,然后在 1 組上預測

    把數據分成幾組意味著我們不會用同樣的數據來訓練模型,然后又用同樣的數據來做預測。這就避免了過擬合。如果過擬合了,就會得到一個錯的低假負率,也就是說我們的模型很難應用于真實情況或進行后續改進。

    Scikit-learn?中有一個叫做?cross_val_predict?的函數,使得交叉驗證變得很容易。

    我們還需要挑選一個算法來做預測。我們需要一個分類器來做二元分類。因為目標變量 foreclosure_status 只有兩個值,True和Flase。

    我們使用?邏輯回歸算法。因為它在二元分類下表現很好,運行得極快,而且消耗很少內存。這是因為這個算法的工作方式 — 它不會像隨機森林算法那樣建立一堆決策樹,或像支持向量機那樣做很耗資源的變換,其設計的矩陣操作相對來說少得多。

    我們可以用 scikit-learn 里自帶的邏輯遞歸分類器算法。唯一需要注意的就是每個類的權重。 如果給每個類同樣的權重,,算法就會對每一行預測 False ,因為它要最小化誤差.。然而,我們更關心止贖的貸款而不是不會止贖的貸款。因此,我們給?Logistic Regression 類傳入 balanced 參數到 class_weight 關鍵字中,從而得到一個考慮樣本數量而給于平衡的比重的算法。這樣就能確保算法不會對每一行都預測 False。

    進行預測

    現在已經完成了前期準備工作,可以開始做預測了。創建一個叫 predict.py 的新文件,使用我們之前創建的 train.csv。下面的代碼會:

    • 導入需要的庫
    • 創建一個 cross_validate 函數,它會:
      • 用正確的關鍵詞參數創建一個邏輯遞歸分類器
      • 創建用來訓練模型的數據列列表,同時刪除 id 和 foreclosure_status 列
      • 在 train DataFrame 上運行交叉驗證
      • 返回預測
    import os import settings import pandas as pd from sklearn import cross_validation from sklearn.linear_model import LogisticRegression from sklearn import metricsdef cross_validate(train):clf = LogisticRegression(random_state=1, class_weight="balanced")predictors = train.columns.tolist()predictors = [p for p in predictors if p not in settings.NON_PREDICTORS]predictions = cross_validation.cross_val_predict(clf, train[predictors], train[settings.TARGET], cv=settings.CV_FOLDS)return predictions

    預測誤差

    現在只需要寫一些函數來計算誤差。下面的代碼會:

    • 創建 computer_error 函數,它會:
      • 用 scikit-learn 計算一個簡單準確度評分(符合真實 foreclosure_status 值的預測的百分比)
    • 創建 computer_false_negatives 函數,它會:
      • 把目標和預測寫進一個 DataFrame
      • 計算假負率
    • 創建 computer_false_positives 函數,它會:
      • 把目標和預測寫進一個DataFrame
      • 計算假正率
        • 找到模型預測為止贖但并未止贖的貸款數量
        • 用這個數量除以不是止贖的貸款數量
    def compute_error(target, predictions):return metrics.accuracy_score(target, predictions)def compute_false_negatives(target, predictions):df = pd.DataFrame({"target": target, "predictions": predictions})return df[(df["target"] == 1) & (df["predictions"] == 0)].shape[0] / (df[(df["target"] == 1)].shape[0] + 1)def compute_false_positives(target, predictions):df = pd.DataFrame({"target": target, "predictions": predictions})return df[(df["target"] == 0) & (df["predictions"] == 1)].shape[0] / (df[(df["target"] == 0)].shape[0] + 1)

    整合所有函數

    現在,把上面的函數都放在 predict.py 里面。下面的代碼會:

    • 讀取數據集
    • 計算交叉驗證預測
    • 計算上面提到的 3 個誤差值
    • 打印出誤差值
    def read():train = pd.read_csv(os.path.join(settings.PROCESSED_DIR, "train.csv"))return trainif __name__ == "__main__":train = read()predictions = cross_validate(train)error = compute_error(train[settings.TARGET], predictions)fn = compute_false_negatives(train[settings.TARGET], predictions)fp = compute_false_positives(train[settings.TARGET], predictions)print("Accuracy Score: {}".format(error))print("False Negatives: {}".format(fn))print("False Positives: {}".format(fp))

    添加完這些代碼后,可以運行 python predict.py 來生成預測。結果顯示,假負率為 .26 ,也就是說對于止贖貸款來說,我們錯誤地預測了其中的 26% 。這是個好的開始,但還有很大的提升空間。

    完整的 predict.py 文件在這里。

    文件樹現在應該長這樣:

    loan-prediction ├── data │ ├── Acquisition_2012Q1.txt │ ├── Acquisition_2012Q2.txt │ ├── Performance_2012Q1.txt │ ├── Performance_2012Q2.txt │ └── ... ├── processed │ ├── Acquisition.txt │ ├── Performance.txt │ ├── train.csv ├── .gitignore ├── annotate.py ├── assemble.py ├── predict.py ├── README.md ├── requirements.txt ├── settings.py

    撰寫 README

    現在我們完成了這個完整的項目, 接下來只需要寫 README.md 文件進行總結,向他人說明我們做了什么,以及如何復制它。一個典型的 README.md 應該包括以下內容:

    • 項目概覽及目標
    • 如何下載所需數據或材料
    • 安裝教程
    • 使用教程
    • 如何貢獻

    這里是本項目的示例 README.md。

    下一步

    恭喜,你已經完成了一個完整的機器學習項目!你可在這里找到完整的示例項目。完成項目之后,記得上傳到 Github 上,這樣其他人就會看到這是你作品集的一部分。

    這些數據尚有一些地方待你挖掘。大致來說,我們可以把它們分成 3 類 — 擴展項目提高準確率,利用其它數據列進行預測,進一步探索數據。以下想法僅供參考:

    • 用 annotate.py 生成更多特征
    • 在 predict.py 里換個算法
    • 使用更多來自房利美的數據
    • 加上一個預測未來數據的方法。如果添加更多的數據,目前的代碼都是可以運行的,所以我們可以加上更多過去的或者未來的數據
    • 嘗試能不能預測銀行一開始該不該放出貸款(以及房利美應不應該收購貸款)
      • 刪除那些銀行在發放貸款時不能獲得的信息列
      • 做預測
    • 探索一下能不能預測除了 foreclosure_status 以外的數據
    • 探索一下表現數據更新時的細節
      • 能不能預測借方遲付貸款的次數?
      • 能不能畫出典型的貸款周期?
    • 按州或郵編對數據進行繪圖

    總結

    以上是生活随笔為你收集整理的数据科学家如何找到心仪的工作?的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    人人妻人人澡人人爽人人精品 | 国产亲子乱弄免费视频 | 亚洲 a v无 码免 费 成 人 a v | 中文字幕中文有码在线 | 熟女少妇在线视频播放 | 人妻少妇精品视频专区 | 成年美女黄网站色大免费全看 | 精品一二三区久久aaa片 | 精品国产一区二区三区四区在线看 | 久久精品视频在线看15 | 最新版天堂资源中文官网 | 又粗又大又硬又长又爽 | 久久久久久av无码免费看大片 | 爽爽影院免费观看 | 亚洲 欧美 激情 小说 另类 | 亚洲人成人无码网www国产 | 天天摸天天碰天天添 | 日本精品人妻无码免费大全 | 国产精品igao视频网 | 国产精品18久久久久久麻辣 | 九月婷婷人人澡人人添人人爽 | 国产在线无码精品电影网 | 77777熟女视频在线观看 а天堂中文在线官网 | 亚洲欧美日韩成人高清在线一区 | 亚洲欧美精品aaaaaa片 | 久久综合给合久久狠狠狠97色 | 久久人人97超碰a片精品 | 麻豆精品国产精华精华液好用吗 | 丰满妇女强制高潮18xxxx | 亚洲国产精品无码久久久久高潮 | 久久精品无码一区二区三区 | av无码不卡在线观看免费 | 午夜性刺激在线视频免费 | 欧美日本精品一区二区三区 | 国产区女主播在线观看 | 久久国语露脸国产精品电影 | 亚洲中文字幕乱码av波多ji | 欧美freesex黑人又粗又大 | 成人免费视频在线观看 | 55夜色66夜色国产精品视频 | 免费看少妇作爱视频 | 国产精品香蕉在线观看 | 久久综合给合久久狠狠狠97色 | 好男人www社区 | 影音先锋中文字幕无码 | 在线亚洲高清揄拍自拍一品区 | 奇米影视7777久久精品 | 久久国产精品精品国产色婷婷 | 一本久道久久综合婷婷五月 | 久在线观看福利视频 | 男人扒开女人内裤强吻桶进去 | 亚洲自偷自拍另类第1页 | 最新国产麻豆aⅴ精品无码 | 久久综合狠狠综合久久综合88 | 熟妇女人妻丰满少妇中文字幕 | 四虎国产精品免费久久 | 日日噜噜噜噜夜夜爽亚洲精品 | 麻豆国产人妻欲求不满谁演的 | 久久99精品国产麻豆蜜芽 | 亚洲人交乣女bbw | 亚洲欧美色中文字幕在线 | 天天av天天av天天透 | 久久久久亚洲精品中文字幕 | 欧美喷潮久久久xxxxx | 99久久精品日本一区二区免费 | 97无码免费人妻超级碰碰夜夜 | 免费男性肉肉影院 | 一本一道久久综合久久 | 精品人妻中文字幕有码在线 | 午夜福利一区二区三区在线观看 | 免费视频欧美无人区码 | 精品乱子伦一区二区三区 | 日韩精品成人一区二区三区 | 亚洲乱码中文字幕在线 | 欧美日本免费一区二区三区 | 国产偷抇久久精品a片69 | 国产亚洲精品久久久久久久 | 东京一本一道一二三区 | 天天躁日日躁狠狠躁免费麻豆 | 国产精品美女久久久网av | 夜先锋av资源网站 | 国产精品内射视频免费 | 麻豆国产丝袜白领秘书在线观看 | 国产精品无码一区二区桃花视频 | 精品一区二区三区波多野结衣 | 亚洲国产成人av在线观看 | 国产做国产爱免费视频 | 成人无码精品一区二区三区 | 色偷偷人人澡人人爽人人模 | 精品人妻av区 | 日韩人妻无码中文字幕视频 | 欧美丰满老熟妇xxxxx性 | 色婷婷综合中文久久一本 | 免费网站看v片在线18禁无码 | 日韩精品无码一本二本三本色 | 久久久久久久久蜜桃 | 狠狠色色综合网站 | 蜜臀av在线观看 在线欧美精品一区二区三区 | 国产成人精品一区二区在线小狼 | 一本精品99久久精品77 | 色狠狠av一区二区三区 | 精品偷拍一区二区三区在线看 | 精品国产一区二区三区四区 | 夜精品a片一区二区三区无码白浆 | 亚洲精品中文字幕乱码 | 日日鲁鲁鲁夜夜爽爽狠狠 | 曰韩少妇内射免费播放 | 十八禁视频网站在线观看 | 亚洲欧美色中文字幕在线 | 蜜臀av在线观看 在线欧美精品一区二区三区 | 亚洲国产午夜精品理论片 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 老熟女重囗味hdxx69 | 国产精品国产三级国产专播 | 国产免费久久久久久无码 | a在线观看免费网站大全 | 99国产欧美久久久精品 | 蜜臀av无码人妻精品 | 亚洲男人av香蕉爽爽爽爽 | 三上悠亚人妻中文字幕在线 | 99视频精品全部免费免费观看 | 麻豆av传媒蜜桃天美传媒 | 久久人人爽人人爽人人片ⅴ | 精品午夜福利在线观看 | 国产人妻人伦精品1国产丝袜 | 精品亚洲韩国一区二区三区 | 日本熟妇人妻xxxxx人hd | 乌克兰少妇性做爰 | 成年美女黄网站色大免费视频 | 国产人成高清在线视频99最全资源 | 国产区女主播在线观看 | 国产无遮挡又黄又爽免费视频 | 野外少妇愉情中文字幕 | 人人妻人人澡人人爽欧美精品 | 东京一本一道一二三区 | 乱人伦人妻中文字幕无码久久网 | 久久久久久a亚洲欧洲av冫 | 激情内射日本一区二区三区 | 亚洲日韩av一区二区三区四区 | 精品亚洲韩国一区二区三区 | 午夜精品久久久久久久 | 免费看少妇作爱视频 | 欧美日韩在线亚洲综合国产人 | 粉嫩少妇内射浓精videos | 老子影院午夜精品无码 | 中文字幕精品av一区二区五区 | 国产国语老龄妇女a片 | 红桃av一区二区三区在线无码av | 动漫av网站免费观看 | 久久久久成人精品免费播放动漫 | 人妻与老人中文字幕 | 99精品国产综合久久久久五月天 | 中文字幕精品av一区二区五区 | 亚洲精品一区三区三区在线观看 | 欧美老熟妇乱xxxxx | 狠狠色噜噜狠狠狠7777奇米 | 久久久中文久久久无码 | 国产成人精品一区二区在线小狼 | 亚洲国产精品无码一区二区三区 | 少妇人妻av毛片在线看 | 久久久国产精品无码免费专区 | 亚洲欧洲日本综合aⅴ在线 | 精品午夜福利在线观看 | 精品人妻av区 | 日日麻批免费40分钟无码 | 在线a亚洲视频播放在线观看 | 亚洲熟妇色xxxxx亚洲 | 1000部夫妻午夜免费 | 99久久精品无码一区二区毛片 | 女人色极品影院 | 精品厕所偷拍各类美女tp嘘嘘 | 无遮无挡爽爽免费视频 | 亚洲成av人片天堂网无码】 | 日本丰满熟妇videos | aⅴ亚洲 日韩 色 图网站 播放 | 亚洲中文无码av永久不收费 | aⅴ亚洲 日韩 色 图网站 播放 | 国产suv精品一区二区五 | 国产乱人无码伦av在线a | 少妇人妻偷人精品无码视频 | 久久久久久久久蜜桃 | 四虎影视成人永久免费观看视频 | 97人妻精品一区二区三区 | 国产人成高清在线视频99最全资源 | 中文毛片无遮挡高清免费 | 亚洲理论电影在线观看 | 波多野结衣乳巨码无在线观看 | 中国女人内谢69xxxxxa片 | 无码人妻出轨黑人中文字幕 | 青青青爽视频在线观看 | 青青青手机频在线观看 | 欧美精品国产综合久久 | 国产精品人人爽人人做我的可爱 | 国产猛烈高潮尖叫视频免费 | 亚洲男人av天堂午夜在 | 亚洲欧美中文字幕5发布 | 午夜丰满少妇性开放视频 | 亚洲国产午夜精品理论片 | 无码任你躁久久久久久久 | 精品国产乱码久久久久乱码 | 麻豆果冻传媒2021精品传媒一区下载 | 中文字幕无线码免费人妻 | 在线a亚洲视频播放在线观看 | 大胆欧美熟妇xx | 六月丁香婷婷色狠狠久久 | 狠狠亚洲超碰狼人久久 | 久久无码中文字幕免费影院蜜桃 | 色婷婷av一区二区三区之红樱桃 | 77777熟女视频在线观看 а天堂中文在线官网 | 国产人妻人伦精品 | 久久99精品国产.久久久久 | 乱人伦中文视频在线观看 | 男女超爽视频免费播放 | 97精品人妻一区二区三区香蕉 | 中文毛片无遮挡高清免费 | 永久免费观看国产裸体美女 | 成人欧美一区二区三区黑人免费 | 欧美兽交xxxx×视频 | 欧美35页视频在线观看 | 亚洲日本一区二区三区在线 | 野外少妇愉情中文字幕 | 乱人伦人妻中文字幕无码 | 午夜性刺激在线视频免费 | 最近中文2019字幕第二页 | 奇米影视7777久久精品人人爽 | 欧美真人作爱免费视频 | 免费观看的无遮挡av | 97久久超碰中文字幕 | 国产精品.xx视频.xxtv | 午夜肉伦伦影院 | 7777奇米四色成人眼影 | 国产精品久久久久久亚洲毛片 | 久久这里只有精品视频9 | av香港经典三级级 在线 | 免费无码午夜福利片69 | 精品成人av一区二区三区 | 无人区乱码一区二区三区 | 成熟女人特级毛片www免费 | 亚洲 高清 成人 动漫 | 国产亚洲精品精品国产亚洲综合 | 牲交欧美兽交欧美 | 亚洲第一无码av无码专区 | 国产精品自产拍在线观看 | 成人无码视频在线观看网站 | 国产av无码专区亚洲awww | 日产精品高潮呻吟av久久 | 日韩精品a片一区二区三区妖精 | 国产精品对白交换视频 | 久久精品国产精品国产精品污 | 国产三级久久久精品麻豆三级 | 久久亚洲a片com人成 | 一本加勒比波多野结衣 | 亚洲色成人中文字幕网站 | 欧美性猛交内射兽交老熟妇 | 性生交大片免费看l | 国产精品va在线播放 | 亚洲aⅴ无码成人网站国产app | 中文字幕无码av波多野吉衣 | 最近免费中文字幕中文高清百度 | 在线观看欧美一区二区三区 | 成人免费视频一区二区 | 中文毛片无遮挡高清免费 | 成人无码视频在线观看网站 | 特黄特色大片免费播放器图片 | 亚洲精品成人福利网站 | 2020最新国产自产精品 | 精品人妻中文字幕有码在线 | 国内精品人妻无码久久久影院蜜桃 | 中文字幕精品av一区二区五区 | 日本丰满护士爆乳xxxx | 成年美女黄网站色大免费视频 | 亚洲自偷自偷在线制服 | 麻豆国产丝袜白领秘书在线观看 | 人妻少妇被猛烈进入中文字幕 | 成人影院yy111111在线观看 | 国产精品沙发午睡系列 | 99精品无人区乱码1区2区3区 | 国产乱码精品一品二品 | 在线播放免费人成毛片乱码 | 欧美xxxx黑人又粗又长 | 亚洲熟妇色xxxxx欧美老妇 | 巨爆乳无码视频在线观看 | 四虎永久在线精品免费网址 | 精品无码国产一区二区三区av | 色一情一乱一伦 | 丰满少妇熟乱xxxxx视频 | 熟女少妇人妻中文字幕 | 亚洲阿v天堂在线 | 欧美精品一区二区精品久久 | 少妇久久久久久人妻无码 | 国产精品嫩草久久久久 | 久久久久久a亚洲欧洲av冫 | 国产 浪潮av性色四虎 | 精品一二三区久久aaa片 | 国产97人人超碰caoprom | 日韩亚洲欧美中文高清在线 | 网友自拍区视频精品 | 十八禁真人啪啪免费网站 | 在线观看免费人成视频 | 国产精品久久国产三级国 | 久久99精品国产.久久久久 | 国产无套内射久久久国产 | 国产电影无码午夜在线播放 | 欧洲vodafone精品性 | 亚洲小说图区综合在线 | 精品水蜜桃久久久久久久 | 精品无码国产自产拍在线观看蜜 | 人妻夜夜爽天天爽三区 | 高潮毛片无遮挡高清免费 | 日日摸天天摸爽爽狠狠97 | 久久精品人人做人人综合 | 国产精品久久久久久久影院 | 久久成人a毛片免费观看网站 | 国产精品无码一区二区桃花视频 | 激情亚洲一区国产精品 | 欧洲精品码一区二区三区免费看 | 欧美肥老太牲交大战 | 国产女主播喷水视频在线观看 | 色 综合 欧美 亚洲 国产 | 老太婆性杂交欧美肥老太 | 国产激情综合五月久久 | 国产无遮挡又黄又爽免费视频 | 久久久久av无码免费网 | 亚洲日本一区二区三区在线 | 精品偷自拍另类在线观看 | 亚洲s码欧洲m码国产av | 无码人妻久久一区二区三区不卡 | 女人色极品影院 | 国产精品理论片在线观看 | 强伦人妻一区二区三区视频18 | 国产免费久久久久久无码 | 亚洲国产av精品一区二区蜜芽 | 精品无码av一区二区三区 | 国产精品成人av在线观看 | 欧美丰满熟妇xxxx性ppx人交 | 国产成人无码a区在线观看视频app | 2020久久香蕉国产线看观看 | 中文字幕无码日韩欧毛 | 国产精品久久久一区二区三区 | 亚洲日韩一区二区三区 | 午夜精品一区二区三区在线观看 | 久久久亚洲欧洲日产国码αv | 小sao货水好多真紧h无码视频 | www国产亚洲精品久久久日本 | 国产精品无码一区二区三区不卡 | 国产小呦泬泬99精品 | 一本久久a久久精品vr综合 | 国产疯狂伦交大片 | 久久国产36精品色熟妇 | 97色伦图片97综合影院 | 97色伦图片97综合影院 | aa片在线观看视频在线播放 | 欧美第一黄网免费网站 | 国语自产偷拍精品视频偷 | 牲欲强的熟妇农村老妇女视频 | 狠狠噜狠狠狠狠丁香五月 | 久久久久亚洲精品男人的天堂 | 亚洲另类伦春色综合小说 | 国语自产偷拍精品视频偷 | 男人的天堂2018无码 | 久久无码人妻影院 | 久久天天躁狠狠躁夜夜免费观看 | 国内精品人妻无码久久久影院蜜桃 | 无码国产色欲xxxxx视频 | 久久精品女人天堂av免费观看 | 亚洲精品久久久久中文第一幕 | 精品人人妻人人澡人人爽人人 | 日本精品高清一区二区 | 2019午夜福利不卡片在线 | 亚洲最大成人网站 | 牲欲强的熟妇农村老妇女视频 | 亚洲а∨天堂久久精品2021 | 亚洲日本va中文字幕 | 性史性农村dvd毛片 | 国产午夜无码视频在线观看 | 精品国产aⅴ无码一区二区 | 成在人线av无码免观看麻豆 | 在线视频网站www色 | 亚洲狠狠色丁香婷婷综合 | 好爽又高潮了毛片免费下载 | 国产精品办公室沙发 | 国产情侣作爱视频免费观看 | 欧美一区二区三区 | 久久精品国产一区二区三区 | 亚洲毛片av日韩av无码 | 国产真实夫妇视频 | 亚欧洲精品在线视频免费观看 | 色偷偷av老熟女 久久精品人妻少妇一区二区三区 | 亚欧洲精品在线视频免费观看 | 男人扒开女人内裤强吻桶进去 | 午夜熟女插插xx免费视频 | 在线播放无码字幕亚洲 | 国产成人久久精品流白浆 | 特级做a爰片毛片免费69 | 又湿又紧又大又爽a视频国产 | 日本又色又爽又黄的a片18禁 | 人妻无码αv中文字幕久久琪琪布 | 免费观看又污又黄的网站 | 久久亚洲中文字幕精品一区 | 精品偷自拍另类在线观看 | 亚洲中文字幕无码中文字在线 | 欧美 丝袜 自拍 制服 另类 | 久久天天躁狠狠躁夜夜免费观看 | 亚洲中文字幕在线无码一区二区 | 色综合久久久久综合一本到桃花网 | 国产精品怡红院永久免费 | а√天堂www在线天堂小说 | 国产精品久久久午夜夜伦鲁鲁 | 在线天堂新版最新版在线8 | 亚洲熟熟妇xxxx | 国产明星裸体无码xxxx视频 | 啦啦啦www在线观看免费视频 | 国产成人精品无码播放 | 成人片黄网站色大片免费观看 | 国产在线无码精品电影网 | 亚洲精品午夜国产va久久成人 | 亚洲熟妇色xxxxx欧美老妇y | 三上悠亚人妻中文字幕在线 | 蜜桃av抽搐高潮一区二区 | 亚洲国产精华液网站w | 国产做国产爱免费视频 | 成人精品一区二区三区中文字幕 | 久久99热只有频精品8 | 99久久亚洲精品无码毛片 | 在线а√天堂中文官网 | a在线亚洲男人的天堂 | 久久国语露脸国产精品电影 | 久久午夜无码鲁丝片秋霞 | 性生交大片免费看女人按摩摩 | 国产精品久久久久久亚洲毛片 | 麻豆av传媒蜜桃天美传媒 | 亚洲七七久久桃花影院 | 国产精品理论片在线观看 | 东京热无码av男人的天堂 | 日本护士xxxxhd少妇 | 特黄特色大片免费播放器图片 | 免费无码一区二区三区蜜桃大 | 窝窝午夜理论片影院 | 日韩欧美成人免费观看 | 国产黄在线观看免费观看不卡 | aa片在线观看视频在线播放 | 成人免费视频视频在线观看 免费 | 国模大胆一区二区三区 | 99精品无人区乱码1区2区3区 | 亚洲国产日韩a在线播放 | 亚洲国产成人a精品不卡在线 | 久久人妻内射无码一区三区 | 国产人妻精品一区二区三区 | 人人妻人人澡人人爽欧美精品 | 成人精品天堂一区二区三区 | 97久久超碰中文字幕 | 亚洲成av人综合在线观看 | 娇妻被黑人粗大高潮白浆 | 97夜夜澡人人爽人人喊中国片 | 乱码午夜-极国产极内射 | 无套内谢的新婚少妇国语播放 | 午夜精品一区二区三区的区别 | 纯爱无遮挡h肉动漫在线播放 | 精品国产一区二区三区四区在线看 | 国产人妻人伦精品 | 免费观看的无遮挡av | 国内少妇偷人精品视频免费 | 国产成人无码区免费内射一片色欲 | 国产人妻精品午夜福利免费 | 日本护士xxxxhd少妇 | 国产在线精品一区二区三区直播 | 国产国语老龄妇女a片 | 欧美午夜特黄aaaaaa片 | 扒开双腿吃奶呻吟做受视频 | 大胆欧美熟妇xx | 午夜福利一区二区三区在线观看 | 四虎国产精品一区二区 | 亚洲欧美综合区丁香五月小说 | 爱做久久久久久 | 成人精品一区二区三区中文字幕 | 欧美人与动性行为视频 | 撕开奶罩揉吮奶头视频 | 国产乱子伦视频在线播放 | 精品午夜福利在线观看 | 久久99久久99精品中文字幕 | 欧美成人家庭影院 | 免费无码一区二区三区蜜桃大 | 狂野欧美性猛交免费视频 | 亚洲中文字幕在线无码一区二区 | 久久精品女人天堂av免费观看 | 在线а√天堂中文官网 | 天堂一区人妻无码 | 国产精品国产三级国产专播 | 日韩欧美群交p片內射中文 | 精品国精品国产自在久国产87 | 国产av无码专区亚洲a∨毛片 | 国产精品香蕉在线观看 | 久久99精品久久久久久 | 国产两女互慰高潮视频在线观看 | 亚洲gv猛男gv无码男同 | 狠狠色色综合网站 | 漂亮人妻洗澡被公强 日日躁 | 激情亚洲一区国产精品 | 久久久久亚洲精品男人的天堂 | 俄罗斯老熟妇色xxxx | 国产麻豆精品精东影业av网站 | аⅴ资源天堂资源库在线 | 久精品国产欧美亚洲色aⅴ大片 | 亚洲色欲色欲天天天www | 亚洲精品一区二区三区在线观看 | 国产精品高潮呻吟av久久 | 一本久久a久久精品亚洲 | 欧美freesex黑人又粗又大 | 日本乱偷人妻中文字幕 | 中文精品无码中文字幕无码专区 | 激情综合激情五月俺也去 | 亚洲最大成人网站 | 国产精品国产自线拍免费软件 | 精品欧美一区二区三区久久久 | 国产97在线 | 亚洲 | 日本精品高清一区二区 | 撕开奶罩揉吮奶头视频 | 亚洲成色www久久网站 | 亚洲欧美中文字幕5发布 | 国产手机在线αⅴ片无码观看 | 精品久久久久香蕉网 | 偷窥日本少妇撒尿chinese | 国产成人无码av片在线观看不卡 | 久久久精品456亚洲影院 | 亚洲国产综合无码一区 | 亚洲成在人网站无码天堂 | 在线精品国产一区二区三区 | 国产性生大片免费观看性 | 女人色极品影院 | 日本一卡二卡不卡视频查询 | 无码国内精品人妻少妇 | 欧美 丝袜 自拍 制服 另类 | 色老头在线一区二区三区 | 欧洲vodafone精品性 | 亚洲一区二区三区 | 免费人成在线视频无码 | 久久www免费人成人片 | 国产成人无码午夜视频在线观看 | 无码人妻久久一区二区三区不卡 | 少妇无码吹潮 | 十八禁视频网站在线观看 | 亚洲 日韩 欧美 成人 在线观看 | 亚洲色成人中文字幕网站 | 熟女体下毛毛黑森林 | 1000部啪啪未满十八勿入下载 | 久久国产36精品色熟妇 | 香蕉久久久久久av成人 | 亚洲 日韩 欧美 成人 在线观看 | 欧美丰满熟妇xxxx性ppx人交 | aⅴ在线视频男人的天堂 | 又大又硬又黄的免费视频 | 精品国精品国产自在久国产87 | 亚洲成色www久久网站 | 久久久av男人的天堂 | 国产激情艳情在线看视频 | 99久久久国产精品无码免费 | 乱人伦人妻中文字幕无码久久网 | 青青草原综合久久大伊人精品 | 欧美变态另类xxxx | 国产成人亚洲综合无码 | 中国女人内谢69xxxxxa片 | 无码乱肉视频免费大全合集 | 亚洲欧美中文字幕5发布 | 国产成人av免费观看 | 又粗又大又硬又长又爽 | www国产亚洲精品久久久日本 | 波多野结衣高清一区二区三区 | 大肉大捧一进一出好爽视频 | 国产精品嫩草久久久久 | 熟女俱乐部五十路六十路av | 偷窥日本少妇撒尿chinese | 久久精品国产日本波多野结衣 | 在线观看欧美一区二区三区 | 人人妻人人澡人人爽人人精品浪潮 | 97久久国产亚洲精品超碰热 | 乌克兰少妇xxxx做受 | 亚洲经典千人经典日产 | 人人爽人人爽人人片av亚洲 | av无码电影一区二区三区 | 欧美激情内射喷水高潮 | 成人性做爰aaa片免费看不忠 | 水蜜桃亚洲一二三四在线 | 中国大陆精品视频xxxx | 亚洲成av人片天堂网无码】 | 在线а√天堂中文官网 | 国产av一区二区精品久久凹凸 | 国产熟妇另类久久久久 | 国产成人无码专区 | 亚洲国产av美女网站 | 在线a亚洲视频播放在线观看 | 色综合久久网 | 东京无码熟妇人妻av在线网址 | 人人妻人人澡人人爽人人精品浪潮 | 男人扒开女人内裤强吻桶进去 | 中文字幕无线码免费人妻 | 国产精品无码mv在线观看 | 国产激情无码一区二区 | 国色天香社区在线视频 | 无码一区二区三区在线 | 爆乳一区二区三区无码 | 蜜桃视频韩日免费播放 | 鲁大师影院在线观看 | 在线 国产 欧美 亚洲 天堂 | 黄网在线观看免费网站 | 东京热无码av男人的天堂 | 亚洲精品成人av在线 | 强伦人妻一区二区三区视频18 | 小鲜肉自慰网站xnxx | 狠狠色色综合网站 | 精品人妻中文字幕有码在线 | 国产黄在线观看免费观看不卡 | 亚洲精品www久久久 | 亚洲午夜无码久久 | 88国产精品欧美一区二区三区 | 少妇的肉体aa片免费 | 国产亚洲欧美日韩亚洲中文色 | 俄罗斯老熟妇色xxxx | 在线观看免费人成视频 | 性色av无码免费一区二区三区 | 小sao货水好多真紧h无码视频 | 麻豆av传媒蜜桃天美传媒 | 国产精品久久国产三级国 | 成人片黄网站色大片免费观看 | 亚洲精品中文字幕乱码 | 捆绑白丝粉色jk震动捧喷白浆 | 中文精品无码中文字幕无码专区 | 中文字幕乱码亚洲无线三区 | 国产成人无码a区在线观看视频app | 日日摸日日碰夜夜爽av | 人人爽人人澡人人高潮 | 久久99精品国产.久久久久 | 欧美阿v高清资源不卡在线播放 | 老司机亚洲精品影院无码 | 牲欲强的熟妇农村老妇女视频 | 成人亚洲精品久久久久软件 | 精品国产麻豆免费人成网站 | 丝袜 中出 制服 人妻 美腿 | 一本大道伊人av久久综合 | 人妻熟女一区 | 欧美老人巨大xxxx做受 | 久久综合给合久久狠狠狠97色 | 亚洲日韩一区二区三区 | 永久免费观看美女裸体的网站 | 色综合视频一区二区三区 | 中文字幕无线码免费人妻 | 亚欧洲精品在线视频免费观看 | 亚洲a无码综合a国产av中文 | 初尝人妻少妇中文字幕 | 日本va欧美va欧美va精品 | 国产精品久久久久9999小说 | 呦交小u女精品视频 | 国产午夜视频在线观看 | 奇米影视7777久久精品 | 久久久久99精品成人片 | 欧美激情一区二区三区成人 | 国产高潮视频在线观看 | 曰本女人与公拘交酡免费视频 | 精品 日韩 国产 欧美 视频 | 久久久无码中文字幕久... | 丰满诱人的人妻3 | 性生交大片免费看女人按摩摩 | 久久99精品国产.久久久久 | 国产精品久久久久7777 | 色一情一乱一伦一区二区三欧美 | 无码帝国www无码专区色综合 | 亚洲国产成人av在线观看 | 熟妇人妻无码xxx视频 | 永久免费观看国产裸体美女 | 精品国产一区二区三区av 性色 | 一本久道高清无码视频 | 强奷人妻日本中文字幕 | 四虎国产精品免费久久 | 老熟妇仑乱视频一区二区 | 精品国产成人一区二区三区 | 无码乱肉视频免费大全合集 | 久久人妻内射无码一区三区 | 露脸叫床粗话东北少妇 | 亚洲爆乳大丰满无码专区 | 呦交小u女精品视频 | 久热国产vs视频在线观看 | 精品 日韩 国产 欧美 视频 | 久久国产精品精品国产色婷婷 | 熟妇女人妻丰满少妇中文字幕 | 国产av剧情md精品麻豆 | 激情爆乳一区二区三区 | 乱码av麻豆丝袜熟女系列 | 窝窝午夜理论片影院 | 久久精品中文字幕一区 | 日日麻批免费40分钟无码 | 人人妻人人澡人人爽欧美精品 | 中文字幕av日韩精品一区二区 | 欧美日韩视频无码一区二区三 | 97久久精品无码一区二区 | 男女猛烈xx00免费视频试看 | 色五月丁香五月综合五月 | 人妻无码久久精品人妻 | 荡女精品导航 | 国产午夜手机精彩视频 | 国产人妻精品午夜福利免费 | 久久久久久久久蜜桃 | 亚洲 高清 成人 动漫 | 国产午夜无码视频在线观看 | 日韩精品无码免费一区二区三区 | 一本色道久久综合狠狠躁 | 欧美 亚洲 国产 另类 | 国产尤物精品视频 | 香港三级日本三级妇三级 | 99精品视频在线观看免费 | 给我免费的视频在线观看 | 国产精品免费大片 | 色婷婷综合激情综在线播放 | 久久午夜夜伦鲁鲁片无码免费 | 久久亚洲精品成人无码 | 久久国产劲爆∧v内射 | 在线视频网站www色 | 亚洲国产欧美国产综合一区 | 亚洲日韩一区二区 | 宝宝好涨水快流出来免费视频 | 欧美xxxxx精品 | 欧美成人高清在线播放 | 小泽玛莉亚一区二区视频在线 | 欧美 日韩 亚洲 在线 | 色欲综合久久中文字幕网 | 国产成人无码a区在线观看视频app | 老熟女乱子伦 | 小泽玛莉亚一区二区视频在线 | 亚洲a无码综合a国产av中文 | 久久精品国产日本波多野结衣 | 亚洲呦女专区 | 久久综合九色综合97网 | 亚洲精品成人av在线 | 少妇高潮一区二区三区99 | 粉嫩少妇内射浓精videos | 欧美丰满熟妇xxxx | 日日天日日夜日日摸 | 四虎影视成人永久免费观看视频 | 无码纯肉视频在线观看 | 麻豆蜜桃av蜜臀av色欲av | 亚洲精品www久久久 | 中国大陆精品视频xxxx | 日本一卡2卡3卡四卡精品网站 | 国产午夜亚洲精品不卡 | 自拍偷自拍亚洲精品被多人伦好爽 | www国产精品内射老师 | 中文字幕人成乱码熟女app | 久久亚洲精品中文字幕无男同 | 白嫩日本少妇做爰 | 99久久精品无码一区二区毛片 | 国产成人无码午夜视频在线观看 | 人人澡人人透人人爽 | 一本久道久久综合狠狠爱 | 成人精品视频一区二区 | 婷婷综合久久中文字幕蜜桃三电影 | 免费无码午夜福利片69 | 国产三级久久久精品麻豆三级 | 精品成在人线av无码免费看 | 久久亚洲国产成人精品性色 | 蜜臀aⅴ国产精品久久久国产老师 | 全球成人中文在线 | 国产精品怡红院永久免费 | 亚洲综合无码久久精品综合 | 99久久无码一区人妻 | 免费人成网站视频在线观看 | 日日碰狠狠丁香久燥 | 午夜福利不卡在线视频 | 麻豆成人精品国产免费 | 暴力强奷在线播放无码 | 国产av一区二区精品久久凹凸 | 午夜无码人妻av大片色欲 | 国产av一区二区三区最新精品 | 亚洲一区二区三区四区 | 东京热无码av男人的天堂 | 成人精品视频一区二区三区尤物 | 日本又色又爽又黄的a片18禁 | 熟妇人妻无乱码中文字幕 | 在线а√天堂中文官网 | 在线天堂新版最新版在线8 | 国产精品人人爽人人做我的可爱 | 亚洲啪av永久无码精品放毛片 | 欧洲美熟女乱又伦 | 蜜桃臀无码内射一区二区三区 | 天干天干啦夜天干天2017 | 日本熟妇人妻xxxxx人hd | 全黄性性激高免费视频 | 蜜臀av在线观看 在线欧美精品一区二区三区 | 日韩精品无码免费一区二区三区 | 国产亚洲人成在线播放 | 精品久久久久久亚洲精品 | 国产精品久久久久9999小说 | 亚洲精品无码国产 | 久久国产精品精品国产色婷婷 | 国产午夜亚洲精品不卡下载 | 国产一区二区三区日韩精品 | 人妻aⅴ无码一区二区三区 | 国产精品无码成人午夜电影 | 国产黄在线观看免费观看不卡 | 水蜜桃色314在线观看 | 亚洲s色大片在线观看 | 高中生自慰www网站 | 装睡被陌生人摸出水好爽 | 欧美日韩色另类综合 | 丰满人妻精品国产99aⅴ | 搡女人真爽免费视频大全 | 国内精品九九久久久精品 | 国内精品久久久久久中文字幕 | 精品国产青草久久久久福利 | 2019nv天堂香蕉在线观看 | 久热国产vs视频在线观看 | 精品乱子伦一区二区三区 | 免费人成在线视频无码 | 熟妇人妻无乱码中文字幕 | 欧美喷潮久久久xxxxx | 亚洲 高清 成人 动漫 | 激情人妻另类人妻伦 | 国产精品鲁鲁鲁 | 成人免费视频在线观看 | 青草视频在线播放 | 中文无码成人免费视频在线观看 | 99久久久无码国产aaa精品 | 色综合久久中文娱乐网 | 欧美性生交活xxxxxdddd | 亚洲成av人片天堂网无码】 | 台湾无码一区二区 | 中文无码精品a∨在线观看不卡 | 欧美国产日韩久久mv | 国内精品九九久久久精品 | 国产乱子伦视频在线播放 | 日日躁夜夜躁狠狠躁 | 国产黑色丝袜在线播放 | 超碰97人人做人人爱少妇 | 亚洲aⅴ无码成人网站国产app | 国产成人无码av片在线观看不卡 | 国产综合色产在线精品 | 无码免费一区二区三区 | 国产真人无遮挡作爱免费视频 | 国内精品九九久久久精品 | 精品夜夜澡人妻无码av蜜桃 | 无码人妻久久一区二区三区不卡 | 图片区 小说区 区 亚洲五月 | 国产在线一区二区三区四区五区 | 人妻夜夜爽天天爽三区 | 玩弄少妇高潮ⅹxxxyw | 在线看片无码永久免费视频 | 国产午夜手机精彩视频 | 无码人中文字幕 | 天天拍夜夜添久久精品大 | 国产乱人偷精品人妻a片 | 99久久人妻精品免费一区 | 天天综合网天天综合色 | 丰满诱人的人妻3 | 精品国产一区二区三区四区 | 强伦人妻一区二区三区视频18 | 极品嫩模高潮叫床 | 麻豆国产97在线 | 欧洲 | 中文字幕精品av一区二区五区 | 日韩人妻无码一区二区三区久久99 | 强奷人妻日本中文字幕 | 亚洲综合久久一区二区 | 色综合视频一区二区三区 | 国产成人综合色在线观看网站 | 国产精品无码一区二区三区不卡 | 亚洲第一无码av无码专区 | 亚洲国产精品无码一区二区三区 | 在教室伦流澡到高潮hnp视频 | a片在线免费观看 | 午夜男女很黄的视频 | 高潮毛片无遮挡高清免费视频 | 一区二区三区乱码在线 | 欧洲 | 午夜精品一区二区三区的区别 | 精品偷拍一区二区三区在线看 | 国产在线一区二区三区四区五区 | 综合激情五月综合激情五月激情1 | 无码国模国产在线观看 | 国产无遮挡吃胸膜奶免费看 | 自拍偷自拍亚洲精品被多人伦好爽 | 国产av剧情md精品麻豆 | 纯爱无遮挡h肉动漫在线播放 | 亚洲国产精品久久久久久 | 精品成人av一区二区三区 | 性色av无码免费一区二区三区 | 波多野结衣一区二区三区av免费 | 十八禁视频网站在线观看 | 无码人妻黑人中文字幕 | www成人国产高清内射 | 亚洲色www成人永久网址 | 亚洲男人av香蕉爽爽爽爽 | 国产热a欧美热a在线视频 | 捆绑白丝粉色jk震动捧喷白浆 | 在线视频网站www色 | 免费中文字幕日韩欧美 | 欧美国产亚洲日韩在线二区 | 成熟妇人a片免费看网站 | 亚洲成a人一区二区三区 | 小sao货水好多真紧h无码视频 | 粉嫩少妇内射浓精videos | 又粗又大又硬毛片免费看 | 免费观看激色视频网站 | 亚洲中文无码av永久不收费 | 300部国产真实乱 | 欧美 日韩 亚洲 在线 | 亚洲国产精品成人久久蜜臀 | 日韩精品成人一区二区三区 | 最近免费中文字幕中文高清百度 | 国产精品美女久久久 | 色欲av亚洲一区无码少妇 | 精品亚洲成av人在线观看 | 欧美精品一区二区精品久久 | 亚洲精品国产a久久久久久 | 人妻少妇被猛烈进入中文字幕 | 亚洲精品成a人在线观看 | 精品人人妻人人澡人人爽人人 | 99久久人妻精品免费二区 | 中文字幕+乱码+中文字幕一区 | 亚洲成a人一区二区三区 | 久久久www成人免费毛片 | 成熟女人特级毛片www免费 | 欧美成人免费全部网站 | 色综合天天综合狠狠爱 | 日韩av无码一区二区三区 | 久久久久久久久888 | 人人妻人人澡人人爽人人精品浪潮 | 内射巨臀欧美在线视频 | 午夜福利一区二区三区在线观看 | 精品无码成人片一区二区98 | 久久精品女人的天堂av | 精品偷拍一区二区三区在线看 | 西西人体www44rt大胆高清 | 天堂在线观看www | 成人无码精品一区二区三区 | 久久国语露脸国产精品电影 | 欧美freesex黑人又粗又大 | 久久久久亚洲精品男人的天堂 | 99精品国产综合久久久久五月天 | 日本大香伊一区二区三区 | 狠狠躁日日躁夜夜躁2020 | 亚洲 日韩 欧美 成人 在线观看 | 亚洲色大成网站www | 欧美日本免费一区二区三区 | 欧美日韩久久久精品a片 | 精品久久久久久人妻无码中文字幕 | 黑人粗大猛烈进出高潮视频 | 亚洲精品久久久久久久久久久 | 精品人妻av区 | 国产成人无码午夜视频在线观看 | 国产色视频一区二区三区 | 免费看少妇作爱视频 | 国产精品欧美成人 | 女人被爽到呻吟gif动态图视看 | 无码精品人妻一区二区三区av | 美女极度色诱视频国产 | 国精产品一区二区三区 | 国产无遮挡又黄又爽又色 | 2019午夜福利不卡片在线 | 亚洲一区二区三区偷拍女厕 | 中文精品无码中文字幕无码专区 | 在线观看国产一区二区三区 | 永久免费观看美女裸体的网站 | 亚洲中文字幕av在天堂 | 亚洲一区二区三区在线观看网站 | 日本一卡2卡3卡四卡精品网站 | 亚洲理论电影在线观看 | 免费观看黄网站 | 欧美熟妇另类久久久久久多毛 | 全球成人中文在线 | 我要看www免费看插插视频 | 无套内射视频囯产 | 国产午夜视频在线观看 | 精品一二三区久久aaa片 | 国产精品久久久久久无码 | 久久久久成人精品免费播放动漫 | 女人被爽到呻吟gif动态图视看 | 激情国产av做激情国产爱 | 成人免费无码大片a毛片 | 久久久久成人精品免费播放动漫 | 日日干夜夜干 | 俺去俺来也在线www色官网 | 欧美日韩一区二区三区自拍 | 午夜福利一区二区三区在线观看 | 成人aaa片一区国产精品 | 天天拍夜夜添久久精品大 | 亚洲成色在线综合网站 | 亚洲а∨天堂久久精品2021 | 欧美人与动性行为视频 | 在线成人www免费观看视频 | 亚洲人成影院在线观看 | 少妇被粗大的猛进出69影院 | 亚洲成a人片在线观看无码 | 无码人妻av免费一区二区三区 | 国产激情艳情在线看视频 | 无码人妻精品一区二区三区下载 | 亚洲 欧美 激情 小说 另类 | 中文字幕无码视频专区 | 亚洲精品国偷拍自产在线观看蜜桃 | 少妇高潮喷潮久久久影院 | 中文无码成人免费视频在线观看 | 人人妻人人澡人人爽精品欧美 | 台湾无码一区二区 | 成人av无码一区二区三区 | 激情国产av做激情国产爱 | 人妻有码中文字幕在线 | 国内老熟妇对白xxxxhd | 国产人妻人伦精品 | 亚洲色欲色欲天天天www | 日本护士xxxxhd少妇 | 中文字幕人妻无码一夲道 | 国产真实伦对白全集 | 美女张开腿让人桶 | 久久久久免费看成人影片 | 在线精品国产一区二区三区 | 无码福利日韩神码福利片 | 久久午夜无码鲁丝片午夜精品 | 亚洲中文字幕无码中字 | 亚洲色www成人永久网址 | 日韩欧美群交p片內射中文 | 成熟女人特级毛片www免费 | 99麻豆久久久国产精品免费 | www一区二区www免费 | 日产精品99久久久久久 | 国产亚洲视频中文字幕97精品 | 国产亚洲美女精品久久久2020 | 国产又粗又硬又大爽黄老大爷视 | 玩弄少妇高潮ⅹxxxyw | 日日天干夜夜狠狠爱 | 欧美日韩亚洲国产精品 | 天堂а√在线中文在线 | 亚洲色在线无码国产精品不卡 | 久久熟妇人妻午夜寂寞影院 | 国产美女精品一区二区三区 | 国产性猛交╳xxx乱大交 国产精品久久久久久无码 欧洲欧美人成视频在线 | 男女爱爱好爽视频免费看 | 性色av无码免费一区二区三区 | 欧美freesex黑人又粗又大 | 欧美丰满熟妇xxxx性ppx人交 | 国产亚洲精品久久久久久国模美 | 国产乱子伦视频在线播放 | 亚洲成a人片在线观看无码 | 亚洲精品一区二区三区四区五区 | 国产精品久久久久久久影院 | 九九久久精品国产免费看小说 | 色欲人妻aaaaaaa无码 | 一个人免费观看的www视频 | 色婷婷欧美在线播放内射 | 亚洲熟妇色xxxxx亚洲 | 正在播放老肥熟妇露脸 | а√天堂www在线天堂小说 | 欧美人与物videos另类 | a在线观看免费网站大全 | 99久久无码一区人妻 | 亚洲国精产品一二二线 | 黑人巨大精品欧美黑寡妇 | 一个人看的视频www在线 | 国产无遮挡又黄又爽免费视频 | 午夜性刺激在线视频免费 | 国产国产精品人在线视 | 欧美午夜特黄aaaaaa片 | 亚洲精品中文字幕久久久久 | 中文字幕中文有码在线 | 67194成是人免费无码 | 亚洲精品成a人在线观看 | 亚洲第一无码av无码专区 | 亚洲色欲色欲欲www在线 | 欧美老熟妇乱xxxxx | 夜夜躁日日躁狠狠久久av | 国产午夜无码精品免费看 | 亚洲精品综合五月久久小说 | 99久久精品无码一区二区毛片 | 无码人妻出轨黑人中文字幕 | 亚洲成av人片在线观看无码不卡 | 亚洲中文字幕在线观看 | 国产绳艺sm调教室论坛 | 永久免费观看美女裸体的网站 | 无码人妻精品一区二区三区下载 | 亚洲人成网站在线播放942 | 狠狠亚洲超碰狼人久久 | 久久久久人妻一区精品色欧美 | 成人性做爰aaa片免费看不忠 | 日韩精品a片一区二区三区妖精 | 人人妻人人澡人人爽人人精品浪潮 | 久久久久成人片免费观看蜜芽 | 国产亚洲精品久久久久久久久动漫 | 中文字幕亚洲情99在线 | 久久午夜夜伦鲁鲁片无码免费 | 国产一区二区不卡老阿姨 | 国产精品第一国产精品 | 日韩精品乱码av一区二区 | 日韩欧美群交p片內射中文 | 精品无码国产一区二区三区av | 成人免费视频在线观看 | 亚洲国产精品久久久天堂 | 国产极品美女高潮无套在线观看 | 漂亮人妻洗澡被公强 日日躁 | 亚洲一区二区三区国产精华液 | 亚洲综合在线一区二区三区 | 亚洲精品欧美二区三区中文字幕 | 色综合久久中文娱乐网 | 老司机亚洲精品影院 | 高潮喷水的毛片 | 在线亚洲高清揄拍自拍一品区 | 极品嫩模高潮叫床 | 99麻豆久久久国产精品免费 | aa片在线观看视频在线播放 | 狠狠色噜噜狠狠狠狠7777米奇 | 亚洲一区二区三区国产精华液 | 日本护士xxxxhd少妇 | 曰韩少妇内射免费播放 | 免费无码一区二区三区蜜桃大 | 疯狂三人交性欧美 | 久久久久人妻一区精品色欧美 | 亚洲a无码综合a国产av中文 | 欧美日韩色另类综合 | 天堂久久天堂av色综合 | 亚洲狠狠色丁香婷婷综合 | 丁香啪啪综合成人亚洲 | 久久久无码中文字幕久... | 色一情一乱一伦 | 全黄性性激高免费视频 | 99精品久久毛片a片 | 97se亚洲精品一区 | 377p欧洲日本亚洲大胆 | 亚洲综合无码一区二区三区 | 人妻少妇精品无码专区动漫 | 亚洲日韩一区二区 | 亚欧洲精品在线视频免费观看 | 国产色精品久久人妻 | 天天摸天天碰天天添 | 亚洲成av人片在线观看无码不卡 | 东京热一精品无码av | 国产麻豆精品精东影业av网站 | 99久久婷婷国产综合精品青草免费 | 亚洲日本va中文字幕 | 国产一区二区不卡老阿姨 | 精品偷拍一区二区三区在线看 | 欧美兽交xxxx×视频 | 久久天天躁狠狠躁夜夜免费观看 | 亚拍精品一区二区三区探花 | 欧美丰满老熟妇xxxxx性 | 性生交片免费无码看人 | 精品人妻av区 | 亚洲日韩乱码中文无码蜜桃臀网站 | 欧美人与物videos另类 | 免费男性肉肉影院 | 无码国产色欲xxxxx视频 | 熟女少妇在线视频播放 | 性欧美疯狂xxxxbbbb | 成 人影片 免费观看 | 熟妇人妻中文av无码 | 亚洲一区二区三区偷拍女厕 | 夜精品a片一区二区三区无码白浆 | 国产精品亚洲一区二区三区喷水 | 久久精品国产99久久6动漫 | 国产亚洲tv在线观看 | 亚洲第一无码av无码专区 | 红桃av一区二区三区在线无码av | 国产成人一区二区三区别 | 男女下面进入的视频免费午夜 | 全黄性性激高免费视频 | 亚洲成av人片在线观看无码不卡 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 精品 日韩 国产 欧美 视频 | 欧美熟妇另类久久久久久多毛 | 中文字幕+乱码+中文字幕一区 | 国产内射老熟女aaaa | 澳门永久av免费网站 | 国产亚洲精品久久久久久大师 | 超碰97人人做人人爱少妇 | 亚洲精品美女久久久久久久 | 东京无码熟妇人妻av在线网址 | 中文无码成人免费视频在线观看 | 夜夜高潮次次欢爽av女 | 色偷偷人人澡人人爽人人模 | 成人免费视频视频在线观看 免费 | 亚洲区欧美区综合区自拍区 | 欧美性黑人极品hd | 美女极度色诱视频国产 | 亚洲大尺度无码无码专区 | 久久精品国产99精品亚洲 | 天天躁夜夜躁狠狠是什么心态 | 久久精品国产99精品亚洲 | 久久99国产综合精品 | 免费乱码人妻系列无码专区 | 国产精品美女久久久久av爽李琼 | 无套内谢的新婚少妇国语播放 | 久久aⅴ免费观看 | 一本久道久久综合婷婷五月 | 亚洲色大成网站www国产 | 免费观看又污又黄的网站 | 日韩精品一区二区av在线 | 久久久久成人精品免费播放动漫 | 亚洲色在线无码国产精品不卡 | 好男人社区资源 | 天天躁日日躁狠狠躁免费麻豆 | 国产福利视频一区二区 | 香港三级日本三级妇三级 | 国内丰满熟女出轨videos | 人妻无码久久精品人妻 | 久久亚洲中文字幕精品一区 | 日本熟妇浓毛 | 成人无码视频免费播放 | 麻豆国产人妻欲求不满谁演的 | 成人无码视频免费播放 | 成人无码精品1区2区3区免费看 | 狂野欧美性猛xxxx乱大交 | 国产真实乱对白精彩久久 | 国产成人一区二区三区在线观看 | 人人妻人人澡人人爽欧美精品 | 人妻有码中文字幕在线 | 在线视频网站www色 | 亚洲区小说区激情区图片区 | 亚洲国产综合无码一区 | 99视频精品全部免费免费观看 | 成年美女黄网站色大免费全看 | 内射老妇bbwx0c0ck | 久久久久成人精品免费播放动漫 | 久久久久se色偷偷亚洲精品av | 亚洲日韩一区二区 | 内射老妇bbwx0c0ck | 成人动漫在线观看 | 蜜臀av在线播放 久久综合激激的五月天 | 一个人免费观看的www视频 | 丰满岳乱妇在线观看中字无码 | 国产精品国产自线拍免费软件 | 国产激情精品一区二区三区 | 国产精品怡红院永久免费 | 中文亚洲成a人片在线观看 | 日韩少妇白浆无码系列 | 丰满护士巨好爽好大乳 | 国产精品视频免费播放 | 激情内射日本一区二区三区 | 奇米影视888欧美在线观看 | 日韩精品a片一区二区三区妖精 | 亚洲国产精品久久人人爱 | 97se亚洲精品一区 | 亚洲人亚洲人成电影网站色 | 亚洲精品一区三区三区在线观看 | 日韩亚洲欧美中文高清在线 | 奇米影视888欧美在线观看 | 高清国产亚洲精品自在久久 | 老司机亚洲精品影院无码 | 2020久久香蕉国产线看观看 | 300部国产真实乱 | 88国产精品欧美一区二区三区 | 少妇无套内谢久久久久 | 日韩精品无码一本二本三本色 | www国产精品内射老师 | 精品人妻av区 | 国产精品无码永久免费888 | 人人妻人人澡人人爽欧美一区九九 | 亚洲精品成人福利网站 | 国产午夜福利亚洲第一 | 九九久久精品国产免费看小说 | 成人无码视频免费播放 | 少妇性俱乐部纵欲狂欢电影 | 国产电影无码午夜在线播放 | 天天燥日日燥 | 中文字幕无码日韩专区 | 亚洲国精产品一二二线 | 正在播放老肥熟妇露脸 | 亚洲中文字幕va福利 | 色诱久久久久综合网ywww | 乱人伦人妻中文字幕无码久久网 | 久久久久久av无码免费看大片 | 亚洲一区二区三区香蕉 | 色情久久久av熟女人妻网站 | 无码精品人妻一区二区三区av | 疯狂三人交性欧美 | 色综合视频一区二区三区 | 一本色道久久综合狠狠躁 | 熟妇人妻无乱码中文字幕 | 亚洲一区二区三区香蕉 | 久久国产精品精品国产色婷婷 | 亚洲国产综合无码一区 | 2019nv天堂香蕉在线观看 | 欧美 亚洲 国产 另类 | 亚洲成a人片在线观看日本 | 欧美一区二区三区视频在线观看 | 国产精品高潮呻吟av久久 | 久久久精品欧美一区二区免费 | 欧美一区二区三区视频在线观看 | 精品无码一区二区三区爱欲 | 欧美乱妇无乱码大黄a片 | 精品国偷自产在线视频 | 久久成人a毛片免费观看网站 | 久久久久久九九精品久 | 无码任你躁久久久久久久 | 国产 精品 自在自线 | 成年美女黄网站色大免费全看 | 欧美精品无码一区二区三区 | 日韩欧美中文字幕在线三区 | 国产成人无码av一区二区 | 亚洲精品欧美二区三区中文字幕 | 国产三级久久久精品麻豆三级 | 7777奇米四色成人眼影 | 国产精华av午夜在线观看 | 久久亚洲中文字幕无码 | 亚洲中文字幕无码一久久区 | 亚洲国产高清在线观看视频 | 国产麻豆精品精东影业av网站 | 亚洲中文字幕无码中字 | 精品aⅴ一区二区三区 | 色综合久久久无码中文字幕 | 精品人妻人人做人人爽夜夜爽 | 成熟妇人a片免费看网站 | 丰腴饱满的极品熟妇 | 亚洲aⅴ无码成人网站国产app | 少妇性l交大片欧洲热妇乱xxx | 日韩精品一区二区av在线 | 国产精品久久久久7777 | 国产国产精品人在线视 | 国产农村妇女aaaaa视频 撕开奶罩揉吮奶头视频 | 成年美女黄网站色大免费全看 | 久久午夜夜伦鲁鲁片无码免费 | 亚洲综合另类小说色区 | 国产精品久久久久7777 | 老子影院午夜伦不卡 | 国产精品亚洲lv粉色 | 伊人久久婷婷五月综合97色 | 中文字幕+乱码+中文字幕一区 | 亚洲色欲久久久综合网东京热 | 中国女人内谢69xxxx | 精品无码国产自产拍在线观看蜜 | 国产国产精品人在线视 | 亚洲欧美日韩综合久久久 | 亚洲欧美中文字幕5发布 | 国产精品.xx视频.xxtv | 免费观看激色视频网站 | 特黄特色大片免费播放器图片 | 国产人成高清在线视频99最全资源 | 十八禁真人啪啪免费网站 | 九九热爱视频精品 | 精品国产aⅴ无码一区二区 | 波多野42部无码喷潮在线 | 国产午夜福利亚洲第一 | 十八禁视频网站在线观看 | 国产精品久久国产精品99 | 色婷婷香蕉在线一区二区 | 国産精品久久久久久久 | 色欲av亚洲一区无码少妇 | 青草青草久热国产精品 | 激情综合激情五月俺也去 | 窝窝午夜理论片影院 | 免费人成在线观看网站 | 97无码免费人妻超级碰碰夜夜 | 欧美一区二区三区视频在线观看 | 亚洲色成人中文字幕网站 | 无码国产激情在线观看 | 超碰97人人射妻 | 99国产欧美久久久精品 | 久9re热视频这里只有精品 | 国产成人无码区免费内射一片色欲 | 牲欲强的熟妇农村老妇女视频 | 国产av无码专区亚洲awww | 亚洲欧美精品伊人久久 | 99久久人妻精品免费二区 | 亚洲自偷自拍另类第1页 | 扒开双腿疯狂进出爽爽爽视频 | 未满小14洗澡无码视频网站 | 天天摸天天透天天添 | 中文字幕日韩精品一区二区三区 | 成人一区二区免费视频 | 亚洲va中文字幕无码久久不卡 | 在线观看国产一区二区三区 | 男女下面进入的视频免费午夜 | 性史性农村dvd毛片 | 内射老妇bbwx0c0ck | 国产又爽又黄又刺激的视频 | 99国产欧美久久久精品 | 熟妇女人妻丰满少妇中文字幕 | 欧美老人巨大xxxx做受 | 樱花草在线播放免费中文 | 色欲综合久久中文字幕网 | 亚洲s色大片在线观看 | 成人毛片一区二区 | 久久综合给久久狠狠97色 | 97夜夜澡人人双人人人喊 | 久在线观看福利视频 | 国产农村乱对白刺激视频 | 黑人玩弄人妻中文在线 | 1000部啪啪未满十八勿入下载 | 在线精品亚洲一区二区 | 欧美野外疯狂做受xxxx高潮 | 中文无码成人免费视频在线观看 | 国产在线一区二区三区四区五区 | 小sao货水好多真紧h无码视频 | 中文精品无码中文字幕无码专区 | 学生妹亚洲一区二区 | 鲁鲁鲁爽爽爽在线视频观看 | 午夜精品久久久久久久 | 国内综合精品午夜久久资源 | 亚洲国产av美女网站 | 亚洲 高清 成人 动漫 | 鲁一鲁av2019在线 | 国产av无码专区亚洲awww | 18精品久久久无码午夜福利 | 婷婷丁香六月激情综合啪 | 欧美日本精品一区二区三区 | av人摸人人人澡人人超碰下载 | 色噜噜亚洲男人的天堂 | 日本大乳高潮视频在线观看 | 久久久av男人的天堂 | 国产人妻精品一区二区三区不卡 | 亚洲伊人久久精品影院 | 久久www免费人成人片 | 夜精品a片一区二区三区无码白浆 | 红桃av一区二区三区在线无码av | 老子影院午夜伦不卡 | 国产精品久久久久久无码 | 亚洲中文字幕无码一久久区 | 精品水蜜桃久久久久久久 | 无码人中文字幕 | 97人妻精品一区二区三区 | 亚洲色大成网站www | 国产美女精品一区二区三区 | 老头边吃奶边弄进去呻吟 | 伊人久久婷婷五月综合97色 | 久久无码人妻影院 | 精品熟女少妇av免费观看 | 国产精品久久久久无码av色戒 | 欧美xxxx黑人又粗又长 | 在线成人www免费观看视频 | 国产偷国产偷精品高清尤物 | 中文字幕 亚洲精品 第1页 | 一本色道久久综合狠狠躁 | 国精产品一品二品国精品69xx | 婷婷五月综合激情中文字幕 | 亚洲午夜福利在线观看 | 国产激情无码一区二区 | 成人三级无码视频在线观看 | 久久国产精品二国产精品 | 18禁止看的免费污网站 | 成人欧美一区二区三区黑人 | 成人综合网亚洲伊人 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 最近免费中文字幕中文高清百度 | 日本大香伊一区二区三区 | 国产在线无码精品电影网 | 久久精品女人的天堂av | 伊人久久婷婷五月综合97色 | 亚无码乱人伦一区二区 | 亚洲 日韩 欧美 成人 在线观看 | 亚洲日韩精品欧美一区二区 | 大胆欧美熟妇xx | 国产美女精品一区二区三区 | 国产成人无码av在线影院 | 中文无码成人免费视频在线观看 | 日本又色又爽又黄的a片18禁 | 国产麻豆精品精东影业av网站 | 无码人妻精品一区二区三区下载 | 台湾无码一区二区 | 亚洲一区二区三区在线观看网站 | 波多野结衣一区二区三区av免费 | 性色av无码免费一区二区三区 | 日本大乳高潮视频在线观看 | 免费国产成人高清在线观看网站 | 国产亚洲精品久久久ai换 | 久久综合色之久久综合 | 午夜肉伦伦影院 | 久激情内射婷内射蜜桃人妖 | 樱花草在线社区www | 久久99精品国产麻豆 | 无码人妻丰满熟妇区毛片18 | 人人澡人人透人人爽 | 天天躁日日躁狠狠躁免费麻豆 | 欧美日韩一区二区综合 | 夜夜影院未满十八勿进 | 精品成人av一区二区三区 | 日本一卡2卡3卡四卡精品网站 | aⅴ在线视频男人的天堂 | 18无码粉嫩小泬无套在线观看 | 亚洲中文字幕无码一久久区 | 午夜熟女插插xx免费视频 | 免费无码午夜福利片69 | 日韩av无码一区二区三区不卡 | 国产精品无码永久免费888 | 国产三级久久久精品麻豆三级 | 中文精品久久久久人妻不卡 | 樱花草在线社区www | 亚洲国产精品一区二区第一页 | 国产精品久久国产三级国 | aⅴ在线视频男人的天堂 | 欧美人与善在线com | 国产熟妇高潮叫床视频播放 | 97久久国产亚洲精品超碰热 | 激情亚洲一区国产精品 | 老熟妇乱子伦牲交视频 | 疯狂三人交性欧美 | 牲欲强的熟妇农村老妇女视频 | 天天躁日日躁狠狠躁免费麻豆 | 人妻夜夜爽天天爽三区 | 又粗又大又硬毛片免费看 | 色一情一乱一伦一视频免费看 | 国产午夜福利100集发布 | 最近中文2019字幕第二页 | 亚洲一区二区三区香蕉 | 国产电影无码午夜在线播放 | 小sao货水好多真紧h无码视频 | 十八禁视频网站在线观看 | 人人澡人摸人人添 | 丰满人妻翻云覆雨呻吟视频 | 99久久人妻精品免费二区 | 日韩亚洲欧美精品综合 | 2019午夜福利不卡片在线 | 国产激情一区二区三区 | 欧洲极品少妇 | 免费无码一区二区三区蜜桃大 | 欧美丰满熟妇xxxx | 亚洲色无码一区二区三区 | 帮老师解开蕾丝奶罩吸乳网站 | 国产一区二区三区日韩精品 | 日韩 欧美 动漫 国产 制服 | 色偷偷av老熟女 久久精品人妻少妇一区二区三区 | 小鲜肉自慰网站xnxx | 亚洲国产av美女网站 | 黑人大群体交免费视频 | 国产sm调教视频在线观看 | 日本护士毛茸茸高潮 | 久久无码中文字幕免费影院蜜桃 | 亚洲精品午夜国产va久久成人 | 一本久久伊人热热精品中文字幕 | 日日橹狠狠爱欧美视频 | 午夜免费福利小电影 | 国产人妖乱国产精品人妖 | 波多野结衣高清一区二区三区 | 精品国产一区二区三区四区 | 久久99精品久久久久久动态图 | 久久亚洲a片com人成 | 又色又爽又黄的美女裸体网站 | 国内精品一区二区三区不卡 | 成人精品视频一区二区三区尤物 | 六月丁香婷婷色狠狠久久 | 丰满少妇人妻久久久久久 | 久久午夜无码鲁丝片 | 性生交片免费无码看人 | 十八禁视频网站在线观看 | 在线观看国产午夜福利片 | 在线精品国产一区二区三区 | 人妻中文无码久热丝袜 | 波多野结衣av一区二区全免费观看 | 无遮无挡爽爽免费视频 | 婷婷丁香五月天综合东京热 | 欧美人与牲动交xxxx | 玩弄人妻少妇500系列视频 | 国内综合精品午夜久久资源 | 亚洲日本在线电影 | 丰满人妻一区二区三区免费视频 | 中文字幕中文有码在线 | 中文无码伦av中文字幕 | 国产精品亚洲一区二区三区喷水 | 日韩精品无码一区二区中文字幕 | 99精品视频在线观看免费 | 无码av免费一区二区三区试看 | 色情久久久av熟女人妻网站 | 四虎国产精品免费久久 | 波多野结衣乳巨码无在线观看 | 色综合久久88色综合天天 | 色一情一乱一伦一区二区三欧美 | 日韩av无码一区二区三区 | 日本欧美一区二区三区乱码 | 成人aaa片一区国产精品 | 99视频精品全部免费免费观看 | 国产欧美亚洲精品a | 真人与拘做受免费视频一 | 中文字幕乱妇无码av在线 | 久久亚洲a片com人成 | 亚洲一区av无码专区在线观看 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 国产色在线 | 国产 | 国产明星裸体无码xxxx视频 | 精品熟女少妇av免费观看 | 少妇被黑人到高潮喷出白浆 | 国内精品人妻无码久久久影院蜜桃 | 亚无码乱人伦一区二区 | 久激情内射婷内射蜜桃人妖 | 久久久www成人免费毛片 | 国产精品无码久久av | 2019午夜福利不卡片在线 | av香港经典三级级 在线 | 男人的天堂2018无码 | 波多野42部无码喷潮在线 | 精品久久久久久人妻无码中文字幕 | 亚洲国产精华液网站w | 狂野欧美激情性xxxx | 高潮毛片无遮挡高清免费视频 | 亚洲精品久久久久中文第一幕 | 动漫av一区二区在线观看 | 日韩av无码一区二区三区不卡 | 女人被男人躁得好爽免费视频 | 男人扒开女人内裤强吻桶进去 | 欧美日韩一区二区三区自拍 | 亚洲熟悉妇女xxx妇女av | 扒开双腿疯狂进出爽爽爽视频 | 99国产欧美久久久精品 | 无码人妻出轨黑人中文字幕 | 狠狠噜狠狠狠狠丁香五月 | 色五月丁香五月综合五月 | 日本一本二本三区免费 | 日本爽爽爽爽爽爽在线观看免 | 亚洲区小说区激情区图片区 | 亚洲人成无码网www | 久久久久se色偷偷亚洲精品av | 国产精品香蕉在线观看 | 国产亚洲精品久久久久久久 | 青青青手机频在线观看 | 国产一区二区三区四区五区加勒比 | 国产一区二区不卡老阿姨 | 国产做国产爱免费视频 | 国产欧美熟妇另类久久久 | 亚洲精品午夜无码电影网 | 午夜精品一区二区三区的区别 | 国产午夜手机精彩视频 | 中文字幕人妻无码一夲道 | 蜜桃无码一区二区三区 | 免费看男女做好爽好硬视频 | 日韩精品久久久肉伦网站 | 永久免费观看美女裸体的网站 | 亚洲色大成网站www | 国产精品亚洲一区二区三区喷水 | 精品成人av一区二区三区 | 国产网红无码精品视频 | 伊在人天堂亚洲香蕉精品区 | 内射老妇bbwx0c0ck | 午夜性刺激在线视频免费 | 六十路熟妇乱子伦 | 亚洲精品国偷拍自产在线麻豆 | 日日夜夜撸啊撸 | 男女超爽视频免费播放 | 久久久久久久人妻无码中文字幕爆 | 久久五月精品中文字幕 | 熟女少妇人妻中文字幕 | 国内丰满熟女出轨videos | 国产香蕉97碰碰久久人人 | 久久久久免费看成人影片 | a片在线免费观看 | 成熟女人特级毛片www免费 | 国语精品一区二区三区 | 永久黄网站色视频免费直播 | 国产精品无码mv在线观看 | 日欧一片内射va在线影院 | 精品厕所偷拍各类美女tp嘘嘘 | 亚洲精品久久久久中文第一幕 | 欧美真人作爱免费视频 | 国产日产欧产精品精品app | 国产莉萝无码av在线播放 | 亚洲综合无码一区二区三区 | 国产精品人妻一区二区三区四 | 亚洲区欧美区综合区自拍区 | 国产乡下妇女做爰 | 国产成人无码午夜视频在线观看 | 国产精品久久久午夜夜伦鲁鲁 | 国产成人精品视频ⅴa片软件竹菊 | 欧美日本免费一区二区三区 | 精品国产成人一区二区三区 | 中文毛片无遮挡高清免费 | 午夜熟女插插xx免费视频 | 成人欧美一区二区三区黑人免费 | 人妻天天爽夜夜爽一区二区 | 99久久亚洲精品无码毛片 | 成人亚洲精品久久久久软件 | 精品国产青草久久久久福利 | 天堂久久天堂av色综合 | 国产人妻精品一区二区三区不卡 | 窝窝午夜理论片影院 | 亚洲精品www久久久 | 亚洲男女内射在线播放 | 欧美丰满少妇xxxx性 | 98国产精品综合一区二区三区 | 又大又硬又爽免费视频 | 一个人免费观看的www视频 | 日本欧美一区二区三区乱码 | 国产精品永久免费视频 | 波多野结衣乳巨码无在线观看 | 国产成人无码一二三区视频 | 亚洲 高清 成人 动漫 | 欧美黑人巨大xxxxx | 伦伦影院午夜理论片 | 午夜成人1000部免费视频 | 久久久中文字幕日本无吗 |