C# 学习之路--百度网盘爬虫设计与实现(一)
生活随笔
收集整理的這篇文章主要介紹了
C# 学习之路--百度网盘爬虫设计与实现(一)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
百度網盤爬蟲
現在市面上出現了很多網盤搜索引擎,寫這系列博文及爬蟲程序的初衷:
- 更方面的查找資源
- 學習C#
- 學習爬蟲的設計與實現
- 記錄學習歷程
自我監督
能力有限,如有不妥之處,還請各位看官點評。同在學習的網友~與君共勉。
工具/庫選擇
- mysql5.6 (習慣使然,sqlserver比較龐大,個人使用起來不是很習慣,后期可能改為sqlserver)
- HttpWebRequest、HttpWebResponse、JSON.NET庫
vs2015, .NET4.5
PS:介紹以上是權當做個備忘錄/提示。
百度網盤搜索流程
此爬蟲原理是通過爬取用戶的分享/專輯保存鏈接來達到資源搜索的目的,而用戶與用戶之間通過訂閱/關注來聯系,慢慢形成一個龐大的爬蟲網絡。重復以上步驟。
PS:看似簡單的流程,想要精工還需細磨。
獲取百度網盤推薦用戶
當沒有訂閱任何用戶時,網盤的分享動態界面會出現一些用戶噢。這是系統推薦的用戶,雖然改動不一定會很大,但是可以作為爬蟲的初始用戶來處理(這種推薦用戶聽說關注的人都不少噢)接口返回信息:
errorno: 狀態碼 request_id:請求ID hotuser_list:用戶列表用戶列表結構:
type:類型(通常返回-1,不明用途) hot_uname:用戶昵稱 avatar_url:頭像縮略圖地址 intro:描述 follow_count:訂閱人數 fans_count:粉絲人數 user_type:用戶類型?(不明意義) is_vip:是否為VIP pubshare_count:分享數 hot_uk:不知道啥玩意 album_count:分享專輯數END
暫時就寫到這兒了,要去寫代碼了~ 寫完再會轉載于:https://www.cnblogs.com/By-ruoyu/p/6993424.html
總結
以上是生活随笔為你收集整理的C# 学习之路--百度网盘爬虫设计与实现(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 个人学习进度(第十六周)
- 下一篇: 如何使用阿里云云解析API实现动态域名解