转发:Datawhale第七期组队学习计划
編者注:Datawhale是一個公益組織,也是AiUnion的四個成員之一,所有學習計劃是免費的。
第7期Datawhale組隊學習計劃
馬上就要開始啦
這次共組織15個組隊學習
涵蓋了AI領域從理論知識到動手實踐的內容
按照下面給出的最完備學習路線分類
難度系數分為低、中、高三檔
可以按照需要參加
- -
- 學習路線 -
? ? ? ? ? ? ? ? ? ? ? ? ??
基礎知識
01
統計學
課程設計:王佳鑫、許輝
組隊學習說明:學習內容涵蓋統計學中所有的主要知識,并對其分部分進行梳理總結。
任務路線:根據所學習內容進行
(1)統計學基本知識、二項及泊松分布、大數定律、正態分布等內容的總結進行整體的回顧、梳理與完善;
(2)中心極限定理、置信區間、 假設檢驗等內容的總結進行整體的回顧、梳理與完善。
組隊學習周期:7天
定位人群:微積分、基本概率知識儲備,難度系數中
每個任務完成大概所需時間:2-3h
任務預覽(2天)
學習內容 1:統計學基本知識、二項及泊松分布
學習內容 2: 大數定律、正態分布
02
Python基礎
課程設計:馬晶敏,葉梁、許輝
組隊學習說明:學習python基礎知識,針對python小白的學習之路
任務路線:基礎知識-函數-第三方模塊-類和對象-基礎爬蟲
組隊學習周期:10天
定位人群:python小白,難度系數低
每個任務完成大概所需時間:每天平均花費時間2小時-4小時不等,根據個人學習接受能力強弱有所浮動
任務預覽(2天)
環境搭建
1.python初體驗
2.python基礎講解
3.python變量特性+命名規則、注釋方法、python中“:”作用、學會使用dir( )及和help( )、import使用、pep8介紹
4. python數值基本知識
python中數值類型,int,float,bool,e記法等、算數運算符、邏輯運算符、成員運算符、身份運算符、運算符優先級
03
編程
課程設計:光城 、LeoLRH
組隊學習說明:利用自己所熟知的編程語言,具有一定基礎,討論在面試中可能出現的數據結構問題,一起學習重溫經典數據結構
任務路線:數組->鏈表->棧->隊列->遞歸->排序->二分查找->哈希表->字符串->二叉樹->堆->圖->回溯->分治->動態規劃
組隊學習周期:14天甚至往上大概16天左右(周末進行整體整理討論)(每天任務時間具體看任務情況)
定位人群:有一門語言基礎和算法基礎的同學,難度系數高,小白慎入!!!
每個任務完成大概所需時間:平均每天學習時間在1個小時左右,晚上統一,半個小時進行集體討論總結打卡。
任務預覽(2天)
【數組】
實現一個支持動態擴容的數組
實現一個大小固定的有序數組,支持動態增刪改操作
實現兩個有序數組合并為一個有序數組
學習哈希表思想,并完成leetcode上的兩數之和(1)及Happy? Number(202)!(要求全部用哈希思想實現!)(選做)(注意:在第四天會進行繼續學習)
練習:
Three?Sum(求三數之和)
Majority?Element(求眾數)
Missing?Positive(求缺失的第一個正數)
【鏈表】
實現單鏈表、循環鏈表、雙向鏈表,支持增刪操作
實現單鏈表反轉
實現兩個有序的鏈表合并為一個有序鏈表
實現求鏈表的中間結點
練習:
Linked?List?Cycle?I(環形鏈表)
Merge?k?Sorted?Lists(合并?k?個排序鏈表)
04
leetcode
課程設計:老表、于鴻飛、楊皓博
組隊學習說明:Leetcode刷題組隊學習,從零開始每天一道算法題,在良好的學習氛圍下,培養刷題習慣,學習算法思想。(不限制編程語言)
任務路線:騰訊精選練習(50 題)順序每天一道題。
地址鏈接:
https://leetcode-cn.com/problemset/50/
組隊學習周期:50天(50題全部完成即結束)
定位人群:適合有一門語言基礎的同學,難度系數中
每個任務完成大概所需時間:2-3h
課程內容:選取騰訊精選練習(50 題)解答
數據分析/挖掘
01
Excel入門課程
課程設計:楊煜,李嚴
組隊學習說明:職場人士必備學習內容。通過集中式學習和大量實戰練習,快速了解并掌握Excel核心功能,保證今后工作中用得到。
任務路線:基礎界面(2天) --> 基礎文件操作&單元格操作(2天) --> 基礎函數(2天) --> 查找函數vlookup和 match/index(2天) --> 基礎圖表(3天) --> 數據透視表(2天)
組隊學習周期:11天
定位人群:小白或有一點基礎但不熟練的人群;初入職場人群必學;難度系數低
每個任務完成大概所需時間:2-3h/每天
任務預覽(2天)
文件操作
新建workbook
新建sheet/移動sheet/重命名sheet/修改sheet顏色、sheet種類: 工作表/圖表/宏表等、保存為xls/xlsx/csv
基礎單元格操作
輸入數據、數據格式、合并單元格、自動填充、選擇性粘貼、去重、分列、排序、篩選、條件格式、插入下拉列表、行高列寬設置、凍結首行首列、邊框、單元格換行
作業:
任務一:
生成一個行高30,列寬15(第六列列寬45),名為“Excel組隊學習”的表,凍結窗格1-3行
任務二:
操作對象為任務一生成的“Excel組隊學習”表
將第六列分列,效果如下
利用條件格式,將薪資列大于8000的收入填充為深綠色,并將它們篩選出來
第二列將重復值刪除,只保留唯一值
02
MySQL
課程設計:楊皓博 孫濤 楊煜
組隊學習說明:一周內快速了解并掌握MySQL的主要內容。通過大量SQL語句的實戰練習,可以在簡歷上寫熟練掌握MySQL。(注意:本課程只關注SQL查詢語句本身,對數據庫的涉及較少。)
任務路線: MySQL軟件安裝及數據庫基礎->查詢語句->表操作->表聯結->MySQL 實戰->MySQL 實戰-復雜項目
組隊學習周期:(7天)
定位人群:小白,難度系數小
每個任務完成大概所需時間:2-3h
任務預覽(3天)
軟件安裝及服務器設置。
數據庫基礎知識
MySQL數據庫管理系統
SQL是什么?MySQL是什么?
查詢語句 SELECT FROM
篩選語句 WHERE
分組語句 GROUP BY
排序語句 ORDER BY
SQL注釋
SQL代碼規范
03
爬蟲
課程設計:光城、李方
組隊學習說明:
從零基礎到能獨立完成一個簡易的爬蟲項目
任務路線:請求→re→beautifulsoup→lxml→selenium→IP問題→實戰小項目
組隊學習周期:7天
定位人群:有Python基礎。難度系數中
每個任務完成大概所需時間:2-3h/天
任務預覽(2天)
1.學習get與post請求,嘗試使用requests或者是urllib用get方法向https://www.baidu.com/發出一個請求,并將其返回結果輸出。
2.如果是斷開了網絡,再發出申請,結果又是什么。了解申請返回的狀態碼。
3.了解什么是請求頭,如何添加請求頭。
4.學習什么是正則表達式并嘗試一些正則表達式并進行匹配。
5.然后結合requests、re兩者的內容爬取https://movie.douban.com/top250里的內容
6.要求抓取名次、影片名稱、國家、導演等字段。
04
數據分析
課程設計:金娟娟
組隊學習說明:學習python for data analysis基礎知識
任務路線:python基礎-重要的python庫(numpy/pandas/matplotlib/seaborn等)-數據清洗和分析
組隊學習周期:15天
定位人群:數據分析小白,難度系數低
每個任務完成大概所需時間:每天平均花費時間2小時-4小時不等,根據個人學習接受能力強弱有所浮動
機器學習
01
初級算法梳理
課程設計:蘇靜、康兵兵
組隊學習說明:通過查閱書籍或參考文獻、學習視頻等,對傳統機器學習算法進行梳理
任務路線:線性回歸--->邏輯回歸--->決策樹
組隊學習周期:7天
定位人群:有概率論、矩陣運算、求導、泰勒展開等基礎數學知識;難度系數低
每個任務完成大概所需時間:2-3h
任務預覽(2天)
1. 機器學習的一些概念
有監督、無監督、泛化能力、過擬合欠擬合(方差和偏差以及各自解決辦法)、交叉驗證
2. 線性回歸的原理
3. 線性回歸損失函數、代價函數、目標函數
4. 優化方法(梯度下降法、牛頓法、擬牛頓法等)
5、線性回歸的評估指標
6、sklearn參數詳解
學習時長:兩天
參考:西瓜書
????????cs229吳恩達機器學習課程
????????李航統計學習
????????谷歌搜索
02
?高級算法梳理
課程設計:黑桃,劉廣月,于鴻飛
組隊學習說明:通過查閱相關文獻,對機器學習算法進行梳理
任務路線:RF--->GBDT--->XGB
組隊學習周期:7天
定位人群:有概率論、矩陣運算、求導、泰勒展開等基礎數學知識;難度系數中
如何申請CSDN博客:https://blog.csdn.net/sxhelijian/article/details/7752987
12分鐘教你如何使用Markdown:https://www.bilibili.com/video/av8819726?from=search&seid=6223599217224903501
MarkDown公式編輯:https://katex.org/docs/supported.html
每個任務完成大概所需時間:2-3h
任務預覽(2天)
【參考框架】歡迎有自己的框架
1. 集成學習概念
2. 個體學習器概念
3. boosting ?bagging
4. 結合策略(平均法,投票法,學習法)
5. 隨機森林思想
6. 隨機森林的推廣
7. 優缺點
8. sklearn參數
9.應用場景
03
?李宏毅機器學習(一)
課程設計:王佳旭,李威,排骨,金一鳴
組隊學習說明:通過觀看李宏毅教學視頻,團隊整理詳細筆記進行梳理算法,并且通過團隊布置的任務理解算法(小作業,核心代碼,大作業等),完全手寫代碼,不調包。
學習路線:回歸,決策樹,SVM,XGBoost
學習周期:1個月
定位人群:python基礎,數據分析,基礎數學等知識;
難度系數:高
每個任務完成大概所需時間:每天2-4小時不等,根據個人學習能力強弱有所浮動
參考資料:
李宏毅課程教學
機器學習實戰
Datawhale整理的《學習李宏毅》筆記
04
西瓜書
課程設計:黑桃
組隊學習說明:通過學習周志華老師的《機器學習》,以博客的形式完成算法的整理
學習路線:模型評估與選擇-->線性模型-->決策樹-->神經網絡-->支持向量機-->貝葉斯分類-->集成學習-->聚類-->降維與度量學習-->特征選擇與稀疏學習-->半監督學習-->概率圖模型-->規則學習-->強化學習
學習周期:14周
定位人群:掌握基礎數學等知識;
難度系數:高
每個任務完成大概所需時間:每天2-4小時不等,根據個人學習能力強弱有所浮動
參考資料:《機器學習》、《機器學習公式推導版》、cs229
05
數據挖掘
課程設計:范晶晶、李碧涵、
組隊學習說明:應用機器學習算法,完整地走完一個數據挖掘項目流程
任務路線:數據分析→特征工程→模型構建→模型評估→模型調優→模型融合
組隊學習周期:12天
定位人群:有Python基礎,sklearn基礎。難度系數中
每個任務完成大概所需時間:2-3h/天
任務預覽(2天)
要求:數據切分方式 - 三七分,其中測試集30%,訓練集70%,隨機種子設置為2018
任務1:對數據進行探索和分析。時間:2天
1.數據類型的分析
2.無關特征刪除
3.數據類型轉換
4.缺失值處理
5.……以及你能想到和借鑒的數據分析處理
深度學習
01
Pytorch基礎
課程設計:許輝 李奇鋒
組隊學習說明:通過學習pytorch的基本操作,最終完成手寫數字的識別
任務路線:安裝pytorch->設立圖并計算->實現邏輯回歸->構建多層神經網絡->PyTorch實現L1,L2正則化以及Dropout->書寫優化器代碼->用PyTorch完成手寫數字識別
學習周期:7天
定位人群:熟悉python的基礎用法
任務完成所需時間:2-3h/天
難度系數中
任務預覽(2天)
1.什么是Pytorch,為什么選擇Pytroch?
2.Pytroch的安裝
3.配置Python環境
????a.準備Python管理器
??? b.通過命令行安裝PyTorch
????c.PyTorch基礎概念
4.通用代碼實現流程(實現一個深度學習的代碼流程)
理論應用
01
自然語言處理(理論+實踐)
課程設計:jepson
組隊學習說明:學習自然語言處理理論,并且通過對某些數據集的文本分類任務不斷優化來進行實踐。
任務路線:特征提取—>特征選擇—>文本表示—>傳統機器學習算法跑模型—>LDA生成新特征—>深度學習算法跑模型
定位人群:有Python基礎,基本框架的基礎(例如TensorFlow、Keras和pyTorch等)!難度系數高
組隊學習周期:18天
每個任務完成大概所需時間:3-4h
任務預覽(2天)
1.IMDB數據集下載和探索(參考TensorFlow官方教程)
2.THUCNews數據集下載和探索(參考博客中的數據集部分和預處理部分)
3.學習召回率、準確率、ROC曲線、AUC、PR曲線這些基本概念
組隊學習將從8號陸續開始報名(Datawhale的報名微信)
請關注和分享↓↓↓?
本站的知識星球(黃博的機器學習圈子)ID:92416895
目前在機器學習方向的知識星球排名第一
總結
以上是生活随笔為你收集整理的转发:Datawhale第七期组队学习计划的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 坚持学习打卡的人,将来会变成什么样?
- 下一篇: 分享AI有道干货 | 126 篇 AI