【经验分享】鹅厂机器学习岗暑期实习面经总结
作者?| 空
學(xué)校?|?華南理工大學(xué)
研究?|?機(jī)器學(xué)習(xí)
出品 | AI蝸牛車?
個人經(jīng)歷
本人本科雙非,華南某985碩士,本碩都是計算機(jī)專業(yè)。本科玩過一段時間ACM,巨菜(現(xiàn)在想想,不管是考研還是求職,這段經(jīng)歷都為我?guī)砹嗽S多便利)。
有一篇SCI一區(qū)的論文,方向比較偏,是智能電網(wǎng)相關(guān)的,面試官都不太感興趣。有一個國際大數(shù)據(jù)比賽的一等獎和一個國內(nèi)數(shù)據(jù)挖掘比賽的冠軍。
面試情況
簡單介紹一下本人找暑期實(shí)習(xí)的情況,從2月中旬開始準(zhǔn)備,投了字節(jié)閃電內(nèi)推,鵝廠提前批,阿里CBU和企業(yè)金融的預(yù)面試。字節(jié)閃電內(nèi)推簡歷被篩,鵝廠拿到了推薦崗的offer,阿里CBU過了一面,企業(yè)金融過了二面。拿到鵝廠offer后把其他家的面試都推了,因為想著就算發(fā)了offer可能也還是會選鵝廠。
整個實(shí)習(xí)的過程從開始準(zhǔn)備到結(jié)束大概就是一個月,這一個月基本上也是邊面試邊刷面經(jīng),補(bǔ)基礎(chǔ),還算十分充實(shí)吧233。事后想想,自己的六輪面試都過了,真的是十分幸運(yùn)。
簡歷
簡歷一定要重視!簡歷的內(nèi)容決定了你能否被撈,一定程度決定了你面試的時候會被問什么。關(guān)于如何編寫簡歷,我覺得有幾點(diǎn)建議可以跟大家分享一下:
① 頭像完全可以不放,如果要放,請盡量放西裝證件照,或者說高P過的照片。給HR和面試官一個比較好的初印象。
② 簡歷要突出重點(diǎn)。學(xué)歷的地方要寫清楚拿過什么獎學(xué)金,拿了幾次,績點(diǎn)排名多少,論文的部分要把期刊/會議的級別寫顯眼一些。這些都是HR比較關(guān)注的。比賽建議按照難點(diǎn)-方案這樣子的格式去寫,避免寫一大堆方案,面試官抓不到感興趣的點(diǎn)。
③ 不太熟的技術(shù)不要寫在簡歷上面。面試的時候面試官可能會問你簡歷上涉及的東西,問了后發(fā)現(xiàn)你一知半解會很降分。個人覺得,一個知識面不寬但是對相關(guān)的知識都比較熟悉的印象遠(yuǎn)比什么都一知半解好。
④ 博客,github如果有比較亮眼的成果可以寫在簡歷上,可以自我介紹時講,HR會比較感興趣。
⑤ 簡歷盡可能簡潔,不重要的獎項(或者說跟你最好的獎項相比比較弱)可以去掉,只寫出你最亮眼的地方。比如一個rank不高的比賽,寫到簡歷上可能是個扣分項。當(dāng)然,如果沒有更好的獎項了,可以寫上去表明自己做過這方面的工作。
面試
我們在牛客上可以看到很多人的面經(jīng),同樣一個崗位,有的人很難,有的人很輕松。我認(rèn)為的原因有:
① 簡歷。經(jīng)歷比較豐富的人,一般面試上來會被問比較亮眼的經(jīng)歷,一輪面試的一半左右時間會花在這上面,而且因為是自己做過的工作,被問時基本不會有什么壓力。所以整體的面試難度會降低。
② 話題的引導(dǎo)。這個算是我自己幾次面試中領(lǐng)悟到的,我們在面試時要有意講話題引導(dǎo)到自己擅長的領(lǐng)域,比如我一般會有意避開NLP,CV,讓面試官問我機(jī)器學(xué)習(xí)相關(guān)的知識。所以面試官經(jīng)常會說我“對機(jī)器學(xué)習(xí)比較熟悉,不過某些方面可以再加強(qiáng)一下”,這個印象其實(shí)我覺得還好,反正把握好自己擅長的地方,積極避開不擅長的領(lǐng)域相當(dāng)重要。
③ 運(yùn)氣。這個無可厚非,無法避免。有的部門面試就是很難,有的部門面試就是比較水,或者說這個部門認(rèn)為你的經(jīng)歷比較對口,那么面試難度也會降低不少。
在等待面試的期間,應(yīng)該積極去牛客網(wǎng)刷對應(yīng)的面經(jīng),把可能出現(xiàn)的問題抄下來,一個個去鞏固。面試問的題目在牛客面經(jīng)上基本都是高頻問題。
可能會有用的事項
① 分享,交流。我本人和熟人相處時會比較放得開。因此,我會和關(guān)系比較好的朋友/同學(xué)分享,討論每一次的面試錄音。找出一些不足,一些可以改進(jìn)的地方。另外,面試完在牛客網(wǎng),QQ群分享面經(jīng)也是一個不錯的行為,受了別人幫助,也要回報。
② 多關(guān)注招聘信息。招牌期間會有很多群,建議多加,了解一些全面的情況。
③ 不要一開始就面想去的公司,理由大家都懂。可以多投一些二線公司,或者不想去的一線公司,攢攢面經(jīng)。
④ 像阿里的預(yù)面試,騰訊的提前批,這種機(jī)會不要錯過。可以積攢豐富的面試經(jīng)驗。
準(zhǔn)備工作
本人只針對機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘崗提出建議,CV,NLP崗可能情況不一樣哈。機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘主要需要準(zhǔn)備的內(nèi)容包括:
① ML相關(guān)的知識:這部分知識我下面會列出一些比較高頻的問題。需要特別注意GBDT,xgb和lgb的區(qū)別,建議實(shí)際使用過并看過原始論文。需要熟練手?jǐn)]的簡單算法有LR, NB, Kmeans。對于LR和樹模型這種工程使用較多的,需要知道跟并行相關(guān)的一些知識。比如LR如何處理千萬級別的數(shù)據(jù)樣本,xgb如何并行等。
② 數(shù)學(xué)知識:這一塊主要是高數(shù),線代,概率論,凸優(yōu)化。高數(shù)上(加上無窮級數(shù)),線代,概率論需要熟練掌握,凸優(yōu)化重點(diǎn)掌握一維搜索方法,一階/二階優(yōu)化方法,KKT條件,對偶問題,線性規(guī)劃,二次規(guī)劃。
③ 基礎(chǔ)算法。這部分的重要性不用多說,刷leetcode。劍指offer的題目一定要達(dá)到秒殺級別。基本的都會了之后,算法崗重點(diǎn)強(qiáng)化DP,記憶化搜索這兩方面。對于筆試,建議多去牛客刷往年的真題,注意筆試的題目難度往往遠(yuǎn)高于面試。(當(dāng)然不會要求全部AC)
④ 場景問題:對于機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘崗,現(xiàn)在大多數(shù)的公司業(yè)務(wù)都是反欺詐(異常檢測)/推薦系統(tǒng),對于這兩方面的基本內(nèi)容和傳統(tǒng)方法要能講出來一些東西。這也是必問的問題。
⑤ 智力題:其實(shí)這個應(yīng)該和算法題歸為一部分,智力題考來考去其實(shí)就這么幾道——瘋狗,毒水,海盜分金幣,兩根蠟燭,三門問題等。
⑥ DL相關(guān)知識:就算是機(jī)器學(xué)習(xí)崗,也需要了解一些深度學(xué)習(xí)的基本知識,常用的模型,如何調(diào)參等。最好了解一個框架(建議tensorflow或pytorch)。
⑦ 語言方面:建議熟悉C++ 和 python至少其一。
個人整理的一些高頻問題
lightgbm, xgboost RF和GBDT的異同(這個問題屬于必問問題,對于ID3,C4.5,CART也要了解,對于xgb的算法原理要充分理解,比如損失函數(shù)的推導(dǎo)過程,為什么要使用二階泰勒展開。最好有一些調(diào)參經(jīng)驗)
svm損失函數(shù)推導(dǎo)
樸素貝葉斯公式推導(dǎo)與實(shí)現(xiàn)
處理不平衡常用方法
卷積層相比FC層有哪些優(yōu)勢?
非線性分類算法有哪些
如何判斷一個算法是線性的還是非線性的?
stacking/boosting/bagging的區(qū)別
手動實(shí)現(xiàn)堆排序
求AUC
L1和L2的區(qū)別
實(shí)現(xiàn)快排
LR的實(shí)現(xiàn),優(yōu)點(diǎn),如何并行,特征有共線性會怎么樣?14.pca和lda
常見激活函數(shù)的優(yōu)缺點(diǎn) 16.從方差和偏差的角度比較bagging和boosting
經(jīng)驗風(fēng)險、期望風(fēng)險、結(jié)構(gòu)風(fēng)險
分層采樣和蓄水池采樣,O(N)的洗牌算法
SVM與LR的區(qū)別
一階優(yōu)化器,二階優(yōu)化器
手寫kmeans
BN/LN/WN的區(qū)別
實(shí)際場景下做softmax容易出現(xiàn)一些問題,怎么解決
扔雞蛋問題(了解到O(kn)的做法即可)
進(jìn)程和線程的區(qū)別
Python/C++多線程,多進(jìn)程如何使用
Python迭代器,裝飾器
Bootstrap抽樣
特征選擇方法
野指針是什么意思
64匹馬,八個賽道,找出最快的四匹,最壞情況下最少要比多少次(更常見的是25匹馬,5個賽道找出最快的3匹)。
12個小球,其中有一個與其他的重量不一樣,給你一個天平,最壞情況下最少稱多少次可以找出重量不同的小球。
1000杯水中有一瓶是毒藥,小老鼠喝一滴一小時就會死,給你10只小老鼠,在一小時內(nèi)找出這瓶水 。
P-R曲線和ROC曲線的區(qū)別
什么是凸問題?
常見的凸優(yōu)化方法?
CNN/RNN/LSTM的原理
從方差,偏差,噪聲的角度解釋泛化誤差
特征工程相關(guān)。比如如何處理類別特征?onehot,tfidf會出現(xiàn)什么問題之類。
詞嵌入embedding相關(guān)知識(主要是word2vector)
梯度爆炸/梯度消失
池化層,卷積層的作用
dropout(訓(xùn)練和測試階段分別如何處理)
MLE,MAP和貝葉斯估計的區(qū)別
DNN反向傳播的推導(dǎo)
LR為什么用交叉熵而不是MSE?
為什么LR權(quán)重可以全部初始化為0,NN不行
常見的幾個聚類算法
異常檢測/推薦基本方法(這個視部門業(yè)務(wù)而定)
判別式模型和生成式模型
相關(guān)書籍
本人看書不多,就推幾本比較熱門的書籍吧。
① 西瓜書,南瓜書,統(tǒng)計學(xué)習(xí)基礎(chǔ)。適合拿來刷機(jī)器學(xué)習(xí)基礎(chǔ)
② 動手學(xué)深度學(xué)習(xí),花書。適合拿來刷深度學(xué)習(xí)基礎(chǔ)。特別是前者,有pytorch版本的代碼實(shí)現(xiàn)。
③ 深入理解XGBOOST。最近很火的一本書,看了一下質(zhì)量相當(dāng)不錯。
④ 劍指offer。這本不買也行,leetcode和牛客有對應(yīng)題目
⑤ 程序員面試寶典。題目較多,較全,較難。在掌握了劍指offer和基本算法內(nèi)容之后,可以作為進(jìn)階食用。
后話
算法崗雖競爭較大,但手里有一些籌碼,準(zhǔn)備充分的話其實(shí)也還好。有時間的情況下,建議豐富競賽,實(shí)習(xí)經(jīng)歷。論文也是硬通貨,但是難度確實(shí)更大。當(dāng)然有時候也很看運(yùn)氣,但是運(yùn)氣畢竟是不可控的。希望這篇文章可以幫到你早日拿到offer~
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復(fù)“加群”獲取一折本站知識星球優(yōu)惠券,請回復(fù)“知識星球”喜歡文章,點(diǎn)個在看 與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖
總結(jié)
以上是生活随笔為你收集整理的【经验分享】鹅厂机器学习岗暑期实习面经总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 备战2020腾讯广告算法大赛:(2017
- 下一篇: 算法漫画:什么是 “哈夫曼树” ?