机器学习与算法面试太难?
機(jī)器學(xué)習(xí)與算法面試太難?
?
來(lái)源:
https://mp.weixin.qq.com/s/GrkCvU2Ia_mEaQmiffLotQ
作者:石曉文
?
八月參加了一些提前批的面試,包括阿里、百度、頭條、貝殼、一點(diǎn)資訊等。整理了一些面試題,分享給大家。
?
一、機(jī)器學(xué)習(xí)基礎(chǔ)題
1、LSTM的公式
2、RNN為什么出現(xiàn)梯度消失及BPTT的推導(dǎo)
3、DQN的基本原理么
4、GBDT和隨機(jī)森林有什么區(qū)別
5、GBDT的原理,如何做分類和回歸
6、隨機(jī)森林的隨機(jī)體現(xiàn)在哪方面
7、Wide &Deep的原理
8、GBDT+LR是怎么做的?
9、DQN模型為什么要做經(jīng)驗(yàn)回放
10、數(shù)據(jù)之間如果不是獨(dú)立同分布的會(huì)怎樣
11、AUC的原理介紹一下
12、XGBOOst和GBDT的區(qū)別。
13、強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別
14、神經(jīng)網(wǎng)絡(luò)里面的損失函數(shù)有哪些
15、機(jī)器學(xué)習(xí)中常見(jiàn)的激活函數(shù)有哪些?為什么通常需要零均值?
16、DeepFM介紹
17、FM推導(dǎo)
18、boosting和bagging的區(qū)別?
19、bagging為什么能減小方差?
20、交叉熵?fù)p失函數(shù),0-1分類的交叉熵?fù)p失函數(shù)的形式。什么是凸函數(shù)?0-1分類如果用平方損失為什么用交叉熵而不是平方損失?
21、L1和L2有什么區(qū)別,從數(shù)學(xué)角度解釋L2為什么能提升模型的泛化能力。
22、深度學(xué)習(xí)中,L2和dropout有哪些區(qū)別?
23、L1正則化有哪些好處
24、如果有一萬(wàn)個(gè)地理坐標(biāo),轉(zhuǎn)換成1-10000的數(shù),可以用決策樹(shù)么?
25、CART分類樹(shù)和ID3以及C4.5有什么區(qū)別?
26、樹(shù)集成模型有哪幾種實(shí)現(xiàn)方式:Bagging和Boosting,回答過(guò)程中又問(wèn)到了很多細(xì)節(jié)。隨即森林的隨機(jī)體現(xiàn)在哪些方面,AdaBoost是如何改變樣本權(quán)重,GBDT分類樹(shù)擬合的是什么?
27、Dueling DQN和DQN有什么區(qū)別
28、early stop對(duì)參數(shù)有什么影響?
?
二、數(shù)據(jù)結(jié)構(gòu)算法題
1、K個(gè)有序數(shù)組,找一個(gè)長(zhǎng)度最小的區(qū)間,在這個(gè)區(qū)間里至少包含每個(gè)數(shù)組各一個(gè)數(shù)
2、n個(gè)[0,n)的數(shù),求每個(gè)數(shù)的出現(xiàn)次數(shù)(不能開(kāi)辟額外空間)
3、數(shù)組的全排列(空間復(fù)雜度O(1))
4、一堆鈔票,盡可能均分(利用背包問(wèn)題的思想)
5、無(wú)向無(wú)環(huán)圖中,最短路徑的最大值(Floyd算法)
6、層次遍歷二叉樹(shù)
7、字符串的最長(zhǎng)公共子序列(動(dòng)態(tài)規(guī)劃)
8、樹(shù)的前序遍歷和zigzag遍歷(非遞歸)
9、一個(gè)數(shù)組,所有數(shù)組都出現(xiàn)了兩次,只有一個(gè)數(shù)出現(xiàn)了一次,返回這個(gè)數(shù)(位運(yùn)算)
10、一個(gè)數(shù)組,一個(gè)數(shù)出現(xiàn)了超過(guò)一半次數(shù),返回這個(gè)數(shù)
11、將除法的結(jié)果用字符串返回,如果能夠除盡,則返回相除的結(jié)果,如果不能除盡,則無(wú)限循環(huán)部分用[]標(biāo)記。
12、數(shù)組排序,假設(shè)數(shù)組排序后的位次和排序前的位次絕對(duì)值差值小于K,有什么比快排好的算法?
13、樹(shù)中兩個(gè)節(jié)點(diǎn)的第一個(gè)的公共祖先。
14、判斷是否是回文鏈表
15、判斷兩個(gè)鏈表中是否有相同節(jié)點(diǎn)
?
三、實(shí)踐題
1、如果你想往模型中加入一個(gè)特征,如何判定這個(gè)特征是否有效?
2、LR和FM的區(qū)別?FM需要進(jìn)行交叉特征的選擇么?如果在LR選了一部分特征做交叉之后,取得了比FM更好的效果,這是為什么?如果FM變成DeepFM之后,效果超過(guò)了LR,這又是為什么?
3、如果邏輯回歸的所有樣本的都是正樣本, 那么它學(xué)出來(lái)的超平面是怎樣的?
4、哪些場(chǎng)景下的分類問(wèn)題不適用于交叉熵?fù)p失函數(shù)?
5、推薦系統(tǒng)中你認(rèn)為最重要的環(huán)節(jié)是什么?
6、多臂tiger machine中,有許多方法,比如e-greedy,timponson采樣,UCB,這些方法都有哪些適用場(chǎng)景?
7、如何預(yù)測(cè)一家店分品類的銷量
8、信息流采樣,有n份數(shù)據(jù),但是n的長(zhǎng)度并不知道,設(shè)計(jì)一個(gè)采樣算法,使得每份被選擇的概率是相同的。
9、模型在線下評(píng)估和線上使用時(shí),往往出現(xiàn)線上實(shí)際效果不如線下效果的情況,請(qǐng)分析可能的原因。
10、在CTR預(yù)估問(wèn)題中,假設(shè)訓(xùn)練數(shù)據(jù)的正負(fù)樣本數(shù)為1:4,測(cè)試數(shù)據(jù)中的正負(fù)樣本數(shù)也為1:4,那么此時(shí)模型對(duì)測(cè)試集,學(xué)到的平均點(diǎn)擊率為1/(1+4),假設(shè)此時(shí)采取了欠采樣策略,使正負(fù)樣本數(shù)為1:1,對(duì)同樣的測(cè)試集進(jìn)行預(yù)測(cè),平均點(diǎn)擊率應(yīng)該是多少?(樣本量很大,初始總樣本數(shù)為10億)
?
轉(zhuǎn)載于:https://www.cnblogs.com/DicksonJYL/p/9596062.html
總結(jié)
以上是生活随笔為你收集整理的机器学习与算法面试太难?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 谁有哈利波特电影的全部系列
- 下一篇: 转 前端工程师凭什么这么值钱?