面试题整理(机器学习、数据结构)
一、機器學習基礎題
1、LSTM的公式
2、RNN為什么出現梯度消失及BPTT的推導
3、DQN的基本原理么
4、GBDT和隨機森林有什么區別
5、GBDT的原理,如何做分類和回歸
6、隨機森林的隨機體現在哪方面
7、Wide &Deep的原理
8、GBDT+LR是怎么做的?
9、DQN模型為什么要做經驗回放
10、數據之間如果不是獨立同分布的會怎樣
11、AUC的原理介紹一下
12、XGBOOst和GBDT的區別。
13、強化學習和監督學習的區別
14、神經網絡里面的損失函數有哪些
15、機器學習中常見的激活函數有哪些?為什么通常需要零均值?
16、DeepFM介紹
17、FM推導
18、boosting和bagging的區別?
19、bagging為什么能減小方差?
20、交叉熵損失函數,0-1分類的交叉熵損失函數的形式。什么是凸函數?0-1分類如果用平方損失為什么用交叉熵而不是平方損失?
21、L1和L2有什么區別,從數學角度解釋L2為什么能提升模型的泛化能力。
22、深度學習中,L2和dropout有哪些區別?
23、L1正則化有哪些好處
24、如果有一萬個地理坐標,轉換成1-10000的數,可以用決策樹么?
25、CART分類樹和ID3以及C4.5有什么區別?
26、樹集成模型有哪幾種實現方式:Bagging和Boosting,回答過程中又問到了很多細節。隨即森林的隨機體現在哪些方面,AdaBoost是如何改變樣本權重,GBDT分類樹擬合的是什么?
27、Dueling DQN和DQN有什么區別
28、early stop對參數有什么影響?
?
二、數據結構算法題
1、K個有序數組,找一個長度最小的區間,在這個區間里至少包含每個數組各一個數
2、n個[0,n)的數,求每個數的出現次數(不能開辟額外空間)
3、數組的全排列(空間復雜度O(1))
4、一堆鈔票,盡可能均分(利用背包問題的思想)
5、無向無環圖中,最短路徑的最大值(Floyd算法)
6、層次遍歷二叉樹
7、字符串的最長公共子序列(動態規劃)
8、樹的前序遍歷和zigzag遍歷(非遞歸)
9、一個數組,所有數組都出現了兩次,只有一個數出現了一次,返回這個數(位運算)
10、一個數組,一個數出現了超過一半次數,返回這個數
11、將除法的結果用字符串返回,如果能夠除盡,則返回相除的結果,如果不能除盡,則無限循環部分用[]標記。
12、數組排序,假設數組排序后的位次和排序前的位次絕對值差值小于K,有什么比快排好的算法?
13、樹中兩個節點的第一個的公共祖先。
14、判斷是否是回文鏈表
15、判斷兩個鏈表中是否有相同節點
?
三、實踐題
1、如果你想往模型中加入一個特征,如何判定這個特征是否有效?
2、LR和FM的區別?FM需要進行交叉特征的選擇么?如果在LR選了一部分特征做交叉之后,取得了比FM更好的效果,這是為什么?如果FM變成DeepFM之后,效果超過了LR,這又是為什么?
3、如果邏輯回歸的所有樣本的都是正樣本, 那么它學出來的超平面是怎樣的?
4、哪些場景下的分類問題不適用于交叉熵損失函數?
5、推薦系統中你認為最重要的環節是什么?
6、多臂老虎機中,有許多方法,比如e-greedy,timponson采樣,UCB,這些方法都有哪些適用場景?
7、如何預測一家店分品類的銷量
8、信息流采樣,有n份數據,但是n的長度并不知道,設計一個采樣算法,使得每份被選擇的概率是相同的。
9、模型在線下評估和線上使用時,往往出現線上實際效果不如線下效果的情況,請分析可能的原因。
10、在CTR預估問題中,假設訓練數據的正負樣本數為1:4,測試數據中的正負樣本數也為1:4,那么此時模型對測試集,學到的平均點擊率為1/(1+4),假設此時采取了欠采樣策略,使正負樣本數為1:1,對同樣的測試集進行預測,平均點擊率應該是多少?(樣本量很大,初始總樣本數為10億)
總結
以上是生活随笔為你收集整理的面试题整理(机器学习、数据结构)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 程序员面试、算法研究、编程艺术、红黑树、
- 下一篇: 如何提高用户注册转化与用户激活