终章 | 机器学习笔试题精选
關鍵時刻,第一時間送達!
讀本文大約需要 9 分鐘
機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。為了幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。紅色石頭準備在公眾號連載一些機器學習筆試題系列文章,希望能夠對大家有所幫助!
之前紅色石頭整理了一些機器學習筆試題,共發布了六篇文章,總共包含了 75 道機器學習、深度學習相關的筆試題。這里一并列出來:
機器學習筆試薈萃
【1】機器學習筆試題精選
【2】機器學習筆試題精選
【3】機器學習筆試題精選
【4】機器學習筆試題精選
【5】機器學習筆試題精選
【6】機器學習筆試題精選
接下來我們繼續來看機器學習筆試題精選(七)的內容。
Q1. 下面哪個對應的是正確的 KNN 決策邊界?
A. A
B. B
C. C
D. D
答案:A
解析:本題考查的是 KNN 的相關知識點。
KNN 分類算法是一個比較成熟也是最簡單的機器學習(Machine Learning)算法之一。該方法的思路是:如果一個樣本在特征空間中與K個實例最為相似(即特征空間中最鄰近),那么這 K 個實例中大多數屬于哪個類別,則該樣本也屬于這個類別。其中,計算樣本與其他實例的相似性一般采用距離衡量法。離得越近越相似,離得越遠越不相似。因此,決策邊界可能不是線性的。
Q2.?如果一個經過訓練的機器學習模型在測試集上達到 100% 的準確率,這是否意味著該模型將在另外一個新的測試集上也能得到 100% 的準確率呢?
A. 是的,因為這個模型泛化能力已經很好了,可以應用于任何數據
B. 不行,因為還有一些模型不確定的東西,例如噪聲
答案:B
解析:本題考查的是機器學習泛化能力與噪聲。
現實世界的數據并不總是無噪聲的,所以在這種情況下,我們不會得到 100% 的準確度。
Q3. 下面是交叉驗證的幾種方法:
1. Bootstrap
2. 留一法交叉驗證
3. 5 折交叉驗證
4. 重復使用兩次 5 折交叉驗證
請對上面四種方法的執行時間進行排序,樣本數量為 1000。
A. 1 > 2 > 3 > 4
B. 2 > 3 > 4 > 1
C. 4 > 1 > 2 >3
D. 2 > 4 > 3 > 1
答案:D
解析:本題考查的是 k 折交叉驗證和 Bootstrap 的基本概念。
Bootstrap 是統計學的一個工具,思想就是從已有數據集 D 中模擬出其他類似的樣本 Dt。Bootstrap 的做法是,假設有 N 筆資料,先從中選出一個樣本,再放回去,再選擇一個樣本,再放回去,共重復 N 次。這樣我們就得到了一個新的 N 筆資料,這個新的 Dt 中可能包含原 D 里的重復樣本點,也可能沒有原 D 里的某些樣本,Dt 與 D 類似但又不完全相同。值得一提的是,抽取-放回的操作不一定非要是 N,次數可以任意設定。例如原始樣本有 10000 個,我們可以抽取-放回 3000 次,得到包含 3000 個樣本的 Dt 也是完全可以的。因此,使用 bootstrap 只相當于有 1 個模型需要訓練,所需時間最少。
留一法(Leave-One-Out)交叉驗證每次選取 N-1 個樣本作為訓練集,另外一個樣本作為驗證集,重復 N 次。因此,留一法相當于有 N 個模型需要訓練,所需的時間最長。
5 折交叉驗證把 N 個樣本分成 5 份,其中 4 份作為訓練集,另外 1 份作為驗證集,重復 5 次。因此,5 折交叉驗證相當于有 5 個模型需要訓練。
2 次重復的 5 折交叉驗證相當于有 10 個模型需要訓練。
Q4.?變量選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變量選擇的考慮?(多選)?
A. 多個變量是否有相同的功能
B. 模型是否具有解釋性
C. 特征是否攜帶有效信息
D. 交叉驗證
答案:ACD
解析:本題考查的是模型特征選擇。
如果多個變量試圖做相同的工作,那么可能存在多重共線性,影響模型性能,需要考慮。如果特征是攜帶有效信息的,總是會增加模型的有效信息。我們需要應用交叉驗證來檢查模型的通用性。關于模型性能,我們不需要看到模型的可解釋性。
Q6. 如果在線性回歸模型中額外增加一個變量特征之后,下列說法正確的是?
A.?R-Squared 和 Adjusted R-Squared 都會增大
B.?R-Squared 保持不變 Adjusted R-Squared 增加
C.?R-Squared 和 Adjusted R-Squared 都會減小
D.?以上說法都不對
答案:D
解析:本題考查的是線性回歸模型的評估準則?R-Squared 和 Adjusted R-Squared。
線性回歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的相似程度。其表達式如下所示:
上式中,分子部分表示真實值與預測值的平方差之和,類似于均方差 MSE;分母部分表示真實值與均值的平方差之和,類似于方差 Var。根據?R-Squared 的取值,來判斷模型的好壞:如果結果是 0,說明模型擬合效果很差;如果結果是 1,說明模型無錯誤。一般來說,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,因為,隨著樣本數量的增加,R-Square必然增加,無法真正定量說明準確程度,只能大概定量。
單獨看?R-Squared,并不能推斷出增加的特征是否有意義。通常來說,增加一個特征,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關。
如果使用校正決定系數(Adjusted R-Square):
其中,n 是樣本數量,p 是特征數量。Adjusted R-Square?抵消樣本數量對 R-Square的影響,做到了真正的 0~1,越大越好。若增加的特征有效,則?Adjusted R-Square 就會增大,反之則減小。
Q7. 如下圖所示,對同一數據集進行訓練,得到 3 個模型。對于這 3 個模型的評估,下列說法正確的是?(多選)
A. 第一個模型的訓練誤差最大
B. 第三個模型性能最好,因為其訓練誤差最小
C. 第二個模型最穩健,其在測試集上表現應該最好
D. 第三個模型過擬合
答案:ACD
解析:本題考查的是機器學習模型欠擬合、過擬合概念。
很簡單,第一個模型過于簡單,發生欠擬合,訓練誤差很大,在訓練樣本和測試樣本上表現都不佳。第二個模型較好,泛化能力強,模型較為健壯,在訓練樣本和測試樣本上表現都不錯。第三個模型過于復雜,發生過擬合,訓練樣本誤差雖然很小,但是在測試樣本集上一般表現很差,泛化能力很差。
模型選擇應該避免欠擬合和過擬合,對于模型復雜的情況可以選擇使用正則化方法。
Q8. 如果使用線性回歸模型,下列說法正確的是?
A.?檢查異常值是很重要的,因為線性回歸對離群效應很敏感
B.?線性回歸分析要求所有變量特征都必須具有正態分布
C.?線性回歸假設數據中基本沒有多重共線性
D. 以上說法都不對
答案:A
解析:本題考查的是線性回歸的一些基本原理。
異常值是數據中的一個非常有影響的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中一直是很重要的。
了解變量特征的分布是有用的。類似于正態分布的變量特征對提升模型性能很有幫助。例如,數據預處理的時候經常做的一件事就是將數據特征歸一化到(0,1)分布。但這也不是必須的。
當模型包含相互關聯的多個特征時,會發生多重共線性。因此,線性回歸中變量特征應該盡量減少冗余性。C 選擇絕對化了。
Q9.?建立線性模型時,我們看變量之間的相關性。在尋找相關矩陣中的相關系數時,如果發現 3 對變量(Var1 和 Var2、Var2 和 Var3、Var3 和 Var1)之間的相關性分別為 -0.98、0.45 和 1.23。我們能從中推斷出什么呢?(多選)
A. Var1 和 Var2 具有很高的相關性
B. Var1 和 Var2 存在多重共線性,模型可以去掉其中一個特征
C. Var3 和 Var1 相關系數為 1.23 是不可能的
答案:ABC
解析:本題考查的是相關系數的基本概念。
Var1 和 Var2 之間的相關性非常高,并且是負的,因此我們可以將其視為多重共線性的情況。此外,當數據中存在多重線性特征時,我們可以去掉一個。一般來說,如果相關大于 0.7 或小于 -0.7,那么我們認為特征之間有很高的相關性。第三個選項是不言自明的,相關系數介于 [-1,1] 之間,1.23 明顯有誤。
Q10.?如果自變量 X 和因變量 Y 之間存在高度的非線性和復雜關系,那么樹模型很可能優于經典回歸方法。這個說法正確嗎?
A. 正確
B. 錯誤
答案:A
解析:本題考查的是回歸模型的選擇。
當數據是非線性的時,經典回歸模型泛化能力不強,而基于樹的模型通常表現更好。
更多原創內容請點擊文末的閱讀原文查看!
參考文獻:
https://www.analyticsvidhya.com/blog/2016/11/solution-for-skilltest-machine-learning-revealed/
推薦閱讀:
【干貨】我的機器學習入門路線圖
總結
以上是生活随笔為你收集整理的终章 | 机器学习笔试题精选的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嫌Python太慢了?让Cython带你
- 下一篇: 【福利派送】浪漫七夕,不可辜负!这 8