往年笔试题
文章目錄
- 1 概率
- 1.1 條件概率
- .每天9點到10點,小明和小紅在同一個車站乘坐公交車上班。小明坐101路公交車,每5分鐘一班{9:00, 9:05, 9:10, …};小紅坐102路公交車,每10分鐘一班{9:00, 9:10, 9:20, …},問小明和小紅每天相遇的概率是多少?
- 小明和小紅結對編程完成了一個項目。在整個項目中,他們貢獻的代碼比例是3:5。據往常的統計,小明的bug率為10‰ ,小紅的bug率為15‰ 。今天小猿在項目中發現了一個bug,那么該bug是小明編寫的概率為多少?
- 小明來猿輔導參加現場面試,他選擇地鐵、騎自行車、騎電動車三種交通工具方式的概率分別為0.3,0.2,0.5,從各個交通工具遲到的概率分別為0.3,0.1,0.15。下列說法正確的是()
- 1.2 排列組合得概率
- 有5本不同的書,其中語文書2本,數學書2本,英語書1本,將它們隨機地擺放到書架上,則同一科目的書都不相鄰的概率為()
- 有6塊完全相同的瓷磚(大小為1*2),用它們鋪滿2*6的地面,一共有()種不同的鋪法。
- 2 樹
- 1.按照二叉樹的定義,不考慮節點值,僅考慮樹結構情況下,4個節點的二叉樹有多少種?
- 3.深度學習
- 3.1 訓練
- 在訓練神經網絡時,損失函數下降得很慢,下列說法中不可能的是()
- 處理過擬合
- 4. 機器學習
- 4.1 adaboost 和隨機森林
- 4.2 HMM和CRF
- 4.3 SVM和LR
1 概率
1.1 條件概率
.每天9點到10點,小明和小紅在同一個車站乘坐公交車上班。小明坐101路公交車,每5分鐘一班{9:00, 9:05, 9:10, …};小紅坐102路公交車,每10分鐘一班{9:00, 9:10, 9:20, …},問小明和小紅每天相遇的概率是多少?
1.((1/12 * 1/12)+(1/12 * 1/6))6。兩個人做的不是同一個車,小紅分為6段的話,小紅段時間初始到可以偶遇小明兩車次
2.
假設兩人到達站臺的時間在9-10點之間均勻分布。
P(相遇) = 1-P(不相遇)
= 1- P(小明到的時候小紅已經走了) - P(小紅到的時候小明已經走了)
= 1- [P(小紅9:10走,小明9:10后到)+P(小紅9:20走,小明9:20后到)+…+P(小紅9:50走,小明9:50后到)] - [P(小明9:05走,小紅9:05后到)+P(小明9:10走,小紅9:10后到)+…+P(小明9:15走,小紅9:15后到)]
= 1-[1/65/6+1/64/6+…+1/61/6] - [1/1211/12+1/1210/12+…+1/12*1/12]
= 1-10/24-11/24
=1/8
小明和小紅結對編程完成了一個項目。在整個項目中,他們貢獻的代碼比例是3:5。據往常的統計,小明的bug率為10‰ ,小紅的bug率為15‰ 。今天小猿在項目中發現了一個bug,那么該bug是小明編寫的概率為多少?
小明來猿輔導參加現場面試,他選擇地鐵、騎自行車、騎電動車三種交通工具方式的概率分別為0.3,0.2,0.5,從各個交通工具遲到的概率分別為0.3,0.1,0.15。下列說法正確的是()
不可估計
準時到,則騎電動車得概率大于0.5
1.2 排列組合得概率
有5本不同的書,其中語文書2本,數學書2本,英語書1本,將它們隨機地擺放到書架上,則同一科目的書都不相鄰的概率為()
英語書最后放 語文數學有兩種大方式
ABab 這時英語書有五種方式 2×2×2×5
ABbA 這時英語書只能放在Bb中間 2×2×2
最后(2×2×2×5+2×2×2)/A(5,5)=2/5
有6塊完全相同的瓷磚(大小為12),用它們鋪滿26的地面,一共有()種不同的鋪法。
13種
全橫1種,四個橫的5種,兩個橫的6種,全豎1種。
現有28 的區域可以擺放俄羅斯方塊。共有8個21的方塊需要擺放在該區域中。求共有多少種擺放方式?
15(4個橫的)+7(2個橫的)+6(6個橫的)+2=30
2 樹
1.按照二叉樹的定義,不考慮節點值,僅考慮樹結構情況下,4個節點的二叉樹有多少種?
(2n)!/(n!*(n+1)!)=14
3.深度學習
3.1 訓練
在訓練神經網絡時,損失函數下降得很慢,下列說法中不可能的是()
學習率太低
正則參數太高
陷入局部最小值
訓練數據太少
處理過擬合
增加訓練數據。
使用數據擴增技術(data augmentation)。
降低模型的復雜度。
歸一化訓練數據,使數據更加統一。
https://zhuanlan.zhihu.com/p/27627299/
歸一化得目的:容易收斂?
4. 機器學習
4.1 adaboost 和隨機森林
和Adaboost相比,隨機森林對異常值更魯棒。
Adaboost初始時每個訓練元組被賦予相等的權重。
組成隨機森林的樹可以并行生成,而GBDT是串行生成。
GBDT是通過減少模型方差提高性能,隨機森林是通過減少模型偏差提高性能。
-
隨機森林采用的bagging思想,而GBDT采用的boosting思想。這兩種方法都是Bootstrap思想的應用,Bootstrap是一種有放回的抽樣方法思想。雖然都是有放回的抽樣,但二者的區別在于:Bagging采用有放回的均勻取樣,而Boosting根據錯誤率來取樣(Boosting初始化時對每一個訓練樣例賦相等的權重1/n,然后用該算法對訓練集訓練t輪,每次訓練后,對訓練失敗的樣例賦以較大的權重),因此Boosting的分類精度要優于Bagging。Bagging的訓練集的選擇是隨機的,各訓練集之間相互獨立,弱分類器可并行,而Boosting的訓練集的選擇與前一輪的學習結果有關,是串行的。
-
組成隨機森林的樹可以是分類樹,也可以是回歸樹;而GBDT只能由回歸樹組成。 組成隨機森林的樹可以并行生成;而GBDT只能是串行生成。
-
對于最終的輸出結果而言,隨機森林采用多數投票等;而GBDT則是將所有結果累加起來,或者加權累加起來。
-
隨機森林對異常值不敏感;GBDT對異常值非常敏感。 隨機森林對訓練集一視同仁;GBDT是基于權值的弱分類器的集成。 隨機森林是通過減少
-
模型方差提高性能;GBDT是通過減少模型偏差提高性能。
4.2 HMM和CRF
在HMM模型中,如果已知觀察序列和狀態序列,可以使用極大似然估計算法進行參數估計。
https://www.zhihu.com/question/35866596
區別:
https://zhuanlan.zhihu.com/p/31187060
1.HMM是生成模型,CRF是判別模型
2.HMM是概率有向圖,CRF是概率無向圖
3.HMM求解過程可能是局部最優,CRF可以全局最優
4.CRF概率歸一化較合理,HMM則會導致label bias 問題
HMM 與 CRF的區別:https://blog.csdn.net/losteng/article/details/51037927
以下錯誤:
CRF模型是局部最優,而HMM模型是全局最優。
cuod
CRF模型和HMM模型都是生成式模型。
4.3 SVM和LR
LR和SVM的異同:https://www.cnblogs.com/zhizhan/p/5038747.html
LR可以給出每個點屬于每一類的概率,而SVM是非概率的。
相同:
- 都是分類模型,本質都是在找最佳分類超平面;
- 都是判別式模型,判別式模型不關系數據是怎么生成的,只關心數據之間的差別,然后用差別來簡單對給定的一個數據進行分類;
- 都是監督學習算法;
- 都可以增加不同的正則項。
異同: - LR 是一個統計的方法,SVM 是一個幾何的方法;
- SVM 的處理方法是只考慮 Support Vectors,也就是和分類最相關的少數點去學習分類器。而邏輯回歸通過非線性映射減小了離分類平面較遠的點的權重,相對提升了與分類最相關的數據點的權重;
- 損失函數不同:LR 的損失函數是交叉熵,SVM 的損失函數是 HingeLoss,這兩個損失函數的目的都是增加對分類影響較大的數據點的權重,減少與分類關系較小的數據點的權重。對 HingeLoss 來說,其零區域對應的正是非支持向量的普通樣本,從而所有的普通樣本都不參與最終超平面的決定,這是支持向量機最大的優勢所在,對訓練樣本數目的依賴大減少,而且提高了訓練效率;
- LR 是參數模型,SVM 是非參數模型,參數模型的前提是假設數據服從某一分布,該分布由一些參數確定(比如正太分布由均值和方差確定),在此基礎上構建的模型稱為參數模型;非參數模型對于總體的分布不做任何假設,只是知道總體是一個隨機變量,其分布是存在的(分布中也可能存在參數),但是無法知道其分布的形式,更不知道分布的相關參數,只有在給定一些樣本的條件下,能夠依據非參數統計的方法進行推斷。所以 LR 受數據分布影響,尤其是樣本不均衡時影響很大,需要先做平衡,而 SVM 不直接依賴于分布;
- LR 可以產生概率,SVM 不能;
- LR 不依賴樣本之間的距離,SVM 是基于距離的;
- LR 相對來說模型更簡單好理解,特別是大規模線性分類時并行計算比較方便。而 SVM 的理解和優化相對來說復雜一些,SVM 轉化為對偶問題后,分類只需要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優勢很明顯,能夠大大簡化模型和計算;
- SVM 的損失函數自帶正則(損失函數中的 1/2||w||^2),而 LR 需要另外添加正則項。
SVM的目標是結構風險最小化,邏輯回歸目標函數是最小化后驗概率。
SVM中當參數C越小時,分類間隔越大,分類錯誤越多,趨于欠學習。
SVM的分類間隔為,||w||代表向量的模。
與SVM相比, LR對異常數據更加敏感。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
- 上一篇: 基于深度学习的IRS辅助MIMO通信系统
- 下一篇: Docker:Redis启动命令