秋招人工智能笔试题
秋招人工智能筆試題
面試是在陽臺上進行的,中午剛睡醒,然后就是開始自我介紹,然后就是簡單的寒暄。
然后根據簡歷,問我的項目細節,問我使用的哪個卷積神經網絡模型,為什么選擇這個模型,通常都有哪些模型。
1. 深度學習和過往的神經網絡訓練方法有什么區別?列舉幾種深度學習的loss function,并說明意義
深度學習是一種方法,神經網絡是個模型,深度學習方法呢可以有效解決層數多的神經網絡不好學習的問題,為了讓層數較多的多層神經網絡可以訓練,能夠起作用并演化出來的一系列的 新的結構和新的方法;
結構:一般分為兩大陣營,CNN,RNN,感覺這里欠妥,請指正。
方法:權重初始化方法(逐層初始化,XAVIER等),損失函數,防止過擬合方法(Dropout, BN等)。
這些方面主要都是為了解決傳統的多層神經網絡的一些不足:梯度消失,過擬合等。
-
分類問題常用的損失函數:
(1)交叉熵損失函數,也稱作softmax損失函數,可用于解決多分類問題,通過指數化將輸出轉換成概率的形式;
(2)合頁損失函數,一般情況下,交叉熵損失函數的效果優于合頁損失函數;
(3)坡道損失函數,對離群點或者噪聲的抗干擾能力強,是一種魯棒性的損失函數,對誤差較大的區域會進行截斷;
(4)大間隔損失函數,保證能夠正確分類的同時,還滿足增大類間的差異,提升了特征的分辨能力,防止網絡發生過擬合;
(5)中心損失函數,保證能夠正確分類的同時,還滿足減少類內的差異,提升了特征的分辨能力; -
回歸問題常用的損失函數:
(1)l1損失函數,衡量的是預測值與真實值之間的偏差;
(2)l2損失函數,效果 優于l1;
(3)tukey‘s biweight損失函數,是一種具有魯棒性的損失函數; -
其他任務的損失函數:
KL散度損失函數,衡量的是樣本標記分布與真是標記分布的差異,可用于年齡估計等。
2. 什么是卷積神經網絡?請說明卷積的意義
分開看就明確了,“卷積” 和 “神經網絡”.
卷積也就是說神經網絡不再是對每個像素的輸入信息做處理了,而是圖片上每一小塊像素區域進行處理, 這種做法加強了圖片信息的連續性. 使得神經網絡能看到圖形, 而非一個點. 這種做法同時也加深了神經網絡對圖片的理解.
具體來說, 卷積神經網絡有一個批量過濾器, 持續不斷的在圖片上滾動收集圖片里的信息,每一次收集的時候都只是收集一小塊像素區域, 然后把收集來的信息進行整理, 這時候整理出來的信息有了一些實際上的呈現, 比如這時的神經網絡能看到一些邊緣的圖片信息, 然后在以同樣的步驟, 用類似的批量過濾器掃過產生的這些邊緣信息, 神經網絡從這些邊緣信息里面總結出更高層的信息結構,比如說總結的邊緣能夠畫出眼睛,鼻子等等.
卷積的重要的物理意義是:一個函數(如:單位響應)在另一個函數(如:輸入信號)上的加權疊加,這就是卷積的意義:加權疊加,不同的卷積核提供了不同的加權方式,從而得到魯棒的特征,進行參數共享,大大減少了參數量,避免過擬合;
3. 什么是中文分詞? 列舉出幾種你所知的分詞方法
中文分詞就是將中文按語義分出詞語來,與英文不同,中文詞語之間沒有空格,需要根據語義經驗等知識來將一組漢字序列進行切分出一個個詞語
中文分詞主要分為三種:
1)機械分詞法:是一種基于詞典的方法,是將文檔中的字符串與詞典中的詞條一一匹配,如果在詞典中找到了某個字符串,則匹配成功,可以切分,否則不予切分。該方法實現簡單,使用性強,但對于詞典的完備性要求很高。
2)基于語法和規則的分詞方法:是在分詞的同時進行句法和語義分析,通過句法和語義信息來標注詞性,以解決分詞歧義的現象。但漢語語法籠統,復雜,所以該種方法的精度不盡人意,目前仍處于試驗階段。
3)基于統計的分詞法:根據字符串在語料中出現的統計詞頻來判斷其是否構成一個詞。詞是字的組合,相鄰的字同時出現的次數越多越有可能成為一個詞。該種方法因精度高,效果穩定,成為目前最流行的一種方法,常見的分詞模型有HMM, CRF, biLSTM+CRF等
4. 現在深度學習在nlp領域有哪些應用? 請具體說明
5. 傳統圖像處理提取的sift特征是什么意思?
sift指的是scale invarient feature transform,即尺度不變特征變換。
sift特征是一種對縮放、旋轉、光照變化等不敏感的局部圖像特征,其提取過程是先生成圖像的尺度空間,然后在尺度空間中檢測極值點作為關鍵點,最后利用關鍵點鄰域的梯度信息生成特征描述符。
6. 什么叫過擬合,避免過擬合都有哪些措施?
答:過擬合:就是在機器學習中,我么測試模型的時候,提高了在訓練數據集的表現力時候,但是在訓練集上的表現力反而下降了。
解決方案:
7. LR和SVM的聯系與區別是什么?
8. 給你一個有1000列和1百萬行的訓練數據集,這個數據集是基于分類問題的。經理要求你來降低該數據集的維度以減少模型計算時間,但你的機器內存有限。你會怎么做?(你可以自由做各種實際操作假設。)
9. 給你一個數據集,這個數據集有缺失值,且這些缺失值分布在離中值有1個標準偏差的范圍內。百分之多少的數據不會受到影響?為什么?
約有32%的數據將不受缺失值的影響。
因為,由于數據分布在中位數附近,讓我們先假設這是一個正態分布。我們知道,在一個正態分布中,約有68%的數據位于跟平均數(或眾數、中位數)1個標準差范圍內,那么剩下的約32%的數據是不受影響的。因此,約有32%的數據將不受缺失值的影響。
10. 真陽性率和召回有什么關系?寫出方程式。
真陽性率=召回。它們有相同的公式(TP / TP + FN)。
11. 在k-means或kNN,我們是用歐氏距離來計算最近的鄰居之間的距離。為什么不用曼哈頓距離?
我們不用曼哈頓距離,因為它只計算水平或垂直距離,有維度的限制。另一方面,歐氏距離可用于任何空間的距離計算問題。
因為,數據點可以存在于任何空間,歐氏距離是更可行的選擇。
例如:想象一下國際象棋棋盤,象或車所做的移動是由曼哈頓距離計算的,因為它們是在各自的水平和垂直方向做的運動。
轉載和疑問聲明
如果你有什么疑問或者想要轉載,沒有允許是不能轉載的哈
贊賞一下能不能轉?哈哈,聯系我啊,我告訴你呢 ~~
歡迎聯系我哈,我會給大家慢慢解答啦~~~怎么聯系我? 笨啊~ ~~ 你留言也行
你關注微信公眾號1.機器學習算法工程師:2.或者掃那個二維碼,后臺發送 “我要加群”,聯系我也行啦!
(愛心.gif) 么么噠 ~么么噠 ~么么噠
碼字不易啊啊啊,如果你覺得本文有幫助,三毛也是愛!
我祝各位帥哥,和美女,你們永遠十八歲,嗨嘿嘿~~~
參考鏈接
https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-03-A-CNN/
https://www.zhihu.com/question/22298352/answer/34267457
https://www.nowcoder.com/questionTerminal/42fe838421a84e279a67a0a16b874d29?source=relative
http://www.elecfans.com/d/540309.html
總結
- 上一篇: 计算机文管二级试题,计算机文管二级试题
- 下一篇: 连接数据库报错:Access denie