商汤科技-数据运维工程师-提前批笔试题目汇总
2019年8月19日
問答題1:缺失值數據預處理有哪些方法?https://juejin.im/post/5b5c4e6c6fb9a04f90791e0c
處理缺失值的方法如下:刪除記錄,數據填補和不處理。主要以數據填補為主。
1 刪除記錄:該種方法在樣本數據量十分大且確實值不多的情況下非常有效。
2 數據填補:插補大體有替換缺失值,擬合缺失值,虛擬變量等操作。替換是通過數據中非缺失數據的相似性來填補,其中的核心思想是發現相同群體的共同特征,擬合是通過其他特征建模來填補,虛擬變量是衍生的新變量代替缺失值。
替換缺失值:
1 定類數據:眾數填補
2定量(定比)數據: 平均數或中位數填補
3 熱卡填補: 熱卡填充法是在完整數據中找到一個與它最相似的對象,然后用這個相似對象的值來進行填充。
4 k最近距離鄰法(k-means cluster)
通過無監督機器學習的k均值聚類的方法將所有樣本進行聚類劃分,然后在通過劃分的種類的均值對各自類中的缺失值進行填補。本質是通過找相似來填補缺失值。
擬合缺失值
如果缺失的變量跟其他特征變量相關,則通過建模預測的缺失值就有意義,反之則不用
回歸預測:
基于完整的數據集,建立回歸方程。對于有缺失值的特征值,將已知的特征值代入模型來估計未知特征值,一次估計值來進行填充。(該方法適合缺失值是連續的,即定量的類型,才可以使用回歸來預測。)
極大似然估計:
在隨機類型為隨機缺失的條件下,假設模型對于完整的樣本是正確的,那么通過觀測數據的邊際分布可以對未知參數進行極大似然估計。(該方法適合大樣本)
多重插補:
多重插補的思想來源于貝葉斯估計,認為待插補的值是隨機的,它的值來自于已觀測到的值。具體實踐上通常是估計出待插補的值,然后再加上不同的額噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。
根據數據缺失機制、模式以及變量類型,可分別采用回歸、預測均數匹配( predictive mean matching, PMM )、趨勢得分( propensity score, PS )、Logistic回歸、判別分析以及馬爾可夫鏈蒙特卡羅( Markov Chain Monte Carlo, MCMC) 等不同的方法進行填補。
注:使用多重插補要求數據缺失值為隨機性缺失,一般重復次數20-50次精準度很高,但是計算也很復雜,需要大量計算。
隨機森林:
虛擬變量
虛擬變量其實就是缺失值的一種衍生變量,。具體做法是通過判斷特征值是否有缺失值來定義一個新的二分類變量。
不處理
在希望保持原始信息不發生變化的前提下對信息系統進行處理
問答題2中心極限定理是什么?他的應用方向是:
中心極限定理就是研究隨機變量和的極限分布在什么條件下為正態分布的問題。
(1)獨立同分布的中心極限定理[林德伯格-列維(Lindburg-Levy)定理]
應用一:求隨機變量之和Sn落在某區間的概率。
應用二:已知隨機變量之和Sn取值的概率,求隨機變量的個數n。
(2)棣莫佛-拉普拉斯(de Movire - Laplace)定理
應用一:近似計算服從二項分布的隨機變量在某范圍內取值的概率
應用二:已知服從二項分布的隨機變量在某范圍內取值的概率,估計該范圍(或該范圍的最大值)。
應用三:與用頻率估計概率有關的二項分布的近似計算
(3)李雅普諾夫定理
問答題3:
1 對于外層職工關系 A 中的每一個記錄,都要對內層職工關系B進行檢索,所有效率不高
2.(1)使用臨時表
SELECT MAX(月工資) as 最高工資,部門號 INTO temp FROM 職工
GROUP BY 部門號;
SELECT 職工號 FROM 職工,temp WHERE 月工資=最高工資
AND 職工.部門號 = temp.部門號;
(2) SELECT 職工號 FROM 職工,(SELECT MAX(月工資) as 最高工資,部門號 FROM 職工 GROUP BY 部門號) as DEPMAX
WHERE 月工資=最高工資 AND 職工.部門號 = DEPMAX. 部門號;
SQL經典5道
https://cloud.tencent.com/developer/article/1062773
總結
以上是生活随笔為你收集整理的商汤科技-数据运维工程师-提前批笔试题目汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 海马体what where记忆推理模型
- 下一篇: 论文浅尝 | Complex Embed