算法 代码拷来终觉浅,绝知此事要躬行
-3、GoogLeNet?Inception_v1:大約只有500萬參數,只相當于Alexnet的1/12(GoogLeNet的caffemodel大約50M,VGGNet的caffemodel則要超過600M
Inception_v2:大卷積核換成小卷積核 ? ??5x5卷積核參數是3x3卷積核的25/9=2.78倍。為此,作者提出可以用2個連續的3x3卷積層(stride=1)組成的小網絡來代替單個的5x5卷積層,(保持感受野范圍的同時又減少了參數量,減少計算量) ? ? ??大量實驗可以表明不會造成表達缺失
? ? ?任意nxn的卷積都可以通過1xn卷積后接nx1卷積來替代。?中度大小的feature map上使用效果才會更好
-2、利用圖像指紋檢測高相似度的圖像:圖像哈希法 ?difference hash ?dHash著力探究相鄰像素之間的區別。
-1、用什么算法 看應用場景、看數據量。
0、線性模型:Glmnet>LASSO(L1)>Ridge(L2)>LR/Logistic。 ? L1得到的系數0多,L2得到的系數只是接近0的多。
? ? ?復雜模型:XGBoost>=GBDT>=RF ?RF在Kaggle中很少見。 ? ?Xgboost比GBDT的優點:基分類器可以選擇線性分類器;優化求解時,用一階導數的同時,還利用了二階導數信息;代價函數中加入了正則項,控制模型的復雜度;
GBDT(GBDT的每棵樹是按照順序生成的(這個和RF完全不一樣,RF并行生成就Ok),每棵樹的生成都利用上之前生成的數留下的信息)和random forest(一個bagged tree充分利用近1/3-2/3的樣本集)等集成學習方法并不比SVM、LogiticRegression更容易過擬合。
森林的缺點:缺點在于其隨機性,同一個數據集,運行兩次,得到兩個不同的結果,導致不能知道結果是因為選擇更好的特征導致的還是由于選擇樣本時的隨機性導致的。
樹:分裂時,找到使不純度下降最快的分裂變量和分裂點。通過變量選擇迭代地建立一棵分類樹,使得每次分類平面能最好地將剩余數據分為兩類。
? ? ? ?優點:可以進行變量選擇,可以克服缺失值;缺點:不穩定。
邏輯回歸過擬合的話,可以??????減小??????LinearSVC中的C參數
100個以上變量,以下兩個模型出現了過擬合(測試集、訓練集效果相差較大):增加樣本、減少維度(降低模型的復雜度,而更不容易刻畫到噪聲數據的分布。)
? ? ? RF:在N個樣本中用Booststrap采樣選出n個樣本,建立CART;在樹的每個節點上,從屬性中隨機選擇K個屬性subspace,選擇出最佳分割屬性作為節點。
? ? ? GBDT:Gradient Boosting Decision Tree,boosting的一種。每次建立一個弱的模型,都是在之前模型的損失函數的梯度方向(bossting:更在意之前錯分的點),使損失函數不斷下降。
1、PageRank網頁排名:用來計算網頁的重要性。網頁之間的鏈接關系用圖表示。網頁A的重要性為:鏈接至A的網頁的重要性的加權和
2、遷移學習:源訓練好的模型 遷移應用到 目標待求解問題。適用于目標問題的y不易得到,而源模型好得到的情況
3、SVM
4、蒙特卡羅采樣算法
5、缺失值填充:略過,填中位數、均值,回歸插補
6、LDA主題模型
jieba中文自然語言處理:分詞、調整詞典、提取關鍵詞、詞性標注、返回詞語在原文的起止位置?
? ? ? ??import jieba
seg_list = jieba.cut("您好!請轉告任輝:我們是銀行委托代理人,關于任輝的欠款數額較大,拖欠時間較久,且任輝拒不接聽電話,有惡意逃避嫌疑,因案情緊急特通知您轉告務請配合我方調查,簽收法律文書,二日內還清欠款。如在限定時間內仍不清還欠款,我方將全面啟動法律程序,將向任輝老家派出所、政府、村委(或居委)等有關部門發送協助函要求協助調查,并將電話聯系村干部(居委干部)、派出所了解情況,調查組將立即出發到任輝單位及老家展開調查,根據調查結果涉嫌犯罪的,將向公安機關報案。黃勇先生/小姐:我們是銀行代理人,您拒不接聽電話有逃避嫌疑,因案情緊急特通知您,務請配合我方調查,簽收法律文書,二日內還清欠款。如在限定時間內仍不清還欠款,我們將全面啟動法律程序,包括但不限于催告函(律師函),向您老家派出所、政府、村委(或居委)等有關部門發送協助函要求協助調查,并將電話聯系村干部(或居委干部)、派出所了解情況,調查組將立即出發到單位及老家展開調查,根據調查結果,將立即向人民法院起訴,查封財產。如涉嫌詐騙犯罪的,將向公安機關報案。",cut_all=False,HMM=True)
print "新詞識別:", "/ ".join(seg_list) ? ? #分詞
for co in sample['sample_content']:
? ? big_string+=co
seg_list = jieba.cut(big_string,cut_all=False,HMM=True)
a=", ".join(seg_list)
b=a.split(',')
c=pd.DataFrame(b)
d=c[0].value_counts() ? ? ? ? ? ? ? ? ? ? ? #對sample_content列進行分詞,看詞語的出現頻次
import jieba.analyse
jieba.analyse.set_stop_words('D:\\Python27\\stopword.txt')
jieba.analyse.extract_tags('【臻信事務所】姓名:蘇城關于你辦理消費分期逾期一案。已多次通知公示并發函至戶籍地:云南省大理白族自治州漾濞彝族自治縣蒼山西鎮
蒼山中路5號村[居]委、派出所上門調查完畢。如你繼續拖欠,將擬向深圳市福田區人民法院立案庭進行排期審理,當事人如收到法院傳票應于2016年12月26日15點前持應訴
通知書及申請合同資料、個人證件、答辯狀處理。若當事人無正當理由拒不到庭,法院將有權當庭做被告缺席審理,判決被告方敗訴并承擔所有費用。案件負責人:余助理電
話:0755-25199252手機:18938079992(若非本人敬請轉達)',withWeight=True)
print?pd.DataFrame(tags) ? ? ? ? ? ? ? ? ?#TF-IDF權重最大 提取關鍵詞
a=jieba.analyse.textrank('【臻信事務所】姓名:蘇城關于你辦理消費分期逾期一案。已多次通知公示并發函至戶籍地:云南省大理白族自治州漾濞彝族自治縣蒼山西鎮蒼山中路5號村[居]委、派出所上門調查完畢。如你繼續拖欠,將擬向深圳市福田區人民法院立案庭進行排期審理,當事人如收到法院傳票應于2016年12月26日15點前持應訴通知書及申請合同資料、個人證件、答辯狀處理。若當事人無正當理由拒不到庭,法院將有權當庭做被告缺席審理,判決被告方敗訴并承擔所有費用。案件負責人:余助理電話:0755-25199252手機:18938079992(若非本人敬請轉達)',withWeight =True)
c=pd.DataFrame(a)? #TextRank提取關鍵詞
7、尋找文本中的關鍵詞TextRank:傾向于將頻繁詞作為關鍵詞
??詞匯的共現通常可分為同義、反義、互補、上下義、組合等,這些搭配關系有別于傳統意義上的語法搭配和習慣用法搭配,而是在一特定的語境中存在某種語義上的聯系,它圍繞著某一主題展開,就某一話題出現的相關詞匯。
8、文本的情感分析:微博和商品評論本身就一定存在強烈的情感色彩。
8.1基于詞典的情感分析步驟:
分解句子中的詞匯;搜索情感詞并標注和計數;搜索情感詞前的程度詞,根據程度大小,賦予不同權值;搜索情感詞前的否定詞,賦予反轉權值(-1);計算句子的情感得分
8.2基于機器學習的情感分析
文本向量化后,訓練模型后用于預測。
8.3判斷是不是催收短信:收集詞庫(催收場景的詞語、委外催收的詞語、非催收場景的詞語),分解短信;各種詞語標記、計數;
9、長短期記憶網絡LSTM
10、
A卡(Application score card)申請評分卡
B卡(Behavior score card)行為評分卡C卡(Collection score card)催收評分卡
11、為什么要遷移學習:數據量不一定都大;提高模型的adaptive能力。
學生學會了一道題,要遷移到新的題目的求解上面。知識(模型、參數)的流轉。
本質:找出問題的不變量。
實例:用銀行小額貸款用戶的模型 遷移到 銀行大額貸款營銷模型, ?使得響應率提高了1倍。
12、圖模型(關系) 結合 深度學習 風險預測及監控 ? ? ? 深度學習需要大樣本,訓練集、測試機要比較一致,無可解釋性
13、螞蟻金服:模型服務平臺 ? ?車輛定損寶:判斷車輛維修價格
14、基于哈希的海量特征提取
15、深度強化學習:時序決策——營銷與推薦
16、增強學習
總結
以上是生活随笔為你收集整理的算法 代码拷来终觉浅,绝知此事要躬行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 亿图图示组件简介和箱子计算面积及代码行级
- 下一篇: ECG 数据库介绍