當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

迁移学习和冷启动

發(fā)布時間：2025/3/21 编程问答 12 豆豆

生活随笔收集整理的這篇文章主要介紹了迁移学习和冷启动小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?　本文是《智能風(fēng)控原理、算法和工程實(shí)踐》第3章學(xué)習(xí)筆記。算法推導(dǎo)部分較難，就沒有列出來，因?yàn)槲乙部床欢?/p>

冷啟動

?　冷啟動是指在沒有或只有很少量數(shù)據(jù)的情況下，從0到1建立業(yè)務(wù)模型的過程。在風(fēng)控業(yè)務(wù)中，早期缺乏數(shù)據(jù)積累，遷移學(xué)習(xí)和異常檢測技術(shù)都可以用來處理部分冷啟動問題。

應(yīng)用場景

新開了某個業(yè)務(wù)，只有少量樣本，需要用其他場景的數(shù)據(jù)來建模。此時其他場景為源域，新業(yè)務(wù)場景為目標(biāo)域。
業(yè)務(wù)被迫停止3個月后重啟，大部分訓(xùn)練樣本比較老舊。大部分舊樣本為源域，新的少量訓(xùn)練樣本為目標(biāo)域。
在某個國家開展類似國內(nèi)的業(yè)務(wù)。國內(nèi)業(yè)務(wù)積累的數(shù)據(jù)為源域，新國家場景為目標(biāo)域。

?　概括起來，源域樣本和目標(biāo)域樣本分布有區(qū)別，目標(biāo)域樣本量又不夠。

概念介紹

?　遷移學(xué)習(xí)是一種通過調(diào)用不同場景中的數(shù)據(jù)來建立模型的方法。通過遷移學(xué)習(xí)可以將知識從源域遷移到目標(biāo)域。
?　一個簡單的例子，假如現(xiàn)在有大量英短銀漸層和少量英短高地的圖片，期望訓(xùn)練一個能夠識別當(dāng)前的貓是不是英短高地的學(xué)習(xí)器。這時可以用英短銀漸層圖片來訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)，并將這個網(wǎng)絡(luò)的中間結(jié)點(diǎn)取出來作為目標(biāo)模型的前半部分，然后在少量英短高地的樣本上再繼續(xù)訓(xùn)練學(xué)習(xí)后面的幾層網(wǎng)絡(luò)。
?　卷積神經(jīng)網(wǎng)絡(luò)前幾層學(xué)習(xí)的是輪廓和局部形狀等貓的共性特征，通過前面網(wǎng)絡(luò)的學(xué)習(xí)模型就掌握了貓的共性，再通過后續(xù)網(wǎng)絡(luò)對英短高地學(xué)習(xí)。

常見遷移學(xué)習(xí)算法

TrAdaBoost。
?　賦予源域中的樣本某種權(quán)重，使其分布靠近目標(biāo)域。

聯(lián)合分布適配方法(JDA)。
?　尋找一個低維子空間，使源域和目標(biāo)域的數(shù)據(jù)樣本在映射到該子空間后服從相同或相近的分布。

遷移極限學(xué)習(xí)機(jī)(DTELM)。
?　利用低秩矩陣重構(gòu)數(shù)據(jù)點(diǎn)，實(shí)現(xiàn)域之間的魯棒自適應(yīng)。
?　第一種算法因?yàn)椴辉谔卣骺臻g上做任何扭曲變化，可以很好地保留模型的解釋性，所以應(yīng)該更為廣泛。第二、第三種算法在解釋性上有一定不足，但不需要在目標(biāo)場景有真實(shí)的樣本標(biāo)簽，對于初期的業(yè)務(wù)支持度更好。

TrAdaBoost模型

?　將不同分布的訓(xùn)練集放在一起訓(xùn)練，這種方法也叫作基于實(shí)例的遷移學(xué)習(xí)方法。
?　TraAdaBoost是有AdaBoost演變而來。在一個包含源域訓(xùn)練數(shù)據(jù)和目標(biāo)域樣本的訓(xùn)練集中，TrAdaBoost會對訓(xùn)練樣本進(jìn)行權(quán)重調(diào)整。

對目標(biāo)域樣本，如果被誤分類，根據(jù)目標(biāo)域樣本的分類錯誤率進(jìn)行調(diào)整，增加其權(quán)重，使得下次訓(xùn)練時更關(guān)注錯分的目標(biāo)域樣本。
對源域樣本，如果被誤分類，則會認(rèn)為它們是與目標(biāo)數(shù)據(jù)不同分布的，會降低其權(quán)重。

跨場景遷移模型

?　在新場景下開展小額現(xiàn)金貸產(chǎn)品，積累了1200條有標(biāo)簽的樣本，嘗試對原有大額產(chǎn)品的存量客戶進(jìn)行遷移。有4個在舊業(yè)務(wù)上表現(xiàn)較好的特征，保證原有場景和目標(biāo)場景都有這個特征且含義一致。

import pandas as pd from sklearn.metrics import roc_auc_score,roc_curve,auc from sklearn.model_selection import train_test_split from sklearn import metrics from sklearn.linear_model import LogisticRegression from sklearn.svm import LinearSVC import numpy as np import random import math from sklearn.calibration import CalibratedClassifierCVdata = pd.read_excel('./data/tra_sample.xlsx') data.head()

?　type的三種標(biāo)簽分別代表著目標(biāo)域、源域和時間外樣本集。根據(jù)標(biāo)簽劃分樣本集。

feature_lst = ['zx_score','msg_cnt','phone_num_cnt','register_days']train = data[data.type == 'target'].reset_index().copy() diff = data[data.type == 'origin'].reset_index().copy() val = data[data.type == 'offtime'].reset_index().copy()#trans_S, trans_A, label_S, label_A, test train = train.loc[:1200]trans_S = train[feature_lst].copy() label_S = train['bad_ind'].copy()trans_A = diff[feature_lst].copy() label_A = diff['bad_ind'].copy()val_x = val[feature_lst].copy() val_y = val['bad_ind'].copy()test = val_x.copy()

?　對目標(biāo)域的少量樣本進(jìn)行擬合，結(jié)果如下：

?　訓(xùn)練集和時間外樣本集KS相差超過10%，遠(yuǎn)高于行業(yè)要求的5%。且ROC曲線不穩(wěn)定，意味著模型的泛化能力較差。
?　將源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)整合到一起擬合，注意一下整合時用到的函數(shù)，結(jié)果如下：

trans_data = np.concatenate((trans_A, trans_S), axis=0) trans_label = np.concatenate((label_A, label_S), axis=0)

?　下面使用TrAdaBoost算法，將源域數(shù)據(jù)中與目標(biāo)域分布差別較大的數(shù)據(jù)設(shè)置一個很小的值，來弱化兩個數(shù)據(jù)集的分布差異。
算法比較復(fù)雜，代碼無法看懂，等用到的時候再回來研究。

import numpy as np from sklearn import tree#邏輯回歸的學(xué)習(xí)率、權(quán)重的大小，影響整體收斂的快慢 #初始權(quán)重很重要# H 測試樣本分類結(jié)果 # TrainS 目標(biāo)域樣本 # TrainA 源域樣本 # LabelS 目標(biāo)域標(biāo)簽 # LabelA 源域標(biāo)簽 # Test 測試樣本 # N 迭代次數(shù)#計(jì)算weight def calculate_P(weights, label):total = np.sum(weights)return np.asarray(weights / total, order='C')#用邏輯回歸作為基分類器，輸出概率 def train_classify(trans_data, trans_label, test_data, P):clf = LogisticRegression(C=0.3,class_weight = 'balanced',solver='liblinear')clf.fit(trans_data, trans_label, sample_weight=P[:, 0])return clf.predict_proba(test_data)[:,1],clf#計(jì)算在目標(biāo)域上面的錯誤率 def calculate_error_rate(label_R, label_H, weight):total = np.sum(weight)return np.sum(weight[:, 0] / total * np.abs(label_R - label_H))#根據(jù)邏輯回歸輸出的score的得到標(biāo)簽，注意這里不能用predict直接輸出標(biāo)簽 def put_label(score_H,thred):new_label_H = []for i in score_H:if i <= thred:new_label_H.append(0)else:new_label_H.append(1)return new_label_H#指定迭代次數(shù)，相當(dāng)于集成模型中基模型的數(shù)量 N=500trans_data = np.concatenate((trans_A, trans_S), axis=0) trans_label = np.concatenate((label_A, label_S), axis=0)row_A = trans_A.shape[0] row_S = trans_S.shape[0] row_T = test.shape[0]test_data = np.concatenate((trans_data, test), axis=0)# 初始化權(quán)重 weights_A = np.ones([row_A, 1])/row_A weights_S = np.ones([row_S, 1])/row_S*2 weights = np.concatenate((weights_A, weights_S), axis=0)bata = 1 / (1 + np.sqrt(2 * np.log(row_A / N)))# 存儲每次迭代的標(biāo)簽和bata值？ bata_T = np.zeros([1, N]) # 存每一次迭代的 error_rate / (1 - error_rate) result_label = np.ones([row_A + row_S + row_T, N])predict = np.zeros([row_T])trans_data = np.asarray(trans_data, order='C') trans_label = np.asarray(trans_label, order='C') test_data = np.asarray(test_data, order='C')best_ks = -1 #最優(yōu)KS best_round = -1 #最優(yōu)基模型數(shù)量 best_model = -1 #最優(yōu)模型# 初始化結(jié)束for i in range(N):P = calculate_P(weights, trans_label)result_label[:, i],model = train_classify(trans_data, trans_label,test_data, P)score_H = result_label[row_A:row_A + row_S, i]pctg = np.sum(data.bad_ind)/len(data.bad_ind)thred = pd.DataFrame(score_H).quantile(1-pctg)[0]label_H = put_label(score_H,thred)error_rate = calculate_error_rate(label_S, label_H,weights[row_A:row_A + row_S, :])if error_rate > 0.5:error_rate = 0.5if error_rate == 0:N = ibreak # 防止過擬合# error_rate = 0.001bata_T[0, i] = error_rate / (1 - error_rate)# 調(diào)整目標(biāo)域樣本權(quán)重for j in range(row_S):weights[row_A + j] = weights[row_A + j] * np.power(bata_T[0, i],(-np.abs(result_label[row_A + j, i] - label_S[j])))# 調(diào)整源域樣本權(quán)重for j in range(row_A):weights[j] = weights[j] * np.power(bata, np.abs(result_label[j, i] - label_A[j]))y_pred = result_label[(row_A + row_S):,i]fpr_lr_train,tpr_lr_train,_ = roc_curve(val_y,y_pred)train_ks = abs(fpr_lr_train - tpr_lr_train).max()print('test_ks : ',train_ks,'當(dāng)前第',i+1,'輪')if train_ks > best_ks :best_ks = train_ksbest_round = ibest_model = model

?　訓(xùn)練結(jié)束后，用最優(yōu)的邏輯回歸模型對樣本進(jìn)行測試，結(jié)果如下：

?　該方案只使用訓(xùn)練過程中表現(xiàn)最好的學(xué)習(xí)器進(jìn)行決策，因此保留了單個邏輯回歸模型的解釋性，對于模型上線部署沒有影響。但是這也增大了過擬合的風(fēng)險(xiǎn)，在實(shí)際使用中需要權(quán)衡迭代次數(shù)。

【作者】：Labryant
【原創(chuàng)公眾號】：風(fēng)控獵人
【簡介】：某創(chuàng)業(yè)公司策略分析師，積極上進(jìn)，努力提升。乾坤未定，你我都是黑馬。
【轉(zhuǎn)載說明】：轉(zhuǎn)載請說明出處，謝謝合作！~

總結(jié)

以上是生活随笔為你收集整理的迁移学习和冷启动的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

冷启动