如何解决大量样本标注问题
生活随笔
收集整理的這篇文章主要介紹了
如何解决大量样本标注问题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?????? TSVM? 常見的解決未標注樣本的方法有EM (Expectation Maximization) 算法 ,協同訓練法,Transductive SVM 方法及最大熵判別法等.????
?????? 原文鏈接:http://blog.sina.com.cn/s/blog_4c98b9600100094l.html
? ? ? ??????? TSVM是一種不依賴于推廣性思想的經驗推理。由于其是從特殊到特殊的推理,難以直接進行客觀驗證。因此,直到現在才開始得到人們研究的重視,但它已經在一些領域中(例如生物基因選擇,數字識別)取得了初步結果,甚至表現出了比傳統ISVM更好的性能。直推式SVM 的決策分類函數是建立在訓練集Strain和測試集Stest 的基礎上。
?? ? ?? 由于徑向基函數(Radial Basis Function,RBF)在高維空間分類問題中的優越表現,我們選取RBF作為SVM分類器的核函數。在TSVM學習期間,測試樣本就對其施加了影響。因此,TSVM學習的結果中就包含了測試樣本的數據特征。經過學習后,TSVM就會產生一個分類決策函數,即最優分類超平面。測試樣本經過TSVM分類器處理后,再由入侵檢測決策系統根據分類結果來判斷是否有攻擊行為的發生。為了盡可能將正常數據和攻擊數據正確地區分,以提高入侵檢測的檢測率,TSVM試圖尋找最優分類超平面。而TSVM的有效學習是非常重要的,其具體的學習過程如下:
??? ? ? (1)TSVM根據指定的懲罰因子C和C*,利用訓練數據中包含的正負標簽的網絡數據進行歸納式學習,得到一個比較原始的樣本分類器。隨后,TSVM假定訓練集中無標記網絡數據樣本中正負樣本的比例為1:1,并指定一個訓練集中無標簽樣本的臨時懲罰因子C*temp。
?????? (2)TSVM用得到的樣本分類器對訓練集中的無標簽樣本進行重新分類,根據分類器對無標簽網絡數據記錄的判別結果,對無標簽數據作出正負分類判決,并將判決值較大的一半樣本標記為正標簽,另外一半標記為負樣本。
? ?? ??(3)用得到的經過重新標記的訓練集數據對TSVM學習機進行重新訓練,得到新的分類器。然后,按一定的規則交換一對標簽值不同的訓練樣本的標簽符號,即把起初標記為正樣本的未標記樣本中標記為負樣本,起初標記為負樣本的標記為正樣本,計算式(2)的值,使得問題(2)的值獲得最大下降。反復執行訓練樣本標簽的變換,直到找不出滿足交換條件的樣本為止。
? ? ??(4)均勻地增加未標記樣本的懲罰因子C*temp的值,并重新執行步驟(3),直到C*temp≥C 時,TSVM 的學習結束。
?????? 當TSVM終止學習后,就可以用學習得到的分類器對測試樣本進行分類判別。入侵檢測決策系統根據TSVM分類器分類的結果作出是否有入侵行為發生的判斷。TSVM在學習的過程中,結合了大量的未標記網絡數據的信息,并反復調整未標記數據對TSVM學習機的影響,以追求對無標簽樣本的最小分類誤差。因此,基于TSVM的入侵檢測系統比基于ISVM的檢測系統需要更長的學習時間,但是由于結合了測試樣本的影響,在對測試樣本分類的準確度上也會得到一定程度的提高。
總結
以上是生活随笔為你收集整理的如何解决大量样本标注问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我的起源数据石怎么获得
- 下一篇: 抖音app怎么打开