【数据竞赛】kaggle竞赛宝典-多分类相关指标优化
↑↑↑關注后"星標"kaggle競賽寶典
?kaggle競賽寶典?
作者:?塵沙杰少、謝嘉嘉、DOTA、有夕
賽題理解,分析,規劃之多分類相關指標優化
這是一個系列篇,后續我們會按照我們第一章中的框架進行更新,因為大家平時都較忙,不會定期更新,如有興趣歡迎長期關注我們的公眾號,如有任何建議可以在評論區留言。
1. kaggle競賽寶典-競賽框架篇!
2.1?賽題理解,分析,規劃之賽題理解與分析上半篇!
2.2??kaggle競賽寶典-回歸相關指標優化!
2.3??kaggle競賽寶典-二分類相關指標優化
4.1?kaggle競賽寶典-樣本篩選篇!
4.2?kaggle競賽寶典-樣本組織篇!
1. categorization accuracy
1.1 定義
其中,為測試樣本的個數,為第個樣本的標簽,為預測的第個樣本的類別。
1.2 案例
What's Cooking?
Anomaly Detection Challenges 2015 - Challenge 2
Ghouls, Goblins, and Ghosts... Boo!
Cdiscount’s Image Classification Challenge
Sentiment Analysis on Movie Reviews
1.3 求解
使用multiclass第對應的損失函數,
表示第個樣本標簽為的情況,如果標簽為則是1,反之為0。則是模型預測樣本屬于第的概率。
2. MultiLogloss
2.1 定義
其中,為測試樣本的個數,為類標簽的個數。
2.2 案例
San Francisco Crime Classification
Telstra Network Disruptions
TalkingData Mobile User Demographics
Walmart Recruiting: Trip Type Classification
Shelter Animal Outcomes
The Nature Conservancy Fisheries Monitoring
Two Sigma Connect: Rental Listing Inquiries
Personalized Medicine: Redefining Cancer Treatment
2.3 求解
針對準確率問題,目前常采用的損失函數為multiclasslogloss ,其數學形式如下:
直接進行優化即可。
3. MAP(Mean Average Precision )
3.1 定義
其中為用戶的個數,為在截止點處的精度(Precision),是預測物品的數量,是給定用戶購買物品的數量。如果,則精度定義為0。
3.2 案例
Coupon Purchase Prediction
Facebook V: Predicting Check Ins
3.3 求解
使用sigmoid_cross_entropy,注意與其它常用的多分類損失函數的區別。
4. Mean F1
4.1 定義
4.2 案例
Transfer Learning on Stack Exchange Tags
4.3 求解
Top5有一名開源的選手選用的是Mean square Loss進行的優化.
5. Average Jaccard Index
5.1 定義
兩個區域和的Jaccard Index可以表示為:
其中TP表示True positive的面積,FP表示false positive的面積,FN表示false negative的面積。
5.2 案例
Dstl Satellite Imagery Feature Detection
5.3 求解
基于Sigmoid的損失函數。
參考文章
損失函數softmax_cross_entropy、binary_cross_entropy、sigmoid_cross_entropy之間的區別與聯系:https://blog.csdn.net/sjyttkl/article/details/103958639
https://github.com/nagadomi/kaggle-coupon-purchase-prediction
https://github.com/viig99/stackexchange-transfer-learning
https://deepsense.io/deep-learning-for-satellite-imagery-via-image-segmentation/
https://arxiv.org/pdf/1505.04597.pdf
https://github.com/toshi-k/kaggle-satellite-imagery-feature-detection
總結
以上是生活随笔為你收集整理的【数据竞赛】kaggle竞赛宝典-多分类相关指标优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电脑公司Win11 64位全新旗舰版镜像
- 下一篇: TIM怎么设置禁止窗口抖动 TIM防抖设