边框回归的损失函数_分类损失函数,边框回归损失函数
(1)交叉熵損失函數
蔡杰:簡單的交叉熵,你真的懂了嗎??zhuanlan.zhihu.com1.1信息量
一條信息的信息量大小和他的不確定性有很大的關系,需要很多外部信息才能確定的信息,我們稱之為這計劃的信息量很大。
我們將事件x0的信息量定義如下,(其中p(x0)表示事件x0發生的概率:則信息量定義為:
由圖像可以看出,事件發生的概率越大,包含的信息量越少1.2熵的概念
信息量是針對單個事件來說的,但是一件事有多種發生的可能,擲色子可能就有六種情況發生。因此熵表示的的是隨機變量不確定的度量,是對所有可能事件產生的信息量的期望。
表示所有事件可能發生的情況二分類的時候,只有兩種情況:
1.3相對熵
相對熵又被稱為KL散度,用于衡量同一隨機變量x的p(x)和q(x)兩個分布差異,其中p(x) 描述樣本的真實分布,q(x)描述的是預測的分布,在網絡的學習的過程中q(x)需要不斷的去學習來擬合準確的p(x)的分布。
其中KL的值越小表示兩個分布越接近
1.4交叉熵
第一部分是一個常數部分可以推導交叉熵損失函數1.5使用交叉熵而不用平方差
當使用sigmoid做為激活函數的時候,平方差損失函數有時不能滿足誤差越大,權值調整越快,,但是交叉熵損失函數卻可以很好的滿足這一點
(2)smooth_L1損失函數
作者:尹相楠
鏈接:https://www.zhihu.com/question/58200555/answer/621174180
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
為了從兩個方面限制梯度:
考察如下幾種損失函數,其中
為預測框與 groud truth 之間 elementwise 的差異:損失函數對 的導數分別為:
觀察 (4),當 增大時 損失對 的導數也增大。這就導致訓練初期,預測值與 groud truth 差異過于大時,損失函數對預測值的梯度十分大,訓練不穩定。
根據方程 (5), 對 的導數為常數。這就導致訓練后期,預測值與 ground truth 差異很小時, 損失對預測值的導數的絕對值仍然為 1,而 learning rate 如果不變,損失函數將在穩定值附近波動,難以繼續收斂以達到更高精度。
最后觀察 (6), 在 較小時,對 的梯度也會變小,而在 很大時,對 的梯度的絕對值達到上限 1,也不會太大以至于破壞網絡參數。 完美地避開了 和 損失的缺陷。其函數圖像如下:
由圖中可以看出,它在遠離坐標原點處,圖像和
loss 很接近,而在坐標原點附近,轉折十分平滑,不像 loss 有個尖角,因此叫做 smooth loss。總結
以上是生活随笔為你收集整理的边框回归的损失函数_分类损失函数,边框回归损失函数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《三体》电视剧最新预告发布,今晚在 CC
- 下一篇: 人类返老还童还远吗?新研究表明衰老是一个