如何进行数据标注(1)
現在網絡上關于深度學習算法的文章很多,但深度學習其實是數據驅動型。很多時候數據足夠好,能給算法開發提供很大的便利。
因此,本文主要講解數據標注。文章共兩個部分:(1)數據標注綜述(2)數據標注實踐要點
本文是第一部分:數據標注綜述
1、數據標注的作用
數據標注是大部分人工智能算法得以有效運行的關鍵環節。人工智能算法是數據驅動型算法,也就是說,如果想實現人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
數據標注的過程是通過人工貼標的方式,為機器系統可供學習的樣本。數據標注是把需要機器識別和分辨的數據貼上標簽,然后讓計算機不斷地學習這些數據的特征,最終實現計算機能夠自主識別。
2、數據標注的質量及標注流程
數據的高質量體現在兩個方面:一個標注的數量多,二是標注的質量高。
圖像標注的質量標準:圖像標注的質量好壞取決于像素點的判定準確性。標注像素點越接近被標注物的邊緣像素,標注的質量就越高,標注的難度也越大。如果圖像標注要求的準確率為100%,標注像素點與被標注物的邊緣像素點的誤差應該在1個像素以內。
語音標注的質量標準:語音標注時,語音數據發音的時間軸與標注區域的音標需保持同步。標注于發音時間軸的誤差要控制在1個語音幀以內。若誤差大于1個語音幀,很容易標注到下一個發音,造成噪聲數據。
文本標注的質量標準:文本標注涉及到的任務較多,不同任務的質量標準不同。例如:分詞標注的質量標準是標注好的分詞與詞典的詞語一致,不存在歧義;情感標注的標注質量標準是對標注句子的情感分類級別正確。
多數投票算法(majority voting,MV)是常用的標注質量評估算法。MV 算法是由約翰遜提出的一種通用性強的質量控制算法。它將絕大多數用戶選擇的結果視為最終結果。其基本思想為:假設有
個圖像標注任務 ,每個任務 對應一個二元分類。為提高標注質量和標注可靠性,將需要標注的對象 分配給 個員工(一共 個員工, )。每個工人的標注結果為 ,再根據 推斷出 的最終標簽,其計算公式為:
圖像數據的標注流程為:
(1)數據清洗:排除數據存在缺失值、噪聲數據、重復數據等質量問題。
(2)數據標注:劃分標注任務、制定標注規范。進行標注任務。
(3)標注檢驗:由標注審核員或機器質檢機制,審核標注質量
3、常用的標注工具
知乎不能添加表格,點此處獲取下載方式。點擊標注工具的名稱,即可獲取下載地址。每個鏈接我都試了,如果連接不上可能是需要掛梯子。
Reference
[1]蔡莉,王淑婷,劉俊暉,朱揚勇.數據標注研究綜述[J].軟件學報,2020,31(02):302-320.
總結
以上是生活随笔為你收集整理的如何进行数据标注(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: P3128 [USACO15DEC]Ma
- 下一篇: 天猫、京东双十一总交易额7697亿元;苹