AI发电厂——数据标注公司(国内数据标注公司服务调研)
眾所周知,深度學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)和高效的運(yùn)算來(lái)做支撐。
計(jì)算資源只要從黃老板的公司訂購(gòu)就可以了,但大規(guī)模的高質(zhì)量有標(biāo)記數(shù)據(jù)卻不是那么容易獲得,讓科研人員頭疼不已。
應(yīng)用時(shí)代而生的就是一大批數(shù)據(jù)眾包公司和平臺(tái)。正好借著一個(gè)數(shù)據(jù)眾包任務(wù),對(duì)于國(guó)內(nèi)的數(shù)據(jù)標(biāo)注公司服務(wù)有了更深一步的了解。
原文發(fā)布于個(gè)人博客(好望角),那里有更好的閱讀體驗(yàn)。
伴隨著AI興起的最關(guān)鍵的技術(shù)莫過(guò)于深度學(xué)習(xí),作為深度學(xué)習(xí)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)是一種以輸入為導(dǎo)向的算法,其結(jié)果的準(zhǔn)確性取決于接近“無(wú)窮”量級(jí)的數(shù)據(jù)。
所以摒除那些復(fù)雜的中間環(huán)節(jié),深度學(xué)習(xí)最關(guān)鍵的就是需要大量的數(shù)據(jù)訓(xùn)練,這也是為什么在互聯(lián)網(wǎng)大數(shù)據(jù)的時(shí)代,AI可以崛起。而在數(shù)據(jù)訓(xùn)練之前,又必須先對(duì)大量的數(shù)據(jù)進(jìn)行標(biāo)注,作為機(jī)器學(xué)習(xí)的先導(dǎo)經(jīng)驗(yàn)。
因此,催生了大量數(shù)據(jù)標(biāo)注公司的誕生。
什么是數(shù)據(jù)標(biāo)注
要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能。
回想一下我們是如何學(xué)習(xí)的,例如我們學(xué)習(xí)認(rèn)識(shí)蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你,這是一個(gè)蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。類比機(jī)器學(xué)習(xí),我們要教他認(rèn)識(shí)一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的。我們得先有蘋果的圖片,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過(guò)學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片,它就能認(rèn)出來(lái)了。
根據(jù)應(yīng)用場(chǎng)景的不同,數(shù)據(jù)標(biāo)注有許多類型。大體上分為圖像、語(yǔ)音、自然語(yǔ)言三大類。
其中由于圖像研究領(lǐng)域的水文熱潮,圖像標(biāo)注的任務(wù)也尤為眾多。。。無(wú)人駕駛、人臉識(shí)別、物體檢測(cè)……
語(yǔ)音和語(yǔ)言相對(duì)來(lái)說(shuō),數(shù)據(jù)標(biāo)注難度更大一點(diǎn)。價(jià)格也相對(duì)高昂一些。
在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對(duì)數(shù)據(jù)進(jìn)行清洗,得到符合我們要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無(wú)效的數(shù)據(jù)、整理成規(guī)整的格式等等。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)。
眾包標(biāo)注的困難
眾包標(biāo)注由于是非專業(yè)標(biāo)注,自然會(huì)遇到很多問(wèn)題。這困難主要由以下三個(gè)方面組成:
由于標(biāo)注者是眾包標(biāo)注,因此其標(biāo)注者的水平也參差不齊,其背景知識(shí)和行為習(xí)慣可能有較大的差異。這就相當(dāng)于是給若干個(gè)已訓(xùn)練好的模型來(lái)做預(yù)測(cè)一樣,其不同的模型有不同的輸出結(jié)果。那么這種情況下,基本上使用多數(shù)投票的方法來(lái)解決。
標(biāo)注的內(nèi)容可以分為兩類,一類是有明確標(biāo)簽的,就好比是試卷里的客觀題一樣,盡管各個(gè)標(biāo)注都不同,但是還是在有限集合內(nèi)的。另一類是開(kāi)放式回答,這種標(biāo)注如同試卷里的主觀題一樣,可能會(huì)有無(wú)限種可能的結(jié)果。甚至是截然相反的結(jié)果,比如什么是美,什么是丑,每個(gè)人的評(píng)價(jià)標(biāo)準(zhǔn)是不同的。我們本次想要的數(shù)據(jù)眾包也是這個(gè)類型的。
如果一個(gè)需要標(biāo)注的訓(xùn)練集中的數(shù)據(jù)本身就比較稀疏,而我們又需要把它們分割成一個(gè)個(gè)小塊,這就有可能造成數(shù)據(jù)稀疏。比如,我們要進(jìn)行鳥(niǎo)類圖片標(biāo)注,如果本身鳥(niǎo)類種類很多,而分給每個(gè)人的鳥(niǎo)的種類也很多的話,由于每個(gè)人認(rèn)識(shí)的鳥(niǎo)的種類是不多的,因此可能存在每個(gè)人的標(biāo)注都會(huì)有很高的錯(cuò)誤率。這時(shí)候我們可能就需要讓標(biāo)注者之間有重疊的部分,然后使用多數(shù)表決來(lái)解決。
數(shù)據(jù)眾包公司調(diào)研
由于我們需要眾包的數(shù)據(jù)是中文數(shù)據(jù),所以只關(guān)心國(guó)內(nèi)的一些數(shù)據(jù)眾包公司。國(guó)外的Amazon Mechanical Turk、CrowdFlower、Mighty AI等公司不在考察范圍之內(nèi)。
據(jù)悉,在國(guó)內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)實(shí)行這樣一套分工流程:上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會(huì)進(jìn)一步眾包給“散兵游勇”,比如學(xué)生或家庭主婦。
這條產(chǎn)業(yè)鏈上,分包現(xiàn)象越嚴(yán)重,最終落到最底層的數(shù)據(jù)服務(wù)公司的價(jià)格就越低,一層層的“數(shù)據(jù)黃?!眽嚎s了利潤(rùn)空間,所以一些任務(wù)經(jīng)過(guò)數(shù)手轉(zhuǎn)包,酬勞已低得驚人。
目前的數(shù)據(jù)標(biāo)注工作主要是集中在河北、河南、山東、山西等勞動(dòng)力密集的地區(qū),這樣的選址也因?yàn)槟軌蛞愿拥土膭趧?dòng)力成本去完成大量的數(shù)據(jù)標(biāo)注工作。
下面是我對(duì)國(guó)內(nèi)的數(shù)據(jù)眾包公司做的一些調(diào)研(按照我搜索得知該公司的順序排序)。
不知道是否是我們的標(biāo)注任務(wù)太難的緣故,絕大多數(shù)公司沒(méi)有任何反饋。
1.百度數(shù)據(jù)眾包、百度云眾包
百度不愧是靠PC端的網(wǎng)頁(yè)搜索起家的,其前端技術(shù)還是不錯(cuò),網(wǎng)站做的還是比較精致的。但是我提出了數(shù)據(jù)標(biāo)注任務(wù)之后,貴司的這個(gè)相應(yīng)效率可就有點(diǎn)搞笑了。完全沒(méi)有反應(yīng)……
2.泛函科技
第二天下午有反饋, 0.35元/條, 后來(lái)漲價(jià)到1.5元/條……而且拿走我的數(shù)據(jù),試標(biāo)結(jié)果都沒(méi)有反饋。
但是客戶經(jīng)理態(tài)度還比較好,最后給出這樣一個(gè)方案“您確定一個(gè)期望的價(jià)格,我們也可以把他發(fā)到我們的平臺(tái)上,我們抽取一定傭金后,按您意愿的價(jià)格發(fā)布任務(wù)??词欠裼杏脩粼敢鈽?biāo)注,這樣的工期我們不敢保證。”,我是不敢采取的,23333。
3.京東眾智
數(shù)據(jù)標(biāo)注的需求申請(qǐng)是真難用!京東公司就沒(méi)有一個(gè)會(huì)前端的人嘛?
但是,京東的效率很高,反應(yīng)很快(第二天就有回復(fù)),對(duì)接服務(wù)還比較周到細(xì)致,測(cè)評(píng)試標(biāo)注有標(biāo)注結(jié)果反饋,且效果尚可。最后談妥的價(jià)格是0.55元/條,含6個(gè)點(diǎn)的稅,增值稅普通發(fā)票。關(guān)鍵是,京東平臺(tái)只接受5W元以上的訂單。這一點(diǎn)為什么不在官網(wǎng)說(shuō)明?浪費(fèi)我那么多的聯(lián)系時(shí)間。
4.數(shù)據(jù)堂
聯(lián)系之后沒(méi)有反饋
5.龍貓數(shù)據(jù)
聯(lián)系之后沒(méi)有反饋
6.阿里眾包
聯(lián)系之后沒(méi)有反饋
7.星辰數(shù)據(jù)
網(wǎng)頁(yè)做的很好看,但是聯(lián)系之后沒(méi)有反饋
8.愛(ài)數(shù)智慧
第二天下午有反應(yīng),但進(jìn)展比較慢。問(wèn)我要走了樣例數(shù)據(jù)試標(biāo)注卻沒(méi)有結(jié)果反饋。難道不需要顧客審查標(biāo)注質(zhì)量么?
最后報(bào)出的定價(jià)是0.45元/條,但是誰(shuí)知道他們標(biāo)注的質(zhì)量呢?
9.倍賽公司
聯(lián)系之后沒(méi)有反饋
10.tagger
聯(lián)系之后沒(méi)有反饋
總的來(lái)說(shuō),我眼中國(guó)內(nèi)最靠譜的數(shù)據(jù)標(biāo)注公司是京東眾智。不論是客戶經(jīng)理的對(duì)接工作,還是數(shù)據(jù)的試標(biāo)注反饋,完成的都比較高效和到位。但也有一個(gè)致命的缺陷,它們只接受5W元以上的標(biāo)注任務(wù)訂單,,,這就基本把高校的科研組統(tǒng)統(tǒng)拒之門外了。另外,泛函科技和愛(ài)數(shù)智慧的服務(wù)以及價(jià)格尚可,只是沒(méi)有京東眾志應(yīng)答迅速,沒(méi)有試標(biāo)注的結(jié)果反饋。至于其他一些公司,統(tǒng)統(tǒng)沒(méi)有反饋,令人失望。
PS:上文中,BA已經(jīng)出鏡,不給T家一個(gè)機(jī)會(huì)貌似不太公平。那就給他們一個(gè)亮相機(jī)會(huì)吧。
參考文獻(xiàn)
眾包數(shù)據(jù)標(biāo)注中的隱類別分析
談?wù)勅斯ぶ悄軘?shù)據(jù)標(biāo)注那些事兒
數(shù)據(jù)標(biāo)注員,最后一批被AI取代的人
總結(jié)
以上是生活随笔為你收集整理的AI发电厂——数据标注公司(国内数据标注公司服务调研)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 详细解读什么是自适应巡航?
- 下一篇: java 断网处理_如何处理浏览器的断网