使用协同过滤进行众包服务的工人工作自动化推荐
題目:Using Collaborative Filtering to Automate Worker-Job Recommendations for Crowdsourcing Services
作者:
Julian Jarrett
Department of Computer Science Drexel University Philadelphia, USA julian.j.jarrett@drexel.edu
M. Brian Blake
Department of Computer Science Drexel University Philadelphia, USA mbrian.blake@drexel.edu
引用:
Jarrett J , Blake M B . Using Collaborative Filtering to Automate Worker-Job Recommendations for Crowdsourcing Services[C]// 2016 IEEE International Conference on Web Services (ICWS). IEEE, 2016.
摘要:
一般來說,在眾包中,供應商主要向那些訂閱他們的(即訂閱模式)、對工作感興趣的(即開放式呼叫模式)眾包人員宣傳他們的任務產品。在眾包模式中,開放式呼叫和訂閱相結合的模式會存在工人招募的顯著瓶頸。因此,吸引和留住人群是眾包平臺成功和形成勞動力市場的主要挑戰。為了解決這個問題,我們引入了一個由面向服務的體系結構支持的面向眾包的工作匹配模型。面向服務的體系結構實現了一種推拉機制(Push/Pull)和基于協同過濾技術的底層算法。初步研究表明,底層算法可以根據潛在的眾包人員的概況和過去的業績歷史,有效地推斷出他們的專業水平。
(注:主要就是將面向服務的方法應用于眾包工作)
關鍵詞:
眾包;推薦系統;人力計算;勞動力市場;招聘;勞動力
1. 介紹
? 隨著互聯網、移動設備和無線技術的日益普及,Web 2.0技術帶來了新的機遇。一個這樣的機會是工作在國際人口中的分配方式,并通過眾包模式完成。Howe將其定義為通過互聯網向未知個人開放呼叫(Open-Call)以完成任務,通常價格比傳統外包低。許多組織已經看到了這種模式的潛力,并開發了諸如Amazon Mechanical Turk、Microworkers等平臺。然而,在該范式的開放式呼叫模型中,用戶需要通過訂閱勞動力市場或平臺來啟動流程。因此,發布的任務產品通常只能由各自平臺的成員看到。而在這些勞動力市場之外,還有大量的潛在工人。在本文中,我們概述了我們的開放式推拉架構,然后通過協同過濾啟用的工作推薦器詳細描述了我們的招聘和工作分配模塊。我們還試圖調查與我們的推薦人有關的3個主要現象:
? 基于工作難度的工人工作完成歷史記錄
? 雇主對工作績效的反饋
? 工人對其專業知識的自我評估
本文繼續對相關文獻進行回顧,包括當前的開放式呼叫模式、群體招聘策略以及與眾包服務相關的工人工作推薦策略。詳細介紹了所提出的體系結構,然后討論了了解單個工人和社區能力的有用評估指標。最后是一個案例研究、討論和未來的工作。
2. 相關工作
A. 開放式呼叫(Open-Call)-傳統眾包
當前的眾包模式主要在Open-Call方法上運行。這個過程主要包含以下步驟:
Step 1:要求用戶訂閱平臺或勞動力市場。一旦訂閱,用戶(現在是工人)將根據自己的搜索和任務要求檢索滿足不同搜索條件的任務列表。標準包括軟條件和硬條件。軟條件包括可以改變、學習或習得的條件,如技能。困難的條件包括不能輕易改變或改變的條件,如出生地、國籍等。
Step 2:工人從這個篩選列表中選擇一個任務,并向其顯示該任務的詳細要求。
Step 3:在檢查了詳細的需求之后,工人選擇執行任務的可用實例。
B. 招聘策略
關于眾包的其他研究涉及人群的招募和選擇。貨幣激勵是人群參與的主要補償形式;然而,其他已被采用的形式包括娛樂、獲取信息、從社區其他人那里獲得認可、通過自愿主義和利他主義意圖滿足人類慈善愿望。
C. 工人工作推薦策略
工人資料是雇主評估工人的入口。一般來說,工人的個人資料包括他們的聲譽和專業知識。聲譽指標包括但不限于質量、任務提交的及時性,社區將其作為工人可靠性和雇主對工人信心的指標。另一方面,專業知識反映了工人的資歷和過去的經驗,同時也展示了工人的能力。雇主還作出合理的假設,即提交材料的質量表明工人的個人資料。因此,質量更高的提交文件來自聲譽更高的工人。
有幾項努力并不局限于旨在使工人與工作相匹配的范式。人-工作匹配模型就是用來實現這一點的一種方法。它根據成功執行工作所需的技能評估工人的技能。它還評估工作是否適合工人的需求,如他們的目標、興趣、價值觀。有些研究還將個人工作適合模型嵌入到簡歷推薦系統中,這種方法使得電子商務平臺的銷售額增加,利用電子簡歷存儲庫,使工人與工作和潛在的合作伙伴相匹配。
鑒于工人的專業技能和資料中概述的特點,我們假設;根據先前的令人滿意的表現,可以推斷出工人具備成功執行任務所需的技能。通過互聯網上工人資料中發現的工作歷史、經驗和人口特征,可以預測工人的工作過渡和最終的工作組織。
還有的研究者為軟件開發生命周期的軟件需求電子化階段開發了一個推薦系統,使用社交網絡分析與其他利益相關者的聯系,以此來確定軟件項目的潛在利益相關者。它的主要目標是盡量減少在關鍵利益相關者被忽視的情況下執行關鍵需求的風險。(注:即可以在只有少量或者邊緣的數據信息的情況下,降低風險,提高準確率。類似于數據稀疏或者冷啟動問題)
此外,我們的工作還提出了一種將任務分配給工人的推薦方,與局限于工人的利益不同,推薦的工作是基于工人的績效歷史和其工作歷史中相似工作的特征。他們的技能和專業水平是從以前完成的工作的高質量提交中推斷出來的。
3. 之前的工作
? 在我們之前的工作]中,我們提出了一種服務同步協調中間件(SSCM)。我們將其概述為負責協調與眾包相關的服務的多維軟件;它試圖集成并促進現有平臺之間的互操作性,以緩解Open-Call模型的缺點。這些平臺包括群組和雇主界面;群組界面跨越社會和專業圈、存儲庫和網絡,而雇主界面跨越私人、商業和政府組織。
其中,在這些工作中做出的獨特貢獻是從Open-Call模式向面向眾包的Open Pull/Push模式的范式轉變。它們概述了支持這種模型的獨特體系結構。他們的推薦使用自下而上的推薦系統,而不是傳統的自上而下的方法。工人的技能或專業水平是根據雇主對先前績效的評估推斷出來的,而不是假定為工人資料中的職業。在本節中,我們將繼續簡要地回顧所提議的Open Pull/Push模型(圖1)。我們基于協同過濾的工人工作推薦模型作為對快速變化的數據作出響應的方法。我們的模型還支持從績效中推斷技能集和專業知識的能力,而不是盲目地從工人資料中假設技能集和專業知識。
A. 開放式拉動(Open Pull)——從不同社區招聘
這里介紹的系統包含一個開放式拉(Open Pull)機制,以解決Open Call模型中的范式弱點。與等待用戶訂閱勞動力市場或平臺不同,我們的系統會對保存專業簡歷檔案數據(如linkedin、monster.com)的存儲庫進行投票。在假設工人通過社會和職業圈子和興趣進行聯系的前提下,通過LinkedIn、Facebook和Google+等社交網絡來尋找有資格的工人。勞動力市場也完成了群眾建設的基礎工作,也受益于分享他們的勞動力資源,試圖擴大、多樣化和增加勞動力的能力和競爭力。通過調用各自平臺所有者提供的Web服務和Web API,可以從這些平臺發現用戶。使用搜索條件,用戶可以根據人口統計、興趣和其他特征進行篩選。
B. 開放式推壓(Open Push)——人群保持,持續參與
open-pull方法本身并不能完全解決open-call模型的挑戰。此外,工作流包括一個Open Push機構。使用包括協同過濾、機器學習和基于案例的推理在內的推薦策略,可以通過各自社區的Web服務或API的消息傳遞渠道向工人推薦工作。也可以根據所需技能、人口統計、興趣和雇主認為合適的其他條件推薦工人。
4. 進一步分析評估
如圖2所示,對單個工人和勞動社區進行分析。
我們概述了工人元組 { P, SPI }。績效§,是指工人對所有工作(J) 的績效,至少70%類似于推薦人(公式1)推薦的N≤10個工作?。自我認知指數(SPI)是工人對自己真正能力的認識的一個指標。計算方法是將工人的自學能力除以P減去1(公式2)。積極的SPI表示能力被高估,同樣消極的SPI表示能力被低估。使用這兩個個性化指標,雇主可以評估真正的工人能力和工人信心。
為了分析社區,我們還概述了社區元組 { CCI, CPI }。社區能力指數(CCI)是衡量勞動力集體能力的一個指標,它只是每個工人的平均績效(公式3)。社區感知指數(CPI)是社區自身的集體感知;這是所有工人的平均自我認知指數(公式4)。使用這些社區指標,雇主可以集體評估社區的能力和對他們技能的信心。
5. 案例研究、實驗與方法論
我們開發了一個包含34個習語的案例,這些習語需要從葡萄牙語翻譯成英語,以通過我們提出的SSCM框架測試工人的工作適合性。在Android移動應用程序的幫助下(圖3),人類工人需要從可用列表中翻譯最多5種他們選擇的習慣用法。成語的難度等級從1到5分不等,其中5分是最難的。我們的成語及其困難是由4個以葡萄牙語為母語的巴西人選擇的,他們是我們的雇主。同樣,我們的人群中也有52名工人,他們都是巴西工人,其中一些人在美國擁有居留權,另一些人在巴西擁有居留權。我們還包括一名機器工人,以谷歌翻譯的形式,總共53名工人。google translate通過google developer api調用,用于翻譯所有習慣用法。工人們在他們的個人資料中從以下幾方面表明他們對英語的掌握程度:(1)初學者,(2)中級,(3)高級,(4)流利者和(5)本地人。然后,我們的巴西雇主對工人翻譯進行了獨立和主觀的評分,然后平均。根據這些信息,我們的框架推薦N≤10個翻譯最適合每個工人,因為他們完成的翻譯與推薦的工作至少有70%的相似性。我們的推薦是通過我們的協同過濾驅動推薦器的應用生成的。
6. 結果與討論
在我們的案例研究中,我們觀察了模式化結果。即使是小樣本集,我們相信在初步形式上,本案例研究的支持是貢獻。對于我們的模式化結果,我們對52名人類和單獨的機器工人進行了幾次觀察。我們發現,我們的系統推薦的工作在大多數情況下都低于工人對自己的評估(圖4)。我們觀察到,推薦人的推薦比工人的評估低約2分;推薦人的推薦基于工作難度,并對之前從事的工作的工人進行評分(圖5)。
大多數工人選擇的工作平均比自己的自我評估低2分(圖5)。考慮到工人選擇工作的性質,過去和現在的工作的推薦難度在形狀上非常相似;當兩個工作重疊時,這一點很明顯(圖6)。
我們觀察了由系統計算的工人的平均能力與他們選擇執行的工作的平均難度(圖7)。
我們發現社區的能力高于他們選擇的工作。系統計算出的工人的平均總評分高于工人的自我評估(圖8)。
在同一時期,我們還評估了推薦人適應變化數據的能力。不斷變化的數據方面包括不斷增加的工人數量、就業人數和雇主對系統中當前工人完成的工作的反饋。我們的協同過濾算法反復學習作業特征的權重,并隨著新數據的增加而改進。我們的推薦人一貫向工人推薦工作,平均與他們以前做過的工作相似86.175%(圖9)。
7. 總結與未來工作
? 在難度方面,工人往往在性質上與以前執行過的任務相似的任務上工作得很好。基于工人在特定工作中表現出色的事實,他們的專業水平可以從成功完成和卓越表現中推斷出來。同樣,可以根據執行特定任務所需的技能來推斷技能集。如果用戶認為自己在自己訪問的簡歷和個人資料中沒有正確估計自己的技能水平,這一點很有用。從我們的案例中,我們發現工人傾向于低估自己的潛力。根據雇主的反饋,這群人的表現比他們自己表現得更好。這些結果可能僅限于面向語言翻譯的類型任務。在未來,我們預見到這種模式將從公開呼吁轉變為分配工作并將工作與勞動力市場中合適的候選人相匹配的其他方法。一個方向是我們提出的開放式推拉(Open Pull/Push)機制,通過**推薦機制(如統計模型)和其他機器學習類型驅動技術(包括協同過濾)**提供支持。考慮到本實驗的初步性質,我們打算在未來的實驗中使用更大的數據集來測試具有可擴展性的穩健性和具有數據規模的預測的準確性。
總結
以上是生活随笔為你收集整理的使用协同过滤进行众包服务的工人工作自动化推荐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode_Pascal's Tr
- 下一篇: 二叉树遍历的递归、非递归方法(前序、中序