谷歌开源下一代推荐系统模拟器:RecSim NG
谷歌開源下一代推薦系統(tǒng)模擬器:RecSim NG
一元@煉丹筆記推薦系統(tǒng)是連接用戶與各種在線內(nèi)容的主要接口,因此必須克服用戶流行度的問(wèn)題,這樣可以保證公平地為他們服務(wù)。為此,在2019年我們發(fā)布了RecSim,這是一個(gè)用于創(chuàng)建模擬環(huán)境的可配置平臺(tái),希望它可以促進(jìn)推薦系統(tǒng)中RL算法(解決順序決策問(wèn)題的標(biāo)準(zhǔn)ML方法)的研究。然而,隨著技術(shù)的進(jìn)步,解決仿真與實(shí)際應(yīng)用之間的差距變得越來(lái)越重要,確保模型靈活且易于擴(kuò)展,實(shí)現(xiàn)用戶動(dòng)態(tài)的概率推斷,并提高計(jì)算效率。
為了解決這些問(wèn)題,我們最近發(fā)布了RecSim NG,用于推薦系統(tǒng)研究和開發(fā)的“下一代模擬器”。RecSim NG是對(duì)一組用例的響應(yīng),這些用例在將仿真應(yīng)用于真實(shí)世界問(wèn)題時(shí)已成為重要的挑戰(zhàn)。它解決了仿真與實(shí)際應(yīng)用之間的差距,確保了模型的靈活性和易擴(kuò)展性,支持用戶動(dòng)態(tài)的概率推理,并提高了計(jì)算效率。
RecSim NG是一個(gè)可擴(kuò)展的、模塊化的、可微的模擬器,用Edward2和TensorFlow實(shí)現(xiàn)。它為agent行為規(guī)范提供了一種功能強(qiáng)大的通用概率編程語(yǔ)言。RecSim NG在兩個(gè)方面顯著擴(kuò)展了RecSim的建模能力。
- 首先,StoryAPI允許模擬任意數(shù)量的參與者(例如,推薦器、內(nèi)容消費(fèi)者、內(nèi)容生產(chǎn)者、廣告商)相互作用的場(chǎng)景。這使得整個(gè)推薦者生態(tài)系統(tǒng)的靈活建模成為可能,而不是通常的孤立用戶推薦者交互設(shè)置。
- 其次,我們引入了一個(gè)行為構(gòu)建塊庫(kù),它與Keras層非常相似,實(shí)現(xiàn)了建模原語(yǔ),這些原語(yǔ)可以被組裝起來(lái)快速構(gòu)建復(fù)雜的模型。遵循面向?qū)ο蟮姆独?#xff0c;RecSim NG使用實(shí)體模式來(lái)封裝控制各種agent行為(如用戶滿意度)的共享參數(shù),并使用模板以抽象代理“individuality”而不復(fù)制不變行為的方式簡(jiǎn)明地定義大量agents。
除了典型地使用模擬器生成蒙特卡羅樣本外,RecSim NG還直接支持各種其他形式的概率推理。盡管領(lǐng)域知識(shí)和直覺是建模任何推薦問(wèn)題的關(guān)鍵,但要彌合所謂的“sim2real”差距,所需的仿真逼真度只能通過(guò)將模擬器的模型與觀測(cè)數(shù)據(jù)進(jìn)行校準(zhǔn)來(lái)實(shí)現(xiàn)。對(duì)于數(shù)據(jù)驅(qū)動(dòng)的仿真,RecSim-NG使得實(shí)現(xiàn)各種模型學(xué)習(xí)算法變得容易,如期望最大化(EM)、生成對(duì)抗訓(xùn)練等。
RecSim NG中還提供了概率推理和latent變量模型學(xué)習(xí)工具,支持自動(dòng)微分和跟蹤。RecSim NG公開了一小部分Edward2程序轉(zhuǎn)換,這些轉(zhuǎn)換是為特定于仿真的任務(wù)定制的。它的對(duì)數(shù)概率模塊可以根據(jù)仿真得到的概率圖形模型來(lái)估計(jì)軌跡的概率。這與TensorFlow運(yùn)行時(shí)提供的自動(dòng)微分一起,可以在模擬本身中實(shí)現(xiàn)最大似然估計(jì)和模型學(xué)習(xí)。RecSim NG可以很容易地利用張量流概率提供的馬爾可夫鏈蒙特卡羅(MCMC)機(jī)制來(lái)進(jìn)行后驗(yàn)推理和latent變量模型學(xué)習(xí)。
例如,描述潛在用戶屬性(例如偏好、意圖、滿意度)如何轉(zhuǎn)化為觀察數(shù)據(jù)(例如點(diǎn)擊、評(píng)分、評(píng)論)的模擬模型可以“反向運(yùn)行”,即,由推薦系統(tǒng)生成的真實(shí)觀測(cè)數(shù)據(jù)可用于識(shí)別潛在用戶屬性的最可能配置,進(jìn)而可用于評(píng)估用戶體驗(yàn)的質(zhì)量。這允許將仿真模型直接集成到完整的數(shù)據(jù)科學(xué)和模型開發(fā)工作流中。
評(píng)估推薦器生態(tài)系統(tǒng)健康,即推薦策略對(duì)總體滿意度、集體公平性和安全性等方面的長(zhǎng)期影響,需要模擬大型多智能體系統(tǒng),以便合理地再現(xiàn)生態(tài)系統(tǒng)不同參與者之間的相互作用。這與概率推理任務(wù)的計(jì)算負(fù)載一起,需要一個(gè)高效的仿真運(yùn)行時(shí)。對(duì)于計(jì)算性能,RecSim NG提供了一個(gè)基于TensorFlow的運(yùn)行時(shí),用于在加速硬件上運(yùn)行仿真。該模擬利用了TensorFlow的AutoGraph編譯器提供的所有優(yōu)化,包括加速線性代數(shù)(XLA),模擬將自動(dòng)利用主機(jī)上所有可用的內(nèi)核以及專用硬件(如果相應(yīng)地運(yùn)行),如張量處理單元(TPUs)。核心RecSim NG體系結(jié)構(gòu)是后端獨(dú)立的,允許在其他計(jì)算框架(如JAX或PyTorch)中開發(fā)應(yīng)用程序。
為了演示RecSim NG的功能,我們?cè)谝粋€(gè)風(fēng)格化的推薦者ecosystem1中提出了一個(gè)非常簡(jiǎn)化的用戶和內(nèi)容提供者之間的多agents交互模型。該模擬捕獲了推薦系統(tǒng)的動(dòng)態(tài),該系統(tǒng)通過(guò)向用戶推薦一段時(shí)間內(nèi)用戶和內(nèi)容提供商的內(nèi)容項(xiàng)目列表來(lái)調(diào)解用戶和內(nèi)容提供商之間的交互。我們采用了一個(gè)簡(jiǎn)化的用戶模型,其中每個(gè)用戶都有一個(gè)靜態(tài)的、可觀察的“用戶興趣向量”。該向量確定了用戶與推薦商品的親和力,然后將其用作選擇模型的輸入,該選擇模型確定了用戶從推薦列表中選擇的商品。用戶對(duì)任何選定商品的效用只是他們對(duì)該商品的親和力,可能受到高斯噪聲的干擾。
推薦系統(tǒng)的目標(biāo)是在一個(gè)固定的時(shí)間范圍內(nèi)最大化所有用戶的累積用戶效用。然而,生態(tài)系統(tǒng)效應(yīng)使這非常具有挑戰(zhàn)性,因內(nèi)容提供商的行為而出現(xiàn)。與用戶一樣,每個(gè)提供者都有一個(gè)“興趣向量”,它提供的內(nèi)容項(xiàng)圍繞這個(gè)“興趣向量”集中,反映了提供者的一般專業(yè)知識(shí)或傾向。提供商有自己的激勵(lì)機(jī)制來(lái)提供內(nèi)容:他們的效用是由最近用戶選擇的商品數(shù)量來(lái)衡量的。此外,效用更高的提供者生成或提供更多的商品,增加了用戶(和推薦者)可以選擇的“catalog”。
我們?cè)诖嗽O(shè)置中比較了兩種不同的推薦策略。
模擬中的代理數(shù)量很大,我們使用RecSim NG提供的可重用建模塊對(duì)用戶和內(nèi)容提供者進(jìn)行模板化。
我們希望RecSim-NG能使研究者和實(shí)踐者更容易為推薦系統(tǒng)開發(fā)、訓(xùn)練和評(píng)估新的算法,特別是用于優(yōu)化擴(kuò)展范圍內(nèi)的系統(tǒng)行為、捕獲復(fù)雜的多智能體交互和激勵(lì)的算法,或者兩者兼而有之。我們還調(diào)查了越來(lái)越現(xiàn)實(shí)的用戶模型的發(fā)布,這些模型可以作為研究社區(qū)的基準(zhǔn),以及使用RecSim NG促進(jìn)“sim2real”傳輸?shù)姆椒ā?/p>谷歌開源下一代推薦系統(tǒng)模擬器-RecSim NG
總結(jié)
以上是生活随笔為你收集整理的谷歌开源下一代推荐系统模拟器:RecSim NG的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 搜推广遇上用户画像:Lookalike相
- 下一篇: 入坑推荐系统,从Google这篇开始