Deep GSP : 面向多目标优化的工业界广告智能拍卖机制
丨目錄:
? ?· 背景
? ?· 問(wèn)題定義
? ? ·??Deep GSP
?? · 實(shí)驗(yàn)
?? · 與現(xiàn)有學(xué)術(shù)界和工業(yè)界類似方案的差異
?? · 展望
?? · 關(guān)于我們
?? · 參考文獻(xiàn)
??背景
廣告拍賣機(jī)制是對(duì)競(jìng)爭(zhēng)性資源的一種高效的市場(chǎng)化分配方式。電商廣告中的拍賣機(jī)制設(shè)計(jì)(Mechanism Design in Online E-commerce Advertising),旨在從平臺(tái)視角出發(fā)制定拍賣策略,通過(guò)“流量分配” 和“扣費(fèi)”兩個(gè)抓?,引導(dǎo)廣告主有序競(jìng)爭(zhēng),并使得流量博弈趨向優(yōu)化廣告主、平臺(tái)、媒體多方利益。
信息流廣告全面進(jìn)入重用戶體驗(yàn)的時(shí)代,廣告分配機(jī)制也需要兼顧廣告主訴求、用戶體驗(yàn)、廣告消耗等多個(gè)目標(biāo)的影響,平臺(tái)機(jī)制不僅需要對(duì)收入負(fù)責(zé),還需要對(duì)整個(gè)競(jìng)價(jià)系統(tǒng)的長(zhǎng)期健康穩(wěn)定負(fù)責(zé)。這一問(wèn)題不同于經(jīng)典的多目標(biāo)優(yōu)化問(wèn)題或拍賣機(jī)制問(wèn)題的研究:
動(dòng)態(tài)博弈環(huán)境下的目標(biāo)優(yōu)化。在線電商廣告系統(tǒng)中,不同利益方之間的優(yōu)化訴求可能存在沖突(例如平臺(tái)收入和用戶體驗(yàn)),且不同利益方均具有理性心智,在一個(gè)博弈環(huán)境下進(jìn)行動(dòng)態(tài)交互,這不同于傳統(tǒng)的靜態(tài)多目標(biāo)優(yōu)化問(wèn)題。
面向多目標(biāo)的拍賣機(jī)制設(shè)計(jì)。傳統(tǒng)的機(jī)制設(shè)計(jì)方法往往只考慮優(yōu)化平臺(tái)的收入或社會(huì)福利(social welfare,平臺(tái)收入和廣告主的預(yù)期收益),極少同時(shí)考慮其他多個(gè)指標(biāo)(例如點(diǎn)擊、轉(zhuǎn)化、收藏加購(gòu)、客戶體驗(yàn)等指標(biāo))。
因此我們需要考慮在多利益方的動(dòng)態(tài)博弈場(chǎng)景下建模并優(yōu)化多個(gè)目標(biāo)。
??問(wèn)題定義
我們定義電商廣告場(chǎng)景下,多利益方(廣告主、用戶、平臺(tái))博弈背景下的多訴求指標(biāo)優(yōu)化問(wèn)題(Multiple Stakeholders' Ad Performance Objectives Optimization in the Competitive E-commerce Advertising):
402 Payment Required
其中表示要優(yōu)化的機(jī)制(即分配和扣費(fèi)規(guī)則);代表各利益方的訴求指標(biāo)集合,如:平臺(tái)收入、點(diǎn)擊、轉(zhuǎn)化、收藏加購(gòu)、成交量等等,所有訴求指標(biāo)通過(guò)預(yù)先給定的重要性權(quán)重求得聚合目標(biāo)函數(shù)。同時(shí),在優(yōu)化過(guò)程中需要滿足兩個(gè)關(guān)于機(jī)制屬性的約束:
博弈均衡約束(Game Equilibriium Contraints):所有廣告主(競(jìng)價(jià)者)在當(dāng)前機(jī)制下能夠達(dá)到博弈均衡狀態(tài),在當(dāng)前狀態(tài)下廣告主對(duì)分配結(jié)果感到滿意(即分配結(jié)果的改變不能使廣告主的收益變多)。在算法博弈論(Algorithmic Game Theory)領(lǐng)域,有一些和拍賣機(jī)制相關(guān)的博弈均衡概念。例如經(jīng)典的Myerson定理證明了:如果一個(gè)機(jī)制在單坑拍賣場(chǎng)景中是單調(diào)分配(Monotone Allocation),且扣費(fèi)為保持當(dāng)前分配下的最小出價(jià)(critical bid based pricing),那么這個(gè)機(jī)制是激勵(lì)兼容(Incentive-Compatible, IC)[1] 的:
THEOREM 1 (Single Slot Incencentive-Compatible)[1]. A single slot auction mechanism is ?incentive-compatible if and only if the allocation scheme is monotone, i.e., the winning bidder would still win the auction if she reports a higher bid, and the pricing rule is based on the critical bid, which is the minimum bid that the winning bidder needs to report to maintain the winning state:
402 Payment Required
402 Payment Required
而對(duì)于多坑拍賣(multi-slot auction),我們考慮對(duì)稱納什均衡(Symmetric Nash Equilibrium, SNE)[2]:
THEOREM 2 (Multi-Slot Symmetric Nash Equilibrium)[2] An auction mechanism satisfies symmetric Nash equilibrium (SNE) if and only if each bidder in this equilibrium prefer her current allocated slot to any other slot :
where is the inherent click-through rate of the slot .
它表示每個(gè)廣告主在平臺(tái)分配給的坑位下utility最大,不會(huì)嫉妒其他坑位。
機(jī)制的平滑切換約束(Smooth Transition Contraints)。在線廣告系統(tǒng)的動(dòng)態(tài)性很強(qiáng),不同利益方在不同時(shí)刻的優(yōu)化訴求也不盡相同,當(dāng)機(jī)制從服務(wù)于一個(gè)目標(biāo)切換到另一目標(biāo)時(shí),應(yīng)該保證各方利益指標(biāo)平穩(wěn)過(guò)渡,即機(jī)制的平滑切換。可以用如下公式表示:
其中表示一個(gè)benchmark機(jī)制,表示廣告主utility的一個(gè)下界,即機(jī)制在優(yōu)化過(guò)程中不應(yīng)低于這個(gè)下界。
解決這一問(wèn)題有兩個(gè)難點(diǎn):(1)許多優(yōu)化訴求指標(biāo)難以精確估計(jì)(例如成交額、商品收藏加購(gòu)量等),無(wú)法得到精確的解析形式,只能通過(guò)真實(shí)反饋的方式才能獲得。此外,不同階段的優(yōu)化目標(biāo)可能不一樣(例如大促期間平臺(tái)機(jī)制更傾向于成交,而日常期間更傾向于消耗),如何以一種更靈活的優(yōu)化方式給予平臺(tái)機(jī)制更強(qiáng)的調(diào)控能力。(2)需要一種簡(jiǎn)潔的數(shù)學(xué)形式表達(dá)機(jī)制需要滿足的屬性(博弈均衡/平滑切換),并將其融入到機(jī)制的優(yōu)化過(guò)程中。對(duì)于傳統(tǒng)的GSP機(jī)制,盡管一些博弈論方面的理論工作已經(jīng)證明GSP在博弈均衡方面有較好的保障,但GSP僅能優(yōu)化平臺(tái)收入,無(wú)法對(duì)任意給定的多訴求指標(biāo)進(jìn)行優(yōu)化;而對(duì)于工業(yè)界比較常用的uGSP機(jī)制,其對(duì)各訴求指標(biāo)的預(yù)估值(例如pctr/pcvr等)較為依賴,很難根據(jù)流量波動(dòng)和預(yù)估不精準(zhǔn)做動(dòng)態(tài)調(diào)整,缺乏直接對(duì)標(biāo)終局效果的自適應(yīng)調(diào)控能力。
我們通過(guò)引入深度神經(jīng)網(wǎng)絡(luò)的參數(shù)化模型和基于后驗(yàn)真實(shí)反饋的端到端策略優(yōu)化來(lái)求解第一個(gè)問(wèn)題,通過(guò)傳統(tǒng)機(jī)制在博弈均衡性質(zhì)上的一些先驗(yàn)知識(shí)并融入到模型的損失函數(shù)來(lái)解決第二個(gè)難點(diǎn)。
??Deep GSP:面向多目標(biāo)優(yōu)化的工業(yè)界廣告智能拍賣機(jī)制
我們提出一種面向多目標(biāo)優(yōu)化的廣告智能拍賣機(jī)制Deep GSP(Deep GSP Mechanism)。Deep GSP在傳統(tǒng)GSP機(jī)制的基礎(chǔ)上通過(guò)引入深度神經(jīng)網(wǎng)絡(luò)來(lái)提升其分配能力,并通過(guò)強(qiáng)化學(xué)習(xí)朝著提升給定的多利益方目標(biāo)的方向直接優(yōu)化這一策略模型的參數(shù);在扣費(fèi)上Deep GSP延續(xù)GSP的二價(jià)計(jì)費(fèi),模型的優(yōu)化在滿足機(jī)制激勵(lì)兼容/機(jī)制平滑切換的條件下進(jìn)行。不同于GSP/uGSP等機(jī)制在計(jì)算rank score時(shí)嚴(yán)重依賴預(yù)估值,Deep GSP機(jī)制的優(yōu)化過(guò)程是基于真實(shí)反饋進(jìn)行的,因此也可以支撐任意定制目標(biāo)的優(yōu)化,是一種基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法。
機(jī)制設(shè)計(jì)
Deep GSP使用基于深度神經(jīng)網(wǎng)絡(luò)的rank score function代替?zhèn)鹘y(tǒng)GSP機(jī)制中的Ecpm排序。將廣告主出價(jià)、廣告特征、用戶信息、廣告主營(yíng)偏好等作為特征,映射到一個(gè)連續(xù)實(shí)數(shù)值空間,表示這一請(qǐng)求下這一廣告的rank score。我們用符號(hào)表示神經(jīng)網(wǎng)絡(luò)計(jì)算出的第個(gè)廣告的rank score。而如何將機(jī)制的desirable properties與深度學(xué)習(xí)模型的端到端訓(xùn)練進(jìn)行融合是Deep GSP的核心問(wèn)題:
博弈均衡約束(Game Equilibriium Contraints)
為了滿足機(jī)制的博弈均衡性,深度排序分函數(shù)應(yīng)該滿足在出價(jià)這一維特征上的單調(diào)性,即廣告主提升其出價(jià)不會(huì)拿到更差的流量分配結(jié)果;與此同時(shí),其扣費(fèi)應(yīng)為拿到其分配結(jié)果所應(yīng)給出的最小報(bào)價(jià)(即最小扣費(fèi)原則)。這要求深度排序分函數(shù)同時(shí)具有單調(diào)性和可以求逆的特性,我們提出“單點(diǎn)單調(diào)損失”和“近似可逆扣費(fèi)”來(lái)實(shí)現(xiàn):
(1)單點(diǎn)單調(diào)損失(Point-wise Monotonocity Loss,PML)
不失一般性,我們將深度排序分函數(shù)形式化如下,表示出價(jià)和深度模型輸出的乘積:
為了保證單調(diào)分配,在上的偏導(dǎo)數(shù)應(yīng)大于等于0,則可以設(shè)置單點(diǎn)單調(diào)損失函數(shù)如下:
402 Payment Required
該損失函數(shù)是一種基于數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)計(jì)算單調(diào)性損失,即當(dāng)排序分函數(shù)的輸出在出價(jià)這一維特征的導(dǎo)數(shù)小于0時(shí),在模型訓(xùn)練中施加一個(gè)懲罰。
(2)近似可逆扣費(fèi)(Approximate Inverse Operation, AIO)
可逆扣費(fèi)的計(jì)算可以近似如下:
在離線的實(shí)驗(yàn)中我們觀察到rankscore模型在加入PWL后其單調(diào)性可以基本得到保障(如下圖),近似扣費(fèi)解和離線計(jì)算的真實(shí)值之間的差異也較小(Table2中的PER值,表示近似值與二分查找計(jì)算出的真實(shí)值之間的比值)。
機(jī)制的平滑切換約束(Smooth Transition Contraints)
進(jìn)一步,在明確了模型的定義和博弈均衡約束的具體實(shí)現(xiàn)后,我們?cè)O(shè)計(jì)具體的模型優(yōu)化方法,并將平滑切換的機(jī)制特性作為約束融入其中。由于真實(shí)反饋信號(hào)的鏈路很長(zhǎng)且不可解析(比如收藏加購(gòu)量、成交量等),而預(yù)估模型也往往存在估計(jì)偏差(例如點(diǎn)擊率、轉(zhuǎn)化率預(yù)估模型),我們將Deep GSP的深度排序分模型的優(yōu)化建模成一個(gè)決策問(wèn)題,并使用基于真實(shí)反饋的model-free RL進(jìn)行優(yōu)化。排序分策略的狀態(tài)即上文介紹過(guò)的輸入特征;動(dòng)作為排序分?jǐn)?shù)。獎(jiǎng)賞函數(shù)包含兩部分:一部分為優(yōu)化目標(biāo),即加權(quán)聚合的多訴求指標(biāo);另一部分通過(guò)使用多目標(biāo)優(yōu)化中常用的技術(shù)來(lái)衡量機(jī)制改變后對(duì)廣告主utility的波動(dòng),從而實(shí)現(xiàn)平滑切換:
402 Payment Required
機(jī)制實(shí)現(xiàn)
如前面介紹,在真實(shí)電商廣告的場(chǎng)景中,許多優(yōu)化訴求指標(biāo)難以得到精確的可解析形式(例如商品收藏加購(gòu)量等),且只能通過(guò)真實(shí)反饋的方式才能獲得。這一特點(diǎn)與強(qiáng)化學(xué)習(xí)中的探索過(guò)程比較類似,因此我們將機(jī)制分配模型的學(xué)習(xí)建模成一個(gè)策略學(xué)習(xí)問(wèn)題(Policy Optimization),并使用深度強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化其參數(shù)。我們定義這一決策問(wèn)題的幾個(gè)要素:
狀態(tài):廣告主對(duì)流量的出價(jià)、廣告特征(類別、點(diǎn)擊率預(yù)估值、轉(zhuǎn)化率預(yù)估值等)、用戶特征(性別、年齡、收入等)以及廣告主信息(預(yù)算、營(yíng)銷傾向等)以及一些其他上下文信息(場(chǎng)景、session內(nèi)全局統(tǒng)計(jì)信息等等)。
動(dòng)作:每個(gè)廣告的rankscore。
獎(jiǎng)勵(lì):每個(gè)廣告在場(chǎng)景中曝光后的多目標(biāo)加權(quán)聚合值(需經(jīng)過(guò)量綱統(tǒng)一處理)。
狀態(tài)轉(zhuǎn)移:在當(dāng)前的版本下,Deep GSP暫時(shí)不考慮機(jī)制分配策略的長(zhǎng)期價(jià)值(即episode_length=1),當(dāng)然這是未來(lái)值得探索的一個(gè)方向。
我們使用深度強(qiáng)化學(xué)習(xí)中一種經(jīng)典的連續(xù)控制學(xué)習(xí)算法,深度確定性策略梯度(Deep Deterministic Policy Gradient)來(lái)實(shí)現(xiàn)模型優(yōu)化。具體地,設(shè)計(jì)一個(gè)值函數(shù)()和一個(gè)策略函數(shù)(),策略函數(shù)()即要優(yōu)化的深度rankscore模型,值函數(shù)()來(lái)評(píng)估一組 [狀態(tài),動(dòng)作] 對(duì)的價(jià)值(使用獎(jiǎng)勵(lì)函數(shù)擬合),并通過(guò)路徑梯度求導(dǎo)來(lái)指導(dǎo)策略函數(shù)的訓(xùn)練。兩個(gè)模型的具體優(yōu)化方法如下:
402 Payment Required
整個(gè)Deep GSP的訓(xùn)練流程與真實(shí)反饋的交互過(guò)程如下圖所示:
? Deep GSP機(jī)制在部署后的執(zhí)行流程如下:
分配:候選廣告集合中的所有廣告根據(jù)網(wǎng)絡(luò)輸出的rankscore進(jìn)行排序(倒排),排在前位(即具體場(chǎng)景中需要展現(xiàn)的廣告數(shù)量)的廣告勝出并展現(xiàn)。
扣費(fèi):每一個(gè)勝出廣告根據(jù)其下一位廣告的排序分通過(guò)深度打分函數(shù)求逆(即近似可逆扣費(fèi)方案)計(jì)算其相應(yīng)的扣費(fèi)。
Deep GSP能夠根據(jù)真實(shí)的多目標(biāo)反饋信號(hào)進(jìn)行端到端的優(yōu)化,克服訴求指標(biāo)難以建模預(yù)估的不足,而且對(duì)真實(shí)在線廣告系統(tǒng)的動(dòng)態(tài)波動(dòng)具有較好的魯棒性。
??實(shí)驗(yàn)
多目標(biāo)優(yōu)化能力&機(jī)制性質(zhì)保證
為了能夠充分驗(yàn)證Deep GSP在優(yōu)化多目標(biāo)上的表現(xiàn),以及機(jī)制內(nèi)在機(jī)理,我們?cè)陔x線設(shè)計(jì)實(shí)驗(yàn)對(duì)這些進(jìn)行充分的分析。
首先在離線側(cè)我們基于XRL強(qiáng)化學(xué)習(xí)平臺(tái)搭建了一個(gè)模擬器,并利用點(diǎn)擊率、轉(zhuǎn)化率、收藏加購(gòu)率等指標(biāo)的分場(chǎng)景校準(zhǔn)值來(lái)模擬真實(shí)反饋。下圖分別展示了四項(xiàng)實(shí)驗(yàn)的優(yōu)化指標(biāo)對(duì)比:RPM/CTR、RPM/ACR、RPM/CVR、RPM/GPM。我們發(fā)現(xiàn)相比于GSP和uGSP,Deep GSP能在各個(gè)指標(biāo)上優(yōu)化的更充分,尤其是在其他指標(biāo)持平的情況下能夠顯著提升收入,體現(xiàn)出了深度模型的優(yōu)化能力。
下表展示了在不同優(yōu)化訴求場(chǎng)景下的有關(guān)博弈均衡設(shè)計(jì)的指標(biāo)。其中單調(diào)性指標(biāo)(表示rank score排序與其對(duì)應(yīng)的bid在排序上的一致性,使用spearman相關(guān)系數(shù)計(jì)算來(lái)實(shí)現(xiàn))、扣費(fèi)時(shí)引入的逆計(jì)算誤差指標(biāo)(表示近似扣費(fèi)與離線通過(guò)二分搜索計(jì)算出的真實(shí)扣費(fèi)之間的比值)均與理想值1較為接近,證明了PML和AIO的誤差較小。Table 2中最后一列IC表示通過(guò)拍賣日志數(shù)據(jù)離線計(jì)算出的激勵(lì)兼容指標(biāo)(Data-driven IC [3]),其值越接近于1表示機(jī)制越趨近于激勵(lì)兼容。
最后我們驗(yàn)證了機(jī)制的“平滑切換”功能。下圖展示了當(dāng)機(jī)制目標(biāo)從“CTR”切換至“RPM”時(shí),廣告主Utility的變化,可以發(fā)現(xiàn)廣告主效果會(huì)隨著參數(shù)的提升呈緩慢下降趨勢(shì),而非劇烈震蕩。
??與現(xiàn)有學(xué)術(shù)界和工業(yè)界類似方案的差異
在學(xué)術(shù)界已有一些研究工作focus在深度學(xué)習(xí)和機(jī)制設(shè)計(jì)的結(jié)合。例如ICML19中的工作 [4]提出了端到端的分配網(wǎng)絡(luò)和計(jì)費(fèi)網(wǎng)絡(luò)RegretNet,并將機(jī)制的IC約束融入到網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)或優(yōu)化的loss當(dāng)中。RMD用提出了基于強(qiáng)化學(xué)習(xí)的拍賣機(jī)制來(lái)優(yōu)化收入等。但這其中大部分的研究還是在經(jīng)典拍賣場(chǎng)景中,其數(shù)據(jù)來(lái)自于模擬的bidder value distribution,和真實(shí)廣告拍賣場(chǎng)景中的數(shù)據(jù)分布差異較大。在優(yōu)化多方利益這個(gè)問(wèn)題上,現(xiàn)在工業(yè)界也有一些通過(guò)業(yè)務(wù)經(jīng)驗(yàn)事先設(shè)定排序公式,并通過(guò)深度學(xué)習(xí)(或強(qiáng)化學(xué)習(xí))來(lái)預(yù)測(cè)(或優(yōu)化)每條流量中的參數(shù),得到流量維度的“個(gè)性化排序公式”,以實(shí)現(xiàn)在不同的流量?jī)?yōu)化不同的指標(biāo),并做到所有流量指標(biāo)的提升,上述的算法在各自的業(yè)務(wù)中都取得了顯著的效果提升。
從技術(shù)本質(zhì)上來(lái)看,這些工作都是因?yàn)樵趶V告場(chǎng)景中,多方利益需要協(xié)同優(yōu)化,實(shí)際場(chǎng)景復(fù)雜,傳統(tǒng)的GSP/UGSP拍賣機(jī)制已無(wú)法更好的實(shí)現(xiàn)動(dòng)態(tài)博弈場(chǎng)景下的效果最優(yōu),進(jìn)而尋求一種新的拍賣機(jī)制來(lái)解決解決工業(yè)場(chǎng)景上面向真實(shí)效果優(yōu)化。但拍賣機(jī)制的設(shè)計(jì)不是單純的優(yōu)化問(wèn)題,還需要考慮廣告主的理性行為,即因?yàn)闄C(jī)制的變化而導(dǎo)致廣告主策略行為的變化,并可能進(jìn)一步導(dǎo)致優(yōu)化效果的變化。個(gè)性化排序公式是解決這個(gè)問(wèn)題的一個(gè)途徑,在拍賣機(jī)制設(shè)計(jì)上可以沿用GSP框架從而省去對(duì)機(jī)制性質(zhì)的深究。但同時(shí)這種實(shí)現(xiàn)方式由于事先確定了分配函數(shù)的參數(shù)化形式,使得其在擴(kuò)充特征空間或優(yōu)化更多樣目標(biāo)時(shí)可能受到可擴(kuò)展性的限制。Deep GSP正是在這樣的背景下,從拍賣機(jī)制設(shè)計(jì)的本質(zhì)出發(fā),將模型學(xué)習(xí)和拍賣機(jī)制深度融合,建模多利益方的“動(dòng)態(tài)博弈”場(chǎng)景,并面向后驗(yàn)任意多目標(biāo)來(lái)進(jìn)行優(yōu)化,同時(shí)將機(jī)制性質(zhì)融合在神經(jīng)網(wǎng)絡(luò)的優(yōu)化過(guò)程中,充分釋放模型優(yōu)化多目標(biāo)的能力。Deep GSP相關(guān)工作論文發(fā)表在WSDM 2021,感興趣同學(xué)也可以查閱原文了解更多。
論文下載:https://arxiv.org/abs/2012.02930
??展望
Deep GSP是阿里媽媽展示廣告機(jī)制策略團(tuán)隊(duì)將“拍賣機(jī)制”與“端到端學(xué)習(xí)”結(jié)合的一次嘗試,在后續(xù)的工作中,我們也在繼續(xù)“模型算法優(yōu)化+機(jī)制博弈約束”這種“一體兩面”的研究思路,在算法設(shè)計(jì)方面提高建模能力和優(yōu)化能力;在理論方面,研究learning-based機(jī)制的激勵(lì)兼容性,探究如何將其更好的融入算法設(shè)計(jì)中,并進(jìn)一步嘗試在機(jī)制的可解釋性上有所突破。
??關(guān)于我們
我們是阿里媽媽展示廣告機(jī)制策略算法團(tuán)隊(duì),致力于不斷優(yōu)化阿里展示廣告技術(shù)體系,驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng),推動(dòng)技術(shù)持續(xù)創(chuàng)新;我們不斷升級(jí)工程架構(gòu)以支撐阿里媽媽展示廣告業(yè)務(wù)穩(wěn)健&高效迭代,深挖商業(yè)化價(jià)值并優(yōu)化廣告主投放效果,孵化創(chuàng)新產(chǎn)品和創(chuàng)新商業(yè)化模式,優(yōu)化廣告生態(tài)健壯性;我們驅(qū)動(dòng)機(jī)制升級(jí),并已邁入 Deep Learning for Mechanisms 時(shí)代,團(tuán)隊(duì)創(chuàng)新工作發(fā)表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等領(lǐng)域知名會(huì)議。在此真誠(chéng)歡迎有ML背景的同學(xué)加入我們!
投遞簡(jiǎn)歷郵箱(請(qǐng)注明-展示廣告機(jī)制策略):
alimama_tech@service.alibaba.com
參考文獻(xiàn):
[1] Myerson, R. B. (1981). Optimal auction design.?Mathematics of operations research,?6(1), 58-73.
[2] Varian, H. R. (2007). Position auctions.?international Journal of industrial Organization,?25(6), 1163-1178.
[3] Yuan Deng, Sébastien Lahaie, Vahab Mirrokni, and Song Zuo. 2020. A data-driven metric of incentive compatibility. In Proceedings of The Web Conference 2020. 1796–1806.
[4] Dütting, P., Feng, Z., Narasimhan, H., Parkes, D., & Ravindranath, S. S. (2019, May). Optimal auctions through deep learning. In?International Conference on Machine Learning?(pp. 1706-1715). PMLR.
[5] Tacchetti, A., Strouse, D. J., Garnelo, M., Graepel, T., & Bachrach, Y. (2019). A neural architecture for designing truthful and efficient auctions.?arXiv preprint arXiv:1907.05181.
[6] Shen, W., Tang, P., & Zuo, S. (2019, May). Automated mechanism design via neural networks. In?Proceedings of the 18th International Conference on Autonomous Agents and Multiagent Systems?(pp. 215-223).
END
也許你還想看
丨KDD2021 | USCB:展示廣告約束出價(jià)問(wèn)題的通用解決方案
丨KDD 2021 | Neural Auction: 電商廣告中的端到端機(jī)制優(yōu)化方法
丨WSDM 2022 | 一種用于在線廣告自動(dòng)競(jìng)價(jià)的協(xié)作競(jìng)爭(zhēng)多智能體框架
歡迎關(guān)注「阿里媽媽技術(shù)」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結(jié)
以上是生活随笔為你收集整理的Deep GSP : 面向多目标优化的工业界广告智能拍卖机制的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: WSDM 2022 | 一种用于在线广告
- 下一篇: 从二值检索到层次竞买图——让搜索广告关键