當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

阿里广告技术最新突破：全链路联动-面向最终目标的全链路一致性建模

發布時間：2024/10/8 编程问答 89 豆豆

生活随笔收集整理的這篇文章主要介紹了阿里广告技术最新突破：全链路联动-面向最终目标的全链路一致性建模小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者?|?王哲

單位?|?阿里媽媽展示廣告算法專家

研究方向 |?廣告/推薦/深度學習/NLP

引言

深度學習時代的到來給搜推廣業務帶來了一波巨大的紅利，一方面是深度學習模型帶來的技術紅利，另一方面是 GPU/NPU 等硬件帶來的算力紅利。但是隨著業務的不斷發展，技術水位的不斷提高，深度學習時代的技術和算力紅利也漸漸耗盡，級聯排序系統的召回/粗排/精排/重排等各模塊的獨立迭代也逐漸遇到瓶頸。后深度學習時代如何進一步破局，技術如何進一步突破，成為很多團隊亟待解決的問題。?

我在 2019 年將阿里媽媽展示廣告的粗排排序系統從向量內積模型升級成實時深度全連接模型 COLD 之后，也遇到了同樣的問題，粗排和精排 PCTR 模型的差距已經很小，進一步的優化升級難以取得進一步的線上收益。

為了解決這個問題，我站在整個系統鏈路的角度，在考慮模塊自身特點和算力約束的情況下，提出了全鏈路聯動這一全新的技術方向，解決了各模塊因為目標不一致帶來的鏈路損耗和目標對齊問題，同時解決各模塊因為訓練和在線推理不一致帶來的的樣本選擇偏差問題。目前這個工作已經在阿里媽媽展示廣告主要業務落地全量，給阿里廣告收入帶來 10 個點以上的巨大增長。

背景及現狀

阿里媽媽展示廣告采用多階段級聯排序架構，對于前鏈路系統（召回/粗排）來說，需要在滿足算力 RT 約束的情況下，選出滿足后鏈路需求的集合，各模塊情況如下：

近些年，深度學習技術在搜索推薦廣告等場景取得巨大成功。技術和算力上的紅利極大的促進了業務的發展。但是隨著存量紅利逐漸消耗殆盡，很多模塊的單點迭代和技術創新都逐漸進入深水區，逐漸遇到瓶頸。

問題和挑戰

我在 2019 年推動將阿里媽媽展示廣告的粗排排序系統從向量內積模型升級成實時深度全連接模型 COLD，在引入交叉特征的基礎上可以進行實時訓練，實時打分。此后因為粗排和精排 PCTR 模型能力差距得到顯著縮小，粗排 PCTR 主模型在技術上的單點迭代升級開始遇到瓶頸。為了給粗排以及整個展示廣告技術打開發展空間，我的目光從粗排轉向整個級聯排序系統，站在全鏈路的視角重新審視整個展示廣告的技術，我發現因為打分規模/算力 RT /獨立迭代等因素影響，各模塊存在技術水位差以及目標不一致帶來的鏈路損耗問題：

召回：很多召回通道都是先興趣最大化再 RPM 最大化，和系統平臺側的主要目標 RPM 存在 gap，有可能會導致一些中低興趣但是高 RPM 的廣告無法進入到后鏈路。
粗排：按照 ecpm=pctr*init_bid 的方式進行排序，粗排使用的是廣告主的原始 bid，但是精排會基于多目標模型打分（點擊率/收藏加購率/成交率模型）以及策略調價模塊（基于廣告主和平臺訴求對廣告出價進行調整）對廣告主出價進行調整，因為在 bid 上和精排存在 gap，同時粗排在 pctr 模型能力上和精排也存在差距。

同時整個級聯排序系統還存在明顯的樣本選擇偏差問題（SSB，Sample Selection Bias）：因為模型訓練基于的展現反饋樣本空間和線上打分樣本空間存在較大的分布差異，影響了模型的推理效果。越靠近前鏈路，這個問題就越嚴重。

技術方案概述

解決技術水位差和目標不一致問題的一條傳統技術路線，是將精排的精準值預估能力向前鏈路遷移。粗排的發展歷史很好的詮釋了這條路線：從 LR 等傳統機器學習模型到向量內積模型，再到現在的實時全連接結構 COLD，這些技術均先在精排落地，后面再結合粗排的算力RT特點進行遷移適配。

但是隨著迭代進入深水區，這種方式的弊端也逐漸顯現。一方面是因為精排內部逐漸復雜化（預估目標越來越多，模型越來越復雜，調價策略等邏輯也越來越多）。另一方面是越往前面臨的打分規模也越大，特別是召回階段打分規模在千萬級別。將精排技術向前鏈路遷移面臨的算力 RT 代價及維護成本越來越高，邊際效應遞減也越來越明顯，導致很多精排技術難以直接落地。如果繼續沿著這條技術路線迭代，是否存在新的破局空間？

沿著精準值預估的技術路線，我在召回提出了新的可以面向任意目標的全庫向量召回技術 PDM（Point based Deep Match Model）。在粗排提出了解決粗排樣本選擇偏差問題的粗排 ESDM（Entire Space Domain Adaptation Model）模型。

除了精準值預估技術路線之外，是否存在另外一條算力 RT 代價較低，遷移成本可控的技術路線呢？

仔細思考發現前鏈路存在幾個特點：

前鏈路的目標是選擇滿足后鏈路需要的集合。是否可以放棄對值的精準預估，以集合選擇為目標，從而釋放一部分算力？
精排階段的排序結果，是通過用戶反饋數據->模型訓練->多目標模型打分->策略調價這樣一條復雜路徑處理之后得到的。是否可以跳過精排內部復雜的處理過程，以排序結果本身為學習樣本和目標，直接進行端到端的學習？這種精排加工處理后的數據，和用戶反饋數據相比，學習難度可能更低。

基于上面的特點，我提出了一條全新的以學習后鏈路為目標的集合選擇技術路線，改變了全鏈路技術體系只依賴用戶展示反饋數據的現狀，將精排階段的排序樣本引入到前鏈路召回和粗排的模型學習過程中，在基本不增加算力 RT 的情況下提升了全鏈路的目標對齊能力。我在召回提出了通過端到端 Learning to Rank 的方式，以學習后鏈路的序為目標的召回技術 LDM（Learning to Rank based Deep Match Model），并在一定程度上解決了召回階段的樣本選擇偏差問題。

召回 LDM 的成功證明了以精排階段的序為目標，通過 LTR 技術端到端進行學習，在在展示廣告業務是可行的，也給粗排的進一步迭代打開了思路。因此我進一步提出了通過端到端 Learning to Rank 方式，以學習后鏈路的序為目標的粗排LBDM（Learning to Rank based and Bid-Sensitive Deep Pre-Ranking Model）模型，同時創新性地解決了 LTR 技術在 bid 敏感性上的問題，保證了廣告主 bid 對排序的單調翹動能力。

對于樣本選擇偏差（Sample Selection Bias，SSB）?問題，在缺乏監督信號的情況下想要完全解決是很難的。同時精排模型由于模型能力更強，對于未曝光樣本的打分更準確。

對于樣本選擇偏差問題來說，如何定義問題比解決問題更為重要！

對于級聯排序系統中的前鏈路模塊來說（召回/粗排），樣本選擇偏差問題可以拆解成兩個子問題：

提升前鏈路模塊和精排模型在自身打分空間上的打分一致性。
解決精排的樣本選擇偏差問題。

這里先解決第一個子問題，即提升前鏈路模型和精排模型在模塊自身打分空間上的一致性問題，這樣可以在不動精排的情況下也能拿到線上收益。后面再集中精力攻克精排的樣本選擇偏差問題。

精準值預估技術

5.1 面向任意目標的全庫向量召回技術PDM

召回階段需要對齊的目標，按形式往往可以拆分成兩種：

直接目標：如 CTR。這類目標一般可以直接基于線上的 feedback 反饋數據用全庫召回的模型進行預估。例如對 CTR 來說，因為僅僅需要保證點擊樣本排到未點擊樣本前面，甚至不需要保證模型的 PCTR 預估準度，在構造樣本的時候一般可以用點擊樣本作為正樣本，隨機采樣作為負樣本。
間接目標：如 RPM（RPM=CTR*Bid），GMV（GMV=CTCVR*Price）等。這類目標的排序公式，往往存在一個或多個加權因子，難以直接用線上的反饋數據（點擊，轉化等）表示。這個給召回建模帶來了很大的困難。

RPM 是一個很典型的間接目標，也是展示廣告在平臺側最重要的指標之一。如何在千萬召回規模下，在滿足算力 RT 約束的情況下，找到 RPM 最大的廣告是一個業界技術難點。這里我突破了這個技術難點，提出了新的可以面向任意目標的向量召回技術 PDM（Point based Deep Match Model），不僅可以解決召回階段的 RPM 最大化問題，也可以用于 GMV 等其他間接指標。

首先引入向量內積最大化檢索技術。這里選擇 ALSH（Asymmetric LSH for Sublinear Time Maximum Inner Product Search）算法，因為該方法無需訓練，并且效果更好。后面的技術難點就轉化成了如何將 eCPM（eCPM=PCTR*BID）表達成兩個向量內積的形式，對于 PCTR 部分，訓練了一個雙塔結構的向量 PCTR 模型，對于 bid 部分使用廣告主的原始 bid，所以：

eCPM 可以表示成：

sigmoid 函數有一個特點，在值比較少的時候（一般是少于 0.1 的時候）, 公式可以進一步近似成：

對兩邊同時取對數，可得：

為了進一步將公式表達成兩個向量內積的形式，這里用 ua 的期望來代替 ua：

經過轉換，最終將 eCPM 表達成了兩個向量內積的形式。后續通過向量內積最大化檢索算法，即可以較低的算力和 RT，在全庫召回 RPM 最大的廣告集合。這種技術不僅可以用于 eCPM 最大化召回，也可以用于任意目標，例如要實現 GMV 最大化召回，只需訓練一個 PCTCVR 向量模型，并用價格進行加權，即可召回 GMV 最大的商品。

對于向量 PCTR 預估模型，實驗發現直接使用曝光點擊樣本訓練一個雙塔結構的向量內積模型效果很差。因為曝光點擊樣本和召回面對的全庫樣本在分布上有很大的差異，即召回的樣本選擇偏差（SSB, Sample Selection Bias）問題。曝光點擊樣本屬于較難分類的樣本，模型能學會區分較難的樣本，并不代表也能對簡單樣本進行很好的區分。為了緩解模型在召回上的 SSB 問題，同時進一步提升和精排的對齊效果，這里做了如下技術改進：

首先是樣本層面，包含 clk/pv/unpv 樣本，這里 unpv 樣本指的是進入精排打分但是沒有展現的樣本。

其次在訓練和網絡結構層面：

向量模型和精排模型聯合訓練：向量模型和精排模型共享部分 embedding，同時向量模型僅在展現樣本上以交叉熵loss進行訓練，精排模型也僅在展現樣本上以交叉熵 loss 進行訓練。
batch 內隨機負采樣：為了提升模型對簡單樣本的區分能力，緩解 SSB 問題，這里引入隨機負樣本。為了減少實現成本，這里給每條點擊正樣本在 batch 內隨機選 k 個 ad 向量，和這條正樣本的 user 向量拼在一起組成隨機負樣本。為了避免隨機負樣本影響 pctr 預估精度，這里在原有雙塔網絡基礎上額外構建了一個雙塔網絡，新雙塔網絡和原雙塔網絡的前幾層參數共享，輸出為 aux_pctr。auc_pctr 會會引入隨機負樣本以交叉熵 loss 參與訓練。
unpv 樣本上的 distill：這里將精排未展現樣本以 distill 方式用精排 rankpctr 對向量模型訓練進行指導，通過這種方式來提升召回模型和精排模型在召回空間上的打分一致性，從而緩解召回階段的 SSB 問題，同時訓練過程中要通過 stop_gradient 的方式來屏蔽蒸餾 loss 對精排訓練的影響：

PDM 框架有如下優點：

將 pctr 和 bid 進行了解耦，當廣告主的 bid 發生變化以后，可以在不重新訓練模型，不重新產出向量的基礎上，通過對原廣告向量進行實時 bid 加權，來生成新的廣告向量，實現對廣告主調價的分鐘級響應。提升了召回階段對廣告主 bid 的敏感性。
可以實現策略的實時調控，通過調節 bid 權重來對 CTR 和 RPM 進行平衡，可控性強。
可以顯式地對齊后鏈路的各種間接目標，可解釋性強。

線上效果：CTR+1.5% , RPM+2%

5.2 全空間粗排ESDM模型

粗排模型往往使用 pv/click 樣本訓練，但是粗排在線推斷空間遠大于 pv/click 樣本空間，展示廣告目前粗排的打分量接近 2W，兩個空間樣本分布存在很大差異，粗排階段存在較嚴重的樣本選擇偏差（Sample Selection Bias，SSB）問題。

分析粗排和精排模型對 unpv/pv/clk 樣本的打分分布，也可以看到，粗排模型對于 pv/unpv 樣本的區分能力要弱于精排模型：?

對于粗排打分空間中的 unpv 樣本，要讓粗排模型在缺乏監督 label 的情況下進行精準預估是很困難的。之前也嘗試過通過引入外部樣本來緩解粗排的 SSB 問題，但是并沒有取得很好的效果。主要原因是因為外部樣本存在大量噪音，外部樣本去噪問題的解決難度并不比樣本選擇偏差問題低。

回到粗排的目標以及粗排精排的關系，重新思考樣本選擇偏差問題，這里我把粗排的 SSB 問題重新進行了定義，拆解成了兩個子問題：

粗排模型和精排模型在粗排打分空間上的分布一致性問題。

精排的樣本選擇偏差問題。

對于粗排模型和精排模型在粗排打分空間上的分布一致性問題，這里我提出了全空間粗排 ESDM (Entire Space Domain Adaptation Deep Pre-Ranking Model）模型來解決。而對于精排的樣本選擇偏差問題，可以考慮通過引入外部樣本或者在本場景引入探索機制來獲得無偏樣本等方式，來解決這個問題。?

樣本上，首先構建了一條包含 clk/pv/unpv 樣本的實時樣本流。

訓練上，粗排模型結構和實時深度全連接模型 COLD 保持一致，和精排模型一起進行聯合訓練，embedding 共享，其中精排模型只基于展現樣本通過交叉熵 loss_rank 進行訓練。粗排模型除了在展現樣本上以交叉熵 loss_dqm 進行訓練之外，針對 unpv 樣本，以知識蒸餾（Knowledge Distillation）的方式對精排模型 pctr 進行學習，通過 soft loss 的方式進行分布遷移：

為了提升模型對 pv/unpv 樣本的區分能力，這里還將 click 作為正樣本，pv 和 unpv 作為負樣本，以 hard loss 的方式引入進來，但是直接引入 unpv 樣本，會導致粗排模型的 pctr 預估準度受到影響。因此在粗排主模型結構上，額外引入一個輔助網絡，輔助網絡前幾層和主網絡共享，只在最后幾層有自己獨立的參數，輔助網絡輸出為 aux_pctr，將 hard_loss 作用到輔助網絡 aux_pctr 上，通過參數共享的方式間接影響主網絡：

最終 loss 為：

這里 pctr 得分，除了可以來自一起聯合訓練的精排模型之外，也可以使用線上精排模型打分的 pctr 分數，只不過考慮到在離線不一致等問題帶來的分布差異，最好在粗排的 aux_pctr 上去 distill。這樣的好處是粗排可以跟隨線上精排自動升級，維護成本較低，風險在于線上精排模型打分出現問題，也會影響到粗排訓練。

下面對比了一下粗排 ESDM 模型和 base 模型的打分分布，可以看到粗排 ESDM 模型對 pv/unpv 的區分能力得到顯著增強。同時在 pcoc（精排 pctr /粗排 pctr）指標上，粗排模型在 unpv 樣本上的 pcoc 從 1.6 降低到 1.1。這些說明粗排模型和精排模型在粗排打分空間上的打分一致性得到了加強，樣本選擇偏差問題得到緩解。?

線上效果：CTR+3% , RPM+1.5%

集合選擇技術

6.1 以學習后鏈路的序為目標的端到端召回技術LDM

基于精準值預估技術的召回 PDM 模型，使用的是廣告主的原始 bid，但是精排的策略調價模塊會在廣告主原始 bid 基礎上考慮廣告主和平臺利益對 bid 進行調整，因此 PDM 仍然存在目標對齊上的問題。

為了解決這個問題，我在召回階段提出了以精排階段的序為學習目標，通過端到端 Learning to Rank 的方式進行學習的召回技術 LDM（Learning to Rank based Deep Match Model）：?

首先引入同一次請求內，精排階段的參競日志，在構造樣本 pair 的時候把展現樣本做為正樣本，參競未展現樣本作為負樣本，讓模型學習將展現集合排在最前面，通過交叉熵 loss 進行學習。

這里仍然存在 SSB 問題，為了保證模型對簡單樣本的區分能力，同樣引入了隨機負采樣 loss，以展現作為正樣本，batch 內隨機采的作為負樣本。和召回 PDM 模型類似，同樣額外構建了另外一個雙塔網絡，和原雙塔網絡前幾層參數共享，新網絡以交叉熵 loss 的方式進行學習。

后面進一步嘗試了，將同一個 session 內的樣本，按最終系統目標排序后，進行分段，段間組 pair 并通過 pairwise loss 進行學習，但是沒有取得進一步的效果提升。推測原因是因為召回階段的精度需求沒有那么高。

召回 LDM 技術有如下優點：

通過端到端 LTR 的方式隱式地學習了后鏈路多目標打分和調價模型的信息，兼顧了平臺，廣告主及用戶訴求。
后鏈路升級后，通過精排參競日志樣本回流即可實現自行升級，維護成本較低。

線上效果：CTR+3% , RPM+4%

6.2 以學習后鏈路的序為目標的端到端粗排LBDM模型

展示廣告的粗排階段按照 = pctr*init_bid 的方式進行排序，而精排階段會基于多目標打分（點擊率/收藏加購率/成交率）的分數，通過策略調價模塊對 bid 進行調整。因此粗排在 bid 部分的和精排存在較大差異。而如果沿著精準值預估路線，直接將精排階段的多目標打分能力和策略調價能力遷移到粗排，會面臨巨大的算力 RT 開銷。

召回 LDM 模型的成功，證明了引入精排參競日志進行學習這條技術路線是可行的。因此我提出從集合選擇視角出發，在粗排階段通過端到端 Learning to Rank的方式，以精排階段最終的序為學習目標進行建模的粗排 LBDM 模型（Learning to Rank based and Bid-Sensitive Deep Pre-Ranking Model）。這種方式徹底改變了原有的數據循環鏈路，改變了原有只依賴廣告曝光展示樣本的方式，新增了從精排到粗排的數據循環通路。?

具體來說，這里首先構建了一條包含精排參競樣本的實時 ODL 數據流。?

然后取同一個 session 下的精排參競樣本，按最終排序進行分檔

檔間樣本兩兩組成 pair，檔內樣本不組 pair。因為粗排階段只需要選出 top k 集合，并不關心集合內的順序，因此通過這種構建 pair 的方式，來使粗排模型更貼近自己的實際目標。

接著基于 pairwise 的 loss 進行訓練：

模型結構上，和原來的實時深度全連接模型 COLD 保持一致，也包含用戶特征，廣告特征，交叉特征，實時特征等，整個模型實時訓練，實時打分。后面進一步嘗試了通過 listwise loss 的方式進行建模，但是沒有進一步的收益，因此最終線上仍然基于 pairwise 的 loss。

廣告 bid 是廣告主的重要抓手，廣告主通過對出價的調整參與到廣告系統的博弈中，保證廣告主出價對排序的單調翹動能力和敏感性至關重要，傳統的 pairwise loss 無法保證這一點。為了解決這個問題，我提出了新的 bid 單調型 pairwise loss：

新的 loss 可以保證，廣告主出價對排序的翹動能力是線性單調遞增的，同時和其他方式相比對訓練收斂的影響也比較小。

粗排 LBDM 模型線上打分階段，也采取 |ltr_score|*init_bid 的方式，模型是實時訓練，實時打分的，以保證對后鏈路分布的快速捕捉能力。這種方式完全兼容之前 pctr*init_bid 的排序方式，線上只需要把粗排 PCTR 模型替換成粗排 LBDM 模型即可，線上系統也不需要做任何改造。ltr_score 本身沒有物理含義，但是這種訓練方式使模型學出來的是一個類似 pctr* 調價系數的分數，即一方面可以擬合精排 pctr 模型的信息，另一方面可以擬合策略調價模塊的信息。

粗排 LBDM 模型有很多優勢：

通過端到端建模技術，減少了精排階段內部多個模塊的誤差傳遞問題
放棄了對值準度的要求，降低了學習難度，樣本利用率更高，與粗排集合選擇的目標也更為貼近。
基本不增加算力和 RT。
通過實時樣本回流的方式，自動跟隨后鏈路進行升級，極大的降低了維護迭代成本。

這里也從客戶側視角分析了一下粗排 LBDM 模型對不同行業和不同粒度廣告主拿量能力和 ROI 的影響，發現和粗排 PCTR 模型相比拿量變化較小，ROI 等客戶側指標均有提升。

考慮到粗排 LBDM 模型以后鏈路樣本為學習目標的訓練方式有可能加劇馬太效應，因此也分析了粗排 LBDM 模型對不同曝光量廣告的拿量影響，發現變化不大，說明粗排 LBDM 模型基本不會加劇馬太效果，這個有可能是粗排打分集合以及廣告主預算限制導致的。

線上效果：CTR+8% , RPM+5%

利用-探索（Exploit&Explore) 全鏈路通道

集合選擇技術路線大大提高了整個系統鏈路的目標對齊能力和效果，但是由于依賴精排階段的樣本進行學習，有可能對整個系統的探索發現性造成影響。而精準值預估技術受限于算力 RT，在對最終系統目標的對齊能力上往往有限。

在以往的級聯排序系統中，因為前鏈路各模塊在目標和模型能力上和后鏈路最終目標往往存在 gap，從而在一定程度上隱式地存在一個探索機制。但是這種探索機制是存在問題的：一方面以限制整個鏈路在記憶利用（Exploit）上的的能力為代價，犧牲了最終的系統目標和效果，另一方面由于探索（Explore）和利用（Exploit）耦合，也難以專門提升優化探索的效果。

全鏈路聯動技術為了解決這些問題，將利用（Exploit)和探索（Explore）顯式的拆分成兩個全鏈路通道，分別進行極致的優化：

全鏈路利用通道：

專注于最終系統目標對齊和優化。
以集合選擇技術為主。

全鏈路探索通道：

專注于客戶側指標優化，如新廣告冷啟。
以精度值預估技術為主。

利用-探索（Exploit&Explore) 全鏈路通道，一方面可以使整個全鏈路系統可以在沒有干擾負擔的情況下，去極致的優化對齊短期的系統目標。另一方面也可以從長期生態著眼，去心無旁騖進行探索上的優化提升并盡可能減少對系統效果的影響。探索通道的結果也可以快速被利用通道吸收放大，從而促進整個系統的良性循環。

當然，以集合選擇技術為主的全鏈路利用通道，會不會造成整個系統的數據閉環和技術上的隱形死鎖，仍然是一個需要持續研究和觀察的事情。阿里媽媽展示廣告在召回階段落地的 LDM 模型，確實會在一定程度上加劇馬太效應，但是因為多路召回的存在，因此對整個廣告系統的影響是可控的。

而粗排落地的 LBDM 模型，并沒有觀察到明顯的馬太效應，有可能是因為粗排只是一個中間模塊，因此在馬太效應上的影響比較有限。同時也確實觀察到，粗排 LBDM 會降低 1 天內新廣告的展現占比，但是提升 7 天內新廣告的展現占比。這個說明集合選擇技術會在前期樣本缺乏的情況下打新廣告形成打壓，但是在后期數據充足的情況下，會迅速起到一個放大作用，從而加快新廣告的收斂過程。

當然廣告系統本身，因為有 bid 的存在，廣告主通過對 bid 的調整參與到整個數據循環中，變相的形成了一種動態的探索機制，對拿量能力被削弱的廣告主有可能通過提升 bid 來重新獲得相應的流量。集合選擇技術在召回與之前相比提升了 bid 對召回結果的影響程度，在粗排仍然保持足夠的 bid 敏感性，因此甚至有可能加強 bid 對數據循環的擾動能力。廣告主之間在 bid 上的動態博弈可能使廣告系統的數據循環可能難以進入一個持續的穩態和閉環。同時廣告系統本身也存在預算限制，被馬太效應加強的廣告往往會因為預算限制，無法支持更多的流量投放，也限制了閉環的形成。

而全鏈路聯動技術對搜索推薦等非廣告場景來說，確實比廣告場景有更大的數據閉環風險，因此在探索通道的建設上也更為急迫，后面在全鏈路聯動技術的落地過程中，需要設計更多長期指標來觀察研究全鏈路聯動技術對整個系統長期的影響。同時也需要進一步研究如何構建更好的探索機制，探索通道和利用通道如何更好的配合等等。

這篇文章的目的，除了向大家分享我在全鏈路聯動技術上探索的經驗成果之外，也希望能起到拋磚引玉的作用，吸引更多的人可以加入到這個新方向的探索研究過程中，以便推動這個方向更快更好的發展。

業務效果

全鏈路聯動技術已經在阿里媽媽展示廣告主要業務場景落地全量，給阿里媽媽廣告收入帶來巨大增長。精準值預估技術：

面向任意目標的全庫向量召回技術 PDM：CTR+1.5% , RPM+2%
粗排全空間 ESDM 模型：CTR+3% , RPM+1.5%

集合選擇技術：

以學習后鏈路的序為目標的端到端召回技術 LDM：CTR+3% , RPM+4%
以學習后鏈路的序為目標的端到端粗排 LBDM 模型：CTR+8% , RPM+5%

總結與展望

在技術算力紅利逐漸消失，單模塊技術迭代進入深水區的情況，全鏈路聯動技術沿著精準值預估路線提出了召回 PDM 技術和粗排全空間 ESDM 模型，沿著集合選擇技術路線提出了召回 LDM 技術和粗排 LBDM 模型，革新了整個阿里媽媽展示廣告的排序體系，使整個系統在理論上具備了對齊最終系統目標的能力，減少了系統的鏈路損耗，使整個系統的算力分配更為合理，打開了全新的技術增長空間，給阿里媽媽展示廣告帶來了一波巨大的技術紅利，也給阿里大盤廣告收入帶來了巨大的增長。

在對齊最終系統目標的基礎上，如果存在算力富余，那么可以進一步對全鏈路各個模塊進行模型復雜度升級和算力傾斜，有可能存在進一步的效果紅利。同時也可以考慮進一步探索精準值預估技術和集合選擇技術發展融合的可能，使整個排序系統兼具二者的優點。

正所謂合久必分，分久必合。早期的級聯排序架構，很大程度上是算力 RT 不足的無奈之舉。現在隨著算力的提升以及對算力的運用更加純熟，需要進一步探索能否突破級聯架構限制，實現模塊間以及模塊內部各部分的進一步融合，甚至是多模塊一體化的端到端排序新體系。這個有可能帶來新的革命性成果。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

總結

以上是生活随笔為你收集整理的阿里广告技术最新突破：全链路联动-面向最终目标的全链路一致性建模的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。