基于博弈论和拍卖的数据定价综述
點擊上方藍字關注我們
基于博弈論和拍賣的數據定價綜述
張小偉1,?江東1,?袁野2
1?東北大學計算機科學與工程學院,遼寧 沈陽 110819
2?北京理工大學計算機學院,北京 100081
?
?摘要:在大數據時代,隨著數據爆炸式的增長,將數據視為一種商品,建立一個高效的數據交易市場,通過數據交易市場為數據擁有者提供利益補償,為數據需求者提供數據或服務,使得數據能夠在數據擁有者和數據需求者之間充分地自由流動顯得尤為重要。然而如何為數據設定合理的價格是必須考慮的。對基于博弈論和拍賣的數據定價進行了研究,調查了該分類下不同的數據定價模型,并將其分為不同的類型,綜合比較各個模型的優劣。將常見的數據交易市場進行分類,指出不同的數據交易框架在實現過程中的優點和挑戰。對已有的數據定價研究進行總結,以便數據定價領域的學者能更輕松地掌握該領域的研究現狀及重點。
關鍵詞:數據定價?;?數據交易市場?;?博弈論?;?拍賣
論文引用格式:
張小偉, 江東, 袁野. 基于博弈論和拍賣的數據定價綜述[J]. 大數據, 2021, 7(4): 61-79.
ZHANG X W, JIANG D, YUAN Y. A survey of game theory and auction-based data pricing[J]. Big Data Research, 2021, 7(4): 61-79.
1 引言
近年來,隨著物聯網(Internet of things,IoT)的發展,基于IoT的智慧世界系統(智慧電網、智慧交通、智慧城市)發展迅速,來自各種設備或應用程序的日志文件、數據庫文件、視頻、圖片、文檔等數據呈爆發式增長。數據作為一種新的生產要素,促進及引領了新一輪的科技創新和經濟增長。然而,在大數據繁榮發展的背后有一個問題不容忽視,即“數據孤島”。不同的企業甚至不同的部門之間的數據無法流通,如統計局和醫院等機構長期存儲大量個人信息數據,滴滴和美團等企業掌握了大量的用戶信息及出行信息,若無法將數據以合理的價格銷售,不僅無法最大化數據擁有者的收益,還會為維護和存儲數據耗費大量財力。近年來發展迅速的機器學習和深度學習需要大量的數據進行訓練以提高測試精度,但是由于數據收集困難,導致訓練精度無法提升,因此數據需求者需要一個渠道來獲得大量且可靠的數據。基于上述需求,Oliveira A C等人提出了數據即服務(data as a service,DaaS)的概念。在DaaS中,數據被認為是一種商品,可以通過購買數據,并將其處理之后獲得知識,進而幫助企業、政府做出決策。因此,在數據擁有者和數據需求者之間搭建一個數據交易平臺,越來越受到人們的關注。
要建立一個合理有效的數據交易市場,需要解決以下幾個問題。第一個問題是市場的參與者是誰?數據的參與者可以分為3類,分別是數據擁有者、數據消費者、交易中間人。數據擁有者通常為政府、私人企業(如微軟、雅虎、微博等)或者個人;數據消費者即數據需求者,可能為數據處理算法開發人員、數據分析師等;交易中間人即第三方交易平臺,如現有的貴陽大數據交易所、中關村數海大數據交易平臺等。按照交易中間人職能的不同,可以將其分為中間商和服務提供商,中間商負責連接數據擁有者和數據消費者,此時交易的是原始數據,如中關村數海大數據交易平臺;而服務提供商一般會對數據擁有者的原始數據進行處理,為數據消費者提供處理之后的數據,如貴陽大數據交易所。第二個問題是如何為確定交易的數據設定合理的價格?在設定相應的數據定價模型時,必須考慮相應的市場結構以及數據需求者和數據擁有者的需求,確保雙方的收益。第三個問題則與數據交易市場相關,即選擇何種數據交易市場才能確保市場參與者的需求得到滿足,實現公平、隱私保護等,如選用基于分布式的數據交易市場能夠解決隱私泄露的問題。為了解決上述問題,筆者對大數據交易市場進行了全面的調查,以幫助希望了解該領域的新來者對這一復雜的學科和新興的研究領域有一個大致的了解。
2 數據定價及相關概念
2.1 數據的定義及特性
在大數據時代,每天都有接近25 TB的數據產生。中國信息通信研究院發布的《大數據白皮書(2020年)》預測,2030年全球數據生產量將達到612 ZB,而2035年時將達到2 142 ZB,全球數據量將迎來爆發式的增長。
在從龐大的數據集中提取數據的價值時,經常用數據挖掘和商業智能(business intelligence,BI)來描述大數據的處理過程,并且往往需要通過這些手段來發現數據的價值。數據的價值與數據的交易價格關系密切。
給數據一個確定的價格,將數據視為一種可以自由交易的商品,可以提高數據市場的流動性,從而創造更大的價值。然而相比于傳統的實物商品,數據商品在生產、分配和消費的流程中顯著降低了成本,分別表現在商品的搜索成本、生產成本、復制成本、運輸成本和跟蹤與驗證成本這5個方面。并且,數據的特性導致數據的復制成本接近0,即邊際成本接近0,這導致無法使用邊際成本等于邊際收益的方式使數據產品的收益最大化,這與傳統的實物產品不同。同樣,數據產品的一個明顯特征為非競爭性,即一個數據消費者消費一件數據商品并不會減少和降低其他數據消費者可以得到的產品數量和質量。但是數據同樣具有排他性,即數據消費者需要支付一定的費用來獲得數據的使用權。
2.2 常見的數據定價方式
Muschalle A等人介紹了數據市場中可以參考的收費策略,主要包括如下幾種。
● 通過控制版本來收費,如企查查等應用,用戶可以免費使用基礎版本查詢信息,但是如果需要更高級的信息,則需要購買專業版。
● 基于使用時間的收費,像撥號上網那樣,根據使用時長收取費用,但是該方式的缺陷是對于一個無法明確自己需求的數據需求者或者不熟悉購買方式的數據需求者而言,他需要花費大量時間,導致花費太高,從而可能抑制數據需求者的購買欲望。
● 以固定費用獲取一定量數據的永久使用權或應用程序接口(application programming interface, API)的調用權。Kantere V等人對該方法進行了詳細的研究。
● 以統一的定價對產品進行收費,如參考文獻中的方式,但是該方式缺乏靈活性。
● 組合定價,即固定的基礎費用加額外的單位費用。如各大電信運營商的收費分為基礎的套餐費用和在此基礎之上的額外單位費用。
數據交易市場中常見的數據定價方式可以分為:基于博弈論和拍賣的數據定價、基于查詢的數據定價、基于模型的數據定價(model-based pricing,MBP)。其中,基于博弈論和拍賣的數據定價更注重價格發現的過程,利用數據交易市場的不同特點,使用不同的方式確定適當的數據價格。
2.3 數據定價模型的標準
由前文可知,有多種多樣的方法來設計和實現數據產品的定價。針對如何衡量這些定價模型的優劣以及一個優秀的定價模型應該滿足什么標準,Pei J將數據定價的標準分為6類,具體如下。
● 誠實:參與數據交易的各方均有動力“說真話”,報出自己真實的估價。
● 收益最大化:無論是數據擁有者還是數據消費者,他們參與交易最直接的動力是使自身的利益最大化。
● 公平:數據的賣家能夠根據自身的貢獻量獲得公平的收入份額。
● 無套利定價:無法通過多個市場之間的價格差異來獲得收益。
● 隱私保護:能夠保護參與交易的各方的信息。
● 計算效率:由于數據商品自身的特性,如數據的時效性或多賣家多買家之間的適當匹配機制,需要高速有效的計算方法。
本文將沿用這6個標準來衡量下述研究的優劣。
大多數模型追求的是實現上述6個標準中的部分標準,而無法滿足全部要求。如Goldberg A V等人的研究表明,在拍賣這一價格發現過程中,無法同時實現誠實、競爭性和無嫉妒性。因此,如何在諸多標準之間做出取舍也是當前數據定價研究需要關注的主要內容。此外,數據商品還具備其他特性,這些特性要求數據定價模型實現某些特殊的標準,具體如下。
● 某些數據可能是對時間敏感的,同一數據在不同時間段的價值可能會完全不同,因此對于該類數據的定價要求是實現較高的計算效率。
● 某些數據的價格可能與數據中包含的信息有相關性,而公布數據的價格可能會泄露數據的信息,因此對于該類數據的定價要求是實現無套利定價。
● 數據的價值并不取決于數據量,而是取決于其提供的信息量,對于該類數據的定價要求是實現誠實、公平、收益最大化等。
3 基于博弈論和拍賣的定價
博弈論和拍賣均是關于決策制定的研究,二者均需多方參與,如數據的擁有者、數據的消費者以及中間人,并且每個參與者做出的決策都會影響其余參與者做出的決策,即參與者之間相互影響,最終做出在當前情況下的最優決策。本節研究的是如何使用博弈論和拍賣的方式為數據設置合理價格。
3.1 基于博弈論的定價
博弈論又被稱為對策論或賽局理論等,屬于運籌學的范疇,是一門有關“互動行為”的科學。博弈論是一種方法,目前已被應用于多種學科,如經濟學、計算機科學、國際關系、軍事戰略等。博弈是指由兩個或兩個以上的理性人或組織,參加一系列具有競爭或對抗性質的行為。參與博弈的各方會受到一系列的環境約束(即規則),各自擁有不同的目標或者利益,為了實現自己的目標或將利益最大化,參與者必須綜合考慮所有對手的全部可行動方案,并在其基礎上做出最有益于自己的決策。
為了理解博弈的含義,下面給出一些博弈方面的術語。
● 效用函數:效用函數是參與博弈的各方能夠從該次博弈中獲得的效用水平,反映了參與者對結果的期望。經濟學中規定效用函數必須是可以量化的,它可以是連續函數,也可以是離散函數。效用的取值可以為正值,也可以為負值。參與博弈的每一方都有自己的效用函數,但是彼此并不一定了解對方的效用函數。
● 參與博弈的主體:博弈的參與者是一個能夠選擇合適的決策從而最大化自身效用的主體,該主體可以是個人,也可以是團體,如國家、企業、組織等,以下簡稱參與人。
● 參與人可選擇的策略或者策略的組合:策略是指參與人選擇自身行動的規則,該規則將決定參與人在什么情況下選擇什么行動,如“敵進我退,敵駐我擾,敵疲我打,敵退我追”是一種策略,這里,“敵”與“我”是參與博弈的雙方,“進”“退”“駐”“擾”“疲”“打”“退”“追”是8種不同的行動,由戰略規定于何時采取何種策略。
在基于博弈論數據定價的過程中有諸多參與者,根據當前的研究,可將參與者分為3類:數據擁有者(賣家)、數據消費者(買家)、中間人。通常情況下均假定參與博弈的各方均為“理性人”,即參與人的每一個經濟活動都是利己的,試圖以最小的經濟成本獲得最大的收益。
根據不同的博弈類型,可將現有常見的博弈論定價模型分為3類:基于非合作博弈(non-cooperative game)的定價模型、基于Stackelberg博弈的定價模型、基于討價還價博弈的定價模型。
3.1.1 基于非合作博弈的定價模型
非合作博弈是指一種參與人之間不可能組成聯盟或者達成一種具有約束力的協議的博奕類型。
Luong N C等人設計了一個定價模型來評估IoT傳感數據的價格。該模型假設了一個IoT數據交易市場,在市場中賣家為了銷售各自的數據形成了競爭關系。該市場可以建模為一個非合作博弈模型,其中數據擁有者扮演的是賣家的角色,賣家分別擁有 各自的定價策略。令表示擁有n個參與人的博弈,其中表示第i個參與人可選擇的定價策略空間,表示各個參與人的定價策略的笛卡兒積,表示參與人i所能得到的效用函數構成的向量。將vi設定為參與人i的定價策略,,可以得到一個由n個參與人構成的關于策略的n維向量。同時,在博弈論中,vi的最優策略選擇依賴于其他參與人的策略選擇。因此,設定向量表示除不選擇定價策略的參與人i以外的所有參與人構成的策略組合,即。這3個因素之間的聯系是參與人i使用給定的定價策略V來獲得相應的報酬????。一個給定的策略向量是納什均衡的,沒有任何一個銷售者可以在其他銷售者不改變自身策略的情況下,通過改變自身的策略提高自己的收益,即
式(1)表明鑒于納什均衡狀態,賣家沒有動機改變自身的決策,因為那樣會使自身的預期收益變低。式(1)表明納什均衡是指在給定別人策略的情況下,做出相應最優的選擇。但是應當注意并不是所有的博弈均存在納什均衡,而且有時一個博弈中會存在多個納什均衡。因此,使用非合作博弈對數據集進行定價的充分必要條件是該博弈有且只有一個納什均衡。
由于參與博弈的各方均為“理性人”,參與者會將自己的戰略建立在假定對手會將其收益最大化的基礎上。因此,完全競爭市場中的均衡就是非合作博弈均衡。在這種市場中,每個參與者都會根據別人的價格策略來決定自己的價格策略。在完全競爭市場中,數據擁有者為了使自身的收益最大化,希望在銷售自身數據時價格盡可能高。數據消費者為了使自身的效用最大化,希望在得到數據時盡可能地壓低價格。在傳統的商品市場中,使用邊際成本等于邊際收益的方式使數據產品的收益最大化,但是數據商品的特性(即邊際成本接近0)導致無法使用上述方法實現利潤最大化。故Li Z N等人提出了一種定價方法,該方法將所有需求者和供應商都考慮在內,在不降低價格的情況下得出適當的價格。但是,由于將動態創建大量物聯網數據交易,這通常會成為集中式定價系統的性能瓶頸,因此該方法對于物聯網數據交易是不切實際的。
3.1.2 基于Stackelberg博弈的定價模型
非合作博弈的納什均衡成立的前提是參與博弈的賣家彼此知道對方的策略,并且同時宣布自己的策略。然而,在現實生活中,這個前提成立的情況較少,參與者無法計算其納什均衡,因此他們無法為數據設定合理的價格。在現實中更常見的情形是:一個賣家(追隨者)等待其他賣家(領導者)先宣布自己的定價策略,然后追隨者在領導者做出定價策略的情況下,做出對應策略的優化,從而確定相對最優的定價策略,這種博弈模式被稱為Stackelberg博弈。
在Stackelberg博弈中,賣家1(領導者)首先確定自己的定價策略v1,賣家2(追隨者)在觀測到v1后,確定自己的定價策略v2。因為賣家2是在觀察到v1之后確定自己的定價策略的,所以該博弈是完美信息動態博弈。賣家1率先行動,無法觀察到v2,因此,賣家2的定價策略應該是一個由決定的,是一個映射函數T,即。Haddadi S等人證明,相較于使用其他模型,使用Stackelberg博弈模型,領導者可以獲得更大的收益。Lyu X Y等人指出,在數字市場中參與Stackelberg博弈的各方均可實現利益最大化,尤其是對于領導者而言,可將其效用最大化。
Mei L J 等人討論了針對純捆綁定價和分開定價兩種情況,在數據擁有者和中間商之間搭建Stackelberg博弈模型(其中數據擁有者為領導者,中間商為追隨者)、實現雙方利益最大化的條件下,數據擁有者應該采取何種定價方式才能使得自身利益最大化。參考文獻[16]雖然涉及數據定價的問題,卻忽略了數據交易市場信息不完全以及市場競爭的客觀條件。
Liu K等人搭建了一個兩階段的Stackelberg博弈模型來解決數據需求者的定價和購買問題。在最簡單的情況下,市場包含多個數據擁有者i={1,2,…,N}、一個數據需求者、一個中間商。Liu K等人假設:中間商可以獲得數據擁有者的名單以及數據需求者和數據擁有者的交易相關信息。第一階段,每一個數據擁有者對自己擁有的數據設定合理的價格,中間商作為領導者,將定價策略的集合展示給數據需求者;第二階段,數據需求者作為追隨者,根據給出的定價策略空間,決定自己的購買策略;最后,中間商根據數據擁有者的服務質量以及數據需求者的購買意愿來決定由數據擁有者中的贏家與數據需求者發生交易,(pi,xi)表示以單價p從數據擁有者i處購買了數量為x的數據。
Xu C Z等人在數據擁有者、服務提供商和數據需求者之間構建了一個3層的Stackelberg博弈模型。在該模型中,第一層的Stackelberg博弈發生在數據擁有者和服務提供商之間,數據擁有者決定原始數據的價格,服務提供商根據定價策略做出相應的購買策略。在第二層,服務提供商在購買原始數據之后需要對數據進行加工,并且提供N種不同精度版本的數據供數據需求者選擇,并為其設置合理的價格。在第三層,數據需求者選擇要購買的數據版本,并決定購買的數量。
使用Stackelberg博弈進行數據定價的缺陷在于:在這種模型中,每個數據擁有者需在主供應商宣布價格后宣布自己的價格,但在數據交易環境中,確定主要數據擁有者的方式困難且效率低下,使得該模型在數據交易市場中的實施難度較大。
3.1.3 基于討價還價博弈的定價模型
討價還價博弈指的是由兩名或者更多的參與人就如何分配一個物品達成協議,為了達成這種協議所有參與人需要進行談判。假設在一個簡單的數據交易市場中,只有當數據擁有者和數據需求者對某種數據商品的銷售價格達成一致時,交易才會發生。
在討價還價模型中,ro表示數據擁有者的保留價格,這是數據擁有者銷售數據所能接受的最低售賣價格;rc表示數據需求者的保留價格,這是數據需求者購買數據所能接受的最高支付價格;數據擁有者和數據需求者分別報出自己的價格策略po和pc。數據擁有者想要確定最優的定價策略來使自身的收益最大化,即。同樣地,數據需求者想要制定最優的出價策略來使自身的收益最大化,即。在討價還價博弈中,如果,則數據以銷售價格p成交,,0≤k≤1。最終得到了討價還價博弈的納什均衡解。
Jung K等人使用差分隱私(differential privacy,DP)的方式給原始數據或查詢出來的結果增加噪聲,這是因為DP提供了一個令人信服的方式來衡量隱私(如隱私的損失ε)。近年來有很多面向數據擁有者的基于隱私損失方面的定價策略。Jung K等人提出了一種公平協商的方式,采用Rubinstein討價還價模型來確定數據的價格以及隱私損失的價值,保證了公平交易。
討價還價博弈適用于復雜談判條件下的談判,且其最后的解是合作博弈最終的解決方案,因此其常被用于諸多領域的資源分配,如無線體域網(wireless body area network,WBAN)、無線傳感器網絡(wireless sensor network,WSN)、頻譜分配。但是在討價還價博弈中,需要供需雙方通過談判達成協議,而談判過程通常是耗時和浪費資源的,故將該模型應用于數據交易市場存在一定困難。
3.2 基于拍賣的定價
拍賣是流行的數據交易機制之一。一般來說,拍賣是一種經濟驅動的方案,其目的是通過買賣雙方的競價過程分配商品,并建立相應的價格。當前對拍賣理論的研究以及拍賣理論在諸多領域的應用已經有了很好的探索。在信息不對稱的經濟環境中,拍賣是一種形式簡單卻又具備完整定義,能夠確保公平和效率,以及賣方的收益最大化的方案,因此在解決大數據交易問題方面拍賣機制顯示出巨大的潛力。在對大數據交易市場中拍賣理論的相關工作做出總結之前,首先介紹拍賣機制的基本概念。
● 投標方:投標人,指在市場上投標并以購買商品為目的的人,即買方。在大數據市場中,一般由數據需求者充當買方。
● 拍賣商:拍賣商扮演的是代理角色,與上述中間商的作用相似,負責運行拍賣流程,確定獲勝者,并進行支付和分配。
● 賣方:指希望通過售賣數據增加自身收益的個人或團體,如數據擁有者。
● 投標人的估價:在拍賣過程中,投標方和賣方都對他們需要或出售的每一單位商品進行估價。此外,估價可以高于或低于最終清算價格,這是由拍賣商在拍賣過程中決定的。
● 結算價格:拍賣中最終成交的價格(買賣雙方同意達成交易的價格),即落錘價。拍賣價格有兩種類型,即要價和競價。賣方提出一個要價(即出售該商品的價格),而投標方可以提出一個投標價格(表示他們為獲得該商品所愿意提交的價格)。結算價格則是由拍賣商根據社會福利最大化等優化目標來確定的最終交易價格。
根據參與拍賣的投標方和賣方人數的不同,可以將目前基于拍賣定價方式的數據市場的研究分為單邊拍賣(單個賣方、多個投標方)和雙邊拍賣(多個賣方、多個投標方)。基于拍賣的大數據交易市場的典型框架如圖1所示。
圖1???基于拍賣的大數據交易市場的典型框架
3.2.1 單邊拍賣
在單邊拍賣中,賣方提交競價到拍賣商,拍賣商根據不同的拍賣機制,確定最后的勝利者。其市場結構如圖2所示,通常數據擁有者是“資源優勢方”,而最終的價格是由其和數據需求者即投標方共同決定的,投標方被稱為“信息優勢方”。
圖2???單邊拍賣的市場結構
(1)第k價格密封拍賣
第一價格密封拍賣和第二價格密封拍賣是重要的兩種第k價格密封拍賣的方式。在第一價格密封拍賣中,投標方以密封的形式獨立出價,獲勝的投標方是出價最高的人,需要支付最高的價格來獲得商品,最終的成交價為,其中P是投標方的競價集。第二價格密封拍賣又被稱為Vickrey拍賣,投標方同樣以密封的形式獨立 出價,獲勝的投標方是出價最高的人,獲勝者需要支付第二高的價格來贏得拍賣,即,其中pi是獲勝者所出的最高價格。
雖然第一價格密封拍賣機制在現實中的應用很多,但是它也有許多缺點。首先,投標方很難計算出應如何報價;其次,賣方或者拍賣的設計方很難預測拍賣中會發生什么,難以保證投標方之間不結成聯盟,信息不對等的情況會阻礙公平的實現;最后,拍賣的獲勝者可能會出現“贏者詛咒”的現象。
在第二價格密封拍賣中,每個投標方的占優策略是使出價等于自己對這件商品的完全估價,也就是說,對于投標方而言,此時誠實才是最好的競拍策略。因此投標方報出的價格是真實且可信的,并且保證了最終的拍賣品歸屬于出價最高者,因此該密封拍賣是具有帕累托效率的。理論上講,第二價格密封拍賣是理想化的,滿足以下條件。
● 強動機保證:第二價格密封拍賣是占優策略激勵相容的。
● 高性能保證:第二價格密封拍賣機制能夠使社會福利最大化。
● 計算高效:第二價格密封拍賣可以在輸入量的多項式時間內實施。
但是,在市場中實現第二價格密封拍賣是困難的,如投標方之間形成聯盟、拍賣商和投標方之間串通、拍賣商的品德敗壞等問題都會影響這種拍賣方式的有效性。
(2)VCG拍賣
VCG(Vickrey-Clarke-Groves)拍賣是Vickrey拍賣的廣義形式,是將單物品拍賣形式的Vickrey拍賣一般化為多物品拍賣的形式。假設市場中有M個商品需要出售,表示為,ti表示第i件商品,以及市場中有N個投標方,表示為,bi表示第i個投標方。VCG拍賣背后的原理為獲勝者需補償其獲得物品所造成的其他N-1個投標方的社會價值損失。例如,在Vickrey拍賣中,獲勝者對其他投標方造成的社會價值的損失等于出價第二高的競價(假定投標方都是真實出價),而這恰好是Vickrey拍賣的支付規則。因此,在VCG拍賣中,根據VCG拍賣規則,如果vi(tj)是最高的,則投標方bi獲得商品t j,投標方bi需要支付的價格為:
其中,vi(tj)表示投標方bi對商品t?j的出價,表示由M件商品創造的社會價值。VCG拍賣的結果是貝葉斯納什均衡的。
盡管理論上VCG拍賣能夠使投標方“說真話”,且能夠實現社會福利最大化,但是VCG拍賣機制在實際的運用中存在一些障礙,如偏好獲取困難,計算福利最大化結果或者近似福利最大化結果十分困難,以及VCG拍賣機制的收益和激勵可能表現不好。
(3)組合拍賣
在大數據市場中,數據需求者對數據的需求是多樣化的,單一的數據可能無法滿足其需求,且一般需要大量的數據才能達到其要求。在這種市場需求下,組合拍賣的方式被提出。在這種方式下,賣家提供靈活的可捆綁銷售的多種物品的商品組合,投標方提出自己的需求及報價,而拍賣商根據競價中包含的約束條件和賣方的物品分配能力,找到最優的分配,從而確定拍賣中最終勝利的賣家。與上述密封競價等標準的拍賣方式相比,組合拍賣的優勢是經濟效率高、買家收益最大化、賣家收益最大化等。然而,在組合拍賣中,計算拍賣最終的獲勝者是一個NP問題,這意味著在現實世界中很難找到最優的分配。
上述各種拍賣方式在實際應用中均有優缺點,而第一價格密封拍賣和第二價格密封拍賣由于具有簡單和隱私保護等特點,相較于其他的拍賣方式,在實際中應用得更加廣泛。參與拍賣的各方會根據需求的不同采取不同的拍賣方式。
首先,為了盡可能地保護隱私,以及促使數據擁有者將數據分享出來,需要一定的獎勵機制。而差分隱私提供了衡量隱私的方式,如隱私的損失可以被量化,因此隱私被視為一種可替代的商品,其價格可以通過拍賣的方式確定。
其次,在數據交易市場中,“聰明的”投標方可能會操縱拍賣的過程,從而導致不真實的競價。特別地,投標方可以通過創建多個身份來影響拍賣的結果,這被稱為假名投標(false-name bids)。為了解決這個問題,An D等人提出了一種多輪假名驗證拍賣(multi-round false-name proof auction,MFPA)的方式,從而構建了一個真實的數據交易市場。
在初始的基于拍賣的數據定價方面的研究中,大多數拍賣中由數據擁有者充當拍賣商的角色,在賣家自身運營的平臺上進行銷售,在拍賣過程中,來自投標方的信息向賣家開放。另外,隨著數據擁有者的增加,由每個數據擁有者自行維護拍賣平臺的方式效率低下、不方便。因此,在網絡環境中建立第三方數據交易平臺是一種更加現實的方法。Gao W C等人提出由客觀的第三方中間商平臺充當拍賣商,這樣不僅保證了客觀性,也防止拍賣商和數據擁有者或數據需求者之間達成某種協議。此外,Gao W C等人解決了信息物理系統(cyber-physical system,CPS)中的隱私保護問題。他們提出了一種通用的隱私保護拍賣方案(privacy-preserving auction scheme,PPAS),其中拍賣商和中間平臺兩個獨立實體組成了一個不可信的第三方交易平臺。通過實現同態加密和一次性填充,可以確定拍賣過程中的贏家,并對所有競價信息進行偽裝,并且他們設計的系統不基于某種特定的拍賣方式,故適用于各種拍賣規則。
3.2.2 雙邊拍賣
雙邊拍賣是現實世界中常用的拍賣方式之一,它被廣泛應用于證券交易所、智能電網等場景。在雙邊拍賣中,多個數據擁有者和數據需求者同時向拍賣商提交自己的要價和出價,其市場結構如圖3所示。
圖3???雙邊拍賣的市場結構
當且僅當數據擁有者的要價po小于等于數據需求者的出價pc時,拍賣商決定最后的結算價格p。拍賣的過程通常如下,每一個賣家(即數據擁有者)對于自己所要銷售的物品都有一個邊際成本MC,賣家的收益是產品的價格P與邊際成本的差值(P-MC),賣家的目標是獲得盡可能多的收益,即價格盡可能高,但是同時又需要與市場中的其他賣家競爭,若競爭失敗,則賣家的收入為0。每一個買家(即數據需求者)對于產品都有一個邊際收益MR,買家的收益是邊際收益與產品價格的差值(MR-P),買家的目標是獲得盡可能多的收益,即價格盡可能低,但是又需要與市場中的其他買家競爭,若競爭失敗,則買家的收益為0。對于賣家而言,每一輪的要價都必須低于上一輪;而對于買家而言,每一輪的出價都必須高于上一輪。市場中買家和賣家的數量足夠多時,產品價格的形成如圖4所示。
圖4???雙邊拍賣市場價格的形成
Jiao Y T等人首先根據數據量大小對大數據分析性能的影響定義了數據成本和效用,然后提出真實、合理、計算效率高的貝葉斯 利潤最大化拍賣模型。通過求解利潤最大化拍賣模型,得到最優服務價格和數據量,從而解決服務商的利潤最大化問題。參考文獻是一篇引入服務提供商角色的文獻。服務提供商(即中間商)負責收集數據擁有者的數據,并對數據擁有者進行隱私補償,同時利用自身的專業性對收集的大量數據進行處理,滿足數據消費者的需求,其為買家提供的是服務而不是原始數據。但是該參考文獻假定市場中的服務提供商是壟斷者,這在現實場景中較難實現,不滿足客觀需求。而Cao X Y等人著眼于數據交易與市場交易效率的協調,提出了一種迭代拍賣機制來協調交易,并以社會福利最大化為目標。在參考文獻中,數據擁有者與數據消費者直接發生交易,交易的是原始數據。然而上述激勵機制忽視了數據消費者之間既有偏好又有復雜的利益沖突關系這一事實。Cai H等人提出了DTPCI這種雙邊拍賣機制來應對市場偏好的多樣性、數據消費者之間復雜的利益沖突關系以及交易雙方的戰略選擇這三大挑戰。上述研究大多基于集中式的數據交易市場,存在集中式數據交易市場常有的問題,如數據擁有者的隱私泄露、數據丟失等問題。而Li Z N等人則聚焦于基于分布式的數據交易市場,并且提出了具有稀疏信息的經紀人來管理和調整交易市場,采用了一種迭代雙邊拍賣的方案。該方案由經紀人解決計算資源交易的分配問題,并設計了一個特定的價格規則來誘導計算資源的買家和賣家以真實的方式投標,從而實現了社會福利最大化,并且實現了安全的數據交易。
關于拍賣市場研究的進一步分析見表1。
4 數據交易市場
數據定價和數據交易是一個相輔相成的過程。因為數據具有商業價值,所以大數據市場以及數據交易市場成為實現數據共享的最有效的市場。第3節總結了一些常見的基于博弈論和拍賣的數據定價模型,本節將系統地研究數據交易平臺,并基于現有的研究將數據交易市場劃分為集中式數據交易市場和分布式數據交易市場。
4.1 集中式數據交易市場
縱觀關于數據交易的研究,根據是否有第三方參與,可以將數據交易劃分為有中間商的數據交易市場和無中間商的數據交易市場,根據為買家提供的服務可以劃分為買家提供原始數據的數據交易和為買家提供處理后的數據(如對數據加入噪聲從而保護數據所有者的隱私,或經預處理直接獲得滿足客戶需求的數據)的數據交易。關于集中式數據交易市場的進一步分析見表2。
在沒有中間商作為中介的框架中,數據擁有者和數據需求者直接進行數據交易,這種交易方式可以避免為第三方支付交易費用,可以讓交易雙方更了解雙方的需求,從而降低交易價格。然而在沒有第三方平臺的交易市場中,數據擁有者需要自己搭建數據交易市場,并且由于市場中存在多個數據擁有者,賣方之間的數據可能會形成“孤島”;而且,對于買家而言,由于信息不對稱,從多個數據擁有者的交易平臺中分別購買數據會消耗大量的精力和金錢,且存在購買數據與需求不匹配的可能,從而降低買家購買的欲望。為了解決上述難題,現有的關于數據交易市場的框架大多存在一個或多個中間商充當第三方平臺。但是該框架在解決上述難題的同時也帶來了新的問題,如第三方平臺的信任危機以及數據產品接近0的復制成本,進而導致數據丟失、數據被非法篡改、用戶隱私泄露等潛在的問題。
4.2 分布式數據交易市場
傳統的數據交易是在一個集中式的市場中進行的,這就需要可靠的權威機構負責數據交換。在這項工作中,為了解決潛在的問題,將區塊鏈技術應用于數據交易市場,從而構建去中心化的數據交易市場。去中心化的數據交易市場可以擺脫單點性能瓶頸和單點故障問題,并且允許參與數據交易的多方之間建立去中心化的信任和依賴,其吸引了越來越多的關注。區塊鏈是一種去中心化的分布式數據存儲技術,其特點是防篡改、可跟蹤性和公共可訪問性,其中共識機制確保了同步。為此,目前的研究設計了一個聯合體區塊鏈網絡,以創建P2P(peer-to-peer)交易市場,提高數據所有者節點、服務提供商節點、數據消費者節點和礦工之間數據交易的安全性。在數據市場中,區塊鏈的引入可以解決集中式數據市場的弊端,為實現數據交易的去中心化提供了另一種可能。
數據交易屬于在線的商業交易,參與者之間存在固有的不信任問題,這是因為沒有任何先驗的交易在前。而這種初始的不信任可能會導致數據交易陷入僵局,參與者沒有動力進行交易。因此DelgadoSegura S等人提出了一個公平的比特幣數據交易的基礎協議,建立了一個公平的數據交易市場。因為該協議是原子性的,所以該交易過程可以隨時完成或終止,以確保數據提供商和數據消費者都沒有遭受損失。但是該數據交易市場的缺點是不能辨別虛假信息,且一次只能考慮一個交易流程。
Liu K等人利用區塊鏈技術建立物聯網數據市場體系,提出了一個邊緣/云計算輔助的、區塊鏈增強的框架,以應對物聯網數據市場中安全、信任和效率的挑戰;并在其中搭建了兩階段的Stackelberg博弈,以解決數據需求者的定價和購買問題,為物聯網數據市場設計了最優定價機制,從而最大化贏家和消費者的利潤。
此外,Chuang I H等人提出了一種信任感知物聯網數據經濟系統(trustaware IoT data economic system, TIDES)。Yu Y等人提出了一種基于比特幣的用于物聯網數據交易的加密貨幣LRCoin。Zhou J Y等人在區塊鏈上結合數據嵌入和相似度學習提出了分布式數據銷售,這種方法權衡了數據檢索的有效性和數據索引的泄漏風險之間的關系。汪靖偉等人提出搭建一個基于區塊鏈系統的數據交易市場分別需要考慮如下幾個設計目標:去中心化、公平性、隱私性、有效性和經濟激勵。
盡管基于區塊鏈的數據定價可以解決大多數集中式數據定價市場帶來的潛在問題,但是基于區塊鏈的數據定價也面臨許多難題,如固有的物理約束、有限的計算和存儲資源限制了使用更復雜的應用程序的機會。為了解決計算和存儲資源有限的問題,Li Z N等人通過引入邊緣云計算來增強基于區塊鏈的數據定價,提供了強大的計算資源和可擴展性。其中邊緣提供了有限的低時延的計算和存儲資源,而云計算可以提供強大的計算和存儲資源,但是缺點是時延較高。而Li Z N等人將二者結合,并且采用了非合作博弈的模型,更加符合現實的數據交易市場。
盡管基于區塊鏈的去中心化數據交易系統可以支持鏈上數據的安全性,但是需要更多努力來確保用戶收集并記錄在區塊鏈上的鏈下數據的可信性,即分布式數據市場也帶來了隱私和安全問題。
5 總結
本文研究了數據定價的相關問題。具體來說,首先分析了數據作為商品相較于傳統的實物產品的特性與區別,并且回顧了常見的數據產品定價策略和定價準則。對于數據定價以及建立一個高效的數據交易市場,明確了其重要性,對不同的市場結構、數據定價策略以及數據定價模型進行了分類,并指出了各種類型的優勢和局限性。然后研究了博弈論和拍賣策略,詳細介紹了不同的方案、交易平臺及相關問題,并對現有的基于博弈論和拍賣的數據定價模型進行了回顧,分析了這些研究對數據定價的貢獻及局限性。最后討論了傳統的集中式數據交易市場和近年熱門的基于區塊鏈的數據定價方式,并討論了兩種數據交易市場的優劣,分析了這兩種交易平臺未來的改進方向。本文旨在讓大家了解常見的數據定價的方式和方法,以及數據定價領域存在的尚未解決的難題,以期進一步推動大數據交易的發展。
作者簡介
張小偉(1996-),男,東北大學計算機科學與工程學院碩士生,主要研究方向為數據定價。
江東(1996-),男,東北大學計算機科學與工程學院博士生,主要研究方向為GPU加速圖計算、數據定價。
袁野(1981-),男,北京理工大學計算機學院教授、博士生導師,主要研究方向為大數據管理與分析(包括圖數據管理、眾包數據管理、不確定數據管理、數據隱私保護等)。優秀青年科學基金獲得者。曾獲中國電子學會科學技術獎(自然科學)一等獎、全國百篇優秀博士學位論文提名獎、中國計算機學會優秀博士學位論文獎、遼寧省優秀博士學位論文獎。中國計算機學會數據庫專業委員會委員、大數據專家委員會委員,中國計算機學會高級會員,IEEE、ACM高級會員。在ACMSIGMOD、VLDB、ICDE、KDD、SIGIR、IJICAI、VLDBJournal等重要學術會議和期刊上發表論文90余篇,其中CCFA類40余篇。先后承擔和參加國家自然科學基金重點項目和優秀青年科學基金項目、國家重點研發計劃、863計劃、973計劃等多項重點項目。常年擔任多個國際數據庫會議(共同/出版/宣傳/本地)主席/程序委員會委員,包括SIGMOD、VLDB、ICDE等CCFA類會議。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的基于博弈论和拍卖的数据定价综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Visual c++6.0 如何自定义一
- 下一篇: 动态规划最大子段和问题