2020年美赛C题(数据分析题)O奖论文笔记 (2)
前言
題目可參見這里:C題
下面簡單做一下另外一篇O獎論文的筆記,上一篇O獎論文較難,這篇相對來說比較好讀。
論文
題目: 《在線銷售戰略:融合深度學習和差分模型的評論跟蹤系統》
作者用少量的語言介紹了一下background,接著講述了解決問題的一個overview.
- 首先基于star rating和review text設定了5個指標:average star rating,favorable rate,number of reviews,average number of review words,average review sentiment value. 使用TF-IDF算法提取關鍵詞,使用BP神經網絡計算評論情感得分。通過這種方式,探索出了review sentiment和star rating之間的特定關系,并提出三種產品的設計焦點所在。
- 接著,建立差分模型,探索每個評價指標隨時間和其他指標的變化模式
- 最后,根據PCA,提出success index(成功指數),來評價三種產品成功與否,給出企業建議
接著,作者在第三段列舉出了4個建模得到的重要結論,這里不多說了,詳見原文。
倒數第二段說還給企業寫了一封信,此處也列出了信件的3個核心要點.
最后一段用兩句話,夸了一下自己的模型(simple,effective,practical)
談了一下用戶購買數據對商家的潛在價值,簡單重述了一下問題,并掛出建模框架總圖 2 - Assumption
- 亞馬遜給出的數據是真實可用的. 辯解(justification): 題目要求只能使用提供的數據集,因此,在數據來源唯一的情況下,需要假設這些數據是available和reliable的!
- 外部環境影響因素不考慮進來. 辯解: 認為這三樣東西都是生活必需品,受外部環境因素的影響可以忽略。
- Amazon的內部系統不考慮進來. 辯解: 因為數據來源唯一,缺少Amazon內部如監控環境等的數據,因此必須忽略Amazon的內部系統才能繼續建模。
3- Nomenclature 4 - Data Processing and Analysis
4.1 數據清洗:
- 缺失值和異常值
- 只有一條評論的產品
- 2010年前交易數據(因為這些數據存在不連續,占的比例也太多,盡管清洗吧~)
4.2 數據觀察:
4.2.1 產品生命周期觀察
定義產品的lifecycle為觀測到的第1條評論和最后1條評論的時間段
這幅圖講的大概是這么一個意思(以hair_dryer為例):活躍評論在3個月內的hair_dryer品牌數有3個,活躍評論在 3個月 ~ 1年內的品牌數有11個,如此下去… (筆者番外:就直覺來講,一個品牌的評論能夠活躍越長的時間,這個品牌口碑好的可能性較大)
從上圖還能提取到的一個重要信息是:所有商品數據的時間跨度至少在3個月以上,也就是說,可以 以季度為單位 做時間序列。
4.2.2 星級和文本指標 變化趨勢
論文作者認為helpfulness ratings對銷售的影響大,單獨抽出來。結果如上圖,每類商品都有兩條曲線,一條是 star rating-時間曲線,一條是 helpfulness ratings-時間曲線。
作者在計算評論對應的星級時,發現hair_dryer和pacifier的平均星級處于穩定趨勢,沒有什么顯著的變化;而microwave處于上升趨勢。但作者同時發現,如果只計算helpful votes,那么三件產品的趨勢都是下降的。此外,作者認為必須關注helpfulness ratings更多的reviews,helpfulness更多,對顧客的吸引力越大,能夠更好地預測未來商品走勢。
對于review文本,作者計算了review的總量和每條review平均的詞數,發現三種商品的reviews數都是處于上升狀態,而每條review平均的詞數都是下降趨勢。
對于文本的情感,鑒于目前尚未建立起一套完整的分析系統,作者先定義滿足下面兩個要求的是情感傾向good的評論:
- 包含褒義詞
- 沒有貶義詞
附錄A舉出了這樣的詞語:
有了這個評價手段,就可以計算每個季度里三類產品的好評率。根據下圖,作者看出好評率呈現出強自相關。原文如下:
4.2.3 基于star ratings和基于文本 評價指標關系
原文寫道:Obviously, there is a positive correlation between star ratings and percentage of favorable reviews – the higher the star ratings, the higher the percentage. Moreover, the numbers of reviews has no evident impacts on the percentage of favorable reviews. In addition, the average text word number does not have fixed effects on the percentage of favorable reviews.
就是說了以下三點:
- star rating和好評率存在正相關
- reviews數量和好評率沒有明顯相關性
- reviews平均詞數和好評率沒有固定相關性
4.2.4 基于star ratings和文本的評價指標
首先是star ratings 的評價指標:
Nt是在第 t 季度得到的評論數,rj是第 j 條評論的星級,vj是第 j 條評論的helpfulness,IVerified和IVined是indicator functions。
接著是文本的評價指標:
這里的ej需要接下來的模型幫助確定。
5.1 A Text Sentiment Analysis Model Based on Deep Learning
5.1.1 Steps of the Text Sentiment Analysis Model
作者首先做了關鍵詞抽取,因為關鍵詞是最能夠代表句子情感的。但是,在進行抽取之前,先去掉所謂的停頓詞(stop words),附錄B記錄了891個stop words:
其次,作者使用TF-IDF算法抽取關鍵詞,TF-IDF是自然語言處理中使用的一種算法,這里不多講,上網學習一下就可以了。
再次,作者將這些關鍵詞轉化為詞向量。其實有兩種方法可以判定文本的情感,本文作者選擇了第2種:
- 第一種是查找情感字典,一般這些字典里面都已經預定好了情感詞的參數,判定的時候只需要根據計算方法把這些指標綜合即可
- 第二種是深度學習,將關鍵詞轉為數學向量,搭建并訓練神經網絡
首先對關鍵詞進行計數并轉化為獨熱編碼:
但關鍵詞一多,這些向量也會變得很長,神經網絡訓練的時間將會十分緩慢。所以,作者還使用了連續詞袋模型,進行降維。
最后,將詞向量轉為句子向量,用神經網絡訓練。通過上面的處理,可以得到各個關鍵詞向量。對于一個reivew,作者把這些詞向量求和平均,作為review的句向量。有了句向量后,將該向量送入神經網絡,最后得到一個代表review句子情感得分的值。訓練需要訓練數據集,作者如下處理:
整個深度學習框架用下圖總結(作者高妙之處,在合適的地方做階段總結,且總結能用圖表就用圖表,實在不行才用文字)
5.1.2 Analysis of Model Results
上面的深度模型精度還挺高(94%),接下來要填上面的一個坑:
現在模型已經有了,那么ej可以由模型來確定,也就是重新審視review和star rating的關系。
這張圖給出的信息量其實挺大,作者從中提煉出了以下信息:
- 2010-2012,中性和正面評論文本量化值與贊同率正相關,但2012年后這種關系就不明顯了
- 三種產品的差評率和負面文本量化值的相關關系明顯。原文:
作者同時觀察統計了正負面評價對應的星級高低,發現高星級會引發更多正面的評價,但很難衡量低星級和負面評價之間的關系。
作者使用經過TF-IDF算法提取之后的關鍵詞,來給sunshine公司提供產品建議。下面圖中,出現頻次最多的當然是情感詞,其次是描述性形容詞(descriptive adjectives),然后是產品特征形容詞。
提出的建議如下(基本就是對癥下藥):
5.2 A Difference Equation Prediction Model
5.2.1 Correlation Analysis of Evaluation Indicators
計算ACF和PACF,以hair dryer為例,有:
如果指標的一階ACF較大且拖尾,且一階PACF被截斷,則表明該指標具有較強的一階自相關。結果表明,Nt在3種產品中均表現出明顯的自相關,Pt和NtW在奶嘴和微波爐中表現出自相關,而Rt和Et僅在吹風機中表現出自相關。除了平均星級和平均情感值外,我們還驗證了4.2.2節中其他三個指標存在自相關的結論。在對幫助度評分、驗證購買、vine設置不同權重后,每個季度的平均星級和情緒值基本保持穩定。這說明這兩個指標可能主要受其他指標的影響,而不是它們本身。
接著使用皮爾遜相關系數觀測變量之間的相關性:
5.2.2 Construction of Difference Equation Model
上面測定了各參數的自相關性和與其他參數的相關性之后,建立如下的差分方程:
5.2.3 Results and Analysis of Parameter Fitting
作者將三種產品的參數丟進模型進行擬合:
通過分析參數的擬合結果,作者得出:
- star rating的提升與前季度star rating和情感值呈現負相關
- 好評率、reviews數量和情感值的提升也和前季度對應的值負相關
這個現象看起來挺怪誕。為了探索上面現象出現的原因,作者還找到了證據(tqlb Orz),原因是存在Amazon’s click farming現象 點擊跳轉論文中出現的鏈接。
簡單來說,就是顧客看到過多的好評,反而會覺得這樣不真實(可能是Amazon賣家雇傭了網絡水軍,在“網絡農場”上“耕耘”),所以在好評率高的產品面前,可能會給出差評(有點負反饋的味道)。可以閱讀這個鏈接加深理解。
5.3 A Principal Component Analysis Model
5.3.1 Principle Introduction
這里簡要介紹了主成分分析PCA,這里就不展開說了。
5.3.2 Model Results and Construction of the Success Index
選擇累積方差貢獻率在90%以上的成分作為主成分,例如hair dryer的PCA結果如下:
5.3.3 Effectiveness and Application of the Success Index
success index對于區分successful的產品和unsuccessful的產品,是一個good indicator。
作者在之前訓練神經網絡時,200條訓練集數據通過人工標注打分。為了驗證深度學習的穩定性,選取了5%和10%的text出來,這次不進行人工標注,直接觀察會對最終的情感分數造成多大影響。
根據上面圖表,減少人工標注的text對最終結果造成了很小的影響。這就說明建立的模型具有魯棒性,之前產生的情感分數是可信、準確的。
此外,作者還對產品success index做了靈敏度分析,發現參數的變化對模型的影響也不大。
7.1 Strengths
- 通過先進深度學習模型,提高情感分析精度(參見5.1)
- 探索了基于時序的review數據,結果與真實數據一致(參見5.2)
- 提供了一個簡單、有效和使用的追蹤系統給公司(參見5.3)
7.2 Weaknesses
- 神經網絡訓練的時間長,且需要的數據集大。However, once the network is trained, it can be used for a long time, so the time cost is relatively small.
- 模型最多只到2015年,但2015年之后的評價指標可能會變。However, the patterns might change in the future, so it will be better to use the latest data.
概述了一下論文做的工作,通過模型得到的結論,闡述了一下Future work:
- 收集最新的數據
- 收集更具有代表性的reviews,從而對review文本的打分做出更精確的判斷
- 引入更多review的特征,得到更多有說服力的參數,這里作者枚舉了圖片、評論者的信譽等等
接下去,作者闡述了建模過程中工作的概貌,但較少使用專業術語,顯得通俗易懂。最后是提出一些見解,這里挑幾個看看:
后記
最后推薦一些我個人覺得受用的學習或者工具鏈接:
[1] code-of-learn-deep-learning-with-pytorch(https://github.com/L1aoXingyu/code-of-learn-deep-learning-with-pytorch)
[2] 使用pytorch快速搭建BP神經網絡(包含示例)(https://www.cnblogs.com/wangqinze/p/13424368.html)
[3] 八爪魚采集器-免費網絡爬蟲軟件 (https://www.bazhuayu.com/)
[4] scikit-learn-Machine Learning in Python【python機器學習庫】(https://scikit-learn.org/stable/index.html)
[5] 美賽常用的建模方法 (https://blog.csdn.net/qq_45467148/article/details/104340051)
[6] nlp-pytorch-zh【自然語言處理】 (https://github.com/apachecn/nlp-pytorch-zh/tree/master/docs)
[7] LaTeX的"API"文檔 (https://blog.csdn.net/Gentleman_Qin/article/details/79963396)
[8] LaTeX的使用教程 (https://liam.page/2014/09/08/latex-introduction/)
[9] Excel數據分析 (https://www.zhihu.com/question/19754722)
[10] Excel數據透視 (https://zhuanlan.zhihu.com/p/36785151)
[11] 武漢大學 - 黃正華的主頁 - LaTeX的詳盡用法與模板 (http://aff.whu.edu.cn/huangzh/)
[12] 時間序列-詳解 (https://www.biaodianfu.com/arima.html)
總結
以上是生活随笔為你收集整理的2020年美赛C题(数据分析题)O奖论文笔记 (2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OpenGL ES 送显 YUV NV1
- 下一篇: SVN分支管理以及跨分支打包