node爬取某app数据_某APP次日留存数据报告
研究目的:找到用戶次日留存影響因素,創建客戶畫像,構建留存用戶預測模型。
結論:對于數據集來說,我們首先考慮渠道gb_guangdiantong可能存在刷單操作。對于模型來說,游戲活動,使用app時長,注冊時間,綁定賬戶,下載渠道等因素對模型具有顯著影響。客戶畫像:注冊時間較短,app停留時間及app打開次數均位于中游——潛在用戶;注冊時間同樣較短,但各項指標均明顯高于其余兩項——核心用戶;注冊時間較長,但其余各指標均低——大眾用戶。預測模型見附件(已保存為.xml格式文件,spss軟件可直接調用)。
分析流程:
一.數據處理
上圖可以看出該軟件總下載渠道共200+,有些渠道下載人數過少,較為冗余,所以先將各小渠道屏蔽,研究各大渠道之間差異。
如圖可以看出gb_baidu,gb_douyin,gb_qutoutiao,gb_withdraw等渠道數據量過少,gb_guangdiantong渠道數據過多,不排除這幾個渠道對總體數據模型產生影響。
二.總體描述
1.次日是否登陸
有效統計量188057,缺失0,次日登陸人數占比39.2%。
2.渠道分析
我們首先考慮將數據過少或過多的下載渠道屏蔽,觀察模型效果。
可以看出來除了gb_invite渠道之外,其他渠道流失均大于留存,且流失率基本無差異,但gb_invite該渠道留存大于流失,有些特殊,但由于數據較少無法確定明顯特征,可以提高該渠道投入量,提高數據量,觀察數據是否符合規律。
可以看到有0單元格期望計數小于5,所以Pearson卡方可以使用,p值小于0.05,各個渠道之間次日留存率有差異。
接下來研究所有渠道下數據特征,取消之前屏蔽掉的數據量過少的渠道。
可以看出由于gb_guangdiantong該渠道數據量過大,導致其他渠道數據體現不明顯,但還是可以看出該渠道流失留存比例明顯與其他渠道不同,流失用戶遠遠多于留存用戶,可以加以深入研究,不排除該渠道下有刷單行為。
接下來看交叉表,由于6單元格期望小于5,所以采用fisher精確檢驗,可以看出所有渠道間仍存在差異。
3.注冊日期分析
由上圖可以看出,以上幾個注冊日之間,每天注冊人數差距不大,且流失均大于留存。
上圖p值小于0.05,不同日期注冊的客戶注冊次日流失留存之間存在差異。
4.綁定賬戶分析
可以明顯看出綁定方式為1的賬戶最多
上圖表明不同綁定方式用戶流失留存間存在差異。采用方式一進行綁定的用戶次日登陸率較高。
三.流失分析
上圖為采取因子分析提取三個因子后的各因素抽取比例,可以看出除了停留時長及金幣總額兩個因素之外,其余因素提取率都達到了85%以上,模型較為優秀。
KMO檢驗值為0.827,遠大于0.5,可以繼續進行后續分析。
可以看出三個因子共解釋了因變量變化的88.198%,較為充分。
根據因子分析結果,判斷第一個因素為游戲活動因素,第二個為使用app時長因素,第三個為注冊時間因素。
四.歸因分析
可以看出游戲活動,使用app時長,注冊時間,綁定賬戶,下載渠道等五個因素對第二天是否登陸有明顯影響,其中最重要的因素是游戲活動與使用app時長。
五.用戶聚類
將用戶分為三類:
第一類注冊時間較短,app停留時間及app打開次數均位于中游,將之劃分為潛在用戶。
第二類注冊時間同樣較短,但各項指標均明顯高于其余兩項,劃分為核心用戶。
第三類用戶注冊時間較長,但其余各指標均低,故劃分為大眾用戶。
判別結果正確率為97.9%,類別真實存在,核心用戶特征明顯。
接下來對分類結果進行卡方檢驗。
從上圖可以看出,不同用戶類群之間存在顯著擦差異,核心用戶次日登陸率遠遠高于潛在用戶與大眾用戶,但核心用戶人數較低。
對用戶類型與綁定方式做對應分析。
可以看出核心用戶和潛在用戶與綁定方式1關系較為密切,大眾用戶則與綁定方式0,2關系較為密切。
六.預測
上圖可見,分類標準值為0.12時,對第二天登陸玩家的預測率達到了98.5%,模型整體正確率43.5%,該模型可以保證第二天有登陸可能的用戶基本全部被抓取,但為了減少工作量,我們可以進一步優化。
在將分類標準值調整為0.238時,對第二天登陸玩家的預測率達到了88.1%,
模型整體正確率61.4%,同時省下了約三分之一的工作量,模型達到最優。
禁止轉載
總結
以上是生活随笔為你收集整理的node爬取某app数据_某APP次日留存数据报告的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: avws扫描出来的漏洞怎么利用_漏洞扫描
- 下一篇: batocera_旧电脑变身影音游戏主机