用户画像-撸一部分代码啊
生活随笔
收集整理的這篇文章主要介紹了
用户画像-撸一部分代码啊
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1、聚類
算相似人群的時候會根據人的特征進行聚類或者相似度計算,scala kmeans代碼如下所示:
2 、HashLSH計算
三、信用評分模型構建
四、一些創建hive 表以及寫入數據的sql(主要掌握hive的一些窗口函數,如case..when , row number, collect_set.....)
簡單的寫幾個如下所示:
以及每個維度畫像標簽有一個表或者多個表,最終需要把不同維度的表合成一個寬表,如下所示:
五、hive數據寫入到ES
ES與其它庫的區別:
? ? ?幾十億用戶下, 根據不同維度查詢 達到秒級 ?——> hbase-實時查詢但是聚合沒法做的 ?es
? ? ?在線計算 ?--> ES ?查詢速度快,穩定性 ?每天數據更新
? ? ?hive、spark sql、impala、presto --延遲比較大
? ? ES不適合做關聯-主要是方便查詢,檢索 es? ? ?很消耗內存
? ? 關聯適合離線 hive? ? ? 更多占用硬盤數據相比內存便宜很多
總結
以上是生活随笔為你收集整理的用户画像-撸一部分代码啊的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用户画像-参考整理医疗app标签
- 下一篇: 1-spark学习笔记-大数据概述