不抛弃异常值的几种情况
異常數據是數據分布的常態,處于特定分布區域或范圍之外的數據
通常會被定義為異常或“噪音”。產生數據“噪音”的原因很多,例如業務
運營操作、數據采集問題、數據同步問題等。對異常數據進行處理前,
需要先辨別出到底哪些是真正的數據異常。
從數據異常的狀態看分為兩
種:
·一種是“偽異常”,這些異常是由于業務特定運營動作產生,其實
是正常反映業務狀態,而不是數據本身的異常規律。
·一種是“真異常”,這些異常并不是由于特定的業務動作引起的,
而是客觀地反映了數據本身分布異常的個案。
大多數數據挖掘或數據工作中,異常值都會在數據的預處理過程中
被認為是噪音而剔除,以避免其對總體數據評估和分析挖掘的影響。但
在以下幾種情況下,無須對異常值做拋棄處理。
1.異常值正常反映了業務運營結果
該場景是由業務部門的特定動作導致的數據分布異常,如果拋棄異
常值將導致無法正確反饋業務結果。
例如:公司的A商品正常情況下日銷量為1000臺左右。由于昨日舉
行優惠促銷活動導致總銷量達到10000臺,由于后端庫存備貨不足導致
今日銷量又下降到100臺。在這種情況下,10000臺和100臺都正確反映
了業務運營的結果,而非數據異常。
2.異常檢測模型
異常檢測模型是針對整體樣本中的異常數據進行分析和挖掘以便找
到其中的異常個案和規律,這種數據應用圍繞異常值展開,因此異常值
不能做拋棄處理。
異常檢測模型常用于客戶異常識別、信用卡欺詐、貸款審批識別、
藥物變異識別、惡劣氣象預測、網絡入侵檢測、流量作弊檢測等。在這
種情況下,異常數據
總結
以上是生活随笔為你收集整理的不抛弃异常值的几种情况的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux添加ax88772b驱动,佳能
- 下一篇: MySQL主从数据库同步