箱须图
箱線圖也稱箱須圖、箱形圖、盒圖,用于反映一組或多組連續型定量數據分布的中心位置和散布范圍。箱形圖包含數學統計量,不僅能夠分析不同類別數據各層次水平差異,還能揭示數據間離散程度、異常值、分布差異等等。
?
小小箱子,大大信息量
箱線圖(Box plot)也稱箱須圖(Box-whisker Plot)、箱線圖、盒圖,可以用來反映一組或多組連續型定量數據分布的中心位置和散布范圍,因形狀如箱子而得名。1977年,美國著名數學家John W. Tukey首先在他的著作《Exploratory Data Analysis》中介紹了箱形圖。
圖片來源:CHAPTER 1. EXPLORATORY DATA ANALYSIS
注:
連續型數據:在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的。例如,生產零件的規格尺寸,人體測量的身高、體重等,其數值只能用測量或計量的方法取得。可視化這類數據的圖表主要有箱形圖和直方圖。
離散型數據:數值只能用自然數或整數單位計算的則為離散變量。例如,企業個數,職工人數,設備臺數等,只能按計量單位數計數,數值一般用計數方法取得。大多數圖表可視化的都是這類數據,比如柱狀圖、折線圖等。
在箱線圖中,箱子的中間有一條線,代表了數據的中位數。箱子的上下底,分別是數據的上四分位數(Q3)和下四分位數(Q1),這意味著箱體包含了50%的數據。因此,箱子的高度在一定程度上反映了數據的波動程度。上下邊緣則代表了該組數據的最大值和最小值。有時候箱子外部會有一些點,可以理解為數據中的“異常值”。
由于箱線圖不像柱狀圖、折線圖那樣簡單常見,許多人都對它敬而遠之。但只要我們搞清楚了以下幾個統計學的基本概念,箱線圖也可以變得“平易近人”。
01??四分位數
一組數據按照從小到大順序排列后,把該組數據四等分的數,稱為四分位數。第一四分位數 (Q1)、第二四分位數 (Q2,也叫“中位數”)和第三四分位數 (Q3)分別等于該樣本中所有數值由小到大排列后第25%、第50%和第75%的數字。第三四分位數與第一四分位數的差距又稱四分位距(interquartile range, IQR)。
02??偏態
與正態分布相對,指的是非對稱分布的偏斜狀態。在統計學上,眾數和平均數之差可作為分配偏態的指標之一:如平均數大于眾數,稱為正偏態(或右偏態);相反,則稱為負偏態(或左偏態)。
魔法箱子,會用才是王道
箱線圖包含的元素雖然有點復雜,但也正因為如此,它擁有許多獨特的功能:
01??直觀明了地識別數據批中的異常值
箱形圖可以用來觀察數據整體的分布情況,利用中位數,25/%分位數,75/%分位數,上邊界,下邊界等統計量來來描述數據的整體分布情況。通過計算這些統計量,生成一個箱體圖,箱體包含了大部分的正常數據,而在箱體上邊界和下邊界之外的,就是異常數據。
02??判斷數據的偏態和尾重
對于標準正態分布的大樣本,中位數位于上下四分位數的中央,箱形圖的方盒關于中位線對稱。中位數越偏離上下四分位數的中心位置,分布偏態性越強。異常值集中在較大值一側,則分布呈現右偏態;異常值集中在較小值一側,則分布呈現左偏態。
03??比較多批數據的形狀
箱子的上下限,分別是數據的上四分位數和下四分位數。這意味著箱子包含了50%的數據。因此,箱子的寬度在一定程度上反映了數據的波動程度。箱體越扁說明數據越集中,端線(也就是“須”)越短也說明數據集中。
憑借著這些“獨門絕技”,箱線圖在使用場景上也很不一般,最常見的是用于質量管理、人事測評、探索性數據分析等統計分析活動。
案例1:職員薪酬分布
下圖是不同地區數據分析師的薪酬統計情況。
圖中的紅線顯然是各個城市中游水平的數據分析師能夠獲得的薪資標準,上邊的藍線區間為中上游,下邊的藍線區間為中下游,以此類推。簡而言之,樣本人群被四等分了。
上海、北京、深圳的數據分析師,薪資范圍接近,但是中上游水平的人,北京地區能獲得更高的薪資,因為中位數(Q2)的位置更高。西安、長沙、天津則不利于數據分析師的發展。杭州的水平接近北上深,但是薪資上限受到一定限制。
案例2:學生成績分布
分析不同學年、不同科目的學生成績也是箱線圖的常見應用場景。下圖中我們可以看到學生的英語成績相對其它科目普遍較好,而數學則大部分都出于80分以下。
有時候我們會發現箱形圖的某一部分仿佛被隱藏了,比如下圖的第一個箱子。
除此之外還有一些極端情況,箱子被壓得很扁,甚至只剩下一條線,同時還存在著很多異常值。這些情況的出現,有兩個常見的原因。
第一,樣本數據中,存在特別大或者特別小的異常值,這種離群的表現,導致箱子整體被壓縮,反而凸顯出來這些異常;
第二,樣本數據特別少,因此箱體受單個數據的影響被放大了。
案例3:運動員水平分析
下面是一個箱線圖演變過來的案例。從圖中我們可以看到,在速度、敏捷、爆發、力量和身體指標五個方面近十年NBA選秀體側數據的最值、正常水平(盒身)和中值(中位數),其中黃色標注的是周琦的個人數據。
綜合來看,周琦的體測數據基本達到了NBA中鋒的正常水準。在繞樁變向和禁區折返跑這兩項敏捷度測試中,周琦表現不俗,有著超越常規NBA中鋒的水準。中鋒最重要的垂直縱跳一項,周琦也超出了聯盟中鋒的正常范圍。身體素質上,周琦的身高臂展以及體脂水平都可以算得上頂尖。然而從體重這一項我們可以推測,周琦最大的問題在于他的力量。他必須盡快增重,增強自己的身體對抗能力以適應NBA的對抗強度。
案例4:科學研究分析
箱形圖最初的誕生無疑是為科研工作量身打造的,在諸多論文中都可以看到箱形圖的使用。下圖顯示了世界各地地表水中29種不同個人護理產品的濃度分布情況。針對所測量的個人護理產品,中位數濃度通常在0.01和0.1 μg / L之間。
圖片來源:著名科學傳播網站AtlasfScience
箱子雖好,別傻傻分不清楚
1. 誤差線
一些柱狀圖中作者會添加誤差線來給數值增加誤差范圍,看起來和箱線圖有點相似。
總結
- 上一篇: Matlab 画热力图(heat-map
- 下一篇: 小蜜蜂--大数问题