寻找影响葡萄酒质量的化学成分(基于R,相关性分析)
哪個化學成分影響葡萄酒的質量?
單變量情節部分
從數據可得,該數據集有4898 條數據和13個變量。
查看 quality 的分布
從圖中可得,質量分數的分布范圍是3至9,大部分的質量分數居中,最多為6分。
fixed.acidity的分布區間大多數在6到8之間,其峰值在6.5附近,基本屬于正態分布。 volatile.acidity的分布區間大多數在0.15到0.4之間,其峰值在0.25附近,基本屬于正態分布。 citric.acid的分布區間大多數在0.1到0.6之間,其峰值在0.3附近,呈現正態分布,分布在0.5附近出現異常變化。 這3種酸的分布類似quality的分布,我猜想是不是這3種酸對白葡萄酒的質量有重要影響?
residual.sugar的分布區間大多數在0.5到2之間,呈正偏斜分布。
chlorides的分布區間大多數在0到0.1之間,除去長尾后,基本呈正態分布。
free.sulfur.dioxide的分布區間大多數在0到100之間,total.sulfur.dioxide的分布區間大多數在50到250之間,它們的圖形都類似正態分布。
density的分布區間大多數在0.99到1之間.
pH的分布區間大多數在2.8到3.6之間,呈正態分布。
sulphates的分布區間大多數在0.25到0.75之間,基本呈正態分布。
alcohol的分布區間大多數在8到14之間,呈偏右斜分布。
新變量 all_acid
由于數據集里有三種酸,所以創建一個變量all_acid把它們囊括其中。
單變量分析
數據集的結構:
這個數據集包含4,898 種葡萄酒,及11個量化每種酒化學成分的變量。
質量的評分:分數在 0(非常差)和 10(非常好)之間。
其他觀測結果: 1、大部分的白葡萄酒由質量中等的構成; 2、常見的白葡萄酒的酒精度數為12度,數據集里數量最多的反而是9度; 3、各變量數值分布幾乎是正態分布。
感興趣的主要特征:
數據集的主要特征是 alcohol 和 quality。 我到網上了解了一下,醇類、酯類和縮醛等影響白葡萄酒呈香和呈味的最終形成,數據集里的變量就 alcohol 和這幾種物質關聯最大,我想就此探索一下。
其他有助調查的特征:
fixed.acidity, volatile.acidity, citric.acid, residual.sugar 和 PH。 畢竟酸、糖和 PH 會對人類味覺產生直接影響。
特征的分布情況:
所有變量幾乎都是正態分布。即使我調整組寬來放大了圖形,基本上還是正態分布。
二元塊部分
從上圖可得:
相關度較高的是 residual.sugar 與 density,相關系數為0.84; free.sulfur.dioxide 和 total.sulfur.dioxide,相關系數為0.62。
負相關度較高的是 alcohol 與 density,相關系數為-0.78 alcohol 與 total.sulfur.dioxide,alcohol 與 residual.sugar,兩組的相關系數皆為-0.45。
從物理的角度來看,也能說明上述相關性的準確性,糖類密度大,而酒精密度小。所以 residual.sugar 的數值越大,則 density 的數值就會越大;alcohol 的數值越大,則 density 的數值就會越小。
探索 alcohol 與 quality 的關系
從這條紅色的相關性線可看出,alcohol 與 quality 呈正相關關系。
探索 fixed.acidity 與 quality 的關系
從圖中可得,fixed.acidity 與 quality 的相關性并不大,呈微弱的負相關關系。
探索 volatile.acidity 與 quality 的關系
從圖中可得,volatile.acidity 與 quality 的相關性也不大,呈較弱的負相關關系。
探索 citric.acid 與 quality 的關系
從圖中可得,citric.acid 與 quality 的相關線幾乎是一條直線,它們應該沒有相關性。
探索 residual.sugar 與 quality 的關系
從圖中可得,residual.sugar 與 quality 的相關性不大,呈較弱的負相關關系。
探索 pH 與 quality 的關系
從圖中可得,pH 與 quality 的相關性不大,呈較弱的正相關關系。
探索 residual.sugar 和 density 的關系
從圖中可得,residual.sugar 和 density 有很強的正相關性。
探索 alcohol 和 density 的關系
從圖中可得,alcohol 和 density 有較強的負相關性。
雙變量分析
感興趣的特征的變化情況:
我所感興趣的特征主要是 alcohol 與 quality 的關系,從圖中的相關線可看出它們呈很強的正相關關系。alcohol 隨 quality 的增加而增加。
其他發現:
令我覺得意外的是,fixed.acidity 和 volatile.acidity 這兩種酸居然跟 quality 成負相關,雖然程度不大。而 pH 卻跟 quality 成正相關,雖然程度也不大。根據這個發現,我猜測是不是因為人體是偏酸性的,而從醫學角度來說弱堿性的食物對人體有益,導致人類演化出了喜歡弱堿性食物的味覺。
最緊密的特征對:
residual.sugar 和 density 的關系,從圖中可以容易發現,而且它們的相關系數為0.84。
多元的情節部分
探索 alcohol, pH, quality 的關系
從圖中可得,當 alcohol > 10.5時,這三個變量才有一個穩定的關系, 即當 alcohol 一定時,pH 的數值越高, quality 的質量也越高。
探索 alcohol, total.sulfur.dioxide, quality 的關系
從圖中來看, alcohol, total.sulfur.dioxide, quality 這三者的關系并不明顯,而且對 quality 的影響也不大, 估計是二氧化硫僅作為保鮮的添加劑,不會對酒的質量造成太大的影響。
探索 alcohol, fixed.acidity, quality 的關系
從圖中可得,quality 為3和9的關系比較奇怪,可能因為這兩個的數據量比較少,而一般追求這些極端質量的人的品味都會比較獨特,所以會造成誤差。反觀 quality 為4至8的,在 alcohol > 10.5的區域,當 alcohol 一定時,fixed.acidity的數值越高,quality 的質量越低。
探索 alcohol, density, quality 的關系
從圖中可得,alcohol, density, quality 還是有一定關系的,撇開 quality 為3和9的,當 alcohol 一定時,density 的數值越高,quality 的質量越高。
多變量分析
特征之間彼此加強的情況:
pH、density 和 alcohol 是相互加強了彼此。
特征之間令人驚訝的互動:
alcohol, total.sulfur.dioxide, quality 的關系讓我挺感到意外的,它們的關系驗證了二氧化硫這一防腐劑并不會對酒的質量造成大的影響。
可選:您使用數據集創建了任何模型嗎?討論你的模型的優勢和局限性。
無。
最后的情節和總結
Plot One
Description One
從圖中可看出,絕大部分白葡萄酒的質量都是中等的,其中 quality = 6的最多。這也說明了市場的實際需求,中等質量的是最多人需要的。
Plot Two
Description Two
從圖中可看出,quality 和 alcohol 有著很強的正相關關系。alcohol 就是乙醇,驗證了我從網上了解到的——醇類、酯類和縮醛等影響白葡萄酒呈香和呈味的最終形成。
Plot Three
Description Three
從圖中可看出,當 alcohol > 10.5,alcohol一定時,pH 的數值越高,quality 的質量越好。市面上酒精度數少于10度的白葡萄酒很少有,所以能說它們是有穩定的正相關性。
Reflection
分析過程的挫折和成功:
剛開始探索這個數據集時,僅從自己的一些常識為方向先看看酸、糖、PH值和酒精是否對質量有最大的影響。通過后來的探索以及自己網上查閱,得到些有趣的發現,比如:人類會更喜歡偏堿性的白葡萄酒。而有些看似有很大影響的化合物——二氧化硫,卻不會對白葡萄酒的質量產生太大的影響。
未來工作的深入的提議:
1、還是得先對數據集進行深入了解,以確定自己的探索方向,以防走彎路。
2、要充分收集數據集各類型的數據,本次這個數據集僅有11個變量,其他有影響質量的物質諸如酯類和縮醛等都沒有囊括,這樣分析得出的結論難免有所局限。而且質量為3和9的數據量收集得比較少。
3、該數據集應該把白葡萄的品種和產地、酒的年份也考慮進去。
4、對于這個數據集,還可以建立一個模型或者計算出一個公式來預測白葡萄酒的質量。
總結
以上是生活随笔為你收集整理的寻找影响葡萄酒质量的化学成分(基于R,相关性分析)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Huawei/华为Honor 荣耀(U8
- 下一篇: 绿坝模式须谨慎对待