近红外光谱
近紅外光譜
總結一下在使用近紅外光譜技術對事物某一指標進行預測的基本步驟。
實驗儀器
實驗室中使用的儀器是NIRQuest512近紅外光譜儀和USB4000光譜儀。NIRQuest近紅外光譜儀輸出波長范圍為900-1700nm,USB4000輸出波長可涵蓋200nm-1100nm。
具體測量物質的透射光強或反射光強,由使用的光纖決定,本次實驗中使用的光纖為漫反射光纖。
http://www.oceanoptics.cn/products/180(紅外光譜儀-海洋光學)
http://www.hamamatsu.com.cn/product/12371/12421/list.html(微型光譜儀-濱松中國)
軟件參數
Ocean Optics SpectraSuite軟件中有兩個參數需要調整,一個是平滑次數,另一個是積分時間。平滑次數相當于是個預處理,自己調的不會影響到波峰波谷就行。積分時間可以理解為曝光時間,比如積分時間1ms,就是檢測器接收光子的時間為1ms。一般是根據不同應用來調積分時間的,調到一定范圍,信號能量就會弱,所以積分時間越高,能量越高,具體積分時間調多大,我也不知道…
實驗數據
實驗數據獲取是非常關鍵的。
首先要閱讀文章,搜集一下前人的實驗方法,查閱資料看看有沒有國家標準,比如茶葉烘干就是有國家標準的,按照國標方法測量得出的數據更具有權威性,當然依據前人的論文方法或許也是可行的。
實驗材料或者實驗步驟比較復雜的,最好是考慮好各種各樣可能出現的問題,比如我的數據在采集過程中,光纖探頭沒有與樣本垂直照射,有一定的傾斜,那可能就會對實驗結果造成一定的影響。我的實驗材料是粉末狀,采用的是漫反射光纖,于是首先要確定的是粉末厚度,最好的情況是粉末的厚度能夠阻擋光的透射,在實驗時我是以肉眼是否看得見為標準的。如果要嚴謹些,可以用透射光纖去測量透射后的光強。光譜對于外界信息反應比較敏感,可能盛放樣品的容器也會對測量結果造成影響,所以需要進行實驗對光譜的重復性加以實驗,繪圖即可,不必參照他人論文的驗證指標,因為他那個指標可能真的不好用!
數據處理
數據處理用的比較多的是matlab,其他的軟件還有spss,unscrambler(就用過這兩種)。有一說一,我感覺matlab是最好用也是最方便的;spss也還行,但是我的安裝有一點問題,缺少了一部分文件,輸出會報錯,現在也有網頁版的SPSSAU,一天10塊錢可以使用所有的功能,而且會直接輸出數學模型,還算可以。Unscrambler缺點是不能做數據劃分,但是如果自己在matlab中跑通了樣本劃分程序,也可以考慮在Unscrambler中做完剩余部分。
研究過程一般是:預處理→數據樣本劃分→提取特征波長→建模→模型評價
提取特征波長可能也是可選項,但是在開發儀器中,一般是必須的,因為如果用全光譜建模,儀器的成本會非常高,甚至可以說沒有開發儀器的必要。如果能提取出有代表性的特征波長,僅用led燈去照射即可獲得對應波長下的反射率,再將反射率帶入到模型當中計算出值,這將會大大降低儀器的成本。
預處理
預處理方法有很多,資料也很多就不一一列舉。一般常用的有歸一化、S-G平滑處理、多元散射校正、正態化和標準變換、一階導數等。
樣本劃分
樣本劃分有三種:隨機樣本劃分、KS樣本劃分、SPXY樣本劃分。
簡單介紹下:
隨機采樣法最為簡單,該方法隨機從樣品中抽出目標數量的樣品作為校正集,剩余樣品為預測集,由此方法難以得出理想的樣品集。KS算法利用樣品之間的歐氏距離由遠及近進行劃分校正集與預測集,常用于定性分析。SPXY算法在KS基礎上改進而來,常用于定量分析。
特征波長提取
連續投影算法(Successive Projections Algorithm,SPA):SPA是一種前向選擇方法,從第一個波長開始,向其他未選擇的波長上投影,之后將投影過后不斷迭代,將向量最大的波長引入到波長組合中,一直循環N次,每一個新選入到波長組合中的波長,與前一個選入的波長線性關系最小。SPA的目的是選取信息冗余最小的波長,以解決共線性的問題。每次循環過后使用“留一交叉驗證法”對選入的波長組合進行多元線性回歸,并驗證均方根誤差(RMSE),通過比較選取RMSE最小的波長組合(成忠等 2010)。
主成分分析法(Principle Component Analysis,PCA):PCA首先在數據矩陣中,向各個數據點構成的向量投影,以協方差為數據標準,找出能夠包含當前數據最大信息量的一個向量;再以上述提取出的一維向量為基準,繼續按照投影方式結合協方差尋找第二個向量,構成二維,不斷遞推下去,最終所計算的維數可以通過直接規定或者根據數據的可信度來選擇(劉玲玲 2013)。
無信息變量去除(Uninformation Variable Elimination,UVE):把相同于自變量矩陣的變量數目的隨機變量矩陣加入光譜矩陣中,然后通過交叉驗證的逐一剔除法建立PLS模型,得到回歸系數矩陣,分析回歸系數矩陣中回歸系數向量的平均值和標準偏差商的穩定性。
模型建立
偏最小二乘(Partial Least Squares,PLS),偏最小二乘集中了主成分分析、典型相關性分析和線性回歸方法的特點。其原理是從自變量組合因變量組中提取出相關性最大的部分建立回歸。剩余部分稱為殘差矩陣,并從中繼續提取出兩變量的主成分建立回歸,不斷迭代,求得回歸方程。根據返回的預測均方根誤差(Root mean square error,RMSE)結果選擇主成分分數進行建模,當RMSE達到最低時,對應的變量個數即為建模需要的隱變量個數。
模型評價
評價預測模型的指標有多種,本文分別采用預測均方根誤差(Root Mean Square Error of Prediction,RMSEP),決定系數(R2)以及相對分析誤差(Relative Predictive Deviation,RPD)對預測模型的性能進行檢測。各個指標計算公式如式:
式中,n為參與預測模型的樣品數,SD為標準差, 和 分別表示第i個樣品的測量值以及模型的預測值, 為預測集樣品成分的平均值。當R2越接近1,RPD大于1.4時,可認為該模型可以使用,當RPD大于2時可認為模型具有很好的預測效果。
總結
- 上一篇: Linux系统的性能测试
- 下一篇: 研究型论文_具有 ExtraTrees