“华为杯”第十七届中国研究生数学建模竞赛2020 —— B题
??2020年“華為杯”中國研究生數學建模競賽一共有A、B、C、D、E、F六道題,其中A題為華為題,題目詳細資料 提取碼:28x2。
??各道題的題目信息如下:
??A題:華為題_芯片相噪算法設計
??B題:汽油辛烷值建模
??C題:面向康復工程的腦電信號分析和判別模型
??D題:無人機集群協同對抗
??E題:能見度估計與預測
??F題:飛行器質心平衡供油策略優化
??在拿到題目經過一番分析和思考后,我們隊選擇了B題。B是一道大數據題目,主要是進行數據降維、預測和優化。之所以選擇B題,是因為剛開始看了所有題目后覺得相比于其他幾道題目而言,B題是最容易下手的,但是到后面才發現不然,題目中暗藏玄機,而且有時連題意都很難讀懂。不過既然已經選了,換題是大忌,所以只能硬著頭皮做完了。
B題題目內容:
一、背景
??汽油是小型車輛的主要燃料,汽油燃燒產生的尾氣排放對大氣環境有重要影響。為此,世界各國都制定了日益嚴格的汽油質量標準(見下表)。汽油清潔化重點是降低汽油中的硫、烯烴含量,同時盡量保持其辛烷值。
| 國Ⅲ(2010年) | 90-97 | 150 | 1 | 40 | 30 |
| 國Ⅳ(2014年) | 90-97 | 50 | 1 | 40 | 28 |
| 國Ⅴ(2017年) | 85-95 | 10 | 1 | 40 | 24 |
| 國Ⅵ-A(2019年) | 85-95 | 10 | 0.8 | 35 | 18 |
| 國Ⅵ-B(2023年) | 85-95 | 10 | 0.8 | 35 | 15 |
| 歐Ⅴ(2009年) | 95 | 10 | 1 | 35 | 18 |
| 歐VI(2013年) | 95 | 10 | 1 | 35 | 18 |
| 世界燃油規范(Ⅴ類汽油) | 95 | 10 | 1 | 35 | 10 |
注: μg/g是一個濃度單位,也有用mg/kg或ppm表示的(以下同)
??我國原油對外依存度超過70%,且大部分是中東地區的含硫和高硫原油。原油中的重油通常占比40-60%,這部分重油(以硫為代表的雜質含量也高)難以直接利用。為了有效利用重油資源,我國大力發展了以催化裂化為核心的重油輕質化工藝技術,將重油轉化為汽油、柴油和低碳烯烴,超過70%的汽油是由催化裂化生產得到,因此成品汽油中95%以上的硫和烯烴來自催化裂化汽油。故必須對催化裂化汽油進行精制處理,以滿足對汽油質量要求。
??辛烷值(以RON表示)是反映汽油燃燒性能的最重要指標,并作為汽油的商品牌號(例如89#、92#、95#)。現有技術在對催化裂化汽油進行脫硫和降烯烴過程中,普遍降低了汽油辛烷值。辛烷值每降低1個單位,相當于損失約150元/噸。以一個100萬噸/年催化裂化汽油精制裝置為例,若能降低RON損失0.3個單位,其經濟效益將達到四千五百萬元。
??化工過程的建模一般是通過數據關聯或機理建模的方法來實現的,取得了一定的成果。但是由于煉油工藝過程的復雜性以及設備的多樣性,它們的操作變量(控制變量)之間具有高度非線性和相互強耦聯的關系,而且傳統的數據關聯模型中變量相對較少、機理建模對原料的分析要求較高,對過程優化的響應不及時,所以效果并不理想。
??某石化企業的催化裂化汽油精制脫硫裝置運行4年,積累了大量歷史數據,其汽油產品辛烷值損失平均為1.37個單位,而同類裝置的最小損失值只有0.6個單位。故有較大的優化空間。請參賽研究生探索利用數據挖掘技術來解決化工過程建模問題。
二、目標
??依據從催化裂化汽油精制裝置采集的325個數據樣本(每個數據樣本都有354個操作變量),通過數據挖掘技術來建立汽油辛烷值(RON)損失的預測模型,并給出每個樣本的優化操作條件,在保證汽油產品脫硫效果(歐六和國六標準均為不大于10μg/g,但為了給企業裝置操作留有空間,本次建模要求產品硫含量不大于5μg/g)的前提下,盡量降低汽油辛烷值損失在30%以上。
三、問題
??1、數據處理:請參考近4年的工業數據(見附件一“325個數據樣本數據.xlsx”)的預處理結果,依“樣本確定方法”(附件二)對285號和313號數據樣本進行預處理(原始數據見附件三“285號和313號樣本原始數據.xlsx”)并將處理后的數據分別加入到附件一中相應的樣本號中,供下面研究使用。
??2、尋找建模主要變量:
??由于催化裂化汽油精制過程是連續的,雖然操作變量每3 分鐘就采樣一次,但辛烷值(因變量)的測量比較麻煩,一周僅2次無法對應。但根據實際情況可以認為辛烷值的測量值是測量時刻前兩小時內操作變量的綜合效果,因此預處理中取操作變量兩小時內的平均值與辛烷值的測量值對應。這樣產生了325個樣本(見附件一)。
??建立降低辛烷值損失模型涉及包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等變量以及另外354個操作變量(共計367個變量),工程技術應用中經常使用先降維后建模的方法,這有利于忽略次要因素,發現并分析影響模型的主要變量與因素。因此,請你們根據提供的325個樣本數據(見附件一),通過降維的方法從367個操作變量中篩選出建模主要變量,使之盡可能具有代表性、獨立性(為了工程應用方便,建議降維后的主要變量在30個以下),并請詳細說明建模主要變量的篩選過程及其合理性。(提示:請考慮將原料的辛烷值作為建模變量之一)。
??3. 建立辛烷值(RON)損失預測模型:采用上述樣本和建模主要變量,通過數據挖掘技術建立辛烷值(RON)損失預測模型,并進行模型驗證。
??4. 主要變量操作方案的優化:要求在保證產品硫含量不大于5μg/g的前提下,利用你們的模型獲得325個數據樣本(見附件四“325個數據樣本數據.xlsx”)中,辛烷值(RON)損失降幅大于30%的樣本對應的主要變量優化后的操作條件(優化過程中原料、待生吸附劑、再生吸附劑的性質保持不變,以它們在樣本中的數據為準)。
??5. 模型的可視化展示:工業裝置為了平穩生產,優化后的主要操作變量(即:問題2中的主要變量)往往只能逐步調整到位,請你們對133號樣本(原料性質、待生吸附劑和再生吸附劑的性質數據保持不變,以樣本中的數據為準),以圖形展示其主要操作變量優化調整過程中對應的汽油辛烷值和硫含量的變化軌跡。(各主要操作變量每次允許調整幅度值Δ見附件四“354個操作變量信息.xlsx”)。
??附件:
??附件一:325個樣本數據.xlsx
??附件二:樣本確定方法.docx
??附件三:285號和313號樣本原始數據.xlsx
??附件四:354個操作變量信息.xlsx
B題題目分析:
-
問題1:數據處理
??本問題要求對附件三中285號和313號樣本的354個操作變量數據進行處理。附件二中給出了樣本確定方法:對嚴重缺失數據刪除、數據全部為空位點刪除、部分缺失數據平均值補全、最大最小限幅法、3準則異常值剔除。
??由于此問中的兩個樣本數據在附件一已給出,我們的思路是對附件三中的數據按附件二提供的方法進行處理后去替換附件一中對應的樣本數據。 -
問題2:尋找建模主要變量
??本問題要求對處理后的樣本數據通過降維的方法從367個操作變量中篩選出建模主要變量,使之盡可能具有代表性、獨立性。
??鑒于本題涉及的變量有367個,變量篩選是建模中的重中之重。重點考察選取的主要變量是否具有代表性、獨立性二個要素以及合理性解釋。建模變量篩選必須對原料、吸附劑性質及操作變量都進行降維處理,降維過程要表述清晰。
??大多數同學在本問都會使用PCA降維法,但是本問其實不宜用PCA或直接多元線性回歸降維,因為PCA得到的已不是題目中提到的獨立的、具有代表性的變量。而直接多元線性回歸的話,本問題樣本只有 325 個,但變量多達 367 個,會出現嚴重的過擬合(包括采用隨機森林等機器學習算法都不合適)。
??基于以上分析,我們的思路是采用灰色關聯度分析法和皮爾遜相關系數法分別提取主要變量,再將兩種方法通過加權的方式依據綜合得分排序選取前28個主要操作變量得到建模主要變量。可能這個方法也不是非常的契合題目,目前還沒有找到更好的方法。 -
問題3:建立辛烷值(RON)損失預測模型
??本問題要求通過數據挖掘技術,利用前面兩個問題得到的樣本數據和主要變量,建立辛烷值(RON)損失預測模型,并進行模型驗證。
??我們的思路是建立多元回歸模型和BP神經網絡模型進行辛烷值(RON)損失的預測。但這兩種方法過于基礎,推薦使用更為高級的算法進行預測。 -
問題4:主要變量操作方案的優化
??本問題要求在保證硫含量不大于5μg/g的前提下,利用325個數據樣本優化主要操作變量,使辛烷值損失降幅大于30%。
??我們的思路是采用線性規劃的方法,建立辛烷值損失降幅優化目標函數,并以硫含量要求和各操作變量的取值范圍作為約束條件,求解出各操作變量的最佳取值。這個題目的意思就有些難懂了,我們當時就題目意思討論了很久,加之屬于優化的問題,在這一問上用了很多時間。 -
問題5:模型的可視化展示
??本問題要求將133號樣本優化后的主要變量與汽油辛烷值和硫含量的變化軌跡以圖形的形式展現出來。
??如果前幾問順利的做出來的話,第五問相對就比較容易了,只需采用可視化的方法將模型展示出來即可。我們的思路是采用控制變量的方式對變化軌跡進行圖形展示。
總結
以上是生活随笔為你收集整理的“华为杯”第十七届中国研究生数学建模竞赛2020 —— B题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: word 2013 题注、图注、插入图片
- 下一篇: 机器学习——支持向量机SVM之非线性模型