2020年研究生数学建模竞赛总结复盘
文章目錄
- 一、前言
- 二、賽題選擇
- 三、做題思路
- 問題一、數據清洗
- 問題二、數據降維
- 問題三、建模預測
- 問題四、分析模型預測結果與實際值
- 問題五、可視化
- 四、總結
- 五、結果(三等獎)
一、前言
今天是2020年研究生數學建模競賽的最后一天,今早五點半提交了論文的MD5,一會提交論文。昨晚,啊不,今早通宵和室友趕完了論文,分析完所有的數據,調整了所有的表格和格式,歷時五天總算是結束了。這篇文章作為一篇參加完比賽后的總結和復盤,記錄一下期間出現的問題、第一次參加比賽的感受和不足。
二、賽題選擇
由于和室友我們三個都是第一次參加研究生數學建模,總體來說還是小白,沒有經驗。第一天早上賽題出來的時候,選題花了一早上的時間,首先上知乎和百度看了往年大神對今年題目的分析,(不得不說知乎大佬真的多),剔除了專業性較強的類型,然后從我們能看懂的,主觀感覺上簡單的題目里面選擇了B題。題目如下,是對汽油辛烷值損失進行建模。
2020年中國研究生數學建模競賽B題
降低汽油精制過程中的辛烷值損失模型
一、背景
汽油是小型車輛的主要燃料,汽油燃燒產生的尾氣排放對大氣環境有重要影響。為此,世界各國都制定了日益嚴格的汽油質量標準(見下表)。汽油清潔化重點是降低汽油中的硫、烯烴含量,同時盡量保持其辛烷值。
我國原油對外依存度超過70%,且大部分是中東地區的含硫和高硫原油。原油中的重油通常占比40-60%,這部分重油(以硫為代表的雜質含量也高)難以直接利用。為了有效利用重油資源,我國大力發展了以催化裂化為核心的重油輕質化工藝技術,將重油轉化為汽油、柴油和低碳烯烴,超過70%的汽油是由催化裂化生產得到,因此成品汽油中95%以上的硫和烯烴來自催化裂化汽油。故必須對催化裂化汽油進行精制處理,以滿足對汽油質量要求。
辛烷值(以RON表示)是反映汽油燃燒性能的最重要指標,并作為汽油的商品牌號(例如89#、92#、95#)。現有技術在對催化裂化汽油進行脫硫和降烯烴過程中,普遍降低了汽油辛烷值。辛烷值每降低1個單位,相當于損失約150元/噸。以一個100萬噸/年催化裂化汽油精制裝置為例,若能降低RON損失0.3個單位,其經濟效益將達到四千五百萬元。
化工過程的建模一般是通過數據關聯或機理建模的方法來實現的,取得了一定的成果。但是由于煉油工藝過程的復雜性以及設備的多樣性,它們的操作變量(控制變量)之間具有高度非線性和相互強耦聯的關系,而且傳統的數據關聯模型中變量相對較少、機理建模對原料的分析要求較高,對過程優化的響應不及時,所以效果并不理想。
某石化企業的催化裂化汽油精制脫硫裝置運行4年,積累了大量歷史數據,其汽油產品辛烷值損失平均為1.37個單位,而同類裝置的最小損失值只有0.6個單位。故有較大的優化空間。請參賽研究生探索利用數據挖掘技術來解決化工過程建模問題。
二、目標
依據從催化裂化汽油精制裝置采集的325個數據樣本(每個數據樣本都有354個操作變量),通過數據挖掘技術來建立汽油辛烷值(RON)損失的預測模型,并給出每個樣本的優化操作條件,在保證汽油產品脫硫效果(歐六和國六標準均為不大于10μg/g,但為了給企業裝置操作留有空間,本次建模要求產品硫含量不大于5μg/g)的前提下,盡量降低汽油辛烷值損失在30%以上。
三、問題
由于催化裂化汽油精制過程是連續的,雖然操作變量每3 分鐘就采樣一次,但辛烷值(因變量)的測量比較麻煩,一周僅2次無法對應。但根據實際情況可以認為辛烷值的測量值是測量時刻前兩小時內操作變量的綜合效果,因此預處理中取操作變量兩小時內的平均值與辛烷值的測量值對應。這樣產生了325個樣本(見附件一)。
建立降低辛烷值損失模型涉及包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等變量以及另外354個操作變量(共計367個變量),工程技術應用中經常使用先降維后建模的方法,這有利于忽略次要因素,發現并分析影響模型的主要變量與因素。因此,請你們根據提供的325個樣本數據(見附件一),通過降維的方法從367個操作變量中篩選出建模主要變量,使之盡可能具有代表性、獨立性(為了工程應用方便,建議降維后的主要變量在30個以下),并請詳細說明建模主要變量的篩選過程及其合理性。(提示:請考慮將原料的辛烷值作為建模變量之一)。
附件:
附件一:325個樣本數據.xlsx
附件二:樣本確定方法.docx
附件三:285號和313號樣本原始數據.xlsx
附件四:354個操作變量信息.xlsx
三、做題思路
首先感覺這就是一個數據挖掘類的題目,需要有相關的機器學習和數據挖掘的知識,并且要能熟練使用常見的數據分析工具和編程語言,我們用的SPSS和python,如果對這兩個不熟悉甚至沒用過的,打這個比賽還是不要想了。
問題一、數據清洗
我們按照題目給的附件里的數據處理要求進行清洗,基本也是常規的數據挖掘前期的數據預處理工作。刪除異常值、處理零值、處理離群點等等。
問題二、數據降維
需要有相關的數據降維、特征選擇、特征提取的知識。我們采取k-meas、主成分分析、隨機森林特征重要性排序的方法綜合挑選重要特征,進行降維。
這個題目中的數據維度是很多的,有367維,最終應影響的就是辛烷值的損失。而且這么多的維度和辛烷值損失之間的關系是很復雜的,是高度非線性、相互強耦合的。
所以需要掌握對不同類型的數據,采取不同的降維方法。
問題三、建模預測
有了第二問降維后的特征,就要建立模型來預測辛烷值損失。我們的思路是,根據數據特點進行建模。數據是非線性的,就要采用能找出非線性關系的模型來套用,所以使用了人工神經網絡ANN。
這一問要求要對數據挖掘中常用的模型有所了解,要熟悉它們的特點,適用條件。
還要熟悉模型的驗證方法。
問題四、分析模型預測結果與實際值
具體問題具體分析,這個問題比較具體。就是同用問題三的模型,把數據再放進去,看結果怎么樣,還要挑選出結果好的樣本,分析他們的操作變量(也就是降維后的特征)是怎么操作的。
問題五、可視化
把第四問可視化就行
四、總結
關鍵是熟悉數據挖掘和機器學習的基本知識(當然只限于這種類型的題),重要的是編程能力也是很重要的,只了解理論模型、數據處理方法是遠遠不夠的,還需要編程實驗??偟膩碚f,還是自己掌握的知識太少,做題的時候很沒有思路。這篇文章寫的內容也不多,就是總結一下。累了,歇了。
啊對了,還有一點,一開始跳完題目別急著開始做,先把給的數據仔仔細細看幾遍,根據題目好好理解,這很有助于提高后面的效率。而且記得查相關文獻,先好好看看文獻,說不定有意外之喜。我們就是做了一天,然后才開始看文獻,發現我們要找的關鍵特征,人家早就有論文給你寫的明明白白。嗯,就這樣。
五、結果(三等獎)
哦嚯,11月24號結果出來了,更新一下,三等獎。對小白來說已經很滿意了。
總結
以上是生活随笔為你收集整理的2020年研究生数学建模竞赛总结复盘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 遇到异常:这可能是由某个扩展导致的
- 下一篇: 场景编辑器竣工!