2022年数学建模国赛C题完整思路
目錄
一、古代玻璃制品的成分分析與鑒別
二、整體思路
1.問題一
2.問題二
3.問題三
4.問題四
三、模型建立
1.問題一
(1)預處理
(2)建立
2.問題二
(1)預處理
(2)建立
3.問題三
1.線性回歸模型建立
?2.分類結果的敏感性分析
4.問題四
總結
一、古代玻璃制品的成分分析與鑒別
?C題:古代玻璃制品的成分分析與鑒別
? 絲綢之路是古代中西方文化交流的通道,其中玻璃是早期貿易往來的寶貴物證。早期的玻璃在西亞和埃及地區常被制作成珠形飾品傳入我國,我國古代玻璃吸收其技術后在本土就地取材制作,因此與外來的玻璃制品外觀相似,但化學成分卻不相同。
? 玻璃的主要原料是石英砂,主要化學成分是二氧化硅(SiO2)。由于純石英砂的熔點較高,為了降低熔化溫度,在煉制時需要添加助熔劑。古代常用的助熔劑有草木灰、天然泡堿、硝石和鉛礦石等,并添加石灰石作為穩定劑,石灰石煅燒以后轉化為氧化鈣(CaO)。添加的助熔劑不同,其主要化學成分也不同。例如,鉛鋇玻璃在燒制過程中加入鉛礦石作為助熔劑,其氧化鉛(PbO)、氧化鋇(BaO)的含量較高,通常被認為是我國自己發明的玻璃品種,楚文化的玻璃就是以鉛鋇玻為主。鉀玻璃是以含鉀量高的物質如草木灰作為助熔劑燒制而成的,主要流行于我國嶺南以及東南亞和印度等區域。
? 古代玻璃極易受埋藏環境的影響而風化。在風化過程中,內部元素與環境元素進行大量交換,導致其成分比例發生變化,從而影響對其類別的正確判斷。如圖 1 的文物標記為表面無風化,表面能明顯看出文物的顏色、紋飾,但不排除局部有較淺的風化;圖 2 的文物標記為表面風化,表面大面積灰黃色區域為風化層,是明顯風化區域,紫色部分是一般風化表面。在部分風化的文物中,其表面也有未風化的區域。
? 現有一批我國古代玻璃制品的相關數據,考古工作者依據這些文物樣品的化學成分和其他檢測手段已將其分為高鉀玻璃和鉛鋇玻璃兩種類型。附件表單 1 給出了這些文物的分類信息,附件表單 2 給出了相應的主要成分所占比例(空白處表示未檢測到該成分)。這些數據的特點是成分性,即各成分比例的累加和應為 100%,但因檢測手段等原因可能導致其成分比例的累加和非 100%的情況。本題中將成分比例累加和介于 85%~105%之間的數據視為有效數據。
請你們團隊依據附件中的相關數據進行分析建模,解決以下問題:
問題 1 對這些玻璃文物的表面風化與其玻璃類型、紋飾和顏色的關系進行分析;結合玻璃的類型,分析文物樣品表面有無風化化學成分含量的統計規律,并根據風化點檢測數據,預測其風化前的化學成分含量。
問題 2 依據附件數據分析高鉀玻璃、鉛鋇玻璃的分類規律;對于每個類別選擇合適的化學成分對其進行亞類劃分,給出具體的劃分方法及劃分結果,并對分類結果的合理性和敏感性進行分析。
問題 3 對附件表單 3 中未知類別玻璃文物的化學成分進行分析,鑒別其所屬類型,并對分類結果的敏感性進行分析。
問題 4 針對不同類別的玻璃文物樣品,分析其化學成分之間的關聯關系,并比較不同類別之間的化學成分關聯關系的差異性。
二、整體思路
1.問題一
? ? 對表單一中的數據進行處理:補全缺失值并對數據進行簡化和量化;剔除表單2中的無效數據,將表單1的紋飾、類型、顏色和表面風化與表單2文物采樣點的數據對應起來。
? 要研究表面分化和紋飾,顏色,類型相關關系,先進行卡方檢驗比較P值是否呈現顯著性,確定分量間是否有相關性,之后才能采用SPSS建立對應分析模型,并利用散點圖判斷之間的關系。
? 結合玻璃類型分析文物樣品表面有無風化化學成分含量的統計規律時,對處理的表單2的化學成分含量據計算均值和方差并進行正態性檢驗,得到統計性描述數據來分析化學成分含量規律。
? 建立移位平均模型來預測分化前的化學成分含量,分別計算高鉀和鉛鋇玻璃化學成分風化和無分化風化的平均值,接著分別求高鉀和鉛鋇玻璃風化和無風化的平均值的差,把各類型的差值與各個玻璃風化的化學成分數值相加,得到的數值為風化前的化學成分含量。
2.問題二
? 根據附件來分析高鉀玻璃、鉛鋇玻璃的分類規律,先將表單1紋飾、類型、顏色和表面風化和表單2的數據整合在一張表中,補全顏色缺失的部分。使用CRT生長法來進行決策樹分類,得出高鉀、鉛鋇玻璃的分類規律。
? 對兩類玻璃根據化學成分進行亞類劃分,先對每個化學成分進行顯著性分析并判斷是否存在顯著性差異,提取出具有顯著性差異的化學成分,對高鉀和鉛鋇玻璃有顯著性差異的化學成分建立系統聚類模型,得出劃分結果。最后使用近似值矩陣來判斷分類結果的的合理性,若近似值越大,合理性越強,其敏感性通過增加或減少化學成分的含量,重新進行系統聚類,比較新,舊兩種聚類結果,分析敏感性。
3.問題三
? 預測未知玻璃文物的類型,對已知的表單2的化學成分和類型之間的規律分析,進行顯著性,正態性檢驗,得出數據具有線性關系,可以建立類型和化學成分之間的多元線性回歸方程,基于最小二乘法,利用SPSSPRO得出回歸系數,進而在給定的化學成分下,預測玻璃文物的類型。
? 最后對回歸模型進行敏感性研究,可以通過改變回歸模型中一個自變量來觀察因變量的變化,預測結果變化的大小,得出敏感度系數,通過系數即可判斷出敏感性程度,對分類結果的敏感性進行總結。
4.問題四
? 要得出每個類別的化學成分之間的關聯關系,分別對兩類玻璃的化學成分進行相關分析,得出相關系數結果表和相關系數熱力圖,針對相關系數做出成分之間的相關強度的統計圖,根據以上圖表總結關聯關系和比較兩類玻璃化學成分的差異性。
三、模型建立
1.問題一
(1)預處理
1)表單1數據的缺失處理
表單1的數據量較小,并且有部分數據缺失,如果直接刪除缺失項,則可能會影響對數據的分析,因此把缺失的數據項補全,應當是定性數據且對個體精度要求不大,采取相同條件下出現次數最多的值也就是眾數來補缺失值。
2)表單1數據的量化
數據量化是將一些不具體,模糊的因素用具體的數據來表示,以一定范圍內線性變換的數據反映自然界或社會的狀態,從而達到分析比較的目的。
3)表單2的處理
玻璃文物的化學文物成分比例介于85%~105%之間的數據為有效數據,用EXCEL對成分比例求和,按順序排列后,剔除不符合的行。
將表單1中的類型和表面風化與表單2整合在一張表中,并進行量化 。
(2)建立
對表面風化和紋飾,顏色,類型的相關關系的分析,采用對應分析的方法。做對應分析之前,需要對交叉表進行卡方檢驗,只有卡方檢驗結果顯示兩個分類變量之間具有相關性,才作對應分析,如果沒有,分析出的結果沒有普遍性。
卡方檢驗(Pearson)是比較定類變量與定類變量之間的差異性分析。通過統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
卡方檢驗公式:
其中:A是實際值,T為理論值,χ2就是衡量理論與實際的差異程度,χ2越大,說明定類變量之間有關系的可能性大。具體操作使用SPSSAU為分析工具。
2.對應分析
對玻璃文物的表面風化與其玻璃類型、紋飾和顏色的關系進行對應分析之前,需要先對其進行卡方檢驗,檢驗數據之間是否獨立。
對應分析R型因子分析和Q型因子分析都是反應一個整體的不同側面,因而存在一是R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。由于定聯系。對應分析就是通過對應變換后的標準化矩陣Z將兩者有機地集合起來。
得出結論:鉛鋇玻璃容易風化,高鉀玻璃不易風化;紋飾B容易風化,AC不易風化。
顏色的卡方檢驗P值過大,不易進行對應分析。根據表單1中的數據,大致得出:深藍色和綠色不易被風化,其他顏色與表面風化得不出什么密切聯系。
?3.描述性統計
對數據計算均值和方差并進行正態性檢驗,得到統計性描述數據來分析化學成分含量規律。
2.問題二
(1)預處理
(2)建立
分析高鉀玻璃、鉛鋇玻璃的分類規律,在已知玻璃的化學成分比例下,選擇建立決策樹模型來找出劃分兩類玻璃的劃分標準,具體操做如下
? 決策樹分類依據梳理出的數據中的屬性,比較按照某種特定屬性劃分后的數據的信息熵增益,選擇信息熵增益最大的那個屬性作為第一劃分依據,然后繼續選擇第二屬性,以此類推。其中信息熵越大,樣本的純度越低,信息增益=信息熵-條件熵。
? 決策樹采用的是自頂向下的遞歸方法,以信息熵為度量構造一顆熵值下降最快的樹,到葉子節點的熵值為0。
? 對高鉀玻璃和鉛鋇玻璃進行亞類劃分時,選用化學成分有顯著性的建立系統聚類模型,得出劃分結果。
2)顯著性
顯著性的含義是指兩個群體的態度之間的任何差異是由于系統因素而不是偶然因素的影響。
這里求解分組變量的顯著型差異采用事后多重比較的方法,得出方差分析結果顯示哪些化學成分水平上存在顯著性,將具有顯著性的成分作為系統聚類分析的變量,求出亞類劃分的結果。
?
3)系統聚類
系統聚類分析(Hierarchical Cluster Analysis)的基本思想是,按照距離遠近,將距離相近的變量先聚成類,距離較遠的變量后聚成類,依次進行,直到每個變量都歸入合適的類中。
組間平均距離連接法:合并兩類的結果使所有的兩兩項對之間的平均距離最小
使用平方歐氏距離,將距離相近的變量聚成一類。
4)近似值矩陣
根據近似值矩陣,越接近0近似值越小,近似性數值越大,說明越相似,以矩陣的方式呈現分類結果的合理性。
3.問題三
1.線性回歸模型建立
建立多元線性回歸方程求回歸因子(自變量為化學成分,因變量為玻璃類型),在給定的化學成分下,,基于最小二乘法,使用SPSSPRO建立線性回歸模型,求解模型的標準化系數B,t值,VIF值,R2,調整R2等,用于模型的檢驗,并分析模型的公式。
根據上圖得出擬合效果優秀,預測值和真實值的偏差并不大,使用多元線性回歸預測出的結果準確率高,可以去預測未知類型的文物。
?2.分類結果的敏感性分析
令化學成分在可能的取值范圍內變動,研究和預測化學成分的變動對模型輸出值的影響程度。將影響程度的大小稱為該屬性的敏感性系數。敏感系數越大,說明化學成分對模型輸出的影響越大。其中敏感系數數值的大小不是計算該項的目的,重要的是各不確定因素敏感系數的相對值,借此了解各不確定因素的相對影響程度,以選出敏感度較大的不確定因素,來分析結果的敏感性。
4.問題四
由問題四分析,分別對兩類玻璃文物樣品的化學成分之間的關聯性進行分析,可以看作是根據一個變量與另一各變量是否大于臨界值,判斷兩個因素是否相關,根據相關系數大小判斷兩個因素關系的密切程度,相關系數越大,說明兩者關系約密切,因此建立相關性分析模型即可得出化學成分之間的關聯性。
總結
以上就是今天要講的內容,本文僅僅介紹了自己的22年數學建模c題的思路和解法模型,如有問題和疑問可在下方評論。
總結
以上是生活随笔為你收集整理的2022年数学建模国赛C题完整思路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 访问FTP站点下载文件,提示“当前的安全
- 下一篇: 人工智能面临的主要威胁是对最终失去实际控