GitHub - KZF-kzf/MathModeling2022C: 数模国赛的所有代码和数据数模国赛的所有代码和数据. Contribute to KZF-kzf/MathModeling2022C development by creating an account on GitHub.https://github.com/KZF-kzf/MathModeling2022C/tree/main【更新一波,所有的代码和数据都放在了github上,需要的朋友自取】
——————————————————————————————————————————
离比赛已经过去3月了,现在写博客好像有点迟,题目的细节我也已经忘记的差不多了。最终获得了省二,菜鸟分享一下思路,欢迎指正,带佬勿喷。
一、国赛题目C
二、摘要
【PS:我们最终提交的论文的标题是:基于评价与回归的古代玻璃制品成分与抗风化能力分析,这里我们引入了玻璃抗风化能力的概念,感觉这样写比较有特色,具有区分度,当然也比较符合我们的建模思路,下面附上原文摘要】
本文采用多种相关分析、综合评价和分类方法解决了古代玻璃制品的成分分析与鉴别问题。并在此基础上,基于灰色关联模型与Topsis综合评价模型进一步论述了古代玻璃抗风化能力与其化学成分之间的关系。
问题一中,根据对数据初步分析以及化学成分分析,发现文物表面风化与玻璃类型有相关性,铅钡玻璃比高钾玻璃更易风化,而风化后部分氧化物成分会发生显著变化,基于此,我们依次构建了显著变化的六个化学成分的含量与样本颜色、纹饰、种类之间的回归模型,以无风化数据作为训练集,去预测风化样本未风化之前的化学成分含量,得到了较好的结果。
问题二中,首先建立玻璃类型与化学成分之间的线性回归模型,通过回归系数来解释玻璃种类的分类规律。而对于亚类的划分,我们综合了分类结果的敏感性和合理性问题,引入了“抗风化能力”这一概念,并构建了基于Topsis的古代玻璃抗风化能力的评价体系,将其与Kmeans++得到的聚类结果进行比对,发现聚类结果与Topsis得分高低有着极高的匹配度,可在玻璃种类大类下划分出抗风化能力强、抗风化能力中、抗风化能力弱三种亚类,增强了结果的合理性。
问题三中,我们首先基于表单2数据构建了玻璃种类与化学成分含量之间的回归模型,通过对回归系数的分析得到对玻璃种类的划分影响程度较大的若干种化学成分。然后基于决策树模型构建了这些成分与玻璃种类的分类模型,然后对决策树模型的最大深度、最小叶子节点数和最小训练样本分枝数等超参数进行敏感性分析,对模型进行调优,最终得到一个稳定的分类结果。
问题四中,我们认为化学成分之间的关系与玻璃本身的抗风化能力有关,基于灰色关联分析方法,同时结合第二问中构建的综合评价方法以分析同种玻璃化学成分之间的关联关系以及不同种玻璃化学成分关联关系的差异性。最终得到了不同化学成分对于同种玻璃抗风化能力强弱的影响程度占比,以及不同种玻璃之间化学成分差异性导致的抗风化能力差异性。
关键词:多元线性回归 K means聚类 决策树 灰色关联
三、题目解析
(1)题目一
针对问题一,目前已知玻璃类型,纹饰,颜色与是否风化和检测点各氧化物数据,题目要求对玻璃文物各特征和表面是否风化、风化成分进行分析,并且能根据此关系来预测风化前的成分含量。
结合题目相关条件进行斯皮尔曼相关分析,建立风化玻璃与各化学成分所占比例的多元线性回归模型,分析玻璃是否风化与各氧化物比例的显著相关性,得出氧化物因风化导致的含量变化规律。
针对风化前的化学成分含量预测,首先对比同一文物有无风化点的各氧化物含量,得出风化后显著含量变化的氧化物种类, 以未风化数据为训练集,进行线性与非线性回归,输出显著变化氧化物的含量,最后整合预测出文物风化前的化学成分含量。
(2)题目2
通过对表单1数据的初步分析,不难发现用于玻璃种类分析的最有效信息为未风化时的颜色以及纹饰信息。而当玻璃风化后,外在信息不易被观察,所以可以通过玻璃内部化学成分含量进行分析,对于此我们决定构建玻璃14个化学成分和3个外在特征与玻璃种类的多元线性回归模型,通过回归系数,可以分析玻璃的分类规律。
而对于亚类的划分,我们首先考虑分类结果的合理性,观察到随着风化程度的不同玻璃表面的颜色呈现一种递进的变化。所以推测,不同的玻璃有着不同的风化程度,这代表着不同的抗风化能力,我们通过观察同一个样本不同风化点的数据发现,部分化学成分含量与风化程度显著相关。所以,我们选取这些风化前后发生显著变化的化学成分,进行Topsis分析,同时,针对不同大类的玻璃我们基于Kmeans++算法进行聚类。最后,将聚类结果与Topsis得分进行对比,观察两者之间是否具有一定的联系。
(3)题目3
观察表单3的数据,这里除了化学成分特征外,还包含了表面是否风化的特征。这里我们结合第一题多元线性回归分析的统计规律结果,从中挑选出对于玻璃种类划分影响程度较大的几个变量。然后构建这些变量与玻璃种类之间的决策树模型,并把表单2数据作为训练集,通过对决策树模型的超参数进行敏感性分析确定最优参数,最终将表单3的特征输入决策树模型,得到预测结果。
(4)题目4
结合前三题的分析我们知道,对于同一种类的玻璃文物样品,其化学成分含量与其表面是否风化有一定程度的联系。而在第二题中,我们引入了“抗风化能力”这一概念,所以我们决定通过分析化学成分对于玻璃文物样品抗风化能力的贡献程度,来进一步分析同种玻璃文物样品化学成分之间的关联性与不同种玻璃文物样品化学成分关联的差异性。
版权归原作者 丶快哉风 所有, 如有侵权,请联系我们删除。