1. 前言
本题相对来说比较适合新手,包括针对数据的预处理,数据分析,特征提取以及模型训练等多个步骤,完整的做下来是可以学到很多东西的。
2.问题一思路分析
本题要求利用附件中的训练数据进行深入的分析,由于本题的主要研究目的是分析订单数据并且根据分析结果建立数学模型来预测产品的具体订单需求量。因此本题需要训练样本分析数据特征,通过有效的可视化数据分析来获取不同因素对于产品需求量的影响,从而方便实现后续预测模型的建立。
对于训练数据的深入分析之前,首先对数据进行预处理,具体包括数据缺失值填充,异常值分析,箱线图处理异常值以及数据分布状态的可视化处理。进一步利用预处理之后的数据进行深入分析。本题给出了8个主题,本文尽可能多的分析多种因素对于订单需求量的影响。
3.问题一数据预处理
首先对原始数据变量进行箱线图分析,可以发现订单价格以及订单需求量均包括大量的异常离散点,因此需要针对这些离散异常点进行处理。
利用3σ准则清理异常值,
基于3σ原则中的σ是代表标准差,3σ也就是标准差,如果数据与均值之间的绝对距离大于3倍标准差,即下图中[-∞,μ-3σ]和[μ+3σ,+∞]部分,我们把这一部分值称为是异常值。
在用3σ原则时,数据要尽可能的服从正态分布,因为只有满足正态分布时,才认为出现3倍标准差以外数据的可能性很小,所以才会把这一部分当作异常值。
利用异常值剔除之后的数据进行箱线图绘制,可以发现数据平缓了很多。
进一步绘制数据分布直方图,可以发现数据基本上是符合正态分布
最后在对异常值处理之后的数据进行数据分析来分析订单预测的特征,以及分析与订单需求有强相关的影响因素,从而方便提取有效训练特征。文章待续。。。
4.源码分享
附上2023年泰迪杯数据挖掘挑战赛B题全部源码(包括预测模型的训练)连接如下:
2023年泰迪杯b题全部源码
版权归原作者 maligebilaowang 所有, 如有侵权,请联系我们删除。