task03
文章目录
时序特征提取和分析方法
- 日期变量:时间序列数据通常包含日期或时间信息。这可以细分为不同的时间尺度,如年、月、周、日、小时、分钟等。在特征提取时,可以将这些日期变量转换为数值型特征,以便于模型处理。
- 周期性:许多时间序列数据表现出周期性,例如,一天中的小时数、一周中的天数、一年中的月份等。识别并利用这些周期性特征可以帮助模型捕捉数据的内在规律。
- 趋势性:趋势性是指时间序列数据随时间推移呈现的上升或下降的总体模式。这可以通过诸如移动平均或线性回归等方法来提取,并作为特征输入模型。
- 距离某天的时间差:这涉及到从特定日期(如产品发布日、重要事件日等)计算时间差。这种特征可以帮助模型了解数据点与特定事件的相对位置。 比如节假日、618、双11
- 时间特征组合:将不同的时间单位组合起来(如年和周、月和日)可以提供更丰富的时间上下文信息,有助于揭示数据中的复杂模式。
- 特殊日期:识别时间序列中的特殊日期或事件(如节假日、促销活动等)并将其作为特征,可以帮助模型解释与这些事件相关的数据波动。
- 异常点:时间序列中可能存在异常点,这些点与其他数据点显著不同。正确识别并处理这些异常点对于提高预测精度至关重要。
- 时序相关特征:
- 历史平移:将过去的值作为当前值的函数,例如,使用前一天的值来预测后一天的值。
- 滑窗统计:使用时间窗口内的统计数据(如平均值、中位数、标准差等)作为特征,这有助于捕捉局部时间范围内的数据特性。
- 强相关特征:识别与目标变量强烈相关的特征,并利用这些特征来构建预测模型。
这张图片提供了一系列关于时间序列预测中构建关键特征的要点,包括强相关性特征、趋势性特征、周期性特征和异常点特征。以下是对这些特征的详细介绍:
- 强相关性特征:强相关性特征是指与目标变量有明显线性或非线性关系的输入特征。在时间序列中,这些特征可能包括: - 滞后特征:使用过去的值作为当前预测的特征,例如,使用前一天的销售数据来预测后一天的销售。 - 滚动统计特征:计算时间序列的滚动窗口内的统计量,如平均值、最大值、最小值、总和等。
- 趋势性特征:1. 趋势性特征反映了时间序列随时间推移的长期变化方向或速率。2. 构建趋势性特征的方法包括: - 时间戳转换:将时间戳转换为数值,如从时间戳中提取年份、月份、星期等。- 移动平均:使用时间序列的移动平均值来平滑短期波动,突出长期趋势。- 多项式拟合:拟合一个多项式模型来捕捉趋势。
- 周期性特征:1. 周期性特征反映了时间序列数据在固定时间间隔内重复出现的模式。2. 构建周期性特征的方法包括: - 时间戳的周期性转换:将时间戳转换为周期性变量,如一周中的星期几、一月中的日子等。- 季节性分解:使用季节性分解方法来识别和提取时间序列的季节性成分。- 周期性函数:使用正弦和余弦函数来模拟周期性变化。
- 异常点特征:1. 异常点是指与正常数据模式显著不同的数据点,它们可能由错误、突变或特殊事件引起。2. 处理异常点的方法包括: - 简单标注:在数据集中标记异常点,以便在分析时考虑。- 剔除:从数据集中删除异常点,特别是在它们可能影响模型训练的情况下。- 修正:更正异常点,如果它们是由于可识别的错误造成的。
- 特殊事件特征:1. 特殊事件如“双十一”、“618”、“春节”等,会在时间序列中产生显著的峰值。2. 构建特殊事件特征的方法包括: - 事件指示器:创建一个二进制特征,当时间序列中的点与特殊事件对应时,该特征值为1,否则为0。- 事件前后的时间窗口:考虑事件前后的时间窗口,以捕捉事件的影响。
- 上下时段信息:1. 上下时段信息指的是在时间序列中,特定时间段之前或之后的数据点。2. 这可以通过创建特征来表示数据点与特定时间段的距离来实现。
- 存在峰值与峰值距离:1. 识别时间序列中的峰值点,并计算其他数据点与这些峰值点的距离,可以作为特征输入模型。
- 时间尺度特征:1. 根据需要预测的时间尺度(如1天、3天、5天等),创建相应的滞后特征和滚动统计特征。
通过结合这些特征,可以构建一个强大的时间序列预测模型。在实际应用中,需要根据具体问题和数据特性来选择和调整特征工程的策略。此外,特征的选择和构建应该与模型的选择和调优过程相结合,以实现最佳的预测性能。
优化方向思考
- 数据预处理(数据质量)
- 特征工程
- 模型
特征
- 提取更多特征:在数据挖掘比赛中,特征总是最终制胜法宝,去思考什么信息可以帮助我们提高预测精准度,然后将其转化为特征输入到模型。
- 尝试不同的模型:模型间存在很大的差异,预测结果也会不一样,比赛的过程就是不断的实验和试错的过程,通过不断的实验寻找最佳模型,同时帮助自身加强模型的理解能力。
模型 – 模型融合
进行模型融合的前提是有多个模型的输出结果,比如使用catboost、xgboost和lightgbm三个模型分别输出三个结果,这时就可以将三个结果进行融合,最常见的是将结果直接进行加权平均融合。
Question:: 时序可以采用这种cv交叉验证吗?
另外一种就是stacking融合,stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。
模型 – 深度学习方案
版权归原作者 若之卿 所有, 如有侵权,请联系我们删除。