您现在的位置是:首页 >技术教程 >2023年泰迪杯数据挖掘挑战赛B题完整数据分析与预测(5.针对完整数据的组合预测-机器学习+深度学习)网站首页技术教程
2023年泰迪杯数据挖掘挑战赛B题完整数据分析与预测(5.针对完整数据的组合预测-机器学习+深度学习)
简介2023年泰迪杯数据挖掘挑战赛B题完整数据分析与预测(5.针对完整数据的组合预测-机器学习+深度学习)
背景
2023年泰迪杯完整数据最新出炉,博主根据最新完整数据对原来的预测方案进行了调整,采用机器学习+深度学习的组合预测来实现最终预测
全部数据已经出炉,可以看出训练样本和预测样本都增加了十倍,这对于数据的处理复杂程度也有所增加。其实本道题最难的地方就是数据预处理,跑模型反而是最简单的。
1.先跑机器学习模型(不考虑时间序列)
检查变量之间相关性,无明显线性相关特征,因此考虑非线性回归模型来解决,
效果较好的主要还是传统的树模型,尤其在随机森林上有较好表现。下面是随机森林回归得到的重要特征排序。
利用效果较好的机器学习模型进行预测,并且保存预测结果作为预测基准结果。
2.深度学习-LSTM(考虑时间序列)
- 数据预处理流程,按照预测数据集样本数将训练数据集分割成对应时间序列数据集
- 循环训练模型进行预测
- 组合预测,加权得到最终预测结果
按照商品code:20002按天维度预测的demo
下面是lstm模型训练随着训练轮次的损失函数收敛情况。
下面是在验证集上的拟合效果图:可以看出按照天的预测效果一般,但也进行了很好的拟合。
进一步开了按照周的时间粒度进行预测。
模型训练损失函数下降过程。
根据验证集对比效果可以看出,按照周的时间粒度预测,模型的泛化能力有所增强。这是因为按照周的时间预测可以保证大部分数据不会缺失,从而保证模型预测的合理性。
可以看出该商品在周的时间粒度上能够取得更好的预测效果。
最终将该商品未来三个月的商品需求预测出来,并且进一步建立组合预测模型尽心给处理,组合预测最简单的一种方式就是线性加权,以机器学习预测结果作为基准,考虑时间序列的深度学习进行加权,得到最终预测结果。
3.源码分享
2023年泰迪杯B全部数据对应的源码已经完成,可以私信博主获取,上传到CSDN上需要审核,太难了,估计每个两三天不给通过
附上2023年泰迪杯数据挖掘挑战赛B题全部数据+完整源码(包括机器学习+深度学习)连接如下:
风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。