1. 首页
  2. 养车用车
  3. 阿里天池-盐城汽车上牌量预测思路(复赛前10)

阿里天池-盐城汽车上牌量预测思路(复赛前10)

简介:关于阿里天池-盐城汽车上牌量预测思路(复赛前10)的相关疑问,相信很多朋友对此并不是非常清楚,为了帮助大家了解相关知识要点,小编为大家整理出如下讲解内容,希望下面的内容对大家有帮助!
如果有更好的建议或者想看更多关于养车用车技术大全及相关资讯,可以多多关注茶馆百科网。

给出盐城市某3年每天的车牌数据,需要预测某2年每天的车牌号。在初赛中,将选出5个汽车品牌,并给出这些品牌每天的号牌数,即每周的几号,来预测未来5个汽车品牌的总号牌数。在复赛中,将选出10个汽车品牌,并再次给出该品牌的每日数量,即星期几,以预测未来10个汽车品牌的每日数量。

总结一下参加这次比赛的一些想法,对于人民大学的数据新手来说,思路更多的是草根,不要嘲笑大佬。

1. 恢复日期

所得数据均为脱敏后的数据。“date”为从0开始的联系人号码,“day_of_week”为星期。数据不是一个完整的、连续的日期,如果当天没有交易量,数据将会丢失。

看到数据后的第一反应是恢复日期,因为各种长假和短假造成的数据丢失会对序列的整体趋势造成破坏;恢复后的数据将具有节假日等重要特征。

恢复数据很容易,我们先完成缺失的数据,然后连续7天观察数据为0(或非常小)的序列段。间隔355左右的是春节,间隔365左右的是十月。对比一周的数据,我们知道初赛的第一天是2013年1月2日。第一次复赛日期是2013年1月1日。

2. 总体趋势

预赛只需要预测每天的注册总数。对每个品牌单独进行预测要比对整体进行预测困难得多。此外,从数据中我们发现,品牌之间的“市场份额”在该系列的后期趋于稳定。

所以,无论是最后一轮还是预赛,我们只预测每天的总牌数。

1. 时间预测

这个预测问题显然是一个时间序列的预测,除了日期,我在原始数据中没有发现其他重要的特征维度。

经典的时间序列预测模型有ARMA模型和基于神经网络的LSTM模型。这里我选择ARIMA,它是ARMA模型的一个变体,相对入门级(在ARMA的基础上增加了差分操作)。我推荐你阅读这篇文章:

序列平稳性是时间序列分析的先决条件,因此首先需要对数据平稳性进行处理。

以天为单位看数据,除了以周为单位,你找不到任何模式。感觉就像一个不可预测的随机游走过程,一周的规律性也被公历和阴历两个不规律的假期打乱(有时节前,有时节后)。

为了使数据更加稳定,我放弃了按天预测的想法,先按月预测日均注册数。

每月的数据,以12为周期,我先通过差值12去除周期性,使数据稳定,然后取对数,减小数据的振动幅度。

然后使用statmodules库绘制自相关图和相关图。

根据大熊猫桃莎莉的经验,这里我们取6个P、Q:

然后利用该模型对数据进行预测,并对对数和差值进行恢复,得到预测后的月度数据。

扩展

二、特征提取

0

我的想法是使用决策树回归来预测特定日期的数据与月平均值的比率,使用kaggle备受推崇的xgboost库。

我从以下几个方面提取了20多个特征进行预测:

每个特性的重要性如下:

结合时间序列预测后的预测结果如下(每日总牌数):

扩展

3复赛的数据

初赛只需要预测每日总授权数,半决赛则需要单独预测品牌数。在这里,我采用了一种简化的计算方法来分别预测每个品牌:直接乘以最近三个月的训练数据中每个品牌的平均占比的结果。

如此简单粗暴的骑行,主要是出于以下几点考虑:

四、数据泄露

初赛A名单与复赛B名单的答案数据有近30%的重叠!虽然品牌不同,但整体趋势基本一致。

起初我以为所有发表的数据都是可用的。__ - - - - - - !我们使用初赛A名单答案的数据作为半决赛B名单前1/3时间序列的总预测结果。

在后场组,我得知初赛A名单的答案不能用来预测复赛的B名单,于是我迅速手淫了一个没有初赛A名单答案的预测结果,我的成绩是33947.10,在前10名左右。以上的分析和代码也是经过初步的A-list数据剔除后得出的。

本文主要介绍了关于阿里天池-盐城汽车上牌量预测思路(复赛前10)的相关养殖或种植技术,养车用车栏目还介绍了该行业生产经营方式及经营管理,关注养车用车发展动向,注重系统性、科学性、实用性和先进性,内容全面新颖、重点突出、通俗易懂,全面给您讲解养车用车技术怎么管理的要点,是您养车用车致富的点金石。
以上文章来自互联网,不代表本人立场,如需删除,请注明该网址:http://seotea.com/article/1735899.html