本发明属于销量预测领域,具体地说是一种用于预测各汽车品牌月度销量的考虑品牌情感的汽车销量预测方法。
背景技术:
中国汽车行业过去几十年取得了突飞猛进的发展,已经成为支撑和拉动中国经济持续快速增长的主导产业之一。面对当前复杂的国内外经济环境和不断加大的经济下行压力,准确地预测汽车销量无论是对于从宏观上整体掌控汽车市场的发育与成长态势的政策制定者,还是对于从微观上研究市场行情以制定营销策略的汽车厂商,都具有极其重要的作用。
现有汽车销量预测方法主要关注某一地区的市场总体汽车销量的宏观预测,如预测中国市场总体汽车需求量,虽然预测方法简单易行,可以对短期销量进行较为准确地刻画,但是仍然存在预测粒度过于宏观导致预测结果现实指导意义薄弱等不足,对于细化至汽车品牌粒度的销量预测方法研究目前还是空白。同时,在电影票房预测、图书销量预测等领域的研究表明,在线评论数据有助于提高产品销量预测模型的准确率。由于大众对产品的看法会影响产品的销售情况,因此对在线评论进行深入分析对于预测产品未来销量具有重要作用。现有的汽车销量预测方法主要利用历史销售数据和社会宏观经济指标,如gdp、cpi等,对于网络大数据中诸如专业汽车论坛用户评论数据等蕴含极高预测能力的高价值的数据缺少深入挖掘。此外,我国汽车市场由于受气候、节假日、产品更迭等诸多因素的影响,汽车月度销售数据呈现稳定的季节性特征,即车市的销量会随着季节的变化而呈现出高峰低谷的规律性周期变化。而现有研究缺乏对汽车销售季节性变化趋势的考虑,从而导致预测精度较低。
技术实现要素:
本发明针对现有汽车销量预测方法存在的不足之处,提出一种考虑品牌情感的汽车销量预测方法,以期能充分发掘销量时间序列季节性变化和网络大数据中消费者的口碑情感倾向因素的短期预测能力,从而将汽车销量预测细化到更加微观的品牌粒度,并提高预测精度。
为达到上述目的,本发明采用的技术方案为:
本发明一种考虑品牌情感的汽车销量预测方法的特点是按照如下步骤进行:
步骤一、采集第t个月消费者购买汽车品牌b旗下所有汽车的评论数据,记为
步骤二、对所有品牌的t个月的评论数据rev利用基于点互信息pmi的方法构造情感词典,得到所述评论数据rev中所有情感词的情感值;
步骤三、基于所述情感词典,对所述第t个月的第k个评论文本数据
步骤四、利用式(1)构建第t月的汽车品牌b销量的预测模型
式(1)中,λm、φp和ρq表示用最小二乘回归得到的模型参数;τ表示预测模型常数项;
步骤五、利用式(2)获得汽车品牌b销量的预测模型
式(2)中,
步骤六、利用网格搜索方法对所述目标函数zb进行求解,得到m、p和q的值,从而利用所述预测模型
本发明所述的销量预测方法的特点也在于,所述步骤二是按如下步骤进行:
步骤2.1、对所有品牌的t个月的评论数据rev中汽车品牌b的第t个月的第k个评论数据
步骤2.2、对所述负向文本集dneg和正向文本集dpos进行分词并去除停用词,从而得到所述负向文本集dneg和正向文本集dpos中所有的情感词,记任意一个情感词为w;
步骤2.3、利用式(3)计算情感词w的情感值sw:
sw=pmi(w,dpos)-pmi(w,dneg)(3)
式(3)中,pmi表示点互信息,并有:
式(4)中,freq(w,dpos)表示所述情感词w在所述正向文本集dpos中出现的频次,freq(w)表示所述情感词w在所述负向文本集dneg和正向文本集dpos中出现的总频次,freq(dpos)表示所述正向文本集dpos的文本总数,freq(dneg)表示所述负向文本集dneg的文本总数;
同理可得pmi(w,dneg)。
所述步骤三是按如下步骤进行:
步骤3.1、利用式(5)得到所述第t个月的第k个评论文本数据
式(5)中,
步骤3.2、利用式(6)得到所述第t个月的汽车品牌b的情感值
式(6)中,k表示第t个月的汽车品牌b的评论文本数据的总数。
与已有技术相比,本发明的有益效果体现在:
1、本发明首次综合考虑了汽车销量存在的季节性变化趋势以及网络大数据中消费者口碑评论数据的情感倾向因素,充分发掘了销量时间序列数据自身的销量预测能力以及网络大数据中蕴含的销量影响因素的预测能力,且给出了一种自动化的情感词典构造方法用于量化品牌情感,有利于监控品牌舆情的变化趋势。相比于现有的较传统的基于时间序列分析模型的汽车销量预测方法,本发明不仅将汽车销量预测推向更为微观的汽车品牌粒度的月度销量,而且方法求解过程简单,对于销量异常波动具有很好的预测效果,有效提高了销量预测精度,且具有较好的鲁棒性,获得了满意的预测结果。
2、本发明通过将历史同期销量
3、目前已经有很多通用的情感词典应用于文本情感的分析,但汽车领域的情感词典目前的研究还很少。汽车领域情感词典构造存在着诸多的困难:一是汽车领域专业化程度高,涉及到大量的专业术语,如:“油耗高”、“加速快”,这些文本的情感通用情感词典难以准确描述;二是汽车论坛的口碑数据全部由购车的网民发表,文本组织大多比较自由,没有特定的行文规范;三是大多数文本情感分析都是对情感倾向进行分类,没有对其进行量化;四是需要分析词性、程度副词、否定词等一系列的繁杂的手工处理过程;为解决上述情感词典构造的难题,本发明提出一种基于点互信息(pmi)的情感词典构造方法,以用户评分作为文本情感的标签自动化的构造情感词典,避免了手工处理,且给出了单词所表达的情感的量化值,从而简化了汽车领域情感词典的构造过程,并给出了相应的量化指标。
4、由于同一品牌的销量是随时间迁移有所变化的,而评论发表的数量就会随时间而波动,这种数量的变化恰恰从一定程度上反应了该品牌在市场中的受欢迎程度,具有一定的销量预测能力;因此,本发明计算品牌情感时直接将该品牌下当月所有的评论文本数据情感值相加,汇总得出品牌情感值,通过这种方式,在预测销量时将评论数量作为包含在品牌情感中的一个隐含因素考虑进模型中,从而提高了模型的预测精度。
5、由于市场销量的变化相对于消费者情感倾向的变化具有一定的滞后性,网络消费者生产的大数据具有极强的销量预测能力,现有的销量预测方法对于大数据的应用显然是贫乏的,从而导致预测精度的下降。本发明充分考虑了网络消费者发表评论文本的情感倾向从而得出汽车品牌的情感值
6、本发明中的预测模型
7、本发明方法所得的预测结果有利于政策制定者从宏观上整体掌控汽车市场的发育与成长态势,有利于汽车厂商及汽车经销商从微观上研究市场行情以制定营销策略、调整生产计划和优化资源配置,甚至计划购车的普通消费者也可借鉴该预测模型辅助决策,应用范围广泛。
附图说明
图1为本发明方法的流程示意图;
图2为本发明实施例中“汽车之家”口碑评论数据示例图;
图3为本发明实施例中随时间波动的汽车月度销售数据示例图;
图4为本发明与基准算法的预测效果对比图;
图5a为本发明奥迪汽车月度销量预测结果图;
图5b为本发明本田汽车月度销量预测结果图;
图6a为本发明销量预测boar模型参数p稳定性检验图;
图6b为本发明销量预测boar模型参数q稳定性检验图。
具体实施方式
本实施例中,如图1所示,一种考虑品牌情感的汽车销量预测方法,按照如下步骤进行:
步骤一、采集第t个月消费者购买汽车品牌b旗下所有汽车的评论数据,记为
步骤二、对所有品牌的t个月的评论数据rev利用基于点互信息pmi的方法构造情感词典,得到评论数据rev中所有情感词的情感值;
步骤2.1、对所有品牌的t个月的评论数据rev中汽车品牌b的第t个月的第k个评论数据
步骤2.2、对负向文本集dneg和正向文本集dpos进行分词并去除停用词,从而得到负向文本集dneg和正向文本集dpos中所有的情感词,记任意一个情感词为w;汽车领域专业化程度高,涉及到大量的专业术语,如:“油耗高”、“加速快”,为了达到更加理想的分词结果,可以手动构建汽车领域特征词库,再进行分词;
步骤2.3、利用式(3)计算情感词w的情感值sw:
sw=pmi(w,dpos)-pmi(w,dneg)(3)
式(3)中,pmi表示点互信息,并有:
式(4)中,freq(w,dpos)表示情感词w在正向文本集dpos中出现的频次,freq(w)表示情感词w在负向文本集dneg和正向文本集dpos中出现的总频次,freq(dpos)表示正向文本集dpos的文本总数,freq(dneg)表示负向文本集dneg的文本总数;式(4)表示正向文本集中词w的点互信息pmi为w在正向文本集中出现的频率与w在正向文本集和负向文本集中出现的频率之比。
同理可得pmi(w,dneg)。由此,(3)式可以简化为:
由式(5)可以明显看出,sw表示词w在正向文本集中出现的频率与w在负向文本集中出现的频率之比。因此该比值越大,表示词w在正向文本集中出现越频繁,而在负向文档集中较少出现,词w极有可能是一种正向情感词;反之亦然。因此,若sw>0表示词w在正向文本集中出现次数大于在负向文本集出现的次数,为正向情感词;若sw<0表示词w在负向文本集中出现次数大于在正向文本集出现的次数,为负向情感词;sw绝对值的大小则表示词w表达的情感强烈程度。
由于点互信息对于低频次词语估计效果较差,同时为避免将少数生僻的词语纳入情感词典中,提高情感词典的构造效率,可以分别将正向文本集和负向文本集中出现频次低于5的词舍弃。
步骤三、基于情感词典,对第t个月的第k个评论文本数据
步骤3.1、利用式(6)得到第t个月的第k个评论文本数据
式(6)中,
步骤3.2、利用式(7)得到第t个月的汽车品牌b的情感值
式(7)中,k表示第t个月的汽车品牌b的评论文本数据的总数。同一品牌的销量是随时间迁移有所变化的,因此评论发表的数量就会随时间而波动,这种数量的变化恰恰从一定程度上反应了该品牌在市场中的受欢迎程度;计算品牌情感时直接将该品牌下当月所有的评论文本数据情感值相加,汇总得出品牌情感值,通过这种方式,在预测销量时就将评论数量作为包含在品牌情感中的一个隐含因素考虑进模型中。
步骤四、利用式(8)构建第t月的汽车品牌b销量的预测模型
式(8)中,λm、φp和ρq表示用最小二乘回归得到的模型参数;τ表示汽车品牌b的预测模型常数项;
步骤五、利用式(9)获得汽车品牌b销量的预测模型
式(9)中,
步骤六、本实施例中人工设定的参数为3个,且取值个数有限,可以利用网格搜索方法对目标函数zb进行求解,得到m、p和q的值,从而利用预测模型
针对本发明方法进行实验论证,具体包括:
1)准备数据集
本发明使用的数据包含各品牌月度销量数据集和网络消费者在线口碑评论数据。月度销量数据是利用网络爬虫从“搜狐汽车”采集汽车工业协会发布的中国市场10个常见汽车品牌(丰田、奥迪、大众、别克、本田、比亚迪、福特、奇瑞、雪佛兰和起亚)从2011年5月到2015年10月月度汽车销量,如图3所示。所使用的在线口碑评论数据源自于“汽车之家”口碑数据,如图2所示。使用网络爬虫从汽车之家网站采集472346条口碑评论,将评论文本过少的舍弃,共计有效口碑数据330877条。实验采用的是单步预测的静态预测方式。
2)评价指标
采用平均绝对百分误差mape来衡量模型预测准确率:
式(9)中,n表示总的预测期数,predi代表第i期模型的预测值,truei代表真实值。从公式本身可以看出,预测值与实际值越接近mape值越低,即预测得越准确。mape是对相对误差的综合评价,有利于不同模型之间的直接比较,所以在销量预测研究中,mape是衡量模型预测精度非常重要的一个指标。一般认为,如果mape低于10,则认为模型的预测精度较高,具有一定的实践指导意义。
3)在数据集上进行实验
基于pmi方法构造的汽车口碑数据情感词典部分结果如表1a和表1b所示。
表1a情感词典中情感值最小的10个词
表1b情感词典中情感值最大的10个词
表1a是情感词典中情感值最小的10个词,很明显可以看出全部为负向词。表1b是情感值最大的10个词,全部为正向词,这也验证了这种情感词典构造方法的有效性。
为验证本发明所提模型对于销量预测的提升效果,我们将本发明提出的用于汽车销量预测的考虑品牌情感的boar模型和3种基准方法进行比较,3种基准方法为:基于前期销量的自回归ar模型,基于前期销量和前期随机误差的差分自回归移动平均arima模型,基于bp神经网络的机器学习预测bpnn模型。在实验数据集上用4种方法进行建模和预测,并将预测结果进行比较,如图4所示。与3种基准方法相比,本发明提出的销量预测方法在实验数据集上获得了更优的预测精度。本发明部分品牌的实际预测结果如图5a、图5b所示,图5a为奥迪汽车月度销量预测结果图,图5b为本田汽车月度销量预测结果图。
在时间序列分析等类似回归分析的研究中,模型参数是否具有稳定性对所建立的模型来说具有非常重要的意义。为验证本发明提出的销量预测模型具有一定的参数稳定性,假设本发明所述汽车销量预测boar模型的最优参数组合为(m′,p′,q′),下面分别考察参数选取(m′,p′-1,q′)和(m′,p′+1,q′)以及(m′,p′,q′-1)和(m′,p′,q′+1)时模型的预测情况,分别如图6a和图6b所示。结合图6a和图6b不难发现,在参数p和q各自波动±1时,boar模型预测结果比较一致、稳定,预测误差mape值在正常范围内波动,没有出现异常变化,同理,在更多数据的支持下,可验证参数m也具有这种特性;这说明了boar模型参数具有稳定性。