一种基于机器学习的车辆估价的方法、存储介质及装置与流程

文档序号:11262285阅读:948来源:国知局
一种基于机器学习的车辆估价的方法、存储介质及装置与流程

本发明涉及一种车辆估价技术领域,尤其涉及一种基于机器学习的车辆估价的方法、存储介质及装置。



背景技术:

目前,当前二手车估价主要靠收车师的个人经验,收车师往往只能对部分地区、部分车型做到准确估价。基于规则统计的估值方法虽然看似有效,但粒度太粗,一旦细化到不同车型,准确度有待考量。放眼整个市场,各类品牌、各个地区、不同里程的二手车每天都在成交产生大量数据。

当前主要有如下的方案:利用不同间隔时间内,相同车型的车辆零售价格比相同来估价。该方案利用最近一段时间内的车辆成交数据,从车型、上牌年份、城市三个维度分别处理数据得出某个车型在某个城市的零售价格比,找出与待估价车类似的车辆数据,便可利用零售价格比得出当前的估值。

但是,现有的估价方式存在以下缺陷:

(1)估价完全依赖收车师的个人经验和专业只是和所掌握的市场行情;

(2)收车师对车型价格的调整通过经验来进行评定,没有量化,不利于估价经验的复制,不利于估价的透明和公平;

(3)收车师依据个人的能力,很难掌握完整和及时获取市场行情;

(4)数据的利用率较低,仅最近一段时间内的数据能利用;

(5)车辆估值具有滞后性,当新车降价时,不能立即体现在二手车估值中;

(6)能够估价的车型较少。由于粒度是车型+城市,对于非热门车型,数据量不够。



技术实现要素:

为了克服现有技术的不足,本发明的目的之一在于提供一种基于机器学习的车辆估价的方法,其能解决二手车车辆准确估价的技术问题。

本发明的目的之二在于提供一种存储介质,其能解决二手车车辆准确估价的技术问题。

本发明的目的之三在于提供一种电子设备,其能解决二手车车辆准确估价的技术问题。

本发明的目的之四在于提供一种基于机器学习的车辆估价的装置,其能解决二手车车辆准确估价的技术问题。

本发明的目的之一采用如下技术方案实现:

一种基于机器学习的车辆估价的方法,包括以下步骤:

信息获取步骤:获取车辆的原始数据,所述车辆原始数据包括车辆年款、上牌时间以及车辆配置;

预处理步骤:对车辆的原始数据进行按照不同分类进行预处理以得到车辆的特征集,所述特征集包括自有特征集;

残差率计算步骤:通过gbrt模型获取与车辆的特征集中各个特征对应的残差率;

估计计算步骤:获取与车辆对应的残差率和厂商指导价以得车辆估价。

进一步地,在信息获取步骤之后还包括数据筛选步骤:判断上牌时间是否处于该车辆年款的时间周期内,如果是,则执行预处理步骤。

进一步地,在预处理步骤中,所述特征集还包括查询类特征集和实时类特征集。

本发明的目的之二采用如下技术方案实现:

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序使得计算机执行如上任意一项所描述的方法。

本发明的目的之三采用如下技术方案实现:

一种电子设备,包括:处理器;

存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行以下方法的步骤:

信息获取步骤:获取车辆的原始数据,所述车辆原始数据包括车辆年款、上牌时间以及车辆配置;

预处理步骤:对车辆的原始数据进行按照不同分类进行预处理以得到车辆的特征集,所述特征集包括自有特征集;

残差率计算步骤:通过gbrt模型获取与车辆的特征集中各个特征对应的残差率;

估计计算步骤:获取与车辆对应的残差率和厂商指导价以得车辆估价。

进一步地,在信息获取步骤之后还包括数据筛选步骤:判断上牌时间是否处于该车辆年款的时间周期内,如果是,则执行预处理步骤。

进一步地,在预处理步骤中,所述特征集还包括查询类特征集和实时类特征集。

本发明的目的之四采用如下技术方案实现:

一种基于机器学习的车辆估价的装置,包括以下模块:

信息获取模块:用于获取车辆的原始数据,所述车辆原始数据包括车辆年款、上牌时间以及车辆配置;

预处理模块:用于对车辆的原始数据进行按照不同分类进行预处理以得到车辆的特征集,所述特征集包括自有特征集;

残差率计算模块:用于通过gbrt模型获取与车辆的特征集中各个特征对应的残差率;

估计计算模块:用于获取与车辆对应的残差率和厂商指导价以得车辆估价。

进一步地,在信息获取模块之后还包括数据筛选模块:用于判断上牌时间是否处于该车辆年款的时间周期内,如果是,则执行预处理模块。

进一步地,在预处理步骤中,所述特征集还包括查询类特征集和实时类特征集。

相比现有技术,本发明的有益效果在于:

本发明利用二手车的成交数据以及当前可以获取到的车辆数据信息,通过采用gbrt挖掘车辆各个特征与残差率之间的关系,并且除了查询参数以外,引入实时数据来对二手车进行准确估价。

附图说明

图1为本发明的基于机器学习的车辆估价的方法的流程图;

图2为本发明的基于机器学习的车辆估价的方法的流程模型图;

图3为本发明的基于机器学习的车辆估价的装置的结构图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示,本发明提供一种基于机器学习的车辆估价的方法,包括以下步骤:

步骤s1:获取车辆的原始数据,车辆原始数据包括车辆年款、上牌时间以及车辆配置;这里的原始数据即为最初的、没有经过筛选处理过的数据;

步骤s11:判断上牌时间是否处于该车辆年款的时间周期内,如果是,则执行预处理步骤;设置该数据筛选的目的是为了筛选处具有代表性的数据;

步骤s2:对车辆的原始数据进行按照不同分类进行预处理以得到车辆的特征集,特征集包括自有特征集、查询类特征集和实时类特征集;其中自有特征集为车辆自己本身的特征数据,也即是车辆配置数据,其主要包括有车辆的品牌、车系以及车型特征,车型特征包括有座位数、变速箱、发动机排量、厂商指导价、油箱容量、车系类型等等数据,因为相同的车辆不同的配置之间也会有不同的残差率;高配和低配车型的残差也不一样,在进行设置的时候一定要进行不同程度的区分;

除了车型本身的特定,二手车的估价还有其他方面的因素在影响,比如查询类特征集,该查询类特征集包括有车辆的行驶里程,车辆买卖所在的城市以及车况,这些数据是可以根据不同车的实际需求来进行相应的处理;实时类特征集包括有经销商售价、市场交易天数和车辆评分等因素。通过引入了经销商采购价、市场交易天数、车辆评价分数作为模型训练的特征,当经销商采购价发生变化,或者市场交易天数变化(表示车辆在二手车市场的热门程度),或者车辆评价变化(表示新车受追捧程度),能实时体现在车辆的估值上;

步骤s3:通过gbrt模型获取与车辆的特征集中各个特征对应的残差率。从而可以建立完整的模型以便于客户进行搜索查询;其中gbrt模型为渐进梯度回归树,这种算法由多棵决策树组成,所有树的输出结果累加起来就是最终的答案,回归树的目的是被用于预测实数值,其计算得到的是一个具体的数值,其中第一棵树是正常的,之后所有的树的决策都是由残差(此次的值与上一次的值之差)来做决策的,在进行计算的时候其可以通过具体的公式算法来得到残差,从而得到残差率;

步骤s4:获取与车辆对应的残差率和厂商指导价以得车辆估价;车辆估价=厂商指导价*残差率。

利用二手车成交数据、车型库数据、实时经销商价格、市场销售天数、车辆评价分数,以及自定义有效数据范围,采用gbrt挖掘各个特征的非线性关系生成模型,估价时,除了自有特征以及查询特征参数外,引入实时数据,方便于给出准确估价。

本方案中,采用车型的配置+年份代替具体车型,即具有相同配置的同年份车被认为具有相同的残值率,这样很大提高能估价车型的数量;其次,另外,自定义有效数据,仅将这部分数据作为模型的训练数据。最后,由于机器学习模型与传统基于规则方法的不同,也正是这样,才能大数据中挖掘出残值率与各个特征的关系。

本方案中,首先自定义了有效数据逻辑,该逻辑是为了筛选出有代表性的估价数据。比如2015年款的车,有代表性的上牌时间为2015年1月到2015年12月,到2017年4月,共经历17个月至28个月。由于车辆残值会随着时间而变化,所以计算上牌时间到成交时间经历的月份数,如果落在上述月份数内,则为有效数据,否则不是。数据预处理逻辑。可分为4部分,查询类特征、自有特征、实时类特征以及label(实际残值率)。残值率的计算由成交价格除以厂商指导价得到,也是模型预测的目标值。查询类特征指估值的主要查询参数,很大程度影响估值结果。自有特征是车型的具体参数,不随外界条件的改变而改变。实时类特征在一小段时间范围内的改变较小,但随时间跨度变大,会发生较大变化。经销商零售价随地区不同会不同。市场交易天数由监控每个地区每个车型的二手车销售天数获取。对连续型特征标准化,对离散型特征哑编码。

在进行估值时,输入查询条件,后台查询当前的实时类特征数据(模型生成时的实时类特征数据可能已经发生变化,需要用最新的数据),输入模型计算残值率,再查询厂商指导价计算残值。

本发明公开了一种电子设备,包括一个或多个处理器、存储器以及一个或者多个程序,其中一个或多个程序被存储在存储器中,并且被配置成由一个或多个处理器执行,程序包括用于执行上述方法,或者本发明的方法存储在可读的存储介质上,并且该方法程序可以被处理器执行。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

如图2所示,本发明公开了一种基于机器学习的车辆估价的装置,包括以下模块:

信息获取模块:用于获取车辆的原始数据,车辆原始数据包括车辆年款、上牌时间以及车辆配置;

数据筛选模块:用于判断上牌时间是否处于该车辆年款的时间周期内,如果是,则执行预处理模块;

预处理模块:用于对车辆的原始数据进行按照不同分类进行预处理以得到车辆的特征集,特征集包括自有特征集、查询类特征集和实时类特征集;

残差率计算模块:用于通过gbrt模型获取与车辆的特征集中各个特征对应的残差率;

估计计算模块:用于获取与车辆对应的残差率和厂商指导价以得车辆估价。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1