一种智能预测二手车价格的方法与流程

文档序号:15493769发布日期:2018-09-21 21:12阅读:210来源:国知局

本发明涉及人工智能技术领域,具体地说是一种智能预测二手车价格的方法。



背景技术:

随着经济水平和汽车工业的发展,二手车市场愈发繁荣,二手车交易平台为车辆交易提供保障和服务,交易的重点是对二手车价格的合理评估。目前二手车交易平台对车辆价格的评估主要通过专业的评估师对机动车状态的判断给出,评估价格严重依赖评估师的专业性和个人经验,掺杂了许多主观成分。由于个体的局限性,无法参考所有交易记录,给出偏离市场价格较多的评估价格。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种智能预测二手车价格的方法,通过选取影响二手车价格的关键因素,利用交易数据训练决策回归树模型,达到智能预测二手车价格的目的。

本发明解决其技术问题所采用的技术方案是:

一种智能预测二手车价格的方法,根据二手车价格的影响因素选取二手车价格回归所需的属性,量化所述属性;清洗出所述属性特征向量和既往交易数据,并训练决策回归树模型;设定更新时间间隔和新增交易数据指标,定期更新该决策回归树模型;

选取车辆的属性包括品牌、车系、配置、变速箱类别、颜色、车型、排量、购买时间、行驶里程、交易次数、成新率、是否严重碰撞、是否长时间泡水和是否过火;

对既往二手车交易数据的车辆和成交价格做数据处理,得到决策回归树模型的样本集合

ω={(x,y)|x∈a14,y为正整数成交价格,单位万元}

预测车辆价格时,获取该车在特征空间a14的特征向量x,输入决策回归树模型,得到该车的评估价格y万元。

电子商务、大数据和机器学习的发展给解决价格预测问题提供了新的方法。电子商务和大数据技术在应用过程中积累了大量的电子交易记录,这些数据庞大且宝贵,真实记录了商品的价格波动,被称为大数据时代的石油。

以深度学习为代表的机器学习技术在大数据时代得到了空前发展,许多问题可以被抽象为分类问题或者回归问题,机器学习领域提出了很多模型来解决此类问题,例如svm、决策树、卷积神经网络等。其中,决策树模型是一种有监督机器学习方法,其最大特点是模型的可解释性强,预测价格的可解释性能够提高价格的可信度,增加消费者对价格的认可。

二手机动车的价格主要依据车辆自身的一些属性进行评估,决策树回归模型需要这些属性作为模型的特征,经过训练能够预测二手车的价格。

品牌、车系、配置、变速箱类别、车身颜色、车型和排量等属性是机动车的固有属性,分别对二手车辆的市场交易价格有不同的影响。同时,这些特征的特点是清晰可见,普通人无需专业指导即可确定这些特征。因此,均可以作为二手车价格评估的候选特征。

购买时间和行驶里程数是车辆既往使用情况的最直接特征,均可以轻易获取,是二手车价格评估的基础特征。交易次数是车辆既往的买卖次数,不同驾驶员的不同驾驶习惯会对车辆造成不同的影响,是二手车价格评估可考虑的候选特征。

二手车成新率表示二手车的功能或使用价值占全新机动车的功能或使用价值的比率,是机动车的现时状态与全新状态的比率。因此,成新率是二手车价格评估的关键因素之一。二手车的成新率确定方法一般有年限法、技术鉴定法和综合分析法等。其中,技术鉴定法以评估师对车辆部件、整车的静态和动态技术测试为基础,参考相应的技术评估标准给出机动车的技术状况评分,是一种科学、客观、可量化的鉴定方法。

在车辆的使用过程中,如果发生过严重的碰撞、长时间泡水或较严重的过火统称为事故车,虽然可以修复再次上路,但仍存在安全隐患,会对二手车价格有非常大的影响,因此可作为对二手车价格评估的关键因素。

综合以上考量,选取车辆的品牌、车系、配置、变速箱类别、颜色、车型、排量、购买时间、行驶里程、交易次数、成新率、是否严重碰撞、是否长时间泡水和是否过火14个属性作为模型回归依据。则任何一辆二手车均可以被量化为一个具有14个维度的特征向量feature=[band,series,version,gearbox,color,type,displacement,months,mileage,trades,newness,crashed,immersed,fired],记feature空间为a14

优选的,所述品牌(band)指机动车的品牌标识,如宝马、大众、奥迪等;车系(series)是品牌的细分,如x5、宝来、a6等;配置(version)包括高档、中档和低档;变速箱类别(gearbox)包括手动挡和自动挡;颜色(color)分为黑、白、银、蓝、红、黄、橙、紫、绿、咖啡色、彩色和其他色;车型(type)包括面包车、两厢轿车、三厢轿车、suv、跑车和其他。

进一步的,排量(displacement)以升为单位;购买时间(months)以月为单位,表示购买时间距离评估时间的时间跨度;行驶里程(mileage)以万公里为单位。

优选的,成新率(trades)得分为整数类别,满分为100分,最低分为0分。

进一步的,为了减小人为打分带来的误差,成新率以10分为一档,分为0到10档;成新率得分为a分,a=10×b+c,其中b、c为整数,且-1<b<11,-1<c<10,则成新率划分为b档,即某二手车成新率(trades)得分为a分,根据该公式划分成新率(trades)为b档。

进一步的,是否严重碰撞(crashed)、是否长时间泡水(immersed)和是否过火(fired)特征向量可取值0或1,1表示发生过相应事件,0表示没有发生过相应事件。

优选的,决策回归树模型划分标准采用最小均方差mse,即减小决策树叶节点的l2误差。决策树模型形似一颗倒放的树形结构,根节点是所有样本,在子节点选取出可划分的属性,对样本集不断划分,生成子样本集,直到子样本集不可再分或者达到停止标准,得到叶子结点。对划分样本集的属性选取有不同的方法,例如信息增益法、增益率法、基尼指数法和最小均方差(mse)法等。mse法适合回归问题,其计算方法为

其中,yi表示样本i的期望值,例如价格,nm表示在当前结点的子样本集xm的样本数量,mse(xm)表示在子样本集xm上按照某个划分标准得到的均方差。

进一步的,使用留存法将样本集划分为训练集和测试集,整体样本比例为3:1。

优选的,由于样本集的覆盖率在特征空间可能无法达到100%,样本均衡性较差,因此选取车系(series)作为划分训练集和测试集的属性,同样series的二手车样本以3:1的比例被划分到训练集和测试集。

优选的,决策树最大深度分别设定10、11、12、13和14,深度不超过样本集的属性维度,使用训练集分别训练上述5个模型,使用测试集测试模型的正确率,选取正确率最高者为最终模型,若正确率最高的模型超过一个,则选取模型深度较小者为最终模型,得到决策回归树最终模型。

本发明的一种智能预测二手车价格的方法和现有技术相比,具有以下有益效果:

本方法将二手车价格预测问题抽象为机器学习领域的典型回归问题,根据二手车价格的影响因素,选取出进行二手车价格回归所需要的14个关键量化属性,清洗出既往交易数据训练模型。基于市场整体交易数据智能预测二手车价格,达到智能预测二手车价格的目的,价格评估更加客观,公平公正,为二手车交易提供保障。

附图说明

图1是实施例中智能预测二手车价格的方法流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

一种智能预测二手车价格的方法,根据二手车价格的影响因素选取二手车价格回归所需的属性,量化所述属性;清洗出所述属性特征向量和既往交易数据,并训练决策回归树模型;设定更新时间间隔和新增交易数据指标,定期更新该决策回归树模型。

二手机动车的价格主要依据车辆自身的一些属性进行评估,决策树回归模型需要这些属性作为模型的特征,经过训练能够预测二手车的价格。

品牌、车系、配置、变速箱类别、车身颜色、车型和排量等属性是机动车的固有属性,分别对二手车辆的市场交易价格有不同的影响,这些特征的特点是清晰可见,普通人无需专业指导即可确定这些特征。因此,均可以作为二手车价格评估的候选特征。

购买时间和行驶里程数是车辆既往使用情况的最直接特征,均可以轻易获取,是二手车价格评估的基础特征;交易次数是车辆既往的买卖次数,不同驾驶员的不同驾驶习惯会对车辆造成不同的影响,是二手车价格评估可考虑的候选特征。

二手车成新率表示二手车的功能或使用价值占全新机动车的功能或使用价值的比率,是机动车的现时状态与全新状态的比率。因此,成新率是二手车价格评估的关键因素之一。二手车的成新率确定方法一般有年限法、技术鉴定法和综合分析法等。其中,技术鉴定法以评估师对车辆部件、整车的静态和动态技术测试为基础,参考相应的技术评估标准给出机动车的技术状况评分,是一种科学、客观、可量化的鉴定方法。

在车辆的使用过程中,如果发生过严重的碰撞、长时间泡水或较严重的过火统称为事故车,虽然可以修复再次上路,但仍存在安全隐患,会对二手车价格有非常大的影响,因此可作为对二手车价格评估的关键因素。

综合以上考量,选取车辆的品牌、车系、配置、变速箱类别、颜色、车型、排量、购买时间、行驶里程、交易次数、成新率、是否严重碰撞、是否长时间泡水、是否过火等14个属性作为模型回归依据。任何一辆二手车均可以被量化为一个具有14个维度的特征向量feature=[band,series,version,gearbox,color,type,displacement,months,mileage,trades,newness,crashed,immersed,fired],记feature空间为a14

band指机动车的品牌标识,如宝马、大众、奥迪等。series是band的细分,如x5、宝来、a6等。version包括高、中、低三档。gearbox包括手动挡和自动挡。color分为黑、白、银、蓝、红、黄、橙、紫、绿、咖啡色、彩色和其他色。type包括面包车、两厢轿车、三厢轿车、suv、跑车和其他。displacement以升为单位。months以月为单位,表示购买时间距离评估时间的时间跨度。mileage以万公里为单位。

trades得分为整数类别,满分为100分,最低分为0分。为了减小人为打分带来的误差,trades以10分为一档,分为0到10档;trades得分为a分,a=10×b+c,其中b、c为整数,且-1<b<11,-1<c<10,则trades划分为b档,即某二手车成新率(trades)得分为a分,根据该公式划分成新率(trades)为b档。

crashed、immersed和fired特征向量可取值0或1,1表示发生过相应事件,0表示没有发生过相应事件。

对既往二手车交易数据的车辆和成交价格做上述数据处理,得到决策回归树模型的样本集合:

ω={(x,y)|x∈a14,y为正整数成交价格,单位万元}(*)

决策回归树模型划分标准采用最小均方差mse,即减小决策树叶节点的l2误差。mse法适合回归问题,其计算方法为

其中,yi表示样本i的期望值,例如价格,nm表示在当前结点的子样本集xm的样本数量,mse(xm)表示在子样本集xm上按照某个划分标准得到的均方差。

使用留存法将样本集划分为训练集和测试集,整体样本比例为3:1。由于样本集的覆盖率在特征空间可能无法达到100%,样本均衡性较差,因此选取车系series作为划分训练集和测试集的属性,同样series的二手车样本以3:1的比例被划分到训练集和测试集。

实施例

下面通过一个预测二手车价格的具体步骤来说明该智能预测二手车价格的方法。

1、数据准备。从二手车交易平台获取既往交易数据,按照上述公式(*)清洗出车辆的成交价格和车辆属性的特征向量,按照series属性划分样本集,得到训练集和测试集。

2、训练模型。设定决策回归树模型的划分标准为mse,决策树最大深度为分别设定10、11、12、13、14,深度不超过样本集的属性维度。使用训练集分别训练上述5个模型,使用测试集测试模型的正确率,选取正确率最高者为最终模型。若正确率最高的模型超过一个,则选取模型深度较小者为最终模型。得到最终模型m。

3、模型应用。预测二手车价格时,首先获取该二手车在特征空间的a14的特征向量x,输入模型m,得到该车的评估价格y万元。设定固定时间或新增交易次数,超过固定时间范围或新增交易次数则更新样本集,重新训练模型并应用到实际评估系统。

通过以上步骤,实现智能预测二手车的价格,客观公正,准确率较高。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1