车辆的行驶里程预测方法及系统与流程

文档序号:30421950发布日期:2022-06-15 13:33阅读:317来源:国知局
车辆的行驶里程预测方法及系统与流程

1.本发明涉及大数据技术领域,尤其涉及一种车辆的行驶里程预测方法及系统。


背景技术:

2.车险是财险公司主要的保费收入来源,车险价格政策的调整影响到保险业的健康发展,也关系到广大车主的切身利益。在欧美等车险费率市场化程度较高的国家,车险产品定价的一个创新性的方向是车险里程定价(payd),即保费数额与车辆行驶里程的挂钩,车辆行驶里程越长,保费就交得越多。现有技术中一些保险公司通过行驶里程对保费进行定价。
3.现有技术中对车主的年行驶里程进行预测时,一般都是使用车主上一年全年总行驶里程作为下年行驶里程。但随着对用户信息安全保护的日趋严格,将很难获取用户完整的个人信息。并且对于部分新用户,无法获取全年的行驶里程数据,将会导致计算的预测里程不准确。
4.因此现有技术还有待于进一步发展。


技术实现要素:

5.针对上述技术问题,本发明实施例提供了一种车辆的行驶里程预测方法及系统,能够解决现有技术中对车主的年行驶里程进行预测时,一般都是使用车主上一年全年总行驶里程作为下年行驶里程,存在预测里程不准确的技术问题。
6.本发明实施例的第一方面提供一种车辆的行驶里程预测方法,包括:
7.获取车主的原始行驶数据;
8.若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据;
9.对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据;
10.通过分层聚类算法对目标行驶数据进行分类,生成车主分类;
11.根据分类后的车主分别创建对应的预测模型,根据预测模型获取车主全年的行驶里程预测结果。
12.可选地,获取车主的原始行驶数据;
13.若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据;
14.对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据;
15.通过分层聚类算法对目标行驶数据进行分类,生成车主分类;
16.根据分类后的车主分别创建对应的预测模型,根据预测模型获取车主全年的行驶里程预测结果。
17.可选地,若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据,包括:
18.若原始行驶数据中的行驶时间大于等于三个月,则获取原始行程数据中最后三个月的行驶数据,所述行驶数据包含若干个行程数据,每个行程数据包括设备id、行程起始经纬度坐标、行程结束经纬度坐标、行程起始时间、行程结束时间、行程平均时速、行程最大时速、行程起始地点、行程结束地点、行驶里程和行驶油耗。
19.可选地,所述对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据,包括:
20.对预定时间段对应的行程数据中间隔小于预设时间阈值合并成一条行程数据;
21.对不需要的数据进行过滤,并对重复、异常以及错误数据进行清洗后,生成目标行驶数据。
22.可选地,所述通过分层聚类算法对目标行驶数据进行分类,生成车主分类,包括:
23.获取目标行驶数据中所有工作日行程的起始位置经纬度坐标和结束位置经纬度坐标,生成二维数组,记为第一数组;
24.获取目标行驶数据中所有节假日行程的开始位置经纬度坐标和结束位置经纬度坐标,生成第二维数组,记为第二数组;
25.通过dbscan聚类算法对目标行驶数据进行聚类,输出簇的个数k;
26.通过k-means聚类算法对每笔行程的起点和终点的地理坐标进行聚类,其中聚类中心数为k;
27.根据簇内的坐标点的个数获取车主车辆的停放位置信息;
28.根据停放位置信息对车主进行分类。
29.本发明实施例第二方面提供了一种车辆的行驶里程预测系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
30.获取车主的原始行驶数据;
31.若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据;
32.对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据;
33.通过分层聚类算法对目标行驶数据进行分类,生成车主分类;
34.根据分类后的车主分别创建对应的预测模型,根据预测模型获取车主全年的行驶里程预测结果。
35.可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
36.若原始行驶数据中的行驶时间小于预定时间段,则通过推荐系统协同过滤算法,推送驾驶行为类似的车主的行驶里程预测值;将行驶里程预测值作为车主的全年行驶里程。
37.可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
38.若原始行驶数据中的行驶时间大于等于三个月,则获取原始行程数据中最后三个月的行驶数据,所述行驶数据包含若干个行程数据,每个行程数据包括设备id、行程起始经
纬度坐标、行程结束经纬度坐标、行程起始时间、行程结束时间、行程平均时速、行程最大时速、行程起始地点、行程结束地点、行驶里程和行驶油耗。
39.可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
40.对预定时间段对应的行程数据中间隔小于预设时间阈值合并成一条行程数据;
41.对不需要的数据进行过滤,并对重复、异常以及错误数据进行清洗后,生成目标行驶数据。
42.本发明实施例第三方面提供了一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的车辆的行驶里程预测方法。
43.本发明实施例提供的技术方案中,通过获取车主的原始行驶数据;若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据;对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据;通过分层聚类算法对目标行驶数据进行分类,生成车主分类;根据分类后的车主分别创建对应的预测模型,根据预测模型获取车主全年的行驶里程预测结果。本发明通过分层聚类算法,对车主进行画像,并根据车主的分类对里程进行预测,从而提高了行驶里程的预测准确度,为车险定价提供了方便。
附图说明
44.图1为本发明实施例中一种车辆的行驶里程预测方法的一实施例的流程示意图;
45.图2为本发明实施例中一种车辆的行驶里程预测系统的另一实施例的硬件结构示意图。
具体实施方式
46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.以下结合附图对本发明实施例进行详细的描述。
48.请参阅图1,图1为本发明实施例中一种车辆的行驶里程预测方法的一个实施例的流程示意图。如图1所示,包括:
49.步骤s100、获取车主的原始行驶数据;
50.步骤s200、若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据;
51.步骤s300、对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据;
52.步骤s400、通过分层聚类算法对目标行驶数据进行分类,生成车主分类;
53.步骤s500、根据分类后的车主分别创建对应的预测模型,根据预测模型获取车主全年的行驶里程预测结果。
54.具体实施时,本发明实施例从车联网中的数据仓库中获取表 std_travelinfo存储的用户行程驾驶数据,表中单条数据记录了每个用户单次行程的数据,数据包括设备id,起始、结束经纬度,起始、结束时间,平均时速,最大时速,起始地点,结束地点,行驶里程,行驶油耗等数据;对数据进行预处理:通过分层聚类算法对目标行驶数据进行分类,生成车主分类;根据不同分类的车主分别创建预测模型,获取全年行程预测结果。
55.进一步地,获取车主的原始行驶数据后,还包括:
56.若原始行驶数据中的行驶时间小于预定时间段,则通过推荐系统协同过滤算法,推送驾驶行为类似的车主的行驶里程预测值;将行驶里程预测值作为车主的全年行驶里程。
57.具体实施时,对于无法进行分类或者数据量偏少的车主,通过机器学习推荐系统协同过滤算法,推送与其驾驶行为类似车主的预测值作为其全年行驶行程。
58.进一步地,若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据,包括:
59.若原始行驶数据中的行驶时间大于等于三个月,则获取原始行程数据中最后三个月的行驶数据,所述行驶数据包含若干个行程数据,每个行程数据包括设备id、行程起始经纬度坐标、行程结束经纬度坐标、行程起始时间、行程结束时间、行程平均时速、行程最大时速、行程起始地点、行程结束地点、行驶里程和行驶油耗。
60.具体地,获取用户的后三个月的行程驾驶数据,表中单条数据记录了每个用户单次行程的数据,数据包括设备id,起始、结束经纬度,起始、结束时间,平均时速,最大时速,起始地点,结束地点,行驶里程,行驶油耗等数据。
61.进一步地,对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据,包括:
62.对预定时间段对应的行程数据中间隔小于预设时间阈值合并成一条行程数据;
63.对不需要的数据进行过滤,并对重复、异常以及错误数据进行清洗后,生成目标行驶数据。
64.具体实施时,将间隔短的行程合并成一条数据,将相邻两个时间间隔在5 分钟以内的行程合并,避免将同一个行程进行切割,导致计算的行程次数增大而导致用户画像不准;
65.对表中字段进行过滤,只获取需要的设备id,行程开始时间,行程结束时间,行程开始经纬度,行程结束经纬度,行程里程字段,减少数据量,节省计算资源,降低计算成本;
66.对重复、错误等异常数据进行清洗。
67.进一步地,通过分层聚类算法对目标行驶数据进行分类,生成车主分类,包括:
68.获取目标行驶数据中所有工作日行程的起始位置经纬度坐标和结束位置经纬度坐标,生成二维数组,记为第一数组;
69.获取目标行驶数据中所有节假日行程的开始位置经纬度坐标和结束位置经纬度坐标,生成第二维数组,记为第二数组;
70.通过dbscan聚类算法对目标行驶数据进行聚类,输出簇的个数k;
71.通过k-means聚类算法对每笔行程的起点和终点的地理坐标进行聚类,其中聚类中心数为k;
72.根据簇内的坐标点的个数获取车主车辆的停放位置信息;
73.根据停放位置信息对车主进行分类。
74.具体实施时,将车主所有工作日和节假日行程的开始位置经纬度坐标和结束经纬度坐标分别合并成二维数组array1,array2,根据车主行驶数据通过dbscan聚类算法设置半径为0.5公里,输出簇的个数k,再通过k-means聚类算法对每笔行程的起点和终点的地理坐标进行聚类,其聚类中心数即为 dbscan算法输出的k值,再根据其簇内坐标点的个数来分析车主经常停放车子的位置信息,根据这些信息来对车主进行标签分类,如果大部分的数据集中在两个簇内,且两个簇内的坐标点个数占array1里的大部分则为上班族,如果k值较大,且每个簇内的坐标点数据较少,则为滴滴或出租车司机,如果簇内的坐标点普遍相差较大,则为长途司机,如果簇内的数据再array1里占比较多,在array2里占比较少,则为宅,如果簇内坐标点在array1里占比少,在array2里占比多,则为爱旅游等,然后依次给每个标签的数据搭建算法模型。
75.进一步地,对不同类别车主分别创建预测模型的具体过程为:
76.使用分区法分别计算工作日及节假日每天行驶的平均里程;
77.根据不同类型车主删除部分过大或者过小的不合理的数据,减小异常行程的影响;
78.将车主行程分为工作日,节假日,并且按每日行驶里程排序,获取工作日和节假日行程的中位数行驶里程mediamileage;
79.将行驶里程小于0.3倍mediamileage的行程分为分区1,行程里程大于 0.3倍mediamileage小于0.6倍mediamileage的行程分为分区2,行程里程大于0.6倍mediamileage小于1.5倍mediamileage的行程分为分区3,行程里程大于1.5倍mediamileage小于3.0倍mediamileage的行程分为分区4,行程里程大于3倍mediamileage行程分为分区5;
80.将各个分区行程数占总行程数的占比作为其权重w,计算各个分区里程平均值avg;
81.计算工作日及节假日每天行驶的平均里程为avg1*w1+...+avgn*wn。
82.计算车主工作日及节假日行驶天数的比率;
83.预测车主全年行驶天数(全年行驶天数=全年工作日天数*工作日行驶天数比率+全年节假日行驶天数*节假日行驶天数比率),预测车主全年行驶里程(全年行驶里程=全年工作日天数*工作日行驶天数比率*工作日每天平均行驶里程+全年节假日行驶天数*节假日行驶天数比率* 节假日每天平均行驶里程)。
84.在一些其他的实施例中,对于无法进行分类或者数据量偏少的车主,通过推荐系统协同过滤算法,推送与其驾驶行为类似前三车主的预测值平均值作为其全年行驶行程:
85.根据车主行程数据计算其早晚高峰占总行驶里程比例l1(早高峰7:30~ 9:30,晚高峰17:30~19:30),熟悉道路行驶里程占总行驶里程比例l2(当同一个行程的行驶次数达到3次以上,则该行程为熟悉道路行程),作为两个特征向量;
86.获取车主分类l3,获取车主工作日平均行驶里程l4,工作日行驶天数占比l5,节假日平均行驶里程l6,节假日行驶天数占比l7;
87.根据获取的7个特征向量,使用余弦相似度计算方法计算各个车主与所有车主的
相关度,获取相关度最高的5个车主的预测的里程,去掉最大,最小的异常值,取剩余3个车主预测值的平均值作为车主的年化里程预测值。
88.注:余弦相似度计算公式1如下:
[0089][0090]
公式1中i:表示特征向量个数;a:表示车主a的特征向量;b:表示车主b的特征向量。
[0091]
例,以a、b两车的特征向量为例进行介绍,其中的a特征向量为a(l1: 0.4*100,l2:0.3*100,l4:25km/天,l5:0.6*100,l6:40km/天, l7:0.3*100),b的特征向量为b(l1:0.6*100,l2:0.5*100,l4:15 km/天,l5:0.8*100,l6:50km/天,l7:0.2*100);
[0092]
先根据车主分类l3,对相同分类车主计算相似度;
[0093]
将所有向量转换为百分制;
[0094]
由于余弦相似度对数值不够敏感,将向量减去a,b两者所有向量数值的平均值,计算a和b所有向量值的平均值为41.7,修正后的向量为 a(-1.7,-11.7,-16.7,18.3,-1.7,-11.7),b(18.3,8.3,-26.7,38.3,8.3,-21. 7);
[0095]
计算相似度=((-1.7*18.3-11.7*8.3+16.7*26.7+18.3* 38.3-1.7*8.3+11.7*21.7)/(sqrt(1.7*1.7+11.7*11.7+16.7 *16.7+18.3*18.3+1.7*1.7+11.7*11.7)*sqrt(18.3*18.3+ 8.3*8.3+26.7*26.7+38.3*38.3+8.3*8.3+21.7*21.7))=0.75。
[0096]
本发明实施例的所需车主行驶数据量少,只需要部分月行驶数据,降低了计算成本;所需车主信息少,只获取行驶里程数据,提高了用户信息安全。
[0097]
需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
[0098]
上面对本发明实施例中的车辆的行驶里程预测方法进行了描述,下面对本发明实施例中的车辆的行驶里程预测系统进行描述,请参阅图2,图2是本发明实施例中一种车辆的行驶里程预测系统的另一实施例的硬件结构示意图,如图2所示,系统10包括:存储器101、处理器102及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器101执行时实现以下步骤:
[0099]
获取车主的原始行驶数据;
[0100]
若原始行驶数据中的行驶时间大于等于预定时间段,则获取原始行程数据中预定时间段对应的行驶数据;
[0101]
对原始行程数据中预定时间段对应的行驶数据进行预处理后,生成目标行驶数据;
[0102]
通过分层聚类算法对目标行驶数据进行分类,生成车主分类;
[0103]
根据分类后的车主分别创建对应的预测模型,根据预测模型获取车主全年的行驶里程预测结果。
[0104]
具体的实施步骤与方法实施例相同,此处不再赘述。
[0105]
可选地,计算机程序被处理器101执行时还实现以下步骤:
[0106]
若原始行驶数据中的行驶时间小于预定时间段,则通过推荐系统协同过滤算法,推送驾驶行为类似的车主的行驶里程预测值;将行驶里程预测值作为车主的全年行驶里程。
[0107]
具体的实施步骤与方法实施例相同,此处不再赘述。
[0108]
可选地,计算机程序被处理器101执行时还实现以下步骤:
[0109]
若原始行驶数据中的行驶时间大于等于三个月,则获取原始行程数据中最后三个月的行驶数据,所述行驶数据包含若干个行程数据,每个行程数据包括设备id、行程起始经纬度坐标、行程结束经纬度坐标、行程起始时间、行程结束时间、行程平均时速、行程最大时速、行程起始地点、行程结束地点、行驶里程和行驶油耗。
[0110]
具体的实施步骤与方法实施例相同,此处不再赘述。
[0111]
可选地,计算机程序被处理器101执行时还实现以下步骤:
[0112]
对预定时间段对应的行程数据中间隔小于预设时间阈值合并成一条行程数据;
[0113]
对不需要的数据进行过滤,并对重复、异常以及错误数据进行清洗后,生成目标行驶数据。
[0114]
具体的实施步骤与方法实施例相同,此处不再赘述。
[0115]
可选地,计算机程序被处理器101执行时还实现以下步骤:
[0116]
获取目标行驶数据中所有工作日行程的起始位置经纬度坐标和结束位置经纬度坐标,生成二维数组,记为第一数组;
[0117]
获取目标行驶数据中所有节假日行程的开始位置经纬度坐标和结束位置经纬度坐标,生成第二维数组,记为第二数组;
[0118]
通过dbscan聚类算法对目标行驶数据进行聚类,输出簇的个数k;
[0119]
通过k-means聚类算法对每笔行程的起点和终点的地理坐标进行聚类,其中聚类中心数为k;
[0120]
根据簇内的坐标点的个数获取车主车辆的停放位置信息;
[0121]
根据停放位置信息对车主进行分类。
[0122]
具体的实施步骤与方法实施例相同,此处不再赘述。
[0123]
本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤s100至步骤s500。
[0124]
作为示例,非易失性存储介质能够包括只读存储器(rom)、可编程 rom(prom)、电可编程rom(eprom)、电可擦rom(eeprom)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(ram)。通过说明并非限制,ram可以以诸如同步ram(sram)、动态ram、(dram)、同步 dram(sdram)、双数据速率sdram(ddr sdram)、增强型sdram(esdram)、 synchlink dram(sldram)以及直接rambus(兰巴斯)ram(drram)之类的许多形式得到。本发明实施例中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
[0125]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例
对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1