特征筛选方法、装置、存储介质及计算机设备与流程

文档序号:33560489发布日期:2023-03-22 14:05阅读:33来源:国知局
特征筛选方法、装置、存储介质及计算机设备与流程

1.本技术涉及数据处理技术领域,尤其涉及一种特征筛选方法、装置、存储介质及计算机设备。


背景技术:

2.无人车在日常行驶以及测试过程中会产生大量的数据,开发人员会利用这些数据进行相关分析,如利用无人车在三个月内发生事故时所记录的各项车辆特征数据来进行模型训练,该车辆特征数据包括但不限于通用的日期、时间戳、小时数,以及针对车辆行驶的异常情况数量、经过的交叉路口数量、转弯数量、里程数、障碍物数量等信息。
3.目前,在利用各项车辆特征数据进行模型训练时,由于全量的车辆特征数据可能会存在一些冗余低效的数据,因此,在进行模型训练之前,一般会通过选取优质特征、删除无关和冗余特征的方式来降低数据集的特征维度,提高分类效率和准确率。现有的特征筛选方式,主要是基于权重打分的过滤式方法和基于最终模型训练评价函数的封装式方法,这两种方式主要是站在数据维度进行过滤,与用户之间的交互性较弱,无法根据用户的需求进行特征筛选。


技术实现要素:

4.本技术的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中的特征筛选方式与用户之间的交互性较弱,无法根据用户的需求进行特征筛选的技术缺陷。
5.本技术提供了一种特征筛选方法,所述方法包括:
6.获取待训练模型的特征数据集,所述特征数据集包含若干标注数据,所述若干标注数据包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据及不同时刻事故发生次数的结果统计数据;
7.将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令,所述确认指令中包含对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据;
8.按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估得到多个评估结果后,将各个拟合结果及对应的评估结果发送至所述前端页面进行展示,并接收用户对各个拟合结果的第一选择结果;
9.基于所述第一选择结果对所述特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对所述待训练模型进行训练。
10.可选地,所述将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令,包括:
11.将各项车辆特征数据之间进行两两组合,和/或将各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据发送至前端页面进行展示,并接收用户对多个组合数据进行确认后返回的确认指令;其中,所述确认指令中包含的组合数据的个
数不大于所述前端页面展示的组合数据的个数;
12.或者,将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合后返回的确认指令。
13.可选地,所述按照预设的拟合策略分别对每个组合数据进行拟合,得到多个拟合结果,包括:
14.判断用户返回的确认指令中是否包含自定义的拟合方式;
15.若包含,则按照所述自定义的拟合方式分别对每个组合数据进行拟合,得到多个拟合结果;
16.若不包含,则按照默认的拟合方式分别对每个组合数据进行拟合,得到多个拟合结果。
17.可选地,所述按照默认的拟合方式分别对每个组合数据进行拟合,得到多个拟合结果,包括:
18.将默认的拟合方式发送至所述前端页面进行展示,所述默认的拟合方式至少包括线性拟合和非线性拟合;
19.接收用户对所述默认的拟合方式的第二选择结果,并在所述第二选择结果为所述线性拟合时,基于所述线性拟合的拟合公式分别对每个组合数据进行拟合,得到多个拟合结果;
20.当所述第二选择结果为所述非线性拟合时,获取所述第二选择结果中用户确定的非线性拟合参数,并按照该非线性拟合参数分别对每个组合数据进行拟合,得到多个拟合结果。
21.可选地,所述对各个拟合结果进行评估得到多个评估结果,包括:
22.针对每一拟合结果:
23.利用至少一个评估指标对该拟合结果进行评估,并得到该拟合结果在每一评估指标下的评估结果。
24.可选地,所述评估指标至少包括相关系数评估指标和均方误差评估指标;
25.所述利用至少一个评估指标对该拟合结果进行评估,并得到该拟合结果在每一评估指标下的评估结果,包括:
26.利用所述相关系数评估指标对该拟合结果进行评估,并得到该拟合结果在所述相关系数评估指标下的相关系数;
27.和/或,利用所述均方误差评估指标对该拟合结果进行评估,并得到该拟合结果在所述均方误差评估指标下的均方误差。
28.可选地,所述将各个拟合结果及对应的评估结果发送至所述前端页面进行展示,包括:
29.按照各个拟合结果对应的评估结果对各个拟合结果进行排序,并将排序后的拟合结果及对应的评估结果发送至所述前端页面进行展示。
30.可选地,所述待训练模型的生成过程,包括:
31.获取用户上传的,或通过云上存储链接提供的代码文件;
32.根据所述代码文件生成待训练模型。
33.本技术还提供了一种特征筛选装置,包括:
34.数据获取模块,用于获取待训练模型的特征数据集,所述特征数据集包含若干标注数据,所述若干标注数据包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据及不同时刻事故发生次数的结果统计数据;
35.特征组合模块,用于将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令,所述确认指令中包含对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据;
36.组合评估模块,用于按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估得到多个评估结果后,将各个拟合结果及对应的评估结果发送至所述前端页面进行展示,并接收用户对各个拟合结果的第一选择结果;
37.特征筛选模块,用于基于所述第一选择结果对所述特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对所述待训练模型进行训练。
38.本技术还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述特征筛选方法的步骤。
39.本技术还提供了一种计算机设备,包括:一个或多个处理器,以及存储器;
40.所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述特征筛选方法的步骤。
41.从以上技术方案可以看出,本技术实施例具有以下优点:
42.本技术提供的特征筛选方法、装置、存储介质及计算机设备,首先可以获取待训练模型的特征数据集,该特征数据集中包含若干个标注数据,若干个标注数据包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据及不同时刻事故发生次数的结果统计数据,当获取到各项车辆特征数据和结果统计数据后,本技术可以将各项车辆特征数据和结果统计数据发送至前端页面进行展示,用户可以在前端页面中选择各项车辆特征数据进行两两组合,和/或选择各项车辆特征数据与结果统计数据之间进行两两组合后形成组合数据,也可以根据本技术默认的组合方式得到多个组合数据,当得到用户确定的多个组合数据后,可以按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估后得到多个评估结果,再将各个拟合结果及对应的评估结果发送至前端页面进行展示,用户可以根据自身需求以及每个拟合结果的评估结果来对各个拟合结果进行筛选,当接收到用户对各个拟合结果的第一选择结果后,本技术可以根据第一选择结果来对特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对待训练模型进行训练,这样既可以在特征筛选时增强与用户之间的交互性,又可以得到符合用户需求的筛选结果。
附图说明
43.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可
以根据这些附图获得其它的附图。
44.图1为本技术实施例提供的一种特征筛选方法的流程示意图;
45.图2为本技术实施例提供的前端页面中拟合结果的展示图;
46.图3为本技术实施例提供的一种特征筛选装置的结构示意图;
47.图4为本技术实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
48.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
49.目前,在利用各项车辆特征数据进行模型训练时,由于全量的车辆特征数据可能会存在一些冗余低效的数据,因此,在进行模型训练之前,一般会通过选取优质特征、删除无关和冗余特征的方式来降低数据集的特征维度,提高分类效率和准确率。现有的特征筛选方式,主要是基于权重打分的过滤式方法和基于最终模型训练评价函数的封装式方法,这两种方式主要是站在数据维度进行过滤,与用户之间的交互性较弱,无法根据用户的需求进行特征筛选。基于此,本技术提出了如下技术方案,具体参见下文:
50.在一个实施例中,如图1所示,图1为本技术实施例提供的一种特征筛选方法的流程示意图;本技术提供了一种特征筛选方法,所述方法可以包括:
51.s110:获取待训练模型的特征数据集。
52.本步骤中,在进行特征筛选时,可以获取待训练模型的特征数据集,并对该特征数据集中的特征数据进行筛选。
53.具体地,本技术中的待训练模型可以是线性回归模型,也可以是其他需要进行训练的网络模型,在此不做限制;本技术中的特征数据集指的是对待训练模型进行训练时所用的训练数据,特征数据集中包含若干个标注数据,该若干个标注数据主要包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据以及不同时刻事故发生次数的结果统计数据。其中,车辆特征数据包括但不限于通用的日期、时间戳、小时数,以及针对车辆行驶的异常情况数量、经过的交叉路口数量、转弯数量、里程数、障碍物数量等信息,不同时刻事故发生次数的结果统计数据可以是0,也可以是任意正整数。
54.举例来说,本技术的标注数据可以表示如下:
55.{"obs_cnt_front":{"0":10,"1":27,"2":22,"3":13,"4":25,"5":27,"6":13},
56."obs_cnt_left":{"0":11,"1":41,"2":22,"3":25,"4":4,"5":25,"6":3,"7":3},
57."hour":{"0":903171,"1":903172,"2":903184,"3":903215,"4":903175,"5":903366,"6":903180,"7":903181},
58."incident_count":{"0":0,"1":0,"2":1,"3":0,"4":1,"5":0,"6":0,"7":4}
59.其中,每一标注数据均代表一类车辆特征数据,每类车辆特征数据既包括特征标签又包括特征数据,如上述的"obs_cnt_front"、"obs_cnt_left"、"hour"、"incident_count"均为特征标签,而上述{}内的数据均为按时间顺序记录的不同时刻的特征数据。其
中,本技术可以按照事故发生的原因和结果将标注数据分为两类,一类为车辆特征数据,主要是记录无人车在发生事故时车辆行驶情况,如经过的交叉路口数量、转弯数量、里程数、障碍物数量等信息;另一类是结果统计数据,主要是根据多辆无人车在预设历史时段内不同时刻的事故发生次数进行统计后得到的数据。通过将标注数据分为两类后,可以分析不同车辆特征数据之间是否有关联以及关联度高低,以及各个车辆特征数据与结果统计数据之间是否有关联以及关联度高低等,这样可以进一步提高特征筛选的准确率。
60.s120:将各项车辆特征数据及结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令。
61.本步骤中,通过s110获取到待训练模型的特征数据集后,本技术可以将特征数据集中的各项车辆特征数据以及结果统计数据发送至前端页面进行展示,以供用户根据自身的需求对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合;或者,本技术可以直接将各项车辆特征数据之间进行两两组合,和/或将各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据展示在前端页面,以便用户在前端页面中进行筛选并确认,当用户确认完毕后,即可接收用户返回的确认指令,并根据该确认指令中包含的组合数据进行后续分析。
62.s130:按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估得到多个评估结果后,将各个拟合结果及对应的评估结果发送至前端页面进行展示,并接收用户对各个拟合结果的第一选择结果。
63.本步骤中,通过s120将各项车辆特征数据及结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令后,该确认指令中包含对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据,本技术可以按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估后得到多个评估结果,接着,本技术可以将各个拟合结果及对应的评估结果发送至前端页面进行展示,以供用户根据各个拟合结果的评估结果来选择相应的拟合结果后形成第一选择结果,并返回该第一选择结果,以便根据该第一选择结果进行特征筛选。
64.在一种具体的实现方式中,本技术在得到多个组合数据后,可以按照预先设置的默认的拟合方式对每个组合数据进行拟合,也可以按照用户自定义的拟合方式来对每个组合数据进行拟合,具体的拟合方式可以是线性拟合,也可以是非线性拟合,可以视实际情况进行选择,在此不做限制。进一步地,在对每个组合数据进行拟合后,本技术可以对每个组合数据进行拟合后得到的拟合结果进行评估,以便确定每个组合数据中的两组特征数据之间的关联度,进而供用户根据评估结果来对拟合结果进行挑选,并选取有价值的特征数据。
65.需要说明的是,本技术中每一拟合结果对应至少一个评估结果,具体可以根据评估时的评估指标的个数进行确定,例如,当本技术设置有两个或三个评估指标时,可以通过每一评估指标分别对拟合结果进行评估,进而得到多个评估结果,这样,用户便可以根据多个评估结果综合对拟合结果进行选择,进而提升特征筛选的准确率。
66.更进一步地,本技术在将各个拟合结果及对应的评估结果发送至前端页面进行展示时,可以选择根据某一评估指标下的评估结果对各个拟合结果进行排序,也可以选择根据多个评估指标下的评估结果对各个拟合结果进行综合排序,排序时,可以看到数值高低从大到小进行排序,也可以从小到大进行排序,具体可视实际情况进行选择,在此不做限
制。
67.s140:基于第一选择结果对特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对待训练模型进行训练。
68.本步骤中,当得到第一选择结果后,本技术可以根据第一选择结果来对特征数据集中的车辆特征数据进行筛选,进而得到筛选后的特征数据集,接着,本技术可以根据筛选后的特征数据集来对待训练模型进行训练,进而提升模型训练效率和训练效果。
69.具体地,本技术在根据第一选择结果来对特征数据集中的车辆特征数据进行筛选时,可以先确定第一选择结果中的各个拟合结果对应的组合数据,接着再提取各个组合数据中的车辆特征数据,并对提取后的车辆特征数据进行去重后得到筛选后的车辆特征数据,该车辆特征数据即可作为待训练模型的输入数据。
70.上述实施例中,首先可以获取待训练模型的特征数据集,该特征数据集中包含若干个标注数据,若干个标注数据包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据及不同时刻事故发生次数的结果统计数据,当获取到各项车辆特征数据和结果统计数据后,本技术可以将各项车辆特征数据和结果统计数据发送至前端页面进行展示,用户可以在前端页面中选择各项车辆特征数据进行两两组合,和/或选择各项车辆特征数据与结果统计数据之间进行两两组合后形成组合数据,也可以根据本技术默认的组合方式得到多个组合数据,当得到用户确定的多个组合数据后,可以按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估后得到多个评估结果,再将各个拟合结果及对应的评估结果发送至前端页面进行展示,用户可以根据自身需求以及每个拟合结果的评估结果来对各个拟合结果进行筛选,当接收到用户对各个拟合结果的第一选择结果后,本技术可以根据第一选择结果来对特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对待训练模型进行训练,这样既可以在特征筛选时增强与用户之间的交互性,又可以得到符合用户需求的筛选结果。
71.在一个实施例中,s120中将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令,可以包括:
72.s121:将各项车辆特征数据之间进行两两组合,和/或将各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据发送至前端页面进行展示,并接收用户对多个组合数据进行确认后返回的确认指令;其中,所述确认指令中包含的组合数据的个数不大于所述前端页面展示的组合数据的个数。
73.s122:或者,将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合后返回的确认指令。
74.本实施例中,当获取到待训练模型的特征数据集后,可以将特征数据集中的各项车辆特征数据以及结果统计数据发送至前端页面进行展示,以供用户根据自身的需求对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合;例如,当本技术在前端页面中展示经过的交叉路口数量、转弯数量、里程数、障碍物数量等车辆特征数据,以及多辆无人车在预设历史时段内不同时刻的事故发生次数的结果统计数据后,用户可以根据自身需求将转弯数量与事故发生次数进行组合,也可以将事故发生次数与障碍物数量进行组合,还可以将转弯数量和里程数进行组合,以此类推,
进而得到多个组合数据。
75.或者,本技术可以直接将各项车辆特征数据之间进行两两组合,和/或将各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据展示在前端页面,用户可以确定选择所有默认的组合数据,也可以从默认的组合数据中筛选出符合自身需求的组合数据,当用户确认最终的组合数据后,可以返回确认指令,本技术可以根据该确认指令中包含的组合数据进行后续分析。
76.在一个实施例中,s130中按照预设的拟合策略分别对每个组合数据进行拟合,得到多个拟合结果,可以包括:
77.s131:判断用户返回的确认指令中是否包含自定义的拟合方式。
78.s132:若包含,则按照所述自定义的拟合方式分别对每个组合数据进行拟合,得到多个拟合结果。
79.s133:若不包含,则按照默认的拟合方式分别对每个组合数据进行拟合,得到多个拟合结果。
80.本实施例中,在对每个组合数据进行拟合时,可以先判断用户返回的确认指令中是否包含自定义的拟合方式,若包含,则按照用户自定义的拟合方式分别对每个组合数据进行拟合,并得到多个拟合结果,若不包含,则按照默认的拟合方式分别对每个组合数据进行拟合,并得到多个拟合结果。
81.可以理解的是,本技术在对组合数据进行拟合时,可以接收用户自定义的拟合方式,这样,可以根据用户自定义的拟合方式进行定制化拟合,从而满足用户需求。进一步地,当用户未给出自定义的拟合方式时,本技术还可以通过预先设置的默认的拟合方式来对组合数据进行拟合,这样既可以根据拟合结果来判断组合数据的关联度,同时又考虑到了用户的需求。
82.在一个实施例中,s133中按照默认的拟合方式分别对每个组合数据进行拟合,得到多个拟合结果,可以包括:
83.s1331:将默认的拟合方式发送至所述前端页面进行展示,所述默认的拟合方式至少包括线性拟合和非线性拟合。
84.s1332:接收用户对所述默认的拟合方式的第二选择结果,并在所述第二选择结果为所述线性拟合时,基于所述线性拟合的拟合公式分别对每个组合数据进行拟合,得到多个拟合结果。
85.s1333:当所述第二选择结果为所述非线性拟合时,获取所述第二选择结果中用户确定的非线性拟合参数,并按照该非线性拟合参数分别对每个组合数据进行拟合,得到多个拟合结果。
86.本实施例中,在按照默认的拟合方式分别对每个组合数据进行拟合时,为了增强与用户之间的交互性,本技术可以将默认的拟合方式发送至前端页面进行展示,并接收用户对默认的拟合方式的第二选择结果,接着根据第二选择结果来对组合数据进行拟合。
87.具体地,本技术可以设置多种默认的拟合方式供用户进行选择,例如,本技术可以设置线性拟合和非线性拟合的方式供用户选择,当用户选择线性拟合时,可以按照预先设置的线性拟合的拟合公式分别对每个组合数据进行拟合,进而得到多个拟合结果;当用户选择非线性拟合时,可以获取第二选择结果中用户确定的非线性拟合参数,并按照该非线
性拟合参数分别对每个组合数据进行拟合,进而得到多个拟合结果。
88.可以理解的是,本技术中的线性拟合和非线性拟合均是曲线拟合的一种形式。其中,线性拟合中的设x和y都是被观测的量,且y是x的函数:f(x)=y=a+bx,曲线拟合就是通过x,y的观测值来寻求参数a、b的最佳估计值,及寻求最佳的理论曲线f(x)=y=a+bx;对于非线性拟合,本技术可以通过多项式拟合的方式来实现,多项式拟合时需要用户提供阶数,当然,用户未提供阶数时,也可以预先设定默认阶数,在此不做限制。
89.在一个实施例中,s130中对各个拟合结果进行评估得到多个评估结果,可以包括:
90.s310:针对每一拟合结果:利用至少一个评估指标对该拟合结果进行评估,并得到该拟合结果在每一评估指标下的评估结果。
91.本实施例中,在对各个拟合结果进行评估得到多个评估结果时,可以利用至少一个评估指标来对该拟合结果进行评估,进而得到该拟合结果在每一评估指标下的评估结果。
92.在一个实施例中,所述评估指标至少包括相关系数评估指标和均方误差评估指标;s310中利用至少一个评估指标对该拟合结果进行评估,并得到该拟合结果在每一评估指标下的评估结果,可以包括:
93.s311:利用所述相关系数评估指标对该拟合结果进行评估,并得到该拟合结果在所述相关系数评估指标下的相关系数。
94.s312:和/或,利用所述均方误差评估指标对该拟合结果进行评估,并得到该拟合结果在所述均方误差评估指标下的均方误差。
95.本实施例中,利用统计学算法预测未来数据时,常使用不同的评估指标来评估预测结果的好坏,包括:均方误差(mse)、均方根误差(rmse)、平均绝对偏差(mae)、偏差(bias)、相关系数(corr)和准确率(accurate)等。因此,本技术在预测拟合结果的好坏时,也可以选择其中一种或多种评估指标来评估拟合结果。
96.具体地,本技术可以使用相关系数评估指标和/或均方误差评估指标来分别对拟合结果进行评估,进而得到相应的评估结果。当然,本技术还可以选择平均绝对偏差、偏差、准确率等评估指标来对拟合结果进行评估,具体可视实际情况进行设置,在此不做限制。
97.在一个实施例中,s130中将各个拟合结果及对应的评估结果发送至所述前端页面进行展示,可以包括:
98.按照各个拟合结果对应的评估结果对各个拟合结果进行排序,并将排序后的拟合结果及对应的评估结果发送至所述前端页面进行展示。
99.本实施例中,在将各个拟合结果及对应的评估结果发送至前端页面进行展示时,可以按照各个拟合结果对应的评估结果来对各个拟合结果进行排序,并将排序后的拟合结果及对应的评估结果发送至前端页面进行展示。
100.进一步地,本技术在将各个拟合结果及对应的评估结果发送至前端页面进行展示时,可以选择根据某一评估指标下的评估结果对各个拟合结果进行排序,也可以选择根据多个评估指标下的评估结果对各个拟合结果进行综合排序,排序时,可以看到数值高低从大到小进行排序,也可以从小到大进行排序,具体可视实际情况进行选择,在此不做限制。
101.示意性地,如图2所示,图2为本技术实施例提供的前端页面中拟合结果的展示图;图2中,当本技术选择结果统计数据与各项车辆特征数据进行组合,且通过相关系数(corr)
评估指标以及均方误差(mse)评估指标来对拟合结果进行评估,并按照相关系数(corr)评估指标下的评估结果对拟合结果进行从高到低的排序后,可以得到如图2所示的排序结果,该排序结果中包括经过的交叉路口数量与事故发生次数之间组合后的组合数据,里程数与事故发生次数之间组合后的组合数据以及其他组合数据,其中,经过的交叉路口数量与事故发生次数之间组合后的组合数据经拟合并评估后得到的相关系数为0.3206、均方误差为1.01,里程数与事故发生次数之间组合后的组合数据经拟合并评估后得到的相关系数为0.2913、均方误差为1.03,用户可以通过该排序结果来选择符合自身需求的组合数据。
102.在一个实施例中,所述待训练模型的生成过程,可以包括:
103.s111:获取用户上传的,或通过云上存储链接提供的代码文件。
104.s112:根据所述代码文件生成待训练模型。
105.本实施例中,在利用筛选后的特征数据集对待训练模型进行训练时,由于本技术预先获取的是待训练模型的特征数据集,并没有获取待训练模型,因此,本技术在对待训练模型进行训练之前,可以获取用户上传的或通过云上存储链接提供的代码文件,并根据该代码文件来生成待训练模型。
106.进一步地,本技术还可以利用筛选前以及筛选后的特征训练集对待训练模型进行训练后,对该待训练模型进行打分,并根据打分结果来判断本次特征筛选的效果。
107.下面对本技术实施例提供的特征筛选装置进行描述,下文描述的特征筛选装置与上文描述的特征筛选方法可相互对应参照。
108.在一个实施例中,如图3所示,图3为本技术实施例提供的一种特征筛选装置的结构示意图;本技术还提供了一种特征筛选装置,可以包括数据获取模块210、特征组合模块220、组合评估模块230、特征筛选模块240,具体包括如下:
109.数据获取模块210,用于获取待训练模型的特征数据集,所述特征数据集包含若干标注数据,所述若干标注数据包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据及不同时刻事故发生次数的结果统计数据。
110.特征组合模块220,用于将各项车辆特征数据及所述结果统计数据发送至前端页面进行展示,并接收用户返回的确认指令,所述确认指令中包含对各项车辆特征数据之间进行两两组合,和/或对各项车辆特征数据与所述结果统计数据之间进行两两组合后得到的多个组合数据。
111.组合评估模块230,用于按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估得到多个评估结果后,将各个拟合结果及对应的评估结果发送至所述前端页面进行展示,并接收用户对各个拟合结果的第一选择结果。
112.特征筛选模块240,用于基于所述第一选择结果对所述特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对所述待训练模型进行训练。
113.上述实施例中,首先可以获取待训练模型的特征数据集,该特征数据集中包含若干个标注数据,若干个标注数据包括多辆无人车在预设历史时段内不同时刻发生事故时所记录的各项车辆特征数据及不同时刻事故发生次数的结果统计数据,当获取到各项车辆特征数据和结果统计数据后,本技术可以将各项车辆特征数据和结果统计数据发送至前端页面进行展示,用户可以在前端页面中选择各项车辆特征数据进行两两组合,和/或选择各项车辆特征数据与结果统计数据之间进行两两组合后形成组合数据,也可以根据本技术默认
的组合方式得到多个组合数据,当得到用户确定的多个组合数据后,可以按照预设的拟合策略分别对每个组合数据进行拟合,并对各个拟合结果进行评估后得到多个评估结果,再将各个拟合结果及对应的评估结果发送至前端页面进行展示,用户可以根据自身需求以及每个拟合结果的评估结果来对各个拟合结果进行筛选,当接收到用户对各个拟合结果的第一选择结果后,本技术可以根据第一选择结果来对特征数据集中的车辆特征数据进行筛选,并依据筛选后的特征数据集对待训练模型进行训练,这样既可以在特征筛选时增强与用户之间的交互性,又可以得到符合用户需求的筛选结果。
114.在一个实施例中,本技术还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述特征筛选方法的步骤。
115.在一个实施例中,本技术还提供了一种计算机设备,包括:一个或多个处理器,以及存储器。
116.所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述特征筛选方法的步骤。
117.示意性地,如图4所示,图4为本技术实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图4,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的特征筛选方法。
118.计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(i/o)接口305。计算机设备300可以操作基于存储在存储器301的操作系统,例如windows server tm、mac os xtm、unix tm、linux tm、free bsdtm或类似。
119.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
120.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
121.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
122.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的
一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1