一种数据处理方法和数据处理系统与流程

文档序号:32380576发布日期:2022-11-30 02:11阅读:50来源:国知局
一种数据处理方法和数据处理系统与流程

1.本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和数据处理系统。


背景技术:

2.案件在立案以后通常会根据案件类型、案由等因素分配合适的办理人员。现有的案件分配方法通常是将案件随机分配给办理人员,未考虑办理人员手头案件的工作量以及擅长处理的案件类型,从而造成案件的积压,办案效率低。


技术实现要素:

3.本发明实施例提供一种数据处理方法和数据处理系统,可以解决现存案件分配方法易造成案件积压,导致办案效率低的缺点。
4.为解决上述技术问题,本发明提供一种数据处理方法,所述方法包括:
5.获取待分配案件;
6.调用预测模型对所述待分配案件进行预测,得到所述待分配案件的工作量;
7.确定与所述待分配案件的类型对应的办案人员;
8.获取所述办案人员手头已有案件的工作量;
9.基于所述待分配案件的工作量以及所述办案人员手头已有案件的工作量进行案件分配。
10.可选的,上述数据处理方法中,所述获取待分配案件的步骤之前,所述方法还包括:
11.基于案件样本数据对算法模型进行训练,建立所述预测模型。
12.可选的,上述数据处理方法中,基于案件样本数据对算法模型进行训练,建立所述预测模型之前,所述方法还包括:获取所述案件样本数据的元数据;根据所述元数据,确定用于建模的算法模型。
13.可选的,上述数据处理方法中,所述基于案件样本数据对算法模型进行训练,建立所述预测模型的步骤之前,所述方法包括:
14.获取案件样本数据;
15.对所述案件样本数据进行预处理,得到目标案件数据;
16.使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果。
17.可选的,上述数据处理方法中,所述使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果的步骤之后,所述方法还包括:
18.基于特征重要性结果对所述目标案件数据进行特征筛选,得到所述预测模型的目标特征变量。
19.可选的,上述数据处理方法中,所述使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果的步骤包括:
20.根据所述预测模型的类型确定特征重要性分析方法;
21.使用所述特征重要性分析方法对所述目标案件数据的各个特征变量进行重要分析,得到所述各个特征变量的重要性度量值。
22.可选的,上述数据处理方法中,所述基于特征重要性结果对所述目标案件数据进行特征筛选,得到所述预测模型的目标特征变量的步骤包括:
23.基于所述各个特征变量的重要性度量值对所述各个特征变量进行筛选,得到用于建立所述预测模型的目标特征变量。
24.可选的,上述数据处理方法中,所述对所述案件样本数据进行预处理,得到目标案件数据的步骤包括:
25.基于案件信息及业务等级代码的预设对应关系确定所述案件样本数据中各个特征变量的业务等级代码;
26.基于所述业务等级代码对所述各个特征变量进行合并,得到所述目标案件数据。
27.可选的,上述数据处理方法中,所述特征重要性分析方法包括以下至少一项:信息值、互信息、卡方检验、方差分析、随机森林、皮尔森相关系数法、极端树特征选择法和递归特征消除法。
28.可选的,上述数据处理方法中,所述预处理还包括以下至少一项:
29.数据去重、数据异常值处理、数据缺失值处理、数据唯一值处理。
30.可选的,上述数据处理方法中,所述基于案件样本数据对算法模型进行训练,建立所述预测模型的步骤包括:
31.基于所述案件样本数据确定案件审查流程;
32.基于所述案件样本数据以及所述案件审查流程,建立所述预测模型。
33.可选的,上述数据处理方法中,所述基于案件样本数据确定案件审查流程的步骤包括:
34.调用预先建立的案件审查流程预测模型对所述案件样本数据进行预测,得到所述案件审查流程。
35.可选的,上述数据处理方法中,所述案件审查流程预测模型包括至少一个算法模型。
36.可选的,上述数据处理方法中,所述算法模型包括以下至少一项:
37.逻辑回归、随机森林、bagging、adaboost、投票模型、神经网络、堆栈模型、梯度提升、多项式贝叶斯、gbdt算法、xgboost算法、lightgbm算法和支持向量机。
38.本发明提供一种数据处理系统,所述数据处理系统包括:
39.第一获取模块,用于获取待分配案件;
40.预测模块,用于调用预测模型对所述待分配案件进行预测,得到所述待分配案件的工作量;
41.第一确定模块,用于确定与所述待分配案件的类型对应的办案人员;
42.第二获取模块,用于获取所述办案人员手头已有案件的工作量;
43.分配模块,用于基于所述待分配案件的工作量以及所述办案人员手头已有案件的工作量进行案件分配。
44.可选的,所述数据处理系统还包括:
45.第一建立模块,用于基于案件样本数据对算法模型进行训练,建立所述预测模型。
46.可选的,上述数据处理系统中,
47.所述数据处理系统还包括:
48.第三获取模块,用于获取所述案件样本数据的元数据;
49.第二确定模块,用于根据所述元数据,确定用于建模的算法模型。
50.可选的,所述数据处理系统还包括:
51.第四获取模块,用于获取案件样本数据;
52.预处理模块,用于对所述案件样本数据进行预处理,得到目标案件数据;
53.分析模块,用于使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果。
54.可选的,所述数据处理系统还包括:
55.筛选模块,用于基于特征重要性结果对所述目标案件数据进行特征筛选,得到所述预测模型的目标特征变量。
56.可选的,所述分析模块具体用于:
57.根据所述预测模型的类型确定特征重要性分析方法;
58.使用所述特征重要性分析方法对所述目标案件数据的各个特征变量进行重要分析,得到所述各个特征变量的重要性度量值。
59.可选的,上述数据处理系统中,所述筛选模块具体用于:
60.基于所述各个特征变量的重要性度量值对所述各个特征变量进行筛选,得到用于建立所述预测模型的目标特征变量。
61.可选的,上述数据处理系统中,所述预处理模块包括:
62.第一确定子模块,用于基于案件信息以及业务等级代码的预设对应关系确定所述案件样本数据中各个特征变量的业务等级代码;
63.合并子模块,用于基于所述业务等级代码对所述各个特征变量进行合并,得到所述目标案件数据。
64.可选的,上述数据处理系统中,所述特征重要性分析方法包括以下至少一项:信息值、互信息、卡方检验、方差分析、随机森林、皮尔森相关系数法、极端树特征选择法和递归特征消除法。
65.可选的,上述数据处理系统中,所述预处理还包括以下至少一项:
66.数据去重、数据异常值处理、数据缺失值处理、数据唯一值处理。
67.可选的,上述数据处理系统中,所述第一建立模块包括:
68.第二确定子模块,用于基于所述案件样本数据确定案件审查流程;
69.建立子模块,用于基于所述案件样本数据以及所述案件审查流程,建立所述预测模型。
70.可选的,上述数据处理系统中,所述第二确定子模块具体用于:
71.调用预先建立的案件审查流程预测模型对所述案件样本数据进行预测,得到所述案件审查流程。
72.可选的,上述数据处理系统中,所述案件审查流程预测模型包括至少一个算法模型。
73.可选的,上述数据处理系统中,所述算法模型包括以下至少一项:
74.逻辑回归、随机森林、bagging、adaboost、投票模型、神经网络、堆栈模型、梯度提升、多项式贝叶斯、gbdt算法、xgboost算法、lightgbm算法和支持向量机。
75.本发明还提供一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的数据处理方法的步骤。
76.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
77.本发明实施例使用机器学习算法,预测新案件的办理时长,合理地、科学地对新案件进行分配,避免案件处于积压状态,以提高办案效能,提升办案人员利用率,解决了办案人员工作量难以科学自动评估的问题。本发明实施例中,通过深层次探索,分析历史案件的案件信息,找到影响案件工作量的多个关键因素,从而降低数据处理量,提高后续数据处理效率,缩短模型训练周期。
附图说明
78.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图简单介绍。显而易见地,下述附图仅代表本发明的部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,可根据下述附图获取其他附图。
79.图1是本发明实施例提供的一种数据处理方法的流程图;
80.图2是本发明实施例提供的一种预测模型建立的流程图;
81.图3是本发明实施例提供的一种数据处理系统的结构框图。
具体实施方式
82.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案清楚、完整地描述。显然,下述实施例仅代表本发明部分实施例,而不是全部。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下获取的所有其他实施例,皆处于本发明保护的范围。
83.图1是本发明实施例的数据处理流程图,所述数据处理方法应用于数据处理系统。如图1所示,所述数据处理方法包括以下步骤:
84.步骤101,获取待分配案件。
85.所述待分配案件的案件信息包括:案件基本信息、涉案人员基本信息、审查起诉信息和卷宗信息。
86.步骤102,调用预测模型对所述案件数据进行预测,得到所述待分配案件的工作量。
87.具体的,调用已经建立的预测模型对步骤101中获取的待分配案件进行工作量预测,获得待分配案件的工作量。
88.可选的,所述获取案件的案件数据的步骤101之前,所述方法还包括:
89.基于案件样本数据对算法模型进行训练,建立所述预测模型。
90.进一步的,为了简化用户操作,降低用户的使用门槛,本发明实施例提供了可以实
现自动确定用于建模的算法模型的数据处理方法,即机器学习算法的选择,可以基于样本数据的元数据进行确定,具体包括:获取所述案件样本数据的元数据;根据所述元数据,确定用于建模的算法模型,从而使用案件样本数据对确定出的算法模型进行训练,建立所述预测模型。其中,样本数据的元数据包括但不限于:样本个数、变量种类数、变量是否离散。
91.所述算法模型包括:逻辑回归、随机森林、bagging、adaboost、投票模型、神经网络、堆栈模型、梯度提升、多项式贝叶斯、gbdt算法、xgboost算法、lightgbm算法和支持向量机。
92.其中,案件样本数据源包括但不限于:案件基本信息表、涉案人员基本信息表、审查起诉表、受理日志表、卷宗信息。
93.在建立模型之前,通常需要对案件样本数据进行预处理,将数据统一化,以便于建模。另外,案件信息中涉及变量较多,不同变量对模型性能的影响是不同的,通过特征重要性分析挖掘并选择出重要的特征,能够提高模型训练效率以及模型准确性。
94.可选的,在所述基于案件样本数据对算法模型进行训练,建立所述预测模的步骤之前,所述方法还包括:
95.获取案件样本数据;
96.对所述案件样本数据进行预处理,得到目标案件数据;
97.使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果。
98.所述使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果的步骤包括:
99.根据所述预测模型的类型确定特征重要性分析方法;
100.使用所述特征重要性分析方法对所述目标案件数据的各个特征变量进行重要分析,得到所述各个特征变量的重要性度量值。
101.具体的,在本发明实施例中,特征重要性分析方法包括:iv值(informationvalue,信息值)、mi值(mutual information,互信息)、卡方检验、方差分析、随机森林、皮尔森相关系数法、极端树特征选择法、递归特征消除法等。
102.在分类模型中,iv值是衡量自变量对因变量的预测能力大小。iv值的作用是在构建分类模型时对特征进行筛选。特征的iv值越大,该特征对因变量的重要性就越大。
103.在回归模型中,mi值是衡量自变量对因变量的预测能力大小。当在构建回归模型时,可以用mi值对特征进行筛选。特征的mi值越大,该特征对因变量的重要性就越大。
104.卡方检验是以卡方分布为基础的假设检验方法,用于对分类变量进行特征筛选方法。本发明中卡方检验通过计算自变量与目标变量间的卡方统计量,保留卡方值相对较大的变量。
105.皮尔森相关系数,也称皮尔森积矩相关系数(pearson product-momentcorrelation coefficient),是一种线性相关系数。皮尔森相关系数反映两个变量线性相关程度。
106.方差分析有称为“变异数分析”或“f检验”,它是一种在零假设(nullhypothesis,h0)之下,统计值服从f-分布的检验。其主要用于回归模型中,用于分析各个变量对于母体的影响。
107.随机森林是非常流行的方法,易于使用,不需要特征工程、调参等繁琐的步骤。
108.极端树特征选择法是基于训练好的机器学习模型,通过特征重要性筛选变量。
109.递归特征消除法(recursive feature elimination)是基于算法输出的变量系数或者特征重要性,删除重要性小的变量;得到结果后再重复进行拟合删除。
110.具体的,本发明实施例中,先根据待预测的内容确定模型的类型,然后基于模型类型,确定特征重要性分析方法。如果待预测内容为案件是否退查,那么模型应为分类模型,对分类模型使用的特征重要性分析方法为iv值;如果待预测内容为案件工作量,模型应为回归模型,对回归模型使用的特征重要性分析方法为mi值。
111.可选的,所述使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果的步骤之后,所述方法还包括:
112.基于特征重要性结果对所述目标案件数据进行特征筛选,得到所述预测模型的目标特征变量。
113.所述基于特征重要性结果对所述目标案件数据进行特征筛选,得到所述预测模型的目标特征变量的步骤包括:
114.基于所述各个特征变量的重要性度量值对所述各个特征变量进行筛选,得到用于建立所述的预测模型的目标特征变量。
115.基于特征分析结果,从经过业务分析和数据预处理后的数据中筛选出对案件工作量预测影响重要的特征变量,分别得到所述预测模型的目标特征变量,即得到输入到模型中的最终样本。
116.进一步的,用于建立模型的样本数据的质量,决定了建立的模型的性能上限。在建立模型之前,需要先对样本数据进行预处理。
117.其中,所述预处理包括以下至少一项:数据去重、数据异常值处理、数据缺失值处理、数据唯一值处理和数据分类合并处理。
118.可选的,所述对案件样本数据进行预处理,得到目标案件数据的步骤包括:
119.基于案件信息以及业务等级代码的预设对应关系确定所述案件样本数据中各个特征变量的业务等级代码;
120.基于所述业务等级代码对所述各个特征变量进行合并,得到所述目标案件数据。
121.由于案件信息中涉及的变量较多,且有些变量在案件工作量上相差很小,因此,从模型和业务角度,需要对这些分类变量合并处理,以降低数据处理量,提供后续数据处理效率,以及缩短模型训练周期。具体的,可以基于变量对应的业务等级进行合并分析。其中,业务等级包括不限于学历等级类型、罪名等级类型、社会地位等级等。学历等级类型包括低等、中等、高等学历三个等级。其中,小学、初中、未接受教育、受教育状况不详合并低等学历;职高、高中、技校、中专、高职合并为中等学历;专科毕业、大学本科、硕士研究生、博士研究生合并为高等学历。社会地位等级包括公务身份、无业、工人、农民。每一个变量对应一个业务等级代码。具体的,系统根据案件信息以及业务代码等级列表,确定各个变量对应的业务等级代码,从而基于各个变量对应的业务等级代码,确定需要进行合并的变量。例如,比如未接受教育这个等级的代码是 a0001,小学是a00002,硕士是b0001等,根据这个业务等级代码,系统会把涉案人员的受教育状况为未接受教育、小学等合并为低等学历。在对样本数据进行预处理之前,样本数共62478条,总变量数共310个。
122.其中,数据异常值处理包括异常值检测与剔除。一组测量值中,与平均值的偏差超过两倍标准差的测量值通常被称为异常值;与平均值的偏差超过三倍标准差的测定值,被称为高度异常值。在处理数据时,应剔除高度异常值。异常值检测可以采用下述至少之一:箱形图、直方分布图、卡方检验、方差分析等。例如,对年龄变量做异常值处理:涉案人员年龄》80或者年龄《10岁为高度异常值,应剔除这些数据,这样的数据为33条。数据缺失值处理包括缺失值删除或填充,例如,对于缺失率大于50%的变量,进行删除,对于缺失率小于或等于 50%的变量,进行缺失值填充处理。按照变量类型,数值型变量使用平均值,分类型变量使用众数填充。数据唯一值处理处理包括:剔除值唯一的变量,例如唯一值处理剔除的变量有:是否交办案件、羁押预警状态。
123.首先,对样本数据进行去重,并剔除变量中的异常值。例如剔除年龄变量中大于80岁或者小于10岁的值,办理时长超过222天的值,卷宗册数超过500 册的值,这样的数据共有为72条。异常值处理汇总如表1所示:
124.表1
[0125][0126]
数据缺失处理:对于缺失率大于50%的变量,进行剔除。
[0127]
数据唯一值处理:若变量的值只有一个,那么将变量进行剔除。唯一值处理的变量包括:是否交办案件、羁押预警状态。
[0128]
数据分类合并处理:对涉案人员的受教育程度,进行分类变量合并处理,把小学、初中、未接受教育、受教育状况不详归为低等学历。把职高、高中、技校、中专、高职归为中等学历。把专科毕业、大学本科、硕士研究生、博士研究生归为高等学历。合并后,受教育程度与案件工作量的关系如下(表2):
[0129]
表2
[0130]
学历计数平均办理时长(天)低等学历4102644.51中等学历1053753.45高等学历716760.76
[0131]
根据表2案件工作量与学历高低程度是正相关的,学历越高、案件工作量越大。
[0132]
同样,对移送案由变量做合并处理。不同案件的办理时长差别非常大,例如涉及危险驾驶的案件办理时长最短,涉及虚开增值税专用发票、用于骗取出口退税、抵扣税款发票的案件办理时长较长。
[0133]
预处理后,需要对样本数据进行特征重要性分析和相关性分析。
[0134]
所述基于案件样本数据对算法模型进行训练,基于案件数据建立所述预测模型的
步骤包括:
[0135]
基于所述案件样本数据确定案件审查流程;
[0136]
基于所述案件样本数据以及所述案件审查流程,建立所述预测模型。
[0137]
所述基于案件样本数据确定案件审查流程的步骤包括:
[0138]
调用预先建立的案件审查流程预测模型对所述案件样本数据进行预测,得到所述案件审查流程。
[0139]
其中,所述案件审查流程预测模型包括至少一个算法模型。所述审查流程预测模型可以包括延期模型,退查模型等。
[0140]
具体的,基于案件样本数据的案件信息,例如案件基本信息、涉案人员基本信息、审查起诉信息、卷宗信息,确定案件是否延期或者退查。可调用预先建立的延期模型或者退查模型,输入案件样本数据的案件信息,得到案件是否延期或者退查的结果。基于所述案件样本数据以及案件是否延期或者退查,建立所述预测模型。
[0141]
本发明实施例中,对于预测模型,优选采用gbdt、lightgbm、xgboost算法,通过比较各个模型的效果选择最佳模型。
[0142]
需要说明的是,延期模型对应的特征变量以及退查模型对应的特征变量均采用与获取预测模型的目标特征变量相同的方式。延期模型、退查模型是二分类模型,因此优选使用iv值查看特征对因变量的影响程度。通过计算iv值,分析得出移送案由、承办单位等特征对案件是否延期或退查的影响。过去的结果显示案件是否退查、案件是否延期、移送案由这三个特征对案件的办理时长影响很大。
[0143]
使用上述缺失值处理方法,9个缺失值高的变量被剔除。使用唯一值处理方法,2个唯一值变量被剔除。由与对应的数量较少,17个其他变量被剔除。相关性高的变量不能同时进入模型;基于相关性分析,2个变量被剔除。部门受案号、受理日期、办结日期、完成日期、分区列这5个业务变量不会参与模型,也被剔除。使用不同模型得到变量的特征重要性,特征重要性低的变量也被剔除。最终得到的延期模型的变量共8个,得到的退查模型的变量共9个。
[0144]
在得到延期模型的特征变量、退查模型的特征变量之后,分别建立延期模型和退查模型。
[0145]
具体的,建立延期模型的步骤包括:
[0146]
获取所述延期模型对应的特征变量;
[0147]
确定所述延期模型的所述算法模型;
[0148]
基于所述延期模型对应的特征变量以及所述算法模型建立所述延期模型。
[0149]
具体的,建立退查模型的步骤包括:
[0150]
获取所述退查模型对应的特征变量;
[0151]
确定所述退查模型的所述算法模型;
[0152]
基于所述对应的特征变量以及所述算法模型建立所述退查模型。
[0153]
本发明实施例中,对于延期模型、退查模型,优选采用gbdt算法。
[0154]
可选的,具体采用何种算法分别建立延期模型、退查模型以及预测模型,可以对不同的算法进行评估,根据评估结果确定效果最好的算法。
[0155]
gbdt算法比较于其他算法,适合高维数据;能够处理非线性数据;可以灵活处理各
种类型的数据,包括连续和离散型;在相对少的调参时间情况下,预测的准确率也可以比较高。使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如huber损失函数和quantile损失函数。
[0156]
lightgbm算法是基于直方图的决策树算法,能够提高缓存命中率。
[0157]
xgboost算法在计算损失函数时不仅使用到了一阶导数,还使用二阶导数,损失函数结果更精确,并对损失函数增加正则项,以防止过拟合现象,使模型具有更强泛化性。
[0158]
具体的,基于所述案件样本数据以及所述案件审查流程,建立所述预测模型如图2所示:
[0159]
根据与案件基本信息、涉案人员基本信息、审查起诉信息和卷宗信息对应的案件样本数据、延期模型以及退查模型,建立预测模型,从而预测案件的工作量。
[0160]
可选的,退查模型、延期模型,模型输出可以为pkl文件,供预测模型进行调用。预测模型输出可以为pkl文件,供数据处理系统调用。
[0161]
本发明实施例中,通过深层次探索、分析历史案件的案件信息,依据科学找到了影响案件工作量的多个关键因素,从而降低数据处理量,提高后续数据处理效率缩短模型训练周期。
[0162]
步骤103,确定与所述待分配案件的类型对应的办案人员。
[0163]
具体的,获取待分配的案件后,先确定该待分配案件的案件类型,是根据案件基本信息表中的移送案由确定案件类型。然后根据案件类型,确定该案件对应的管理部门,例如民事和刑事案件各自分配到专门管理的部门。最后基于案由确定该管理部门中擅长处理此类案件的办案人员。
[0164]
需要说明的是,每个办案人员擅长处理的案件可以基于历史案件信息以及历史案件信息对应的办案人员信息进行数据挖掘,例如根据每个办案人员处理每种案件类型的数量得到办案人员擅长处理的案件信息,并将办案人员擅长处理案件的信息存储到案件分配信息中。
[0165]
步骤104,获取所述办案人员手头已有案件的工作量。
[0166]
对步骤103中的确定办案人员(例如,检察官、法官、律师等),获取各个办案人员手头的工作量。这里可以对各个办案人员手上未结案的案件的工作时长分别进行计算,将计算出的各个未结案的案件的工作时长求和即可得到各个办案人员手头的工作量。
[0167]
步骤105,基于所述待分配案件的工作量以及所述办案人员手头已有案件的工作量进行案件分配。
[0168]
具体的,根据预测出的待分配案件的工作量以及各个所述办案人员手头已有案件的工作量进行案件分配,将该待分配案件分配到目前手头工作量最少的办案人员中,完成分案。
[0169]
本发明实施例使用机器学习算法,预测新案件的办理时长,合理地、科学地对新案件进行分配,避免案件处于积压状态,提高办案效能,提升办案人员利用率,解决了办案人员工作量难以科学自动评估的问题。
[0170]
基于同一发明构思,请参考图3,本发明实施例还提供一种数据处理系统,所述数据处理系统包括:
[0171]
第一获取模块301,用于获取待分配案件;
[0172]
预测模块302,用于调用预测模型对所述待分配案件进行预测,得到所述待分配案件的工作量;
[0173]
第一确定模块303,用于确定与所述待分配案件的类型对应的办案人员;
[0174]
第二获取模块304,用于获取所述办案人员手头已有案件的工作量;
[0175]
分配模块305,用于基于所述待分配案件的工作量以及所述办案人员手头已有案件的工作量进行案件分配。
[0176]
可选的,所述数据处理系统还包括:
[0177]
第一建立模块,用于基于案件样本数据对算法模型进行训练,建立所述预测模型。
[0178]
可选的,所述数据处理系统还包括:
[0179]
第三获取模块,用于获取所述案件样本数据的元数据;
[0180]
第二确定模块,用于根据所述元数据,确定用于建模的算法模型。
[0181]
可选的,所述数据处理系统还包括:
[0182]
第四获取模块,用于获取案件样本数据;
[0183]
预处理模块,用于对所述案件样本数据进行预处理,得到目标案件数据;
[0184]
分析模块,用于使用特征重要性分析方法对所述目标案件数据进行特征重要性分析,得到特征重要性结果。
[0185]
可选的,所述数据处理系统还包括:
[0186]
筛选模块,用于基于特征重要性结果对所述目标案件数据进行特征筛选,得到所述预测模型的目标特征变量。
[0187]
可选的,所述分析模块具体用于:
[0188]
根据所述预测模型的类型确定特征重要性分析方法;
[0189]
使用所述特征重要性分析方法对所述目标案件数据的各个特征变量进行重要分析,得到所述各个特征变量的重要性度量值。
[0190]
可选的,所述筛选模块具体用于:
[0191]
基于所述各个特征变量的重要性度量值对所述各个特征变量进行筛选,得到用于建立所述预测模型的目标特征变量。
[0192]
可选的,所述预处理模块包括:
[0193]
第一确定子模块,用于基于案件信息以及业务等级代码的预设对应关系确定所述案件样本数据中各个特征变量的业务等级代码;
[0194]
合并子模块,用于基于所述业务等级代码对所述各个特征变量进行合并,得到所述目标案件数据。
[0195]
可选的,所述特征重要性分析方法包括以下至少一项:信息值、互信息、卡方检验、方差分析、随机森林、皮尔森相关系数法、极端树特征选择法和递归特征消除法。
[0196]
可选的,所述预处理还包括以下至少一项:
[0197]
数据去重、数据异常值处理、数据缺失值处理、数据唯一值处理。
[0198]
可选的,所述第一建立模块包括:
[0199]
第二确定子模块,用于基于所述案件样本数据确定案件审查流程;
[0200]
建立子模块,用于基于所述案件样本数据以及所述案件审查流程,建立所述预测模型。
[0201]
可选的,所述第二确定子模块具体用于:
[0202]
调用预先建立的案件审查流程预测模型对所述案件样本数据进行预测,得到所述案件审查流程。
[0203]
可选的,所述案件审查流程预测模型包括至少一个算法模型。
[0204]
可选的,所述算法模型包括以下至少一项:
[0205]
逻辑回归、随机森林、bagging、adaboost、投票模型、神经网络、堆栈模型、梯度提升、多项式贝叶斯、gbdt算法、xgboost算法、lightgbm算法和支持向量机。
[0206]
本发明实施例提供一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述实施例所述的数据处理方法的步骤。
[0207]
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的数据处理方法的步骤。
[0208]
本发明实施例还提供一种可读存储介质,可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0209]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0210]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0211]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1