数据的预测方法、装置、电子设备及计算机可读介质与流程

文档序号:30760561发布日期:2022-07-15 20:45阅读:76来源:国知局
数据的预测方法、装置、电子设备及计算机可读介质与流程

1.本公开涉及数据处理技术领域,具体而言,涉及一种数据的预测方法、数据的预测装置、电子设备及计算机可读介质。


背景技术:

2.在医疗、保险等相关的领域中,经常需要根据一些已有的信息来对医疗数据或保险数据等进行预测。
3.而现有的方法中,一般都是以经验数据为基础进行预测,由于考虑的因素不够全面,预测的结果往往也不够准确。
4.鉴于此,本领域亟需一种能够提高预测准确度的数据的预测方法。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开的目的在于提供一种数据的预测方法、数据的预测装置、电子设备及计算机可读介质,进而至少在一定程度上提高数据预测结果的准确度。
7.根据本公开的第一个方面,提供一种数据的预测方法,包括:
8.获取预测对象的特征变量;
9.将所述预测对象的特征变量输入预先训练的分类模型中,得到所述预测对象关于预设特殊事件的事件发生概率;
10.将所述预测对象的特征变量输入预先训练的数据预测模型中,得到所述预测对象在发生所述预设特殊事件之后所产生的相关数据的预测值;
11.根据所述事件发生概率和所述相关数据的预测值,得到所述预测对象关于所述预设特殊事件的相关保障数据的预测值。
12.在本公开的一种示例性实施例中,所述分类模型的训练方法包括:
13.从样本数据库中获取训练样本,并根据所述训练样本的样本事件类型,以及所述训练样本对应的特征变量,构建所述分类模型的训练样本集;
14.根据所述训练样本集中所述训练样本对应的特征变量得到自变量,将所述样本事件类型作为因变量,根据所述训练样本集训练所述分类模型。
15.在本公开的一种示例性实施例中,所述从样本数据库中获取训练样本,包括:
16.获取训练所述分类模型所需的所述特征变量的变量名称;
17.从所述样本数据库中获取样本对象,并根据所述变量名称获取所述样本对象的特征变量;
18.根据所述样本对象的各个特征变量对应的预设筛选条件,对所述样本对象进行过滤,得到训练样本。
19.在本公开的一种示例性实施例中,在对所述样本对象进行过滤之后,所述方法还
包括:
20.从所述变量名称中确定一抽样分类变量,并根据所述抽样分类变量对所述样本对象进行分类,得到多个样本对象集合;
21.分别对各个所述样本对象集合中的所述样本对象进行抽样,得到所述训练样本。
22.在本公开的一种示例性实施例中,所述样本数据库包括真实世界数据。
23.在本公开的一种示例性实施例中,所述分类模型包括梯度提升树模型,所述根据所述训练样本集训练所述分类模型,包括:
24.获取所述梯度提升树模型的损失函数,并根据所述损失函数和所述因变量初始化所述梯度提升树模型的学习器;
25.根据所述损失函数以及所述自变量和因变量,得到所述梯度提升树模型的负梯度;
26.根据所述自变量和所述负梯度拟合所述梯度提升树模型的分类回归树,并根据所述分类回归树得到最佳拟合值;
27.根据所述最佳拟合值更新所述学习器,得到所述梯度提升树模型的强学习器,并将所述强学习器作为所述梯度提升树模型的输出。
28.在本公开的一种示例性实施例中,在所述构建所述分类模型的训练样本集之后,所述方法还包括:
29.将所述训练样本集划分为预设数量的训练样本子集;
30.分别将每一所述训练样本子集作为模型测试集,得到预设数量的模型评估结果;
31.根据所述模型评估结果对所述分类模型中的模型参数进行调整。
32.在本公开的一种示例性实施例中,所述数据预测模型的训练方法包括:
33.从样本数据库中获取训练样本,并根据所述训练样本关于所述预设特殊事件的相关数据,以及所述训练样本对应的特征变量,构建所述数据预测模型的训练样本集;
34.对所述数据预测模型的训练样本集进行有放回的重采样,得到多个数据预测训练集,并通过多个所述数据预测训练集训练所述数据预测模型。
35.在本公开的一种示例性实施例中,所述根据所述事件发生概率和所述相关数据的预测值,得到所述预测对象关于所述预设特殊事件的相关保障数据的预测值,包括:
36.获取所述预测对象关于所述预设特殊事件的相关数据保障比例;
37.根据所述事件发生概率和所述相关数据的预测值,以及所述相关数据保障比例,得到所述预测对象关于所述预设特殊事件的相关保障数据的预测值。
38.根据本公开的第二方面,提供一种数据的预测装置,包括:
39.特征变量获取模块,用于获取预测对象的特征变量;
40.事件概率预测模块,用于将所述预测对象的特征变量输入预先训练的分类模型中,得到所述预测对象关于预设特殊事件的事件发生概率;
41.相关数据预测模块,用于将所述预测对象的特征变量输入预先训练的数据预测模型中,得到所述预测对象在发生所述预设特殊事件之后所产生的相关数据的预测值;
42.保障数据预测模块,用于根据所述事件发生概率和所述相关数据的预测值,得到所述预测对象关于所述预设特殊事件的相关保障数据的预测值。
43.根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储
所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据的预测方法。
44.根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据的预测方法。
45.本公开示例性实施例可以具有以下有益效果:
46.本公开示例实施方式的数据的预测方法中,通过预先训练的分类模型和数据预测模型,分别得到预测对象关于预设特殊事件的事件发生概率,以及预测对象在发生预设特殊事件之后所产生的相关数据的预测值,进而得到预测对象关于预设特殊事件的相关保障数据的预测值。本公开示例实施方式中的数据的预测方法,首先通过分类模型预测事件发生的概率,然后通过数据预测模型预测事件发生时所产生的相关数据,可以在两个预测模型相结合的基础上,更加全面地考虑到影响事件发生概率和相关数据预测的诸多因素,使数据最终的预测更加准确。
47.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
48.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1示出了本公开示例实施方式的数据的预测方法的流程示意图;
50.图2示出了本公开示例实施方式的分类模型的训练方法的流程示意图;
51.图3示出了本公开示例实施方式的获取训练样本的流程示意图;
52.图4示出了本公开示例实施方式的根据训练样本集训练分类模型的流程示意图;
53.图5示出了本公开示例实施方式的分类模型调参的流程示意图;
54.图6示意性示出了根据本公开的一个具体实施方式的分类模型调参的示意图;
55.图7示出了本公开示例实施方式的数据预测模型的训练方法的流程示意图;
56.图8示出了根据本公开的一个具体实施方式中数据的预测方法的流程示意图;
57.图9示出了本公开示例实施方式的数据的预测装置的框图;
58.图10示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。
具体实施方式
59.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方
法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
60.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
61.在医疗、保险等相关的领域中,经常需要根据一些已有的信息来对医疗数据或保险数据等进行预测。以专病险为例,在一些常用的保险定价方法中,例如,曼切斯特工会法,是根据经验数据反映出的伤病发生率和伤病持续时间,直接求出一系列保险金支付额的精算现值;多状态模型,由固定数目的状态组成,在不同的状态之间有转移的可能性和相应的转移力,利用这些转移力可以进行保单的设计以及保费和准备金的计算。此外,随着大数据的发展,专病险定价所基于的数据可从历史数据向时效性较强的实时数据转换,故据其开展预测与定价更为准确。尤其是医疗保险,在运用行政数据、临床数据、体征数据、个性化数据(如年龄、性别、职业)等大数据后,可为不同人群疾病保障的精算定价提供有力的支持。
62.然而,上述方法在实际应用中还存在一些问题,例如,直接按照经验数据的发生率和费用精算出专病险价格可能会过于片面,可能会忽略影响发生率和费用的诸多因素,使得在变量变化时不能随之调整专病险价格。多状态模型仅刻画状态转移情况,可能会忽略影响疾病状态转移的因素,因此定价对应的场景比较固定,难以反映其他影响因素变化时的价格。另外,由于可能存在数据孤岛,直接运用不同来源的实时数据建立定价模型有较大难度。
63.基于上述问题,本示例实施方式首先提供了一种数据的预测方法,可以用于专病险的定价方法中。参考图1所示,上述数据的预测方法可以包括以下步骤:
64.步骤s110.获取预测对象的特征变量。
65.步骤s120.将预测对象的特征变量输入预先训练的分类模型中,得到预测对象关于预设特殊事件的事件发生概率。
66.步骤s130.将预测对象的特征变量输入预先训练的数据预测模型中,得到预测对象在发生预设特殊事件之后所产生的相关数据的预测值。
67.步骤s140.根据事件发生概率和相关数据的预测值,得到预测对象关于预设特殊事件的相关保障数据的预测值。
68.本公开示例实施方式的数据的预测方法中,通过预先训练的分类模型和数据预测模型,分别得到预测对象关于预设特殊事件的事件发生概率,以及预测对象在发生预设特殊事件之后所产生的相关数据的预测值,进而得到预测对象关于预设特殊事件的相关保障数据的预测值。本公开示例实施方式中的数据的预测方法,首先通过分类模型预测事件发生的概率,然后通过数据预测模型预测事件发生时所产生的相关数据,可以在两个预测模型相结合的基础上,更加全面地考虑到影响事件发生概率和相关数据预测的诸多因素,使数据最终的预测更加准确。
69.下面,结合图2至图7对本示例实施方式的上述步骤进行更加详细的说明。
70.在步骤s110中,获取预测对象的特征变量。
71.本示例实施方式中,预测对象指的是需要对其进行相关数据预测的人,例如,对于购买专病险的人,需要对其进行购买专病险价格的预测,则该购买专病险的人即为预测对象。
72.预测对象的特征变量指的是用于预测相关数据所需的预测对象自身的一些属性变量,以专病险为例,预测对象的特征变量一般可以包括性别、年龄、既往疾病、bmi(body mass index,身体质量指数)、生活习惯变量等特征变量,可以作为专病险价格预测的基础数据。
73.在步骤s120中,将预测对象的特征变量输入预先训练的分类模型中,得到预测对象关于预设特殊事件的事件发生概率。
74.本示例实施方式中,分类模型可以根据输入的预测对象的特征变量,判断预测对象是否发生预设特殊事件,以及发生预设特殊事件的概率是多少。例如,分类模型可以根据输入的患者的基础数据和医疗数据等特征变量,判断该患者的疾病发生与否,发生的概率是多少。如图2所示,分类模型的训练方法具体可以包括以下几个步骤:
75.步骤s210.从样本数据库中获取训练样本,并根据训练样本的样本事件类型,以及训练样本对应的特征变量,构建分类模型的训练样本集。
76.本示例实施方式中,训练样本的样本事件类型包括发生预设特殊事件和未发生预设特殊事件这两种类型,以专病险为例,训练样本为患者样本,则样本事件类型包括该患者患有专病险指定疾病或者未患有专病险指定疾病这两种类型,训练样本对应的特征变量,可以包括性别、年龄、既往疾病、bmi(body mass index,身体质量指数)、生活习惯变量等。
77.本示例实施方式中,样本数据库包括真实世界数据。国家药品审评中心将“真实世界研究(real world study,real world research,rwr)”定义为:在真实世界环境下收集与患者有关的rwd(real world data,真实世界数据),通过分析,获得医疗产品的使用价值及潜在获益或风险的临床证据rwe(real world evidence,真实世界证据),主要研究类型是观察性研究,也可以是临床试验。因此,本示例实施方式中,可以根据真实世界数据中的人群构建样本集,由于真实世界数据来自真实的医疗环境,因此可以反映实际诊疗过程和真实条件下的患者健康状况。
78.具体而言,在建立训练样本集之前,需要对真实世界数据进行数据关联、清洗、抽样。以专病险为例,在模型的训练过程中,对真实世界数据中的人群疾病和费用数据进行筛选和抽样,获取具有较好代表性的样本集再进行进一步的数据分析。
79.本示例实施方式中,如图3所示,从样本数据库中获取训练样本,具体可以包括以下几个步骤:
80.步骤s310.获取训练分类模型所需的特征变量的变量名称。
81.以专病险为例,专病治疗数据往往来源于多个数据表,如需要通过诊断表框定满足特定疾病诊断的人群,还需要通过费用明细表和发票表获取医疗费用数据等,因此需要进行数据关联,确定所需的各个变量名称的数据字段,除了性别、年龄、既往疾病等基本数据以外,还可以包括例如诊断结果、缴费金额、收费项目、医保类型等等特征变量。
82.步骤s320.从样本数据库中获取样本对象,并根据变量名称获取样本对象的特征变量。
83.在确定所需的特征变量的变量名称之后,从样本数据库中获取样本对象的同时,
还需要根据已确定的各个变量名称的数据字段,从样本数据库中获取所需的样本对象的特征变量。
84.步骤s330.根据样本对象的各个特征变量对应的预设筛选条件,对样本对象进行过滤,得到训练样本。
85.在进行样本数据的获取之后,由于数据中可能存在一些错误或者不一致的数据项,因此在构建样本集时需要对数据进行清洗过滤。例如,对于检查数据中的逻辑错误,包括不可能的出生日期、收费日期、不一致的住院记录、不合理的收费金额记录等都可剔除。另外,由于存在患者中途放弃治疗、转院等情况,考虑到样本存续时间的一致性,可以在处理数据时增加就诊时间大于观察期等筛选条件,以保证训练样本在观察期内为持续就诊状态。
86.本示例实施方式中,在对样本对象进行数据关联和过滤之后,如果样本量充足,还可以对样本对象进行抽样之后再构建样本集,具体而言,可以从变量名称中确定一抽样分类变量,并根据抽样分类变量对样本对象进行分类,得到多个样本对象集合;分别对各个样本对象集合中的样本对象进行抽样,得到训练样本。例如,可以按照年龄和性别等分类变量对样本对象进行分类,然后通过分层抽样的方法进行抽样。除此之外,也可以采用随机抽样的方法,具体的抽样方法本示例实施方式中不做具体限定。
87.步骤s220.根据训练样本集中训练样本对应的特征变量得到自变量,将样本事件类型作为因变量,根据训练样本集训练分类模型。
88.以专病险为例,在确定训练样本集之后,还需要研究疾病发生和状态转移的规律。本示例实施方式中,可以将一段时间内疾病的发生与否作为因变量,结合医学专家意见通过特征变量建立的影响因子组合作为自变量,比如是否存在相关病史、性别、年龄、bmi等。分类模型即疾病预测模型,可以选取logistic回归、随机森林、gbdt(gradient boosting decision tree,梯度提升决策树)、xgboost(extreme gboosted,高效gbdt)等模型。
89.本示例实施方式中,如图4所示,以gbdt(梯度提升树)模型为例,根据训练样本集训练分类模型,具体可以包括以下几个步骤:
90.步骤s410.获取梯度提升树模型的损失函数,并根据损失函数和因变量初始化梯度提升树模型的学习器。
91.gbdt算法接收的输入为训练样本集x={(x1,y1),(x2,y2),

,(xn,yn)},其中,x表示自变量,y表示因变量,n为样本数量。输出为强学习器f(x)。
92.首先,获取梯度提升树模型的损失函数l,并根据损失函数和因变量初始化梯度提升树模型的学习器:
[0093][0094]
其中,i表示样本的索引标识,c为初始化弱学习器的过程参数。
[0095]
步骤s420.根据损失函数以及自变量和因变量,得到梯度提升树模型的负梯度。
[0096]
对于迭代轮数t=1,2,...,t,以及样本i=1,2,...,n计算梯度提升树模型的负梯度:
[0097][0098]
步骤s430.根据自变量和负梯度拟合梯度提升树模型的分类回归树,并根据分类回归树得到最佳拟合值。
[0099]
利用自变量和负梯度构成的节点(xi,r
ti
)(i=1,2,...,n)拟合一棵cart(classification and regression trees,分类与回归树),其对应的叶子节点区域为r
ti
,j=1,2,...,j,其中j为回归树中的叶子节点的个数。
[0100]
然后,对j=1,2,...,j的叶子区域计算最佳拟合值:
[0101][0102]
步骤s440.根据最佳拟合值更新学习器,得到梯度提升树模型的强学习器,并将强学习器作为梯度提升树模型的输出。
[0103]
根据最佳拟合值更新学习器的方法如下:
[0104][0105]
更新之后,得到的强学习器为:
[0106][0107]
本示例实施方式中,在建模时还需要对模型参数进行优化选择。例如,采用k折交叉验证的方法进行调参,进而提高模型的稳定性。如图5所示,在构建分类模型的训练样本集之后,还可以通过以下几个步骤进行模型参数的优化:
[0108]
步骤s510.将训练样本集划分为预设数量的训练样本子集。
[0109]
对于每一个模型参数组合,假设一共有k种组合,则使用不重复抽样将原始训练样本集随机分为k份训练样本子集。
[0110]
步骤s520.分别将每一训练样本子集作为模型测试集,得到预设数量的模型评估结果。
[0111]
依次将k份训练样本子集中的每一份训练样本子集作为模型测试集,将剩下的k-1份用于模型训练,一共重复k次,得到模型的k个评估结果auci(i=1,2,...,k)。
[0112]
步骤s530.根据模型评估结果对分类模型中的模型参数进行调整。
[0113]
将k次的评估结果auci(i=1,2,...,k)取平均得到最后的评估结果auc,然后选取其中最小的auc对应的参数组合为最优参数组合。
[0114]
如图6所示是根据本公开的一个具体实施方式的分类模型调参的示意图,在图6中,模型参数组合共有9种,因此使用不重复抽样将原始训练样本集随机分为9份训练样本子集,分别将其中的每一份作为模型测试集得到多个评估结果,可以看出,训练样本610得到的模型评估结果auc为90%,为最小的auc评估结果,因此将该训练样本对应的参数组合为最优参数组合。
[0115]
在步骤s130中,将预测对象的特征变量输入预先训练的数据预测模型中,得到预
测对象在发生预设特殊事件之后所产生的相关数据的预测值。
[0116]
本示例实施方式中,预测对象在发生预设特殊事件之后所产生的相关数据,可例如专病患者在患病之后所产生的与治疗专病相关的费用数据。
[0117]
以专病险为例,专病险分为给付型和报销型,不论哪种理赔方式,都需要对专病治疗费用进行研究。一般来说,可以对专病发生后一年内与治疗专病相关的费用进行建模。
[0118]
本示例实施方式中,如图7所示,数据预测模型的训练方法,具体可以包括以下几个步骤:
[0119]
步骤s710.从样本数据库中获取训练样本,并根据训练样本关于预设特殊事件的相关数据,以及训练样本对应的特征变量,构建数据预测模型的训练样本集。
[0120]
以专病险为例,数据预测模型的训练样本集中,与相关数据即费用有关的特征变量一般可以包含性别、年龄、既往疾病、生活习惯变量等。以特征变量作为自变量,以预设特殊事件的相关数据,即与治疗专病相关的费用数据作为因变量,构建数据预测模型的训练样本集。
[0121]
步骤s720.对数据预测模型的训练样本集进行有放回的重采样,得到多个数据预测训练集,并通过多个数据预测训练集训练数据预测模型。
[0122]
本示例实施方式中,可以通过随机森林回归等方式对专病相关费用进行建模。随机森林采用有放回的重采样,得到多个数据预测训练集,并通过数据预测训练集相互独立地并行学习多个弱学习器,如逻辑回归、knn(k-nearestneighbor,k最近邻)、决策树、svm(support vector machine,支持向量机)等等。然后对于预测性问题将回归结果进行平均,得到最终用于样本的预测值。随机森林的拟合过程如下:
[0123]
假如有n个样本,则有放回地随机选择n个样本(每次随机选择一个样本,然后将其放回继续选择)。将选择好了的这n个样本用来训练一个决策树,作为决策树根节点处的样本。当每个样本有m个属性时,在决策树的每个节点需要分裂时,随机从这m个属性中选取出m个属性,满足条件m《《m。然后从这m个属性中采用某种策略(比如信息增益)来选择其中1个属性作为该节点的分裂属性。在决策树形成过程中,每个节点都要按照上述步骤来分裂,一直到不能够再分裂为止。整个决策树形成过程中不进行剪枝。
[0124]
按照上述步骤建立大量的决策树,从而构成随机森林。通过随机森林拟合费用的方法,由于采用了集成算法,精度比大多数单个算法要好。在训练过程中,能够检测到特征数据间的互相影响,且可以得出各个特征数据的重要性,具有一定参考意义,且可解释性较强。
[0125]
在步骤s140中,根据事件发生概率和相关数据的预测值,得到预测对象关于预设特殊事件的相关保障数据的预测值。
[0126]
本示例实施方式中,可以先获取预测对象关于预设特殊事件的相关数据保障比例,再根据事件发生概率和相关数据的预测值,以及相关数据保障比例,得到预测对象关于预设特殊事件的相关保障数据的预测值。
[0127]
以专病险为例,运用分类模型和数据预测模型估计出特定群体的专病发生概率和专病发生后治疗所需的相关费用数据后,可以得到相关保障数据的预测值,即精算专病险价格。例如,短期报销型医疗保险保费为:
[0128][0129]
其中p为保费,q为被保障的事件发生概率,k为保障范围内的平均理赔成本,e为费用附加率,t为安全附加。对于厘定专病险中医疗费用报销保障的费率而言,被保险事故发生率q即为专病发生概率,平均理赔成本k即为与专病相关的个人年度医疗费用的平均理赔成本,可由与专病相关的个人年度医疗费用扣除基本医疗保障统筹基金支付金额再乘以商业保险合同中约定的报销比例,即相关数据保障比例得到。
[0130]
如图8所示是本公开的一个具体实施方式中数据的预测方法的完整流程图,应用于专病险的定价,是对本示例实施方式中的上述步骤的举例说明,该流程图的具体步骤如下:
[0131]
步骤s810.根据真实世界数据抽样并构建样本集。
[0132]
对真实世界数据中的人群构建样本集,抽样。
[0133]
步骤s820.用模型刻画专病发生率。
[0134]
研究样本的状态转移规律,用模型刻画专病发生率。
[0135]
步骤s830.对专病相关费用建模。
[0136]
对专病发生后的医疗费用进行建模。
[0137]
步骤s840.精算专病险价格。
[0138]
结合发生率和费用模型建立定价模型,精算专病险价格。
[0139]
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0140]
进一步的,本公开还提供了一种数据的预测装置。参考图9所示,该数据的预测装置可以包括特征变量获取模块910、事件概率预测模块920、相关数据预测模块930以及保障数据预测模块940。其中:
[0141]
特征变量获取模块910可以用于获取预测对象的特征变量;
[0142]
事件概率预测模块920可以用于将预测对象的特征变量输入预先训练的分类模型中,得到预测对象关于预设特殊事件的事件发生概率;
[0143]
相关数据预测模块930可以用于将预测对象的特征变量输入预先训练的数据预测模型中,得到预测对象在发生预设特殊事件之后所产生的相关数据的预测值;
[0144]
保障数据预测模块940可以用于根据事件发生概率和相关数据的预测值,得到预测对象关于预设特殊事件的相关保障数据的预测值。
[0145]
在本公开的一些示例性实施例中,本公开提供的一种数据的预测装置还可以包括分类模型训练模块,可以包括训练样本集构建单元以及分类模型训练单元。其中:
[0146]
训练样本集构建单元可以用于从样本数据库中获取训练样本,并根据训练样本的样本事件类型,以及训练样本对应的特征变量,构建分类模型的训练样本集;
[0147]
分类模型训练单元可以用于根据训练样本集中训练样本对应的特征变量得到自变量,将样本事件类型作为因变量,根据训练样本集训练分类模型。
[0148]
在本公开的一些示例性实施例中,训练样本集构建单元可以包括变量名称获取单
元、特征变量获取单元以及样本对象过滤单元。其中:
[0149]
变量名称获取单元可以用于获取训练分类模型所需的特征变量的变量名称;
[0150]
特征变量获取单元可以用于从样本数据库中获取样本对象,并根据变量名称获取样本对象的特征变量;
[0151]
样本对象过滤单元可以用于根据样本对象的各个特征变量对应的预设筛选条件,对样本对象进行过滤,得到训练样本。
[0152]
在本公开的一些示例性实施例中,训练样本集构建单元还可以包括样本对象分类单单元以及样本对象抽样单元。其中:
[0153]
样本对象分类单元可以用于从变量名称中确定一抽样分类变量,并根据抽样分类变量对样本对象进行分类,得到多个样本对象集合;
[0154]
样本对象抽样单元可以用于分别对各个样本对象集合中的样本对象进行抽样,得到训练样本。
[0155]
在本公开的一些示例性实施例中,分类模型训练单元可以包括学习器初始化单元、负梯度确定单元、最佳拟合值确定单元以及强学习器输出单元。其中:
[0156]
学习器初始化单元可以用于获取梯度提升树模型的损失函数,并根据损失函数和因变量初始化梯度提升树模型的学习器;
[0157]
负梯度确定单元可以用于根据损失函数以及自变量和因变量,得到梯度提升树模型的负梯度;
[0158]
最佳拟合值确定单元可以用于根据自变量和负梯度拟合梯度提升树模型的分类回归树,并根据分类回归树得到最佳拟合值;
[0159]
强学习器输出单元可以用于根据最佳拟合值更新学习器,得到梯度提升树模型的强学习器,并将强学习器作为梯度提升树模型的输出。
[0160]
在本公开的一些示例性实施例中,分类模型训练单元还可以包括训练样本集划分单元、模型评估结果确定单元以及模型参数调整单元。其中:
[0161]
训练样本集划分单元可以用于将训练样本集划分为预设数量的训练样本子集;
[0162]
模型评估结果确定单元可以用于分别将每一训练样本子集作为模型测试集,得到预设数量的模型评估结果;
[0163]
模型参数调整单元可以用于根据模型评估结果对分类模型中的模型参数进行调整。
[0164]
在本公开的一些示例性实施例中,本公开提供的一种数据的预测装置还可以包括数据预测模型训练模块,可以包括训练样本集构建单元以及数据预测模型训练单元。其中:
[0165]
训练样本集构建单元可以用于从样本数据库中获取训练样本,并根据训练样本关于预设特殊事件的相关数据,以及训练样本对应的特征变量,构建数据预测模型的训练样本集;
[0166]
数据预测模型训练单元可以用于对数据预测模型的训练样本集进行有放回的重采样,得到多个数据预测训练集,并通过多个数据预测训练集训练数据预测模型。
[0167]
在本公开的一些示例性实施例中,保障数据预测模块940可以包括保障比例获取单元以及保障数据预测单元。其中:
[0168]
保障比例获取单元可以用于获取预测对象关于预设特殊事件的相关数据保障比
例;
[0169]
保障数据预测单元可以用于根据事件发生概率和相关数据的预测值,以及相关数据保障比例,得到预测对象关于预设特殊事件的相关保障数据的预测值。
[0170]
上述数据的预测装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明,此处不再赘述。
[0171]
图10示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
[0172]
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0173]
如图10所示,计算机系统1000包括中央处理单元(cpu)1001,其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram 1003中,还存储有系统操作所需的各种程序和数据。cpu1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0174]
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0175]
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的系统中限定的各种功能。
[0176]
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述
的任意合适的组合。
[0177]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0178]
作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
[0179]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
[0180]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
[0181]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1