模型生成方法、装置、电子设备及存储介质与流程

文档序号:29949188发布日期:2022-05-07 17:28阅读:79来源:国知局
模型生成方法、装置、电子设备及存储介质与流程

1.本公开涉及计算机技术领域,尤其涉及深度学习等人工智能等技术领域,具体涉及一种模型生成方法、装置、电子设备及存储介质。


背景技术:

2.随着计算机技术的发展,人工智能技术也飞速发展。出现深度学习模型、机器学习模型等。这些模型能够根据输入的数据,进行某些数据的预测。由于模型可处理的数据类型广泛,因此可应用于各种场景。一般情况下,模型生成时,首要要求是预测效果准确,从而大部分模型生成或训练过程也以此为标准。但是仅具有预测效果准确的特点,仍然难以满足某些特殊场景下的预测要求,需要对模型进行进一步优化,使得模型在这些特殊场景下具有更优的综合效果。


技术实现要素:

3.本公开提供了一种模型生成方法、装置、电子设备及存储介质。
4.根据本公开的第一方面,提供了一种模型生成方法,包括:确定样本中的多个属性分别对目标模型的稳定性影响程度;根据所述稳定性影响程度,从所述多个属性中确定目标属性;根据所述样本中的所述目标属性,对所述目标模型进行优化,生成优化后的目标模型。
5.根据本公开的第二方面,提供了一种模型生成装置,包括:影响程度确定模块,用于确定样本中的多个属性分别对目标模型的稳定性影响程度;选取模块,用于根据所述稳定性影响程度,从所述多个属性中确定目标属性;优化模块,用于根据所述样本中的所述目标属性,对所述目标模型进行优化,生成优化后的目标模型。
6.根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面的方法。
7.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行前述方法。
8.根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法。
9.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
10.本实施例提供的方案,根据属性对目标模型的稳定性影响程度,选择目标属性,根据目标属性生成优化后的目标模型,从而能够提高目标模型的稳定性,使得目标模型能够适用于对模型稳定性要求较高的场景。
附图说明
11.附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开一实施例的模型生成方法的流程示意图;图2a和图2b是根据本公开一实施例的模型生成方法中的单属性的内容的稳定性评估示例的示意图;图3是根据本公开另一实施例的模型生成方法中的评估流程示意图;图4a和图4b是根据本公开另一实施例的决策树组成结构示意图;图5是根据本公开一实施例的模型生成装置的一种组成结构示意图;图6是根据本公开一实施例的模型生成装置的另一种组成结构示意图;图7是用来实现本公开实施例的模型生成方法的电子设备的框图。
具体实施方式
12.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
13.本公开第一方面实施例提供一种模型生成方法,如图1所示,包括:步骤s101:确定样本中的多个属性分别对目标模型的稳定性影响程度;步骤s102:根据所述稳定性影响程度,从所述多个属性中确定目标属性;步骤s103:根据所述样本中的所述目标属性,对所述目标模型进行优化,生成优化后的目标模型。
14.上述样本的数量可以为一个或多个,比如可以是一个或多个样本集中,每个样本集包含的一个或多个样本;其中,每一个样本可以是实物、虚拟物、虚拟信息、生物等任意之一。
15.在样本不同的情况下,样本所包含的多个属性可能不同。比如,样本为动物的情况下,多个属性可以包括动物的体重、毛发颜色、高度等。再如,样本为植物的情况下,多个属性可以包括植物的高度、果实生长状况、枝干粗细等。再如,样本为人的情况下,多个属性可以包括人的身高、年龄、性别、年收入、职业等。再如,样本为网络新闻的情况下,多个属性可以包括网络新闻的文本长度、图片数量、图片清晰度、标题清晰度、文本流畅性等。
16.在一种可能的实现方式中,样本中的多个属性分别对目标模型的稳定性影响程度,可以包括任意一个属性本身对目标模型的结构稳定性的影响程度,和任意一个属性对目标模型的输出结果稳定性的影响程度中至少之一。
17.目标模型可以是未训练的模型,也可以是经过一定的训练过程而得到的模型。
18.在一种可能的实现方式中,确定样本中的多个属性分别对目标模型的稳定性影响程度,可以是将样本中的多个属性中各属性分别作为目标模型的输入数据,得到各属性分
别对应的输出结果,基于各属性分别对应的输出结果得到属性对目标模型的稳定性的影响程度。
19.再进一步地,所述将样本中的多个属性中各项属性分别作为目标模型的输入数据,得到各属性分别对应的输出结果,可以是将样本中的多个属性中第i个属性的不同内容分别作为目标模型的输入数据,得到第i个属性的不同内容分别对应的输出结果;其中,第i个属性为所述多个属性中任意之一,i为大于等于1的整数。
20.所述输出结果的稳定性具体可以指的是:所述输出结果的准确性是否稳定。
21.比如,样本中(比如一个样本集中的一个或多个样本)存在多个属性a、b、c、d,将属性a作为第i个属性,仅将该属性a的不同内容(即属性a的内容发生变化)作为目标模型的输入数据,得到目标模型输出的不同的输出结果,基于该不同的输出结果的准确性是否稳定,确定属性a对目标模型的影响程度。另外,针对属性b、c、d也可以依次采用同样的方法进行影响程度的判断。
22.再如,样本中(比如一个样本集中的一个或多个样本)存在多个属性a、b、c、d,将属性a作为第i个属性,将该属性a的不同内容(即属性a的内容发生变化)以及其他属性的不变的内容(即属性b、c、d的内容不变)共同作为目标模型的输入数据,得到目标模型输出的不同的输出结果,基于该不同的输出结果的准确性是否稳定,确定属性a对目标模型的影响程度。另外,针对属性b、c、d也可以依次采用同样的方法进行影响程度的判断。
23.再如,样本中(比如一个样本集中的一个或多个样本)存在多个属性a、b、c、d,将属性a作为第i个属性,判断a的内容发生变化,其它目标属性的内容不发生变化的情况下(即属性a的内容发生变化),是否对目标模型的结构稳定性存在影响,进而确定属性a对目标模型的影响程度。对属性b、c、d依次采用同样的方法进行影响程度的判断。
24.所述稳定性影响程度,可以是一个具体的数值或比值,比如可以是[0,100%]区间内的任意比值。相应的,上述根据所述稳定性影响程度,从所述多个属性中确定目标属性,可以是从多个属性中,选取稳定性影响程度低于预设稳定性门限值的属性作为目标属性。其中,所述预设稳定性门限值可以根据实际情况设置,比如可以是30%,或者可以是50%,或更低或更高,这里不做穷举。
[0025]
在多种能够使用模型进行信息处理或信息预测的场景中,并未均一味要求部署的模型具有更高的信息处理或预测准确性,某些场景下,由于被预测数据的重要性,可能需要部署的模型具有较高的稳定性。本实施例提供的模型生成方法,能够根据属性对目标模型的稳定性影响程度,选择目标属性,根据目标属性生成优化后的目标模型,从而能够提高目标模型的稳定性,使得目标模型能够适用于对模型稳定性要求较高的场景。
[0026]
在一种实施方式中,所述确定样本中的多个属性分别对目标模型的稳定性影响程度,包括:确定所述样本中的所述多个属性的内容的稳定性;根据所述多个属性的内容的稳定性,确定所述多个属性分别对所述目标模型的稳定性影响程度。
[0027]
上述多个属性中每个属性的内容,可以是属性的数值、文字等内容。比如,任意一个属性为新闻标题时,该属性的内容可以为新闻标题的文字内容。再如,任意一个属性为某指数时,该属性的内容可以为指数的数值。再如,任意一个属性为职业时,该属性的内容可
以为职业的文字表达,或者职业对应的编码数值。
[0028]
确定所述样本中的所述多个属性的内容的稳定性,可以是:确定所述样本中的所述多个属性中各个属性的内容在不同样本中的分布是否稳定。
[0029]
一般情况下,属性的内容随着样本的变化具有一定的预设分布规律的情况下,属性作为目标模型的输入数据时,对目标模型的稳定性不会造成影响,即不会改变目标模型输入结果的准确率。相应的,上述各个属性的内容在不同样本中的分布是否稳定,可以是:基于各个属性的内容在不同样本中的分布规律,判断各个属性的内容在不同样本中的分布是否稳定。
[0030]
比如,可以是在各个属性的内容在不同样本中的分布规律符合预设分布规律的情况下,确定该属性的内容在不同样本中的分布稳定;反之,则确定该属性的内容在不同样本中的分布不稳定。
[0031]
比如,属性a为性别,样本为随机选择的人群,也就是需要确定性别为男或女,在上述随机选择的人群中的出现概率是否存在预设分布规律,若存在,则属性a的内容在不同样本中的分布稳定。
[0032]
结合金融风控场景来说,在传统的属性分析过程中,主要会对属性(即特征)的中位数、众数、极值、均值、方差和分位数特征分布情况进行统计,观察属性(即特征)的内容的分布情况和集中情况,在金融风控领域则会使用ks(kolmogorov-smirnov,柯尔莫哥洛夫-斯米洛夫)值、iv(信息价值,information value)值、woe(weight of evidence,证据权重)值随样本变化的趋势是否存在线性关系进行属性(即特征)的内容的稳定性评估,线性关系越强的特征,效果越好。
[0033]
本示例中,对多个属性中的任意一个属性(或特征)在不同样本上的表现进行了更为细致的分析。由于任意一个属性的构造方式和构造特征使用的数据的稳定性(通过覆盖率考察),该属性在训练样本(或称为样本)上具有的区分度可能会随着时间发生较大的波动,则该属性(或特征)会对目标模型的稳定性造成极大的影响,也就是对所述目标模型的稳定性影响程度较大,需要剔除该属性,而保留其他属性即将其他属性作为前述目标属性。
[0034]
本实施例中,能够根据属性内容的稳定性,确定所述多个属性分别对所述目标模型的稳定性影响程度,从而能够筛选出不稳定的属性,防止优化后的目标模型不稳定。
[0035]
在一种实施方式中,所述确定所述样本中的所述多个属性的内容的稳定性,包括:确定所述多个属性中第i个属性的内容在不同样本中的变化信息;i为大于等于1的整数;根据所述变化信息,确定所述第i个属性的内容的稳定性。
[0036]
其中,第i个属性为多个属性中任意之一。
[0037]
具体的,第i个属性在样本维度,可以从两个方面考察属性的稳定性:第一方面,考察第i个属性在不同样本集上的分布和效果的稳定性。
[0038]
确定所述多个属性中第i个属性的内容在不同样本中的变化信息,可以是:确定所述多个属性中第i个属性的内容在不同样本集中的不同样本中的变化信息。相应的,根据所述变化信息,确定所述第i个属性的内容的稳定性可以是:在所述变化信息为第一预设规律的情况下,确定第i个属性的内容的稳定性为稳定;所述第一预设规律可以为正态分布的规律。
[0039]
比如,第i个属性为考生的成绩的情况下,第i个属性随着样本集的变化呈现出正态分布的规律,则该第i个属性的内容的稳定性为稳定,否则为不稳定。又比如,以第i个属性为年龄为例,可以是确定年龄这个属性在不同样本集上分布是否类似,或者效果在不同样本集上是否类似。
[0040]
示例性的,不同样本集可以包括train(训练)样本集,val(validate,校验)样本集,oot(object-oriented test,面向对象测试)样本集等等。在建立目标模型或优化目标模型的时候,通常会假设train样本集,val样本集,oot样本集是独立同分布的,但是在金融风控场景中上述三个样本集不一定会使用随机采样方式进行拆分(根据客户要求,按照属性去拆分),而是会考虑样本的产生时间和样本的其他属性,因此这就导致了样本的分布可能存在较大的差异,同一属性(或特征)在不同样本(样本集)上的效果也会有较大差异,这些差异在分析阶段也是需要被观测到的。
[0041]
上述train(训练)样本集可以用于对模型进行训练,一般为随机选择样本组合成的。oot(object-oriented test,面向对象测试)样本集用于对训练或优化后的模型进行测试,一般为根据需要的特定类型,选择对应的样本组合形成的。val(validate,校验)样本集可用于对模型进行评估或校验,一般可为随机选择样本组合形成的。
[0042]
第二方面,考察第i个属性随着设定的时间条件的波动情况,也就是考察第i个属性在不同时间点的不同样本中的波动情况。
[0043]
确定所述多个属性中第i个属性的内容在不同样本中的变化信息,可以是在不同时间点的不同样本中的第i个属性的内容的具体的变化规律。
[0044]
根据所述变化信息,确定所述第i个属性的内容的稳定性可以是:在第i个属性的内容的具体的变化规律符合第二预设规律的情况下,可以确定第i个属性的内容的稳定性为稳定。所述第二预设规律例如持续不变、线性变化等。
[0045]
比如可以通过对样本按照月份进行拆分,计算每个月的该第i个属性(或特征)的内容(比如具体指标取值的平均值或最大值或最低值),依次考察该第i个属性在每个月份上的表现是否一致(比如第i个属性的内容的具体的变化规律是否为保持不变,或者是否为否线性变化等),以得到该第i个属性(或特征)的内容的稳定性。
[0046]
本实施例中,根据第i个属性的内容在不同样本中的变化信息,确定第i个属性的内容的稳定性,从而能够排除不规则的属性,提高目标模型的稳定性。
[0047]
进一步地,对任意一个属性(或特征)的评估,主要分为两个部分,下面分别来进行说明:第一部分、对任意一个属性的效果(即属性在预测过程中被需要的程度)进行评价。
[0048]
在一种实施方式中,所述确定所述样本中的所述多个属性的内容的稳定性,包括:确定所述样本中所述多个属性中第i个属性的内容的区分度评估指标;根据所述区分度评估指标,确定所述第i个属性的内容的稳定性。
[0049]
在一种可能的实现方式中,第i个属性的内容为连续型数据,相应的,区分度评估指标可以是ks值。
[0050]
上述连续型数据比如可以是时间、年龄等数字型数据。具体还可以是在所有样本中取值总数量大于经验值(比如10个)的数字型数据。
[0051]
上述ks值由两位苏联数学家a.n. kolmogorov和n.v. smirnov提出。ks值可用于对模型风险区分能力进行评估,衡量的是好坏样本累计分布之间的差值。好坏样本累计差异越大,ks指标越大,那么模型的风险区分能力越强。
[0052]
相应的,根据所述区分度评估指标,确定所述第i个属性的内容的稳定性,可以是,在属性内容的ks值大于第一门限值的情况下,确定所述第i个属性的内容的稳定性为稳定;在ks值不大于第一门限值的情况下,确定所述第i个属性的内容的稳定性为不稳定。所述第一门限值可以根据实际情况设置。
[0053]
在一种可能的实现方式中,第i个属性的内容为非连续型数据,相应的,区分度评估指标可以是iv值。
[0054]
上述非连续型数据,比如可以为性别、职业等类型型数据。上述非连续型数据,还可以是在所有样本中取值总数量少于经验值(比如10个)的数字型数据。
[0055]
上述iv值可以表示属性的稳定性和预测能力。
[0056]
相应的,根据所述区分度评估指标,确定所述第i个属性的内容的稳定性,可以是,在iv值大于第二门限值的情况下,确定所述第i个属性的内容的稳定性为稳定;在iv值不大于第二门限值的情况下,确定所述第i个属性的内容的稳定性为不稳定。所述第二门限值可以根据实际情况设置。
[0057]
在一种可能的实现方式中,第i个属性的内容为非连续型数据,相应的,区分度评估指标还可以是woe值。
[0058]
相应的,根据所述区分度评估指标,确定所述第i个属性的内容的稳定性,可以是,在woe值大于第三门限值的情况下,确定所述第i个属性的内容的稳定性为稳定;在woe值不大于第三门限值的情况下,确定所述第i个属性的内容的稳定性为不稳定。所述第三门限值可以根据实际情况设置。
[0059]
在一种可能的实现方式中,还可以在第i个属性的内容为连续型数据的情况下,通过将所述第i个属性的内容(即连续型数据)进行分箱,转换为非连续型数据,然后采用iv值和/或woe值作为区分度评估指标。
[0060]
也就是说,对任意一个属性的效果(即属性在预测过程中被需要的程度)进行评价中,在宏观方面,主要体现在任意一个属性(或特征)的ks、auc(area under curve,roc曲线下与坐标轴围成的面积)、iv等宏观的区分度评估指标是否稳定,比如,图2a所示,一个属性在不同样本集(train样本集,val样本集,oot样本集)中分别对应的auc、ks值以及iv值的分布特征。其中,roc为接收者操作特征曲线(receiver operating characteristic curve)。在微观方面主要考察任意一个属性(或特征)的内容,比如取值,在每个分箱区间内逾期样本的占比(区间正样本率)在不同样本集上的变化趋势是否一致。比如,在图2b中选择具体属性a的内容进行稳定性判断,可以得知图2b中的属性a在oot样本集上的变化趋势,与其它样本集(如图2b中的train样本集以及val样本集)上的变化趋势相比有明显变化(比如可以是在cover(覆盖率)、miss_badratio(缺失样本逾期率)、cover_badratio(覆盖样本逾期率)、ks值、iv值、auc等指标上均有明显变化),因此该属性a(或特征)为不稳定。
[0061]
本实施例中,能够通过区分度评估指标,确定属性的内容的稳定性,从而能够为生成优化后的目标模型筛选出稳定的目标属性,有利于优化后的目标模型的结构保持稳定。
[0062]
第二部分、任意一个属性(或特征)分布的稳定性。也就是任意一个属性(或特征)
分布的稳定性,可以用于确定该属性的内容稳定性,任意一个属性(或特征)分布的稳定性可以通过覆盖率(cover),覆盖样本逾期率(cover_badratio),缺失样本逾期率(miss_badratio)等来判定任意一个属性的内容的稳定性。
[0063]
在一种实施方式中,所述确定所述样本中的所述多个属性的内容的稳定性,包括:根据所述多个属性中第i个属性对应的正样本以及负样本,确定所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率、未标记负样本率;根据所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率和未标记负样本率,确定所述第i个属性的内容的稳定性。
[0064]
其中,第i个属性对应的标记正样本率、未标记正样本率,可以分别是包含第i个属性的标记样本中的正样本率,以及包含第i个属性的未标记样本中的正样本率。第i个属性对应的标记负样本率、未标记负样本率,可以分别是包含第i个属性的未标记样本中的正样本率,以及包含第i个属性的未标记样本中的负样本率。
[0065]
根据所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率和未标记负样本率,确定所述第i个属性的内容的稳定性可以包括:根据所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率和未标记负样本率,确定所述第i个属性的覆盖率、覆盖样本逾期率,缺失样本逾期率中至少之一;基于所述第i个属性的覆盖率、覆盖样本逾期率,缺失样本逾期率中至少之一,确定所述第i个属性的内容的稳定性。
[0066]
其中,覆盖率的计算方式可以包括:基于标记正样本率与标记负样本率相加得到;覆盖样本逾期率可以基于未标记正样本率和未标记负样本率相加得到。缺失样本逾期率,可以基于标记正样本、未标记正样本、标记负样本和未标记负样本的总和与样本总数相除得到。
[0067]
基于所述第i个属性的覆盖率、覆盖样本逾期率,缺失样本逾期率中至少之一,确定所述第i个属性的内容的稳定性,可以是以下至少之一:在第i个属性的覆盖率低于覆盖率第一门限值的情况下,确定所述第i个属性的内容的稳定性为不稳定;所述覆盖率第一门限值可以根据实际情况设置,比如10%。在第i个属性的覆盖样本逾期率高于覆盖率第二门限值的情况下,确定所述第i个属性的内容的稳定性为不稳定;所述覆盖率第二门限值可以根据实际情况设置,比如80%。在第i个属性的缺失样本逾期率高于覆盖率第三门限值的情况下,确定所述第i个属性的内容的稳定性为不稳定;所述覆盖率第三门限值可以根据实际情况设置,比如80%等等。
[0068]
比如,针对任意的一个给定样本集可以包含多个样本,其中每个样本均具有多个属性。比如,样本集为已知人员的集合,其中每个人员都应当具备年龄、性别、职业、婚姻状况、学历、身高、体重等多个属性。但是在实际情况下,并非每个样本的每种属性都具有明确的内容,比如,给定样本集包含人员d、e、f、g,在构建样本集时,可能因为某些属性的内容的采集难度等客观因素的限制,导致样本集中的个别样本的某个或某几个属性缺失。比如,已知能够通过合法正当的渠道,获得样本集中的样本的年龄、性别、职业、婚姻状况、学历、身高、体重信息。但是针对人员d、e、f、g,d缺失年龄信息,f缺失身高信息。在确定用于确定目标模型输入数据的目标属性时,不会因为个别样本的缺失属性g,而忽略其它样本的属性g的内容。但是也应当考虑到,样本集中缺失属性g的可能性导致目标模型不稳定的可能。
[0069]
因此,本实施例中,通过所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率和未标记负样本率,确定所述第i个属性的内容的稳定性,也就是可以通过第i个属性对应的正负样本覆盖率,确定属性的数据源稳定性。可以避免某些属性极易缺失的情况下,使用该属性作为目标属性而损害优化后的目标模型的稳定性。
[0070]
在本公开一种具体示例中,目标模型生成方法可包括属性分析、优化后的目标模型的评估和优化后的目标模型的解释三个方面(子过程)。以上实施例中,提供了如何确定目标模型的稳定性影响程度,以及根据稳定性影响程度确定目标属性,进而基于样本中的目标属性对目标模型进行优化的属性分析的处理方案。接下来针对目标模型的评估进行说明,在一种实施方式中,模型生成方法还包括:对所述优化后的目标模型进行稳定性评估,得到评估结果;根据所述评估结果,更新所述优化后的目标模型。
[0071]
本实施例中,根据所述评估结果,更新所述优化后的目标模型,可以包括,根据评估结果,对优化后的目标模型进行新一轮的优化,得到新的优化后的目标模型。
[0072]
本实施例中,能够根据稳定性评估的评估结果,对目标模型进行进一步优化,从而能够从评估的角度提高目标模型的稳定性。
[0073]
在一种实施方式中,所述对所述优化后的目标模型进行稳定性评估,得到评估结果,包括:将第j个属性在多个样本的多个内容分别输入所述优化后的目标模型,获得多个输出结果;j为大于等于1的整数;根据所述多个输出结果,确定所述评估结果。
[0074]
上述第j个属性可以为多个属性中任意之一,也就是针对每一个属性都可以执行上述处理,只是不做一一赘述。
[0075]
所述第j个属性在多个样本的多个内容可以是:样本集中包含第j个属性的多个不同对象的样本中的内容;或者,可以是样本集中包含第j个属性的同一个对象的不同时间点中的多个样本中的内容。前述对象可以是指标或者人物,比如可以是同一个人物a在不同时间点的多个样本中的第j个属性的内容。
[0076]
根据所述多个输出结果,确定所述评估结果,具体可以包括:根据所述多个输出结果,确定所述第j个属性对所述优化后的目标模型的稳定性影响程度。
[0077]
进一步地,根据所述多个输出结果,确定所述第j个属性对所述优化后的目标模型的稳定性影响程度,可以是:基于在样本发生变化时第j个属性的内容对应的输出结果是否稳定,来确定所述第j个属性对所述优化后的目标模型的稳定性影响程度。
[0078]
比如,随着样本变化,第j个属性的内容对应的输出结果波动较大,则表明输出结果不稳定,而输出结果不稳定时,导致优化后的目标模型预测准确性的不稳定,则确定所述第j个属性对优化后的目标模型的稳定性影响程度较高,也就是所述第j个属性导致优化后的目标模型的不稳定的可能性较高。
[0079]
再如,随着样本变化,第j个属性的内容对应的输出结果波动较大,则表明输出结果不稳定,而输出结果不稳定时,不会导致优化后的目标模型预测准确性的不稳定,则确定所述第j个属性对优化后的目标模型的稳定性影响程度较低,也就是所述第j个属性导致优化后的目标模型不稳定的可能性较低。
[0080]
再如,随着样本变化,第j个属性的内容对应的输出结果波动较小,则表明输出结
果较为稳定,而输出结果较为稳定时,仍然会导致目标模型预测准确性的不稳定,则确定所述第j个属性对优化后的目标模型的稳定性影响程度较高,也就是所述第j个属性导致优化后的目标模型不稳定的可能性较高。
[0081]
再如,随着样本变化,第j个属性的内容对应的输出结果波动较小,则表明输出结果较为稳定,而输出结果较为稳定时,不会导致优化后的目标模型预测准确性的不稳定,则确定所述第j个属性对优化后的目标模型的稳定性影响程度较低,也就是所述第j个属性导致优化后的目标模型不稳定的可能性较低。
[0082]
在一种实施方式中,所述将所述第j个属性在多个样本的多个内容分别输入所述优化后的目标模型,获得多个输出结果,包括:确定所述第j个属性在多个样本的多个内容对应的多个取值;依次将多个取值输入所述目标模型,得到所述多个输出结果。
[0083]
确定所述第j个属性在多个样本的多个内容对应的多个取值,可以是:在确定所述第j个属性在第k个样本的第k个内容本身为数值的情况下,将第k个内容直接作为取值;在确定所述第j个属性在第k个样本的第k个内容本身不为数值的情况下,将第k个内容转换为向量等取值。k为大于等于1的整数。
[0084]
本实施例中,能够将第j个属性在多个样本的多个内容分别输入所述优化后的目标模型,获得多个输出结果,根据所述多个输出结果,确定所述评估结果,进而基于评估结果来确定属性对优化后的目标模型的稳定性影响程度,以更新优化后的目标模型,从而使得评估更加准确,进而为后续目标模型的更新提供有效的参考。
[0085]
在一种实施方式中,所述对所述优化后的目标模型进行稳定性评估,得到评估结果,如图3所示,包括:步骤s301:利用所述优化后的目标模型,对多个样本进行打分,获得多个分数;步骤s302:根据所述多个分数的取值范围,确定分数划分区间;步骤s303:根据优化后的目标模型在分数划分区间的区分度评估指标,确定待校验区间;步骤s304:根据待校验区间对应的样本的待校验参数值,对所述优化后的目标模型进行稳定性评估,得到评估结果。
[0086]
本实施例中,利用所述优化后的目标模型,对多个样本进行打分,获得多个分数,可以是:利用所述优化后的目标模型,对多个样本进行打分,获得多个样本中每个样本的分数,汇集多个样本的分数,得到多个分数。
[0087]
根据所述多个分数的取值范围,确定分数划分区间,可以是确定最高分和最低分,将最高分和最低分作为总区间,对总区间进行划分得到多个分数划分区间。
[0088]
上述根据优化后的目标模型在各分数划分区间的区分度评估指标,确定待校验区间,可以是将区分度评估指标最优的分数划分区间作为待校验区间。
[0089]
上述待校验参数值,可以是目标模型预计将要应用的场景下的对应指标。
[0090]
对上述实施例进行示例性说明:在模型效果评估过程中,风控模型(即目标模型)属于二分类模型,对于二分类模型的效果评估通常会使用auc、准确率、召回率等指标,在金融风控场景下通常会使用ks值和lift(提升)值作为主要评估指标,即区分度评估指标。
[0091]
在本示例中也可以使用ks值作为主要评估指标(即区分度评估指标),在ks值的基础上进行了改进,引入了分段的ks值评估方式,一般ks值的计算方法是tpr(true positive rate,真阳率)与fpr(false positive rate,假阳率)差的绝对值的最大值max(|tpr

fpr|)。本示例中的真阳率可以为检测出的真正样本数量除以真实的真正样本数量。假阳率可以为检测出的假正样本数量除以真实的假正样本数量。通过ks值,可以反应目标模型的最优分类效果,此时所取的属性的阈值一般作为最优阈值。
[0092]
这种方式可以评估一个模型在整体评估样本上对好坏用户(好用户对应正样本、坏用户对应负样本)的最大区分能力。但是贷前风控模型(目标模型)的使用场景是从信用评分最高的用户中选择固定比例的用户进行放款高,例如某银行的贷前准入通过率固定为10%, 那么最终影响风控效果的是模型对于前10%用户的区分能力,而对于后90%的用户区分能力再好也起不到作用,而ks值计算的是对全部用户的区分能力,因此存在有的目标模型的ks值高,实际使用时却发现放款用户的逾期率反而升高了。因此本示例中,引入了更为直观的ks矩阵(如表1所示)和通过放款率对应表(如表2所示)对模型进行评估。
[0093]
在表1的ks矩阵中,第一行的a列为阈值,b列为评分区间,c列为订单数,d列为逾期数,e列为正常用户数,f列为百分比,g列为区间逾期率,h列为通过百分比,i列为通过逾期率,j列为累计坏账户占比,k列为累计好账户占比,n列为ks值。
abcdef(%)g(%)h(%)i(%)j(%)k(%)n(%)0.0[0.0,825.3]4579359422010.007.84100.03.8020.629.5811.04825.3[825.3,856.7]4578241433710.005.2690.003.3534.4619.4315.03856.7[856.7,872.8]4578207437110.004.5280.003.1246.3529.3616.99872.8[872.8,885.3]4578214436410.004.6769.992.9258.6439.2719.37885.3[885.3,896.9]4578166441210.003.6359.992.6368.1849.2918.89896.9[896.9,909.1]4578163441510.003.5649.992.4277.5459.3218.22909.1[909.1,921.9]4578129444910.002.8239.992.1484.9569.4215.53921.9[921.9,936.8]4578109446910.002.3829.991.9191.2179.5711.64936.8[936.8,954.6]457899447910.002.1619.991.6796.9089.757.15954.6[954.6,1000]45695444159.981.189.981.18100.00100.000.00
[0094]
表1阈值(小于等于)通过率通过样本逾期率0.370.5308320.1826450.3690.5267460.1815940.3680.5222880.1820770.367000000000000050.5172370.1813290.3660.5124440.180863000000000020.3650.50780100000000010.180688000000000020.3640.5031580.179771000000000010.3630.4494430.1792490.362000000000000040.496656999999999960.1787580.3610.491456000000000060.17611500000000002表2
ks矩阵是对ks的计算方式进行了拓展,通常的ks计算采用的是不分段的ks,计算每个阈值点下|tpr

fpr|值,然后取最大的那个作为ks值,衡量的是模型的最优效果。在示例中采用了如表1所示的分段的ks,相比传统方式,分段后的ks计算可以更加直观的看到模型实际使用后对逾期率的影响。
[0095]
参照表1,ks矩阵的构造方式为,通过使用模型对每个用户进行打分,对打分进行分箱处理,通常会分为10箱(按照等频)(如表1从上之下一共10行,每一行对应1箱),之后再计算每个分箱内的订单(样本)数量,逾期订单数量,正常用户数量,订单数量占比,区间逾期订单占比。其他指标的计算则是根据分箱的左区间(即分箱的左边界)进行的,通过百分比的计算方式为:模型分在872.7885分以上的样本占比,通过逾期率则是计算模型分在872.7885分以上的全部样本中逾期样本的占比。累计坏账户占比的计算方式为模型分在872.7885分以下的样本中逾期样本占全部逾期样本的比率,例如872分及以下的逾期样本总数为214+207+241+359=1021,占全部逾期样本1741的58.64%,即模型在872.7885阈值下的tpr,累计好账户占比计算方式类似,统计872分及以下的正常用户的占全部正常用户的比例39.27%,即模型在872.7885阈值下的fpr,最后计算 58.64%
ꢀ‑ꢀ
39.27% = 19.37%,即为该阈值下的ks值。
[0096]
通过对ks计算的拆解,将业务中比较关注的指标,例如逾期率,通过百分比等指标进行了直观的展示,对模型在不同评分区间的区分度进行了量化。例如在872.7885分模型的ks值达到了最大值,通过ks矩阵可以看到,如果应用规则为:【872.7885以上样本放款】,对应的模型的准入通过率为69.99%, 通过样本的逾期率为2.92%,相比与不使用模型的3.8%,下降了0.88%,相对应的逾期用户减少了58.64%,正常用户只损失了39.27%。
[0097]
模型通过逾期率对照表与ks矩阵类似,最大的差异在于ks矩阵的阈值点数量一般设置为10个,而模型通过逾期率对照表,则是等频选取了1000个左右的阈值点,ks矩阵主要用于评估目标模型,目标模型通过逾期率对照表则主要用于目标模型上线后确定最佳的放款阈值点。
[0098]
在一些特殊场景下,比如金融领域的发放贷款场景,发放比例为设定比例,因此,需要保证模型的输出结果中,与设定比例的结果具有较高的准确度稳定性。上述实施例通过对相应区间的结果进行稳定性评估,能够有针对性地提高目标模型的稳定性。
[0099]
在一种实施方式,模型生成方法还包括:确定所述优化后的目标模型所包含的函数;根据所述函数之间的关联关系以及所述目标属性的样本的标签信息,确定区分度评估指标,根据所述区分度评估指标更新所述优化后的目标模型。
[0100]
本实施例中,所述函数之间的关联关系,可以是优化后的目标模型中包括的多个函数之间存在的关联关系,比如第二个卷积函数调用第一个卷积函数的结果,这样就构成一对关联关系,这种情况下,第一个卷积函数可以认为是第二个的原因,因此还可以将函数之间的关联关系称为函数之间的因果关系。
[0101]
所述函数之间的关联关系还可以用于构造优化后的目标模型的结构树,结构树的每个节点对应优化后的目标模型内部的一个函数,具有调用或被调用关系的函数可构成家长孩子节点。其中,所述家长孩子节点还可以称为双亲孩子节点、或可以称为父亲儿子节点,或还可以称为父子节点等等。再具体的,所述孩子节点指的是在结构树中任意一个节点
的直接后继节点;相应地,所述家长节点可以为结构树中任意一个节点的直接前驱节点。举例来说,在结构树中包含了节点1、节点2和节点3;其中,节点1指向的下一个节点为节点2,节点2指向的下一个节点为节点3,则节点1为节点2的家长节点(或父亲节点),节点2为节点1的孩子节点(或儿子节点),该节点1和节点2构成了一对家长孩子节点(或双亲孩子节点,或父亲儿子节点,或父子节点)。
[0102]
在一种实施方式中,所述根据所述函数之间的关联关系以及所述目标属性的样本的标签信息,确定区分度评估指标,根据所述区分度评估指标更新所述优化后的目标模型,包括:根据所述函数之间的关联关系以及所述目标属性的样本的标签信息,构造至少一条处理路径;根据所述至少一条路径的区分度评估指标,更新所述优化后的目标模型。
[0103]
上述至少一条路径,为从根节点到叶子节点的至少一条路径。
[0104]
根据所述至少一条路径的区分度评估指标,更新所述优化后的目标模型,可以包括:根据所述至少一条路径的区分度评估指标,筛选得到至少一条目标处理路径,根据至少一条目标处理路径,重新组织优化后的目标模型,将重新组织的优化后的目标模型作为更新的优化后的目标模型。
[0105]
其中,根据所述至少一条路径的区分度评估指标,筛选得到至少一条目标处理路径,可以是根据所述至少一条路径的区分度评估指标,筛选得到高于预设指标值的至少一条目标处理路径;所述预设指标值可以根据实际情况设置。在上述实施例中,区分度评估指标可以为iv值、lift(提升)值中的至少一种。
[0106]
示例性的,在模型解释过程中,在金融风控场景下由于对目标模型可解释性的要求,一般会采用xgboost(extreme gradient boosting,优化的分布式梯度增强库),lightgbm(light gradient boosting machine,梯度促进决策树)等树模型构建算法,对于树模型构建算法主要从两个方面进行评估,一方面是根据目标模型生成的决策树的结构,另一方面是根据目标模型的特征重要度进行评估。
[0107]
如图4a(决策树的结构示意图)所示,观察决策树的分裂情况进而进行评估。图4a中每一个非叶子节点可以对应一个属性(即目标属性),比如图4a中示意出了f200300、f116571以及f116917这几个属性的节点,基于决策树可以分裂得到对应的叶子节点,比如图4a中所示:f200300《3.5,指的是属性f200300的取值小于3.5的情况下对应“y(是)”的分支,其对应属性f116571这个节点,否则,对应“n(否)”的分支,其对应属性f116917这个节点。进一步,f116571《5.5,指的是属性f116571的取值小于5.5的情况下对应“y(是)”的分支,其对应的叶子节点为“leaf(叶子)节点=-0.0103861382”;否则,对应“n(否)”的分支,对应的叶子节点为“leaf(叶子)节点=0.0105576897”。若f116917《1.5,指的是属性f116917的取值小于1.5的情况下对应“y(是)”的分支,对应的叶子节点为“leaf(叶子)节点=-0.0359843858”;否则,对应的叶子节点为“leaf(叶子)节点=-0.00725676632”。假设基于图4a最终得到的目标处理路径包含了属性f200300、属性f116571至leaf(叶子)节点=-0.0103861382,可以根据该目标处理路径更新优化后的目标模型。
[0108]
在另一种实现方式中,对决策树结构(具体结构见图4b所示)的解释进行了改进,引入了样本相关的信息(即前述样本标签),将决策树分裂过程中的样本覆盖情况,逾期率变化情况标识在决策树结构图中,并使用lift值和/或iv值评估每个决策树节点对样本区
分度能力,可以直观的看到每个特征(即属性),每条路径对于最终模型的影响。
[0109]
在决策树结构的基础上,可以提取一些iv值比较高的路径作为反欺诈规则。以往的反欺诈规则通常需要有丰富金融风控经验的专家来制定,费时费力规则的效果也依赖专家经验,通过对决策树高iv值关键路径的提取,可以自动生成大量具有解释性的强规则,大大的提升了规则的提取效果和效率。具体的提取方式是,将决策树的每一个节点(包括叶子(leaf)节点和非叶子节点)对应的路径以及对应的iv值导出,再根据每个属性(即特征)的iv值进行倒排序,删除覆盖样本较少的规则,最后按照排序选取所需要的规则。比如,结合图4b进行说明:f751007《0.775,指的是属性f751007的iv值小于0.775的情况下对应“y(是)”的分支,其对应属性f710060这个节点,否则,对应“n(否)”的分支,其对应属性f710030这个节点。进一步,f710060《7.5,指的是属性f710060的iv值小于7.5的情况下对应“y(是)”的分支,其对应的叶子节点为“leaf(叶子)节点=-0.0052”;否则,对应“n(否)”的分支,对应的叶子节点为“leaf(叶子)节点=-0.008”。若f710030《5.5,指的是属性f710030的iv值小于5.5的情况下对应“y(是)”的分支,对应的叶子节点为“leaf(叶子)节点=-0.0056”;否则,对应的叶子节点为“leaf(叶子)节点=-0.0214”。另外,基于图4b还可以看出,各个节点有其对应的样本覆盖情况,具体采用图4b中示出的正样本率来表示,比如属性f751007这个节点对应的正样本率为0.83%,属性f710060这个节点对应的正样本率为3.43%,属性f710030这个节点对应的正样本率为1.87%,leaf(叶子)节点=-0.0052对应的正样本率为6.02%,leaf(叶子)节点=-0.008对应的正样本率为3.18%,leaf(叶子)节点=-0.0056对应的正样本率为3.69%,leaf(叶子)节点=-0.0214对应的正样本率为1.51%。假设基于图4b提取得到的目标处理路径上包含了属性f751007、属性f710060最终走向最左侧的叶子(leaf)节点,即图4b中示出的“leaf(叶子)节点=-0.0052”该叶子(leaf)节点的正样本率(或正样本覆盖率)最高为6.02%;可以根据该目标处理路径更新优化后的目标模型。
[0110]
具体的,各个节点的提取的规则如表3所示。
树(tree)节点(node)路径(path)逾期率lift值iv值覆盖样本数176f830686>2.5,f710030>5.5或缺失0.013954402515723270.4924890.099486254401636f710030>6.5或缺失,f830686>2.50.013964832225325520.4928570.0992362542106f751007>0.774999976,f710030>5.5或缺失0.015078486289324560.5321610.09866573070616f751007>0.708350003,f710030>5.5或缺失0.0152003091588303470.5364600.09759831052166f741205>5.5,f710030>5.5或缺失0.0143795289855072460.5074930.09633192649656f751007>0.0236500017,f710030>5.5或缺失0.0144363826763407880.5094990.09624326738196f740203>2.5,f710030>5.5或缺失0.013814611519198660.4875580.0959442396046f751007>0.774999976,f710060>11.5或缺失0.0153517170943444410.54118030.09580331332
[0111]
表3本实施例中,能够所述函数之间的关联关系更新所述优化后的目标模型,从而得到的优化后的目标模型,能够适用于对模型可解释性要求较高的场景。
[0112]
本公开一种示例中,上述模型生成方法可以作为一种金融场景下的定制化自动建模方法,旨在缩短信贷风控场景下的建模周期,使用标准化的建模流程保证建模的效果和效率。随着大数据,人工智能的普及,以及互联网金融和消费金融等业务形态的崛起,机器学习技术已经被广泛应用于金融机构的风控体系中,极大的提升了风控决策效率,比如,可通过金融风控模型(即目标模型)的输出结果,确定是否发放贷款、是否对特定对象发放贷款、是否对特定对象发放特定贷款等。在建立智能的金融风控模型(即目标模型)时,通常需要经过特征构建(即属性构建),样本筛选,特征筛选(即属性筛选),特征工程(即属性工
程),模型构建等步骤。一个完整的建模周期一般在一个月左右。一般情况下建模工作可以由各自项目的建模人员完成。金融风控模型(即目标模型)的构建比较依赖算法工程师在相关领域的积累,特征构建(即属性构建),筛选,样本的选取均需要消耗大量的时间去完成。由于建模水平的差异,建模耗费的人力成本比较高;不同建模人员构建的模型质量也没法保证;没有统一规范,建模过程没法追溯;不同建模人员对于建模的流程有不用的实现,建模的经验无法形成有效的积累。
[0113]
除了人工建模的方式之外,还可以使用通用的建模平台进行建模工作。通过通用的模型学习平台,可以快速的建立标准的机器学习模型,提升建模的效率。由于金融风控场景的特殊性,金融风控模型(即目标模型)的效果不是唯一需要考虑的指标。在样本的选取、特征(即属性)的筛选、金融风控模型(即目标模型)评估和解释也是金融风控模型(即目标模型)需要特征关注的方面,金融风控模型(即目标模型)的效果,特征(即属性)的稳定性和模型的可解释性都是不可或缺的部分。使用通用建模平台往往只能完成金融风控模型(即目标模型)训练,而其它方面(例如特征稳定性的分析、因果关系分析)的工作仍然需要依赖人工去完成,需要的人力成本仍然比较高。
[0114]
此外,通用建模平台的输入数据多数是针对低维稠密的数据,对于高维稀疏的数据无法进行处理,需要人工进行筛选后才能进入平台进行建模,降低了建模的效率和效果。
[0115]
在金融场景下,金融风控模型(即目标模型)是一种常见模型。金融风控模型(即目标模型)与其它常见的推荐模型(比如营销模型等)存在着较大的差异。这种差异的原因是由于金融风控模型(即目标模型)是使用在信用贷款的风险判定环节,对于一个用户的错误决策就会导致相当大的损失。而对于推荐模型和营销模型而言,则更加关注整体的点击率和转化率的提升,单次决策的损失微乎其微。由于这种差异的存在,导致了金融风控模型(即目标模型)与其它推荐模型部署要求的不同。金融风控模型(即目标模型)不需要频繁的迭代,不追求短期的模型效果,而是要求长期的稳定性。这主要体现在风控策略人员除了关注模型对好坏用户的区分能力外,模型的稳定性也是一个重要的评估指标,有时候甚至为了稳定性牺牲一部分模型效果。为了保证模型的稳定性,在模型的可解释性上也会有更高的要求,只有充分的了解了一个金融风控模型(即目标模型)从特征构建,模型训练和最后的使用方式,决策人员才会认可模型的效果。因此通用的ai(artificial intelligence,人工智能)开发平台无法满足建模人员的需求。为了保证模型的稳定性,本实施例提供的方案在对于属性的分析,筛选,模型效果的评估和解释都需要充分考虑模型的稳定性。
[0116]
本实施例提供的模型生成方法,能够根据属性对目标模型的稳定性影响程度,选择目标属性,根据目标属性生成优化后的目标模型,从而能够提高目标模型的稳定性,使得目标模型能够适用于对模型稳定性要求较高的场景。
[0117]
本公开实施例还提供一种模型生成装置,如图5所示,包括:影响程度确定模块501,用于确定样本中的多个属性分别对目标模型的稳定性影响程度;选取模块502,用于根据所述稳定性影响程度,从所述多个属性中确定目标属性;优化模块503,用于根据所述样本中的所述目标属性,对所述目标模型进行优化,生成优化后的目标模型。
[0118]
所述影响程度确定模块501,用于确定所述样本中的所述多个属性的内容的稳定
性;根据所述多个属性的内容的稳定性,确定所述多个属性分别对所述目标模型的稳定性影响程度。
[0119]
所述影响程度确定模块501,用于确定所述多个属性中第i个属性的内容在不同样本中的变化信息;i为大于等于1的整数;根据所述变化信息,确定所述第i个属性的内容的稳定性。
[0120]
所述影响程度确定模块501,用于确定所述样本中所述多个属性中第i个属性的内容的区分度评估指标;根据所述区分度评估指标,确定所述第i个属性的内容的稳定性。
[0121]
所述影响程度确定模块501,用于根据所述多个属性中第i个属性对应的正样本以及负样本,确定所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率、未标记负样本率;根据所述第i个属性对应的标记正样本率、未标记正样本率、标记负样本率和未标记负样本率,确定所述第i个属性的内容的稳定性。
[0122]
如图6所示,所述装置,还包括:评估模块601,用于对所述优化后的目标模型进行稳定性评估,得到评估结果;第一更新模块602,用于根据所述评估结果,更新所述优化后的目标模型。
[0123]
所述评估模块601,用于将第j个属性在多个样本的多个内容分别输入所述优化后的目标模型,获得多个输出结果;j为大于等于1的整数;根据所述多个输出结果,确定所述评估结果。
[0124]
所述评估模块601,用于利用所述优化后的目标模型,对多个样本进行打分,获得多个分数;根据所述多个分数的取值范围,确定分数划分区间;根据所述优化后的目标模型在所述分数划分区间的区分度评估指标,确定待校验区间;根据所述待校验区间对应的样本的待校验参数值,对所述优化后的目标模型进行稳定性评估,得到评估结果。
[0125]
第二更新模块603,用于确定所述优化后的目标模型所包含的函数;根据所述函数之间的关联关系以及所述目标属性的样本的标签信息,确定区分度评估指标,根据所述区分度评估指标更新所述优化后的目标模型。
[0126]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0127]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0128]
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0129]
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0130]
电子设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0131]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的方法和处理。例如,在一些实施例中,上文所描述的各个方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文所描述的各个方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上文所描述的各个方法。
[0132]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0133]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0134]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0135]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
[0136]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0137]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0138]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0139]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1