衍生变量的生成方法、装置、电子设备和存储介质与流程

文档序号:32944870发布日期:2023-01-14 10:20阅读:43来源:国知局
衍生变量的生成方法、装置、电子设备和存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种衍生变量的生成方法、装置、电子设备和存储介质。


背景技术:

2.目前主要利用原始的业务数据投入策略和研发资源,根据变量加工逻辑进行个性化的衍生变量生成。
3.但是对于不同的衍生变量,需要重新投入策略和研发资源进行开发,用户不能自定义变量加工逻辑来生成新的衍生变量,智能化程度较低,花费时间长,人工投入很大。


技术实现要素:

4.本技术提出一种衍生变量的生成方法、装置、电子设备和存储介质。
5.本技术第一方面实施例提出了一种衍生变量的生成方法,包括:获取业务数据;对所述业务数据进行变量衍生处理,以生成候选衍生变量;对所述候选衍生变量进行筛选,并将筛选出的所述候选衍生变量确定为目标衍生变量。
6.本技术实施例的衍生变量的生成方法,获取业务数据,对业务数据进行变量衍生处理,以生成候选衍生变量,对候选衍生变量进行筛选,并将筛选出的候选衍生变量确定为目标衍生变量。本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。
7.本技术第二方面实施例提出一种衍生变量的生成装置,包括:获取模块,被配置为获取业务数据;生成模块,被配置为对所述候选衍生变量进行筛选,并将筛选出的所述候选衍生变量确定为目标衍生变量;确定模块,被配置为对所述候选衍生变量进行筛选,并将筛选出的所述候选衍生变量确定为目标衍生变量。
[0008][0009]
本技术实施例的衍生变量的生成装置,
[0010]
获取业务数据,对业务数据进行变量衍生处理,以生成候选衍生变量,对候选衍生变量进行筛选,并将筛选出的候选衍生变量确定为目标衍生变量。本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。
[0011][0012]
本技术第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述第一方面实施例所述的衍生变量的生成方法。
[0013]
本技术第四方面实施例提出了一种存储有计算机指令的计算机可读存储介质,所述计算机指令用于使所述计算机执行如上述第一方面实施例所述的衍生变量的生成方法。
[0014]
本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变
得明显,或通过本技术的实践了解到。
附图说明
[0015]
本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0016]
图1为本技术一实施例提供的衍生变量的生成方法的流程示意图;
[0017]
图2为本技术另一实施例提供的衍生变量的生成方法的流程示意图;
[0018]
图3为本技术另一实施例提供的衍生变量的生成方法的流程示意图;
[0019]
图4为本技术另一实施例提供的衍生变量的生成方法中创建变量处理方法的流程示意图;
[0020]
图5为本技术另一实施例提供的衍生变量的生成方法中修改方法库中现有变量处理方法的流程示意图;
[0021]
图6为本技术另一实施例提供的衍生变量的生成方法的流程示意图;
[0022]
图7为本技术另一实施例提供的衍生变量的生成方法的流程示意图;
[0023]
图8为本技术一实施例提供的衍生变量的生成装置的结构示意图;
[0024]
图9为本技术一实施例提供的电子设备的框图。
具体实施方式
[0025]
下面详细描述本技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
[0026]
数据处理(data processing,简称dp)是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。
[0027]
在本技术的描述中,术语“征信报文”为原始的记载信用信息的征信报告内容,可以用来查询个人或企业的社会信用,一般主要指包括个人基本信息,信贷信息(是否有银行贷款、是否有逾期、信用卡透支记录等)、非银行信息(水、电、燃气等公用事业费用的缴费信息、欠税情况、民事判决等)在内的个人信用信息的报告。
[0028]
在本技术的描述中,术语“变量”一般描述一个人(或更一般的实体)特征的变量,根据变量属性不同,可以抽象为“时间、空间、类别、数值、实体标识、关系”等6个类别。
[0029]
在本技术的描述中,术语“衍生变量”指征信报文原始数据通过一系列加工处理生成的新变量,该衍生变量用于后续策略或者模型计算过程。
[0030]
在本技术的描述中,术语“xgboost”(extreme gradient boosting,可扩展的提升树系统)为进行模型训练的一个梯度提升框架。
[0031]
在本技术的描述中,术语“xml”(extensible markup language,可扩展标记语言) 是一种用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。
[0032]
在本技术的描述中,术语“html”(hyper text markup language,超级文本标记语言)是一种标记语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的互联网资源连接为一个逻辑整体。html文本是由html命令组成的描述性文本, html命令可以说明文字,图形、动画、声音、表格、链接等。通常我们所说的h5就是页面的一种表现形式,而html5是第五代html的标准,可以说,h5都是基于html5 实现的,包括目前我们看到的大部分网页,基本上所有h5都遵循html5这个规范。
[0033]
在本技术的描述中,术语“json”(javascript object notation,js对象简谱)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成,现已成为主流的数据格式。任何支持的类型都可以通过json来表示,例如字符串、数字、对象、数组等。
[0034]
下面参考附图描述本技术实施例的衍生变量的生成方法、装置、电子设备和存储介质。
[0035]
图1为本技术一实施例提供的衍生变量的生成方法的流程示意图。本技术实施例的衍生变量的生成方法,可由本技术实施例提供的衍生变量的生成装置执行。
[0036]
如图1所示,本技术实施例的衍生变量的生成方法可包括但不限于以下步骤:
[0037]
s101,获取业务数据。
[0038]
本技术实施例中,业务数据可以包括但不限于征信报文数据、风险识别数据、市场需求数据等。
[0039]
可选地,对业务数据进行获取,并进行后续的处理,其中,业务数据即原始的业务内容,可选地,业务数据的格式具体可包括但不限于xml、json和html等。需要说明的是,本技术对业务报告的具体获取方式不作过多限定,可根据实际情况进行设置。
[0040]
在一种实施方式中,可以在业务系统中的数据库中,进行业务数据的查询,从而实现业务数据的获取。
[0041]
s102,对业务数据进行变量衍生处理,以生成候选衍生变量。
[0042]
业务数据中携带原生变量,本技术实施例中可以从业务数据中提取原生变量,进一步地对原生变量进行衍生处理,从而可以生成候选衍生变量。
[0043]
可选地,可以按照用户选择的提取路径,从业务数据中提取原生变量,也可自动地基于提取算法从业务数据中提取原生变量。
[0044]
在一些实现中,在获取到原生变量后,可以基于变量处理方法,对原生变量进行衍生处理,以生成第一候选衍生变量。
[0045]
在另一些实现中,在获取到原生变量后,可以基于预先的变量衍生规则,对原生变量进行衍生处理,以生成第二候选衍生变量。
[0046]
s103,对候选衍生变量进行筛选,并将筛选出的候选衍生变量确定为目标衍生变量。
[0047]
本技术实施例中,在生成候选衍生变量后,可以获取候选衍生变量的筛选参数,基于筛选参数对候选衍生变量进行筛选,例如按照候衍生变量的评分,或者验证是否通过指标,从候选衍生变量中筛选出部分候选衍生变量,即将筛选出的候选衍生变量确定为目标衍生变量。
[0048]
本技术实施例的衍生变量的生成方法,获取业务数据,对业务数据进行变量衍生处理,以生成候选衍生变量,对候选衍生变量进行筛选,并将筛选出的候选衍生变量确定为
目标衍生变量。本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。
[0049]
下面各实施例以业务数据为征信报文为例对本技术各实施例提供的衍生变量的生成方法进行解释说明。
[0050]
图2为本技术一实施例提供的衍生变量的生成方法的流程示意图。本技术实施例的衍生变量的生成方法,可由本技术实施例提供的衍生变量的生成装置执行。
[0051]
如图2所示,本技术实施例的衍生变量的生成方法可包括但不限于以下步骤:
[0052]
s201,获取业务数据。
[0053]
具体的,对业务数据进行获取,并进行后续的处理征信报文即原始的征信报文内容,可选地,征信报文的格式具体可包括但不限于xml、json和html等。需要说明的是,本技术对征信报告的具体获取方式不作过多限定,可根据实际情况进行设置。
[0054]
在一种实施方式中,可以在征信系统中的征信报文数据库中,进行征信报文的查询,从而实现征信报文的获取。
[0055]
需要说明的是,用户对于衍生变量生成的需求可以选择完全自动的系统构建来进行生成即自动构建,或者选择少量人工参与的个性化生成即自主构建两个过程,以此来满足所有场景的相关人员对于从征信报告中生成衍生变量的需求,本技术实施例描述的即为用户自主构建生成衍生变量的具体流程。
[0056]
s202,获取业务数据的提取路径,并根据提取路径从业务数据中获取原生变量。
[0057]
具体的,根据用户选择的提取路径从征信报文中,获取对应的征信报文数据,该征信报文数据中包括原生变量。其中,用户选择的提取路径为用户选择的征信报文数据在征信报文中的路径信息。
[0058]
本领域人员可以理解的是,在根据用户选择的路径从征信报文中获取征信报文数据时,系统会自动进行相关征信报文数据的提取、对齐以及附加的数据预处理等操作,以此保证征信报文数据在后续的处理过程中的可用性和易用性。
[0059]
s203,根据选择的变量处理方法对业务数据进行处理,以生成第一候选衍生变量。
[0060]
具体的,根据用户选择的合适的变量处理方法对步骤s202获取的原生变量进行衍生处理,生成对应的第一候选衍生变量,并标记第一候选衍生变量的状态为未验证状态。其中,用户选择的变量处理方法即用户选择的合适的对原生变量进行处理来生成衍生变量的处理方法,第一候选衍生变量为通过变量处理方法对原生变量处理后得到的衍生变量。
[0061]
s204,对第一候选衍生变量进行验证,并将验证通过的第一候选衍生变量确定为第一目标衍生变量。
[0062]
具体的,对步骤s203生成的第一候选衍生变量进行验证,并根据验证结果进行相应的处理,若验证通过,则将该验证通过的第一候选衍生变量确定为第一目标衍生变量,并标记状态为验证通过状态。可选地,可以通过系统的核验工具进行第一候选衍生变量的验证。可选地,用户通过系统提供的自主验证工具,可以快捷地对新增的衍生变量即第一候选衍生变量进行验证。需要说明的是,当第一候选衍生变量的计算结果符合事先设置好的预期结果即可表示验证通过并标识为“验证通过”,否则标识为“验证未通过”。
[0063]
本技术实施例的衍生变量的生成方法,获取业务数据,根据用户选择的提取路径从业务数据中获取原生变量,根据用户选择的变量处理方法对原生变量进行衍生处理,以
生成第一候选衍生变量,对第一候选衍生变量进行验证,并将验证通过的第一候选衍生变量确定为第一目标衍生变量。本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。
[0064]
图3为本技术另一实施例提供的衍生变量的生成方法的流程示意图。如图3所示,在上述实施例的基础上,本技术实施例的衍生变量的生成方法可包括但不限于以下步骤:
[0065]
s301,获取业务数据。
[0066]
s302,获取业务数据的提取路径,并根据提取路径从业务数据中获取原生变量。
[0067]
具体的,关于本技术实施例中的步骤s201-s202的具体介绍,可参见上述实施例中的相关内容的记载,此处不再赘述。
[0068]
s303,判断方法库中是否存在选择的变量处理方法。
[0069]
具体的,对方法库中是否存在合适的变量处理方法进行判断,并根据判断结果进行相应的处理。需要说明的是,系统中内置了较为丰富的方法库供用户使用,方法库为变量处理方法的集合,可选地,方法库中变量处理方法的数量可以为一个或多个。
[0070]
s304,若方法库中不存在选择的变量处理方法,则创建变量处理方法,或者修改方法库中的现有变量处理方法以生成选择的变量处理方法。
[0071]
具体的,若判断方法库中不存在合适的变量处理方法,则创建新的变量处理方法,或者修改方法库中的现有变量处理方法以生成合适的变量处理方法。可以理解的是,通过创建新的变量处理方法或者修改方法库中的现有变量处理方法以进行方法库的补全,保证了整个处理过程的闭环。
[0072]
s305,根据用户选择的变量处理方法对征信报文数据进行处理,以生成第一候选衍生变量。
[0073]
具体的,若判断方法库中存在合适的变量处理方法,则根据用户选择的合适的变量处理方法对步骤s302获取的征信报文数据进行处理,生成对应的第一候选衍生变量,并标记第一候选衍生变量的状态为未验证状态。
[0074]
s306,对第一候选衍生变量进行验证,并将验证通过的第一候选衍生变量确定为第一目标衍生变量。
[0075]
具体的,关于本技术实施例中的步骤s305-s306的具体介绍,可参见上述实施例中的相关内容的记载,此处不再赘述。
[0076]
进一步的,本技术实施例的衍生变量的生成方法还可包括以下步骤:
[0077]
对验证未通过的第一候选衍生变量进行修改,并返回对第一候选衍生变量进行验证步骤。
[0078]
具体的,若验证未通过,则标记第一候选衍生变量的状态为验证未通过状态,并对第一候选衍生变量进行修改,并重新对第一候选衍生变量进行相应的验证步骤。
[0079]
需要说明的是,以上步骤描述的为用户自主构建生成衍生变量的具体流程。
[0080]
进一步的,如图4所示,上述实施中的步骤s304中的“创建变量处理方法”可包括以下步骤:
[0081]
s401,获取配置的变量处理方法的参数和处理流程。
[0082]
具体的,创建变量处理方法时,需要对变量方法进行配置,即对用户配置的变量处理方法的参数和处理流程进行获取,以进行后续处理。可选地,可以通过多语言的代码直接
进行提交,以进行后续的系统解析处理。
[0083]
s402,对参数和处理流程进行解析,以生成语言属性和参数列表。
[0084]
具体的,系统对步骤s401获取的参数和处理流程进行解析,可以生成对应的语言属性和参数列表。其中,语言属性即变量处理方法配置中使用语言的属性信息,参数列表即变量处理方法的参数解析后生成的以列表形式存在的参数的集合,本技术对此不作过多限定。
[0085]
s403,基于语言属性和参数列表对变量处理方法进行验证。
[0086]
具体的,基于步骤s402生成的语言属性和参数列表,对变量处理方法进行验证,并根据验证结果进行后续的相应处理。
[0087]
可选地,可以设置极端情况下的异常数据并根据该异常数据来进行变量处理方法的验证,从而可模拟变量处理方法在真实调用过程中面对异常情况的计算能力。
[0088]
s404,将验证通过的变量处理方法添加至方法库中。
[0089]
具体的,若变量处理方法验证通过,则该变量处理方法的状态将从未验证状态变更为验证通过状态,并该变量处理方法添加至方法库中,更新方法列表,以实现方法库中变量处理方法的补全。
[0090]
需要说明的是,在将验证通过的变量处理方法添加至方法库中后,方法列表对该新加入的变量处理方法将进行统一的管理和更新。
[0091]
进一步的,上述实施中的步骤s204中的“创建变量处理方法”还可包括以下步骤:
[0092]
对变量处理方法的验证未通过,则获取用户重新配置的变量处理方法的参数和处理流程。
[0093]
具体的,若变量处理方法验证未通过,则该变量处理方法的状态将从未验证状态变更为验证未通过状态,并返回对第一候选衍生变量进行验证步骤。
[0094]
进一步的,如图5所示,上述实施中的步骤s305中的“修改方法库中的现有变量处理方法以生成变量处理方法”可包括以下步骤:
[0095]
s501,显示现有变量处理方法的参数和处理流程。
[0096]
具体的,对方法列表的现有变量处理方法的参数和处理流程进行显示,以进行后续处理。可以理解的是,该步骤可以帮助用户快速了解该变量处理方法的功能和使用场景。
[0097]
s502,对参数和处理流程进行修改。
[0098]
具体的,修改步骤s501中的现有变量处理方法的参数和处理流程,以进行后续处理。
[0099]
s503,对修改后的现有变量处理方法进行验证。
[0100]
具体的,对步骤s502参数和处理流程修改后的现有变量处理方法进行验证,并根据验证结果进行相应的后续处理。
[0101]
需要说明的是,对修改后的变量处理方法的验证为对相应的衍生变量的计算结果进行验证,具体来说,就是将该计算结果和真实结果相比较,如果计算结果符合真实结果则确定为验证通过,否则为验证不通过。
[0102]
s504,对修改后的现有变量处理方法的验证通过,且存在使用过现有变量处理方法的第一目标衍生变量,则判断与现有变量处理方法关联的第一目标衍生变量的业务报告结果是否变化。
[0103]
具体的,若修改后的现有变量处理方法的验证通过即方法的修改使得该衍生变量的计算结果验证通过,且存在使用过现有变量处理方法的第一目标衍生变量,则进一步对与现有变量处理方法关联的第一目标衍生变量的征信报告结果进行判断,即判断该征信报告是否发生变化,并根据该验证结果进行相应的处理。可以理解的是,此处的征信报告结果为业务数据为征信报文时的结果,若业务数据为其他类型的业务,可以对应为其他类型业务的报告结果。
[0104]
需要说明的是,存在使用过现有变量处理方法的第一目标衍生变量即该修改后的现有变量处理方法在已经验证过的衍生变量中有使用,可以理解为修改后的现有处理方法在方法列表、新建衍生变量或者修改的验证变量中有使用,具体来说,当该修改后的现有处理方法在方法列表或新建的衍生变量中有使用时,则判断与修改后的现有处理方法关联的全部衍生变量对应的全部征信报告结果是否发生变化,当该修改后的现有处理方法在修改衍生变量中有使用时,判断除修改的衍生变量外,其他与修改后的现有处理方法关联的衍生变量对应的全部征信报告结果是否变化,并根据变化结果进行处理。
[0105]
s505,若业务报告结果未变化,则将修改后的现有变量处理方法确定为变量处理方法,并将变量处理方法添加至方法库中。
[0106]
具体的,对与现有变量处理方法关联的第一目标衍生变量的征信报告结果未变化,则将修改后的现有变量处理方法确定为变量处理方法,并将变量处理方法添加至方法库中,以更新方法列表。
[0107]
进一步的,上述实施中的步骤s304中的“修改方法库中的现有变量处理方法以生成变量处理方法”还可包括以下步骤:
[0108]
对修改后的现有变量处理方法的验证未通过,则重新对参数和处理流程进行修改。
[0109]
具体的,若修改后的现有变量处理方法的验证未通过即方法的修改使得该衍生变量的计算结果无法验证通过,则重新修改现有变量处理方法的参数和处理流程,并重新进行后续的验证步骤,直至涉及到该变量处理方法的衍生变量均受到影响为止,或者重新创建新的变量处理方法进行上述相应的处理操作。
[0110]
进一步的,上述实施中的步骤s304中的“修改方法库中的现有变量处理方法以生成变量处理方法”还可包括以下步骤:
[0111]
若征信报告结果变化,则重新对参数和处理流程进行修改。
[0112]
具体的,对与现有变量处理方法关联的第一目标衍生变量的征信报告结果变化,则重新修改现有变量处理方法的参数和处理流程,并重新进行后续的验证步骤。
[0113]
本技术实施例的衍生变量的生成方法,在根据用户选择的变量处理方法,对业务数据的原生变量进行衍生处理之前,判断方法库中是否存在变量处理方法,若方法库中不存在变量处理方法,则创建变量处理方法,或者修改方法库中的现有变量处理方法以生成变量处理方法,根据用户选择的变量处理方法对征信报文数据进行处理,以生成第一候选衍生变量,对第一候选衍生变量进行验证,并将验证通过的第一候选衍生变量确定为第一目标衍生变量,对验证未通过的第一候选衍生变量进行修改,并返回对第一候选衍生变量进行验证步骤。本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。同时,通过可视化操作进行业务数据的提取和方
法库的操作,降低了人为干预的程度,且通过对变量处理方法的创建或者修改,使得方法库更加全面,进一步提高了智能化程度。
[0114]
图6为本技术另一实施例提供的衍生变量的生成方法的流程示意图。如图6所示,在上述实施例的基础上,本技术实施例的衍生变量的生成方法可包括但不限于以下步骤:
[0115]
s601,获取业务数据和变量衍生规则。
[0116]
关于获取业务数据的过程,可参见上述实施例中相关内容的记载,此处不再赘述。可选地,本申实施例中业务数据可以为征信报文。
[0117]
本技术实施例中,可以预先构建多种变量衍生规则,用户可以根据需求从多种变量衍生规则选取合适的变量衍生规则。例如,用户可以可视化操作界面上通过菜单选取,或者通过指令选取。
[0118]
s602,从业务数据中提取原生变量。
[0119]
业务数据中携带原生变量,本技术实施例中可以从业务数据中提取原生变量,进一步地对原生变量进行衍生处理,从而可以生成候选衍生变量。
[0120]
可选地,可以按照用户选择的提取路径,从业务数据中提取原生变量,也可自动地基于提取算法从业务数据中提取原生变量。
[0121]
s603,根据变量衍生规则,对原生变量进行衍生处理,以获取第二候选衍生变量。
[0122]
可选地,变量衍生规则为用户选择的用来自动地系统构建衍生变量的规则。变量衍生规则中可以包括衍生的方法、选取用于衍生处理的原生变量的选取策略、衍生变量的数量要求、衍生变量的格式等。
[0123]
本技术实施例中,在确定出原生变量后,可以基于变量衍生规则的衍生需求对原生变量进行衍生处理,以获取第二候选衍生变量。
[0124]
需要说明的是,这里所说的第二候选衍生变量的生成可以是批量自动化生成的。
[0125]
s604,对第二候选衍生变量进行筛选,并将筛选出的第二候选衍生变量确定为第二目标衍生变量。
[0126]
可选的,对步骤s603生成的第二候选衍生变量进行评分,以根据评分结果进行相应的处理。需要说明的是,通过系统内置的智能评分系统即目标变量评分系统对衍生变量进行评分。
[0127]
可选地,可以使用生成的大批量变量通过内置xgboost模型针对该场景下的任务进行模型训练,通过模型根据变量的重要程度来进行排序,从而初步实现模型的自动筛选,其中,人工仅需进行变量重要程度的阈值配置即可,由此可得到智能评分系统即目标变量评分系统。
[0128]
在一些实现中,将评分超过评分阈值的第二候选衍生变量确定为第二目标衍生变量。具体的,当第二候选衍生变量的评分超过评分阈值时即第二候选衍生变量为优质衍生变量时,将第二候选衍生变量确定为第二目标衍生变量。其中,评分阈值为用户预先设置好的阈值,此处不作过多限定。
[0129]
在另一些实现中,可以按照评分对第二候选衍生变量进行排序,评分越高的第二候选衍生变量越符合业务需求,可以按照评分从大到小的顺序,筛选出前在前面n位的第二候选衍生变量,作为第二目标衍生变量。
[0130]
需要说明的是,以上步骤s601-步骤s604描述的为系统自动构建生成衍生变量的
具体流程。
[0131]
本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。同时,通过可视化操作进行衍生变量规则的选取,并且通过评分的方式从第二候选衍生变量中,选取出符合业务需求的衍生变量,不仅提高了智能化程度,而且提高业务的服务质量。
[0132]
为更清楚的描述本技术实施例的衍生变量的生成方法,以征信报文为例,对本技术实施例的衍生变量的生成方法进行解释说明。下面结合图7进行详细描述。图7为本技术另一实施例提供的衍生变量的生成方法的流程示意图。如图7所示,本技术实施例的衍生变量的生成方法体可包括但不限于以下步骤:
[0133]
s701,获取征信报文。继续执行步骤s702-s718的自主构建衍生变量的过程,或者继续执行步骤s719-s721的自动构建衍生变量的过程。
[0134]
s702,根据用户选择的提取路径从征信报文中获取征信报文数据。
[0135]
其中,征信报文数据中包括原生变量。
[0136]
s703,获取用户选择的变量处理方法,并判断方法库中是否存在用户选取的变量处理方法。若是,则执行步骤s704,若否,则执行步骤s608-s612的创建新的变量处理方法的过程,或者执行步骤s713-s718的修改现有变量处理方法以生成用户选择的变量处理方法的过程。
[0137]
s704,根据用户选择的变量处理方法对征信报文数据进行处理,以生成第一候选衍生变量。
[0138]
s705,对第一候选衍生变量进行验证,并判断验证是否通过。若是,则执行步骤s706,若否,则执行步骤s707。
[0139]
s706,将验证通过的第一候选衍生变量确定为第一目标衍生变量。
[0140]
s707,对验证未通过的第一候选衍生变量进行修改。执行步骤s705。
[0141]
s708,获取用户配置的变量处理方法的参数和处理流程。
[0142]
s709,对参数和处理流程进行解析,以生成语言属性和参数列表。
[0143]
s710,基于语言属性和参数列表对变量处理方法进行验证。
[0144]
s711,判断验证结果是否通过,若是,则执行步骤s712,若否,则执行步骤s708。
[0145]
s712,将验证通过的变量处理方法添加至方法库中。
[0146]
s713,显示现有变量处理方法的参数和处理流程。
[0147]
s714,对参数和处理流程进行修改。
[0148]
s715,对修改后的现有变量处理方法进行验证。
[0149]
s716,判断验证结果是否通过。若是,则执行步骤s717,若否,则执行步骤s714。
[0150]
s717,判断与现有变量处理方法关联的第一目标衍生变量的征信报告结果是否变化。若是,则执行步骤s714,若否,则执行步骤s718。
[0151]
s718,将修改后的现有变量处理方法确定为变量处理方法,并将变量处理方法添加至方法库中。
[0152]
s719,根据用户选择的变量衍生规则和征信报文,生成第二候选衍生变量。
[0153]
可选地,从业务数据中提取原生变量,根据变量衍生规则,对原生变量进行衍生处理,以获取第二候选衍生变量。
[0154]
s720,对第二候选衍生变量进行评分。
[0155]
s721,将评分超过评分阈值的第二候选衍生变量确定为第二目标衍生变量。
[0156]
本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。同时,通过可视化操作进行征信报文数据的提取和方法库的操作,降低了人为干预的程度,且通过对变量处理方法的创建或者修改,使得方法库更加全面,进一步提高了智能化程度。同时,通过可视化操作进行衍生变量规则的选取,并且通过评分的方式从第二候选衍生变量中,选取出符合业务需求的衍生变量,不仅提高了智能化程度,而且提高业务的服务质量。为了实现上述实施例,本技术实施例还提出一种衍生变量的生成装置。图8为本技术一实施例的衍生变量的生成装置的结构示意图,本技术实施例的衍生变量的生成装置可设置于机器学习平台中。如图8所示,本技术实施例的衍生变量的生成装置800具体可包括:获取模块801、生成模块802和确定模块803。
[0157]
获取模块801,被配置为获取业务数据;生成模块802,被配置为对所述候选衍生变量进行筛选,并将筛选出的所述候选衍生变量确定为目标衍生变量;确定模块803,被配置为对所述候选衍生变量进行筛选,并将筛选出的所述候选衍生变量确定为目标衍生变量。
[0158]
需要说明的是,上述对衍生变量的生成方法实施例的解释说明,也适用于本技术实施例的衍生变量的生成装置,具体过程此处不再赘述。
[0159]
本技术实施例的衍生变量的生成装置,获取业务数据,对业务数据进行变量衍生处理,以生成候选衍生变量,对候选衍生变量进行筛选,并将筛选出的候选衍生变量确定为目标衍生变量。本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。
[0160]
在本技术的一个实施例中,生成模块802还被配置为:获取所述业务数据的提取路径,并根据所述提取路径从所述业务数据中获取原生变量;根据选择的变量处理方法,对所述原生变量进行处理,以生成第一候选衍生变量。
[0161]
在本技术的一个实施例中,确定模块803还被配置为:对所述第一候选衍生变量进行验证,并将通过验证的所述第一候选衍生变量确定为第一目标衍生变量。
[0162]
在本技术的一个实施例中,确定模块803还被配置为:对验证未通过的所述第一候选衍生变量进行修改,并返回所述对所述第一候选衍生变量进行验证步骤。
[0163]
在本技术的一个实施例中,生成模块802还被配置为:所述根据选择的变量处理方法装置对所述征信报文数据进行处理之前,判断方法库中是否存在所述变量处理方法;若所述方法库中不存在所述变量处理方法,则创建所述变量处理方法,或者修改所述方法库中的现有变量处理方法以生成所述变量处理方法。
[0164]
在本技术的一个实施例中,生成模块802,进一步被配置为:获取所述用户配置的所述变量处理方法的参数和处理流程;对所述参数和处理流程进行解析,以生成语言属性和参数列表;基于所述语言属性和参数列表对所述变量处理方法进行验证;将验证通过的所述变量处理方法添加至所述方法库中。
[0165]
在本技术的一个实施例中,生成模块802,还被配置为:对所述变量处理方法的验证未通过,则获取所述用户重新配置的所述变量处理方法的参数和处理流程。
[0166]
在本技术的一个实施例中,生成模块802,进一步被配置为:显示所述现有变量处理方法的参数和处理流程;对所述参数和处理流程进行修改;对修改后的所述现有变量处
理方法进行验证;对修改后的所述现有变量处理方法的验证通过,且存在使用过所述现有变量处理方法的所述第一目标衍生变量,则判断与所述现有变量处理方法关联的所述第一目标衍生变量的业务报告结果是否变化;若业务报告结果未变化,则将修改后的所述现有变量处理方法确定为所述变量处理方法,并将所述变量处理方法添加至所述方法库中。
[0167]
在本技术的一个实施例中,生成模块802,还被配置为:对修改后的所述现有变量处理方法的验证未通过,则重新对所述参数和处理流程进行修改。
[0168]
在本技术的一个实施例中,生成模块802,还被配置为:若业务报告结果变化,则重新对所述参数和处理流程进行修改。
[0169]
在本技术的一个实施例中,生成模块802,被配置为:获取变量衍生规则;从所述业务数据中提取原生变量;根据所述变量衍生规则,对所述原生变量进行衍生,以获取第二候选衍生变量。
[0170]
在本技术的一个实施例中,确定模块803,被配置为:对所述第二候选衍生变量进行评分;将评分超过评分阈值的所述第二候选衍生变量确定为第二目标衍生变量。
[0171]
在本技术的一个实施例中,确定模块803,被配置为:获取待训练的变量评分模型和基础衍生变量;基于所述基础衍生变量对所述待训练的变量评分模型进行训练,以得到目标变量评分模型;根据所述目标变量评分模型对所述第二候选衍生变量进行评分。
[0172]
需要说明的是,上述对衍生变量的生成方法实施例的解释说明,也适用于本技术实施例的衍生变量的生成装置,具体过程此处不再赘述。
[0173]
本实施例中,通过对整个生命周期的衍生变量进行智能化管理,降低了耗时,减少了人工投入,提高了智能化程度。同时,通过可视化操作进行征信报文数据的提取和方法库的操作,降低了人为干预的程度,且通过对变量处理方法的创建或者修改,使得方法库更加全面,进一步提高了智能化程度。同时,通过可视化操作进行衍生变量规则的选取,并且通过评分的方式从第二候选衍生变量中,选取出符合业务需求的衍生变量,不仅提高了智能化程度,而且提高业务的服务质量。
[0174]
如图9所示,是根据本技术实施例的衍生变量的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,智能语音交互设备、个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
[0175]
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器901可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
[0176]
存储器902即为本技术所提供的非瞬时计算机可读存储介质。其中,存储器存储有
可由至少一个处理器执行的指令,以使至少一个处理器执行本技术所提供的衍生变量的生成方法。本技术的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本技术所提供的衍生变量的生成方法。
[0177]
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本技术实施例中的衍生变量的生成方法对应的程序指令/ 模块(例如,附图8所示的获取模块801、生成模块802和确定模块803)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的衍生变量的生成方法。
[0178]
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据衍生变量的生成方法的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至衍生变量的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0179]
衍生变量的生成方法的电子设备还可以包括:输入装置903和输出装置904。处理器 901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
[0180]
输入装置903可接收输入的数字或字符信息,以及产生与衍生变量的生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
[0181]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0182]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0183]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机
具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0184]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0185]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(”virtual privateserver”,或简称“vps”)中,存在的管理难度大,业务扩展性弱的缺陷。
[0186]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本技术公开的技术方案所期望的结果,本文在此不进行限制。
[0187]
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0188]
尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1