基于有监督学习的ETC客户识别模型构建方法及装置与流程

文档序号:26007274发布日期:2021-07-23 21:26阅读:171来源:国知局
基于有监督学习的ETC客户识别模型构建方法及装置与流程

本发明涉及人工智能技术领域,尤其涉及基于有监督学习的etc客户识别模型构建方法及装置。



背景技术:

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

用已知某种或某些特性的样本作为训练集,以建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习,是最常见的机器学习方法。对于有监督学习的算法模型,当前普遍采用的特征处理方案,例如主成分分析,缺失值补全,属性特征交叉衍生新属性特征信息,均受限于基于有监督学习的etc客户识别模型的输入(属性特征),使得模型训练的数据集舍弃了很多有意义的信息,导致算法模型最终的训练效果不是很好。



技术实现要素:

本发明实施例提供一种基于有监督学习的etc客户识别模型构建方法,用以将基于目标特征信息衍生的属性特征添加到训练清洗后etc客户测试数据中,提高基于有监督学习的etc客户识别模型的训练效果,该基于有监督学习的etc客户识别模型构建方法包括:

采集原始etc客户训练数据及原始etc客户测试数据;

根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;

根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。

本发明实施例还提供一种基于有监督学习的etc客户识别模型构建装置,用以将基于目标特征信息衍生的属性特征添加到训练清洗后etc客户测试数据中,提高基于有监督学习的etc客户识别模型的训练效果,该基于有监督学习的etc客户识别模型构建装置包括:

原始数据采集模块,用于采集原始etc客户训练数据及原始etc客户测试数据;

衍生特征移植模块,用于根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;

模型训练构建模块,用于根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于有监督学习的etc客户识别模型构建方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于有监督学习的etc客户识别模型构建方法的计算机程序。

本发明实施例中,采集原始etc客户训练数据及原始etc客户测试数据;根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。本发明实施例基于目标特征信息衍生新属性特征信息,将衍生得到的新属性特征信息移植至etc客户测试数据中,进而利用原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型。鉴于移植后的etc客户测试数据引入了目标特征信息,能够提高基于有监督学习的etc客户识别模型的训练效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例提供的基于有监督学习的etc客户识别模型构建方法的实现流程图;

图2为本发明实施例提供的基于有监督学习的etc客户识别模型构建方法的另一实现流程图;

图3为本发明实施例提供的基于有监督学习的etc客户识别模型构建方法中步骤202的实现流程图;

图4为本发明实施例提供的基于有监督学习的etc客户识别模型构建方法中步骤202的另一实现流程图;

图5为本发明实施例提供的基于有监督学习的etc客户识别模型构建方法中步骤402的实现流程图;

图6为本发明实施例提供的基于有监督学习的etc客户识别模型构建装置的功能模块图;

图7为本发明实施例提供的基于有监督学习的etc客户识别模型构建装置的另一功能模块图;

图8为本发明实施例提供的基于有监督学习的etc客户识别模型构建装置中衍生特征移植模块602的结构框图;

图9为本发明实施例提供的基于有监督学习的etc客户识别模型构建装置中衍生特征移植模块602的另一结构框图;

图10为本发明实施例提供的基于有监督学习的etc客户识别模型构建装置中主键确定单元902的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

图1示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建方法的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

如图1所示,基于有监督学习的etc客户识别模型构建方法,其包括:

步骤101,采集原始etc客户训练数据及原始etc客户测试数据;

步骤102,根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;

步骤103,根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。

在构建基于有监督学习的etc客户识别模型时,首先采集基于有监督学习的etc客户识别模型的原始etc客户训练数据及原始etc客户测试数据。进而,基于采集到的原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生出新属性特征信息。例如,对于二分类问题,二分类目标特征信息的取值为0或1,基于该二分类目标特征信息衍生得到二分类新属性特征信息,二分类新属性特征信息列每行的值为该行样本所属类别出现的次数。而后将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,从而获得移植后的etc客户测试数据。最后,根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,从而可以获得构建的基于有监督学习的etc客户识别模型。鉴于移植后的etc客户测试数据引入了etc客户训练数据中的目标特征信息,从而能够提高基于有监督学习的etc客户识别模型的训练效果。

其中,预设衍生规则为与预先设定的衍生规则,本领域技术人员可以理解的是,可以根据实际情况和具体需求预先设定该预设衍生规则,例如直接基于原始etc客户训练数据中的目标特征信息列衍生(克隆)得到新属性特征信息列,本领域技术人员可以理解的是,还可以将目标特征信息列与原始etc客户训练数据中其它属性特征列交叉生成新属性特征信息列等,本发明实施例对此不作特别的限制。

在本发明实施例中,采集原始etc客户训练数据及原始etc客户测试数据;根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。本发明实施例基于目标特征信息衍生新属性特征信息,将衍生得到的新属性特征信息移植至etc客户测试数据中,进而利用原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型。鉴于移植后的etc客户测试数据引入了目标特征信息,能够提高基于有监督学习的etc客户识别模型的训练效果。

图2示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建方法的另一实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高基于有监督学习的etc客户识别模型的训练效果,如图2所示,在上述图1所示方法步骤的基础上,基于有监督学习的etc客户识别模型构建方法还包括:

步骤201,分别对采集的原始etc客户训练数据及原始etc客户测试数据进行清洗,获得清洗后的etc客户训练数据及清洗后的etc客户测试数据;

步骤102,根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据,包括:

步骤202,根据清洗后etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据;

步骤103,根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型,包括:

步骤203,根据清洗后的etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。

对采集到原始etc客户训练数据及原始etc客户测试数据后,为进一步提高基于有监督学习的etc客户识别模型的训练效果,还可以分别对采集的原始etc客户训练数据及原始etc客户测试数据进行数据清洗。例如,剔除原始etc客户训练数据及原始etc客户测试数据中的异常值及空值等等,以获得清洗后的etc客户训练数据及清洗后的etc客户测试数据。

进而,基于清洗后etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据。最后,利用清洗后的etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,从而获得构建的基于有监督学习的etc客户识别模型。

在本发明实施例中,分别对采集的原始etc客户训练数据及原始etc客户测试数据进行清洗,获得清洗后的etc客户训练数据及清洗后的etc客户测试数据,根据清洗后etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据,根据清洗后的etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。本发明实施例通过对原始etc客户训练数据及原始etc客户测试数据进行清洗,进而将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据,最后利用清洗后的etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,以进一步提高基于有监督学习的etc客户识别模型的训练效果。

图3示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建方法中步骤202的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高基于有监督学习的etc客户识别模型的训练效果,如图3所示,步骤202,根据清洗后etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据,包括:

步骤301,根据清洗后etc客户训练数据中的目标特征信息与目标属性特征交叉衍生新属性特征信息;

步骤302,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据。

在衍生新属性特征信息时,本发明实施例利用清洗后etc客户训练数据中的目标特征信息,训练集中其它属性特征(目标属性特征,例如有关用户标识的属性特征,或者有关交易信息的属性特征等)交叉衍生新属性特征信息,进而将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至清洗后的etc客户测试数据中,以获得移植后的etc客户测试数据。

在本发明实施例中,根据清洗后etc客户训练数据中的目标特征信息与目标属性特征交叉衍生新属性特征信息;将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据。本发明实施例利用目标特征信息与目标属性特征交叉衍生新属性特征信息,能够进一步提高基于有监督学习的etc客户识别模型的训练效果。

图4示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建方法中步骤202的另一实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,目标特征信息列包括目标特征信息列,新属性特征信息包括新属性特征信息列。为了实现将目标特征信息列移植到etc客户测试数据中,进一步提高基于有监督学习的etc客户识别模型的训练效果,如图4所示,步骤202,根据清洗后etc客户训练数据中的目标特征信息列,按照预设衍生规则衍生新属性特征信息列,将基于清洗后etc客户训练数据中目标特征信息列衍生得到的新属性特征信息列移植至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据,包括:

步骤401,在清洗后etc客户测试数据中增加基于目标特征信息列衍生得到的新属性特征信息列对应的空列;

步骤402,根据清洗后etc客户训练数据和清洗后etc客户测试数据是否包含共有特征列确定主键;

步骤403,将基于目标特征信息列衍生得到的新属性特征信息列中与清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列对应位置的值填充至空列的匹配列中;

步骤404,将预设固定值或清洗后etc客户测试数据中属性特征列的交叉值填充至空列中除匹配列之外的未匹配列中。

在实现将目标特征信息列移植到etc客户测试数据中的目的时,首先在清洗后etc客户测试数据中增加新属性特征信息列对应的空列,以便将(基于目标特征信息列衍生得到的)新属性特征信息列的值填充在空列中,实现将目标特征信息列移植到etc客户测试数据中的目的。该新属性特征信息列可以为一列或多列,该新属性特征信息列对应的空列也可以是一个空列或多个空列等。

在增加新属性特征信息列对应的空列后,进而根据清洗后etc客户训练数据和清洗后etc客户测试数据是否包含共有特征列确定主键(x-key)。例如,在清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列时,可以基于清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列确定主键;在清洗后etc客户训练数据和清洗后etc客户测试数据不包含共有特征列时,可以基于清洗后etc客户训练数据和清洗后etc客户测试数据包含的其它属性特征确定主键。

在分别确定新属性特征信息列对应的空列及主键后,确定清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列,进而在基于目标特征信息列衍生得到的新属性特征信息列中查找到与该些匹配列对应位置的值,将新属性特征信息列中与该些匹配列对应位置的值填充值清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列中,实现空列中匹配列的填充。

空列中包含匹配列,还包括匹配列之外的未匹配列。在实现空列中匹配列的填充后,对于空列中的未匹配列,可以填充预设固定值,例如与目标特征信息列或新属性特征信息列对应行位置的值,或者与目标特征信息列或新属性特征信息列相关的固定值等等,还可以将清洗后etc客户测试数据中多个属性特征列的交叉值填充至未匹配列中等等。

在本发明实施例中,在清洗后etc客户测试数据中增加基于目标特征信息列衍生得到的新属性特征信息列对应的空列;根据清洗后etc客户训练数据和清洗后etc客户测试数据是否包含共有特征列确定主键;将基于目标特征信息列衍生得到的新属性特征信息列中与清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列对应位置的值填充至空列的匹配列中;将预设固定值或清洗后etc客户测试数据中属性特征列的交叉值填充至空列中除匹配列之外的未匹配列中。本发明实施例将基于目标特征信息列衍生得到的新属性特征信息列中与清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列对应位置的值填充至空列的匹配列中,将预设固定值或清洗后etc客户测试数据中属性特征列的交叉值填充至空列中除匹配列之外的未匹配列中,以实现目标特征信息(新属性特征信息)移植至etc客户测试数据中,能够进一步提高基于有监督学习的etc客户识别模型的训练效果。

图5示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建方法中步骤402的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定主键的准确性,进而进一步提高基于有监督学习的etc客户识别模型的训练效果,如图5所示,步骤402,根据清洗后etc客户训练数据和清洗后etc客户测试数据是否包含共有特征列确定主键,包括:

步骤501,在清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列时,将清洗后etc客户训练数据和清洗后etc客户测试数据包含的共有特征列作为主键;或

步骤502,在清洗后etc客户训练数据和清洗后etc客户测试数据未包含共有特征列时,将清洗后etc客户训练数据包含的多个预设属性特征的组合作为主键。

在清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列,可以直接将清洗后etc客户训练数据和清洗后etc客户测试数据包含的共有特征列作为主键。例如在清洗后的etc客户训练数据及清洗后的etc客户测试数据均包含用户标识(共同特征)时,将用户标识作为主键x-key。

而清洗后etc客户训练数据和清洗后etc客户测试数据未包含共有特征列时,可以清洗后etc客户训练数据包含的多个预设属性特征的组合作为主键。例如在清洗后的etc客户训练数据及清洗后的etc客户测试数据未包含共同特征时,可以将交易信息、交易金额及交易主体等的组合作为主键x-keys。

在本发明实施例中,在清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列时,将清洗后etc客户训练数据和清洗后etc客户测试数据包含的共有特征列作为主键;或在清洗后etc客户训练数据和清洗后etc客户测试数据未包含共有特征列时,将清洗后etc客户训练数据包含的多个预设属性特征的组合作为主键,能够提高确定主键的准确性,进而进一步提高基于有监督学习的etc客户识别模型的训练效果。

本发明实施例还提供一种基于有监督学习的etc客户识别模型构建装置,如下面的实施例所述。由于这些装置解决问题的原理与基于有监督学习的etc客户识别模型构建方法相似,因此这些装置的实施可以参见方法的实施,重复之处不再赘述。

图6示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建装置的功能模块,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

参考图6,所述基于有监督学习的etc客户识别模型构建装置所包含的各个模块用于执行图1对应实施例中的各个步骤,具体请参阅图1以及图1对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述基于有监督学习的etc客户识别模型构建装置包括原始数据采集模块601、衍生特征移植模块602及模型训练构建模块603。

原始数据采集模块601,用于采集原始etc客户训练数据及原始etc客户测试数据。

衍生特征移植模块602,用于根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据。

模型训练构建模块603,用于根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。

在本发明实施例中,原始数据采集模块601采集原始etc客户训练数据及原始etc客户测试数据;衍生特征移植模块602根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;模型训练构建模块603根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。本发明实施例衍生特征移植模块602基于目标特征信息衍生新属性特征信息,将衍生得到的新属性特征信息移植至etc客户测试数据中,进而模型训练构建模块603利用原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型。鉴于移植后的etc客户测试数据引入了目标特征信息,能够提高基于有监督学习的etc客户识别模型的训练效果。

图7示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建装置的另一功能模块,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高基于有监督学习的etc客户识别模型的训练效果,参考图7,所述基于有监督学习的etc客户识别模型构建装置所包含的各个模块用于执行图2对应实施例中的各个步骤,具体请参阅图2以及图2对应实施例中的相关描述,此处不再赘述。本发明实施例中,在上述图6所示模块结构的基础上,所述基于有监督学习的etc客户识别模型构建装置还包括数据清洗模块701。

数据清洗模块701,用于分别对采集的原始etc客户训练数据及原始etc客户测试数据进行清洗,获得清洗后的etc客户训练数据及清洗后的etc客户测试数据。

衍生特征移植模块602,还用于根据清洗后etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据。

模型训练构建模块603,还用于根据清洗后的etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。

在本发明实施例中,数据清洗模块701分别对采集的原始etc客户训练数据及原始etc客户测试数据进行清洗,获得清洗后的etc客户训练数据及清洗后的etc客户测试数据,衍生特征移植模块602根据清洗后etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据,模型训练构建模块603根据清洗后的etc客户训练数据及移植后的etc客户测试数据训练监督有学习模型,获得构建的基于有监督学习的etc客户识别模型。本发明实施例数据清洗模块701通过对原始etc客户训练数据及原始etc客户测试数据进行清洗,进而衍生特征移植模块602将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息添加至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据,最后模型训练构建模块603利用清洗后的etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,以进一步提高基于有监督学习的etc客户识别模型的训练效果。

图8示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建装置中衍生特征移植模块602的结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高基于有监督学习的etc客户识别模型的训练效果,参考图8,所述衍生特征移植模块602所包含的各个单元用于执行图3对应实施例中的各个步骤,具体请参阅图3以及图3对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述衍生特征移植模块602包括属性特征衍生单元801及衍生特征移植单元802。

属性特征衍生单元801,用于根据清洗后etc客户训练数据中的目标特征信息与目标属性特征交叉衍生新属性特征信息。

衍生特征移植单元802,用于将基于清洗后etc客户训练数据中目标特征信息与目标属性特征交叉衍生得到的新属性特征信息移植至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据。

在本发明实施例中,属性特征衍生单元801根据清洗后etc客户训练数据中的目标特征信息与目标属性特征交叉衍生新属性特征信息;衍生特征移植单元802将基于清洗后etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至清洗后的etc客户测试数据中,获得移植后的etc客户测试数据。本发明实施例属性特征衍生单元801利用目标特征信息与目标属性特征交叉衍生新属性特征信息,能够进一步提高基于有监督学习的etc客户识别模型的训练效果。

图9示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建装置中衍生特征移植模块602的另一结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,目标特征信息列包括目标特征信息列,新属性特征信息包括新属性特征信息列。为了实现将目标特征信息列移植到etc客户测试数据中,进一步提高基于有监督学习的etc客户识别模型的训练效果,参考图9,所述衍生特征移植模块602所包含的各个单元用于执行图4对应实施例中的各个步骤,具体请参阅图4以及图4对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述衍生特征移植模块602包括空列增加单元901、主键确定单元902、匹配列填充单元903及未匹配列填充单元904。

空列增加单元901,用于在清洗后etc客户测试数据中增加基于目标特征信息列衍生得到的新属性特征信息列对应的空列。

主键确定单元902,用于根据清洗后etc客户训练数据和清洗后etc客户测试数据是否包含共有特征列确定主键。

匹配列填充单元903,用于将基于目标特征信息列衍生得到的新属性特征信息列中与清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列对应位置的值填充至空列的匹配列中;

未匹配列填充单元904,用于将预设固定值或清洗后etc客户测试数据中属性特征列的交叉值填充至空列中除匹配列之外的未匹配列中。

在本发明实施例中,空列增加单元901在清洗后etc客户测试数据中增加基于目标特征信息列衍生得到的新属性特征信息列对应的空列;主键确定单元902根据清洗后etc客户训练数据和清洗后etc客户测试数据是否包含共有特征列确定主键;匹配列填充单元903将基于目标特征信息列衍生得到的新属性特征信息列中与清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列对应位置的值填充至空列的匹配列中;未匹配列填充单元904将预设固定值或清洗后etc客户测试数据中属性特征列的交叉值填充至空列中除匹配列之外的未匹配列中。本发明实施例匹配列填充单元903将基于目标特征信息列衍生得到的新属性特征信息列中与清洗后etc客户测试数据清洗后etc客户训练数据和清洗后etc客户测试数据主键相同的行对应的匹配列对应位置的值填充至空列的匹配列中,未匹配列填充单元904将预设固定值或清洗后etc客户测试数据中属性特征列的交叉值填充至空列中除匹配列之外的未匹配列中,以实现目标特征信息(新属性特征信息)移植至etc客户测试数据中,能够进一步提高基于有监督学习的etc客户识别模型的训练效果。

图10示出了本发明实施例提供的基于有监督学习的etc客户识别模型构建装置中主键确定单元902的结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定主键的准确性,进而进一步提高基于有监督学习的etc客户识别模型的训练效果,参考图10,所述主键确定单元902所包含的各个子单元用于执行图5对应实施例中的各个步骤,具体请参阅图5以及图5对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述主键确定单元902包括第一主键确定子单元1001与第二主键确定子单元1002。

第一主键确定子单元1001,用于在清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列时,将清洗后etc客户训练数据和清洗后etc客户测试数据包含的共有特征列作为主键。

第二主键确定子单元1002,用于在清洗后etc客户训练数据和清洗后etc客户测试数据未包含共有特征列时,将清洗后etc客户训练数据包含的多个预设属性特征的组合作为主键。

在本发明实施例中,第一主键确定子单元1001在清洗后etc客户训练数据和清洗后etc客户测试数据包含共有特征列时,将清洗后etc客户训练数据和清洗后etc客户测试数据包含的共有特征列作为主键;或第二主键确定子单元1002在清洗后etc客户训练数据和清洗后etc客户测试数据未包含共有特征列时,将清洗后etc客户训练数据包含的多个预设属性特征的组合作为主键,能够提高确定主键的准确性,进而进一步提高基于有监督学习的etc客户识别模型的训练效果。

以下结合etc目标客户挖掘的应用场景,简要说明本发明的功能及原理:

etc目标客户挖掘(一个二分类问题,目标特征列target取0或1。0代表未办卡,1代表已办卡)。

对于etc客户训练数据,通过客户id(目标特征),统计每个客户的来店次数,得到count_cust_id新列(新属性特征),另外以target(目标特征)列为依据,统计成功办理etc的次数,得到sum_target列(新属性特征),然后两者相除,得到顾客单次来店成功办理etc的概率buy_rate列(新属性特征)。

对于etc客户测试数据,在etc客户训练数据出现过的相同的顾客(客户id主键),直接将其count_cust_id、sum_target和buy_rate直接复制到对应的客户(新属性特征列移植),对于只在etc客户测试数据出行的客户,统一填充-1,表示未出现的意思。

1、数据集简介:

etc客户训练数据:etc识别模型训练的数据,为带有目标标签值(target)的数据集,target=1表示客户办理了etc业务,target=0表示客户未办理etc业务。

etc客户测试数据:即要进行预测的数据集,为不带目标标签值(target)的数据集。

2、数据格式说明:

etc客户训练数据结构说明:

etc客户测试数据结构说明:

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于有监督学习的etc客户识别模型构建方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于有监督学习的etc客户识别模型构建方法的计算机程序。

本发明可应用于金融场景,也可以应用于移动终端、智能柜台、移动银行等设备上。另外,本发明提供的基于有监督学习的etc客户识别模型构建方法及装置还可以应用于除金融领域之外的其它应用领域,本发明实施例对此不作特别的限制。

综上所述,本发明实施例中,采集原始etc客户训练数据及原始etc客户测试数据;根据原始etc客户训练数据中的目标特征信息,按照预设衍生规则衍生新属性特征信息,将基于原始etc客户训练数据中目标特征信息衍生得到的新属性特征信息移植至原始etc客户测试数据中,获得移植后的etc客户测试数据;根据原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型,获得构建的基于有监督学习的etc客户识别模型。本发明实施例基于目标特征信息衍生新属性特征信息,将衍生得到的新属性特征信息移植至etc客户测试数据中,进而利用原始etc客户训练数据及移植后的etc客户测试数据训练基于有监督学习的etc客户识别模型。鉴于移植后的etc客户测试数据引入了目标特征信息,能够提高基于有监督学习的etc客户识别模型的训练效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1