特征数据的生成方法、装置、计算机设备和存储介质与流程

文档序号:22432036发布日期:2020-10-02 10:16阅读:166来源:国知局
特征数据的生成方法、装置、计算机设备和存储介质与流程

本申请涉及反洗钱技术领域,特别是涉及一种特征数据的生成方法、装置、计算机设备和存储介质。



背景技术:

洗钱是严重的经济犯罪行为,其威胁金融体系的安全稳定,对一个国家的政治稳定、社会安定以及经济安全都构成严重威胁。

目前,很多金融机构都设有反洗钱监测部门,目的是根据交易数据查找出存在洗钱嫌疑的交易主体(客户),并上报监管部门。反洗钱监测的具体实现过程包括:对交易主体对应的交易数据进行特征提取,并将提取出的特征数据输入到预先训练好的反洗钱模型中,得到反洗钱模型输出的该交易主体是否存在洗钱嫌疑的预测结果。

但是,特征提取过程中采用的特征提取语句是相对固定的,如果修改了部分特征提取语句,就需要运行全量特征提取语句重新提取特征数据,以便重新训练反洗钱模型,这个过程非常耗时,并且耗费计算资源。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够节省计算资源的特征数据的生成方法、装置、计算机设备和存储介质。

一种特征数据的生成方法,方法包括:

获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

在其中一个实施例中,上述根据特征提取语句的变更信息,得到变更后的特征提取语句,包括:

根据特征提取语句的变更信息,生成训练特征提取语句;其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。

在其中一个实施例中,上述根据特征提取语句的变更信息,得到变更后的特征提取语句,包括:

根据特征提取语句的变更信息,生成每日特征提取语句;其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

在其中一个实施例中,上述根据特征提取语句的变更信息,得到变更后的特征提取语句,包括:

根据特征提取语句的变更信息,生成全量特征提取语句;全量特征提取语句用于对每日的交易信息进行特征提取得到每日特征数据集。

在其中一个实施例中,在上述确定特征提取语句的变更信息之后,该方法还包括:

根据特征提取语句的变更信息,生成第一数据表;

在采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据之后,方法还包括:

将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中。

在其中一个实施例中,在上述确定特征提取语句的变更信息之后,该方法还包括:

在预先设置的特征数据库中生成第二数据表;

在将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中之后,方法还包括:

将第一数据表中的目标特征数据存储到第二数据表中;

在第二数据表中进行特征衍生,得到衍生特征数据;

将衍生特征数据存储到第一数据表中。

在其中一个实施例中,该方法还包括:

实时监测特征数据的生成状态;

若监测到全量特征数据,则删除特征数据生成过程中的临时文件。

在其中一个实施例中,该方法还包括:

若监测到特征数据的生成状态为失败状态,则获取上一版本的第一数据表;上一版本的第一数据表存储在版本库中;

采用上一版本的第一数据表覆盖特征数据库中当前版本的第二数据表。

在其中一个实施例中,在上述获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件之前,该方法还包括:

接收针对特征提取语句的配置信息的修改操作;

根据修改操作生成当前版本的语句配置文件;

其中,配置信息包括特征提取语句的语句名称、语句描述和语句内容。

一种特征数据的生成装置,该装置包括:

配置文件获取模块,用于获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

变更信息确定模块,用于根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

特征提取语句获取模块,用于根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

特征数据生成模块,用于采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

在其中一个实施例中,上述特征提取语句获取模块,具体用于根据特征提取语句的变更信息,生成训练特征提取语句;其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。

在其中一个实施例中,上述特征提取语句获取模块,具体用于根据特征提取语句的变更信息,生成每日特征提取语句;其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

在其中一个实施例中,上述特征提取语句获取模块,具体用于根据特征提取语句的变更信息,生成全量特征提取语句;全量特征提取语句用于对每日的交易信息进行特征提取得到每日特征数据集。

在其中一个实施例中,该装置还包括:

第一数据表生成模块,用于根据特征提取语句的变更信息,生成第一数据表;

数据存储模块,用于将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中。

在其中一个实施例中,该装置还包括:

第二数据表生成模块,用于在预先设置的特征数据库中生成第二数据表;

数据存储模块,还用于将第一数据表中的目标特征数据存储到第二数据表中;

数据衍生模块,用于在第二数据表中进行特征衍生,得到衍生特征数据;

数据存储模块,还用于将衍生特征数据存储到第一数据表中。

在其中一个实施例中,该装置还包括:

状态监测模块,用于实时监测特征数据的生成状态;

文件删除模块,用于若监测到全量特征数据,则删除特征数据生成过程中的临时文件。

在其中一个实施例中,该装置还包括:

数据表获取模块,用于若监测到特征数据的生成状态为失败状态,则获取上一版本的第一数据表;上一版本的第一数据表存储在版本库中;

数据覆盖模块,用于采用上一版本的第一数据表覆盖特征数据库中当前版本的第二数据表。

在其中一个实施例中,该装置还包括:

修改操作接收模块,用于接收针对特征提取语句的配置信息的修改操作;

语句配置文件生成模块,用于根据修改操作生成当前版本的语句配置文件;

其中,配置信息包括特征提取语句的语句名称、语句描述和语句内容。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

上述特征数据的生成方法、装置、计算机设备和存储介质,先获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;接着根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;之后根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;最后采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。通过本申请实施例,采用版本管理的方式得到变更后的特征提取语句,只执行变更后的特征提取语句,与现有技术中执行全量特征提取语句相比,降低了计算量,因此可以节省计算资源,提高计算速度。

附图说明

图1为一个实施例中特征数据的生成方法的应用环境图;

图2为一个实施例中特征数据的生成方法的流程示意图;

图3为一个实施例中根据特征提取语句的变更信息,得到变更后的特征提取语句步骤的流程示意图;

图4为另一个实施例中特征数据的生成方法的流程示意图;

图5为一个实施例中特征数据的生成装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的特征数据的生成方法,可以应用于如图1所示的应用环境中。该应用环境包括终端102和服务器104。其中,终端102通过网络与服务器104进行通信,终端102接收特征提取语句的配置信息,服务器根据特征提取语句的配置信息生成语句配置文件,根据当前版本的语句配置文件和上一版本的语句配置文件确定特征语句的变更信息,然后根据变更信息得到变更后的特征提取语句和未变更的特征提取语句,采用变更后的特征提取语句对交易信息进行特征提取,最后得到全量特征数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种特征数据的生成方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:

步骤201,获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件。

在生成特征数据时,先确定预设时间段,其中,预设时间段可以是服务器从终端获取到的,也可以是服务器中预先存储的。之后,从预先存储的大量交易信息中,获取预设时间段内的交易信息。

服务器中预先设置有版本库,语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息。获取交易信息的同时,从版本库中获取当前版本的语句配置文件以及上一版本的语句配置文件。其中,特征提取语句可以是sql语句,本申请实施例对此不作详细限定,可以根据实际情况进行设置。

步骤202,根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息。

获取到当前版本的语句配置文件和上一版本的语句配置文件之后,对当前版本的语句配置文件和上一版本的语句配置文件进行比较,得到两个版本的语句配置文件中配置信息的变化,从而确定特征提取语句的变更信息。

例如,当前版本的语句配置文件中,特征提取语句的配置信息1中阈值为a;上一版本的语句配置文件中,特征提取语句的配置信息1中阈值为b;根据两个版本的语句配置文件,得到的变更信息为特征提取语句的配置信息1中阈值由a变为b。

步骤203,根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句。

根据两个版本的语句配置文件得到特征提取语句的变更信息之后,根据变更信息生成相应的特征提取语句,并将生成的特征提取语句作为变更后的特征提取语句。同时,根据变更信息确定未变更的特征提取语句的配置信息,进而根据未变更的特征提取语句的配置信息确定未变更的特征提取语句。

例如,根据变更信息为特征提取语句的配置信息1中阈值由a变为b,根据特征提取语句的配置信息1为b生成特征提取语句1、2、3,并将生成的特征提取语句1、2、3作为变更后的特征提取语句。同时,特征提取语句的配置信息1发生了变化,其他特征提取语句的配置信息2、3未发生变化,那么,之前根据特征提取语句的配置信息2、3生成的特征提取语句11、12无需变更,则特征提取语句11、12为未变更的特征提取语句。

步骤204,采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

在得到变更后的特征提取语句之后,由于部分特征提取语句未变更,因此采用这些特征提取语句进行特征提取得到的特征数据也无需变化。本申请实施例只运行变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据;然后由未变更的特征提取语句对应的特征数据和目标特征数据组成全量特征数据。

上述特征数据的生成方法中,先获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;接着根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;之后根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;最后采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。通过本申请实施例,采用版本管理的方式得到变更后的特征提取语句,只执行变更后的特征提取语句,与现有技术中执行全量特征提取语句相比,降低了计算量,因此可以节省计算资源,提高计算速度。

在一个实施例中,如图3所示,涉及根据特征提取语句的变更信息,得到变更后的特征提取语句的一种可选过程。在上述实施例的基础上,针对不同的场景,根据特征提取语句的变更信息生成不同的特征提取语句,具体可以包括如下步骤:

步骤301,根据特征提取语句的变更信息,生成训练特征提取语句。

其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。具体地,反洗钱监测需要预先训练反洗钱模型,而训练反洗钱模型需要使用训练特征数据集。通常情况下,为了使反洗钱模型的预测结果更加准确,会定期对训练特征数据集进行修正,从而对反洗钱模型进行更新。

由于训练特征数据集中包含的训练特征数据具有时间跨度长、样本数量少的特点,因此针对该特点,在得到特征提取语句的变更信息之后,生成训练特征提取语句。这样,在后续采用变更后的特征提取语句对交易信息进行特征提取时,使用训练特征提取语句进行特征提取,得到的特征数据适用于对训练特征数据集进行修正。

步骤302,根据特征提取语句的变更信息,生成每日特征提取语句。

其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

由于每日特征数据具有时间跨度短、样本数量多的特征,因此针对该特征,在得到特征提取语句的变更信息之后,生成每日特征提取语句。这样,在后续采用变更后的特征提取语句对交易信息进行特征提取时,使用每日特征提取语句,得到的特征数据适用于对每日特征数据集进行修正。

上述根据特征提取语句的变更信息,得到变更后的特征提取语句的过程中,可以根据特征提取语句的变更信息,生成训练特征提取语句;可以根据特征提取语句的变更信息,生成每日特征提取语句。通过本申请实施例,针对不同的场景生成不同的特征提取语句,可以避免因为训练特征数据和每日特征数据的数据分不同而产生的特征提取语句不适用的问题,提高了特征提取语句的适用性。

一个实施例中,如图4所示,涉及一种特征数据的生成方法的一种可选过程。在上述实施例的基础上,具体可以包括如下步骤:

步骤401,接收针对特征提取语句的配置信息的修改操作;根据修改操作生成当前版本的语句配置文件。

服务器可以通过终端接收修改操作,并根据修改操作生成当前版本的语句配置文件。例如,终端接收到将特征提取语句的配置信息1中的阈值从a变更为b的修改操作,然后将该修改操作发送到服务器,服务器接收终端发送的修改操作,并根据修改操作生成当前版本的语句配置文件。其中,配置信息包括特征提取语句的语句名称、语句描述和语句内容。配置信息还可以包括其他信息,本申请实施例对此不作详细限定,可以根据实际情况进行设置。

步骤402,获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件。

其中,语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

步骤403,根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息。

步骤404,根据特征提取语句的变更信息,生成训练特征提取语句。

其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。

步骤405,根据特征提取语句的变更信息,生成每日特征提取语句。

其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

步骤406,根据特征提取语句的变更信息,生成全量特征提取语句。

其中,全量特征提取语句用于对每日的交易信息进行特征提取得到每日特征数据集。

步骤407,根据特征提取语句的变更信息,生成第一数据表。

第一数据表的结构与特征数据的结构相适应。

步骤408,在预先设置的特征数据库中生成第二数据表。

其中,第二数据表与第一数据表的结构相同。

步骤409,采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据。

根据特征提取语句的变更信息生成了训练特征提取语句,采用训练特征提取语句对交易信息进行特征提取,得到目标特征数据;或,根据特征提取语句的变更信息生成了每日特征提取语句,采用每日特征提取语句对交易信息进行特征提取,得到目标特征数据。

步骤410,将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中。

将采用训练特征提取语句进行特征提取得到的训练特征数据,和未变更的特征提取语句对应的特征数据均存到第一数据表中。或者,将采用每日特征提取语句进行特征提取得到的每日特征数据,和未变更的特征提取语句对应的特征数据均存到第一数据表中。

步骤411,将第一数据表中的目标特征数据存储到第二数据表中;在第二数据表中进行特征衍生,得到衍生特征数据;将衍生特征数据存储到第一数据表中。

将训练特征数据和未变更的特征提取语句对应的特征数据均存到第二数据表中,对训练特征数据和未变更的特征提取语句对应的特征数据进行特征衍生,得到衍生特征数据;然后,将衍生特征数据存储到第一数据表中。此时,第一数据表中包括训练特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。

或者,将每日特征数据和未变更的特征提取语句对应的特征数据均存到第二数据表中,对每日特征数据和未变更的特征提取语句对应的特征数据进行特征衍生,得到衍生特征数据;然后,将衍生特征数据存储到第一数据表中。此时,第一数据表中包括每日特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。

上述步骤409到步骤411,可以先在第一数据表中得到训练特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。之后进行数据备份并清空第一数据表,再在第一数据表中得到每日特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。也可以是先在第一数据表中得到每日特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据,之后进行数据备份并清空第一数据表,再在第一数据表中得到训练特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。本申请实施例对此不作详细限定,可以根据实际情况进行设置。

在其中一个实施例中,实时监测特征数据的生成状态;若监测到全量特征数据,则删除特征数据生成过程中的临时文件。

在特征数据生成过程中,实时监测特征数据的生成状态,如果检测到全量特征数据,则确定特征数据的生成状态为成功状态,此时将特征数据生成过程中所产生的临时文件都删除,避免占用存储空间。

在其中一个实施例中,若监测到特征数据的生成状态为失败状态,则获取上一版本的第一数据表;上一版本的第一数据表存储在版本库中;采用上一版本的第一数据表覆盖特征数据库中当前版本的第二数据表。

如果监测到特征数据的生成状态为失败,此时从版本库中获取上一版本的第一数据表,然后用上一版本的第一数据表覆盖掉当前版本的第二数据表。同时,对修正后的训练特征数据集和修正后的每日特征数据集进行压缩并存储到备份存储空间。

上述特征数据的生成过程中,先根据修改操作生成当前版本的语句配置文件;之后,通过版本管理方式确定变更信息,根据变更信息分别生成训练特征提取语句、每日特征提取语句、全量特征提取语句,同时生成第一数据表和第二数据表。接着,执行变更后的特征提取语句得到目标特征数据,并将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中,然后将第一数据表中的特征数据存储到第二数据表中进行特征衍生,再将得到的衍生特征数据存储到第一数据表中,得到全量特征数据。通过本申请实施例,只执行变更后的特征提取语句,可以节省计算资源、提高计算速度;并且,变更后的特征提取语句适用性更强。进一步地,通过第二数据表进行特征衍生,可以得到更全的全量特征数据。最后,在整个过程中,实时监测特征数据的生成状态,及时删除临时文件,可以节省存储资源;或者,采用上一版本的第一数据表覆盖当前版本的第二数据表,避免数据生成错误。

应该理解的是,虽然图2-图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图5所示,提供了一种特征数据的生成装置,包括:

配置文件获取模块501,用于获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

变更信息确定模块502,用于根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

特征提取语句获取模块503,用于根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

特征数据生成模块504,用于采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

本申请实施例中,服务器中预先设置有版本库,语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息。获取交易信息的同时,从版本库中获取当前版本的语句配置文件以及上一版本的语句配置文件。

之后,对当前版本的语句配置文件和上一版本的语句配置文件进行比较,得到两个版本的语句配置文件中配置信息的变化,从而确定特征提取语句的变更信息。接着,根据变更信息生成相应的特征提取语句,并将生成的特征提取语句作为变更后的特征提取语句。同时,根据变更信息确定未变更的特征提取语句的配置信息,进而根据未变更的特征提取语句的配置信息确定未变更的特征提取语句。

然后,只运行变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据;然后由未变更的特征提取语句对应的特征数据和目标特征数据组成全量特征数据。

在其中一个实施例中,上述特征提取语句获取模块503,具体用于根据特征提取语句的变更信息,生成训练特征提取语句;其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。

在其中一个实施例中,上述特征提取语句获取模块503,具体用于根据特征提取语句的变更信息,生成每日特征提取语句;其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

在其中一个实施例中,上述特征提取语句获取模块503,具体用于根据特征提取语句的变更信息,生成全量特征提取语句;全量特征提取语句用于对每日的交易信息进行特征提取得到每日特征数据集。

本申请实施例中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。具体地,反洗钱监测需要预先训练反洗钱模型,而训练反洗钱模型需要使用训练特征数据集。通常情况下,为了使反洗钱模型的预测结果更加准确,会定期对训练特征数据集进行修正,从而对反洗钱模型进行更新。

由于训练特征数据集中包含的训练特征数据具有时间跨度长、样本数量少的特点,因此针对该特点,在得到特征提取语句的变更信息之后,生成训练特征提取语句。这样,在后续采用变更后的特征提取语句对交易信息进行特征提取时,使用训练特征提取语句进行特征提取,得到的特征数据适用于对训练特征数据集进行修正。

每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

由于每日特征数据具有时间跨度短、样本数量多的特征,因此针对该特征,在得到特征提取语句的变更信息之后,生成每日特征提取语句。这样,在后续采用变更后的特征提取语句对交易信息进行特征提取时,使用每日特征提取语句,得到的特征数据适用于对每日特征数据集进行修正。

在其中一个实施例中,该装置还包括:

第一数据表生成模块,用于根据特征提取语句的变更信息,生成第一数据表;

数据存储模块,用于将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中。

在其中一个实施例中,该装置还包括:

第二数据表生成模块,用于在预先设置的特征数据库中生成第二数据表;

数据存储模块,还用于将第一数据表中的目标特征数据存储到第二数据表中;

数据衍生模块,用于在第二数据表中进行特征衍生,得到衍生特征数据;

数据存储模块,还用于将衍生特征数据存储到第一数据表中。

本申请实施例中,可以先在第一数据表中得到训练特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。之后进行数据备份并清空第一数据表,再在第一数据表中得到每日特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。也可以是先在第一数据表中得到每日特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据,之后进行数据备份并清空第一数据表,再在第一数据表中得到训练特征数据、未变更的特征提取语句对应的特征数据和衍生特征数据。

在其中一个实施例中,该装置还包括:

状态监测模块,用于实时监测特征数据的生成状态;

文件删除模块,用于若监测到全量特征数据,则删除特征数据生成过程中的临时文件。

在其中一个实施例中,该装置还包括:

数据表获取模块,用于若监测到特征数据的生成状态为失败状态,则获取上一版本的第一数据表;上一版本的第一数据表存储在版本库中;

数据覆盖模块,用于采用上一版本的第一数据表覆盖特征数据库中当前版本的第二数据表。

本申请实施例中,在特征数据生成过程中,实时监测特征数据的生成状态,如果检测到全量特征数据,则确定特征数据的生成状态为成功状态,此时将特征数据生成过程中所产生的临时文件都删除,避免占用存储空间。

如果监测到特征数据的生成状态为失败,此时从版本库中获取上一版本的第一数据表,然后用上一版本的第一数据表覆盖掉当前版本的第二数据表。同时,对修正后的训练特征数据集和修正后的每日特征数据集进行压缩并存储到备份存储空间。

在其中一个实施例中,该装置还包括:

修改操作接收模块,用于接收针对特征提取语句的配置信息的修改操作;

语句配置文件生成模块,用于根据修改操作生成当前版本的语句配置文件;

其中,配置信息包括特征提取语句的语句名称、语句描述和语句内容。

关于特征数据的生成装置的具体限定可以参见上文中对于特征数据的生成方法的限定,在此不再赘述。上述特征数据的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储特征数据的生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征数据的生成方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

根据特征提取语句的变更信息,生成训练特征提取语句;其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

根据特征提取语句的变更信息,生成每日特征提取语句;其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

根据特征提取语句的变更信息,生成全量特征提取语句;全量特征提取语句用于对每日的交易信息进行特征提取得到每日特征数据集。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

根据特征提取语句的变更信息,生成第一数据表;

在采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据之后,方法还包括:

将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

在预先设置的特征数据库中生成第二数据表;

在将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中之后,方法还包括:

将第一数据表中的目标特征数据存储到第二数据表中;

在第二数据表中进行特征衍生,得到衍生特征数据;

将衍生特征数据存储到第一数据表中。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

实时监测特征数据的生成状态;

若监测到全量特征数据,则删除特征数据生成过程中的临时文件。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

若监测到特征数据的生成状态为失败状态,则获取上一版本的第一数据表;上一版本的第一数据表存储在版本库中;

采用上一版本的第一数据表覆盖特征数据库中当前版本的第二数据表。

在一个实施例中,处理器执行计算机程序时实现以下步骤:

接收针对特征提取语句的配置信息的修改操作;

根据修改操作生成当前版本的语句配置文件;

其中,配置信息包括特征提取语句的语句名称、语句描述和语句内容。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取预设时间段内的交易信息、当前版本的语句配置文件和上一版本的语句配置文件;语句配置文件存储在预先设置的版本库,语句配置文件中包含特征提取语句的配置信息;

根据当前版本的语句配置文件和上一版本的语句配置文件,确定特征提取语句的变更信息;

根据特征提取语句的变更信息,得到变更后的特征提取语句和未变更的特征提取语句;

采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据,并由目标特征数据和未变更的特征提取语句对应的特征数据组成全量特征数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据特征提取语句的变更信息,生成训练特征提取语句;其中,训练特征提取语句用于提取训练特征数据,训练特征数据用于修正训练特征数据集,训练特征数据集用于训练反洗钱模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据特征提取语句的变更信息,生成每日特征提取语句;其中,每日特征提取语句用于提取每日特征数据,每日特征数据用于修正每日特征数据集,每日特征数据集用于输入到反洗钱模型中得到交易主体是否存在洗钱嫌弃的预测结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据特征提取语句的变更信息,生成全量特征提取语句;全量特征提取语句用于对每日的交易信息进行特征提取得到每日特征数据集。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据特征提取语句的变更信息,生成第一数据表;

在采用变更后的特征提取语句对交易信息进行特征提取,得到目标特征数据之后,方法还包括:

将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

在预先设置的特征数据库中生成第二数据表;

在将目标特征数据和未变更的特征提取语句对应的特征数据存储到第一数据表中之后,方法还包括:

将第一数据表中的目标特征数据存储到第二数据表中;

在第二数据表中进行特征衍生,得到衍生特征数据;

将衍生特征数据存储到第一数据表中。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

实时监测特征数据的生成状态;

若监测到全量特征数据,则删除特征数据生成过程中的临时文件。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

若监测到特征数据的生成状态为失败状态,则获取上一版本的第一数据表;上一版本的第一数据表存储在版本库中;

采用上一版本的第一数据表覆盖特征数据库中当前版本的第二数据表。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

接收针对特征提取语句的配置信息的修改操作;

根据修改操作生成当前版本的语句配置文件;

其中,配置信息包括特征提取语句的语句名称、语句描述和语句内容。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1