1.本技术涉及人工智能领域,尤其涉及一种资金流向分类方法、装置、设备、介质及产品。
背景技术:
2.票据贴现是指持票人在需要资金时,将持有的未到期商业承兑汇票等票据,通过背书的方式转让给银行等金融机构,金融机构将票据金额支付给贴现申请人的票据行为。
3.持票人将未到期的商业承兑汇票等票据转让给金融机构后,金融机构需要监管客户贴现获得的资金流向,避免票据资金被套用或流向其他不合规领域。
4.目前通常由人工基于专家规则判断资金流向是否异常,由于异常资金流向属于海量资金流向中的小概率事件,需要投入大量的人力进行逐笔资金的筛查,耗费的时间成本和人工成本较高。
技术实现要素:
5.本技术提供一种资金流向分类方法、装置、设备、介质及产品,用以解决由人工判断资金流向是否异常,导致耗费的时间成本和人工成本较高的问题。
6.第一方面,本技术提供一种资金流向分类方法,包括:
7.获取待分类的贴现数据;所述待分类的贴现数据包括:待分类的贴现行为对应的历史行为数据及贴现基本数据;
8.提取待分类的贴现数据的降维特征对应的待分类特征值;所述降维特征是从初始特征中确定的,所述初始特征的数量大于降维特征的数量;所述初始特征是待分类的贴现数据中可提取的特征;
9.将所述待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类,以确定贴现数据对应的待分类的贴现行为贴现后的资金流向是否异常。
10.第二方面,本技术提供一种资金流向分类装置,包括:
11.获取模块,用于获取待分类的贴现数据;所述待分类的贴现数据包括:待分类的贴现行为对应的历史行为数据及贴现基本数据;
12.提取模块,用于提取待分类的贴现数据的降维特征对应的待分类特征值;所述降维特征是从初始特征中确定的,所述初始特征的数量大于降维特征的数量;所述初始特征是待分类的贴现数据中可提取的特征;
13.分类模块,用于将所述待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类,以确定贴现数据对应的待分类的贴现行为贴现后的资金流向是否异常。
14.第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
15.所述处理器及所述存储器之间电路互连;
16.所述存储器存储计算机执行指令;
17.所述处理器执行所述存储器存储的计算机执行指令,以实现上述第一方面所述的资金流向分类方法。
18.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述第一方面所述的资金流向分类方法。
19.第五方面,本技术提供一种计算机程序产品,包括计算机执行指令,该计算机执行指令被处理器执行时实现上述第一方面所述的资金流向分类方法。
20.本技术提供的资金流向分类方法、装置、设备、介质及产品,获取待分类的贴现数据;所述待分类的贴现数据包括:待分类的贴现行为对应的历史行为数据及贴现基本数据;提取待分类的贴现数据的降维特征对应的待分类特征值;所述降维特征是从初始特征中确定的,所述初始特征的数量大于降维特征的数量;所述初始特征是待分类的贴现数据中可提取的特征;将所述待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类,以确定贴现数据对应的待分类的贴现行为贴现后的资金流向是否异常。采用训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类就可以实现资金的自动筛查,可以提高判断资金流向是否异常的效率,减少时间成本和人工成本的消耗。并且从初始特征中筛选出对分类结果影响较大的降维特征,将降维特征对应的待分类特征值作为训练完成的资金流向分类模型的输入,可以增快分类速度,降低资金流向分类模型的复杂程度,进一步地提高了判断资金流向是否异常的效率。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
22.图1为本技术的一种应用场景示意图;
23.图2为本技术实施例一提供的资金流向分类方法流程图;
24.图3为本技术实施例二提供的资金流向分类方法流程图;
25.图4为本技术实施例四提供的资金流向分类方法流程图;
26.图5为本技术提供的训练对抗网络模型方法示意图;
27.图6为本技术实施例五提供的资金流向分类装置的结构示意图;
28.图7为本技术实施例六提供的电子设备的结构示意图。
29.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
30.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
31.术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
32.下面对本技术中涉及的名词进行解释:
33.出票人:出票人是开立票据并将其交付给他人的法人、其它组织或者个人。
34.收票人:又称为“收款人”,是指持有票据的人,是票据权利的享有者。收票人客观上是持有票据的人,票据为收款人持有,则收票人又称为“持票人”。
35.付款人:付款人是出票人命令支付票据款项的人,付款人只有在票据上签章,确认付款责任(如承兑)以后,他才成为票据的债务人。付款人是票据的主债务人。
36.承兑人:承兑人是指承诺在汇票到期日向持票人支付汇票金额的法人、其它组织或者个人。
37.贴现机构:贴现机构是指接收客户(持票人)为提前取得现款出卖的没有到期的票据的机构。
38.商业承兑汇票:商业承兑汇票是由出票人签发的,由银行以外的付款人承兑,委托付款人在指定日期无条件支付确定的金额给收款人或者持票人的票据。
39.银行承兑汇票:银行承兑汇票是由出票人签发的,由银行承兑的,委托付款人在指定日期无条件支付确定的金额给收款人或者持票人的票据。
40.贴现资金入账账户:贴现获得的资金转入的账户。
41.背书人:背书人是指收款人或者持票人在接受票据后,经过背书,再将票据转让给他人的法人、其它组织或者个人。
42.被背书人:被背书人是指在背书活动过程中,接受背书票据的法人、其它组织或者个人。
43.下面对本发明所涉及的现有技术进行详细说明及分析。
44.客户将未到期的商业汇票等票据转让给金融机构后,金融机构需要监管客户贴现获得的资金流向,具体地需要监控贴现资金流向房地产、股市、以及票据的出票人、直接前手和其他前手的资金路径,避免票据资金被套用或流向其他不合规领域。
45.目前通常由人工基于专家规则判断资金流向是否异常,需要投入大量的人力进行逐笔资金的筛查,非常耗费时间成本和人工成本。发明人在研究中发现,采用训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类就可以实现资金的自动筛查,无需人工处理,而由于贴现行为的相关的贴现数据的数据量较大,可提取的数据的初始特征较多,从中筛选出对分类结果影响较大的降维特征,将降维特征对应的待分类特征值作为训练完成的资金流向分类模型的输入,可以增快分类速度,降低资金流向分类模型的复杂程度。
46.图1为本技术的一种应用场景示意图如图1所示,包括金融机构服务器1、电子设备2,电子设备2中包括资金流向分类装置。持票人将未到期的票据转让给金融机构后持票人获得票据资金的行为为贴现行为,且贴现行为还包括产生资金流向的行为。金融机构服务器2可以获取上述贴现行为相关的贴现数据,并将贴现数据发送至电子设备2;电子设备2可以采用本技术提供的资金流向分类方法对持票人贴现行为相关的贴现数据进行分类,确定
贴现数据对应的贴现后的资金流向是否异常,从而实现对贴现获得的票据资金的流向监控。
47.需要说明的是,本技术意图分类方法、装置、设备、存储介质及程序产品可用于人工智能领域。也可用于除人工智能领域以外的任意领域。本技术意图分类方法、装置、设备、存储介质及程序产品的应用领域不作限定。
48.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
49.实施例一
50.图2为本技术实施例一提供的资金流向分类方法流程图,本技术实施例针对由人工判断资金流向是否异常,导致耗费的时间成本和人工成本较高的问题,提供了资金流向分类方法。本实施例中的方法应用于资金流向分类装置,资金流向分类装置可以位于电子设备中。其中,电子设备可以为表示各种形式的数字计算机。诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。
51.如图2所示,该方法具体步骤如下:
52.步骤s101、获取待分类的贴现数据。
53.应理解的是,本技术的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
54.其中,待分类的贴现数据包括:待分类的贴现行为对应的历史行为数据及贴现基本数据。
55.本技术实施例中,贴现基本数据可以包括以下数据中的至少一种:票据出票日、票据到期日、出票人账号、贴现日期、贴现资金入账账户、贴现客户统一社会信用代码、票据号码、贴现金额、票面金额、贴现利息、贴现机构号码等。其中,票据可以为商业承兑汇票、银行承兑汇票等。
56.本技术实施例中,贴现行为对应的历史行为数据可以包括以下数据中的至少一种:贴现前的票据流转记录、贴现资金入账账户的资金流水等。上述贴现前的票据流转记录如可以如下述表1所示:
57.表1
58.1出票日出票人账户收票人账户票据号码票据金额2背书日背书人账户被背书人账户票据号码票据金额3背书日背书人账户被背书人账户票据号码票据金额4背书日背书人账户被背书人账户票据号码票据金额5背书日背书人账户被背书人账户票据号码票据金额n...............n+1出票日背书人账户被背书人账户票据号码票据金额
59.示例性地,获取待分类的贴现数据的一种实现方法可以为:可以根据银行大数据平台确定是否存在待分类的贴现行为,若存在待分类的贴现行为则获取对应的历史行为数据及贴现基本数据。
60.步骤s102、提取待分类的贴现数据的降维特征对应的待分类特征值。
61.其中,降维特征是从初始特征中确定的,初始特征的数量大于降维特征的数量;初始特征是待分类的贴现数据中可提取的特征。
62.本技术实施例中,初始特征可以包括贴现数据中的贴现基本数据特征以及可以根据贴现数据获得的数据特征。例如,可以为通过历史行为数据获取的票据流转次数,通过贴现客户统一社会信用代码获取的贴现客户的贴现次数等。
63.本技术实施例中,降维特征为初始特征中对分类影响较大的特征。在步骤s102提取待分类的贴现数据的降维特征对应的待分类特征值之前预先确定降维特征,在获取待分类的贴现数据之后可以仅提取降维特征对应的待分类特征值,按降维特征对应的待分类特征值对待分类特征对应的贴现数据进行分类。
64.步骤s103、将待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类,以确定贴现数据对应的贴现后的资金流向是否异常。
65.本技术实施例不限制采用的资金流向分类模型,资金流向分类模型可以采用任意一种可以根据待分类特征值对贴现数据进行分类的算法构建,例如,朴素贝叶斯算法、逻辑回归算法、决策树算法、支持向量机算法、聚类算法等。将待分类特征值输入训练完成的资金流向分类模型中,就可以实现对待分类特征对应的贴现数据的分类,确定贴现数据对应的贴现后的资金流向是否异常。
66.本技术实施例提供的方法,获取待分类的贴现数据;待分类的贴现数据包括:待分类的贴现行为对应的历史行为数据及贴现基本数据;提取待分类的贴现数据的降维特征对应的待分类特征值;降维特征是从初始特征中确定的,初始特征的数量大于降维特征的数量;初始特征是待分类的贴现数据中可提取的特征;将待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类,以确定贴现数据对应的待分类的贴现行为贴现后的资金流向是否异常。采用训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类就可以实现资金的自动筛查,可以提高判断资金流向是否异常的效率,减少时间成本和人工成本的消耗。并且从初始特征中筛选出对分类结果影响较大的降维特征,将降维特征对应的待分类特征值作为训练完成的资金流向分类模型的输入,可以增快分类速度,降低资金流向分类模型的复杂程度,进一步地提高了判断资金流向是否异常的效率,减少了时间成本的消耗。
67.可选地,训练完成的资金流向分类模型中可以包括训练完成的k均值聚类算法,训练完成的k均值聚类算法中包括训练完成的资金分类聚类中心,步骤s103将待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的待分类的贴现行为进行分类,以确定待分类特征对应的贴现后的资金流向是否异常的一种实现方式的细化,具体包括:
68.步骤s1031、计算待分类特征值与各训练完成的资金分类聚类中心的欧式距离。
69.步骤s1032、根据欧式距离最大的对应的资金分类聚类中心确定待分类特征对应的贴现后的资金流向是否异常。
70.具体地,计算待分类特征值与异常资金流向对应的资金分类聚类中心的欧式距离,并计算待分类特征值与非异常资金流向对应的资金分类聚类中心的欧式距离;若与异常资金流向对应的资金分类聚类中心的欧式距离为最大值,则确定待分类特征对应的贴现后的资金流向异常;若与非异常资金流向对应的资金分类聚类中心的欧式距离为最大值,
则确定待分类特征对应的贴现后的资金流向正常。
71.本技术实施例提供的方法,计算待分类特征值与各训练完成的资金分类聚类中心的欧式距离;根据欧式距离最大的对应的资金分类聚类中心确定待分类特征对应的贴现后的资金流向是否异常。由于训练完成的资金流向分类模型中包括训练完成的k均值聚类算法,k均值聚类算法对贴现后的资金流向的分类更为准确,因此采用包括k均值聚类算法的训练完成的资金流向分类模型对贴现数据进行分类,可以提高确定贴现数据对应的贴现后的资金流向是否异常的准确率。
72.实施例二
73.图3为本技术实施例二提供的资金流向分类方法流程图,在上述实施例一的基础上,本实施例涉及的是对步骤s102提取待分类的贴现数据的降维特征对应的待分类特征值之前,确定待分类的贴现数据的具体过程。
74.如图3所示,该方法具体步骤如下:
75.步骤s201、获取多个历史贴现数据。
76.其中,历史贴现数据包括历史贴现行为对应的历史行为数据及贴现基本数据。历史贴现行为是贴现完成且已经确定对应的贴现后的资金流向是否异常的贴现行为。
77.本技术实施例中,本技术实施例不限制获取多个历史贴现数据的方式。示例性地,可以在确定贴现行为对应的贴现后的资金流向是否异常后,将贴现行为对应的历史行为数据及贴现基本数据存储于某一存储空间中;通过从该存储空间中获取一定时间段内的历史贴现数据。
78.步骤s202、提取各历史贴现数据的初始特征对应的特征值,并将提取的各历史贴现数据的初始特征对应的特征值确定为初始样本数据。
79.本技术实施例中,可以预先将可以根据贴现数据提取出的大部分特征确定为初始特征。在确定初始特征后,提取各历史贴现数据的初始特征对应的特征值,并将提取的各历史贴现数据的初始特征对应的特征值确定为初始样本数据。
80.步骤s203、采用随机森林算法根据初始样本数据从各初始特征中确定降维特征。
81.具体地,可以采用随机森林算法根据初始样本数据构建对可以对贴现数据进行分类、确定贴现数据对应的贴现后的资金流向是否异常的随机森林,根据构建的随机森林从各初始特征中确定降维特征。
82.本技术实施例提供的方法,通过获取多个历史贴现数据;历史贴现数据包括历史贴现行为对应的历史行为数据及贴现基本数据;提取各历史贴现数据的初始特征对应的特征值,并将提取的各历史贴现数据的初始特征对应的特征值确定为初始样本数据;采用随机森林算法根据初始样本数据从各初始特征中确定降维特征,可以实现降维特征的确定,从而可以将降维特征对应的特征值作为资金流向分类模型的输入,减少需要提取的特征值,并可以降低资金流向分类模型的复杂程度,从而提高判断资金流向是否异常的效率。
83.可选地,一种采用随机森林算法根据初始样本数据从各初始特征中确定降维特征的方式包括以下步骤:
84.步骤s2031、采用随机森林算法根据初始样本数据确定各初始特征的权重。
85.步骤s2032、将各初始特征按照对应权重从大到小的顺序排序。
86.步骤s2033、将在预设排名之前的初始特征确定为降维特征。
87.示例性地,若初始特征的数量为100个,预设排名可以为20,在采用随机森林算法根据初始样本数据确定各初始特征的权重后,可以取权重最大的20个初始特征,将这20个初始特征确定为降维特征。
88.本技术实施例不限制获取预设排名的方式,示例性地,可以通过输入获取预设排名,也可以通过初始特征的数量和预设百分比确定预设排名。例如,若初始特征的数量为200,预设百分比为20%,则可以确定预设排名为40名。
89.应理解的是,上述采用随机森林算法根据初始样本数据从各初始特征中确定降维特征的方法仅为采用随机森林算法确定降维特征的一种实现方式,还可以采取任意一种方式根据各初始特征的权重确定降维特征。
90.本技术实施例提供的方法,采用随机森林算法根据初始样本数据确定各初始特征的权重;将各初始特征按照对应权重从大到小的顺序排序;将在预设排名之前的初始特征确定为降维特征。采用随机森林算法确定各初始特征的权重,按各初始特征的权重确定降维特征,可以确保确定的降维特征对分类结果的影响大于除降维特征以外的初始特征对分类结果的影响,可以提高对待分类特征对应的贴现数据进行分类的分类结果的准确性。
91.本技术实施例中,在从各初始特征中确定降维特征后,可以执行s102步骤提取待分类的贴现数据的降维特征对应的待分类特征值。一种可选地具体实施方式为:获取初始特征中降维特征的类别;按照初始特征中降维特征的类别从待分类的贴现数据中提取相同类别的降维特征;确定待分类的贴现数据的降维特征对应的待分类特征值。
92.具体地,在采用随机森林算法根据初始样本数据从各初始特征中确定降维特征后,就可以确定对分类结果影响较大的降维特征的类别;在获取待分类的贴现数据后,可以按照降维特征的类别从待分类的贴现数据中提取相同类别的降维特征,从而获取待分类的贴现数据的降维特征对应的待分类特征值。
93.本技术实施例提供的方法,获取初始特征中降维特征的类别;按照初始特征中降维特征的类别从待分类的贴现数据中提取相同类别的降维特征;确定待分类的贴现数据的降维特征对应的待分类特征值,可以确保确定的降维特征对分类结果的影响大于除降维特征以外的初始特征对分类结果的影响,将降维特征对应的待分类特征值输入训练完成的资金流向分类模型中,可以提高对待分类特征对应的贴现数据进行分类的分类结果的准确性。
94.实施例三
95.在上述实施例的基础上,本实施例涉及的是步骤s2031采用随机森林算法根据初始样本数据确定各初始特征的权重的一种实现方式的细化,具体包括:
96.步骤s301、根据初始样本数据建立多个决策树,并将多个决策树组合为随机森林。
97.其中,决策树中包括预设数量的初始特征。应理解的是,预设数量小于初始特征的数量。例如,初始特征的数量为100个,则预设数量可以为80个、50个、30个等,本技术实施例不做具体限定。
98.具体地,从初始特征中随机取预设数量的特征;确定初始样本数据的预设数量的特征对应的特征值;根据预设数量的特征对应的特征值建立决策树。采用上述方法建立多个决策树,并将多个决策树组合为随机森林。
99.本技术实施例中,可以从预设数量的特征中选择一个最优特征作为根节点分裂的
标准;从预设数量的特征中选择除已选择的最优特征以外的最优特征作为叶节点分裂的标准;以此类推按自根至叶的递归过程完成决策树的建立。
100.示例性地,可以将各特征的信息增益熵作为选择最优特征的依据。例如,可以获取当前节点最大的信息增益熵,将最大信息增益熵对应的特征确定为最优特征。例如,预设数量的特征包括特征1、特征2、特征3、特征4、特征5;若特征1到特征5中特征3的信息增益熵最大,则将特征3确定为最优特征,选为当前节点的分裂的标准;若特征3的特征值包括特征值31、特征值32,则根据初始样本数据中特征3对应的特征值为31的样本数据计算特征1、特征2、特征4、特征5的信息增益熵,将信息增益熵最大的特征确定为特征值31对应分支节点的划分特征,即分裂的标准;并确定特征值31对应分支节点的划分特征的方法确定特征值32对应分支节点的划分特征;按上述方法对每个分支做进一步划分,最终得到决策树。
101.本技术实施例中,计算特征的信息增益熵的方法为:
102.(1)计算信息熵。计算信息熵的公式为:
[0103][0104]
其中,pi为初始样本数据对应的资金流向为异常的概率或非异常的概率,i=1,2,表示分类结果。例如,10000个资金流水中100个归为异常,则异常的概率p=100/10000=0.01。
[0105]
(2)基于分类结果,计算条件熵。计算条件熵的公式为:
[0106][0107]
其中,i=1,2,
…
,m,m为表示特征对应特征值的种类。例如,特征为:一季度贴现次数,对应特征值可以分为:0次、1-3次、4次以上,则m为3。pi表示该特征的特征值为i对应的特征值的种类的概率。h(y|x=xi)表示确定了特征对应特征值为i对应的特征值的种类后,分类结果的不确定性。
[0108]
(3)计算信息增益熵。计算信息熵的公式为:信息增益熵=信息熵-条件熵。
[0109]
本技术实施例中,不断重复计算步骤(2)、步骤(3)可以获取当前节点下未被确定为划分特征的特征对应的信息增益熵;获取当前节点下最大信息增益熵对应的特征,就可以确定当前节点分裂的标准,从而形成一个完整的决策树。其中,划分特征为已经确定为节点分裂的标准的特征。
[0110]
步骤s302、确定各决策树中的初始特征在决策树中的特征分权重。
[0111]
本技术实施例中,决策树是根据预设数量的初始特征构建的。特征分权重为预设数量的初始特征在决策树中的权重。例如,决策树根据30个初始特征构建,确定这30个初始特征在该决策树种的特征分权重。
[0112]
应理解的是,多个决策树中可能存在同一初始特征,因此同一初始特征可能存在多个特征分权重。
[0113]
本技术实施例不限制确定特征分权重的方式,初始特征在决策树中作为划分特征的节点越靠近根节点,其确定的特征分权重越高。根节点对应的划分特征的特征分权重在同一同一决策树的预设数量的初始特征中最高。
[0114]
可选地,确定各决策树中的初始特征在决策树中的特征分权重的方法可以为:根据各决策树中的初始特征的信息增益熵确定各决策树中的初始特征在决策树中的特征分权重。
[0115]
本技术实施例中,在建立多个决策树时,需要计算各决策树中的预设数量的特征的信息增益熵。由于信息增益熵的熵值越大,随机变量即分类结果的不确定性越高,也就是对应的特征对分类结果的影响越大,因此确定的在决策树中的特征分权重越大。
[0116]
示例性地,可以根据确定根节点的划分特征时,计算的各预设数量的初始特征的信息增益熵确定特征对应的特征分权重。例如,可以对各预设数量的初始特征的信息增益熵进行归一化处理,将归一化处理后的信息增益熵确定为对应的特征分权重。
[0117]
本技术实施例中,根据各决策树中的初始特征的信息增益熵确定各决策树中的初始特征在决策树中的特征分权重,可以提高确定的特征分权重的准确性,从而提高根据特征分权重确定的初始特征的权重的准确性。
[0118]
步骤s303、将初始样本数据输入建立完成的随机森林中,以确定各决策树的权重。
[0119]
可选地,确定各决策树的权重的方法可以为:
[0120]
步骤s3031、将初始样本数据输入建立完成的随机森林中,以使随机森林中各决策树及随机森林对初始样本数据进行分类。
[0121]
具体地,将初始样本数据输入建立完成的随机森林中后,随机森林中各决策树对初始样本数据进行分类获得各决策树对初始样本数据的分类结果,将各决策树的分类结果中最多的分类结果确定为随机森林对初始样本数据的分类结果。例如,若存在2个决策树对某一初始样本数据的分类结果为资金流向异常,存在18个决策树对某一初始样本数据的分类结果为资金流向非异常,则随机森林对该初始样本数据的分类结果为资金流向非异常。
[0122]
步骤s3032、计算决策树的对初始样本数据的分类与随机森林的对初始样本数据的分类一致的一致输出占比。
[0123]
例如,若某决策树对20个初始样本数据的分类结果中,存在对18个初始样本数据的分类与随机森林对这18个初始样本数据的分类一致,则该决策树的一致输出占比为18/20。
[0124]
步骤s3033、根据各决策树的一致输出占比确定各决策树的权重。
[0125]
本技术实施例中,决策树的一致输出占比越大确定的权重越大。示例性地,可以直接将一致输出占比确定为各决策树的权重,也可以对一致输出占比进行归一化处理,将归一化处理后的一致输出占比确定为对应的决策树的权重等。
[0126]
本技术实施例中,将初始样本数据输入建立完成的随机森林中,以使随机森林中各决策树及随机森林对初始样本数据进行分类;计算决策树的对初始样本数据的分类与随机森林的对初始样本数据的分类一致的一致输出占比;根据各决策树的一致输出占比确定各决策树的权重。通过一致输出占比可以较为准确的确定决策树分类的准确性,从而提高确定的决策树的权重的准确性,进一步地提高根据决策树的权重确定的初始特征的权重的准确性。
[0127]
步骤s304、将特征分权重与决策树的权重加权求和的计算结果确定为各初始特征的权重。
[0128]
本技术实施例中,由于多个决策树中可能存在同一初始特征,同一初始特征可能
存在多个特征分权重,因此需要将同一初始特征的多个特征分权重与对应决策树的权重进行加权求和,以确定该初始特征的权重。
[0129]
本技术实施例提供的方法,根据初始样本数据建立多个决策树,并将多个决策树组合为随机森林;决策树中包括预设数量的初始特征;确定各决策树中的初始特征在决策树中的特征分权重;将初始样本数据输入建立完成的随机森林中,以确定各决策树的权重;将特征分权重与决策树的权重加权求和的计算结果确定为各初始特征的权重。根据特征分权重与决策树的权重加权求和的计算结果,可以结合初始特征在决策树中的特征分权重及实现对各初始特征的权重的较为准确的计算,从而确保确定的降维特征对分类结果的影响大于除降维特征以外的初始特征对分类结果的影响。
[0130]
实施例四
[0131]
图4为本技术实施例四提供的资金流向分类方法流程图,在上述实施例一的基础上,本实施例涉及的是对步骤s103将待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的待分类的贴现行为进行分类,以确定待分类特征对应的待分类的贴现行为贴现后的资金流向是否异常之前,训练资金流向分类模型的具体过程。
[0132]
如图4所示,该方法具体步骤如下:
[0133]
步骤s401、将初始样本数据中降维特征对应的特征值确定为历史训练样本数据。
[0134]
应理解的是,在执行步骤s401之前,已经完成步骤s201到步骤s203获取多个历史贴现数据,根据历史贴现数据确定初始样本数据并确定降维特征的操作。在确定降维特征后,将初始样本数据中降维特征对应的特征值确定为历史训练样本数据。
[0135]
步骤s402、根据训练样本数据训练资金流向分类模型。
[0136]
其中,训练样本数据包括历史训练样本数据;历史训练样本数据中包括初始样本数据中降维特征对应的特征值。资金流向分类模型用于判断待分类数据是否为异常资金流向数据。
[0137]
应理解的是,对训练资金流向分类模型的具体训练方法根据训练资金流向分类模型中包括的算法确定,本技术实施例对此不做限定。
[0138]
本技术实施例提供的方法,将初始样本数据中降维特征对应的特征值确定为历史训练样本数据,根据训练样本数据训练资金流向分类模型,可以在获取待分类的贴现数据前完成对资金流向分类模型的训练,以在获取待分类的贴现数据后可以采用训练完成的资金流向分类模型根据待分类特征值对待分类特征对应的贴现数据进行分类,可以提高确定贴现数据对应的贴现后的资金流向是否异常的准确率和速度。
[0139]
可选地,训练样本数据还包括可以虚拟训练样本数据,步骤s402根据训练样本数据训练资金流向分类模型可以包括:
[0140]
步骤s4021、可以采用对抗网络模型根据历史训练样本数据生成虚拟训练样本数据。
[0141]
步骤s4022、根据虚拟训练样本数据及历史训练样本数据训练资金流向分类模型。
[0142]
其中,虚拟训练样本数据包括降维特征对应的虚拟特征值。对抗网络模型中包括生成器及判别器。
[0143]
本技术实施例中,由于历史训练样本数据中资金流向异常的训练样本数据较少,仅采用历历史训练样本数据训练资金流向分类模型,可能会导致训练完成的资金流向分类
模型对贴现数据对应的资金流向分类不准确。
[0144]
具体地,在生成虚拟训练样本数据之前完成对对抗网络模型的训练,将历史训练样本数据及随机噪声输入训练完成的生成器中以生成初始虚拟训练样本数据;若采用判别器确定生成的初始虚拟训练样本数据为真实数据则将初始虚拟训练样本数据确定为样本数据中的虚拟训练样本数据;若采用判别器确定生成的初始虚拟训练样本数据为虚假数据,则抛弃该数据。
[0145]
本技术实施例采用神经网络算法,依据神经网络算法的损失函数生成对口网络中的判别器中的网络组(d)和生成器中的网络组(g),损失函数为:
[0146]
mingmaxdv(d,g)=e
x
→
p(x)
[logd(x)]+e
x
→
p(y)
[log1-d(g(y))]
[0147]
其中,p(x)表示历史训练样本数据分布;p(y)表示噪声分布,e(*)表示期望,g(y)表示虚拟训练样本数据,d(x)表示判别器的判断结果,是样本数据通过判别器后的输出,也即样本数据是真实数据的可能性。
[0148]
可选地,本技术实施例采用的神经网络算法可以为卷积神经网络,卷积神经网络将存储的结构化数据的关键字作为特征去训练分类器进行分类。
[0149]
图5为本技术提供的训练对抗网络模型方法示意图,如图5所示,向生成器输入一批随机噪声生成虚拟训练样本数据;将生成的虚拟训练样本数据及历史训练样本数据输入判别器,使判别器判断输入的样本数据为真实数据还是为虚假数据,根据判别器的判断结果优化判别器中的网络组(d)和生成器中的网络组(g)的参数,直至对抗网络模型的损失函数满足收敛条件。
[0150]
本技术实施例提供的方法,采用对抗网络模型根据历史训练样本数据生成虚拟训练样本数据;虚拟训练样本数据包括降维特征对应的虚拟特征值;根据虚拟训练样本数据及历史训练样本数据训练资金流向分类模型。可以扩充训练样本数据的数量,避免由于训练样本数据中资金流向异常的训练样本数据较少,导致的训练的资金流向分类模型不准确的问题。
[0151]
可选地,资金流向分类模型中包括k均值聚类算法,步骤s4022根据虚拟训练样本数据及历史训练样本数据训练资金流向分类模型一种实现方式的细化,具体包括:将虚拟训练样本数据及历史训练样本数据输入资金流向分类模型中迭代计算资金分类聚类中心;若当前资金分类聚类中心与上一最近资金分类聚类中心的欧式距离小于预设距离阈值则将当前资金分类聚类中心确定为训练完成的资金分类聚类中心。
[0152]
具体地,迭代计算资金分类聚类中心的步骤为:(1)随机从虚拟训练样本数据及历史训练样本数据中选择k个训练样本数据作为初始聚类中心。本技术实施例中k可以为2,分别对应资金流向正常及资金流向异常的初始聚类中心。(2)计算每个训练样本数据到k个初始聚类中心的距离,并且按照其最小距离将每个虚拟训练样本数据分配到对应最近的类。(3)计算分类后的各类中训练样本数据的均值或者重心,将训练样本数据的均值或者重心作为新的聚类中心。(4)重新计算每个数据到k个聚类中心的距离,并将每个数据分配给对应最近的类。重复上述(3)及(4)迭代计算资金分类聚类中心直至当前资金分类聚类中心与上一最近资金分类聚类中心的欧式距离小于预设距离阈值。
[0153]
应理解的是,也可以在资金流向分类模型中k均值聚类算法的目标函数满足收敛条件后,确定资金流向分类模型训练完成。k均值聚类算法的目标函数为所有样本点到其对
应的聚类中心的欧式距离之和,欧式距离sse的计算公式为:
[0154][0155]
其中,i=1、2、
…
、k,k为分类种类个数,x为样本点即训练样本数据,ci为第i个类的聚类中心。
[0156]
本技术实施例提供的方法,将虚拟训练样本数据及历史训练样本数据输入资金流向分类模型中迭代计算资金分类聚类中心;若当前资金分类聚类中心与上一最近资金分类聚类中心的欧式距离小于预设距离阈值则将当前资金分类聚类中心确定为训练完成的资金分类聚类中心。由于资金流向分类模型中包括k均值聚类算法,按对k均值聚类算法进行训练的方法训练资金流向分类模型,可以在获取待分类的贴现数据前完成对资金流向分类模型的训练,以在获取待分类的贴现数据后可以采用训练完成的资金流向分类模型根据待分类特征值对待分类特征对应的贴现数据进行分类,k均值聚类算法对贴现数据的分类更为准确,因此可以提高确定贴现数据对应的贴现后的资金流向是否异常的准确率和速度。
[0157]
实施例五
[0158]
图6为本技术实施例五提供的资金流向分类装置的结构示意图。本技术实施例提供的资金流向分类装置可以执行资金流向分类方法实施例提供的处理流程。如图6所示,该资金流向分类装置60包括:获取模块601,提取模块602,分类模块603。
[0159]
具体地,获取模块601,用于获取待分类的贴现数据;待分类的贴现数据包括:待分类的贴现行为对应的历史行为数据及贴现基本数据;
[0160]
提取模块602,用于提取待分类的贴现数据的降维特征对应的待分类特征值;降维特征是从初始特征中确定的,初始特征的数量大于降维特征的数量;初始特征是待分类的贴现数据中可提取的特征;
[0161]
分类模块603,用于将待分类特征值输入训练完成的资金流向分类模型中对待分类特征对应的贴现数据进行分类,以确定贴现数据对应的待分类的贴现行为贴现后的资金流向是否异常。
[0162]
本技术实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
[0163]
可选地,资金流向分类装置60,还包括特征确定模块;特征确定模块用于:获取多个历史贴现数据;历史贴现数据包括历史贴现行为对应的历史行为数据及贴现基本数据;提取各历史贴现数据的初始特征对应的特征值,并将提取的各历史贴现数据的初始特征对应的特征值确定为初始样本数据;采用随机森林算法根据初始样本数据从各初始特征中确定降维特征。
[0164]
可选地,特征确定模块具体用于:采用随机森林算法根据初始样本数据确定各初始特征的权重;将各初始特征按照对应权重从大到小的顺序排序;将在预设排名之前的初始特征确定为降维特征。
[0165]
可选地,特征确定模块包括权重确定单元,权重确定单元用于:根据初始样本数据建立多个决策树,并将多个决策树组合为随机森林;决策树中包括预设数量的初始特征;确定各决策树中的初始特征在决策树中的特征分权重;将初始样本数据输入建立完成的随机
森林中,以确定各决策树的权重;将特征分权重与决策树的权重加权求和的计算结果确定为各初始特征的权重。
[0166]
可选地,权重确定单元具体用于:根据各决策树中的初始特征的信息增益熵确定各决策树中的初始特征在决策树中的特征分权重。
[0167]
可选地,权重确定单元具体还用于:将初始样本数据输入建立完成的随机森林中,以使随机森林中各决策树及随机森林对初始样本数据进行分类;计算决策树的对初始样本数据的分类与随机森林的对初始样本数据的分类一致的一致输出占比;根据各决策树的一致输出占比确定各决策树的权重。
[0168]
可选地,提取模块602,具体用于获取初始特征中降维特征的类别;按照初始特征中降维特征的类别从待分类的贴现数据中提取相同类别的降维特征;确定待分类的贴现数据的降维特征对应的待分类特征值。
[0169]
可选地,训练完成的资金流向分类模型中包括训练完成的k均值聚类算法;训练完成的k均值聚类算法中包括训练完成的资金分类聚类中心;分类模块603,具体用于计算待分类特征值与各训练完成的资金分类聚类中心的欧式距离;根据欧式距离最大的对应的资金分类聚类中心确定待分类特征对应的贴现后的资金流向是否异常。
[0170]
可选地,资金流向分类装置60还包括训练模块;训练模块用于:将初始样本数据中降维特征对应的特征值确定为历史训练样本数据;根据训练样本数据训练资金流向分类模型;训练样本数据包括历史训练样本数据;资金流向分类模型用于判断待分类数据是否为异常资金流向数据。
[0171]
可选地,训练样本数据还包括虚拟训练样本数据,训练模块具体用于:采用对抗网络模型根据历史训练样本数据生成虚拟训练样本数据;虚拟训练样本数据包括降维特征对应的虚拟特征值;根据虚拟训练样本数据及历史训练样本数据训练资金流向分类模型。
[0172]
可选地,资金流向分类模型中包括k均值聚类算法,根据虚拟训练样本数据及历史训练样本数据训练资金流向分类模型,训练模块具体用于:将虚拟训练样本数据及历史训练样本数据输入资金流向分类模型中迭代计算资金分类聚类中心;若当前资金分类聚类中心与上一最近资金分类聚类中心的欧式距离小于预设距离阈值则将当前资金分类聚类中心确定为训练完成的资金分类聚类中心。
[0173]
本技术实施例提供的装置可以具体用于执行上述方法实施例,具体功能此处不再赘述。
[0174]
实施例六
[0175]
图7为本技术实施例六提供的电子设备的结构示意图,如图7所示,本技术还提供了一种电子设备70,包括:存储器701、处理器702。
[0176]
其中,存储器701用于存储计算机执行指令,与处理器702通信连接。具体地,程序可以包括程序代码,程序代码包括计算机执行指令。存储器701可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0177]
处理器702,用于执行存储器701存储的计算机执行指令。
[0178]
其中,存储计算机执行指令存储在存储器701中,并被配置为由处理器702执行以实现本技术任意一个实施例提供的方法。相关说明可以对应参见附图中的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
[0179]
其中,本技术实施例中,存储器701和处理器702通过总线连接。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component interconnect,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0180]
本技术实施例还提供一种计算机可读存储介质,其上存储有计算机执行指令,计算机执行指令被处理器执行以实现本技术任意一个实施例提供的方法。
[0181]
本技术实施例还提供一种计算机程序产品,包括计算机执行指令,计算机执行指令被处理器执行时实现本技术任意一个实施例提供的方法。
[0182]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0183]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0184]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0185]
用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程全路径轨迹融合装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0186]
在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0187]
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具
体实现细节,但是这些不应当被解释为对本技术的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
[0188]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0189]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。