票据贴现业务信息推送方法和装置与流程

文档序号:32391354发布日期:2022-11-30 08:22阅读:281来源:国知局
技术简介:
本专利针对票据贴现业务信息推送效率低、精准度不足的问题,提出基于人工智能的优化方法。通过构建历史客户特征向量与决策树模型,确定关键特征权重并进行聚类分析,精准识别客户贴现意愿及类型,实现高效、个性化的信息推送,显著提升银行票据贴现业务转化率与运营效率。
关键词:票据贴现推送优化,人工智能决策树

1.本发明涉及信息推送技术领域,特别涉及人工智能领域,尤其涉及一种票据贴现业务信息推送方法和装置。


背景技术:

2.票据贴现业务是银行的主流业务之一,为银行的收入起到了一定的贡献作用。因此,挖掘参与票据贴现的客户对于提高银行的收入十分重要,而挖掘客户的主要形式为向对应的用户进行票据贴现业务信息推送,以使用户可以基于推送的信息参与到票据贴现的业务中。但是,现有技术中,票据贴现业务信息推送的方法主要为客户经理基于相关工作经验选择可能具有贴现意愿的用户进行业务信息推送。而推送过程中需要客户经理花费较长时间整理客户资料并进行相应的分析以确定对应的推送策略,推送速度较慢。而且,由于推送时对用户的选择往往基于人工经验,因此,选择的用户很可能并不具有贴现意愿,从而导致推送时的准确性较低。综上所述,现有技术中,存在票据贴现业务信息推送速度慢、准确性低,从而导致票据贴现业务信息推送效率低下,不利于提高银行收入的问题。


技术实现要素:

3.本发明的一个目的在于提供一种票据贴现业务信息推送方法,以解决现有技术中票据贴现业务信息推送速度慢、准确性低,从而导致票据贴现业务信息推送效率低下,不利于提高银行收入的问题。本发明的另一个目的在于提供一种票据贴现业务信息推送装置。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。
4.为了达到以上目的,本发明的一方面公开了一种票据贴现业务信息推送方法,所述方法包括:
5.将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值;将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值;
6.基于预设的决策树得到向量元素的元素类型的权重;其中,所述决策树与多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签关联;
7.基于所述权重和历史客户特征向量,确定多个目标聚类;根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型;根据所述客户类型向当前客户进行票据贴现业务信息推送。
8.可选的,进一步包括:
9.在将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到每个向量元素对应的归类值之前,
10.基于多个预设的客户认证代码,分别得到对应的初始历史客户信息;
11.对所述初始历史客户信息进行数据清洗、数据抽取和数据标准化处理,得到中间历史客户信息;
12.对所述中间历史客户信息进行特征向量化处理,得到所述历史客户特征向量。
13.可选的,进一步包括:
14.在将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值之前,
15.将预设的当前客户信息进行特征向量化处理,得到所述当前客户特征向量。
16.可选的,所述将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值,包括:
17.基于所述元素值、对应向量元素的元素类型以及预设的所述元素类型对应的多个不同的元素值区间,从所述元素值区间中确定历史客户特征向量的每个向量元素的元素值对应的归属区间;
18.基于所述归属区间,得到所述历史客户特征向量中对应向量元素的归类值。
19.可选的,进一步包括:
20.在基于预设的决策树得到向量元素的元素类型的权重之前,
21.基于多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签,构建决策树。
22.可选的,所述基于多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签,构建决策树,包括:
23.根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整信息熵;其中,所述历史贴现标签的取值为有贴现经历标签或无贴现经历标签;
24.根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵;
25.根据所述完整信息熵和所述根条件熵,得到所述元素类型对应的根信息增益熵,并将根信息增益熵最大的元素类型作为根节点属性建立决策树的根节点;基于所述根节点属性可取的每个归类值,分别建立每个归类值对应的子节点;
26.重复执行建立子节点的步骤,直到无法建立子节点,以完成所述决策树的构建,所述建立子节点的步骤包括:
27.根据所述每个所述子节点对应的子归类值,确定具有对应所述子归类值的向量元素的多个历史客户特征向量为所述子节点的子历史客户特征向量;
28.分别判断每个所述子节点的子历史客户特征向量对应的历史贴现标签是否均相同,若是,将所述子节点作为叶节点;根据每个叶节点对应的叶归类值,确定具有对应所述叶归类值的向量元素的多个历史客户特征向量为所述叶节点的叶历史客户特征向量;
29.若否,根据所有所述子历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到所述子节点中每个所述元素类型的子条件熵;
30.根据所述完整信息熵和所述子条件熵,得到所述元素类型对应的子信息增益熵,并将子信息增益熵最大的元素类型作为子节点属性;基于所述子节点属性可取的每个归类值建立所述子节点下一层的子节点。
31.可选的,所述根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整
信息熵,包括:
32.根据所有所述历史客户特征向量和对应的历史贴现标签,得到所述历史贴现标签取值为有贴现经历标签的已贴现历史客户特征向量的第一数量、以及所述历史贴现标签取值为无贴现经历标签的未贴现历史客户特征向量的第二数量;
33.基于所述第一数量和所有历史客户特征向量的总数量,得到贴现率;
34.基于所述第二数量和所有历史客户特征向量的总数量,得到未贴现率;
35.基于所述贴现率和所述未贴现率,得到完整信息熵。
36.可选的,所述根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵,包括:
37.根据所述向量元素的归类值,分别得到所述元素类型中取不同归类值的向量元素的划分数量;
38.根据所述划分数量和所有历史客户特征向量的总数量,得到划分率;
39.分别将所述元素类型中取不同归类值时对应的历史客户特征向量作为对应的划分向量,并基于所述元素类型中取不同归类值时对应的划分向量和所述划分向量对应的历史贴现标签,得到对应不同归类值的划分信息熵;
40.基于所述元素类型可取的不同归类值对应的划分率和划分信息熵,得到所述元素类型的根条件熵。
41.可选的,所述根据所有所述子历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到所述子节点中每个所述元素类型的子条件熵,包括:
42.根据所述子历史客户特征向量的向量元素的归类值,分别得到子历史客户特征向量的所述元素类型中取不同归类值的向量元素的子划分数量;
43.根据所述子划分数量和所述子历史客户特征向量的子向量数量,得到子划分率;
44.分别将所述元素类型中取不同归类值时对应的子历史客户特征向量作为对应的子划分向量,并基于所述元素类型中取不同归类值时对应的子划分向量和所述子划分向量对应的历史贴现标签,得到对应不同归类值的子划分信息熵;
45.基于所述元素类型可取的不同归类值对应的子划分率和子划分信息熵,得到所述元素类型的子条件熵。
46.可选的,所述基于预设的决策树得到向量元素的元素类型的权重,包括:
47.基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性和根节点属性对应的节点总数;
48.将所述节点总数作为所述元素类型的权重。
49.可选的,所述基于预设的决策树得到向量元素的元素类型的权重,包括:
50.基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性对应的子节点的深度;
51.判断决策树中的根节点属性是否与所述元素类型相同,若否,根据所述深度,得到所述元素类型的权重;
52.若是,根据所述深度,得到所述元素类型的子权重,将所述子权重加上预设的根权重得到所述元素类型的权重。
53.可选的,所述基于所述权重和历史客户特征向量,确定多个目标聚类,包括:
54.判断所述历史客户特征向量的历史贴现标签是否为有贴现经历标签,若是,将所述历史客户特征向量作为备选向量;
55.基于所述权重,确定权重最大的预设保留数量的多个元素类型为标准类型;
56.从所述备选向量中选取多个聚类中心向量,根据所述备选向量和所述聚类中心向量的标准类型的向量元素,确定多个目标聚类。
57.可选的,所述根据所述备选向量和所述聚类中心向量的标准类型的向量元素,确定多个目标聚类,包括:
58.将所述备选向量和所述聚类中心向量的标准类型的向量元素作为标准元素,并将所述备选向量中除聚类中心向量的其他向量作为待分类向量;
59.基于所述标准元素,确定每个所述待分类向量和所述聚类中心向量的第一欧式距离;
60.基于所述第一欧式距离,确定距离所述待分类向量最近的最近聚类中心向量;
61.分别将所述最近聚类中心向量相同的多个所述待分类向量进行聚类,得到多个初始目标聚类;
62.重复执行聚类迭代的步骤,直到存在对应第二欧式距离小于预设距离阈值的除聚类中心向量以外的待分类向量,其中所述聚类迭代的步骤,包括:基于多个初始目标聚类,得到对应的中间聚类中心向量,将所述备选向量中除中间聚类中心向量的其他向量作为待分类向量;基于所述标准元素,确定每个所述待分类向量和所述中间聚类中心向量的第二欧式距离;基于所述第二欧式距离,确定距离所述待分类向量最近的最近中间聚类中心向量;分别将所述最近中间聚类中心向量相同的多个所述待分类向量进行聚类,得到中间目标聚类;将所述中间目标聚类作为所述初始目标聚类;
63.将多个所述中间目标聚类作为所述目标聚类。
64.可选的,所述基于多个初始目标聚类,得到对应的中间聚类中心向量,包括:
65.根据所述初始目标聚类包括的所有特征向量,得到所述初始目标聚类对应的所有特征向量的均值向量;
66.将所述均值向量作为所述中间聚类中心向量。
67.可选的,所述根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述聚类确定所述当前客户特征向量对应的客户类型,包括:
68.根据所述当前客户特征向量的向量元素的归类值,在决策树中确定对应的路径;
69.根据所述路径,得到对应的叶节点;
70.判断所述叶节点对应的历史贴现标签是否为有贴现经历标签,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型。
71.可选的,所述基于所述目标聚类确定所述当前客户特征向量对应的客户类型,包括:
72.基于所述目标聚类,得到每个所述目标聚类中包括的所有最终历史向量;
73.基于所述最终历史向量,得到对应的单体贴现程度值,并将所述单体贴现程度值的平均值作为所述目标聚类的整体贴现程度值;
74.将所述目标聚类按所述整体贴现程度值排序,以基于排序的顺序确定所述目标聚类对应的历史贴现类型;
75.将每个所述目标聚类的所有最终历史向量的平均值作为对应所述目标聚类的平均向量,并确定每个所述平均向量和所述当前客户特征向量的最终欧式距离;
76.将最终欧式距离最近的所述平均向量对应的目标聚类的历史贴现类型作为所述当前客户特征向量对应的客户类型。
77.为了达到以上目的,本发明的另一方面公开了一种票据贴现业务信息推送装置,所述装置包括:
78.归类值确定模块,用于将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值;将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值;
79.决策树处理模块,用于基于预设的决策树得到向量元素的元素类型的权重;其中,所述决策树与多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签关联;
80.推送模块,用于基于所述权重和历史客户特征向量,确定多个目标聚类;根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型;根据所述客户类型向当前客户进行票据贴现业务信息推送。
81.本发明还公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法。
82.本发明还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
83.本发明提供的票据贴现业务信息推送方法和装置,通过将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值;将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值,能够将历史客户特征向量和当前客户特征向量中一些取值范围为无限集的向量元素映射为取值范围为有限集的归类值,而归类值可取的值仅为有限数量的值,从而能够使后续与决策树有关的处理、确定聚类和对应客户类型的步骤能够基于有限范围的归类值实现,减少了数据处理和分类的过程中需要遍历和操作的数据的数量,进而显著提高了整体票据贴现业务信息推送的速度;通过基于预设的决策树得到向量元素的元素类型的权重;其中,所述决策树与多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签关联,能够基于决策树快速准确地确定特征向量中不同的向量元素类型对特征的决定作用和影响程度,从而有利于使后续步骤中仅保留对特征影响程度较大的元素类型对应的向量元素作为确定客户类型的依据,进一步减少了需要遍历和操作的数据的数量,进而间接提高了后续步骤中确定客户类型的速度和准确性,进而间接提高了整体票据贴现业务信息推送的速度和准确性;通过基于所述权重和历史客户特征向量,确定多个目标聚类,能够基于元素类型的权重确定历史客户特征向量中对特征影响程度较大的元素类型对应的向量元素作为聚类的依据,并快速准确地形成具有不同整体特征的聚类;根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型;根据所
述客户类型向当前客户进行票据贴现业务信息推送,能够先使用决策树进行初筛,过滤掉不具有贴现意愿的当前客户的特征向量,仅保留具有贴现意愿的当前客户特征向量作为确定客户类型的对象,从而有效减少了后续推送时需要处理和分析的客户信息的数量,提高了整体推送的速度,并且基于目标聚类确定当前客户特征向量对应的客户类型,能够以目标聚类对应的类型和整体特征为依据,分析当前客户特征向量的特征与哪个目标聚类的整体特征最为接近,从而将最接近的目标聚类的类型作为当前客户特征向量对应的客户类型,由于目标聚类都是基于实际的历史客户特征向量生成的,所以上述步骤能够在以简洁的步骤快速地确定当前客户的客户类型的基础上,还能够显著提高确定的客户类型的准确性,从而有效提高了基于客户类型向对应当前客户进行票据贴现业务信息推送的速度和准确性;综上所述,本发明提供的票据贴现业务信息推送方法和装置,能够提高票据贴现业务信息推送的速度和准确性,从而提高票据贴现业务信息推送效率,进而有利于提高银行的收入。
附图说明
84.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
85.图1示出了本发明实施例的一种票据贴现业务信息推送方法的流程示意图;
86.图2示出了本发明实施例的一种可选的得到历史客户特征向量中每个向量元素对应的归类值的步骤示意图;
87.图3示出了本发明实施例的一种示例性的决策树的示意图;
88.图4示出了本发明实施例的一种可选的确定多个目标聚类的步骤示意图;
89.图5示出了本发明实施例的一种可选的确定当前客户特征向量对应的客户类型的步骤示意图;
90.图6示出了本发明实施例的一种票据贴现业务信息推送装置的模块示意图;
91.图7示出适于用来实现本发明实施例的计算机设备的结构示意图。
具体实施方式
92.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
93.关于本文中所使用的“第一”、“第二”、
……
等,并非特别指称次序或顺位的意思,亦非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
94.关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
95.关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
96.需要说明的是,本发明技术方案中对数据的获取、存储、使用、处理等均符合国家
法律法规的相关规定。
97.本发明实施例公开了一种票据贴现业务信息推送方法,如图1所示,该方法具体包括如下步骤:
98.s101:将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值;将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值。
99.s102:基于预设的决策树得到向量元素的元素类型的权重;其中,所述决策树与多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签关联。
100.s103:基于所述权重和历史客户特征向量,确定多个目标聚类;根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型;根据所述客户类型向当前客户进行票据贴现业务信息推送。
101.示例性的,所述根据所述客户类型向当前客户进行票据贴现业务信息推送的具体实现方式,可由本领域技术人员根据实际情况确定,本发明实施例对此并不做出限制。例如,对于客户类型为“贴现概率很高”的当前客户,通过当面沟通推送的方式向其推送票据贴现业务信息,对于客户类型为“贴现概率较高”的当前客户,通过电话沟通推送的方式向其推送票据贴现业务信息,对于客户类型为“贴现概率中等”的当前客户,通过发送短信的方式向其推送票据贴现业务信息,对于客户类型为“贴现概率较低”的当前客户,通过在客户的有关应用中进行广告弹出的方式向其推送票据贴现业务信息,对于客户类型为“贴现概率很低”的当前客户,则不向其推送票据贴现业务信息。根据所述客户类型向当前客户进行票据贴现业务信息推送的具体方式,可以为但不限于基于所述客户类型确定当前客户的票据贴现意向强度,进而根据所述票据贴现意向强度对应地向当前客户推送票据贴现业务信息。
102.示例性的,所述向量元素的元素类型对应客户的有关属性,包括但不限于性别(如果客户是个人,则为个人性别,如果是公司,则为董事长性别或ceo性别等)、票据持有银行、票据持有时间、票据到期日、持票日、出票人信息、承兑人信息、票据号码、客户社会统一信用代码、客户编号、持票行为类别、总持票数、历史贴现概率、历史背书概率、贷款金额、贸易融资金额、历史贴现金额、上下游企业资金来往金额、企业资产和经营性流出金额等。其中,历史客户特征向量的向量元素的元素类型,需要与当前客户特征向量的向量元素的元素类型一致。需要说明的是,对于向量元素的元素类型,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
103.本发明提供的票据贴现业务信息推送方法和装置,通过将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值;将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值,能够将历史客户特征向量和当前客户特征向量中一些取值范围为无限集的向量元素映射为取值范围为有限集的归类值,而归类值可取的值仅为有限数量的值,从而能够使后续与决策树有关的处理、确定聚类和对应客户类型的步骤能够基于有限范围的归类值实现,减少了数据处理和分类的过程中需要遍历和操作的数据的数量,进而显著提高了整体票据贴现业务信息推送的速度;通过基于预设的决策树得
到向量元素的元素类型的权重;其中,所述决策树与多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签关联,能够基于决策树快速准确地确定特征向量中不同的向量元素类型对特征的决定作用和影响程度,从而有利于使后续步骤中仅保留对特征影响程度较大的元素类型对应的向量元素作为确定客户类型的依据,进一步减少了需要遍历和操作的数据的数量,进而间接提高了后续步骤中确定客户类型的速度和准确性,进而间接提高了整体票据贴现业务信息推送的速度和准确性;通过基于所述权重和历史客户特征向量,确定多个目标聚类,能够基于元素类型的权重确定历史客户特征向量中对特征影响程度较大的元素类型对应的向量元素作为聚类的依据,并快速准确地形成具有不同整体特征的聚类;根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型;根据所述客户类型向当前客户进行票据贴现业务信息推送,能够先使用决策树进行初筛,过滤掉不具有贴现意愿的当前客户的特征向量,仅保留具有贴现意愿的当前客户特征向量作为确定客户类型的对象,从而有效减少了后续推送时需要处理和分析的客户信息的数量,提高了整体推送的速度,并且基于目标聚类确定当前客户特征向量对应的客户类型,能够以目标聚类对应的类型和整体特征为依据,分析当前客户特征向量的特征与哪个目标聚类的整体特征最为接近,从而将最接近的目标聚类的类型作为当前客户特征向量对应的客户类型,由于目标聚类都是基于实际的历史客户特征向量生成的,所以上述步骤能够在以简洁的步骤快速地确定当前客户的客户类型的基础上,还能够显著提高确定的客户类型的准确性,从而有效提高了基于客户类型向对应当前客户进行票据贴现业务信息推送的速度和准确性;综上所述,本发明提供的票据贴现业务信息推送方法和装置,能够提高票据贴现业务信息推送的速度和准确性,从而提高票据贴现业务信息推送效率,进而有利于提高银行的收入。
104.在一个可选的实施方式中,进一步包括:
105.在将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到每个向量元素对应的归类值之前,
106.基于多个预设的客户认证代码,分别得到对应的初始历史客户信息;
107.对所述初始历史客户信息进行数据清洗、数据抽取和数据标准化处理,得到中间历史客户信息;
108.对所述中间历史客户信息进行特征向量化处理,得到所述历史客户特征向量。
109.示例性的,所述客户认证代码,可以为但不限于客户的社会统一信用代码或组织结构代码等。
110.示例性的,所述对所述初始历史客户信息进行数据清洗,可以为但不限于通过样条插值法和线性回归法等清洗方法对历史客户信息中的异常数据进行替换或对一些异常数据进行删除。所述数据抽取,可以为但不限于对相关性强的变量进行降维操作,例如,若初始历史客户信息中存在历史贴现总金额和使用白银卡进行历史贴现的总金额这两个变量,由于本发明实施例中并不关注使用白银卡进行历史贴现的总金额,且历史贴现总金额和使用白银卡进行历史贴现的总金额的本质是相同的,相关性强,因此将使用白银卡进行历史贴现的总金额这个变量删除(使后续有关属性和元素类型不包括使用白银卡进行历史贴现的总金额),以完成降维操作。所述数据标准化处理,可以为但不限于将有关数据转换
为各种适当的格式,例如,对于有关的金额,将其格式转换为粒度为小数点后两位数的格式,如将金额10000元转化为金额10000.00元。需要说明的是,对于对所述初始历史客户信息进行数据清洗、数据抽取和数据标准化处理,得到中间历史客户信息的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
111.示例性的,所述对所述中间历史客户信息进行特征向量化处理,得到所述历史客户特征向量,可以为但不限于将中间历史客户信息中的各属性信息进行对应特征提取,得到对应属性信息的向量元素,再将各个向量元素进行拼接整合得到对应的历史客户特征向量。其中,对于属性信息中属性值为数字的属性信息,在确定向量元素时,可以将作为数字的属性值直接确定为对应的向量元素,或对该属性值进行归一化处理后得到对应的向量元素;而对于属性信息中属性值并不是数字的属性信息(例如,为文字或字符等),在确定向量元素时,可以将属性信息进行数字化处理得到对应的向量化元素,还可以将数字化处理后的产物进行归一化处理得到对应的向量化元素,而所述数字化处理的实现方式,可以为但不限于使用数字化编码(例如,独热编码)算法或对照ascii码表进行处理。其中,对于属性信息中属性值为类别的属性信息(例如持票行为类别、性别等),可以将该属性信息可取的所有类别分别进行编码得到对应该类别的数字,并将属性信息中的属性值替换为对应的数字,例如,若属性信息为性别信息,可取的类别为男和女,则可以用数字0表示男,用数字1表示女。需要说明的是,对于对所述中间历史客户信息进行特征向量化处理,得到所述历史客户特征向量的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
112.示例性的,对于历史客户信息的获取和处理,可以通过但不限于对应的大数据平台实现,例如可以通过但不限于hadoop大数据平台实现。
113.通过上述步骤,能够在对历史客户信息进行错误修正和简化的基础上,快速准确地使历史客户信息转化为便于参与运算和处理的向量形式,从而使后续步骤进行相关运算和处理时的操作更加简洁,有效地提高了整体票据贴现业务信息推送的速度。
114.在一个可选的实施方式中,进一步包括:
115.在将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值之前,
116.将预设的当前客户信息进行特征向量化处理,得到所述当前客户特征向量。
117.示例性的,对于将预设的当前客户信息进行特征向量化处理,得到所述当前客户特征向量的具体实现方式,可以参考本发明实施例中对所述中间历史客户信息进行特征向量化处理,得到所述历史客户特征向量步骤的说明,这里不再赘述。
118.通过上述步骤,能够快速准确地使当前客户信息转化为便于参与运算和处理的向量形式,从而使后续步骤进行相关运算和处理时的操作更加简洁,有效地提高了整体票据贴现业务信息推送的速度。
119.在一个优选的实施方式中,在将预设的当前客户信息进行特征向量化处理之前,先对所述当前客户信息进行数据清洗、数据抽取和数据标准化处理,以对当前客户信息进行错误修正和简化,以提高生成的当前客户特征向量的准确性并使其更加便于参与运算和处理。
120.在一个可选的实施方式中,如图2所示,所述将预设的历史客户特征向量的向量元
素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值,包括如下步骤:
121.s201:基于所述元素值、对应向量元素的元素类型以及预设的所述元素类型对应的多个不同的元素值区间,从所述元素值区间中确定历史客户特征向量的每个向量元素的元素值对应的归属区间。
122.s202:基于所述归属区间,得到所述历史客户特征向量中对应向量元素的归类值。
123.示例性的,所述元素类型对应的多个不同的元素值区间,可由本领域技术人员根据实际情况确定,本发明实施例对此并不做出限制。例如,对于历史贴现金额这个数值型的元素类型,元素值区间可以设置为但不限于:[0,100000)、[100000,500000)、[500000,1000000)和[1000000,+∞)等。例如,对于类别型的元素类型,元素值区间可以设置为可取元素值的本身,例如,对于性别这个类别型的元素类型,可取“男”和“女”两个值(编码后可分别对应0和1或其他对应的数字),则对应的元素值区间即可以设置为“男”和“女”(对应编码后的值,也可为0和1或其他对应的数字)。
[0124]
示例性的,所述从所述元素值区间中确定历史客户特征向量的每个向量元素的元素值对应的归属区间,可以为但不限于先获取该向量元素所属的元素类型的多个元素值区间,再将该向量元素的元素值所在的元素值区间确定为对应的归属区间。例如,某历史客户特征向量中的某个元素(假设对应的元素类型历史贴现金额),其元素值为300000,且此时已知历史贴现金额对应的多个元素值区间为:[0,100000)、[100000,500000)、[500000,1000000)和[1000000,+∞),由此可见,元素值300000对应的区间为[100000,500000),则确定该历史客户特征向量的该向量元素的归属区间为[100000,500000)。需要说明的是,对于步骤s201的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0125]
示例性的,所述基于所述归属区间,得到所述历史客户特征向量中对应向量元素的归类值,可以为但不限于查询预设的元素值区间与归类值之间的对照关系确定,或者将归属区间的上限和下限的均值或两者其中之一作为归类值等。例如,对于某个历史客户特征向量的某个历史贴现金额类型的向量元素,其归属区间为[100000,500000),则查其元素值区间与归类值之间的对照关系,可以得到:[0,100000)对应的归类值为0、[100000,500000)对应的归类值为1、[500000,1000000)对应的归类值为2,且[1000000,+∞)对应的归类值为3,由此可见,该历史客户特征向量的该向量元素的归类值对应为1。再例如,对于某个历史客户特征向量的某个性别类型的向量元素,其归属区间为0(对应性别为男),则可以直接将其归属区间作为归类值,即归类值也为0。设置归类值,主要是针对诸如历史贴现金额和总持票数这样的取值范围为无限集的元素类型,使其向量在有关处理过程中对应元素的取值能够映射为有限集合的归类值,并使用归类值代替原来的真实值进行后续分类处理,从而能够使与决策树以及聚类的有关处理过程中,不会因对应元素的元素值有很多个(例如,若有1000个历史客户特征向量,则对于其中的历史贴现金额这个元素类型对应的元素值,可能有1000个不同的对应元素值,而若通过上述例子的方式映射为归类值,则最多有4个不同的对应归类值)而造成处理麻烦耗时较长的情况。
[0126]
通过上述步骤,能够细化确定归类值的具体依据,从而使多个历史客户特征向量中的所有向量元素对应的归类值之间不会出现相互矛盾以及覆盖范围大而造成准确性较
低的情况,进而提高了后续步骤中基于归类值进行的有关决策树的处理步骤的准确性,且将元素值映射为简易的归类值参与决策树的处理,能够使决策树具有更快的决策速度,从而提高了基于决策树初筛具有贴现意愿的当前客户的速度,进而提高了整体推送的速度。
[0127]
在一个可选的实施方式中,进一步包括:
[0128]
在基于预设的决策树得到向量元素的元素类型的权重之前,
[0129]
基于多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签,构建决策树。
[0130]
示例性的,所述对应的历史贴现标签,可以为但不限于表示历史客户特征向量对应的历史客户是否有贴现经历的标签。
[0131]
示例性的,所述历史客户特征向量的归类值包括每个历史客户特征向量的每个向量元素对应的归类值。
[0132]
通过上述步骤,能够以构建决策树所必需的多个特征向量样本,对应的决策类别标签为输入,构建决策树,从而使构建的决策树是完整的,在使用决策树进行有关处理时,不会出现因树的结构缺失而导致的处理停滞的情况,更有利于后续初筛具有贴现意愿的当前客户特征向量的步骤的顺利执行。
[0133]
在一个可选的实施方式中,所述基于多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签,构建决策树,包括:
[0134]
根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整信息熵;其中,所述历史贴现标签的取值为有贴现经历标签或无贴现经历标签;
[0135]
根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵;
[0136]
根据所述完整信息熵和所述根条件熵,得到所述元素类型对应的根信息增益熵,并将根信息增益熵最大的元素类型作为根节点属性建立决策树的根节点;基于所述根节点属性可取的每个归类值,分别建立每个归类值对应的子节点;
[0137]
重复执行建立子节点的步骤,直到无法建立子节点,以完成所述决策树的构建,所述建立子节点的步骤包括:
[0138]
根据所述每个所述子节点对应的子归类值,确定具有对应所述子归类值的向量元素的多个历史客户特征向量为所述子节点的子历史客户特征向量;
[0139]
分别判断每个所述子节点的子历史客户特征向量对应的历史贴现标签是否均相同,若是,将所述子节点作为叶节点;根据每个叶节点对应的叶归类值,确定具有对应所述叶归类值的向量元素的多个历史客户特征向量为所述叶节点的叶历史客户特征向量;
[0140]
若否,根据所有所述子历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到所述子节点中每个所述元素类型的子条件熵;
[0141]
根据所述完整信息熵和所述子条件熵,得到所述元素类型对应的子信息增益熵,并将子信息增益熵最大的元素类型作为子节点属性;基于所述子节点属性可取的每个归类值建立所述子节点下一层的子节点。
[0142]
示例性的,所述根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整信息熵,可以表示为如下式子:
[0143][0144]
其中,h(p)表示所述完整信息熵,pi在i=1时表示历史客户特征向量对应的有贴现经历概率,而pi在i=2时表示历史客户特征向量对应的无贴现经历概率。而上述有贴现经历概率和无贴现经历的概率,为通过每个历史客户特征向量对应的历史贴现标签确定。例如,有10000个历史客户特征向量,其中有300个历史客户特征向量对应的历史贴现标签为有贴现经历标签,则可以确认有贴现经历概率为300/10000=3%,同理,无贴现经历概率为97%。其中,每个历史客户特征向量的历史贴现标签的具体取值,可由相关工作人员根据有关的历史情况人为设置。需要说明的是,对于根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整信息熵的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0145]
示例性的,所述根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵,可以表示为如下式子:
[0146][0147]
其中,h(y|x)表示所述元素类型对应的根条件熵,pi表示所述元素类型取第i个归类值的概率(划分率)(例如,10000个历史客户特征向量中,对于元素类型历史贴现金额,有1000个历史客户特征向量对应的归类值为1,则该元素类型取归类值为1的概率为1000/10000=10%,归类值1可以被设为第i个归类值),m表示该元素类型可取的归类值的数量,例如,对于历史贴现金额这个元素类型,其可取的归类值有0、1、2和3,则m的值为4。h(y|x=xi)表示所述元素类型x在取某个归类值xi时对应的划分信息熵(该划分信息熵与完整信息熵的性质相同,均为信息熵,只是确定信息熵时所基于的历史客户特征向量的范围不同)。其中,一个元素类型对应一个根条件熵。需要说明的是,对于根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0148]
示例性的,所述根据所述完整信息熵和所述根条件熵,得到所述元素类型对应的根信息增益熵,为将所述完整信息熵减去所述根条件熵,得到所述根信息增益熵。
[0149]
示例性的,基于根节点属性建立决策树的根节点,为本领域常规技术手段,这里不再赘述。例如,如图3所示,若根信息熵最大的元素类型为总持票数,则以总持票数作为根节点属性,建立决策树的根节点——节点1。
[0150]
示例性的,所述基于所述根节点属性可取的每个归类值,分别建立每个归类值对应的子节点,有如下例子:
[0151]
如图3所示,节点1为根节点,其根节点属性为总持票数,而此时已知总持票数这个元素可以取10、11和12这三个归类值(分别对应不同的元素值区间,例如,可以分别对应但不限于[0,1500)、[1500,10000)和[10000,+∞)),则使根节点延伸出三条路径,每条路径远离根节点的一端分别设置有一个子节点,每个子节点对应的归类值(子归类值)不相同,例如,作为子节点的节点2对应的子归类值为10,节点3对应的子归类值为11,节点4对应的子归类值为12。需要说明的是,对于基于所述根节点属性可取的每个归类值,分别建立每个归类值对应的子节点的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅
为举例,对此并不构成限制。
[0152]
示例性的,所述根据所述每个所述子节点对应的子归类值,确定具有对应所述子归类值的向量元素的多个历史客户特征向量为所述子节点的子历史客户特征向量,有如下例子:
[0153]
对于节点2,其对应的子归类值为10,而在所有历史客户特征向量中,元素类型“总持票数”对应的向量元素所取归类值为10的历史客户特征向量(即向量中的代表“总持票数”的元素所取归类值为10的历史客户特征向量)为甲、乙和丙,则将甲、乙和丙确定为节点2的子历史客户特征向量。
[0154]
对于节点3,其对应的子归类值为11,而在所有历史客户特征向量中,元素类型“总持票数”对应的向量元素所取归类值为11的历史客户特征向量为丁、戊和己,则将丁、戊和己确定为节点3的子历史客户特征向量。
[0155]
对于节点4,其对应的子归类值为12,而在所有历史客户特征向量中,元素类型“总持票数”对应的向量元素所取归类值为12的历史客户特征向量为庚、辛、壬和癸,则将庚、辛、壬和癸确定为节点4的子历史客户特征向量。
[0156]
需要说明的是,对于根据所述每个所述子节点对应的子归类值,确定具有对应所述子归类值的向量元素的多个历史客户特征向量为所述子节点的子历史客户特征向量的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0157]
示例性的,所述分别判断每个所述子节点的子历史客户特征向量对应的历史贴现标签是否均相同,若是,将所述子节点作为叶节点;根据每个叶节点对应的叶归类值,确定具有对应所述叶归类值的向量元素的多个历史客户特征向量为所述叶节点的叶历史客户特征向量,有如下例子:
[0158]
节点2的子历史客户特征向量为甲、乙和丙,其中,甲、乙和丙对应的历史贴现标签均为有贴现经历标签,则可知节点2的子历史客户特征向量的历史贴现标签均相同,则将节点2作为叶节点,其对应的叶归类值为10,叶历史客户特征向量对应地则为甲、乙和丙。
[0159]
需要说明的是,对于分别判断每个所述子节点的子历史客户特征向量对应的历史贴现标签是否均相同,若是,将所述子节点作为叶节点;根据每个叶节点对应的叶归类值,确定具有对应所述叶归类值的向量元素的多个历史客户特征向量为所述叶节点的叶历史客户特征向量的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0160]
示例性的,所述根据所有所述子历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到所述子节点中每个所述元素类型的子条件熵,即为针对当前节点对应的全部子历史客户特征向量(例如,对于节点3,其所有子历史客户特征向量为丁、戊和己)求条件熵,而并非针对所有历史客户特征向量求条件熵,因此,子条件熵并不等同于根条件熵。但是对于求子条件熵的具体原理,可参考本发明实施例中对于求根条件熵的描述,这里不再赘述。
[0161]
示例性的,所述根据所述完整信息熵和所述子条件熵,得到所述元素类型对应的子信息增益熵,并将子信息增益熵最大的元素类型作为子节点属性;基于所述子节点属性可取的每个归类值建立所述子节点下一层的子节点的具体实现方式,可以参考本发明实施
例中对根据所述完整信息熵和所述根条件熵,得到所述元素类型对应的根信息增益熵,并将根信息增益熵最大的元素类型作为根节点属性建立决策树的根节点;基于所述根节点属性可取的每个归类值,分别建立每个归类值对应的子节点的步骤的描述,这里不再赘述。
[0162]
例如,如图3所示,若节点3的子节点属性为持票时间,而其对应的可取归类值分别为20和21,则分别建立对应归类值20的节点5和对应归类值21的节点6。同理,若节点4的子节点属性为票据号码,而其对应的可取归类值分别为30和31,则分别建立对应归类值30的节点7和对应归类值31的节点8。且节点5、节点6、节点7和节点8中各自内部包含的历史客户特征向量对应的归类值均一致,则确定节点5、节点6、节点7和节点8为叶节点。
[0163]
需要说明的是,对于构建决策树的各个步骤的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0164]
通过上述步骤,能够以建立id3决策树的标准方法构建决策树,而由于id3种类的决策树包含的结构和参数并不复杂,因此在利用id3决策树初筛具有贴现意愿的当前客户特征向量时,处理和计算的速度更快,从而能够提高整体推送的速度。而且,构建id3决策树所需的步骤也并不复杂,因此,构建决策树的速度也较快,从而能间接提高整体推送的速度。
[0165]
在一个可选的实施方式中,所述根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整信息熵,包括:
[0166]
根据所有所述历史客户特征向量和对应的历史贴现标签,得到所述历史贴现标签取值为有贴现经历标签的已贴现历史客户特征向量的第一数量、以及所述历史贴现标签取值为无贴现经历标签的未贴现历史客户特征向量的第二数量;
[0167]
基于所述第一数量和所有历史客户特征向量的总数量,得到贴现率;
[0168]
基于所述第二数量和所有历史客户特征向量的总数量,得到未贴现率;
[0169]
基于所述贴现率和所述未贴现率,得到完整信息熵。
[0170]
示例性的,所述基于所述第一数量和所有历史客户特征向量的总数量,得到贴现率,为将所述第一数量除以总数量得到贴现率。
[0171]
示例性的,所述基于所述第二数量和所有历史客户特征向量的总数量,得到未贴现率,为将所述第二数量除以总数量得到未贴现率。
[0172]
示例性的,所述基于所述贴现率和所述未贴现率,得到完整信息熵,可以参考本发明实施例中对于式子:
[0173][0174]
的描述,这里不再赘述,其中,pi在i=1时表示历史客户特征向量对应的有贴现经历概率(贴现率),而pi在i=2时表示历史客户特征向量对应的无贴现经历概率(未贴现率)。
[0175]
通过上述步骤,能够以标准的求信息熵方法确定完整信息熵,从而提高了所得到的完整信息熵的准确性,进而提高了后续步骤中构建的决策树、基于决策树进行有关处理的准确性,提高了整体推送的准确性。
[0176]
在一个可选的实施方式中,所述根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵,包括:
[0177]
根据所述向量元素的归类值,分别得到所述元素类型中取不同归类值的向量元素的划分数量;
[0178]
根据所述划分数量和所有历史客户特征向量的总数量,得到划分率;
[0179]
分别将所述元素类型中取不同归类值时对应的历史客户特征向量作为对应的划分向量,并基于所述元素类型中取不同归类值时对应的划分向量和所述划分向量对应的历史贴现标签,得到对应不同归类值的划分信息熵;
[0180]
基于所述元素类型可取的不同归类值对应的划分率和划分信息熵,得到所述元素类型的根条件熵。
[0181]
示例性的,所述元素类型中取不同归类值的向量元素的划分数量,即为对于某个元素类型,其取不同归类值的历史客户特征向量的数量,例如,若元素类型此时为历史贴现金额,有1000个历史客户特征向量中历史贴现金额元素的归类值为1,3000个历史客户特征向量中历史贴现金额元素的归类值为0,5000个历史客户特征向量中历史贴现金额元素的归类值为2,而1000个历史客户特征向量中历史贴现金额元素的归类值为3。则由此可见,对于历史贴现金额这一元素类型而言,归类值为1的划分数量为1000,归类值为2的划分数量为5000,归类值为0的划分数量为3000,归类值为3的划分数量为1000。
[0182]
示例性的,所述根据所述划分数量和所有历史客户特征向量的总数量,得到划分率,具体为将所述划分数量除以总数量得到划分率,例如,对于历史贴现金额这一元素类型而言,归类值为1的划分数量为1000,而总数量为10000,则划分率为1000/10000=10%。
[0183]
示例性的,基于所述元素类型中取不同归类值时对应的划分向量和所述划分向量对应的历史贴现标签,得到对应不同归类值的划分信息熵的具体原理,可以参考本发明实施例对于求完整信息熵的步骤的描述,这里不再赘述,不同点仅在于求划分信息熵时是以对应某归类值的所有划分向量为范围,而求完整信息熵时是以全部历史客户特征向量为范围。
[0184]
示例性的,基于所述元素类型可取的不同归类值对应的划分率和划分信息熵,得到所述元素类型的根条件熵的具体实现方式,可以参考本发明实施例中对于式子:
[0185][0186]
的有关描述,这里不再赘述。
[0187]
通过上述步骤,能够以标准的求条件熵的方法得到每个元素类型的根条件熵,从而使得到的根条件熵具有较高的准确性,进而提高了后续步骤中构建的决策树、基于决策树进行有关处理的准确性,提高了整体推送的准确性。
[0188]
在一个可选的实施方式中,所述根据所有所述子历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到所述子节点中每个所述元素类型的子条件熵,包括:
[0189]
根据所述子历史客户特征向量的向量元素的归类值,分别得到子历史客户特征向量的所述元素类型中取不同归类值的向量元素的子划分数量;
[0190]
根据所述子划分数量和所述子历史客户特征向量的子向量数量,得到子划分率;
[0191]
分别将所述元素类型中取不同归类值时对应的子历史客户特征向量作为对应的子划分向量,并基于所述元素类型中取不同归类值时对应的子划分向量和所述子划分向量对应的历史贴现标签,得到对应不同归类值的子划分信息熵;
[0192]
基于所述元素类型可取的不同归类值对应的子划分率和子划分信息熵,得到所述元素类型的子条件熵。
[0193]
示例性的,所述根据所述子历史客户特征向量的向量元素的归类值,分别得到子历史客户特征向量的所述元素类型中取不同归类值的向量元素的子划分数量的具体原理,可以参考本发明实施例中对于根据所述向量元素的归类值,分别得到所述元素类型中取不同归类值的向量元素的划分数量的步骤的描述,这里不再赘述。
[0194]
示例性的,所述根据所述子划分数量和所述子历史客户特征向量的子向量数量,得到子划分率的具体原理,可以参考本发明实施例中对于根据所述划分数量和所有历史客户特征向量的总数量,得到划分率的步骤的描述,这里不再赘述。
[0195]
示例性的,所述分别将所述元素类型中取不同归类值时对应的子历史客户特征向量作为对应的子划分向量,并基于所述元素类型中取不同归类值时对应的子划分向量和所述子划分向量对应的历史贴现标签,得到对应不同归类值的子划分信息熵的具体原理,可以参考本发明实施例中对于分别将所述元素类型中取不同归类值时对应的历史客户特征向量作为对应的划分向量,并基于所述元素类型中取不同归类值时对应的划分向量和所述划分向量对应的历史贴现标签,得到对应不同归类值的划分信息熵的步骤的描述,这里不再赘述。
[0196]
示例性的,所述基于所述元素类型可取的不同归类值对应的子划分率和子划分信息熵,得到所述元素类型的子条件熵的具体原理,可以参考本发明实施例中对于基于所述元素类型可取的不同归类值对应的划分率和划分信息熵,得到所述元素类型的根条件熵的步骤的描述,这里不再赘述。
[0197]
通过上述步骤,能够以标准的求条件熵的方法得到每个元素类型的在特定子节点中的子条件熵,从而使得到的子条件熵具有较高的准确性,进而提高了后续步骤中构建的决策树、基于决策树进行有关处理的准确性,提高了整体推送的准确性。
[0198]
在一个可选的实施方式中,所述基于预设的决策树得到向量元素的元素类型的权重,包括:
[0199]
基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性和根节点属性对应的节点总数;
[0200]
将所述节点总数作为所述元素类型的权重。
[0201]
示例性的,所述基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性和根节点属性对应的节点总数,将所述节点总数作为所述元素类型的权重,可以为但不限于遍历决策树中的根节点和所有子节点并获取每个节点对应的节点属性,确定与元素类型相同的节点属性所属的节点的数量作为对应的节点总数,并将节点总数作为所述元素类型的权重。例如,对于某个元素类型“上下游企业资金来往金额”,在某颗对应的决策树中,节点属性为“上下游企业资金来往金额”的子节点数量为2,而根节点的节点属性也为“上下游企业资金来往金额”,因此,上述节点总数为3,则元素类型“上下游企业资金来往金额”的权重也为3。需要说明的是,对于基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性和根节点属性对应的节点总数,将所述节点总数作为所述元素类型的权重的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0202]
由于元素类型对应的节点属性所属的节点数量在决策树中是主要反映元素类型对整体向量特征的影响程度的参数之一,因此通过上述步骤,能够使确定的权重与对应的元素类型对整体向量特征的影响程度相符合且成正相关,从而能够提高确定的权重的准确性,进而提高后续步骤中基于权重进行聚类和确定当前用户特征向量的用户类型的准确性。
[0203]
在一个可选的实施方式中,所述基于预设的决策树得到向量元素的元素类型的权重,包括:
[0204]
基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性对应的子节点的深度;
[0205]
判断决策树中的根节点属性是否与所述元素类型相同,若否,根据所述深度,得到所述元素类型的权重;
[0206]
若是,根据所述深度,得到所述元素类型的子权重,将所述子权重加上预设的根权重得到所述元素类型的权重。
[0207]
示例性的,所述基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性对应的子节点的深度,可以为但不限于确定决策树中与所述元素类型相同的子节点属性所属的每个子节点距离根节点的路径长度为对应子节点的深度,其中,确定子节点到根节点之间的路径长度为本领域常规技术手段,这里不再赘述,例如,如图3所示,节点3到根节点1之间的路径长度为1,节点6到根节点1之间的路径长度为2。
[0208]
示例性的,所述根据所述深度,得到所述元素类型的权重,可以为但不限于将决策树的高度(决策树中深度最大的节点距离根节点路径长度)减去决策树中与所述元素类型相同的子节点属性对应的每个子节点的深度得到每个子节点的相对子权重,并将每个子节点的相对子权重进行叠加或取平均值,得到所述元素类型的权重。需要说明的是,对于根据所述深度,得到所述元素类型的权重的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0209]
示例性的,所述根据所述深度,得到所述元素类型的子权重的具体实现方式,可以参考本发明实施例中对于根据所述深度,得到所述元素类型的权重的步骤的描述,这里不再赘述。
[0210]
示例性的,所述根权重的具体值,可由本领域技术人员根据实际情况确定,本发明实施例对此并不做出限制,例如,所述根权重可以设置为但不限于5、6或10等。
[0211]
由于元素类型对应的节点属性所属的节点的深度在决策树中是主要反映元素类型对整体向量特征的影响程度的参数之一,因此通过上述步骤,能够使确定的权重与对应的元素类型对整体向量特征的影响程度相符合且成正相关,从而能够提高确定的权重的准确性,进而提高后续步骤中基于权重进行聚类和确定当前用户特征向量的用户类型的准确性。而且,在决策树中的根节点属性与所述元素类型相同时,说明元素类型对整体向量特征的影响程度有额外的附加力度,因此在判断决策树中的根节点属性与所述元素类型相同时根据所述深度,得到所述元素类型的子权重,将所述子权重加上预设的根权重得到所述元素类型的权重是合理的,能够进一步提高所得到的权重的准确性。
[0212]
在一个可选的实施方式中,如图4所示,所述基于所述权重和历史客户特征向量,确定多个目标聚类,包括如下步骤:
[0213]
s401:判断所述历史客户特征向量的历史贴现标签是否为有贴现经历标签,若是,将所述历史客户特征向量作为备选向量。
[0214]
s402:基于所述权重,确定权重最大的预设保留数量的多个元素类型为标准类型。
[0215]
s403:从所述备选向量中选取多个聚类中心向量,根据所述备选向量和所述聚类中心向量的标准类型的向量元素,确定多个目标聚类。
[0216]
示例性的,所述预设保留数量,可由本领域技术人员根据实际情况确定,本发明实施例对此并不做出限制,例如,所述预设保留数量可以为但不限于2、3、4、5或6,优选为6。
[0217]
示例性的,所述基于所述权重,确定权重最大的预设保留数量的多个元素类型为标准类型,有如下例子:
[0218]
假设向量元素的元素类型包括历史贴现金额、历史贴现概率、出票人信息、持票行为类别、客户编号和性别,而已经确定历史贴现金额的权重为6,历史贴现概率的权重为8,出票人信息的权重为1,持票行为类别的权重为5,客户编号的权重为2,性别的权重为2,而此时也已确定预设保留数量为2,则由此可见权重最大的预设保留数量的多个元素类型为历史贴现概率和历史贴现金额,即标准类型为历史贴现概率和历史贴现金额。
[0219]
需要说明的是,对于基于所述权重,确定权重最大的预设保留数量的多个元素类型为标准类型的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0220]
示例性的,所述从所述备选向量中选取多个聚类中心向量,可以为但不限于随机选取多个备选向量作为所述聚类中心向量,其中,所述聚类中心向量的数量取决于想要对备选向量分类得到的历史贴现类型的数量。需要说明的是,对于从所述备选向量中选取多个聚类中心向量的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0221]
通过上述步骤,能够基于权重的大小更准确快速地确定对特征影响程度较大的元素类型作为标准类型,并使后续步骤中能够以标准类型为依据进行聚类和确定客户类型,从而进一步减少了需要遍历和操作的数据的数量,进而间接提高了后续步骤中确定客户类型的速度和准确性,进而间接提高了整体票据贴现业务信息推送的速度和准确性。
[0222]
在一个可选的实施方式中,所述根据所述备选向量和所述聚类中心向量的标准类型的向量元素,确定多个目标聚类,包括:
[0223]
将所述备选向量和所述聚类中心向量的标准类型的向量元素作为标准元素,并将所述备选向量中除聚类中心向量的其他向量作为待分类向量;
[0224]
基于所述标准元素,确定每个所述待分类向量和所述聚类中心向量的第一欧式距离;
[0225]
基于所述第一欧式距离,确定距离所述待分类向量最近的最近聚类中心向量;
[0226]
分别将所述最近聚类中心向量相同的多个所述待分类向量进行聚类,得到多个初始目标聚类;
[0227]
重复执行聚类迭代的步骤,直到存在对应第二欧式距离小于预设距离阈值的除聚类中心向量以外的待分类向量,其中所述聚类迭代的步骤,包括:基于多个初始目标聚类,得到对应的中间聚类中心向量,将所述备选向量中除中间聚类中心向量的其他向量作为待分类向量;基于所述标准元素,确定每个所述待分类向量和所述中间聚类中心向量的第二
欧式距离;基于所述第二欧式距离,确定距离所述待分类向量最近的最近中间聚类中心向量;分别将所述最近中间聚类中心向量相同的多个所述待分类向量进行聚类,得到中间目标聚类;将所述中间目标聚类作为所述初始目标聚类;
[0228]
将多个所述中间目标聚类作为所述目标聚类。
[0229]
示例性的,所述将所述备选向量和所述聚类中心向量的标准类型的向量元素作为标准元素,有如下例子:
[0230]
存在某个备选向量a(900000,0.5,123456,1,54321,0),其中,900000表示向量a中元素类型为历史贴现金额的向量元素(以及向量元素的元素值为900000),0.5表示向量a中元素类型为历史贴现概率的向量元素(以及向量元素的元素值为0.5),123456表示向量a中元素类型为出票人信息的向量元素(以及向量元素的元素值为123456),1表示向量a中元素类型为持票行为类别的向量元素(以及向量元素的元素值为1),54321表示向量a中元素类型为客户编号的向量元素(以及向量元素的元素值为54321),0表示向量a中元素类型为性别的向量元素(以及向量元素的元素值为0)。
[0231]
而标准类型此时已知为历史贴现概率和历史贴现金额,则可知备选向量a的标准类型的向量元素分别为(0.5)和(900000),则备选向量a的标准元素为(0.5)和(900000)。而对于将聚类中心向量的标准类型的向量元素作为标准元素的方式,也同理。
[0232]
需要说明的是,对于将所述备选向量和所述聚类中心向量的标准类型的向量元素作为标准元素的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0233]
示例性的,所述基于所述标准元素,确定每个所述待分类向量和所述聚类中心向量的第一欧式距离,可以为但不限于先将所述待分类向量和所述聚类中心向量分别截取标准类型的向量元素得到运算用待分类向量和运算用聚类中心向量,并求所述运算用待分类向量和运算用聚类中心向量之间的欧式距离(也可称作欧氏距离)作为所述第一欧式距离。其中,截取标准类型的向量元素得到运算用向量,有如下例子:
[0234]
已知存在备选向量a(900000,0.5,123456,1,54321,0),其中,标准类型的向量元素分别为(900000)和(0.5),则对应于备选向量a的运算用备选向量a则为(900000,0.5)。
[0235]
其中求所述运算用待分类向量和运算用聚类中心向量之间的欧式距离(euclidean distance)作为第一欧式距离,为本领域常规技术手段,可以表示为如下式子:
[0236][0237]
其中,dist
ed
(x1,x2)表示运算用待分类向量和运算用聚类中心向量之间的欧式距离,而x1表示运算用待分类向量,x2表示运算用聚类中心向量,x
11
表示运算用待分类向量的第一标准类型的向量元素的元素值,x
21
表示运算用聚类中心向量的第一标准类型的向量元素的元素值,x
21
表示运算用待分类向量的第二标准类型的向量元素的元素值,x
22
表示运算用聚类中心向量的第二标准类型的向量元素的元素值(在该例子中,标准类型的数量取2,且第一标准类型设置为历史贴现概率,第二标准类型设置为历史贴现金额)。
[0238]
需要说明的是,对于基于所述标准元素,确定每个所述待分类向量和所述聚类中心向量的第一欧式距离的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0239]
示例性的,所述基于所述第一欧式距离,确定距离所述待分类向量最近的最近聚类中心向量,可以为对于某个待分类向量,将与待分类向量的第一欧式距离最小的聚类中心向量确定为该待分类向量的最近聚类中心向量。
[0240]
示例性的,对多个向量进行聚类为本领域常规技术手段,这里不再赘述。
[0241]
示例性的,基于所述标准元素,确定每个所述待分类向量和所述中间聚类中心向量的第二欧式距离的原理,可以参考本发明实施例中对于基于所述标准元素,确定每个所述待分类向量和所述聚类中心向量的第一欧式距离的步骤的描述,这里不再赘述。
[0242]
示例性的,基于所述第二欧式距离,确定距离所述待分类向量最近的最近中间聚类中心向量的原理,可以参考本发明实施例中对于基于所述第一欧式距离,确定距离所述待分类向量最近的最近聚类中心向量的步骤的描述,这里不再赘述。
[0243]
示例性的,所述存在对应第二欧式距离小于预设距离阈值的除聚类中心向量以外的待分类向量,具体指存在某个待分类向量和某个聚类中心向量之间的欧式距离小于预设距离阈值,其中,所述预设距离阈值,可由本领域技术人员根据实际情况确定,本发明实施例对此并不做出限制,例如,所述预设距离阈值可以为但不限于10、20或30等。
[0244]
通过上述步骤,能够实现以欧式距离为依据,围绕聚类中心确定向量的聚类,由于欧式距离能够准确地反映向量之间特征的接近程度,因此以欧式距离为依据确定的聚类中的向量元素与聚类中心的特征是较为接近的,因此得到的聚类准确性较高。且不断基于当前的聚类,根据其对应的重心和其他向量之间的欧式距离不断调整聚类中心并不断重新确定聚类,还能够进一步考虑多个向量之间的空间分布关系来修正聚类,因此能够通过不断修正来提高确定的聚类的准确性。在存在对应第二欧式距离小于预设距离阈值的除聚类中心向量以外的待分类向量时,说明重新确定聚类的迭代过程已趋于稳定,多次循环中修正的聚类之间差别已不大,因此可以对聚类情况进行定格,将此时确定的多个聚类作为最终的目标聚类,由于迭代已趋于稳定,且每个循环都会提升确定的聚类的准确性,因此,通过上述步骤确定最终的目标聚类,能够使该多个目标聚类具有极高的准确性,每个目标聚类内部的向量元素在特征上都是及其接近的。从而也提高了后续步骤中基于目标聚类确定当前客户的客户类型的准确性,进而提高了整体票据贴现业务信息推送的准确性。
[0245]
在一个可选的实施方式中,所述基于多个初始目标聚类,得到对应的中间聚类中心向量,包括:
[0246]
根据所述初始目标聚类包括的所有特征向量,得到所述初始目标聚类对应的所有特征向量的均值向量;
[0247]
将所述均值向量作为所述中间聚类中心向量。
[0248]
示例性的,所述根据所述初始目标聚类包括的所有特征向量,得到所述初始目标聚类对应的所有特征向量的均值向量,具体为将初始目标聚类包括的所有特征向量进行叠加,得到总和向量,并将总和向量除以该初始目标聚类包括的特征向量的初始目标聚类元素数量得到所述均值向量。
[0249]
通过上述步骤,能够准确快速地将初始目标聚类的空间特征上的重心作为新的聚类中心,从而提高了后续围绕新的聚类中心重新确定新的中间目标聚类的准确性,进而能够以更少的迭代次数更快速地确定最终的目标聚类,进而间接提高了整体推送的准确性和速度。
[0250]
在一个可选的实施方式中,所述根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述聚类确定所述当前客户特征向量对应的客户类型,包括:
[0251]
根据所述当前客户特征向量的向量元素的归类值,在决策树中确定对应的路径;
[0252]
根据所述路径,得到对应的叶节点;
[0253]
判断所述叶节点对应的历史贴现标签是否为有贴现经历标签,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型。
[0254]
示例性的,根据所述当前客户特征向量的向量元素的归类值,在决策树中确定对应的路径,有如下例子:
[0255]
若当前客户特征向量b为(800000,0.8,111111,2,52013,1),其中,800000表示向量b中元素类型为历史贴现金额的向量元素(以及向量元素的元素值为800000),0.8表示向量b中元素类型为历史贴现概率的向量元素(以及向量元素的元素值为0.8),111111表示向量b中元素类型为出票人信息的向量元素(以及向量元素的元素值为111111),2表示向量b中元素类型为持票行为类别的向量元素(以及向量元素的元素值为2,52013表示向量b中元素类型为客户编号的向量元素(以及向量元素的元素值为52013),1表示向量b中元素类型为性别的向量元素(以及向量元素的元素值为1)。且进一步已知当前客户特征向量对应的归类值可表示为(2,100,31,2,200,1)(对应位置的归类值对应特征向量b中对应位置的向量元素,例如第一个归类值2对应历史贴现金额向量元素800000,第二个归类值100对应历史贴现概率向量元素0.8)。
[0256]
将当前客户特征向量b的各元素对应的归类值输入到决策树中,且已知决策树的根节点属性为历史贴现金额,则沿该根节点属性归类值取值为2的路径前进到第一个子节点;而第一个子节点的子节点属性为历史贴现概率,则沿该子节点属性归类值取值为100的路径前进到第二个子节点;而第二个子节点的子节点属性为持票行为类别,则沿该子节点属性归类值取值为2的路径前进到第三个子节点;而第三个子节点的子节点属性又为历史贴现概率,则沿该子节点属性归类值取值为2的路径前进到第四个子节点;而第四个子节点的子节点属性为性别,则沿该子节点属性归类值取值为1的路径前进到第五个子节点,发现第五个子节点已经是叶节点,则可以确定对应的路径为:根节点—》第一个子节点—》第二个子节点—》第三个子节点—》第四个子节点—》某个叶节点。
[0257]
需要说明的是,对于根据所述当前客户特征向量的向量元素的归类值,在决策树中确定对应的路径,为现有的使用决策树进行分类的基本实现方式,其具体内容可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0258]
示例性的,判断所述叶节点对应的历史贴现标签是否为有贴现经历标签,可以为但不限于先根据叶节点确定对应的叶历史客户特征向量,并基于叶历史客户特征向量得到对应的历史贴现标签(一个叶节点中各个叶历史客户特征向量对应的历史贴现标签取值是一致的)作为叶节点对应的历史贴现标签,然后再进行判断。
[0259]
通过上述步骤,能够以标准的方法使用决策树来预测当前客户特征向量对应的当前客户在未来是否进行贴现,其预测速度较快且准确性较高,因此能够提高初步筛选出有贴现意愿的当前客户对应的当前客户特征向量步骤的速度和准确性,进而提高了整体推送的速度和准确性。
[0260]
在一个可选的实施方式中,如图5所示,所述基于所述目标聚类确定所述当前客户特征向量对应的客户类型,包括如下步骤:
[0261]
s501:基于所述目标聚类,得到每个所述目标聚类中包括的所有最终历史向量。
[0262]
s502:基于所述最终历史向量,得到对应的单体贴现程度值,并将所述单体贴现程度值的平均值作为所述目标聚类的整体贴现程度值。
[0263]
s503:将所述目标聚类按所述整体贴现程度值排序,以基于排序的顺序确定所述目标聚类对应的历史贴现类型。
[0264]
s504:将每个所述目标聚类的所有最终历史向量的平均值作为对应所述目标聚类的平均向量,并确定每个所述平均向量和所述当前客户特征向量的最终欧式距离。
[0265]
s505:将最终欧式距离最近的所述平均向量对应的目标聚类的历史贴现类型作为所述当前客户特征向量对应的客户类型。
[0266]
示例性的,所述基于所述最终历史向量,得到对应的单体贴现程度值,可以为但不限于将最终历史向量中与贴现程度有关的一个或多个向量元素的元素值进行综合处理得到对应该最终历史向量的单体贴现程度值,例如,可以将最终历史向量中历史贴现概率对应的向量元素的元素值、历史贴现金额对应的向量元素的元素值和总持票数对应的向量元素的元素值进行叠加或取平均得到对应该最终历史向量的单体贴现程度值。需要说明的是,对于基于所述最终历史向量,得到对应的单体贴现程度值的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0267]
示例性的,将所述目标聚类按所述整体贴现程度值排序,可以为但不限于按整体贴现程度值从大到小进行排序或从小到大进行排序。例如若存在目标聚类a、目标聚类b、目标聚类c、目标聚类d和目标聚类e这五个目标聚类,其中目标聚类a对应的整体贴现程度值为10000,目标聚类b对应的整体贴现程度值为5000,目标聚类c对应的整体贴现程度值为15000,目标聚类d对应的整体贴现程度值为12500,目标聚类e对应的整体贴现程度值为20000,则若按整体贴现程度值从大到小进行排序,得到的顺序为:目标聚类e、目标聚类c、目标聚类d、目标聚类a、目标聚类b。
[0268]
示例性的,所述基于排序的顺序确定所述目标聚类对应的历史贴现类型,可以为但不限于先预设不同的历史贴现类型(其数量需要与目标聚类的数量一致),再将不同历史贴现类型按照贴现程度进行与上述对目标聚类排序方式相同的排序(二者需均为从大到小进行排序或从小到大进行排序),之后将两个排序后的顺序中同一顺序位置的目标聚类和历史贴现类型进行对应关联。例如,预设的历史贴现类型包括“贴现概率很高”、“贴现概率较高”、“贴现概率中等”、“贴现概率较低”和“贴现概率很低”这五个类型,而由上文中的例子可知排序的顺序为:目标聚类e、目标聚类c、目标聚类d、目标聚类a、目标聚类b。由此可见,目标聚类e对应的历史贴现类型为“贴现概率很高”,目标聚类c对应的历史贴现类型为“贴现概率较高”,目标聚类d对应的历史贴现类型为“贴现概率中等”,目标聚类a对应的历史贴现类型为“贴现概率较低”,目标聚类b对应的历史贴现类型为“贴现概率很低”。需要说明的是,对于基于排序的顺序确定所述目标聚类对应的历史贴现类型的具体实现方式,可由本领域技术人员根据实际情况确定,上述说明仅为举例,对此并不构成限制。
[0269]
示例性的,确定多个向量的平均值(平均向量),为本领域常规技术手段,这里不再赘述。
[0270]
示例性的,确定每个所述平均向量和所述当前客户特征向量的最终欧式距离(性质为计算不同向量间的欧式距离),为本领域常规技术手段,这里不再赘述。
[0271]
示例性的,将最终欧式距离最近的所述平均向量对应的目标聚类的历史贴现类型作为所述当前客户特征向量对应的客户类型,可以为对于当前客户特征向量,将距离其最近(二者之间最终欧式距离最近)的平均向量对应的目标聚类的历史贴现类型作为所述当前客户特征向量对应的客户类型。例如,若距离当前客户特征向量最近的平均向量对应的目标聚类的历史贴现类型为“贴现概率较高”,则将所述当前客户特征向量对应的客户类型确定为“贴现概率较高”。
[0272]
通过上述步骤,能够实现对于不同的目标聚类,基于其包含的历史客户特征向量中有关贴现程度的特征(能够反映实际的历史贴现程度)确定其对应的贴现类型,从而能够使目标聚类对应的贴现类型是清晰且准确的。能够以目标聚类的重心和当前客户特征向量的欧式距离为依据确定当前客户特征向量与不同目标聚类之间的特征接近程度,提高了确定当前客户特征向量与不同目标聚类之间的特征接近程度的准确性,从而提高了后续将特征接近程度最高的目标聚类对应的类型确定为当前客户特征向量的客户类型的准确性。因此,上述步骤直接提高了基于客户类型向对应的客户推送票据贴现业务信息的准确性和效率。
[0273]
本发明实施例中的有关推送方法,其可以通过程序、软件、函数或应用等形式自动化实现,从而大幅度减少了需要工作人员介入的程度,进而大幅度提高了票据贴现业务信息推送的速度和效率,且具有较强的准确性。
[0274]
基于相同原理,本发明实施例公开了一种票据贴现业务信息推送装置600,如图6所示,该票据贴现业务信息推送装置600包括:
[0275]
归类值确定模块601,用于将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到历史客户特征向量中每个向量元素对应的归类值;将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值;
[0276]
决策树处理模块602,用于基于预设的决策树得到向量元素的元素类型的权重;其中,所述决策树与多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签关联;
[0277]
推送模块603,用于基于所述权重和历史客户特征向量,确定多个目标聚类;根据所述决策树判断所述当前客户特征向量对应的当前客户是否具有贴现意愿,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型;根据所述客户类型向当前客户进行票据贴现业务信息推送。
[0278]
在一个可选的实施方式中,进一步包括历史客户信息向量化模块,用于:
[0279]
在将预设的历史客户特征向量的向量元素按对应的元素值进行归类处理,得到每个向量元素对应的归类值之前,
[0280]
基于多个预设的客户认证代码,分别得到对应的初始历史客户信息;
[0281]
对所述初始历史客户信息进行数据清洗、数据抽取和数据标准化处理,得到中间历史客户信息;
[0282]
对所述中间历史客户信息进行特征向量化处理,得到所述历史客户特征向量。
[0283]
在一个可选的实施方式中,进一步包括当前客户信息向量化模块,用于:
[0284]
在将当前客户特征向量的向量元素按对应的元素值进行归类处理,得到当前客户特征向量中每个向量元素对应的归类值之前,
[0285]
将预设的当前客户信息进行特征向量化处理,得到所述当前客户特征向量。
[0286]
在一个可选的实施方式中,所述归类值确定模块模块601,用于:
[0287]
基于所述元素值、对应向量元素的元素类型以及预设的所述元素类型对应的多个不同的元素值区间,从所述元素值区间中确定历史客户特征向量的每个向量元素的元素值对应的归属区间;
[0288]
基于所述归属区间,得到所述历史客户特征向量中对应向量元素的归类值。
[0289]
在一个可选的实施方式中,进一步包括决策树构建模块,用于:
[0290]
在基于预设的决策树得到向量元素的元素类型的权重之前,
[0291]
基于多个所述历史客户特征向量、所述历史客户特征向量的归类值和对应的历史贴现标签,构建决策树。
[0292]
在一个可选的实施方式中,所述决策树构建模块,用于:
[0293]
根据所有所述历史客户特征向量和对应的历史贴现标签,得到完整信息熵;其中,所述历史贴现标签的取值为有贴现经历标签或无贴现经历标签;
[0294]
根据所有所述历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到每个所述元素类型的根条件熵;
[0295]
根据所述完整信息熵和所述根条件熵,得到所述元素类型对应的根信息增益熵,并将根信息增益熵最大的元素类型作为根节点属性建立决策树的根节点;基于所述根节点属性可取的每个归类值,分别建立每个归类值对应的子节点;
[0296]
重复执行建立子节点的步骤,直到无法建立子节点,以完成所述决策树的构建,所述建立子节点的步骤包括:
[0297]
根据所述每个所述子节点对应的子归类值,确定具有对应所述子归类值的向量元素的多个历史客户特征向量为所述子节点的子历史客户特征向量;
[0298]
分别判断每个所述子节点的子历史客户特征向量对应的历史贴现标签是否均相同,若是,将所述子节点作为叶节点;根据每个叶节点对应的叶归类值,确定具有对应所述叶归类值的向量元素的多个历史客户特征向量为所述叶节点的叶历史客户特征向量;
[0299]
若否,根据所有所述子历史客户特征向量对应的历史贴现标签和向量元素的归类值,得到所述子节点中每个所述元素类型的子条件熵;
[0300]
根据所述完整信息熵和所述子条件熵,得到所述元素类型对应的子信息增益熵,并将子信息增益熵最大的元素类型作为子节点属性;基于所述子节点属性可取的每个归类值建立所述子节点下一层的子节点。
[0301]
在一个可选的实施方式中,所述决策树构建模块,用于:
[0302]
根据所有所述历史客户特征向量和对应的历史贴现标签,得到所述历史贴现标签取值为有贴现经历标签的已贴现历史客户特征向量的第一数量、以及所述历史贴现标签取值为无贴现经历标签的未贴现历史客户特征向量的第二数量;
[0303]
基于所述第一数量和所有历史客户特征向量的总数量,得到贴现率;
[0304]
基于所述第二数量和所有历史客户特征向量的总数量,得到未贴现率;
[0305]
基于所述贴现率和所述未贴现率,得到完整信息熵。
[0306]
在一个可选的实施方式中,所述决策树构建模块,用于:
[0307]
根据所述向量元素的归类值,分别得到所述元素类型中取不同归类值的向量元素的划分数量;
[0308]
根据所述划分数量和所有历史客户特征向量的总数量,得到划分率;
[0309]
分别将所述元素类型中取不同归类值时对应的历史客户特征向量作为对应的划分向量,并基于所述元素类型中取不同归类值时对应的划分向量和所述划分向量对应的历史贴现标签,得到对应不同归类值的划分信息熵;
[0310]
基于所述元素类型可取的不同归类值对应的划分率和划分信息熵,得到所述元素类型的根条件熵。
[0311]
在一个可选的实施方式中,所述决策树构建模块,用于:
[0312]
根据所述子历史客户特征向量的向量元素的归类值,分别得到子历史客户特征向量的所述元素类型中取不同归类值的向量元素的子划分数量;
[0313]
根据所述子划分数量和所述子历史客户特征向量的子向量数量,得到子划分率;
[0314]
分别将所述元素类型中取不同归类值时对应的子历史客户特征向量作为对应的子划分向量,并基于所述元素类型中取不同归类值时对应的子划分向量和所述子划分向量对应的历史贴现标签,得到对应不同归类值的子划分信息熵;
[0315]
基于所述元素类型可取的不同归类值对应的子划分率和子划分信息熵,得到所述元素类型的子条件熵。
[0316]
在一个可选的实施方式中,所述决策树处理模块602,用于:
[0317]
基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性和根节点属性对应的节点总数;
[0318]
将所述节点总数作为所述元素类型的权重。
[0319]
在一个可选的实施方式中,所述决策树处理模块602,用于:
[0320]
基于所述元素类型,确定决策树中与所述元素类型相同的子节点属性对应的子节点的深度;
[0321]
判断决策树中的根节点属性是否与所述元素类型相同,若否,根据所述深度,得到所述元素类型的权重;
[0322]
若是,根据所述深度,得到所述元素类型的子权重,将所述子权重加上预设的根权重得到所述元素类型的权重。
[0323]
在一个可选的实施方式中,所述推送模块603,用于:
[0324]
判断所述历史客户特征向量的历史贴现标签是否为有贴现经历标签,若是,将所述历史客户特征向量作为备选向量;
[0325]
基于所述权重,确定权重最大的预设保留数量的多个元素类型为标准类型;
[0326]
从所述备选向量中选取多个聚类中心向量,根据所述备选向量和所述聚类中心向量的标准类型的向量元素,确定多个目标聚类。
[0327]
在一个可选的实施方式中,所述推送模块603,用于:
[0328]
将所述备选向量和所述聚类中心向量的标准类型的向量元素作为标准元素,并将所述备选向量中除聚类中心向量的其他向量作为待分类向量;
[0329]
基于所述标准元素,确定每个所述待分类向量和所述聚类中心向量的第一欧式距离;
[0330]
基于所述第一欧式距离,确定距离所述待分类向量最近的最近聚类中心向量;
[0331]
分别将所述最近聚类中心向量相同的多个所述待分类向量进行聚类,得到多个初始目标聚类;
[0332]
重复执行聚类迭代的步骤,直到存在对应第二欧式距离小于预设距离阈值的除聚类中心向量以外的待分类向量,其中所述聚类迭代的步骤,包括:基于多个初始目标聚类,得到对应的中间聚类中心向量,将所述备选向量中除中间聚类中心向量的其他向量作为待分类向量;基于所述标准元素,确定每个所述待分类向量和所述中间聚类中心向量的第二欧式距离;基于所述第二欧式距离,确定距离所述待分类向量最近的最近中间聚类中心向量;分别将所述最近中间聚类中心向量相同的多个所述待分类向量进行聚类,得到中间目标聚类;将所述中间目标聚类作为所述初始目标聚类;
[0333]
将多个所述中间目标聚类作为所述目标聚类。
[0334]
在一个可选的实施方式中,所述推送模块603,用于:
[0335]
根据所述初始目标聚类包括的所有特征向量,得到所述初始目标聚类对应的所有特征向量的均值向量;
[0336]
将所述均值向量作为所述中间聚类中心向量。
[0337]
在一个可选的实施方式中,所述推送模块603,用于:
[0338]
根据所述当前客户特征向量的向量元素的归类值,在决策树中确定对应的路径;
[0339]
根据所述路径,得到对应的叶节点;
[0340]
判断所述叶节点对应的历史贴现标签是否为有贴现经历标签,若是,基于所述目标聚类确定所述当前客户特征向量对应的客户类型。
[0341]
在一个可选的实施方式中,所述推送模块603,用于:
[0342]
基于所述目标聚类,得到每个所述目标聚类中包括的所有最终历史向量;
[0343]
基于所述最终历史向量,得到对应的单体贴现程度值,并将所述单体贴现程度值的平均值作为所述目标聚类的整体贴现程度值;
[0344]
将所述目标聚类按所述整体贴现程度值排序,以基于排序的顺序确定所述目标聚类对应的历史贴现类型;
[0345]
将每个所述目标聚类的所有最终历史向量的平均值作为对应所述目标聚类的平均向量,并确定每个所述平均向量和所述当前客户特征向量的最终欧式距离;
[0346]
将最终欧式距离最近的所述平均向量对应的目标聚类的历史贴现类型作为所述当前客户特征向量对应的客户类型。
[0347]
由于该票据贴现业务信息推送装置600解决问题的原理与以上方法类似,因此本票据贴现业务信息推送装置600的实施可以参见以上的方法的实施,在此不再赘述。
[0348]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0349]
在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法。
[0350]
下面参考图7,其示出了适于用来实现本技术实施例的计算机设备700的结构示意图。
[0351]
如图7所示,计算机设备700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的工作和处理。在ram703中,还存储有系统700操作所需的各种程序和数据。cpu701、rom702、以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0352]
以下部件连接至i/o接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶反馈器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装如存储部分708。
[0353]
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
[0354]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0355]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0356]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0357]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
[0358]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0359]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0360]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0361]
本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0362]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0363]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!