用于生成规则集的方法及装置与流程

文档序号:32947409发布日期:2023-01-14 11:43阅读:21来源:国知局
用于生成规则集的方法及装置与流程

1.本说明书实施例涉及人工智能的技术领域,具体地,涉及用于生成规则集的方法及装置。


背景技术:

2.在人工智能领域中,用于决策的规则因为其具有可解释性以及有效性的特点,被广泛应用于分类场景中,尤其是在金融领域中的风险控制。对于所应用的规则来说,需要挖掘出若干个规则组成规则集,规则集作为一个模型被应用在场景中。
3.目前,规则的一种获取方式是通过构建决策树,从所构建的决策树中抽取规则来构成规则集。


技术实现要素:

4.鉴于上述,本说明书实施例提供了用于生成规则集的方法及装置。通过本说明书实施例的技术方案,以全局的角度探索决策条件之间的关联性,且通过特征关系图从决策条件关系图中抽取规则,确保了每条规则中所包括的特征的多样性。
5.根据本说明书实施例的一个方面,提供了一种用于生成规则集的方法,包括:基于包括有标签的数据样本确定各个决策条件以及所述各个决策条件包括的特征;利用神经网络对所述各个决策条件以及各个特征进行向量化处理,以得到所述各个决策条件对应的条件向量化表征以及所述各个特征对应的特征向量化表征,其中,所述神经网络是利用映射后的数据样本作为训练样本进行训练得到的,所述映射后的数据样本是将所述数据样本中的各个数据映射至所述各个决策条件得到的;根据所述各个决策条件对应的条件向量化表征确定所述各个决策条件之间的条件关联性;根据所述各个决策条件以及所述条件关联性构建以决策条件为节点的决策条件关系图;根据所述各个特征对应的特征向量化表征确定所述各个特征之间的特征关联性;根据所述各个特征以及所述特征关联性构建以特征为节点的特征关系图;以及根据所述决策条件关系图以及所述特征关系图抽取多个规则,以得到由所述多个规则构成的规则集,其中,每个规则包括多个决策条件。
6.根据本说明书实施例的另一方面,还提供一种用于生成规则集的装置,包括:决策条件确定单元,基于包括有标签的数据样本确定各个决策条件以及所述各个决策条件包括的特征;向量化处理单元,利用神经网络对所述各个决策条件以及各个特征进行向量化处理,以得到所述各个决策条件对应的条件向量化表征以及所述各个特征对应的特征向量化表征,其中,所述神经网络是利用映射后的数据样本作为训练样本进行训练得到的,所述映射后的数据样本是将所述数据样本中的各个数据映射至所述各个决策条件得到的;条件关联性确定单元,根据所述各个决策条件对应的条件向量化表征确定所述各个决策条件之间的条件关联性;决策条件关系图构建单元,根据所述各个决策条件以及所述条件关联性构建以决策条件为节点的决策条件关系图;特征关联性确定单元,根据所述各个特征对应的特征向量化表征确定所述各个特征之间的特征关联性;特征关系图构建单元,根据所述各
个特征以及所述特征关联性构建以特征为节点的特征关系图;以及规则抽取单元,根据所述决策条件关系图以及所述特征关系图抽取多个规则,以得到由所述多个规则构成的规则集,其中,每个规则包括多个决策条件。
7.根据本说明书实施例的另一方面,还提供一种电子设备,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上述任一所述的用于生成规则集的方法。
8.根据本说明书实施例的另一方面,还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于生成规则集的方法。
9.根据本说明书实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一所述的用于生成规则集的方法。
附图说明
10.通过参照下面的附图,可以实现对于本说明书实施例内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
11.图1示出了根据本说明书实施例的用于生成规则集的方法的一个示例的流程图。
12.图2示出了根据本说明书实施例的数据样本的一个示例的示意图。
13.图3示出了根据本说明书实施例的基于数据样本构建决策树的一个示例的示意图。
14.图4示出了根据本说明书实施例的映射后的数据样本的一个示例的示意图。
15.图5示出了根据本说明书实施例的根据决策条件关系图以及特征关系图得到规则集的一个示例的流程图。
16.图6示出了根据本说明书实施例的根据决策条件关系图以及特征关系图抽取特征节点路径和决策条件节点路径的一个示例的示意图。
17.图7示出了根据本说明书实施例的抽取决策条件节点路径的一个示例的流程图。
18.图8示出了根据本说明书实施例的规则集生成装置的一个示例的方框图。
19.图9示出了根据本说明书实施例的规则抽取单元的一个示例的方框图。
20.图10示出了本说明书实施例的用于实现规则集生成方法的电子设备的方框图。
具体实施方式
21.以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
22.如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明
确地指明,否则一个术语的定义在整个说明书中是一致的。
23.在本说明书中,术语“模型”是指被应用于业务场景中来进行业务预测服务的机器学习模型,比如,用于分类预测、业务风险预测等等的机器学习模型。机器学习模型的示例可以包括但不限于:线性回归模型、逻辑回归模型、神经网络模型、决策树模型、支持向量机等。神经网络模型的示例可以包括但不限于深度神经网络(dnn,deep neural network)模型、卷积神经网络(cnn,convolutional neural network)模型、bp神经网络等。
24.模型的具体实现形式取决于所应用的业务场景。例如,在模型应用于对用户进行分类的应用场景,则模型被实现为用户分类模型。相应地,可以根据该模型来对待分类用户的用户特征数据进行用户分类预测。在模型应用于对业务系统上发生的业务交易进行业务风险预测的应用场景,则模型被实现为业务风险预测模型。相应地,可以根据该模型来对该业务交易的业务交易特征数据进行业务风险预测。
25.随着人工智能技术的发展,机器学习技术被作为模型广泛地应用于各种业务应用场景来进行各种业务预测服务,比如,分类预测、业务风险预测等等。例如,模型在金融欺诈、推荐系统、图像识别等领域具有广泛的应用。为了实现更好的模型性能,需要使用更多的训练数据来训练模型。在例如医疗、金融等应用领域,不同的企业或机构拥有不同的数据样本,一旦将这些数据进行联合训练,将极大提升业务模型的模型精度,从而给企业带来巨大的经济效益。
26.在人工智能领域中,用于决策的规则因为其具有可解释性以及有效性的特点,被广泛应用于分类场景中,尤其是在金融领域中的风险控制。对于所应用的规则来说,需要挖掘出若干个规则组成规则集,规则集作为一个模型被应用在场景中。目前,规则的一种获取方式是通过构建决策树,从所构建的决策树中抽取规则来构成规则集。
27.然而,在实际场景中,为了提高决策树的泛化能力,对于一个样本集,往往会对应创建多个决策树,每个决策树通过使用样本集中的部分样本来创建。这样,对于每个决策树来说依赖于部分样本所提供的局部信息,各个决策树之间的关联性也无法体现出来,从而缺乏以全局的角度来探索特征之间的关联性。
28.鉴于上述,本说明书实施例提供了用于生成规则集的方法及装置。在该方法中,基于数据样本确定各个决策条件以及各个决策条件包括的特征;利用神经网络对各个决策条件以及各个特征进行向量化处理,以得到条件向量化表征以及特征向量化表征;根据条件向量化表征确定各个决策条件之间的条件关联性;根据各个决策条件以及条件关联性构建决策条件关系图;根据特征向量化表征确定特征关联性;根据各个特征以及特征关联性构建以特征为节点的特征关系图;以及根据决策条件关系图以及特征关系图抽取多个规则,以得到规则集。通过本说明书实施例的技术方案,以全局的角度探索决策条件之间的关联性,且通过特征关系图从决策条件关系图中抽取规则,确保了每条规则中所包括的特征的多样性。
29.下面结合附图对本说明书实施例提供的用于生成规则集的方法及装置进行详细说明。
30.图1示出了根据本说明书实施例的用于生成规则集的方法的一个示例100的流程图。
31.如图1所示,在1100,基于数据样本可以确定各个决策条件以及各个决策条件包括
的特征。
32.在本说明书中,数据样本可以包括有多个样本,每个样本可以由不同特征的数据所构成。图2示出了根据本说明书实施例的数据样本的一个示例的示意图。如图2所示,每行表示一个样本,每个样本包括4个不同特征的数据,每个特征所属的列中的数据为该特征的数据。比如,第一个样本包括的四个数据分别为:x
11
、x
12
、x
13
和x
14
,f1、f2、f3和f4分别表示四个不同的特征。
33.此外,数据样本中还包括有标签,数据样本中的每个样本可以对应有标签。以图2为例,第一个样本和第四个样本的标签为1,表示该两个样本为正样本。第二个样本和第三个样本的标签为0,表示该两个样本为负样本。
34.在本说明书中,决策条件可以是规则的最小单元,每个决策条件可以由特征、逻辑符号以及条件值组成,逻辑符号可以包括>、<、=等。例如,一个决策条件是:收益>1000,则其中“收益”是特征,“1000”是条件值。决策条件可以用于筛选数据,可以通过满足决策条件或不满足决策条件来筛选。
35.基于每个决策条件中包括特征,在确定出各个决策条件后,可以确定出各个决策条件中包括的特征,从而可以得到数据样本中所涉及的特征。当多个不同的决策条件包括相同的特征时,可以将相同的特征合并为一个特征,仅保留各个不同的特征。
36.在一个示例中,可以基于数据样本构建对应的决策树,可以对应构建一个或多个决策树。图3示出了根据本说明书实施例的基于数据样本构建决策树的一个示例的示意图。如图3所示,基于图2所示的数据样本可以构建两个决策树,每个决策树使用数据样本中的部分数据。比如,第一个决策树是基于左边方框中的数据所构建,第二个决策树是基于右边方框中的数据所构建。
37.在构建决策树后,可以从所构建的决策树中抽取各个决策条件。在一个示例中,决策数的每个叶子节点是基于某一个特征属性对数据进行分类,从而每个叶子节点对应一个特征,由该特征所构成的决策条件用于在该叶子节点处进行分类。基于此,可以从决策树的各个叶子节点处提取决策条件。
38.在本说明书中,在确定出各个决策条件后,可以将该各个决策条件直接应用于后续操作中,还可以将所确定出的各个决策条件作为节点构建初始决策条件关系图。
39.在一个示例中,根据各个决策条件之间的应用表现可以确定各个决策条件之间的初始条件关联性。
40.在该示例中,应用表现可以用准确率、召回率等指标来表征,比如,准确率越高,则决策条件的应用表现越好。可以利用本说明书中的数据样本来测试决策条件之间的应用表现。在该示例中,可以将所确定出的决策条件中的任意两个决策条件相结合,利用数据样本来测试相结合的任意两个决策条件的应用表现,所测试的应用表现是相结合的两个决策条件共同呈现的应用表现。
41.当相结合的两个决策条件的应用表现好时,可以认为该两个决策条件之间具有关联性;当相结合的两个决策条件的应用表现差时,可以认为该两个决策条件之间不具有关联性。在一个示例中,可以设置应用表现阈值,当相结合的两个决策条件的应用表现大于应用表现阈值时,可以认为该两个决策条件之间具有关联性;当相结合的两个决策条件的应用表现不大于应用表现阈值时,可以认为该两个决策条件之间不具有关联性。例如,应用表
现用准确率来表征,当相结合的两个决策条件的准确率大于准确率阈值时,可以认为该两个决策条件之间具有关联性;当相结合的两个决策条件的准确率不大于准确率阈值时,可以认为该两个决策条件之间不具有关联性。
42.在确定出各个相结合的两个决策条件之间的关联性后,可以将该关联性确定为初始条件关联性。具有初始条件关联性的两个决策条件之间具有关联性。
43.然后,根据各个决策条件以及初始条件关联性可以构建初始决策条件关系图。在一个示例中,可以将各个决策条件作为初始决策条件关系图中的节点,每个决策条件作为一个节点。将初始条件关联性作为初始决策条件关系图中的边。基于节点和边构建初始决策条件关系图。
44.在1200,可以利用神经网络对各个决策条件以及各个特征进行向量化处理,以得到各个决策条件对应的条件向量化表征以及各个特征对应的特征向量化表征。
45.在本说明书中,所利用的神经网络是经过训练的神经网络,该神经网络可以是利用映射后的数据样本作为训练样本进行训练得到的,映射后的数据样本是将数据样本中的各个数据映射至各个决策条件得到的。
46.在映射后的数据样本中,每个数据关联对应的决策条件,且表征数据与对应的决策条件之间的关联关系。每个数据对应的决策条件是该决策条件所包括的特征是该数据所属的特征。例如,一个数据是收益数据,该数据所属的特征是收益,则该数据对应的决策条件可以是收益大于1000元。
47.各个数据与对应的决策条件之间的关联关系包括命中关系和非命中关系,当数据满足对应的决策条件时,则该数据命中该对应的决策条件,当数据不满足对应的决策条件时,则该数据未命中该对应的决策条件。例如,一个收益数据是1200元,对应的决策条件是收益大于1000元,该收益数据满足该决策条件,则该收益数据命中该对应的决策条件。
48.在一个示例中,在映射后的数据样本中,各个数据可以用指定数值来表征与对应的决策条件之间的关联关系。例如,指定数值包括0和1,其中,0表示未命中对应的决策条件,1表示命中对应的决策条件。图4示出了根据本说明书实施例的映射后的数据样本的一个示例的示意图。在该示例中,基于图2所示的数据样本进行映射,以得到映射后的数据样本,如图4所示。第一行所示的c1、c2、c3、c4和c5分别表示决策条件,在每一列中,该列中的各个数据与该列中的决策条件相对应,即,该列中的各个数据所属的特征与该列中的决策条件包括的特征相同。每个数据可以用0或1来表征,比如,数据x
11
是1,表示该数据x
11
命中对应的决策数据c1。数据x
12
是0,表示该数据x
12
未命中对应的决策数据c2。
49.在一个示例中,在确定各个决策条件后,可以将数据样本中的各个数据映射至各个决策条件,以得到映射后的数据样本。然后,利用映射后的数据样本作为训练样本对神经网络进行训练。
50.在训练过程中,可以利用神经网络对各个决策条件进行向量化处理,以得到各个决策条件对应的向量化表征。此外,还可以对每个数据进行向量化处理,以得到各个数据对应的向量化表征。然后,通过神经网络中的编码器,根据各个决策条件对应的向量化表征以及各个数据对应的向量化表征得到各个样本的向量化表征。最后,在神经网络的输出层,根据各个样本的向量化表征对各个样本进行预测,以得到各个样本对应的预测结果。根据各个样本的预测结果与对应的标签,得到损失函数。根据损失函数对神经网络中的参数进行
调整,经过调整后的神经网络应用于下一循环的训练中,直至训练完成。
51.在本说明书中,经过训练的神经网络可以对输入的数据进行向量化处理。可以将各个决策条件以及各个特征输入至神经网络,从而神经网络可以对各个决策条件以及各个特征进行向量化处理,以得到各个决策条件对应的条件向量化表征以及各个特征对应的特征向量化表征。
52.在1300,根据各个决策条件对应的条件向量化表征可以确定各个决策条件之间的条件关联性。
53.在本说明书中,两个决策条件之间的条件关联性可以用来表示该两个决策条件之间具备关联性。
54.在一个示例中,针对各个决策条件中的任意两个决策条件,可以计算该两个决策条件对应的条件向量化表征之间的向量乘积,向量乘积可以表征该两个决策条件之间的关联程度。当关联程度高时,可以确定该两个决策条件之间具有条件关联性;当关联程度低时,可以确定该两个决策条件之间不具有条件关联性。在一个示例中,当向量乘积大于关联程度阈值时,可以确定该两个决策条件之间具有条件关联性;当向量乘积不大于关联程度阈值时,可以确定该两个决策条件之间不具有条件关联性。
55.在另一个示例中,可以根据条件向量化表征以及各个标签对应的标签向量化表征确定各个决策条件之间的条件关联性。
56.各个标签对应的标签向量化表征也可以利用神经网络得到。在一个示例中,可以将数据样本中的各个标签输入至神经网络中,以得到对应的标签向量化表征。
57.在该示例中,各个决策条件之间的条件关联性可以根据各个决策条件与各个标签之间的关联性得到。针对任意两个决策条件,当该两个决策条件与各个标签的关联程度相同或相近时,可以确定该两个决策条件之间具有条件关联性。当该两个决策条件与各个标签的关联程度不同时,比如,一个决策条件与标签关联,另一个决策条件与标签不关联,则该两个决策条件之间不具有条件关联性。
58.在一个示例中,针对各个决策条件中的任意两个决策条件,可以确定该两个决策条件分别与各个标签之间的第一标签关联性。具体地,针对各个标签,可以根据该两个决策条件对应的条件向量化表征与该标签对应的标签向量化表征确定该两个决策条件与该标签之间的第一标签关联性。
59.在该示例中,每个决策条件与每个标签之间的关联程度可以用第一标签关联性来表征。第一标签关联性越高,则对应的决策条件与标签之间的关联程度越高,第一标签关联性越低,则对应的决策条件与标签之间的关联程度越低。
60.针对各个决策条件与各个标签之间的第一标签关联性,可以将该决策条件对应的条件向量化表征与该标签对应的标签向量化表征进行相乘计算,所得到的乘积即为该决策条件与该标签之间的第一标签关联性。
61.针对任意两个决策条件,在确定该两个决策条件与各个标签之间的第一标签关联性后,可以根据该两个决策条件对应的针对各个标签的第一标签关联性,确定该两个决策条件之间的条件关联性。
62.在一个示例中,针对各个标签,可以对该两个决策条件分别与该标签之间的第一标签关联性进行比较。当针对同一标签的第一标签关联性相同或相近时,可以确定该两个
决策条件针对该标签具有子条件关联性。当针对同一标签的第一标签关联性不同或者差异较大时,可以确定该两个决策条件针对该标签不具有子条件关联性。
63.在一个示例中,可以计算针对同一标签的两个第一标签关联性之间的差值,当差值小于指定的第一差值阈值时,可以确定该两个第一标签关联性相同或相近;当差值不小于指定的第一差值阈值时,可以确定该两个第一标签关联性不同或者差异较大。
64.在确定出该两个决策条件针对各个标签的子条件关联性信息后,可以根据该两个决策条件针对各个标签的子条件关联性信息来确定该两个决策条件之间的条件关联性。其中,子条件关联性信息包括具有子条件关联性以及不具有子条件关联性。
65.在一个示例中,在该两个决策条件针对所有标签均具有子条件关联性时,可以确定该两个决策条件之间具有条件关联性。在该两个决策条件之间针对至少一个标签不具有子条件关联性时,可以确定该两个决策条件之间不具有条件关联性。例如,两个决策条件针对标签1-4均具有子条件关联性、而针对标签5不具有子条件关联性,则可以确定该两个决策条件之间不具有条件关联性。
66.在1400,根据各个决策条件以及条件关联性可以构建决策条件关系图。
67.在所构建的决策条件关系图中,决策条件作为节点,每个节点表征一个决策条件,条件关联性作为边。当一个决策条件与多个决策条件之间具有条件关联性时,则用于表征该决策条件的节点有相应的多条边与其他多个节点相连接。
68.在一个构建的示例中,可以将各个决策条件作为节点,以及将所确定的条件关联性作为边。根据节点和边构建决策条件关系图。当两个决策条件之间具有条件关联性时,可以将用于表征该两个决策条件的两个节点之间用边连接,该边用来表示该两个决策条件之间的条件关联性。
69.在一个示例中,每条边对应有权重,每条边对应的权重可以根据该条边所对应的条件关联性的关联程度来确定。条件关联性对应的关联程度越高,则用于表征该条件关联性的边的权重越高;条件关联性对应的关联程度越低,则用于表征该条件关联性的边的权重越低。条件关联性对应的关联程度可以用该条件关联性的数值来表征,条件关联性越大,则对应的关联程度越高;条件关联性越小,则对应的关联程度越低。
70.在该示例中,在确定出节点、边和权重后,可以根据所确定的节点、边以及权重构建决策条件关系图。在所构建的决策条件关系图中,每条边对应有一个权重。
71.在一个示例中,在构建有初始决策条件关系图时,可以在初始决策条件关系图的基础上构建决策条件关系图。具体地,可以根据初始决策条件关系图以及条件关联性来构建决策条件关系图。
72.对于任意两个决策条件,当两个决策条件之间具有条件关联性时,若在初始决策条件关系图中,用于表征该两个决策条件的两个节点之间没有边连接,则可以在该两个节点之间增加一条边,该条边用于表征该两个决策条件之间所具有的条件关联性。若在初始决策条件关系图中,用于表征该两个决策条件的两个节点之间存在边,在一个示例中,可以不增加边,用当前存在的边来表征该两个决策条件之间所具有的条件关联性。在另一个示例中,还可以在已存在边的基础上增加另一条边,所增加的另一条边用来表征该两个决策条件之间所具有的条件关联性。
73.在该示例中,在所构建的决策条件关系图中的边具有权重的情况下,初始决策条
件关系图中的各条边对应的权重可以根据该条边所连接的两个节点所表征的决策条件的应用表现来确定,两个决策条件相结合的应用表现越好,则在初始决策条件关系图中用于表征该两个决策条件的两个节点之间的边的权重越大。
74.在所构建的决策条件关系图中,当一条边表征两个决策条件相结合的应用表现以及条件关联性时,可以根据应用表现和条件关联性来确定该条边的权重。两个决策条件相结合的应用表现越好,且条件关联性对应的关联程度越高,则对应的边的权重越大。
75.在1500,可以根据各个特征对应的特征向量化表征确定各个特征之间的特征关联性。
76.在本说明书中,两个特征之间的特征关联性可以用来表示该两个特征之间具备关联性。
77.在一个示例中,针对各个特征中的任意两个特征,可以计算该两个特征对应的特征向量化表征之间的向量乘积,向量乘积可以表征该两个特征之间的关联程度。当关联程度高时,可以确定该两个特征之间具有特征关联性;当关联程度低时,可以确定该两个特征之间不具有特征关联性。在一个示例中,当向量乘积大于关联程度阈值时,可以确定该两个特征之间具有特征关联性;当向量乘积不大于关联程度阈值时,可以确定该两个特征之间不具有特征关联性。
78.在一个示例中,可以根据特征向量化表征以及各个标签对应的标签向量化表征确定各个特征之间的特征关联性。
79.在该示例中,各个特征之间的特征关联性可以根据各个特征与各个标签之间的关联性得到。针对任意两个特征,当该两个特征与各个标签的关联程度相同或相近时,可以确定该两个特征之间具有特征关联性。当该两个特征与各个标签的关联程度不同时,比如,一个特征与标签关联,另一个特征与标签不关联,则该两个特征之间不具有特征关联性。
80.在一个示例中,针对各个特征中的任意两个特征,可以确定该两个特征分别与各个标签之间的第二标签关联性。具体地,针对各个标签,可以根据该两个特征对应的特征向量化表征与该标签对应的标签向量化表征确定该两个特征与该标签之间的第二标签关联性。
81.在该示例中,每个特征与每个标签之间的关联程度可以用第二标签关联性来表征。第二标签关联性越高,则对应的特征与标签之间的关联程度越高,第二标签关联性越低,则对应的特征与标签之间的关联程度越低。
82.针对各个特征与各个标签之间的第二标签关联性,可以将该特征对应的特征向量化表征与该标签对应的标签向量化表征进行相乘计算,所得到的乘积即为该特征与该标签之间的第二标签关联性。
83.针对任意两个特征,在确定该两个特征与各个标签之间的第二标签关联性后,可以根据该两个特征对应的针对各个标签的第二标签关联性,确定该两个特征之间的特征关联性。
84.在一个示例中,针对各个标签,可以对该两个特征分别与该标签之间的第二标签关联性进行比较。当针对同一标签的第二标签关联性相同或相近时,可以确定该两个特征针对该标签具有子特征关联性。当针对同一标签的第二标签关联性不同或者差异较大时,可以确定该两个特征针对该标签不具有子特征关联性。
85.在一个示例中,可以计算针对同一标签的两个第二标签关联性之间的差值,当差值小于指定的第二差值阈值时,可以确定该两个第二标签关联性相同或相近;当差值不小于指定的第二差值阈值时,可以确定该两个第二标签关联性不同或者差异较大。
86.在确定出该两个特征针对各个标签的子特征关联性信息后,可以根据该两个特征针对各个标签的子特征关联性信息来确定该两个特征之间的特征关联性。其中,子特征关联性信息包括具有子特征关联性以及不具有子特征关联性。
87.在一个示例中,在该两个特征针对所有标签均具有子特征关联性时,可以确定该两个特征之间具有特征关联性。在该两个特征之间针对至少一个标签不具有子特征关联性时,可以确定该两个特征之间不具有特征关联性。
88.在1600,根据各个特征以及特征关联性可以构建特征关系图。
89.在所构建的特征关系图中,特征作为节点,每个节点表征一个特征,特征关联性作为边。当一个特征与多个特征之间具有特征关联性时,则用于表征该特征的节点有相应的多条边与其他多个节点相连接。
90.在一个构建的示例中,可以将各个特征作为节点,以及将所确定的特征关联性作为边。根据节点和边构建特征关系图。当两个特征之间具有特征关联性时,可以将用于表征该两个特征的两个节点之间用边连接,该边用来表示该两个特征之间的特征关联性。
91.在一个示例中,每条边对应有权重,每条边对应的权重可以根据该条边所对应的特征关联性的关联程度来确定。特征关联性对应的关联程度越高,则用于表征该特征关联性的边的权重越高;特征关联性对应的关联程度越低,则用于表征该特征关联性的边的权重越低。特征关联性对应的关联程度可以用该特征关联性的数值来表征,特征关联性越大,则对应的关联程度越高;特征关联性越小,则对应的关联程度越低。
92.在该示例中,在确定出节点、边和权重后,可以根据所确定的节点、边以及权重构建特征关系图。在所构建的特征关系图中,每条边对应有一个权重。
93.需要说明的是,1300和1400的操作用于构建决策条件关系图,1500和1600的操作用于构建特征关系图,可以不限定决策条件关系图和特征关系图的构建顺序。即,可以不限定1300和1400的操作与1500和1600的操作之间的执行顺序。
94.在1700,根据决策条件关系图以及特征关系图可以抽取多个规则,以得到规则集。
95.在本说明书中,所得到的规则集由多个规则构成,每个规则包括多个决策条件。每个规则中包括的决策条件的数量可以由从特征关系图中所抽取的特征节点路径中的特征节点的数量确定。
96.图5示出了根据本说明书实施例的根据决策条件关系图以及特征关系图得到规则集的一个示例500的流程图。
97.如图5所示,在1710,可以从特征关系图中抽取至少一条特征节点路径。
98.在该示例中,当抽取多条特征节点路径时,各条特征节点路径各不相同。各条特征节点路径中包括的特征节点数量可以相同,也可以不同。各条特征节点路径中所包括的特征节点数量可以指定。
99.针对各条特征节点路径,可以采用随机游走、node2vec、struc2vec以及line等算法从特征关系图中抽取特征节点路径。以随机游走为例。
100.在一个示例中,特征关系图中的各条边不具有权重。针对每个节点,当从该节点进
行游走时,该节点的各条边被选中的概率相同。在另一个示例中,特征关系图中的各条边具有权重,不同的边所具有的权重可以不同。针对各个节点,当从该节点进行游走时,该节点的各条边被选中的概率与该各条边的权重相关,权重越大的边被选中的概率越大,权重越小的边被选中的概率越小。
101.图6示出了根据本说明书实施例的根据决策条件关系图以及特征关系图抽取特征节点路径和决策条件节点路径的一个示例的示意图。如图6所示,可以从特征关系图中抽取多条特征节点路径。
102.在1720,针对各条特征节点路径,根据该特征节点路径从决策条件关系图中抽取对应的至少一条决策条件节点路径。
103.在该示例中,每条特征节点路径可以对应抽取多条决策条件节点路径,所抽取的决策条件节点路径中的决策条件节点数量与所依据的特征节点路径中的特征节点数量相同。决策条件节点路径中的各个相邻的节点在决策条件关系图中通过边连接。特征节点路径中的每个特征节点可以从决策条件关系图中对应确定出一个决策条件节点。
104.以图6为例,在从特征关系图中抽取两条特征节点路径后,可以根据每条特征节点路径从决策条件关系图中对应抽取3条决策条件节点路径。所抽取的6条决策条件节点路径各不相同。针对每条特征节点路径,特征节点路径中的第一个特征节点可以确定出一个决策条件节点,第二个特征节点可以确定出另一个决策条件节点,第三个特征节点可以确定出另一个决策条件节点,所确定出的三个决策条件节点按照确定顺序构成决策条件节点路径。
105.图7示出了根据本说明书实施例的抽取决策条件节点路径的一个示例700的流程图。
106.在1721,针对各条特征节点路径,可以将该特征节点路径中的第一个特征节点确定为目标特征节点。
107.特征节点路径中的各个特征节点有排序,特征节点路径的顺序可以是各个特征节点被确定的先后顺序。以随机游走为例,特征节点路径的顺序是通过随机游走算法先后选取的特征节点。以图6为例,特征节点路径是从左往右的顺序,则所确定的第一个特征节点是特征节点路径中左起的第一个特征节点。
108.在1723,根据目标特征节点从决策条件关系图中可以确定决策条件节点。
109.在该示例中,当目标特征节点是特征节点路径中的第一个特征节点时,还没有从决策条件关系图中确定出决策条件节点。在该情况下,可以从决策条件关系图中确定与目标特征节点所表征的特征相同的决策条件节点,所确定出的决策条件节点作为决策条件节点路径中的第一个节点。在一个示例中,当决策条件关系图中存在多个与目标特征节点所表征的特征相同的决策条件节点,则可以从该多个决策条件节点中确定一个决策条件节点,作为与目标特征节点对应的决策条件节点。确定的方式可以包括随机方式。
110.在一个示例中,目标特征节点不是特征节点路径中的第一个特征节点,则从决策条件关系图中已确定出至少一个决策条件节点,所确定的各个决策条件节点被依次确定出,具有先后顺序。
111.在该示例中,可以先在决策条件关系图中找到最新确定出的决策条件节点,并在决策条件关系图中确定该决策条件节点的邻居节点,每个邻居节点与该决策条件节点通过
至少一条边连接,且每个邻居节点表征一个决策条件。从所确定出的邻居节点中筛选与目标特征节点所表征的特征相同的邻居节点,所筛选出的邻居节点可以包括一个或多个。
112.接着,从所筛选出的邻居节点中确定用于决策条件节点路径中的决策条件节点。当所筛选的邻居节点只有一个时,可以直接将该一个邻居节点确定为此轮中的决策条件节点。
113.当所筛选的邻居节点包括多个时,在一个示例中,可以从该多个邻居节点中随机确定一个决策条件节点。在另一个示例中,当决策条件关系图中的边对应有权重时,还可以根据最新的决策条件节点与各个邻居节点之间的边上的权重来从邻居节点中确定一个决策条件节点。在另一个示例中,还可以使用随机游走的方式基于决策条件关系图,从所筛选出的邻居节点中确定用于决策条件节点路径中的决策条件节点。当决策条件关系图中的边对应有权重时,随机游走的方式可以基于边上的权重进行游走。
114.所确定出的决策条件节点用于构成决策条件节点路径,是与当前目标特征节点对应的决策条件节点,所确定出的决策条件节点在所构成的决策条件节点路径中的排序位置与对应的目标特征节点在所属的特征节点路径中的排序位置相同。例如,在当前目标特征节点是特征节点路径中的第一个节点时,则所确定出的决策条件节点是所构成的决策条件节点路径中的第一个节点。
115.在1725,判断在特征节点路径中是否存在未作为目标特征节点的特征节点。如果是,可以执行1727的操作;如果否,可以执行1729的操作。
116.若存在未作为目标特征节点的特征节点,表示还未完成针对决策条件节点路径的抽取操作,还需要根据未作为目标特征节点的特征节点来确定对应的决策条件节点。若不存在未作为目标特征节点的特征节点,表示已完成针对决策条件节点路径的抽取操作。
117.在1727,将特征节点路径中的下一个特征节点确定为下一个循环中的目标特征节点,并返回执行1723的操作。
118.下一个特征节点是在特征节点路径中与当前目标特征节点相邻,且按照特征节点路径的顺序所确定的下一个节点。例如,在特征节点路径中,当前目标特征节点是第一个节点,则下一个特征节点是第二个节点。
119.在1729,输出由所确定出的各个决策条件节点按序构成的决策条件节点路径。其中,构成决策条件节点路径时所依据的顺序是各个决策条件节点被确定的时间顺序。
120.回到图5,在抽取决策条件节点路径后,在1730,基于由所抽取的各条决策条件节点路径所形成的规则得到规则集。
121.从决策条件关系图中所抽取的各个决策条件节点路径各不相同,每条决策条件节点路径可以作为一个规则。每个规则包括多个决策条件,不同规则所包括的决策条件不同。
122.在本说明书中,所得到的规则集可以作为模型使用。此外,还可以对所得到的规则集进行进一步地筛选,以得到筛选后的规则集,筛选后的规则集可以作为模型使用。
123.图8示出了根据本说明书实施例的规则集生成装置800的一个示例的方框图。
124.如图8所示,规则集生成装置800包括:决策条件确定单元810、向量化处理单元820、条件关联性确定单元830、决策条件关系图构建单元840、特征关联性确定单元850、特征关系图构建单元860和规则抽取单元870。
125.决策条件确定单元810,可以被配置为基于包括有标签的数据样本确定各个决策
条件以及各个决策条件包括的特征。
126.在一个示例中,决策条件确定单元810还可以被配置为:基于包括有标签的数据样本构建对应的决策树;以及从所构建的决策树中抽取各个决策条件。
127.向量化处理单元820,可以被配置为利用神经网络对各个决策条件以及各个特征进行向量化处理,以得到各个决策条件对应的条件向量化表征以及各个特征对应的特征向量化表征,其中,神经网络是利用映射后的数据样本作为训练样本进行训练得到的,映射后的数据样本是将数据样本中的各个数据映射至各个决策条件得到的。
128.条件关联性确定单元830,可以被配置为根据各个决策条件对应的条件向量化表征确定各个决策条件之间的条件关联性。
129.在一个示例中,条件关联性确定单元830还可以被配置为:根据条件向量化表征以及各个标签对应的标签向量化表征确定各个决策条件之间的条件关联性。
130.在一个示例中,条件关联性确定单元830还可以被配置为:针对各个决策条件中的两个决策条件以及各个标签,根据该两个决策条件对应的条件向量化表征与该标签对应的标签向量化表征确定该两个决策条件与该标签之间的第一标签关联性;以及根据该两个决策条件对应的针对各个标签的第一标签关联性,确定该两个决策条件之间的条件关联性。
131.决策条件关系图构建单元840,可以被配置为根据各个决策条件以及条件关联性构建以决策条件为节点的决策条件关系图。
132.在一个示例中,决策条件关系图构建单元840还可以被配置为:将各个决策条件确定为节点;将条件关联性确定为边;根据各个条件关联性对应的关联程度确定每条边的权重;以及根据所确定的节点、边以及权重构建决策条件关系图。
133.特征关联性确定单元850,可以被配置为根据各个特征对应的特征向量化表征确定各个特征之间的特征关联性。
134.在一个示例中,特征关联性确定单元850还可以被配置为:根据特征向量化表征以及各个标签对应的标签向量化表征确定各个特征之间的特征关联性。
135.在一个示例中,特征关联性确定单元850还可以被配置为:针对各个特征中的两个特征以及各个标签,根据该两个特征对应的特征向量化表征与该标签对应的特征向量化表征来确定该两个特征与该标签之间的第二标签关联性;以及根据该两个特征对应的针对各个标签的第二标签关联性,确定该两个特征之间的特征关联性。
136.特征关系图构建单元860,可以被配置为根据各个特征以及特征关联性构建以特征为节点的特征关系图。
137.在一个示例中,特征关系图构建单元860还可以被配置为:将各个特征确定为节点;将特征关联性确定为边;根据各个特征关联性对应的关联程度确定每条边的权重;以及根据所确定的节点、边以及权重构建特征关系图。
138.规则抽取单元870,可以被配置为根据决策条件关系图以及特征关系图抽取多个规则,以得到由多个规则构成的规则集,其中,每个规则包括多个决策条件。
139.图9示出了根据本说明书实施例的规则抽取单元870的一个示例的方框图。
140.如图9所示,规则抽取单元870可以包括:特征节点路径抽取模块871、决策条件节点路径抽取模块873和规则集得到模块875。
141.特征节点路径抽取模块871,可以被配置为从特征关系图中抽取至少一条特征节
点路径。
142.决策条件节点路径抽取模块873,可以被配置为针对各条特征节点路径,根据该特征节点路径从决策条件关系图中抽取对应的至少一条决策条件节点路径,每条决策条件节点路径作为一个规则。
143.在一个示例中,决策条件节点路径抽取模块还可以被配置为:针对各条特征节点路径,按照以下方式从决策条件关系图中抽取对应的决策条件节点路径:将该特征节点路径中的第一个特征节点确定为目标特征节点;根据目标特征节点从决策条件关系图中确定用于决策条件节点路径的决策条件节点;在该特征节点路径中还存在未作为目标特征节点的特征节点时,将该特征节点路径中的下一个特征节点确定为下一个循环中的目标特征节点,并返回执行根据目标特征节点确定决策条件节点的操作;以及在该特征节点路径中不存在未作为目标特征节点的特征节点时,输出由所确定出的各个决策条件节点按序构成的决策条件节点路径。
144.在一个示例中,决策条件节点路径抽取模块还可以被配置为:在从决策条件关系图中已确定出至少一个决策条件节点时,从最新确定的决策条件节点的邻居节点中筛选出与目标特征节点所表征的特征相同的邻居节点;以及从所筛选出的邻居节点中确定用于决策条件节点路径中的决策条件节点。
145.规则集得到模块875,可以被配置为基于由所抽取的各条决策条件节点路径所形成的规则得到规则集。
146.以上参照图1到图9,对根据本说明书实施例的用于生成规则集的方法及装置的实施例进行了描述。
147.本说明书实施例的用于生成规则集的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中,用于生成规则集的装置例如可以利用电子设备实现。
148.图10示出了本说明书实施例的用于实现规则集生成方法的电子设备1000的方框图。
149.如图10所示,电子设备1000可以包括至少一个处理器1010、存储器(例如,非易失性存储器)1020、内存1030和通信接口1040,并且至少一个处理器1010、存储器1020、内存1030和通信接口1040经由总线1050连接在一起。至少一个处理器1010执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
150.在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1010:基于数据样本确定各个决策条件以及各个决策条件包括的特征;利用神经网络对各个决策条件以及各个特征进行向量化处理,以得到各个决策条件对应的条件向量化表征以及各个特征对应的特征向量化表征;根据各个决策条件对应的条件向量化表征确定各个决策条件之间的条件关联性;根据各个决策条件以及条件关联性构建决策条件关系图;根据各个特征对应的特征向量化表征确定各个特征之间的特征关联性;根据各个特征以及特征关联性构建特征关系图;以及根据决策条件关系图以及特征关系图抽取多个规则,以得到规则集。
151.应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器
1010进行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。
152.根据一个实施例,提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。
153.具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
154.在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
155.本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言,如java、scala、smalltalk、eiffel、jade、emerald、c++、c#、vb、net以及python等,常规程序化编程语言如c语言、visual basic 2003、perl、cobol2002、php以及abap,动态编程语言如python、ruby和groovy,或者其他编程语言等。该程序编码可以在用户计算机上运行,或者作为独立的软件包在用户计算机上运行,或者部分在用户计算机上运行另一部分在远程计算机运行,或者全部在远程计算机或服务器上运行。在后一种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或者在云计算环境中,或者作为服务使用,比如软件即服务(saas)。
156.可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd-rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
157.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
158.上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
159.在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
160.以上结合附图详细描述了本说明书的实施例的可选实施方式,但是,本说明书的实施例并不限于上述实施方式中的具体细节,在本说明书的实施例的技术构思范围内,可以对本说明书的实施例的技术方案进行多种简单变型,这些简单变型均属于本说明书的实
施例的保护范围。
161.本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说,对本说明书内容进行的各种修改是显而易见的,并且,也可以在不脱离本说明书内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本说明书内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1