实体特征样本生成方法及装置、实体信用预测方法及装置与流程

文档序号:19157770发布日期:2019-11-16 01:02阅读:160来源:国知局
实体特征样本生成方法及装置、实体信用预测方法及装置与流程

本公开涉及计算机技术领域,具体地,涉及实体特征样本生成方法及装置、实体信用预测方法及装置。



背景技术:

信用在日常生活中的地位越来越突出。与此同时,准确地对自然人或企业等实体进行信息评估也越来越重要。当信用评估不准确时,会为其他实体或社会大众带来重大损失。因此,现有技术亟需一种能够准确地评估实体信用的方案。



技术实现要素:

鉴于上述,本公开提供了一种实体特征样本生成方法及装置、实体信用预测方法及装置。利用本公开的方法及装置,能够在预测实体信用时考虑关联实体的关联风险因素,并且信用预测过程采用注意力机制,从而使得信用预测过程有区别地关注各项关联风险因素,从而使得信用预测更加准确。

根据本公开的一个方面,提供了一种用于生成实体特征样本的方法,所述方法包括:基于目标实体与至少一个关联实体中的各个关联实体的各个关联关系类别向量,利用第一机器学习模型,生成特征权重矩阵;基于所述各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵;以及基于所述特征权重矩阵和所述关联实体属性特征矩阵,生成目标实体的实体特征样本。

可选地,在一个示例中,所述关联实体属性特征矩阵与所述特征权重矩阵具有相同的维度,基于所述特征权重矩阵和所述关联实体属性特征矩阵,生成目标实体的实体特征样本可以包括:将所述关联实体属性特征矩阵与所述特征权重矩阵进行点乘运算,以得出加权特征矩阵;以及基于所述加权特征矩阵中各个列,生成对应于该列的维度值,以生成目标实体的实体特征向量来作为所述实体特征样本。

可选地,在一个示例中,基于所述各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵可以包括:当所述关联实体属性特征向量的维度低于所述特征权重矩阵的维度时,基于所述各个关联实体的关联实体属性特征向量中的至少一个维度,确定出该关联实体属性特征向量的至少一个补充维度值,以使所生成的关联实体属性特征矩阵与所述特征权重矩阵具有相同的维度。

可选地,在一个示例中,基于所述各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵可以包括:基于所述各个关联实体的关联实体属性特征向量,利用第二机器学习模型来生成所述关联实体属性特征矩阵。

可选地,在一个示例中,所述目标实体可以包括多个,针对多个目标实体的第一机器学习模型的模型参数可以是相同的。

可选地,在一个示例中,所述第一机器学习模型和/或所述第二机器学习模型可以基于神经网络模型实现。

可选地,在一个示例中,所述各个关联实体的关联实体属性特征向量可以基于该关联实体与所述目标实体的各个关联关系类别的关联关系类别属性和该关联实体的实体属性生成。

可选地,在一个示例中,所述实体属性可以包括以下中的至少一者:投资比例、纠纷关系类别、关联关系准确度、相应关联关系类别的统计值。所述实体属性包括以下中的至少一者:实体经营状态、实体信用评分、实体交易信息、实体信息用记录、实体类别。

可选地,在一个示例中,所述目标实体包括目标企业,所述关联实体包括关联企业和/或关联自然人,所述关联实体与所述目标实体之间的关联关系类别可以包括以下中的至少一者:任职所属关系、投资关联关系、交易往来关系、纠纷关联关系、担保关联关系、契约关联关系、人际关联关系。

根据本公开的另一方面,还提供一种确定待预测实体信用的方法,包括:基于待预测实体的实体特征样本,利用信用预测模型来预测所述待预测实体的实体信用,其中,所述待预测实体的实体特征样本利用如上所述的实体特征样本生成方法生成,所述信用预测模型利用至少一个带标记实体特征样本训练得到,所述至少一个带标记实体特征样本利用如上所述的实体特征样本生成方法生成。

可选地,在一个示例中,所述待预测实体可以包括企业和/或自然人。

根据本公开的另一方面,还提供一种用于生成实体特征样本的装置,所述装置可以包括:权重矩阵生成单元,基于目标实体与至少一个关联实体中的各个关联实体的各个关联关系类别向量,利用第一机器学习模型,生成特征权重矩阵;特征矩阵生成单元,基于所述各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵;以及特征样本生成单元,基于所述特征权重矩阵和所述关联实体属性特征矩阵,生成目标实体的实体特征样本。

可选地,在一个示例中,所述关联实体属性特征矩阵与所述特征权重矩阵具有相同的维度,所述特征样本生成单元可以包括:加权特征矩阵确定模块,将所述关联实体属性特征矩阵与所述特征权重矩阵进行点乘运算,以得出加权特征矩阵;以及特征样本生成模块,基于所述加权特征矩阵中各个列,生成对应于该列的维度值,以生成目标实体的实体特征向量来作为所述实体特征样本。

可选地,在一个示例中,所述特征矩阵生成单元可以当所述关联实体属性特征向量的维度低于所述特征权重矩阵的维度时,基于所述各个关联实体的关联实体属性特征向量中的至少一个维度,确定出该关联实体属性特征向量的至少一个补充维度值,以使所生成的关联实体属性特征矩阵与所述特征权重矩阵具有相同的维度。

可选地,在一个示例中,所述关联实体属性特征矩阵生成单元可以基于所述各个关联实体的关联实体属性特征向量,利用第二机器学习模型来生成所述关联实体属性特征矩阵。

可选地,在一个示例中,所述目标实体可以包括多个,针对多个目标实体的第一机器学习模型的模型参数可以是相同的。

根据本公开的另一方面,还提供一种确定待预测实体信用的装置,包括:实体信用预测单元,基于待预测实体的实体特征样本,利用信用预测模型来预测所述待预测实体的实体信用,其中,所述待预测实体的实体特征样本利用如上所述的实体特征样本生成方法生成,所述信用预测模型利用至少一个带标记实体特征样本训练得到,所述至少一个带标记实体特征样本利用如上所述实体特征样本生成的方法生成。

根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的实体特征样本生成方法。

根据本公开的另一方面,还提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的实体特征样本生成方法。

根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的实体信用预测方法。

根据本公开的另一方面,还提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的实体信用预测方法。

利用本公开的方法和装置,通过基于各个关联关系类别向量生成特征权重矩阵,并基于关联实体属性特征向量生成关联实体属性矩阵,然后基于特征权重矩阵和关联实体属性特征矩阵来生成目标实体的实体特征样本,从而能够采用注意力机制来基于关联实体的关联风险特征来生成目标实体的实体特征样本。采用由此生成的实体特征样本来训练实体信用预测模型,并利用所训练出的信用预测模型来进行实体信用预测时,能够使所预测出的实体信用合理地关注不同的关联风险因素,从而能够在不依赖于专家的前替下提高信用预测的准确性。

利用本公开的方法和装置,通过基于关联实体属性特征向量中的至少一个特征来生成补充维度的特征,从而能够基于已采集到的特征来延伸实体属性特征,增加信用预测所考虑到的特征维度。

利用本公开的方法和装置,通过利用第二机器学习模型来生成关联实体属性特征矩阵,能够挖掘出更深层次的特征,以使关联实体属性特征矩阵中各个特征维度更能反映目标实体的关联实体的关联风险。

利用本公开的方法和装置,通过使用于生成目标实体的实体特征样本的机器学习模型具有相同的模型参数,能够使所生成的特征权重矩阵和关联实体属性特征矩阵直观地反映关联关系对某项指标的影响程度。

利用本公开的方法和装置,通过使各个关联实体的关联实体属性特征向量基于该关联实体与目标实体的关联关系类别的关联关系类别属性和该关联实体的实体属性生成,从而能够基于关联实体的本身属性和关联关系类别属性等不同特征维度来生成实体特征样本,以准确地预测实体信用。

附图说明

通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:

图1是根据本公开的一个实施例的实体特征样本生成方法的流程图;

图2是用于说明根据本公开的一个实施例的实体特征样本生成方法中的关联关系类别的一个示例的示意图;

图3是用于说明根据本公开的一个实施例的实体特征样本生成方法的示意图;

图4是根据本公开的一个实施例的实体特征样本生成方法中的关联实体属性特征矩阵生成过程的一个示例的流程图;

图5是根据本公开的一个实施例的实体特征样本生成方法中的实体特征样本生成过程的一个示例的流程图;

图6是根据本公开的一个实施例的实体信用预测方法的流程图;

图7是根据本公开的一个实施例的实体特征样本生成装置的结构框图;

图8是图7所示的实体特征样本生成装置中的特征样本生成单元的一个示例的结构框图;

图9是根据本公开的一个实施例的实体信用预测装置的结构框图;

图10是根据本公开的一个实施例的用于实现实体特征样本生成方法的计算设备的结构框图;

图11是根据本公开的一个实施例的用于实现实体信用预测方法的计算设备的结构框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。

现在结合附图来描述本公开的实体特征样本生成方法及装置和实体信用预测方法及装置。

图1是根据本公开的一个实施例的实体特征样本生成方法的流程图。

如图1所示,在块320,基于目标实体与至少一个关联实体中的各个关联实体的各个关联关系类别向量,利用第一机器学习模型,生成特征权重矩阵。第一机器学习模型例如可以基于dnn、rnn、cnn等神经网络实现。第一机器学习模型的输入维度和输入维度可以根据关联关系类别向量的维度和特征权重矩阵的维度来配置。

关联实体是指与目标实体具有某种关联关系的实体。关联关系类别向量表示目标企业与各个关联实体的关联关系。图2是用于说明根据本公开的一实施例的实体特征样本生成方法中的关联关系类别的一个示例的示意图。如图2所示,关联实体可以包括企业,还可以包括自然人。目标实体可以是企业或自然人。目标企业与关联实体之间的关联关系类别可以包括投任职所属关系、投资关联关系、交易往来关系、纠纷关联关系、担保关联关系、契约关联关系、人际关联关系等中的至少一者。此外,本公开所列举的各个关联关系类别并不是穷举的,关联关系类别还可以包括其它能够反映目标实体与关联实体之间的关联关系的类别。上述列举的各个关联关系类别还可以包括具体的细分类别。

以下,以目标实体为企业为例说明各个关联关系类别。任职所属关系例如可以包括如下情形:该企业的关联成员(例如该企业的高管、法人、股东等)是关联企业的高管或法人,或关联企业或关联自然人是该企业的高管、法人等,或该企业是关联企业的子公司,或关联企业是该企业的子公司。投资关联关系可以包括如下情形:该企业与关联企业存在参股关系,例如该企业持有关联企业的股份或债券、或关联企业持有该企业的股份或债券,关联自然人是该企业的股东或合伙人等。交易往来关系例如可以是该企业与关联企业之间存在买卖关系。

担保关联关系是指该企业与关联企业或关联自然人之间存在担保或被担保、或共同为担保人或被担保人等担保相关关系,例如可以包括如下情形:该企业与关联企业存在担保或被担保关系(例如保证、抵押、质押、留置等),或该企业与关联企业共同为第三实体的担保人或被担保人。纠纷关联关系是指该企业与关联企业或关联自然人之间存在债务、财产等诉讼或仲裁、调解等纠纷相关关系,例如可以包括如下情形:该企业与关联企业或关联自然人之间发生过诉讼,该企业与关联企业或关联自然人曾作为诉讼纠纷中的共同被告或共同原告、共同上诉人、共同被上诉人等诉讼参与人,该企业曾在某案件中是被执行人或执行申请人、同时关联企业或关联自然人为执行申请人或被执行人等。

契约关联关系是指该企业与关联企业或关联自然人之间发生过要约邀请(例如招标)、要约(例如投标)、合同签订等与契约相关的关系,例如可以包括如下情形:该企业与关联企业或关联自然人之间存在债权债务合同关系、招标关系或投标关系,该企业与关联企业或关联自然人曾作为共同招标人或共同投标人或共同中标人等。人际关联关系是指该企的关联人员(例如高管、股东)与关联自然人或关联实体的关联从员之间存在亲属关系或好友关系等。

在生成关联关系类别向量时,关联关系类别向量的每个维度可以对应于一个关联关系类别。各个关联关系类别可以采用随机排序的方式来确定所对应的维度。可以采用独热(one-hot)编码的方式来生成关联关系类别向量。作为示例,假设目标实体与各个关联实体之间的关联关系类别包括被告关系、招投标关系、合同关系、参股关系等44类,关联关系类别向量可以包括44个维度。可以对该44个关联关系类别进行随机排序以确定所对应的维度,当目标实体与该关联实体之间存在相应关联关系时,对应维度为1,否则为0。由此,可以生成对应于各个关联实体的关联关系类别向量。例如,如果某关联实体与目标实体之间只存在被告关系、招投标关系,被告关系、招投标关系在44个关联关系类别中排在第3位和第10位,那么对应于该关联实体的关联关系类别向量a的a(3)和a(10)为1,其它维度取值为0,其中a(i)表示向量a中第i维的取值。

在生成各个关联关系类别向量之后,可以将各个关联关系类别向量依次作为第一机器学习模型的输入,从而得到对应于各个关联实体的特征权重向量。然后,可以组合各个特征权重向量以得到特征权重矩阵。

在块340,基于各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵。关联实体属性特征向量基于关联实体的相关属性而生成。在一个示例中,关联实体属性特征向量可以基于该关联实体与目标实体的各个关联关系类别的关联关系类别属性和该关联实体的实体属性生成。

关联关系类别属性是指各个关联关系类别的属性,例如可以包括投资比例、纠纷关系类别、关联关系准确度、相应关联关系类别的统计值等。投资比例是指当企业与关联企业或关联自然人之间存在投资关联关系时,该投资关联关系中涉及的投资比例(例如股权占比、出资占比等)。纠纷关系类别是指在发生当存在纠纷关联关系时,所涉及的纠纷的类别,例如可以包括民事诉讼、刑事诉讼、行政诉公或仲裁等。纠纷关系类别还可以针对某一类纠纷关联关系,例如当针对刑事诉讼时,纠纷关系类别可以包括涉及刑事诉讼或不涉及刑事诉讼。

关联关系准确度是指企业与关联企业或关联自然人存在某项关联关系的准确程度,表示该项关联关系真实存在的可能性。关联关系准确度可以是概率值,当一项关联关系是客观存在的事实时,关联关系准确度取值为1,当客观上不存在时取值为0。当无法从客观事实中确定该项关联关系是否存在时,可通过目标实体数据和关联企业数据预测出存在该项关联关系的概率,以作为关联关系准确度。

相应关联关系类别的统计值是指在存在相应关联关系时,该关联关系中所涉及的行为的统计值,例如在买卖关系中的交易次数、交易金额、招标持续天数、合同生效期间长度等,再例如任职所属关系中的任职年限等。对于诸如客观存在的关联关系等不便于用统计值表示的情形(例如亲属关联关系),该项可以置为空。

实体属性是指关联实体本身的属性,例如实体经营状态、实体信用评分、实体交易信息、实体信息用记录、实体类别等。实体经营状态是指当实体为企业等经营主体时,该实体在所处的状态,可以包括正常营业、注销经营许可、经营许可被吊销、停业状态等。实体信用评分例如可以包括关联实体的信用评分、关联自然人的信用评分等,实体信用评分可以是收集到的客观数据,还可以是利用模型预测得到的值。实体交易信息可以包括该实体在预定期间内的交易次数、交易金额、交易涉及对象等。实体信息用记录可以包括关联实体的履约信息(例如履约次数、履约事项)、违约信息(例如违约次数、违约事项)等历史信用记录。实体类别可以包括自然人、合伙企业、集团企业、个体户、一人公司、总公司、子公司、分支机构等。

在生成关联实体属性特征向量时,对于投资比例、关联关系准确度、相应关联关系类别的统计值等可量化属性,可以使用该属性的数值作为关联实体属性特征向量的相应特征维度的取值或使相应特征维度为空。在另一示例中,还可以对这些数值进行归一化处理,以使各个维度的取值范围相同。对于纠纷关系类别、实体类别等非量化属性,可以对采用随机赋值或排序赋值的方法。例如,对于如上列举的实体类别,可以随机地为各个实体类别分别赋予唯一值,可以将自然人赋值为1、合伙企业赋值为3、集团企业赋值为5,当关联实体为合伙企业时,相应特征维度可以取值为3。在另一示例中,可以对各个实体类别进行排序后,将各个实体类别的序号作为相应维度的取值。例如,如果自然人在排序之后的序号为5,则当关联实体为自然人时,相应维度取值为5。

通过上述确定各个特征维度的取值后,可以生成各个关联实体的关联实体属性特征向量。当特征数量为k个时,所生成的关联实体属性特征向量的维度可以为k。

在生成特征权重矩阵和关联实体属性特征矩阵之后,在块360,基于特征权重矩阵和关联实体属性特征矩阵,生成目标实体的实体特征样本。特征权重矩阵包括基于各个关联关系类别提取出的权重值,可以表示关联实体属性特征矩阵中的对应维度在目标实体的实体特征中所占的比重。该权重值是利用第一机器学习模型基于关联关系类别向量提取得到的。通过利用第一机器学习模型来提取出特征权重矩阵,然后基于特征权重矩阵和关联实体属性特征矩阵,生成目标实体的实体特征样本,能够引入注意力(attention)机制来使所生成的实体特征样本更加关注对目标实体的实体特征贡献较大的特征,进而使所生成的实体特征样本更能反映目标实体的特征。

可以基于图3所示的示例来生成目标实体和实体特征样本。图3是根据本公开的一个实施例的实体特征样本生成方法中的实体特征样本生成过程的一个示例的流程图。

在图3所示的示例中,关联实体属性特征矩阵与特征权重矩阵具有相同的维度。在一个示例中,可以根据特征权重矩阵的维度s来确定关联实体属性特征向量的维度k。可以使k等于特征权重矩阵的维度s,此时,可以组合各个关联实体的关联实体属性特征向量以生成关联实体属性特征矩阵。在另一示例中,可以利用第二机器学习模型来基于关联实体属性特征向量来生成关联实体属性特征矩阵。在该示例中,可以使第二机器学习模型和第一机器学习模型的输出维度相同,以使关联实体属性特征矩阵与所述特征权重矩阵具有相同的维度。第二机器学习模型也可以基于dnn、rnn、cnn等神经网络模型来实现。此外,第一机器学习模型和第二机器学习模型还可以基于gbdt等其它机器学习模型来实现。

如图3所示,在块302,将关联实体属性特征矩阵与特征权重矩阵进行点乘运算,以得出加权特征矩阵。然后,在块304,基于加权特征矩阵中各个列,生成对应于该列的维度值,以生成目标实体的实体特征向量来作为实体特征样本。在一个示例中,可以将加权特征矩阵的各个列相加,以得到实体特征向量。

为了便于理解,以下参考图4所示的示例来说明实体特征样本的生成过程。图4是用于说明根据本公开的一实施例的实体特征样本生成方法的示意图。

如图4所示,a(1)至a(m)表示关联实体1至关联实体m的关联关系类别向量,n(1)至n(m)表示关联实体1至关联实体m的关联实体属性特征向量。关联关系类别向量为k维向量,基于k关联关系类别生成。关联实体属性特征向量为l维向量,基于l个特征生成。

将a(1)至a(m)依次输入第一机器学习模型后,对输出结果按输入顺序组合可得到特征权重矩阵a’,将n(1)至n(m)依次输入第二机器学习模型后,对输出结果按输入顺序组合后可得到关联实体属性特征矩阵n’。在该示例中,第一机器学习模型和第二机器学习模型的输出维度相同,因而特征权重矩阵a’和关联实体属性特征矩阵n’的维度相度(s维)。

接下来,使s维的a’和n’进行点乘,以得出s维的特征权重矩阵an。然后,可以使an的各个列相加,并将相加所得的和作为各个列所对应的维度值,以生成s维的实体特征向量u。该实体特征向量u可作为所生成的目标实体的实体特征样本。

上述实施例中描述了利用第二机器学习模型来生成关联实体属性特征矩阵的示例,还可以利用图5所示的示例来生成关联实体属性特征矩阵。

图5是根据本公开的一个实施例的实体特征样本生成方法中的关联实体属性特征矩阵生成过程的一个示例的流程图。

如图5所示,在块502,比较关联实体属性特征向量的维度与特征权重矩阵的维度。可以通过比较第一机器学习模型的输出维度来比较关联实体属性特征向量的维度与特征权重矩阵的维度。然后,在块504,判断关联实体属性特征向量的维度是否低于特征权重矩阵的维度。

当关联实体属性特征向量的维度低于特征权重矩阵的维度时,在块506,基于各个关联实体的关联实体属性特征向量中的至少一个维度,确定出该关联实体属性特征向量的至少一个补充维度值。例如,可以针对各个关联实体属性特征向量,随机地选取该关联实体属性特征向量中的一个或多个维度值,并采用给定计算式基于所选取的维度值来确定出一个补充维度值,直至使该关联实体属性特征向量的维度与特征权重矩阵的维度相同。然后组合经过补充后的各个关联实体属性特征向量,以生成特征权重矩阵。在另一示例中,可以基于具有关联关系的至少一个维度来确定补充维度值,例如可以基于交易次数和交易金额来确定平均交易金额,或基于交易次数和发生交易的天数来确定每天交易次数等。

在一个示例中,可以使第一机器学习模型针对各个关联实体的模型参数相同。第二机器学习模型针对各个关联实体的模型参数也可以是相同的。可以在生成特征权重矩阵和关联实体属性特征矩阵之前,采用模型训练样本来训练第一机器学习模型和/或第二机器学习模型。然后,利用经过训练的第一机器学习模型来基于关联关系类别向量生成特征权重矩阵,利用第二机器学习模型来基于关联实体属性特征向量来生成关联实体属性特征矩阵。在另一示例中,在矩阵生成过程中,可以使输入的目标实体的第一个关联关系类别向量a(1)参与模型训练,a(2)至a(m)不启用损失函数以保证针对各个关联实体的第一机器学习模型参数相同。还可以使输入的目标实体的第一个关联关系类别向量a(1)和对应的第一个关联实体属性特征向量n(1)参与模型训练,a(2)至a(m)以及n(2)至n(m)不启用损失函数,以使得针对各个关联实体的第一机器学习模型的模型参数是相同的,并且针对各个关联实体的第二机器模型的参数也是相同的。在另一示例中,可以使输入模型的所有关联关系类别向量及对应的关联实体属性特征向量都参与训练,这样针对各个关联实体的模型参数将是不相同的。

当针对各个关联实体的第一机器学习模型参数相同时,所生成的特征权重矩阵仅取决于模型的输入(即关联关系类别向量)。此时,所生成的特征权重矩阵能够直观地反映出目标实体的指标。例如,可以通过比较存在某项关联关系或不存在某项关联关系时的特征权重矩阵,反映出该项关联关系对信用等级的影响程度(例如可直观反应一旦目标实体和关联实体成为股东关系,无论占股大小,股东关系本身所代表的信用等级程度)。当目标实体是待预测实体时,可以将所生成的特征权重矩阵和/或关联实体属性特征矩阵用于判断该待预测实体的该项指标的相关信息或用于其它指标向关的业务处理。

当不采用第二机器学习模型来生成关联实体属性特征矩阵时,也可以针对各个关联实体,采用相同的矩阵生成过程来生成关联实体属性特征矩阵。例如,当基于关联实体属性特征向量中的至少一个维度来生成补充维度时,针对各个关联实体的对应补充维度基于关联实体属性特征向量中的相同维度(一个或多个),并采用相同的计算方式来确定该补充维度。

以上以目标实体为企业为例对实体特征样本生成方法进行了说明,应当理解的是,本公开的实体特征样本生成方法还适用于目标实体为自然人的情形。

图6是根据本公开的一个实施例的实体信用预测方法的流程图。

如图6所示,在块620,生成待预测实体的实体特征样本。可以采用参照图1-5描述的实体特征样本生成方法来生成待预测实体的实体特征样本。块620并不是实体信用预测方法中必需的过程,在另一示例中,可以不包括实体特征样本生成过程。在该示例中,可以获取已生成的实体特征样本。

在生成实体特征样本之后,在块640,基于待预测实体的实体特征样本,利用信用预测模型来预测待预测实体的实体信用。信用预测模型利用至少一个带标记实体特征样本训练得到,至少一个带标记实体特征样本利用参照图1-5描述的实体特征样本生成方法生成。可以在利用上述实体特征样本生成方法生成用于训练信用预测模型的实体特征样本之后,为各个实体特征样本赋予信用标记以生成带标记实体特征样本。

信用标记例如可以包括存在信用风险或不存在信用风险,还可以包括信用风险等级。所预测出的实体信用例如可以是预测实体存在信用风险的概率,还可以基于该概率确定出信用等级。在另一示例中,所预测出的实体信用还可以是信用等级。

需要说明的是,虽然以上参考图6描述了实体特征样本生成方法应用于信用预测的情形,但是应当理解的是,本公开的实体特征样本生成方法还可以应用于其它场景。

图7是根据本公开的一个实施例的实体特征样本生成装置的结构框图。如图7所示,实体特征样本生成装置700包括权重矩阵生成单元710、特征矩阵生成单元720和特征样本生成单元730。

权重矩阵生成单元710基于目标实体与至少一个关联实体中的各个关联实体的各个关联关系类别向量,利用第一机器学习模型,生成特征权重矩阵。特征矩阵生成单元720基于各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵。

在一个示例中,特征矩阵生成单元720可以当关联实体属性特征向量的维度低于特征权重矩阵的维度时,基于各个关联实体的关联实体属性特征向量中的至少一个维度,确定出该关联实体属性特征向量的至少一个补充维度值,以使所生成的关联实体属性特征矩阵与特征权重矩阵具有相同的维度。在另一示例中,特征矩阵生成单元720还可以基于各个关联实体的关联实体属性特征向量,利用第二机器学习模型来生成所述关联实体属性特征矩阵。目标实体可以包括多个,针对多个目标实体的第一机器学习模型的模型参数可以相同。针对多个目标实体的第二机器学习模型的模型参数也可以是相同的。

在生成特征权重矩阵和关联实体属性特征矩阵之后,特征样本生成单元730基于特征权重矩阵和关联实体属性特征矩阵,生成目标实体的实体特征样本。

图8是图7所示的实体特征样本生成装置中的特征样本生成单元的一个示例的结构框图。如图8所示,特征样本生成单元730可以包括加权特征矩阵确定模块731和特征样本生成模块732。在该示例中,关联实体属性特征矩阵与特征权重矩阵具有相同的维度,

加权特征矩阵确定模块731将关联实体属性特征矩阵与特征权重矩阵进行点乘运算,以得出加权特征矩阵。特征样本生成模块732基于加权特征矩阵中各个列,生成对应于该列的维度值,以生成目标实体的实体特征向量来作为实体特征样本。

图9是根据本公开的一个实施例的实体信用预测装置的结构框图。如图9所示,实体信用预测装置900包括实体特征样本生成单元910和实体信用预测单元920。

实体特征样本生成单元910可以利用如上所述的实体特征样本生成方法生成待预测实体的实体特征样本。实体信用预测单元920基于待预测实体的实体特征样本,利用信用预测模型来预测待预测实体的实体信用。信用预测模型利用至少一个带标记实体特征样本训练得到,至少一个带标记实体特征样本利用如上实体特征样本生成的方法生成。

在另一示例中,实体信用预测装置可以不包括实体特征样本生成单元。

以上参照图1到图9,对根据本公开的实体特征样本生成方法及装置和实体信用预测方法及装置的实施例进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本公开的装置的实施例。

本公开的实体特征样本生成装置和实体信用预测装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见。

本公开的实体特征样本生成装置和实体信用预测装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本公开中,实体特征样本生成装置和实体信用预测装置例如可以利用计算设备实现。

图10是根据本公开的一个实施例的用于实现实体特征样本生成方法的计算设备的结构框图。如图10所示,计算设备1000包括处理器1010、存储器1020、内存1030、通信接口1040和内部总线1050,并且处理器1010、存储器(例如,非易失性存储器)1020、内存1030、通信接口1040经由总线1050连接在一起。根据一个实施例,计算设备1000可以包括至少一个处理器1010,该至少一个处理器1010执行在计算机可读存储介质(即,存储器1020)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。

在一个实施例中,在存储器1020中存储计算机可执行指令,其当执行时使得至少一个处理器1010:基于目标实体与至少一个关联实体中的各个关联实体的各个关联关系类别向量,利用第一机器学习模型,生成特征权重矩阵;基于所述各个关联实体的关联实体属性特征向量,生成关联实体属性特征矩阵;以及基于所述特征权重矩阵和所述关联实体属性特征矩阵,生成目标实体的实体特征样本。

应该理解,在存储器1020中存储的计算机可执行指令当执行时使得至少一个处理器1010进行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。

图11是根据本公开的一个实施例的用于实现实体信用预测方法的计算设备的结构框图。如图11所示,计算设备1100包括处理器1110、存储器1120、内存1130、通信接口1140和内部总线1150,并且处理器1110、存储器(例如,非易失性存储器)1120、内存1130、通信接口1140经由总线1150连接在一起。根据一个实施例,计算设备1100可以包括至少一个处理器1110,该至少一个处理器1110执行在计算机可读存储介质(即,存储器1120)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。

在一个实施例中,在存储器1120中存储计算机可执行指令,其当执行时使得至少一个处理器1110:基于待预测实体的实体特征样本,利用信用预测模型来预测所述待预测实体的实体信用。

应该理解,在存储器1120中存储的计算机可执行指令当执行时使得至少一个处理器1110进行本公开的各个实施例中以上结合图6和9描述的各种操作和功能。

根据一个实施例,提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图6和9描述的各种操作和功能。

具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd-rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。

以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1