基于图谱的实体特征选择方法、装置、设备和存储介质与流程

文档序号:18832526发布日期:2019-10-09 03:55阅读:234来源:国知局
基于图谱的实体特征选择方法、装置、设备和存储介质与流程

本发明实施例涉及计算机数据处理技术,尤其涉及一种基于图谱的实体特征选择方法、装置、设备和存储介质。



背景技术:

随着人工智能和大数据技术的兴起,互联网中每天产生大量的关系数据。如果要对其进行数据挖掘,例如聚类分析或异常检测等,就需要从关系数据中提取特征,以便用于后续的相应的机器学习算法。

目前从关系数据中构建特征的方法有:第一类,基于专家知识的实体特征选择。该类方法主要利用场景内的业务经验,由专家提出能够体现目标异常的重要属性和度量等特征,并进一步人工的将这些基本特征进行组合。其完全基于先验知识来设计对目标的特征表达,进而通过特征加工实现特征的构建。第二类,基于图嵌入技术的实体特征选择。该类方法需要先基于互联网中的关系数据来构建图数据(也称图谱),图谱是利用关系数据将互联网用户和团体以虚拟的方式联系在一起,构成一个个超越地理桎梏的关系网络。之后,需要将当前节点及其所有相关邻居节点的信息向量化为当前节点的特征表达,以实现自动构造当前节点的特征表达。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

第一,基于专家知识的实体特征选择方法,完全依赖业务专家对场景的个人理解,由于专家的知识水平和领域背景的不同,导致依赖专家知识的特征生成过程带有不可避免的倾向性,导致公平性受到人为干扰。而当场景复杂性和数据量提升之后,这一问题被进一步放大,导致依靠专家知识的实体特征选择已经不能覆盖数据中的显著特征,甚至陷入特征空间中的某些较狭隘的局部,导致特征质量较差,且耗时耗力。

第二,基于图嵌入技术的实体特征选择方法虽然不再依赖专家的个人知识储备,同时可借助邻居节点的属性信息表达当前节点的特征,能较好的利用图谱的结构特性。但是当关系数据中结构变得复杂,属性变得繁多时,这种粗放的实体特征自动选择方法带来无法忍受的计算资源和时间耗损。



技术实现要素:

本发明实施例提供一种基于图谱的实体特征选择方法、装置、设备和存储介质,以实现更加准确且更加高效地从图谱中自动确定实体特征,降低实体特征选择的系统资源消耗和时间损耗。

第一方面,本发明实施例提供了一种基于图谱的实体特征选择方法,包括:

获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;

确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;

对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;

依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。

第二方面,本发明实施例还提供了一种基于图谱的实体特征选择装置,该装置包括:

目标图谱获取模块,用于获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;

模块度矩阵确定模块,用于确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;

分解矩阵生成模块,用于对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;

实体特征选择模块,用于依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。

第三方面,本发明实施例还提供了一种设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的基于图谱的实体特征选择方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的基于图谱的实体特征选择方法。

本发明实施例通过获取业务场景对应的包含目标实体类型的实体的目标图谱,并根据目标图谱确定能够表征目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距的模块度矩阵,实现了根据图数据的拓扑结构将业务场景对应的图数据转换为保留全局图信息的模块度矩阵,避免了实体特征选择过程中对先验知识和专家知识的依赖而导致的个体倾向性问题,为后续自动构建实体特征提供基础。通过对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵,并依据分解矩阵选择目标图谱中用于表征对应实体在业务场景中的多维度特征的目标实体类型的各实体特征,实现了模块度矩阵的快速降维,规避了大量复杂属性带来的过度计算,提高了实体特征的选择效率,降低了实体特征选择的系统资源消耗和时间损耗,扩大了实体特征选择的业务场景适用范围;并且奇异值分解所获得的特征向量包含更多、更全的图数据信息,使得各实体特征能够更加全面且稳定地表征业务场景对应的互联网数据,从而提高了实体特征的准确性和稳定性。

附图说明

图1是本发明实施例一中的一种基于图谱的实体特征选择方法的流程图;

图2是本发明实施例二中的一种基于图谱的实体特征选择方法的流程图;

图3是本发明实施例二中的奇异值变化曲线示意图;

图4是本发明实施例三中的一种基于图谱的实体特征选择方法的流程图;

图5是本发明实施例四中的一种基于图谱的实体特征选择装置的结构示意图;

图6是本发明实施例五中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

本发明实施例提供的基于图谱的实体特征选择方法可适用于从图谱中自动提取特征向量,以用于各种机器学习算法的情况。该方法可以由基于图谱的实体特征选择装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有数据运算功能的设备中,例如笔记本电脑、台式电脑或服务器等。参见图1,本实施例的方法具体包括如下步骤:

s110、获取业务场景对应的目标图谱。

其中,业务场景是指需要处理的事物所处的场景,其根据业务需求而定,例如业务需求为对电商平台中的数据进行归类分析,那么业务场景便为电商数据分类场景,又如业务需求为对社交网络中的数据进行异常检测,那么业务场景便为社交网络的异常检测场景等。图谱是一种图数据,其内包含各种类型(也可称为实体类型)的节点(也可称为实体)和节点之间的关联关系(也可称为边或实体关联关系)。目标图谱是可直接用于进行实体特征提取的图谱,其与初始图谱对应。初始图谱是指对大数据进行处理而直接获得的图谱。目标实体类型是指业务需求针对的主体所属的类型,例如业务需求为对用户行为或用户属性进行分析,那么目标实体类型便为用户类型,又如业务需求为对设备的使用情况或性能进行分析,那么目标实体类型便为设备类型等。

具体地,在机器学习任务中,实体特征的选择(从实体的所有实体特征中选择有效的实体特征)一直是一切工作的基础,好的实体特征选择技术能够显著的提高机器学习模型的学习效率和效果。故本发明实施例提供了一种基于图谱的模块度矩阵奇异值分解的实体特征选择方法,以摒弃对先验知识和专家知识的依赖,且避免复杂场景下自动选择实体特征的过度计算,从而获得更加准确、稳定和全面的实体特征。

具体实施时,先根据业务场景来获取目标图谱。该目标图谱可以是从业务场景对应的大数据中进行提取及后处理而获得,也可以是从存储介质中读取获得,还可以是从基于图谱的实体特征选择装置的外部(如网络端)传输而获得。由于目标图谱是用来表征业务场景和业务需求的图数据,故目标图谱中包含目标实体类型的实体。

示例性地,获取业务场景对应的目标图谱包括:获取业务场景对应的初始图谱,初始图谱包含目标实体类型的实体;若初始图谱为异构图,则依据初始图谱中包含的各实体关联关系拆分初始图谱,获得初始图谱对应的各无向二分图,分别作为目标图谱。

其中,异构图是指图中的节点有不同的类型(实体类型不同),图中节点之间的关联关系(实体关联关系)也有多种不同的形式。无向二分图是图论中的一种特殊模型,其所包含的顶点集可分割为两个互不相交的子集,并且图中每条边(实体关联关系)依附的两个顶点都分属于这两个互不相交的子集,两个子集内的顶点不相邻。

具体地,为了简化实体特征选择的逻辑,进一步提高实体特征的选择效率,降低选择实体特征的时耗和系统资源消耗,本发明实施例中将目标图谱的图类型设置为无向二分图。如果业务场景较为复杂,那么所获得的业务场景对应的初始图谱的图类型可能为异构图,此时需要将其拆分为无向二分图。具体实施时,根据初始图谱中所包含的各个实体关联关系,将初始图谱拆分为只包含一种实体关联关系的各个子图谱,每个子图谱便为一个无向二分图。每个无向二分图可以作为一个目标图谱进行处理。也就是说,对于复杂的业务场景,如果初始图谱为异构图,那么就需要执行多次本发明实施例中的实体特征选择流程,来获得业务场景下的多种类型的实体特征,以从多个维度对实体进行表征。

同样地,初始图谱的获取方式可以是对业务场景对应的大数据中进行提取,也可以是从存储介质中读取,还可以是从基于图谱的实体特征选择装置的外部(如网络端)请求。

示例性地,获取业务场景对应的初始图谱包括:依据各设定实体类型和各设定实体关联关系,从互联网数据中进行数据提取,并依据数据提取结果构建初始图谱。其中,设定实体类型和设定实体关联关系分别是预先设定的实体类型和实体关联关系,其可以根据业务场景和业务需求来设定,由此设定实体类型中必然包含目标实体类型。具体地,如果初始图谱是从大数据中直接提取而获得,那么其获取流程大致为:根据预先设定的各个设定实体类型和设定实体关联关系,从业务场景对应的互联网数据中提取每个设定实体类型及每个设定实体关联对应的各个实体和实体间的关联关系。之后,根据提取所得的数据构建初始图谱。这样设置的好处在于,可以获得更加符合要求的初始图谱,减少后续对图谱的处理操作,从而进一步提高实体特征的选择效率。

s120、确定目标图谱的模块度矩阵。

其中,模块度矩阵是将图数据转换为矩阵的一种方式,矩阵中的每个元素表示目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之差。真实值是指一对实体间实际上产生实体关联关系的值,在图谱中便表现为该对实体间是否真实存在边连接,如果存在,则真实值为第一数值(例如1);如果不存在,则真实值为第二数值(例如0)。期望值是指一对实体间可能产生实体关联关系的估算值。

具体地,将目标图谱中的目标实体类型的各个实体(称为第一实体)设置为模块度矩阵的行属性,将目标图谱中的另一实体类型的各个实体(称为第二实体)设置为模块度矩阵的列属性,那么模块度矩阵中的每个元素便对应于一对实体,即(第一实体,第二实体)。

之后,按照如下的模块度矩阵元素值确定公式计算模块度矩阵中的各个元素值:

其中,bij表示模块度矩阵中第i行第j列的模块度元素值,即第i个第一实体和第j个第二实体之间是否产生关联关系的真实值和期望值之差;aij表示第i行第j列对应的一对实体之间是否产生实体关联关系的真实值;ki表示第i个第一实体的度数,即第i个第一实体真实关联的边数;kj表示第j个第二实体的度数,即第j个第二实体真实关联的边数;m表示目标图谱中真实存在的边数总和。

根据上述模块度矩阵元素值确定公式可知,模块度矩阵中涉及到了目标图谱中的每个实体及每个实体关联关系,故模块度矩阵保留了目标图谱的全局信息,能够更加快速、更加全面地表征目标图谱。

s130、对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵。

具体地,对上述获得的模块度矩阵进行奇异值分解处理,获得奇异值分解的分解矩阵,即左奇异矩阵、对角矩阵和右奇异矩阵。分解矩阵的3个小矩阵可以完整描述较大的模块度矩阵,达到了对模块度矩阵降维的效果。

s140、依据分解矩阵选择目标图谱中目标实体类型的各实体特征。

其中,实体特征用于表征对应实体在业务场景中的多维度特征,例如目标实体类型为用户类型时,实体特征便为用户在业务场景中的各种行为特征和/或各种属性特征等;又如,目标实体类型为设备类型时,实体特征便为设备在业务场景中的各种属性特征等。

具体地,由于分解矩阵中的左奇异矩阵是模块度矩阵的特征向量构成的矩阵,故可以由左奇异矩阵来选择目标实体类型对应的各个实体的实体特征。例如可以直接将左奇异矩阵中的每个行向量作为对应实体的实体特征;也可以先对左奇异矩阵进行诸如降维的后处理,然后根据处理后的左奇异矩阵选择实体特征。

本实施例的技术方案,通过获取业务场景对应的包含目标实体类型的实体的目标图谱,并根据目标图谱确定能够表征目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距的模块度矩阵,实现了根据图数据的拓扑结构将业务场景对应的图数据转换为保留全局图信息的模块度矩阵,避免了实体特征选择过程中对先验知识和专家知识的依赖而导致的个体倾向性问题,为后续自动构建实体特征提供基础。通过对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵,并依据分解矩阵选择目标图谱中用于表征对应实体在业务场景中的多维度特征的目标实体类型的各实体特征,实现了模块度矩阵的快速降维,规避了大量复杂属性带来的过度计算,提高了实体特征的选择效率,降低了实体特征选择的系统资源消耗和时间损耗,扩大了实体特征选择的业务场景适用范围;并且奇异值分解所获得的特征向量包含更多、更全的图数据信息,使得各实体特征能够更加全面且稳定地表征业务场景对应的互联网数据,从而提高了实体特征的准确性和稳定性。

实施例二

本实施例在上述实施例一的基础上,对“依据分解矩阵选择目标图谱中目标实体类型的各实体特征”进行了进一步优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,本实施例提供的基于图谱的实体特征选择方法包括:

s210、获取业务场景对应的目标图谱。

s220、确定目标图谱的模块度矩阵。

s230、对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵。

s240、依据分解矩阵中对角矩阵的各奇异值确定目标奇异值。

其中,目标奇异值是对角矩阵中的一个奇异值,其对应于奇异值中数值极具变化的点,例如奇异值由数值大的值变化为数值很小的值的拐点。参见图3,目标奇异值是奇异值变化曲线中曲线由陡变平稳的拐点,其用于确定对左奇异矩阵进行降维的起始点。

具体地,奇异值分解所得的对角矩阵中对角线上的各个奇异值为模块度矩阵的特征值,每个特征值与左奇异矩阵中相应行的行向量(模块度矩阵的特征向量)和相应列的列向量对应,故左奇异矩阵也可称为特征矩阵,奇异值也可称为特征值。对角矩阵中的各个特征值是按照数值由大到小的顺序排列,较小的特征值表明特征矩阵中对应列的信息量较小,且特征值和其所对应的特征矩阵列信息量通常衰弱的很快(如图3),当特征值低到一定程度时,其之后的特征矩阵列已经不能对业务场景的业务分析起到实质性作用,仅有少数靠前的特征矩阵列对业务分析具有贡献。因此,为了进一步减少无效特征对业务分析的干扰,提高后续业务分析的效率和实体特征的稳定性,本实施例中需要确定对角矩阵中各个奇异值的下降拐点,以便确定特征矩阵中从哪一列开始已经不具有表征业务相关特征的作用而应该去除。这样,从左奇异矩阵中去除无效信息后所得的实体特征的维度会更少,后续利用这些实体特征进行业务分析时便会更加快速,所利用的计算资源和计算时间会更少。

具体实施时,可以直接设定一个预设数值,将各个奇异值中大于或等于该预设数值的所有奇异值中的最小奇异值作为目标奇异值。也可以根据奇异值之间的差值(奇异值差值)和预设奇异值差值阈值来确定目标奇异值。还可以根据奇异值变化曲线中每个奇异值处的斜率和预设斜率阈值来确定目标奇异值。

示例性地,s240包括:依据对角矩阵的各奇异值和每个奇异值对应的列序号,生成奇异值变化曲线;确定每个奇异值对应的奇异值变化曲线的斜率;依据各斜率和预设斜率阈值的比较结果,确定目标斜率,并将奇异值变化曲线中与目标斜率对应的奇异值确定为目标奇异值。

具体地,在利用斜率进行目标奇异值确定时,先根据各个奇异值和其对应的列序号生成奇异值变化曲线,如图3。之后,确定该奇异值变化曲线中每个奇异值处的切线的斜率,并将该斜率与预设斜率阈值(预先设定的与斜率相关的数值)进行比较,确定出目标斜率。最后,将目标斜率对应的奇异值确定为目标奇异值。这样设置的好处在于,可以更加直观的确定出目标奇异值,提高目标奇异值的确定准确性。

上述斜率与预设斜率阈值的比较方式及目标斜率的确定方式均与预设斜率阈值的内容相关。

当预设斜率阈值为预设斜率值(预先设定的斜率值)时,将每个斜率的绝对值与预设斜率阈值比较,并将比较结果中斜率的绝对值小于或等于预设斜率阈值的各个斜率的绝对值中数值最小的斜率确定为目标斜率。

当预设斜率阈值为预设斜率差值阈值(预先设定的斜率差值)时,确定每两个斜率的绝对值之间的斜率差值,若连续设定数量(预先设置的个数数值)的斜率差值均小于预设斜率差值阈值,那么将连续设定数量的斜率差值对应的任一个斜率确定为目标斜率。

示例性地,s240包括:确定每两个奇异值之间的奇异值差值;若连续设定数量的奇异值差值的绝对值均小于预设奇异值差值阈值,则将连续设定数量的奇异值差值对应的任一奇异值确定为目标奇异值。

具体地,在利用奇异值差值进行目标奇异值确定时,先计算每两个奇异值之间的差值(奇异值差值)。之后,比较每个奇异值差值的绝对值与预设奇异值差值阈值。如果存在连续设定数量的奇异值差值的绝对值均小于预设奇异值差值阈值,那么就将连续设定数量的奇异值差值对应的各个奇异值中的任一个奇异值确定为目标奇异值。这样设置的好处在于,可以提高目标奇异值确定的准确性和速度。

s250、依据目标奇异值在对角矩阵中对应的列序号对分解矩阵中的左奇异矩阵进行列降维,获得校正矩阵。

具体地,根据目标奇异值在对角矩阵中的位置,确定一个列序号。之后,将左奇异矩阵中该列序号之后的数据全部去除,以对左奇异矩阵的列进行降维处理,获得降维后的左奇异矩阵,作为校正矩阵。

s260、将校正矩阵中的各个行向量选择为目标图谱中目标实体类型的各实体特征。

具体地,根据上述说明,可以直接将校正矩阵中的每个行向量选择为目标图谱中目标实体类型对应的相应实体的实体特征。这样所获得的各个实体特征中包含的数据量较少,且足以较为全面的表征各个实体的多维度特征。

本实施例的技术方案,通过目标奇异值的确定及依据目标奇异值在对角矩阵中对应的列序号对分解矩阵中的左奇异矩阵进行列降维,获得校正矩阵,并将校正矩阵中的各个行向量选择为目标图谱中目标实体类型的各实体特征,消除了大量无效特征,降低了特征空间的维度,进一步解决了实体特征自动选择过程占用系统资源较多及选择的实体特征数据量大的问题,在充分利用图谱拓扑结构信息的同时,进一步降低了实体特征的数据量,从而进一步降低实体特征选择过程对系统资源的消耗,以及提高了基于各个实体特征的后续业务分析的效率。

实施例三

本实施例在上述各实施例的基础上,对社交网络中的异常用户检测场景下的实体特征选择过程进行了说明。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

本实施例提供的基于图谱的实体特征选择方法尤其适用于异常检测,例如社交网络、电商平台和金融风险监管等多个图计算应用领域中的异常检测。

目前互联网中存在大量恶意的欺诈行为,例如社交网络中不法分子通过操纵大量虚拟用户来诱导合法用户的行为,通过欺诈行为骗取合法用户的个人信息乃至个人财产;又如,在电商平台中,不法分子操纵大量虚假账号进行恶意刷单,在短时间内改变商品的热度或商家的信誉,诱使正常用户购买,通过非法手段盈利。总之,互联网中大量欺诈行为的存在会给用户造成隐私泄露及经济损失,故急需从大量关系数据中快速检测到欺诈用户(异常用户)和欺诈行为(异常行为),而异常检测的首要操作便是实体特征选择。

虽然目前存在有基于专家知识的实体特征选择方法和基于图嵌入技术的实体特征选择方法,但是当其用于异常检测时,除了上述说明的缺陷之外,发明人还发现了如下问题:1)基于专家知识的实体特征选择方法不能适应日益多变的欺诈手段,往往需要频繁的调整特征池来适应新的欺诈场景,不但造成大量的人力和时间消耗,而且亡羊补牢式的维护方式也导致发现问题前已经造成大量经济损失。2)虽然图谱可以完整表征互联网中大量的关系数据,从而可以进行异常节点和异常关系的检测,但是基于图嵌入技术的实体特征选择方法并不以异常检测工作为直接目标,构建的特征表达通常引入大量与异常表达无关的信息,干扰异常检测效果。而本发明实施例所提出的基于图谱的实体特征选择方法中很好地利用了模块度矩阵能够保留全局图异常的特性,使得其能够适用于异常检测场景。

在业务场景为社交网络的异常用户检测场景时,互联网数据为社交网络数据,例如可以是twitter、qq、微信和微博中的至少一个社交应用对应的互联网数据。根据社交网络数据中的参与实体,将设定实体类型设置为包括用户类型、设备类型和互联网协议地址(ip地址)类型。由于是进行用户异常检测,故可以将目标实体类型设置为用户类型。根据社交网络中的用户行为,可以将设定实体关联关系设置为包括用户与用户之间的关注关系(即关注(用户,用户))、用户与设备之间的登录关系(即登录(用户,设备))以及用户与互联网协议地址之间的登录关系(即登录(用户,ip地址))。

参见图4,本实施例提供的基于图谱的实体特征选择方法包括:

s310、依据用户类型、设备类型、互联网协议地址类型、用户与用户之间的关注关系、用户与设备之间的登录关系以及用户与互联网协议地址之间的登录关系,从互联网数据中进行数据提取,并依据数据提取结果构建初始图谱。

s320、分别依据初始图谱中包含的用户与用户之间的关注关系、用户与设备之间的登录关系以及用户与互联网协议地址之间的登录关系拆分初始图谱,获得用户与用户之间的关注关系、用户与设备之间的登录关系以及用户与互联网协议地址之间的登录关系对应的三个无向二分图,分别作为社交网络的异常用户检测场景对应的目标图谱。

具体地,由于初始图谱中包含三个实体关联关系,故可以将初始图谱拆分为三个目标图谱,每个目标图谱均执行后续s330~s370的各操作。本实施例中以登录(用户,设备)对应的目标图谱为例进行后续相关操作说明。

s330、确定目标图谱的模块度矩阵。

具体地,模块度矩阵中的每个元素代表任一用户是否曾登录任一设备的真实值与期望值之间的差值。将用户类型设置为模块度矩阵的行属性,将设备类型设置为模块度矩阵的列属性。

异常数据的产生模式通常与正常数据的产生模式有本质上的不同。所以在随机生成的图谱中,用户是否曾登录设备的概率都是0.5,因此随机图谱中真实值与期望值差距是相对稳定的。但是在存在异常的图谱中,异常用户使用正常设备登录的概率要远小于其使用异常设备登录的概率,因此会形成一个疏离于图谱整体的异常子图,并导致对应模块度矩阵的元素值产生剧烈的变化,因此可以利用模块度矩阵中元素值的波动来检测此目标图谱中的异常用户。也就是说,模块度矩阵保留了目标图谱中的全局图异常信息。

s340、对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵。

具体地,分解矩阵中的左奇异矩阵为特征矩阵,特征矩阵中的每一行为一个用户的特征向量。

s350、依据分解矩阵中对角矩阵的各奇异值确定目标奇异值。

s360、依据目标奇异值在对角矩阵中对应的列序号对分解矩阵中的左奇异矩阵进行列降维,获得校正矩阵。

具体地,利用列序号对特征矩阵的列进行降维处理,所获得的校正矩阵中行向量数量保持不变,列向量数据减少。那么,每个用户仍对应校正矩阵中的一个行向量,只是每个用户对应的特征减少。

s370、将校正矩阵中的各个行向量选择为目标图谱中目标实体类型的各实体特征。

具体地,在该业务场景下,所选择的目标实体类型的各实体特征便为用户类型的各用户特征。对于关注(用户,用户)的目标图谱,其对应的用户特征为用户在社交网络中的关注行为特征;对于登录(用户,设备)的目标图谱,其对应的用户特征为基于设备的登录行为特征;对于登录(用户,ip地址)的目标图谱,其对应的用户特征为基于互联网协议地址的登录行为特征。

s380、基于各用户特征,确定目标图谱中包含的各用户中的异常用户。

具体地,分别将上述所获得的用户在社交网络中的关注行为特征、基于设备的登录行为特征和基于互联网协议地址的登录行为特征输入异常检测算法中进行异常检测,便可确定出社交网络的异常用户检测场景下每个目标图谱中所包含的异常用户。还可对每个目标图谱对应的异常用户进行交叉分析,来对整个社交网络中的异常用户进行全面检测。

本发明实施例所提供的基于图谱的实体特定选择方法在社交网络的异常用户检测场景下的测试表明,相比基于专家知识的实体特征选择方法,本实施例中的方法选择的实体特征有更稳定的性能,尤其在复杂场景中有较明显的优势;相较于其他基于图嵌入技术的实体特征选择方法,本实施例中的方法消耗更少的计算资源和时间成本。另外,本实施例的基于图谱的实体特征选择方法的设计过程完全以支持异常检测为指导,故其在后续异常检测过程中体现了更好的异常表达能力。

本实施例的技术方案,通过将业务场景设置为社交网络的异常用户检测场景,并将设定实体类型设置为包括用户类型、设备类型和互联网协议地址类型,目标实体类型设置为用户类型,设定实体关联关系设置为包括用户与用户之间的关注关系、用户与设备之间的登录关系以及用户与互联网协议地址之间的登录关系,并通过模块度矩阵的构建和奇异值分解,能够自动生成有效表征图谱内节点异常程度的特征表达,使得所选择的用户特征相较其他通用的实体特征选择方法选择的实体特征更能体现数据中的异常特性。通过基于奇异值衰减拐点的特征优化,消除了大量对异常检测无效的特征,降低了特征空间的维度,提高了后续异常检测的效率和效果。

实施例四

本实施例提供一种基于图谱的实体特征选择装置,参见图5,该装置具体包括:

目标图谱获取模块510,用于获取业务场景对应的目标图谱,目标图谱中包含目标实体类型的实体;

模块度矩阵确定模块520,用于确定目标图谱的模块度矩阵,模块度矩阵用于表征目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;

分解矩阵生成模块530,用于对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵;

实体特征选择模块540,用于依据分解矩阵选择目标图谱中目标实体类型的各实体特征,实体特征用于表征对应实体在业务场景中的多维度特征。

可选地,目标图谱获取模块510具体用于:

获取业务场景对应的初始图谱,初始图谱包含目标实体类型的实体;

若初始图谱为异构图,则依据初始图谱中包含的各实体关联关系拆分初始图谱,获得初始图谱对应的各无向二分图,分别作为目标图谱。

进一步地,目标图谱获取模块510还具体用于:

依据各设定实体类型和各设定实体关联关系,从互联网数据中进行数据提取,并依据数据提取结果构建初始图谱,其中,设定实体类型包含目标实体类型。

可选地,业务场景为社交网络中的异常用户检测场景,互联网数据为社交网络数据,设定实体类型包括用户类型、设备类型和互联网协议地址类型,目标实体类型为用户类型,设定实体关联关系包括用户与用户之间的关注关系、用户与设备之间的登录关系以及用户与互联网协议地址之间的登录关系;

相应地,实体特征选择模块540具体用于:

依据分解矩阵选择目标图谱中用户类型的各用户特征,用户特征用于表征用户在社交网络中的关注行为特征、基于设备的登录行为特征和基于互联网协议地址的登录行为特征;

相应地,在上述装置的基础上,该装置还包括:异常检测模块,用于:

在依据分解矩阵选择目标图谱中目标实体类型的各实体的特征之后,基于各用户特征,确定目标图谱中包含的各用户中的异常用户。

可选地,实体特征选择模块540包括:

目标奇异值确定子模块,用于依据分解矩阵中对角矩阵的各奇异值确定目标奇异值;

校正矩阵获取子模块,用于依据目标奇异值在对角矩阵中对应的列序号对分解矩阵中的左奇异矩阵进行列降维,获得校正矩阵;

实体特征选择子模块,用于将校正矩阵中的各个行向量选择为目标图谱中目标实体类型的各实体特征。

进一步地,目标奇异值确定子模块具体用于:

依据对角矩阵的各奇异值和每个奇异值对应的列序号,生成奇异值变化曲线;

确定每个奇异值对应的奇异值变化曲线的斜率;

依据各斜率和预设斜率阈值的比较结果,确定目标斜率,并将奇异值变化曲线中与目标斜率对应的奇异值确定为目标奇异值。

可替代地,目标奇异值确定子模块具体用于:

确定每两个奇异值之间的奇异值差值;

若连续设定数量的奇异值差值的绝对值均小于预设奇异值差值阈值,则将连续设定数量的奇异值差值对应的任一奇异值确定为目标奇异值。

通过本发明实施例四的一种基于图谱的实体特征选择装置,实现了更加准确且更加高效地从图谱中自动构建特征,降低了实体特征选择的系统资源消耗和时间损耗。

本发明实施例所提供的基于图谱的实体特征选择装置可执行本发明任意实施例所提供的基于图谱的实体特征选择方法,具备执行方法相应的功能模块和有益效果。

值得注意的是,上述基于图谱的实体特征选择装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

实施例五

参见图6,本实施例提供了一种设备,其包括:一个或多个处理器620;存储装置610,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器620执行,使得一个或多个处理器620实现本发明实施例所提供的基于图谱的实体特征选择方法,包括:

获取业务场景对应的目标图谱,目标图谱中包含目标实体类型的实体;

确定目标图谱的模块度矩阵,模块度矩阵用于表征目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;

对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵;

依据分解矩阵选择目标图谱中目标实体类型的各实体特征,实体特征用于表征对应实体在业务场景中的多维度特征。

当然,本领域技术人员可以理解,处理器620还可以实现本发明任意实施例所提供的基于图谱的实体特征选择方法的技术方案。

图6显示的设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图6所示,该设备包括处理器620、存储装置610、输入装置630和输出装置640;设备中处理器620的数量可以是一个或多个,图6中以一个处理器620为例;设备中的处理器620、存储装置610、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线650连接为例。

存储装置610作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于图谱的实体特征选择方法对应的程序指令/模块(例如,基于图谱的实体特征选择装置中的目标图谱获取模块、模块度矩阵确定模块、分解矩阵生成模块和实体特征选择模块)。

存储装置610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置610可进一步包括相对于处理器620远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例六

本实施例提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种基于图谱的实体特征选择方法,该方法包括:

获取业务场景对应的目标图谱,目标图谱中包含目标实体类型的实体;

确定目标图谱的模块度矩阵,模块度矩阵用于表征目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;

对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵;

依据分解矩阵选择目标图谱中目标实体类型的各实体特征,实体特征用于表征对应实体在业务场景中的多维度特征。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的基于图谱的实体特征选择方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所提供的基于图谱的实体特征选择方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1