异构信息网络关系预测方法、可读存储介质和终端与流程

文档序号:17239850发布日期:2019-03-30 08:31阅读:188来源:国知局
异构信息网络关系预测方法、可读存储介质和终端与流程

本发明属于数据分析技术领域,特别是涉及一种异构信息网络关系预测方法、可读存储介质和终端。



背景技术:

随着科学技术的飞速发展,人们的社交方式越来越多元化,各种各样的复杂网络由此诞生。从蚁群结构到社交系统、从神经系统到生态系统、从交通系统到电力系统等现实世界中的复杂系统都可以拓扑近似为复杂网络结构。复杂系统中的对象抽象表示为网络中的节点,对象间的交互关系抽象表示为节点间的链接。在复杂网络研究中,链接预测因其巨大的应用价值受到研究者广泛的关注。

当前,大部分链接预测的研究对象为同质的复杂网络,即网络中的节点和链接类型单一。然而,现实复杂网络大多是异构的网络,存在多种类型的节点和节点间复杂的依赖关系。同构网络本质上只是异质网络的一个同质切面,因此仅研究同构网络会丢失重要的信息。例如,现实的社交网络中不仅仅存在用户节点和表示朋友关系的链接,还包括日志、词语、位置和时间戳等类型的节点和表示日志与词语节点间包含关系的链接、日志与地点间签到关系的链接等;在医疗网络中的节点有病人、医生、疾病、药物和医院地点等类型。这些信息对于目标链接的预测都有潜在的影响。在异构信息网络中,节点对的关系可以用一条直接链接来表示,也可以通过一条混合多种类型节点和链接的路径来表示。因此,待预测的目标可能是简单的链接,更可能是若干链接组成的关系。这样,链接预测问题就扩展为了关系预测问题。



技术实现要素:

本发明解决的技术问题是如何提高异构信息网络中节点关系预测的准确性。

为了达到上述目的,本发明提供一种异构信息网络关系预测方法,所述方法包括:

获取原始输入的目标节点对集合;

将所述目标节点对集合进行预处理,得到对应的正例集合和未标记例集合;

基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合;

采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型;

采用训练得到的异构信息网络关系预测模型对待预测网络中节点之间的未知关系进行预测。

可选地,所述将所述目标节点对集合进行预处理,包括:

对给定的网络图构造以目标节点类型为起始点的元路径集合;

计算目标节点对集合中的每个节点对对应的每条元路径的路径数和随机游走特征;

采用每个节点对构成该节点的每条元路径的路径数和随机游走特征构建节点对对应的示例,形成示例集合;

将所述示例集合中存在目标关系的节点对对应的示例作为正例,将不存在目标关系的节点对对应的示例作为未标记例,得到所述正例集合和未标记例集合。

可选地,所述基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合,包括:

分别对所述正例集合和未标记例集合进行聚簇,得到对应的局部正簇和局部未标记簇;

基于所述局部正簇和局部未标记簇中的示例的特征,计算每个局部正簇到局部未标记簇之间的距离;

每个所述局部正簇向与其距离大于预设的距离阈值的局部未标记簇进行投票,并将投票总数排列在前的预设数量个局部未标记簇中的未标记例作为反例,得到所述可靠反例集合。

可选地,所述局部正簇和局部未标记簇之间的数量满足如下关系:

其中,n表示局部正簇的个数,k表示局部未标记簇的个数,|u|表示未标记例集合中示例的个数,|p|表示正集合中示例的个数。

可选地,所述对所述正例集合和未标记例集合进行聚簇,包括:

分别采用k-means聚簇算法对所述正例集合和未标记例集合进行聚簇。

可选地,采用如下的公式计算每个局部正簇到局部未标记簇之间的距离:

且:

其中,d(lpi,ulcj)表示局部正簇lpi到局部未标记簇ulcj之间的距离,表示局部正簇lpi中的示例,xi表示局部正簇lpi中的示例的第i个特征,表示局部未标记簇ulcj中的示例,x′i表示局部未标记簇ulcj中的示例的第i个特征,min(.)表示最小值运算,m表示示例中特征的个数。

可选地,所述采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型,包括:

将所述正例集合中的每个示例标记为“+1”,将可靠反例集合中的每个示例标记为“-1”,构成对应的训练集;

将所述训练集输入预设的朴素贝叶斯分类器中进行训练,得到所述异构信息网络关系预测模型。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的异构信息网络关系预测方法的步骤。

本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的异构信息网络关系预测方法的步骤。

与现有技术相比,本发明的有益效果为:

上述的方案,通过基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合,并采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型,可以提高反例集合中的反例的可信度,故可以提高训练得到的异构信息网络关系预测模型的准确性,进而可以提高节点关系预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于异构信息网络关系预测方法的流程示意图:

图2是本发明实施例的一种基于异构信息网络关系预测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

如背景技术所述,现有技术现有的复杂网络链接/关系预测方法大多采用监督学习框架,将网络中存在目标链接/关系的节点对标记为正例,从不存在目标链接/关系的节点对中全部或随机选择一部分标记为反例,并且训练过程中需要大量标记的正例和反例训练数据来提高分类器的预测精度。但是,这些标记为反例的节点对在未来可能会形成目标链接/关系,因此不一定是可信的反例。并且复杂网络一般数据规模较大,要考虑通过取样将大数据问题变为小数据问题,以随机的方式抽取反例样本很可能会降低训练出的预测模型的性能。同时,正例样本(存在目标链接/关系的节点对)与未标记样本(暂无目标链接/关系的节点对)的数量极度不平衡,存在大量的未标记样本,如何从中选择有代表性且可信的反例是一个值得研究的问题。

本发明的技术方案通过基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合,并采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型,可以提高反例集合中的反例的可信度,故可以提高训练得到的异构信息网络关系预测模型的准确性,进而可以提高节点关系预测的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种基于异构信息网络关系预测方法的流程示意图。参见图1,一种基于预测值填充的项目推荐方法,具体可以包括如下的步骤:

步骤s101:获取原始输入的目标节点对集合。

步骤s102:将所述目标节点对集合进行预处理,得到对应的正例集合和未标记例集合。

在具体实施中,在对所获取的原始输入目标节点对集合进行预处理时,首先基于给定的网络图构造以目标节点类型为起始点的元路径集合。接着,根据所构造的以目标节点类型为起始点的元路径集合,计算每个目标节点对对应的每条元路径的路径数和随机游走特征,并将每个节点对的每条元路径的路径数和随机游走特征作为该节点对的示例中的元素,得到每个节点对对应的示例,从而形成对应的示例集合。当示例集合形成之后,通过将所述示例集合中存在目标关系的节点对对应的示例作为正例添加到正例集合中,并将不存在目标关系的节点对对应的示例作为未标记例加入未标记例集合中,从而最终得到所述正例集合和未标记例集合。

步骤s103:基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合。

在本具体实施中,由于pu学习中的标记数据只有正例,因此如何通过这些正例从未标记集合中抽取可靠反例数据很重要。

在本发明一实施例中,首先采用聚簇算法,如k-means聚簇算法等,分别对所述正例集合和未标记例集合进行聚簇,得到对应的n个局部正簇和k个局部未标记簇。其中,所得到的n个局部正簇和k个局部未标记簇之间的数量满足以下关系:

其中,n表示局部正簇的个数,k表示局部未标记簇的个数,|u|表示未标记例集合中示例的个数,|p|表示正例集合中示例的个数。

在得到n个局部正簇和k个局部未标记簇之后,在采用欧式距离等距离计算方法计算每个局部正簇到局部未标记簇之间的距离。其中,在本发明一实施例中,采用如下的公式计算得到每个局部正簇到局部未标记簇之间的距离:

且:

其中,d(lpi,ulcj)表示局部正簇lpi到局部未标记簇ulcj之间的距离,表示局部正簇lpi中的示例,xi表示局部正簇lpi中的示例的第i个特征,表示局部未标记簇ulcj中的示例,x′i表示局部未标记簇ulcj中的示例的第i个特征,min(.)表示最小值运算,m表示示例中特征的个数。

在计算得到每个局部正簇到局部未标记簇之间的距离时,通过将计算得到的距离与预设的距离阈值进行比较,将与局部正簇之间的距离大于预设的距离阈值的局部未标记簇作为与局部正簇距离较远的局部未标记簇,由每个局部正簇分别向与其距离较远的局部未标记簇分别进行投票。其中,每个局部正簇向与其距离较远的局部未标记簇所投的票数相同。当投票结束时,统计每个局部未标记簇的总票数,并将局部未标记簇按照总票数从高至低的顺序进行排列,将排列在先的预设数量的局部未标记簇中的未标记例作为反例加入所述可靠反例集合,最终得到所述可靠反例集合。

步骤s104:采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型。

在具体实施中,当得到所述正例集合和所述可靠反例集合时,采用得到所述正例集合和所述可靠反例集合进行训练,即可得到对应的异构信息网络关系预测模型。具体地,可以首先将所述正例集合中的每个示例标记为“+1”,将可靠反例集合中的每个示例标记为“-1”,构成对应的训练集,再将所述训练集输入预设的朴素贝叶斯分类器中进行训练,便可得到所述异构信息网络关系预测模型。为了进一步提高得到所述异构信息网络关系预测模型的准确性,可以测试集对所得到的异构信息网络关系预测模型的性能进行评估,选择最优的模型参数,以使得测试后得大的异构信息网络关系预测模型达到最优的关系预测性能。

步骤s105:采用训练得到的异构信息网络关系预测模型对待预测网络中节点之间的未知关系进行预测。

在具体实施中,当训练得到的异构信息网络关系预测模型时,便可以使用所得到的异构信息网络关系预测模型对当前网络的未知部分进行预测,即对当前网络中未连接的目标节点对之间的未知连接关系进行预测,得到预测后的新网络图。

上述对本发明实施例中的异构信息网络关系预测方法进行了详细的描述,下面将对上述的方法对应的装置进行介绍。

图2示出了本发明实施例中的一种异构信息网络关系预测装置的结构示意图。参见图2,一种异构信息网络关系预测装置20可以包括集合获取单元201、集合预处理单元202、集合构建单元203、模型训练单元204和关系预测单元205,其中:

所述集合获取单元201,适于获取原始输入的目标节点对集合。

所述集合预处理单元202,适于将所述目标节点对集合进行预处理,得到对应的正例集合和未标记例集合。

所述集合构建单元203,适于基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合。

所述模型训练单元204,适于采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型。

所述关系预测单元205,适于采用训练得到的异构信息网络关系预测模型对待预测网络中节点之间的未知关系进行预测。

在具体实施中,所述预处理单元202,适于对给定的网络图构造以目标节点类型为起始点的元路径集合;计算目标节点对集合中的每个节点对对应的每条元路径的路径数和随机游走特征;采用每个节点对构成该节点的每条元路径的路径数和随机游走特征构建节点对对应的示例,形成示例集合;将所述示例集合中存在目标关系的节点对对应的示例作为正例,将不存在目标关系的节点对对应的示例作为未标记例,得到所述正例集合和未标记例集合。

在具体实施中,所述集合构建单元203,适于分别对所述正例集合和未标记例集合进行聚簇,得到对应的局部正簇和局部未标记簇;基于所述局部正簇和局部未标记簇中的示例的特征,计算每个局部正簇到局部未标记簇之间的距离;每个所述局部正簇向与其距离大于预设的距离阈值的局部未标记簇进行投票,并将投票总数排列在前的预设数量个局部未标记簇中的未标记例作为反例,得到所述可靠反例集合。在本发明一实施例中,所述局部正簇和局部未标记簇之间的数量满足如下关系:

其中,n表示局部正簇的个数,k表示局部未标记簇的个数,|u|表示未标记例集合中示例的个数,|p|表示正例集合中示例的个数。

在本发明一实施例中,所述集合构建单元203,适于分别采用k-means聚簇算法对所述正例集合和未标记例集合进行聚簇。

在本发明一实施例中,所述集合构建单元203,适于采用如下的公式计算每个局部正簇到局部未标记簇之间的距离:

且:

其中,d(lpi,ulcj)表示局部正簇lpi到局部未标记簇ulcj之间的距离,表示局部正簇lpi中的示例,xi表示局部正簇lpi中的示例的第i个特征,表示局部未标记簇ulcj中的示例,x′i表示局部未标记簇ulcj中的示例的第i个特征,min(.)表示最小值运算,m表示示例中特征的个数。

在具体实施中,所述模型训练单元204,适于将所述正例集合中的每个示例标记为“+1”,将可靠反例集合中的每个示例标记为“-1”,构成对应的训练集;将所述训练集输入预设的朴素贝叶斯分类器中进行训练,得到所述异构信息网络关系预测模型。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的异构信息网络关系预测方法的步骤。其中,所述的异构信息网络关系预测方法请参见前述部分的介绍,不再赘述。

本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的异构信息网络关系预测方法的步骤。其中,所述的异构信息网络关系预测方法请参见前述部分的介绍,不再赘述。

采用本发明实施例中的上述方案,通过基于所得到的正例集合,从所述未标记例集合中抽取对应的未标记例,组成对应的可靠反例集合,并采用所述正例集合和所得到的可靠反例集合训练得到对应的异构信息网络关系预测模型,可以提高反例集合中的反例的可信度,故可以提高训练得到的异构信息网络关系预测模型的准确性,进而可以提高节点关系预测的准确性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1