一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法与流程

文档序号：18527514发布日期：2019-08-24 10:24阅读：551来源：国知局

本发明属于网络表示学习方法，是一种考虑了网络节点全局结构特征的网络表示学习方法。

背景技术：

根据维基百科定义，网络(network)用来表示离散的物体之间对称或者不对称的关联关系。在计算机科学中，网络通常可以表示成一个包含节点和边的图(graph)。网络结构的数据能够天然的用来表示不同物体之间的关系，各式各样的网络结构在日常生活中非常普遍。例如，在社交媒体平台中，人与人之间的关注、好友关系可以构成典型的社交网络；论文与论文之间的引用关系会构成学术引用网络；web页面之间的超链接关系也构成了互联网上的网页链接网络。

随着互联网的发展，大规模的社交媒体平台不断涌现，比较有代表性的社交媒体平台包括国内的新浪微博、微信、知乎，国外的facebook、twitter、instagram、linkedin等。这些社交媒体平台吸引了海量的用户。在这些平台中，用户与用户之间的关注、好友关系形成了典型的社交网络。与传统网络相比，这些大规模社交网络包括以下几个特点：

社交网络与传统网络相比，规模更大，而且更加稀疏。据数据统计网站statista统计，截止到2018年1月，全球最大的社交媒体平台facebook的月活跃用户达到21.67亿，而中国最大的社交平台微信，月活跃用户也达到了9.8亿。这些社交网络包含海量用户节点的同时，也变得更加稀疏，大部分用户节点往往仅有有限的几十到几百个邻居节点。大规模和稀疏性的特点，为面向这些社交网络的网络分析、社会计算任务造成了巨大的挑战。

在大规模社交网络中，除了用户与用户之间的网络结构之外，还存在着丰富的用户行为信息。例如，用户在这些平台中发布或转发的文本、图片、视频等类型的内容信息，用户自身的介绍、标签等个人信息，用户对其它内容的点赞、分享信息等等。这些海量的异构信息能够反映出用户的兴趣爱好、个人属性等重要信息，对于面向社交媒体的应用服务具有重要的价值。

针对这些大规模社交媒体的应用场景非常丰富。例如，针对社交媒体用户，可以利用用户行为信息等对其进行用户画像，判断用户的性别、年龄、职业等属性信息，以及他们的兴趣爱好；基于用户画像结果，可以对用户进行个性化推荐，来推荐他们可能认识的好友或者感兴趣的新闻、产品等。

针对上述大规模社交网络的研究与应用近些年来成为计算社会科学、人工智能技术的热门研究领域。如何高效地在这些大规模社交网络上进行网络分析任务，例如节点分类、聚类、链接预测、社区发现等等，一直是该领域的研究基础和重点。为了进行相应的网络分析任务，最重要的问题就是如何利用网络中的结构信息、异构信息，来对网络中的节点进行有效的特征表示，也就是如何进行网络表示。网络表示的质量，对于进行后续的网络分析任务至关重要。

在数据挖掘和社交网络分析中，对于网络节点的特征表示一直至关重要。随着大规模社会网络的出现，传统的网络表示方法面临着计算效率以及可解释性的问题。此外，这些社会网络往往蕴含着丰富的异构信息，这些特点使得已有的网络表示方法不能很好的处理这些大规模社会网络。网络表示学习(networkrepresentationlearning)，也就是网络嵌入(networkembedding)，目的是为网络中的节点学习一个低维实值的向量表示。每个节点对应的表示向量蕴含了该节点的网络结构信息以及其它异构信息，这些表示向量一般被当作特征向量，来进行进一步的网络分析任务，例如节点分类、链接预测、社区发现等。

技术实现要素：

本发明的目的在于应对上述网络分析任务中的各项问题，提供一种基于网络节点广度与深度捕捉的网络表示学习方法，本发明利用节点深度信息相似与广度信息相似，结合节点的局部信息相似，通过嵌入的方式将节点映射到更低维的特征空间。最后利用嵌入后的节点表示，可以为网络分析任务提供帮助。

为实现本发明的目的，本发明提出了一种基于网络节点广度与深度捕捉的网络表示学习方法，其中节点深度信息相似与广度信息相似通过两个不同的神经网络全连接层获得，再根据节点的局部邻居信息，将节点信息进行融合，本发明包括以下步骤：

步骤1：从互联网中采集网络数据并进行预处理，将其存储于本地文件中；

步骤2：基于数据构建邻接矩阵a；

步骤3：对a中所有节点进行one-hot编码；

步骤4：将节点分别在深度空间与广度空间进行嵌入；

步骤5：对a进行n次幂运算，以之作为节点深度的衡量标准；

步骤6：为a中每个节点统计度的信息，以之作为节点广度的衡量标准；

步骤7：通过拉普拉斯特征映射捕捉节点间的深度相似性，并将其嵌入在深度空间中；

步骤8：通过拉普拉斯特征映射捕捉节点间的广度相似性，并将其嵌入在广度空间中；

步骤9：将节点的两个空间嵌入拼接并作为最终嵌入空间的输入，通过负采样来捕捉节点间的相似性。

步骤10：将网络作为节点的嵌入模型，并用于节点分类任务。

所述步骤1采集的数据至少包括网络节点的唯一id，节点之间的链接信息

所述步骤2中的邻接矩阵a的维度为n*n，n为节点数量，a[i,j]代表节点i,j之间是否存在链接，a[i,j]＝1则存在，否则无。

所述步骤3中的节点one-hot编码维度等于网络中节点数量。

所述步骤5是将邻接矩阵a进行求取k次幂，邻接矩阵的k次幂中为1的元素代表节点的k步可达邻居。

所述步骤7是利用拉普拉斯特征映射捕捉节点深度相似性，其计算方式如下：

lm，ln表示网络中任意节点的深度，min|lm-ln|表示网络中节点深度的最小差，max|lm-ln|表示网络中节点深度的最大差。

所述步骤8利用拉普拉斯特征映射捕捉节点深度相似性，其计算方式如下：

所述步骤9利用负采样方法来捕捉节点的局部相似性，具体来说，利用一阶与二阶近似性；

一阶近似性是指直接相邻的节点，其低维表达应当相近，即1-hop邻居；

二阶近似性是指具有共同邻居的节点，其低维表达也应当相近，即2-hop邻居；

要求非邻居节点表示相远，利用采样的方法选取非邻居节点对，称为负采样，对每对邻居节点，选取少数(k对)非邻居节点作为负样本；

|v|为节点总数，表示节点i的一阶邻居数，表示节点i的二阶邻居数，表示节点v的度

所述步骤10中节点分类任务效果的好坏用micro-f1和macro-f1表示；

micro-f1：计算出所有类别总的precision和recall，然后计算f1

macro-f1：计算出每一个类的precison和recall后计算f1，最后将f1平

附图说明

图1为本发明的物品推荐方法流程图。

具体实施方式