一种拒绝率可控的Metropolis-Hastings图抽样算法

文档序号：6637458阅读：661来源：国知局

一种拒绝率可控的Metropolis-Hastings图抽样算法
【专利摘要】本发明公开一种拒绝率可控的Metropolis-Hastings算法，首先在图上随机游动采集样本；其次，根据采集得到的样本构造无偏估计。能够有效地解决从一个“隐藏”的在线社交网络中提取均匀样本的问题。该方法很好地平衡了RW算法的“大偏差”问题，以及MH算法的“样本拒绝”问题，该算法适用性非常广泛，如社交网络分析，图数据管理、和图数据挖掘等相关【技术领域】。
【专利说明】-种拒绝率可控的Metropo I i S-Hast i ngs图抽样算法

【技术领域】
[0001] 本发明涉及一种拒绝率可控的Metropolis-Hastings图抽样算法。

【背景技术】
[0002] 近年来，在线社交网络分析引起了学术界和工业界的广泛兴趣。对于在线社交网络分析，其中的一个基本研究问题是分析社交网络当中节点的性质以及整个社交网络的拓扑特性。然而，在现有的条件下，这个问题对于从事社交网络分析的研究者来说是极具挑战性。这主要是因为很多在线的社交网络公司，例如Facebook、腾讯、新浪微博等，都没有公布其社交图谱的数据，而且整个社交图谱的拓扑结构以及大小对于第三方来说通常都是未知的。因此，摆在广大研究者面前的难题就是如何开发出一种简便的方法来从一个"对于研究者不可见"的社交网络中提取出均匀的图节点样本。
[0003] 为了解决这个问题，近年来，一系列基于爬虫技术的图抽样方法被提出并广泛使用。为了研究的方便，可以把这些方法归结为两大类：一类是基于图遍历的框架，另一类是基于随机游走的思想。第一类方法可以通过广度优先搜索（BFS，breadth_first search)或者深度优先搜索（DFS，depth-first search)来采集节点样本，这类方法有一个致命的缺陷，就是在采集节点的过程中算法会偏向于度比较高的节点，这显然和我们需要均匀的节点样本的目标不符。更糟糕的是整个图的拓扑结构是不公开的，因而人们无从得知到底哪些节点是被算法所偏向的，这就为后期对算法纠正这种偏向带来了很大的困难，因此这一类算法逐渐被业界弃用；第二类算法很好地解决了第一类算法的缺陷，它可以采集到不带"偏见"的均匀样本，同时对于有"偏见"的情形下它也可以度量"偏见"的多少，从而为后期的改正"偏见"提供了可能。正因为有这些优势，第二类方法已经成为目前主流的图抽样方法。
[0004] 在现有的文献中，存在二种广泛使用的基于随机游走的图抽样算法。第一种策略是重新加权的随机游走算法，我们称之为RW(re-weighted random walk)算法；第二种策略是 Metropol is-Hastings 随机游走算法，我们称之为 MH (Metropolis-Hastings random walk)算法。
[0005] 假如将网络抽象成一个图G= (V，E)，其中n= |V|代表节点的个数，m= |E 代表边的条数。令N(U)为节点u G V的所有邻接节点的集合，du = |N(u) I记为节点u 的度。令f: V - R是一个定义在节点集V上的实值函数，表示节点u的某种特性的值，例如节点的度，或者节点的某个属性值。估计网络特性的目标是估计整个网络中所有节点

【权利要求】
1. 一种拒绝率可控的Metropolis-Hastings图抽样算法，包含以下步骤： 51、在图上随机游动采集样本，得到的样本点集S ;在图中随机选择节点u设为初始节点，并且将节点u加入点集S,从节点u的邻接节点中等概率随机选取一个节点V，并生成一个均匀分布的概率值q e [0, 1];如果q彡（du/dv) α则将节点V作为下一步的节点u，并将节点V加入点集S，否则不做任何操作； 52、根据采集得到的样本构造无偏估计，并通过以下公式构造无偏估计：
2. 根据权利要求1所述的拒绝率可控的Metropolis-Hastings图抽样算法，其特征在于：在图上随机游动采集样本所采用的概率转移方程为：
其中
为"接收函数"。
【文档编号】G06F17/30GK104391972SQ201410736392
【公开日】2015年3月4日申请日期:2014年12月5日优先权日:2014年12月5日
【发明者】李荣华, 蔡涛涛, 毛睿, 秦璐, 金檀, 邱宇轩申请人:深圳大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李荣华;蔡涛涛;毛睿;秦璐;金檀;邱宇轩;
技术所有人：深圳大学;
我是此专利的发明人

上一篇：网络实体监控方法及装置制造方法
上一篇：在目标服务器构建etl系统的处理方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。