一种拒绝率可控的Metropolis-Hastings图抽样算法

文档序号:6637458阅读:661来源:国知局
一种拒绝率可控的Metropolis-Hastings图抽样算法
【专利摘要】本发明公开一种拒绝率可控的Metropolis-Hastings算法,首先在图上随机游动采集样本;其次,根据采集得到的样本构造无偏估计。能够有效地解决从一个“隐藏”的在线社交网络中提取均匀样本的问题。该方法很好地平衡了RW算法的“大偏差”问题,以及MH算法的“样本拒绝”问题,该算法适用性非常广泛,如社交网络分析,图数据管理、和图数据挖掘等相关【技术领域】。
【专利说明】-种拒绝率可控的Metropo I i S-Hast i ngs图抽样算法

【技术领域】
[0001] 本发明涉及一种拒绝率可控的Metropolis-Hastings图抽样算法。

【背景技术】
[0002] 近年来,在线社交网络分析引起了学术界和工业界的广泛兴趣。对于在线社交网 络分析,其中的一个基本研究问题是分析社交网络当中节点的性质以及整个社交网络的拓 扑特性。然而,在现有的条件下,这个问题对于从事社交网络分析的研究者来说是极具挑战 性。这主要是因为很多在线的社交网络公司,例如Facebook、腾讯、新浪微博等,都没有公布 其社交图谱的数据,而且整个社交图谱的拓扑结构以及大小对于第三方来说通常都是未知 的。因此,摆在广大研究者面前的难题就是如何开发出一种简便的方法来从一个"对于研究 者不可见"的社交网络中提取出均匀的图节点样本。
[0003] 为了解决这个问题,近年来,一系列基于爬虫技术的图抽样方法被提出并广泛使 用。为了研究的方便,可以把这些方法归结为两大类:一类是基于图遍历的框架,另一类是 基于随机游走的思想。第一类方法可以通过广度优先搜索(BFS,breadth_first search)或 者深度优先搜索(DFS,depth-first search)来采集节点样本,这类方法有一个致命的缺陷, 就是在采集节点的过程中算法会偏向于度比较高的节点,这显然和我们需要均匀的节点样 本的目标不符。更糟糕的是整个图的拓扑结构是不公开的,因而人们无从得知到底哪些节 点是被算法所偏向的,这就为后期对算法纠正这种偏向带来了很大的困难,因此这一类算 法逐渐被业界弃用;第二类算法很好地解决了第一类算法的缺陷,它可以采集到不带"偏 见"的均匀样本,同时对于有"偏见"的情形下它也可以度量"偏见"的多少,从而为后期的 改正"偏见"提供了可能。正因为有这些优势,第二类方法已经成为目前主流的图抽样方法。
[0004] 在现有的文献中,存在二种广泛使用的基于随机游走的图抽样算法。第一种策略 是重新加权的随机游走算法,我们称之为RW(re-weighted random walk)算法;第二种策 略是 Metropol is-Hastings 随机游走算法,我们称之为 MH (Metropolis-Hastings random walk)算法。
[0005] 假如将网络抽象成一个图G= (V,E),其中n= |V|代表节点的个数,m= |E 代表边的条数。令N(U)为节点u G V的所有邻接节点的集合,du = |N(u) I记为节点u 的度。令f: V - R是一个定义在节点集V上的实值函数,表示节点u的某种特性的值,例 如节点的度,或者节点的某个属性值。估计网络特性的目标是估计整个网络中所有节点

【权利要求】
1. 一种拒绝率可控的Metropolis-Hastings图抽样算法,包含以下步骤: 51、 在图上随机游动采集样本,得到的样本点集S ;在图中随机选择节点u设为初始节 点,并且将节点u加入点集S,从节点u的邻接节点中等概率随机选取一个节点V,并生成一 个均匀分布的概率值q e [0, 1];如果q彡(du/dv) α则将节点V作为下一步的节点u,并将 节点V加入点集S,否则不做任何操作; 52、 根据采集得到的样本构造无偏估计,并通过以下公式构造无偏估计:
2. 根据权利要求1所述的拒绝率可控的Metropolis-Hastings图抽样算法,其特征在 于:在图上随机游动采集样本所采用的概率转移方程为:
其中
为"接收函数"。
【文档编号】G06F17/30GK104391972SQ201410736392
【公开日】2015年3月4日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】李荣华, 蔡涛涛, 毛睿, 秦璐, 金檀, 邱宇轩 申请人:深圳大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1