一种应用于社区发现的可覆盖聚类算法的制作方法

文档序号:6573791阅读:260来源:国知局
专利名称:一种应用于社区发现的可覆盖聚类算法的制作方法
技术领域
本发明属于网络信息技术领域,特别地涉及一种应用于社区发现基于内容性数据和相关性数据的可覆盖聚类算法。
背景技术
随着互联网技术的发展,各种新型的网络应用层出不穷,日益丰富了网络用户的虚拟社交行为。进而,互联网和用户之间早已不是像信息发布端和信息接收端这种简单而直接的关系,互联网已构成了向用户提供生产生活的密不可分的另一个世界——“虚拟社会网络”,并且用户也更加积极和主动地融入进这个新的社会平台中。比如,用户会提出自己特定的观点,用户会自发形成讨论组,而网络公司则针对用户群体进行差异化的营销。为了能有效和深入地研究虚拟社会网络这一新型的互联网的表现形式,大量的研究者们对于网络中的“社区发现”这一问题进行了大量的工作。“社区发现”这一名词中的社区指的是网络中具有相同行为特性的用户的集合,从微观上来看集合内的用户之间,相比于集合外存在大量的信息交互、行为合作;而从宏观上来看,集合往往自身具有相似的兴趣倾向,并对社会事件有相似的观点或理解。于是,“社区发现”具体是指通过科学的数学建模和高效的大规模计算方法从社会网络中找出大量的潜在的社区或社区结构,即为用户形成的类。“社区发现”有着广泛的社会应用,比如发现不同的用户群体进而实现差别化的广告投放,或是依照用户所在社区的不同特点对用户进行相应不同的信用评分。传统的社区发现算法,大多假设网络中的每一个用户只能属于单一的社区;或者认为每个用户在网络中地位或作用是平等的。因此,发展一种新型的契合目前复杂数据环境的聚类方法迫在眉睫。目前发展的可覆盖的社区发现方法,其重视网络中的核心用户的作用,认为这些核心用户可以从属于多个社区。于是,这种可覆盖的社区发现方法就很好的突破传统方法的局限性,并且可以更有效地展示出社会网络潜在的社区结构。但目前的可覆盖社区发现方法或聚类方法,存在以下问题(1)目前的可覆盖社区发现方法或聚类方法的数据应用环境单一,只能处理内容性数据或只能处理相关性数据。(2) —般来说,传统社区发现方法只是仅仅将网络中的用户作为社会网络中的主体,这就潜在的造成了平等的对待每个用户这一假定,因为这时每个用户的权重值都相等。

发明内容
为解决上述问题,本发明的目的在于提供一种应用于社区发现的可覆盖聚类算法,用于同时处理内容性数据和相关性数据,更好的适应真实网络环境中的社区发现需求。为实现上述目的,本发明的技术方案为—种应用于社区发现的可覆盖聚类算法,包括以下步骤步骤1,给出所需要的数据输入,具体包括以下子步骤,步骤11,设立数据环境中的用户集合为U = (U1, u2, U3......%},—共有N个;设
立数据环境中的属性集合为A= {a1; a2, a3......aM}, —共有M个;用Ui — a」代表第i个用户拥有第j个属性;步骤12,用属性矩阵E代表用户和属性之间的关系,即为内容性数据,在数据环境中,定义
权利要求
1.一种应用于社区发现的可覆盖聚类算法,其特征在于,包括以下步骤 步骤1,给出所需要的数据输入,具体包括以下子步骤, 步骤11,设立数据环境中的用户集合为U= K, u2, U3,......%},一共有N个;设立数据环境中的属性集合为A = {a1; a2, a3,......aM}, 一共有M个;用Ui — a」代表第i个用户拥有第j个属性; 步骤12,用属性矩阵E代表用户和属性之间的关系,即为内容性数据,在数据环境中,定义E e Rnxm, eiJ e {O,1},I彡i彡N,I彡j彡M,当叫=I时,表示第i个用户拥有第j个属性,eiJ = O时,表示第i个用户不拥有第j个属性; 步骤13,用邻接矩阵W来代表用户和用户之间的关系,即为相关性数据,在数据环境中,定义W e RnxnjWij彡O,I彡i彡N,I彡j彡N7Wij的大小代表了第i个用户和第j个用户之间的关系紧密度; 步骤2,建立候选子图,分为以下子步骤, 步骤21,建立“用户——属性图”,“用户——属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构,按照所述步骤I的定义可以表示为G= (U,A,W,E),其中U是数据环境中用户的集合,A是数据环境中属性的集合,W代表了用户和用户之间的相关性的度量,而E代表了用户和属性之间的关联性质, 步骤22,在给出所述“用户——属性图”的基础上,一系列候选子图被定义为Si = (Ui,Ai, Wi, Ei),其中i e {1,2,..., L},每一个候选子图实际上为“用户——属性图”的部分结构,并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和;各个候选子图不会占有同一个用户; 步骤3,评估候选子图,建立起测量用户或属性和这些候选子图之间相关性的准则, 步骤31,度量属性和候选子图之间的相关性 η( ο\ I “—(々(φ Η/)) f°r ii-pGfar other 在上式中HaiIS1)是一种度量属性和候选子图之间相关性的核心技术;t是一个门限参数,它是由所有属性与候选子图做相关性测量后,再取均值所得到的出是一个归一化参数;Xa是一个控制参数,而Pa是一较小的正常数,如果属性和该候选子图的相关性较高,那么该属性从属于该子图的概率也就很高,并和相关性成指数关系,反之该属性从属的概率就很小,并取一个较小的正常数P ; 步骤32,度量用户和候选子图的相关性 采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性,具体的测量准则如下所示 ,ι。、I flog% f°r '. Q|S/) = --rx{ Iv ^jJ公式 2Tl. pnfor other 上中H是一个归一化参数,Νω是用户Ui所有邻居用户的集合;λ η是一个控制参数,而Pn是一个正常数; 步骤33,度量“用户——属性”对和候选子图的相关性在分别定义好属性和用户与候选子图的相关性之后,建立起度量“用户一属性”对和候选子图之间的相关性,具体如下所示 P (Ui — Eij I S1) P (Ui I S1) P (aj I S1)公式 3 步骤4,可覆盖社区发现 步骤41,通过建立概率统计模型来求解具有可覆盖性的社区,先假设用户和属性是已知的变量,而候选子图是隐藏的变量s =,因此,每一个“用户——属性”对可以在概率上从属于多个候选子图,于是可以用下面的公式来描述“用户——属性”对,
2.根据权利要求I所述的应用于社区发现的可覆盖聚类算法,其特征在于,所述步骤31前进一步包括以下步骤, 具体定义HailS1)为,
全文摘要
本发明公开了一种应用于社区发现的可覆盖聚类算法,首先在得到原始数据之后,将其转化为“用户——属性图”。在初始化 候选子图之后,对“用户——属性图”中的行为进行初步的分类,其次,计算出每个候选子图的占优属性;同时计算出每个用户和各个候选子图之间的相关性。之后,建立概率统计模型,计算每个“用户——属性”对和候选子图之间的相关性。对候选子图进行迭代构造,运行到可以得到稳定而有效的候选子图结构为止。最后,根据数据环境中的这些候选子图的建立,对于数据中的各个“用户——属性图”对进行合理的分类,发现拥有多种属性的关键用户。本发明用于同时处理内容性数据和相关性数据,更好的适应真实网络环境中的社区发现需求。
文档编号G06F17/30GK102831219SQ201210300460
公开日2012年12月19日 申请日期2012年8月22日 优先权日2012年8月22日
发明者何周舟, 张仲非, 飞利浦.余 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1