基于聚类融合算法的社交团体发现方法

文档序号:9527483阅读:395来源:国知局
基于聚类融合算法的社交团体发现方法
【技术领域】
[0001] 本发明属于社交网络团体挖掘技术领域,涉及一种运用聚类融合算法的判断方 法,具体涉及一种基于聚类融合算法的社交团体发现方法。
【背景技术】
[0002] "互联网+"是互联网思维的进一步实践成果,它代表一种先进的生产力,推动经济 形态不断的发生演变,从而带动社会经济实体的生命力,为改革、发展、创新提供广阔的网 络平台。
[0003] 现在,传统的互联网正在迈向全新的时代----社交服务网时代(Social NetworkingService),从"人与机器"的时代迈向"人与人"的时代。个体的社交圈会不断 地扩大和重叠并在最终形成大的社交网络。社交网的一个显著特点是支持巨大用户数,例 如Facebook支持超过3亿的用户,其数据中心运行着超过万台的服务器,为遍布全球的用 户提供信息通讯服务。另外,任何两个社交网用户都可能交互,也就是必须支持任何两个数 据库用户的数据关联操作。这对于服务端的数据库管理提出了极大的挑战。
[0004] 云服务器(ElasticComputeService,简称ECS)是一种处理能力可弹性伸缩的 计算服务,其管理方式比物理服务器更简单高效。云服务器帮助您快速构建更稳定、安全的 应用,降低开发运维的难度和整体IT成本,使您能够更专注于核心业务的创新。目前,是做 的比较完善的生态系统。
[0005] 聚类融合算法的核心思想是通过把多个聚类算法融合,得出更准确、更健壮的决 策。一方面,由于基聚类分别来自于不同基聚类算法,其聚类算法的初始化条件、参数设置, 甚至算法思想都各不相同,所以这些各不相同的基聚类都蕴含数据集的一部分特征。通过 把这些各异的基聚类进行融合,能有效地更全面地、更准确地反映出数据集的真正特征。另 一方面,即使某些基聚类存在反映数据集的错误信息,但通过大量基聚类的正确信息修正, 能有效地得出更健壮的聚类决策。由于聚类融合算法这些优良特点,目前在聚类算法研究 领域,聚类融合算法正在蓬勃地发展。

【发明内容】

[0006] 本发明的目的是提供一种基于聚类融合算法的社交团体发现方法,针对复杂的社 交网络数据,运用聚类融合算法作为判断准则,然后对一系列未知的社交网络数据进行分 类,得到相应的分类,让市场人员能相应的服务。
[0007] 本发明所采用的技术方案是,基于聚类融合算法的社交团体发现方法,具体按照 以下步骤实施:
[0008] 步骤1:对于社交网路中的数据,根据基聚类算法分别得出相应的采样基聚类;
[0009] 步骤2 :对步骤1得到的每个采样基聚类集进行融合,得出候选基准;
[0010] 步骤3 :对步骤2得到的候选基准进行筛选,评分最高的候选基准作为最优基准;
[0011] 步骤4 :使用步骤3得到的最优基准对聚类质量进行评价。
[0012] 本发明的特点还在于,
[0013] 其中的步骤1具体按照以下步骤实施:
[0014] 假设有一个包含m个对象的数据集X,定义X={xdx2,…,xM},在运行N个基聚类 算法后,得到N个基聚类π,定义π= {jii,jt2,···,jtn},然后,对π进行融合聚类算法运 算,得到融合聚类31 %定义Φ( 3〇,其中Φ是聚类融合函数;
[0015] 首先,对社交网络用户信息进行采样,利用社交平台账户获取平台访问权限,通过 设置初始任务集对目标信息进行定向获取;
[0016] 其次,采用k-means作为候选基准算法,先设定聚类个数,然后随机设定初始化聚 类中心,生成多个基聚类;为了生成多样性高的基聚类集,通过采样器对基聚类集进行采 样,通过组合子基聚类集的方式,得到多个组差异化大的采样基聚类基。
[0017] 其中的采样器采样的方式是随机赌轮盘方式。
[0018] 其中的步骤2具体按照以下步骤实施:
[0019] 采用SLC算法来对融合聚类集进行融合,得到候选基准:
[0020] 候选基准的评分定义如下:
[0021]
[0022] 其中,候选基准为融合聚类为<和<,α为阈值。
[0023] 其中的当融合聚类之间相似程度大于α时,评分为0,这时防止融合聚类之间的 相似性太大;当融合聚类之间相似程度小于α时,评分由两部分相加而成;第一部分是融 合聚类于候选基准之间的相似程度,第二部分是融合聚类之间的相似程度;λ是两部分之 间的权重;当λ>0.5时,在评分中,第一部分比第二部分的权重大;当λ<0.5时,在评 分中,第二部分比第一部分的权重大;当λ=0.5时,在评分中,第二部分比第一部分的权 重相等;一般而言,选择λ= 0. 5,即第二部分和第一部分占评分的权重一样;据此,计算每 一个候选基准的评分,评分最高的候选基准作为最终的基准;经过筛选的基准作为下一步 的最优基准使用,来评价聚类质量。
[0024] 其中的步骤4具体按照以下步骤实施:
[0025] 利用上一步生成的最优基准,利用外在方法BCubed对聚类质量进行评价:给定基 准31jPK个由不同聚类融合算法所得的融合聚类31 ={> 31 2,~31 k},对每一个融合聚 类^,都可以得出一个质量评价以^,;评分越高,代表该聚类融合算法得出来的融 合结果越好;
[0026] 假设有对象集合X= {Xl,x2,…,xn},C是X的一个聚类,B是X的基准;C(Xl) (1彡i彡η)表示\在C的类别,B(xJ(1彡i彡η)表示\在B的类别;对于两个对象Xi 和Xj(1彡i,j彡n,i乒j),xjPX」在聚类C的正确性的定义如下: ?
[0028] BCubed的精度定义如下:
[0029]
[0030] BCubed的召回率定义如下:
[0031]
[0032] 精度和召回率都可以用来评价聚类,F度量可以同时结合精度和召回率,定义如 下:
[0033]
7
[0034]F度量的取值范围在0到1之间,当F度量等于0时,聚类质量并不理想;当F度 量等于1时,聚类质量理想,与基准完全一致;所以当F度量越接近1时,聚类质量越好。
[0035] 发明的有益效果是,本发明提出一种不依赖专家评价基准的外在评价方法为准则 的团体发现识别方法。首先,由社交网络数据生成基准类,使同基准类中的社交用户具有相 似的团体属性。对于基聚类,使用采用器,生成各种基聚类集。对于每个基聚类集,使用聚 类融合算法,对聚类融合结果采用聚类融合算法进行融合,生成候选基准。对于候选基准, 使用筛选器,依据设定筛选条件,得出基准。然后,使用基准对聚类质量进行评价。得到基 准后,本文采用外在评价方法对聚类质量进行评价。本发明通过对基聚类的决策进行融合, 得出更准确、壮健的决策。提高了社交网络数据中团体发现,个体发现的准确率,使服务商 更加充分的获得用户信息,从而提高服务质量,具有极大的使用价值。
【附图说明】
[0036] 图1为对基聚类采样部分实现的框架图;
[0037] 图2为生成候选基准部分实现的框架图;
[0038] 图3为筛选候选基准部分实现的框架图。
【具体实施方式】
[0039] 下面结合附图和【具体实施方式】对本发明进行详细说明。
[0040] 本发明基于聚类融合算法的社交团体发现方法,具体按照以下步骤实施:
[0041] 步骤1:对于社交网路中的数据,根据基聚类算法分别得出相应的基聚类(基聚类 算法1得出相应的基聚类1),其中采样的方式是随机赌轮盘方式。具体为:构建社交网路 数据中的基聚类:对于社交网路中的数据,根据基聚类算法分别得出相应的基聚类(基聚 类算法1得出相应的基聚类1),把社交网路数据分为不同的基聚类,然后对基聚类集进行 采样,目的是生成多样性高的采样基聚类集。多样性高的采样基聚类集有助于后续生成的 多样性的候选融合聚类,有利于于筛选最后的融合聚类。
[0042] 步骤2:对每个采样基聚类集进行融合,得出候选基准。具体为:对每个采样网络 数据基聚类运行参与评价的聚类融合算法,把生成的融合聚类集用聚类融合算法来生成候 选基准。以此类推,生成候选基准集。
[0043] 步骤3:对候选基准进行筛选,评分最高的候选基准即是基准。
[0044] 步骤4:使用基准对聚类质量进行评价。
[0045] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0046] 实施例
[0047] 图1为本发明实施例的对基聚类采样部分实现的框架图,具体流程描述如下:
[0048] 用公式表达来表达,假设有一个包含m个对象的数据集X,定义X= {Xl,x2,… ,xM}。在运行N个基聚类算法后,得到N个基聚类π,定义jt= {l,jt2,···,jtn}。然后, 对η进
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1