大规模社会网络中的离群点检测方法

文档序号:6371664阅读:523来源:国知局
专利名称:大规模社会网络中的离群点检测方法
技术领域
本发明属于社会网络中信息科学技术领域,涉及社会网络所涵盖数据中的异常信息挖掘,尤其涉及一种大规模社会网络中的离群点检测方法。
背景技术
社会网络是由一些个人或组织以及它们之间的联系所构成的集合,这种联系可能是同事、朋友、亲属等各种关系。近年来,这种新兴的、实用的交互模式在网络活动中随处可见,如国外的MySpace、Facebook,以及国内的人人网等。事实上,除了这些狭义的社交网络,社会网络还包括合著关系网、电力网格和经济关系等网络实例。 信息科学中,社会网络可以由图结构来定义,其中图的节点代表社会网络中的实体,比如SNS中的用户、合著关系网中的文献等,它包含着大量内容信息;而图的边代表节点之间的联系,如交互关系、好友关系等,它承载了大量的结构信息。因此,不同于常规数据集,社会网络同时包含着内容和结构两方面信息。由于社会网络同时包含结构与内容两方面信息这一特性,社会网络中通常存在着内容信息和结构信息不一致的节点,这些存在于社会网络中的异常点即为本发明所需检测的离群点。这些离群点表现为社会网络划分社区后的社区离群点,这些离群点可能隐含了人们事先未知且具有潜在价值的信息或者知识。在某些情况下,这些小概率的离群点事件很可能比经常发生的事件更有研究价值。比如金融社会网络中的社区离群点可能意味着金融诈骗事件,气象社会网络中的社区离群点可能意味着气象灾难,经济关系社会网络中的社区离群点可能代表着黑马企业家的出现,合著关系网中的社区离群点可能代表着新兴交叉学科的出现。因此本发明所述的社会网络中的离群点与单纯只包含内容信息的网络中的离群点不同,因此,检测方法也不同。如专利CN 100535955C所示的已有方法,只适用于只包含内容信息的常规数据集,无法适用于社会网络。目前,对社会网络中社区离群点的检测,主要基于统计学的方法,该方法的不足之处是需要事先知道数据的分布,这在实际应用中是非常困难的,而且大部分现实数据也往往不符合任何一种理想状态的数学分布。此外,这种基于统计的社区离群点检测方法,同时考虑社会网络结构和内容两方面信息(请参见文献Jing Gao, Feng Liang, Wei Fan,Chi Wang, Yizhou Sun, and Jiawei Han 0n Community Outliers and their EfficientDetection in Information Networks. Proceedings of the ACM SIGKDD internationalconference on Knowledge discovery and data mining. 2010),很难在保证较高准确率的同时具有快速地处理能力,而社会网络所需处理的信息量又极其庞大,它可能包括上亿个节点和边(以Facebook为例,其包含着多于IO8个节点以及IO11条边),这就限制了它的应用。

发明内容
本发明的目的在于提供一种大规模社会网络中的离群点检测方法,在检测准确性及检测效率上优于现有的基于统计的社会网络离群点检测方法。本发明的大规模社会网络中的离群点检测方法,其步骤包括I、提取待测社会网络数据;2、根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区CS ;3、计算各节点的社区离群度因子COF ;4、提取社区离群度因子COF最大的n个节点,作为该社会网络的离群点,其中n > I。本发明根据每个节点数据t与社区C的相似性Similarity (C,t)进行聚类,将相 似性大于设定阈值的节点聚为同一社区节点,所述每个节点数据t与社区C的相似性
Fm,Siiiinarily(C^t) = ^ )二 ) 一 ^ C""""
i — I.其中sup()是度量分类属性值%频率的函数,Ci是数值属性的均值,m为该社会网络维度,Ai为第i维属性,该社会网络前p维属性属于数值型属性,后(m-p)维属性属于分类型属性。所述社会网络社区CS的数据结构为CS = {Community, Summary, C |, SS, SS2}其中,Community为社区标识号,Summary为该社区中数值型属性均值与分类型属性频率的集合,|C|为社区中的节点个数,SS为每个节点数据与社区的相似性Similarity之和,SS2为每个节点数据与社区的相似性Similarity的平方和。所述阈值S为期望ii,其中p = f|c所述阈值5最好设为双标准阈值,其上界为期望U,下界由切比雪夫不等式当k取^时得到,即S. Iower为p-所述切比雪夫不等式是指在任何数据集中,与期望ii超过K倍标准差O的数据占的比例至多是去,即Pr(|o.Iairer — fi\ > koj <所述社区离群度因子COF为节点t相对于除社区Ci以外的社区的连接密度与节点t相对于社区Ci的连接密度之比,即COFft) = —夺厂;一■-:——其中,e彡0,可以为极小正数,如不大于10_6,LD为节点相对社区的连接密度;节点t相对于社区C的连接密度为节点t与社区C相连的边的权重之和与社区C中节点个数之比,即LDe(t) =^7
^ 7 ICf其中1<表示连接节点t和社区C边的权重之和,I C|是社区C中的节点数目。本发明的方法采用两阶段方法,全面地考虑了社会网络的内容信息和结构信息。第一阶段,根据社会网络各节点的内容信息,将社会网络聚类为各个社区,这些社区是识别社区离群点的上下文环境。第二阶段,计算每个节点的社区离群度因子(COF),拥有前n个最大社区离群度因子的节点将作为检测出的社区离群点输出。所述的第一阶段在社会网络下基于内容信息聚类的方法为,为每个社区存储一个名为“社区结构(CS)”的数据结构,依据该数据结构,可以计算两个关键值,即每个数据与社区的相似性(Similarity)、动态相似性阈值(S),如果相似性大于阈值,则将该数据聚类于社区,否则该数据不能为社区接受。社区结构(CS)的数据结构为CS = {Community, Summary, |C|,SS, SS2}其中,Community为社区标识号,Smnmary为该社区中数值型属性均值与分类型属性频率的集合,Icl为社区中的节点个数,SS和SS2分别为每个数据与社区的相似性(Similarity)之和以及每个数据与社区的相似性(Similarity)的平方和。假定社会网络包括m维属性,Ai是第i维属性,且前p维属性属于数值型属性,后(m-p)维属性属于分类型属性。分类属性Ai存在Ti个不同取值。每个数据t与社区C的相似性计算方法为,对前P维数值型属性,计算其与社区均值的标准距离,对后(m-p)维分类型属性,计算其取得属性值的标准频率,将上述标准聚类及标准频率相加,即

权利要求
1.一种大规模社会网络中的离群点检测方法,其步骤包括 1)提取待测社会网络数据; 2)根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区CS ; 3)计算各节点的社区离群度因子COF; 4)提取社区离群度因子COF最大的η个节点,作为该社会网络的离群点,其中η> I。
2.如权利要求I所述的大规模社会网络中的离群点检测方法,其特征在于,根据每个节点数据t与社区C的相似性Similarity (C, t)进行聚类,将相似性大于设定阈值的节点聚为同一社区节点,所述每个节点数据t与社区C的相似性
3.如权利要求I所述的大规模社会网络中的离群点检测方法,其特征在于,所述社会网络社区CS的数据结构为CS = {Community, Summary, |C|,SS,SS2} 其中,Community为社区标识号,Summary为该社区中数值型属性均值与分类型属性频率的集合,|C|为社区中的数据点个数,SS为每个节点数据与社区的相似性Similarity之和,SS2为每个节点数据与社区的相似性Similarity的平方和。
4.如权利要求3所述的大规模社会网络中的离群点检测方法,其特征在于,所述阈值δ为期望μ,其中P =儀。
5.如权利要求3所述的大规模社会网络中的离群点检测方法,其特征在于,所述阈值δ为双标准阈值,其上界为期望μ,其中H = f,下界由切比雪夫不等式当k取.时得到,即δ · lower为μ - 所述切比雪夫不等式是指在任何数据集中,与期望μ超过K倍标准差σ的数据占的比例至多是#,即
6.如权利要求1-5任一所述的大规模社会网络中的离群点检测方法,其特征在于,所述社区离群度因子COF为节点t相对于除社区Ci以外的社区的连接密度与节点t相对于社区Ci的连接密度之比,即
7.如权利要求6所述的大规模社会网络中的离群点检测方法,其特征在于,所述ε为正数。
8.如权利要求6所述的大规模社会网络中的离群点检测方法,其特征在于,所述ε ≤10-6
9.如权利要求I所述的大规模社会网络中的离群点检测方法,其特征在于,所述η根据设定的社会网络节点数的百分比得出。
10.如权利要求I所述的大规模社会网络中的离群点检测方法,其特征在于,所述η为设定的整数。
全文摘要
本发明涉及一种大规模社会网络中的离群点检测方法,其步骤包括提取待测社会网络数据;根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区;计算各节点的社区离群度因子;提取社区离群度因子最大的n个节点,作为该社会网络的离群点。本发明不需要事先知道数据属于何种分布,能够处理任意分布的社会网络。采用了动态相似性阈值技术,明显降低了输入参数的个数,提升了社区离群点检测的准确性,能够很方便地处理大规模数据集,有良好的应用价值。
文档编号G06F17/30GK102799616SQ20121020004
公开日2012年11月28日 申请日期2012年6月14日 优先权日2012年6月14日
发明者纪腾飞, 杨冬青, 高军, 王腾蛟, 唐世渭 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1