一种基于社团演化的组织行为异常检测方法

文档序号:9844271阅读:441来源:国知局
一种基于社团演化的组织行为异常检测方法
【技术领域】
[0001] 本发明属于组织动态分析领域,具体涉及一种基于社团演化的组织行为异常检测 算法,适用于对组织行为进行分析。
【背景技术】
[0002] 组织是指具有紧密联系的社会个体构成的团体,组织是动态演化的,其功能依赖 于组织成员间的协助和交互。以社会组织为例,随着信息技术的快速发展以及全球化趋势 的愈加深入,社会组织内部联系更加紧密,组织间的依赖日益加强,在带来便利和效率提升 的同时,也使得局部的变化一旦产生就会产生大范围级联效应。比如在经济领域中美国次 贷危机的爆发波及到了世界范围的经济体,社会安全领域中各类恐怖事件连环发生严重影 响了正常的社会秩序等。因此如何根据所掌握的信息准确描述组织演化动态,并快速地发 现其中的异常变化显得十分重要。组织演化行为依赖于并体现在组织成员间的交互上,由 此形成的组织网络包含着组织成员间物质、信息或能量的交互信息,所以可以将组织网络 作为研究组织行为的载体,应用网络科学的方法对组织进行研究,这也是当前对组织行为 分析的常用手段。
[0003] 组织行为异常检测可分为两个过程,一是对组织动态的描述,二是对组织动态序 列的异常检测。组织的行为动态从整体上可以通过相邻时刻组织网络相似度的时间序列进 行描述,这类方法通常是基于网络邻接矩阵,度量节点和边的变化。目前主要有基于元素重 叠的方法、基于节点排序的方法、基于向量相似的方法、基于序列相似的方法和基于矩阵余 弦的方法等五种网络相似度的度量方法。
[0004] 组织动态序列的异常检测常用Shewhart控制图进行。Shewhart控制图是由美国的 W A Shewhart在1924年首先提出的。自从提出以来,Shewhart控制图就一直成为科学管理 的一个重要工具,特别在质量管理方面成了一个不可或缺的管理工具。它是一种有控制界 限的图,用来区分引起质量波动的原因是偶然的还是系统的,可以提供系统原因存在的信 息,从而判断生产过程是否处于受控状态。
[0005] 令yt为当前需要进行监测的时间序列变量值,ut为基期值,根据Siewhart模型,当 mt-nt | >c〇t时称当前数据异常,其中
Shewhart控制图模型中,用于计算期望值的往期时间长度B以及时间间隔g均需根据数据对 象的特点来确定。
[0006] 由于组织内部功能调整的需要或外部环境因素的驱动,微观上组织成员地位、角 色以及交互量和交互频率会发生改变,在更大尺度上组织成员会形成新的聚集区域,从而 引起组织社团结构的变化。实验发现基于组织网络相似度的组织动态描述存在以下缺点: 1)相似度的定义本身是无向的,所以对组织演化的方向不敏感,比如组织社团分裂和合并 两个相反方向的演化过程得到的相似度曲线可能是相同的。2)组织演化过程通常是渐进 的,量变逐渐积累为质变,演化为新的阶段,而基于相似度的方法无法分辨这种渐变,即不 能描述组织演化阶段的细节。
[0007] Shewhart控制图的缺点是侦测小偏移的能力较低,且对正态态假设很敏感,易受 离群值影响。且Shewhart控制图是针对一点的异常检测,组织行为异常往往会持续一段时 间,当目标数据处于异常时间段内,Shewhart控制图会给出错误的判断。

【发明内容】

[0008] 本发明的总体思路是:
[0009] 针对基于组织网络相似度描述组织动态的缺点,定义定量指标描述社团演化,进 而刻画组织动态。对社团演化的分析可以在中观尺度上把握组织动态特征,相对于基于组 织整体相似度的动态分析能提供更多的细节。
[0010]针对Shewhart控制图的缺点:1)提出了一种基于F检验的社团合理数量评价指标, 并将其应用于模糊社团划分。这部分工作的主要目的是对组织网络序列中的每个网络进行 有效准确的社团划分,为后面的组织演化分析打好基础。2)提出了一种基于社团角色熵的 社团演化分析指标。组织中社团角色的分布与其功能和行为密切相关,本发明利用组织网 络节点的局部聚类系数描述节点的角色,并利用信息熵的思想提出了社团角色熵的概念, 社团角色熵反映了组织成员角色在社团中分布的异质情况。3)提出了一种基于邻域一致性 的异常子序列检验方法。定义异常子序列为时间序列中与其邻域序列偏差较大的子序列, 而这种偏差可以通过子序列与其邻域的一致性进行刻画。利用多元线性回归模型描述邻域 子序列重构的过程,并利用回归系数(重构权值)和重构偏差定义了一致因子指标描述子序 列与其邻域的一致性,而且提供了基于最小二乘估计和偏差优化的两者方法计算一致因 子。
[0011] 具体的,一种基于社团演化的组织行为异常检测方法,其特征在于,包括以下步 骤:
[0012] 步骤1基于EM算法的模糊社团划分 [0013]步骤1.1提取节点特征向量
[0014] 网络的邻接矩阵取最大的p个特征值所对应的特征向量得到n Xk的特征矩阵At, 取特征矩阵的每一行作为对应节点的属性向量,则将每个节点都映射到了 P维空间,η为网 络节点个数,节点m的属性向量为
[0015] 4: =
[0016] 步骤1 · 2EM算法划分社团
[0017] 对于组织成员集合¥1,¥2广_,'^,(:1,〇2,'",〇1<为1^个模糊社团,(31,02,'",〇<分另1|为社 团&,&,'"而的社团中心,胃=[叫](1<1<11,1<^〇为划分矩阵,其中
[0018]
[0019]已知划分k个社团,模糊社团的划分利用EM算法实现,步骤如下:
[0020] (1)初始化k个社团中心,划分矩阵;
[0021] (2)期望步E-步:计算每个成员对于每个社团的隶属度,得到划分矩阵W;
[0022] (3)最大化步Μ-步:根据上步得到的划分矩阵,调整社团中心
[0023] (4)迭代执行期望步和最大化步,直到达到设定迭代步数或社团中心收敛到期望 范围或误差平方和小于设定阈值;
[0024]步骤1.3社团数量确定
[0025] 设网络中节点集合N= {vi,V2,…,νη},节点m的特征向量为二试丨1,#,…,#/1), 设r为所划分的社团个数,{Ci,C2,…,Cr}为社团集合,m为第i个社团的成员个数,社团Ci对 应的节点N为Vil,Vi2,…,Vini,所对应的节点属性向量分别为lil,li2,…,lini。
[0026] 记
[0029] 其中表示第i个社团中第j个节点的属性向量。[0030] 记
[0027]
[0028]
[0031]
[0032]
[0033]
[0034]
[0035] 对给定的显著水平α和社团数量r,可查F分布表得到Fy^r-Un-r)),如果FWk (p(r-l,n-r)),根据统计学理论可知社团间具有显著差异,说明分类比较合理;对于不同社 团数量,在满足FWk(p(r-1,n-r))的所有的社团划分中,取使差值F-Fk最大的社团数量 作为最合理的社团数量,进而得到最佳的社团划分。
[0036] 步骤2社团演化分析
[0037] 步骤2.1组织角色
[0038] 聚类系数描述了节点邻域的边密度,组织中不同角色的交互模式往往能体现在聚 类系数的差异上,故节点的局部聚类系数能够在一定程度上反映节点在网络中的地位和角 色差异,网络中节点i的聚类系数定义如下
[0039]
[0040] 其中ri为节点i的邻域,即节点i及其所有直接邻构成的子图,E(ri)表示ri中边 的数量,
为r :中所有节点互联时的边数量;
[0041 ] 步骤2.2组织角色熵
[0042]假设组织网络G中共η个成员,并且网络中存在t种角色{?,…,,类比信息熵 的定义,定义组织角色熵
[0043]
[0044]其中Pk表示角色jk成员数量在组织中占的比例,即
[0045] pk =-^ Λ η
[0046] 步骤2.3社团角色熵
[0047] 假设社团划分i将网络划分为m个社团,即{&,&,···
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1