一种基于社团演化的组织行为异常检测方法_2

文档序号:9844271阅读:来源:国知局
,Cm},各个社团仍包含不同的 角色。将各个社团看作子组织,定义社团角色熵
[0048]
[0049] 其中W表示第i个社团在整个组织所占的比重,Em(G)是基于算法m对组织进行 η 社团划分后识别成员角色所需的期望信息量;
[0050] 步骤3异常子序列检测 [0051 ]步骤3.1确定参数
[0052] 给定长度为L的时间序列:
[0053] X={xi,X2,---,xl}
[0054] L为时间序列的长度,给定要检测的子序列长度为1,以1为窗口长度,其中1<<L; 从^开始截取子序列,一共可得到n = L-l+l个长度为1的子序列,时间序列的1子序列X」表示 如下:
[0055] Xj={xj,xj+i,...,xj+i-ι}
[0056] 对于子序列h,定义其p(p为偶数)邻域子序列为:
[0057]
[0058] 其中每个元素都是原时间序列的1子序列,这里简记为
[0059]
[0060] L为子序列长度,p为邻域个数,其中1关系到异常子序列的分辨率,而p关系到异常 作用的范围;
[0061] 步骤3.2建立子序列回归模型
[0062]把Xj看作因变量1次观测值的集合,把Nbp(Xj)中的1子序列看作影响Xj的p个因素, 为了衡量)^与其邻域的一致程度,将Nbp(Xj中的元素加权求和,重构子序列X」如下:
[0063] Xj = Σ,1,ω^</) /-1:
[0064] 称^为Xj的邻域重构序列,其中Ρ个邻域子序列参与重构的权值为
[0065] ^
[0066] 该过程可用线性模型表达
[0067] X,(i) - + ·· + wf+ £/ (〇 / -1,2,···,/
[0068] 在这里ε」是Xj的重构值和真实值的偏差。记
[0069]
[0070] 则称A =iVx,V 为子序列邻域回归模型;
[0071] 步骤3.3计算一致因子
[0072] wf是模型中第i个回归系数,也是Xj的第i个邻域子序列对其线性重构的权重,而 每个子序列还对应着它参与重构其邻域的P子序列的P个权值,记为L的重构权值向量
[0073] 通过| |Fj| |和| hi |构造衡量子序列与其邻域一致性的一致因子,定义子序列Xj 的一致因子 「 1 W丨
[0074]
[0075] 本发明采用优化重构偏差的方法求解重构权值,将权值的归一化条件作为约束;
[0076] 设对X」的重构结果为,自然地将对)(确重构偏差定义为向量|.与)^的二范数, J J 即
[0077]
[0078]
[0079]
[0080] 优化问题定义如下 _] min || X.,!,. II, p
[0082] -l
[0083] 上式中第一项为目标函数最小化重构偏差,第二项为重构权值归一化的约束,上 述优化可得到心被重构的权值^ =丨%11, ,以及最终的重构误差i,.;
[0084] 对每个子序列乂1进行以上的最小二乘估计或优化过程,从所有被重构权值中得到 X,参与重构的p个权值(回归系数)F1=出(1)上(2),…,f^),得到一致因子序列 _5] _{腿,删,…,腿} ' ΙΙΜ?ΚΙ?υ
[0086] 在子序列异常检测时,通过绘制子序列一致因子曲线,曲线的低谷值对应的子序 列为异常子序列。
[0087]优选的,在所述步骤2.1中利用最大最小规范化方法将所有节点聚类系数量化到 [0,5],将取整后数字作为每个节点角色的标志。
[0088] 优选的,在所述步骤3.1确定参数中,设置ρ为小于1的较大值,l/pe(l,2)。
[0089] 采用本发明获得的有益效果是:
[0090] 1、基于社团角色熵的社团演化分析方法能够从中等的尺度描述组织变化,对组织 成员地位、角色以及交互量和交互频率的改变,和组织演化的方向具有很高的敏感性,避免 了从组织整体考察组织动态可能丧失的细节。
[0091] 2、基于一致因子的异常子序列检测方法能够通过调整子序列长度和邻域子序列 个数,得到不同时间尺度的异常;且通过重构权值和重构误差构造的一致因子能够放大子 序列与其邻域的差异,提高异常检测的分辨率和鲁棒性。
【附图说明】
[0092]图1为本发明方法流程图;
[0093] 图2为四种社团划分方法准确率比较;
[0094] 图3为模糊聚类社团划分方法相对准确率;
[0095] 图4为果蝇基因调控网络社团角色熵曲线;
[0096]图5果蝇基因调控网络相似度曲线;
[0097]图6果蝇基因调控网络SeqS相似度 [0098]图7-致因子变化曲线
【具体实施方式】
[0099]下面,结合附图和具体实施例对本发明作进一步说明。本发明已经通过仿真数据、 公开数据集进行实验,应用方便,效果理想。和设计的预期一致。
[0100]实验数据:
[0101] GN基准网络模型将网络η个节点划分为1组,每组g个节点。组内节点的连接概率为 ριη,组间连接概率为Pc>ut,每个组内的子图都是ρ = ριη的ER随机网络。节点的平均度为<k> = 口化(8-1)+口。1^(1-1)。如果口化>。此,即组内边密度大于组间边密度,贝_络具有社团结构。 通常设定1 = 4 4 = 32,节点平均度〈1^> = 16,此时口化+口。111;*1/2。在计算中,常常使用2:111 = 口土11 (区_1)=3加11,2。此=口。邮(1-1)表示组内和组间的平均节点度。直观上看山111;越小,网络的 社团结构越明显,也更容易被正确划分,事实上大多数社团划分算法在达到8时,准确率 开始明显下降。
[0102] 果蝇基因调控网络数据集选取了横跨果蝇整个发育周期的66个时间点,即胚胎 (时间1~30)、幼虫(时间31~40)、蛹(时间41~58)和成虫时期(时间59~66)。基于基因本 体论,本数据集中包含了588个和果蝇发育过程密切相关的基因和基因之间的交互关系。
[0103] 1.社团划分实验
[0104] 实验数据为社团划分GN基准网络。方法为模糊聚类社团划分方法,以及经典的社 团划分方法GN算法、FN算法和SpectralClust算法。其中模糊聚类社团划分方法和 SpectralClust算法的社团划分数量由基于F检验的方法确定,而GN算法和FN算法的社团数 量则是通过优化模块度得到的。
[0105] 对于GN基准网络,设置社团数量为4,对2。#由1递增到8的网络分别用以上四种算 法进行社团划分,用正规互信息度量方法计算各算法的准确率,每次实验重复5次,取平均 准确率。
[0106] 图2为四种算法在不同Zciut下的社团划分准确率,可以看到四种算法的准确率均随 着的增大而下降的趋势,而模糊聚类社团划分方法的下降较为缓和,而且在 Zciut较大时 表现出了较高的准确率。图3所示的是模糊聚类社团划分方法相对于其他三种算法的准确 率,可以明显看出利用F检验方法确定社团数量的模糊聚类社团划分方法在较高 ZQUt下的优 势。
[0107] 2.社团演化分析实验
[0108] 数据为果蝇基因调控网络数据。图4为社团角色熵曲线,在胚胎中期(t = 10)和幼 虫时期(t = 30~40)出现两个明显的峰值。这个结果可以结合生物学知识进行合理的解释, 在发育的初始阶段,基因的功能角色更为局部和专一,基因间的交互倾向于发生在角色相 似的基因之间,导致社团间角色分布的差异较大,故具有较大的社团角色熵。而到了胚胎中 期阶段之后,与快速发育相适应,基因功能更加通用,基因角色的异质性减小,故社团角色 熵开始降低,并在蛹阶段达到最低。当进入成虫时期,发育减缓,基因又变为了专一的角色, 社团角色熵重新有所升高。可见社团角色熵能够有效描述组织演化的细节。
[0109] 下面从网络相似性的角度对果蝇基因调控网络的演化动态进行描述,结果如图5 所示。由于网络演化的渐进性,大部
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1