一种基于社团演化的组织行为异常检测方法_3

文档序号:9844271阅读:来源:国知局
分时间相邻时间点的基因调控网络的相似度变化并不 大,并不能体现果蝇发育过程的变化细节。
[0110] 3.异常子序列检测实验
[0111] 在本实验中,本实验选取了实验2中对果蝇基因调控网络动态描述较为模糊的 SeqS相似度序列作为对象,如图6所示。参数的设置考虑了果蝇发育阶段最小长度为10先验 信息,故应设置1显著小于10,同时考虑l/pe(l,2),最终选择l = 6,p = 4。
[0112] 得到一致因子变化曲线如图7所示,与图4的社团角色熵比较分析。前面已经分析 了社团角色熵曲线表达的合理的生物学含义,而一致因子曲线也是对果蝇发育过程的很好 描述,具体体现在以下几个方面。
[0113] 1)-致因子的谷值出现的时间恰恰是社团角色熵变化趋势发生明显改变的时候, 例如t= 10, t = 20~30和t = 50左右社团角色熵的出现台阶的地方,对应的一致因子都出现 了低谷。这也验证了一致因子曲线的谷值出现的位置能有效指示演化过程中不一致行为, 这种不一致行为即我们要检测的异常。
[0114] 2)-致因子曲线出现的四个明显的峰值分布出现在果蝇发育四个阶段内,一致因 子曲线峰值的出现说明所在时间段的子序列一致性高,而每个发育阶段内基因调控行为也 应具有较强的一致性,两者是很吻合的。
[0115] 3)-致因子是通过意义较为模糊的SeqS相似度得到的,但结果能够和问题背景较 好地吻合,识别出基因调控网络演化过程中有趣的时间点,说明一致因子确实具有提炼、突 出组织行为变化的能力,这正是异常检测所要具备的能力。
[0116] 以上是对本发明进行了示例性描述,显然本发明的实现并不受上述方式的限制, 只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接 应用其它场合的,均在本发明的保护范围内。
【主权项】
1. 一种基于社团演化的组织行为异常检测方法,其特征在于,包括以下步骤: 步骤1基于EM算法的模糊社团划分 步骤1.1提取节点特征向量 网络的邻接矩阵取最大的P个特征值所对应的特征向量得到n Xk的特征矩阵At,取特征 矩阵的每一行作为对应节点的属性向量,则将每个节点都映射到了 P维空间,η为网络节点 个数,节点m的属性向量为步骤1.2EM算法划分社团 对于组织成员集合VI,V2,…,Vn,Cl,C2,…,Ck为k个模糊社团,Cl,C2,…,Ck分别为社团Cl, C2,…,Ck的社团中心,W= [Wij] (1 < i < η,1 < j < k)为划分矩阵,其中已知划分k个社团,模糊社团的划分利用EM算法实现,步骤如下: (1) 初始化k个社团中心,划分矩阵; (2) 期望步E-步:计算每个成员对于每个社团的隶属度,得到划分矩阵W; (3) 最大化步M-步:根据上步得到的划分矩阵,调整社团中?(4) 迭代执行期望步和最大化步,直到达到设定迭代步数或社团中心收敛到期望范围 或误差平方和小于设定阈值; 步骤1.3社团数量确定 设网络中节点集合~={^2,一^},节点!11的特征向量为~=(〇#,-,5丨/)),设^为 所划分的社团个数,{Cl,C2,…,Cr}为社团集合,m为第i个社团的成员个数,社团Ci对应的节 点肋~^…汴^所对应的节点属性向量分别为^…,': 记其中b表示第i个社团中第j个节点的属性向量,引入F统计量对给定的显著水平α和社团数量r,可查F分布表得到Fi-a(p(r-l,n-r)),如果F>Fi-a(p (r-l,n-r)),根据统计学理论可知社团间具有显著差异,说明分类比较合理;对于不同社团 数量,在满足FWk(p (r-1,n-r))的所有的社团划分中,取使差值F-Fk最大的社团数量作 为最合理的社团数量,进而得到最佳的社团划分; 步骤2社团演化分析 步骤2.1组织角色 聚类系数描述了节点邻域的边密度,组织中不同角色的交互模式往往能体现在聚类系 数的差异上,故节点的局部聚类系数能够在一定程度上反映节点在网络中的地位和角色差 异,网络中节点i的聚类系数定义如下其中ri为节点i的邻域,即节点i及其所有直接邻构成的子图,Ε( 表示ri中边的数 量:为Γ ,中所有节点互联时的边数量; 步骤2.2组织角色熵 假设组织网络G中共η个成员,并且网络中存在t种角色{jiji,…,么},类比信息熵的定 义,定义组织角色熵其中Pk表示角色jk成员数量在组织中占的比例,即步骤2.3社团角色熵 假设社团划分1将网络划分为m个社团,即,各个社团仍包含不同的角色。 将各个社团看作子组织,定义社团角色熵其中^表示第i个社团在整个组织所占的比重,Em(G)是基于算法m对组织进行社团划 η 分后识别成员角色所需的期望信息量; 步骤3异常子序列检测 步骤3.1确定参数 给定长度为L的时间序列: X = {xi,X2,…,xl} L为时间序列的长度,给定要检测的子序列长度为1,以1为窗口长度,其中1<<L;WX1 开始截取子序列,一共可得到n = L-l+l个长度为1的子序列,时间序列的1子序列X」表示如 下: Xj= {Xj) Xj+l)) Xj+l-l} 对于子序列h,定义其P (P为偶数)邻域子序列为:其中每个元素都是原时间序列的1子序列,这里简记为L为子序列长度,p为邻域个数,其中1关系到异常子序列的分辨率,而p关系到异常作用 的范围; 步骤3.2建立子序列回归模型 把)^看作因变量1次观测值的集合,把Nbp(h)中的1子序列看作影响心的?个因素,为了 衡量X』与其邻域的一致程度,将Nbp(h)中的元素加权求和,重构子序列X」如下:称为心的邻域重构序列,其中P个邻域子序列参与重构的权值为 该过程可用线性模型表达在这里4是)(」的重构值和真实值的偏差,记贝_易=罵+ $为子序列邻域回归模型; 步骤3.3计算一致因子 w(;"是模型中第i个回归系数,也是X」的第i个邻域子序列对其线性重构的权重,而每个 子序列还对应着它参与重构其邻域的P子序列的P个权值,记为Xj的重构权值向量 通过I lh| I和I Ihl I构造衡量子序列与其邻域一致性的一致因子,定义子序列Xj的一 致因子 11^11 acA =---- 丨1$1:1 本发明采用优化重构偏差的方法求解重构权值,将权值的归一化条件作为约束; 设对h的重构结果为i;,自然地将对心的重构偏差定义为向量^^与)^的二范数,即其中 优化问题定义如下 上式中第一项为目标函数最小化重构偏差,第二项为重构权值归一化的约束,上述优 化可得到Xj被重构的权值=丨,…,w(/"丨,以及最终的重构误差lf ; 对每个子序列乂:进行以上的最小二乘估计或优化过程,从所有被重构权值中得到乂:参 与重构的p个权值,即回归系数€二α(ι>,./:2>,…得到一致因子序列在子序列异常检测时,通过绘制子序列一致因子曲线,曲线的低谷值对应的子序列为 异常子序列。2. 根据权利要求1所述的一种基于社团演化的组织行为异常检测方法,其特征在于:在 所述步骤2.1中利用最大最小规范化方法将所有节点聚类系数量化到[0,5],将取整后数字 作为每个节点角色的标志。3. 根据权利要求1所述的一种基于社团演化的组织行为异常检测方法,其特征在于:在 所述步骤3.1确定参数中,设置ρ为小于1的较大值,l/pe(l,2)。
【专利摘要】一种基于社团演化的组织行为异常检测方法,其特征在于,包括基于EM算法的模糊社团划分、社团演化分析、异常子序列检测等步骤。本发明能够从中等的尺度描述组织变化,对组织成员地位、角色以及交互量和交互频率的改变,和组织演化的方向具有很高的敏感性,避免了从组织整体考察组织动态可能丧失的细节;能够通过调整子序列长度和邻域子序列个数,得到不同时间尺度的异常,且通过重构权值和重构误差构造的一致因子能够放大子序列与其邻域的差异,提高异常检测的分辨率和鲁棒性。
【IPC分类】G06F19/00
【公开号】CN105608329
【申请号】CN201610051992
【发明人】程光权, 韩养胜, 黄金才, 刘忠, 谢福利, 胡松超, 马扬, 李帅, 修保新, 冯旸赫, 陈超
【申请人】中国人民解放军国防科学技术大学
【公开日】2016年5月25日
【申请日】2016年1月26日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1