一种退化条件下的网络访问行为特征群体动态挖掘方法及系统与流程

文档序号:15686794发布日期:2018-10-16 21:08阅读:164来源:国知局
本发明属于数据挖掘领域,具体涉及一种退化条件下的网络访问行为特征群体动态挖掘方法及系统。
背景技术
:目前,关系图谱在社会关系网络、基因生物学、认知无线电等科学领域等中应用广泛。在许多大数据领域中,需要搜索具有最大化共同特征的群体或目标。群体或目标及其特征通常抽象表达为各种图的形式,其中,具有最大化共同特征的群体或目标则表现为某种特殊图的形式,包括:最大团、最大二分团、准二分团、最大边二分团、最大平衡二分团以及频繁项目集等。本发明主要针对在线网络访问关系,从中搜索具有最大化共同访问关系的群体。具有最大化共同访问关系的群体本质上为最大二分团。目前已经证明,最大二分团搜索问题等价于最大频繁闭合项目集搜索问题,因此,近几年,最大二分团搜索技术在各种数据库、关系图谱领域中发展迅速,主要算法包括:dci-closed算法、d-miner算法及lcm-mbc等算法。其中,dci-closed算法侧重从一个大型的二分图中枚举最大二分团。bimax和d-miner算法生成所有用来表示基因表达数据的双向聚类。datapeeler算法从三维数据集中高效挖掘与最大二分团一一对应的闭合频繁项集。lcm-mbc算法从对称的无向大型图中搜索最大二分团。cubeminer-mbc算法利用图的对称性枚举从3d对称矩阵中枚举3d最大二分团。embs算法是用动态阈值来搜索具有限定特征的最大二分团,也能在没有限定的条件下输出所有最大二分团,效率略高于lcm-mbc算法。以上算法是在输入数据保持静态不变的情况下来搜索最大二分团。但是,在很多应用场景中,当外部环境发生变化时,输入数据也会发生变化,包括图的边或者顶点的增加或者删减的情况。针对上述输入数据可能动态变化的场景,目前主要采用基于滑动窗口的方法在动态变化的数据中搜索最大二分团,主要算法包括max-fism算法、vsw算法及mwfim等算法。其中,max-fism算法在连续数据流的滑动窗口中挖掘频繁项集。vsw算法可在可变大小的滑动窗口上连续挖掘频繁模式。mwfim算法则从事务性数据库中修剪加权的不频繁模式,并使用具有递减顺序的前缀树。tkc-ds算法用来高效地挖掘数据流中的top-k闭合项集。虽然,这些方法都能够在动态变化的数据中搜索最大二分团,但是这种基于滑动窗口的方法本质上受限于窗口的大小,因此得到的结果往往是粗略的而非精确的。在输入数据的动态变化过程中,包含数据退化与增强两种情况:数据退化指输入数据中的点或边消失的情形;数据增强指输入数据中的点或边增加的情形。两种不同类型的动态变化及其搜索技术完全不同,当前均没有给出精确、高效的解决方法。本发明针对数据退化的情况,给出一种精确、高效搜索网络访问行为特征群体的动态挖掘方法。技术实现要素:本发明技术解决问题:克服现有技术的不足,提供一种退化条件下的网络访问行为特征群体动态挖掘方法及系统,针对个体访问网页的统计数据,在个体(即点)与访问关系(即边)消失的连续变化条件下,能够建立快速高效地在变化的数据中搜索最大二分团的智能模型,确定具有最大化共同访问特征的所有群体,便于用户精确快速地锁定、跟踪或监控目标群体。本发明采取的技术方案是:一种退化条件下的网络访问行为特征群体动态挖掘方法,为用户提供一个输入接口,用户输入个体访问每一种类型网页的有效频度统计数据,然后将此频度统计数据转换为0,1矩阵,并在此矩阵基础上执行一遍扫描搜索算法获取该矩阵中的所有最大二分团并保存在内存中,接着为用户提供一个输入矩阵点或边删减数据的接口,并将用户输入的删减数据归一化为边的删减数据,最后对每一条删减数据执行最大二分团迭代搜索过程,并输出最后一次迭代获得的所有最大二分团。上述退化条件下的网络访问行为特征群体动态挖掘方法,用户通过所述输入接口输入个体访问每一种类型网页的有效频度统计数据,所述个体为上网用户,所述有效频度统计数据指个体访问某种类型网页的总次数除以第一次访问该类型网页的时间到当前时间之间的以天为单位的时间,某个个体访问某种类型网页的有效频度统计数据最终归一化为0或者1,其中0表示频度不足,1表示频度充足。上述退化条件下的网络访问行为特征群体动态挖掘方法,所述将此频度统计数据转换为0,1矩阵,是指对用户输入的频度统计数据进行处理表达为一个矩阵,其中,矩阵的一行表示一个个体,矩阵的一列表示一种类型的网页,矩阵的元素表示该个体对相应类型网页的访问频度。上述退化条件下的网络访问行为特征群体动态挖掘方法,所述在此矩阵基础上执行一遍扫描搜索算法获取该矩阵中的所有最大二分团并保存在内存中,是指对转换后的矩阵执行embs算法搜索获取所有最大二分团,这里的一个最大二分团表示具有最多相同访问网页类型的最多用户。上述退化条件下的网络访问行为特征群体动态挖掘方法,所述为用户提供一个输入矩阵点或边删减数据的接口,其中点删除数据接口是指用户输入矩阵中代表的哪些个体被删除,边删减数据接口是指用户输入矩阵中代表的哪些个体访问网页的频度从1变为0。上述退化条件下的网络访问行为特征群体动态挖掘方法,所述将用户输入的删减数据归一化为边的删减数据,是指对用户输入的被删除的个体转换为若干条边的删除情况,例如,用户删除了一个个体,则等价于将该个体所对应的所有访问频度数据全部删除,最终用户输入的所有删除点或边的情况转换为若干条边的删除情况。上述退化条件下的网络访问行为特征群体动态挖掘方法,所述对每一条删减数据执行最大二分团迭代搜索过程,并输出最后一次迭代获得的所有最大二分团,是指在第一次搜索获取的最大二分团基础上,执行迭代搜索过程,即对每一条被删除的边,对每一个搜索获取的最大二分团进行决策,如果该最大二分团包含了删除的边,则进行分解和判定,分解是指依据删除的边将最大二分团分成若干二分团,并判断这些二分团是否依旧为最大二分团,如果分解后的结果为最大二分团,则将分解获得的这个最大二分团保存。每次处理完一条删除的边,则获得一组新的最大二分团,在处理下一条删除的边时,则以新获取的最大二分团为基础重复以上处理过程。本发明与现有技术相比的有益效果是:本发明对个体访问网页的统计数据,在个体(即点)与访问关系(即边)消失的连续变化条件下,能够快速高效地在变化的数据中动态搜索所有最大二分团,确定具有最大化共同访问特征的所有群体,便于用户精确快速地锁定、跟踪或监控目标群体。与现有技术不能快速精确搜索特定群体的相比,本发明提出了一种迭代搜索方法,对于动态变化的数据,只需要针对那些变化的数据进行搜索,而不需要针对整体数据进行搜索,因此能够快速精确搜索特定群体。附图说明图1为本发明方法实现流程图。具体实施方式下面结合附图和
发明内容进一步提供本发明的实施例。如图1所示,本发明的方法开发了原型系统,该系统包括用户数据输入接口、数据-矩阵转换模块、embs搜索模块、点或边删减数据的输入接口、归一化边处理模块、迭代搜索模块:用户通过数据输入接口输入个体访问每一种类型网页的有效频度统计数据;数据-矩阵转换模块将用户输入的有效频度统计数据转换为0,1矩阵;embs搜索模块按照embs搜索方法对矩阵执行一遍扫描搜索该矩阵中的所有最大二分团并存储;用户通过点或边删减数据的输入接口输入矩阵中需要删除的点或边;归一化边处理模块,将用户输入的所有删除点或边的情况转换为若干条边的删除情况并记录;迭代搜索模块顺序处理每条删除边的情况,并在上一条边的处理结果基础上进行下一次搜索处理。如图1所示,本发明方法具体的操作过程。(1)用户通过所述输入接口输入个体访问每一种类型网页的有效频度统计数据,所述个体为上网用户,所述有效频度统计数据指个体访问某种类型网页的总次数除以第一次访问该类型网页的时间到当前时间之间的以天为单位的时间,由用户决定有效频度为0或1。(2)系统通过所述数据-矩阵转换模块将用户输入的有效频度统计数据转换为0,1矩阵,即对用户输入的频度统计数据进行处理表达为一个矩阵m,其中,矩阵的一行表示一个个体,矩阵的一列表示一种类型的网页,矩阵的元素表示该个体对相应类型网页的访问频度。矩阵的一个实例如表1所示,其中包含了a,b,c,d,e五个个体(上网用户)分别对0,1,2,3,4五种类型网页进行访问的有效频度数据。表101234a01011b10111c01011d11100e11100(3)系统通过所述embs搜索模块,是指按照公开发表的embs搜索方法对矩阵m执行一遍扫描搜索该矩阵中的所有最大二分团并存储到b中。例如,按照embs对表1所表示的矩阵进行搜索,可获得最大二分团(即具有最多相同访问网页类型的最多用户)为{(a,c)-(1,3,4),(a,b,c)-(3,4),(a,c,d,e)-1}。(4)系统通过所述点或边删减数据的输入接口,是指用户输入m中需要删除的点或边。例如,对表1而言,用户可以删除点a或者删除边a-1。(5)系统通过所述归一化边处理模块,将用户输入的所有删除点或边的情况转换为若干条边的删除情况,并记录到e中。如表1所示,当用户删除点a后,系统将自动将这种删除情况转换为删除与点a对应的所有边的情况,即同时删除a-1,a-3,a-4三条边。(6)系统通过所述迭代搜索模块执行搜索,具体是按照以下过程迭代搜索。(6.1)设置集合b’为空。(6.2)从e中取出一条边e。(6.3)从b中取出一个最大二分团g。(6.4)如果g不包含e,则将g放到b’;如果g包含e,则将g分解为左子图g1与g2,左子图g1=g-a,右子图g2=g-b,如果g1是最大二分团,则将g1放到b’中,如果g2是最大二分团,则将g2放到b’中。如果g是最后一个最大二分团,将b’中的最大二分团放到b中,即b←b’,然后返回(6.2),否则直接返回(6.3)。(6)输出集合b’。将用embs算法重复搜索方法和本发明提到的迭代搜索方法进行效能对比,在对不同大小矩阵、不同矩阵密度的条件下的搜索效率对比结果如表2所,从结果可以看出,本发明在保持准确性的前提下具有高效性,搜索时间远远小于重复搜索方法。表2矩阵大小embs方法(ms)迭代方法(ms)最大二分团数量矩阵密度10*10109360.4812*124010630.4416*1685121900.4520*20204153550.4624*242802414650.4932*32345018075950.540*4038317220170410.4748*48181397246418720.46本发明针对个体访问网页的统计数据,在个体(即点)与访问关系(即边)消失的连续变化条件下,能够准确、高效地在变化的数据中动态搜索最大二分团,确定具有最大化共同访问特征的所有群体。本发明未详细阐述部分属于本领域技术人员的公知技术。提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1