计算机中基于网络空间用户标识的有效虚拟身份刻画方法与流程

文档序号:12134887阅读:294来源:国知局
计算机中基于网络空间用户标识的有效虚拟身份刻画方法与流程

本发明涉及网络空间身份管理方法,尤其涉及有效虚拟身份刻画领域,具体是指一种计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法。



背景技术:

随着互联网技术日新月异,各种互联网应用应运而生,通过互联网进行沟通交流、商品交易等已经成为人们生活的一部分;互联网应用的便捷性与高效性,使得人们的生活更广泛地融入到互联网环境中。然而,这些应用大多数无需实名认证就可使用,一个人可以注册多个相同种类或不同种类的虚拟账号,这不利于网络空间安全的管理。目前,一般利用客户端的IP地址来识别用户、将用户虚拟身份进行关联,但动态IP地址的引入,这种方法已不再有效。



技术实现要素:

为了克服以上所述的现有技术中的问题,下面提出一种克服了通过IP识别用户的不准确性的缺点、提出一种有效的计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法。

该计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法,其主要特点是,所述的方法包括以下步骤:

(1)所述的系统截取并存储某局域网络中某一段时间的全量数据,并在该段时间内不定期地在不同计算机上通过测试账号登录网络,访问网页;

(2)所述的系统在所述的全量数据中抽取出域名信息、对应用户ID标识的报文信息及cookie信息,并存储所述的对应用户ID标识的报文信息;

(3)所述的系统对其获取的所述的对应用户ID标识的报文信息进行格式化处理;

(4)所述的系统抽取并处理cookie中含有虚拟账号字段标识的报文,以获取报文处理数据,并将所述的报文处理数据存储于所述的存储模块;

(5)所述的系统根据cookie信息获取合并关联组并存储;

(6)所述的系统根据所述的合并关联组获取大图数据;

(7)所述的系统计算其所获取的用户虚拟身份原型的相似度,完成虚拟身份画像。

较佳地,所述的步骤(1)中的具体为:

所述的系统截取某一局域网络某一段时间的全量数据,以redies方式存储所述的全量数据,且所述的系统在该段时间内通过多个不同的测试账号不定期的在不同的计算机上登录网络、访问网页。

较佳地,所述的步骤(2)具体为:

所述的系统抽取所述的全量数据中包含的域名信息、对应用户ID标识的报文信息以及cookie信息,并将以UTF-8格式存储所述的对应用户ID标识的报文信息。

较佳地,所述的步骤(4)具体为:

所述的系统抽取cookie中含有虚拟账号字段标识的报文,并按照时间、源IP、目的域名、目的网站、虚拟账号、广告联盟类型、广告联盟值分类获取相应的报文处理数据,并对所述的报文处理数据进行相应的数据存储格式转换,将所述的转换后的报文处理数据存储于该系统中的MongoDB部分。

较佳地,所述的步骤(5)具体为:

所述的系统根据不同cookie中相同的广告联盟账号获取初始关联组,并根据同一时间、同一IP、相同的cookie中出现不同的广告联盟账号合并所述的初始关联组,以获取所述的合并关联组,并存储所述的合并关联组。

较佳地,所述的步骤(6)具体为:

(6.1)所述的系统根据所述的合并关联组获取初始大图数据;

(6.2)所述的系统将该初始大图数据中的虚拟账号之间的关联度设置为0.5;

(6.3)所述的系统判断所述的合并关联组中是否包含同一时间、同一IP的相同的虚拟账号,如果所述的合并关联组中包含同一时间、同一IP的相同的虚拟账号,则继续步骤(6.4);否则,继续步骤(6.5);

(6.4)所述的系统将同一时间、同一IP的相同的虚拟账号的关联度更新为1,并将所述的关联度为1的虚拟账号组成不同的用户组,所述的系统记录该次用户组更新并继续所述的步骤(6.5);

(6.5)所述的系统判断不同的用户组间是否包括两个及两个以上相同的虚拟账号,如果有则所述的系统合并该具有两个及两个以上相同的虚拟账号的用户组,并将合并后的用户组更新到所述的大图数据,且记录该次所述的大图数据的更新;否则继续所述的步骤(6.2)直至所述的用户组和大图数据不再发生更新;

(6.6)所述的系统所述的虚拟账户其所获取的所述的大图数据。

较佳地,所述的步骤(7)具体为:

所述的系统通过Jaccard系数计算同一用户组中包含的虚拟账户之间的相似度,其中输入的变量为该用户组中虚拟账号的向量集合,并设定相应的阈值,当计算所得的相似度大于这个阈值时,将具有该相似度的虚拟账号合并,形成新的原型,并更新到所述的用户组中。

更佳地,所述的阈值为所述的用户组的平均长度趋于稳定时候的值,其中所述的用户组的平均长度是所述的用户组中包含的虚拟账号数目与该大图数据中用户组数目的比值。

采用了该种计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法,由于其以广告联盟用户标识为突破口,串并出关联的虚拟身份,然后通过设定的关联分析规则,归整出身份属性(虚拟账号),并通过不断的迭代更新,完善身份特征刻画模型,并通过广告联盟用户标识将无关联的的虚拟身份绑定为关联虚拟身份;并将关联绑定分为广告联盟内虚拟身份关联绑定、广告联盟间虚拟身份关联绑定,克服了现有技术中通过IP识别用户的不准确的缺点,提出一种有效的虚拟身份刻画方法,完成虚拟身份的关联聚类,实现网络空间身份的有效刻画,为网络安全管理工作提供有效的手段。

附图说明

图1为本发明的计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法的网络空间身份关联模型。

图2为本发明的基计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法的关联绑定流程图。

图3为本发明的计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法的关联分析算法流程。

图4为本发明的计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法的报文处理数据的格式示意图。

具体实施方式

为了更好的说明本发明的技术方案,特举以下具体实施例来进一步说明。

该计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法,其主要特点是,所述的方法包括以下步骤:

(1)所述的系统截取并存储某局域网络中某一段时间的全量数据,并在该段时间内不定期地在不同计算机上通过测试账号登录网络,访问网页,具体为:

所述的系统截取某一局域网络某一段时间的全量数据,以redies方式存储所述的全量数据,且所述的系统在该段时间内通过多个不同的测试账号不定期的在不同的计算机上登录网络、访问网页;

(2)所述的系统在所述的全量数据中抽取出域名信息、对应用户ID标识的报文信息及cookie信息,并存储所述的对应用户ID标识的报文信息,具体为:

所述的系统抽取所述的全量数据中包含的域名信息、对应用户ID标识的报文信息以及cookie信息,并将以UTF-8格式存储所述的对应用户ID标识的报文信息;

(3)所述的系统对其获取的所述的对应用户ID标识的报文信息进行格式化处理;

(4)所述的系统抽取并处理cookie中含有虚拟账号字段标识的报文,以获取报文处理数据,并将所述的报文处理数据存储于所述的存储模块,具体为:

所述的系统抽取cookie中含有虚拟账号字段标识的报文,并按照时间、源IP、目的域名、目的网站、虚拟账号、广告联盟类型、广告联盟值分类获取相应的报文处理数据,并对所述的报文处理数据进行相应的数据存储格式转换,将所述的转换后的报文处理数据存储于该系统中的MongoDB部分;

(5)所述的系统根据cookie信息获取合并关联组并存储,具体为:

所述的系统根据不同cookie中相同的广告联盟账号获取初始关联组,并根据同一时间、同一IP、相同的cookie中出现不同的广告联盟账号合并所述的初始关联组,以获取所述的合并关联组,并存储所述的合并关联组;

(6)所述的系统根据所述的合并关联组获取大图数据,具体步骤为:

(6.1)所述的系统根据所述的合并关联组获取初始大图数据;

(6.2)所述的系统将该初始大图数据中的虚拟账号之间的关联度设置为0.5;

(6.3)所述的系统判断所述的合并关联组中是否包含同一时间、同一IP的相同的虚拟账号,如果所述的合并关联组中包含同一时间、同一IP的相同的虚拟账号,则继续步骤(6.4);否则,继续步骤(6.5);

(6.4)所述的系统将同一时间、同一IP的相同的虚拟账号的关联度更新为1,并将所述的关联度为1的虚拟账号组成不同的用户组,所述的系统记录该次用户组更新并继续所述的步骤(6.5);

(6.5)所述的系统判断不同的用户组间是否包括两个及两个以上相同的虚拟账号,如果有则所述的系统合并该具有两个及两个以上相同的虚拟账号的用户组,并将合并后的用户组更新到所述的大图数据,且记录该次所述的大图数据的更新;否则继续所述的步骤(6.2)直至所述的用户组和大图数据不再发生更新;

(6.6)所述的系统所述的虚拟账户其所获取的所述的大图数据;

(7)所述的系统计算其所获取的用户虚拟身份原型的相似度,完成虚拟身份画像,具体为:

所述的系统通过Jaccard系数计算同一用户组中包含的虚拟账户之间的相似度,其中输入的变量为该用户组中虚拟账号的向量集合,并设定相应的阈值,当计算所得的相似度大于这个阈值时,将具有该相似度的虚拟账号合并,形成新的原型,并更新到所述的用户组中。

在一种更佳的实施例中,所述的步骤(7)中的阈值为所述的用户组的平均长度趋于稳定时候的值,其中所述的用户组的平均长度是所述的用户组中包含的虚拟账号数目与该大图数据中用户组数目的比值。

在一种具体实施例中,以广告联盟用户标识为突破口,串并出关联的虚拟身份,然后通过设定的关联分析规则,归整出身份属性(虚拟账号),并通过不断的迭代更新,完善身份特征刻画模型。关联绑定即通过广告联盟用户标识将无关联的虚拟身份绑定为关联虚拟身份;关联绑定分为广告联盟内虚拟身份关联绑定、广告联盟间虚拟身份关联绑定。

请参阅图1,广告联盟内虚拟身份关联绑定规则为来自不同cookie信息中的虚拟身份,若cookie信息中的同一广告联盟用户标识相同,则认为这些虚拟身份为关联虚拟身份,并称为初始关联组。

广告联盟间虚拟身份绑定建立在广告联盟内虚拟身份关联绑定的基础上,同一时间同一IP地址上抓取的cookie信息中包含不同广告联盟用户标识,则可以将这些广告联盟用户标识对应的初始关联组合并,形成合并关联组。

接下来,通过以下规则进行关联分析:

初始设置关联组内的虚拟账号之间的关联度记为0.5;

关联组中同一时间同一IP获取的虚拟账号之间的关联度记为1,所有相互之间关联度为1的虚拟账号组成不同用户组。

不同用户组中,存在两个及以上相同虚拟账号的,判定为同一用户组,并合并这些组。

反复运用上述规则对大图数据进更新,直到不满足条件为止。至此可以得到用户组群(虚拟账号之间的关联度为1)和剩下的关联组群(虚拟账号之间的关联度为0.5)。用户组群中每个用户组内不同虚拟身份可以被认定为同一画像,从而构建虚拟身份画像。

最后,通过Jaccard相似度算法,完成虚拟身份画像重组。

在一种具体实施例中,该基于系统和网络空间中用户标识实现有效虚拟身份刻画方法具有如下步骤:

(1)截取某一局域网络某一段时间的全量数据,且在该段时间内不定期地在不同系统上用某些测试账号登录网络,访问网页,测试账号可以用于对结果的验证。测试账号的选择,记为虚拟账号A、虚拟账号B、虚拟账号C、虚拟账号D等

(2)以redies方式存储截取到的全量数据;

(3)从数据中抽取出包含如图4所示的域名信息及对应用户ID标识的报文信息和cookie信息,并以UTF-8格式存储报文。

(4)将抽取的报文进行格式化处理,处理之后的格式如下表所示;

(5)抽取cookie信息中含有虚拟账号字段标识的报文。对于这些报文,按照时间、源IP、目的域名、目的网站、虚拟账号、广告联盟类型、广告联盟值获取相应的数据,并进行相应的数据存储格式转换。

(6)请参阅图2,将格式化后的数据存储到MongoDB,构建合并关联组,依据不同cookie因有相同的广告联盟账号可生成初始关联组,同一时间同一IP相同的cookie中因出现不同的广告联盟账号可对初始关联组进行合并,构成合并关联组,并对其进行存储;

(7)请参阅图3,抽取合并关联组构建大图,并对大图进行完善,设置关联组内虚拟账号之间的关联度均为0.5;将关联组中同一时间同一IP获取的虚拟账号之间的关联度更新为1,相互之间关联度为1的虚拟账号组成不同的用户组,若为0.5则将该虚拟账号作为单独的虚拟账号返回至大图数据中;不同用户组中,若有两个及两个以上相同的虚拟账号及取值,则将用户组进行合并,同时将结果更新到大图数据中;将这过程进行迭代,直到大图数据基本不再变化为止,并将结果保存,每一条记录即为用户画像的一个原型。

(8)针对生成的用户虚拟身份用户组,采用Jaccard系数进行计算相似度,其中输入的变量为虚拟账号的向量集合,并设定相应的阈值,当相似度大于这个阈值时,将两个用户组进行合并,形成新的用户组;此处阈值的取值可取用户组平均长度趋于稳定时候的值,其中用户组平均长度是所有用户组中的虚拟账号总数与用户组数的比值,当阈值为0.5时,用户组平均长度为9.13,已趋于稳定;用户组平均长度趋于稳定时所形成的所有用户组,即为独立无冗余的用户组,完成虚拟身份画像。

采用了该种计算机软件系统中基于网络空间中的用户标识实现有效虚拟身份刻画方法,由于其以广告联盟用户标识为突破口,串并出关联的虚拟身份,然后通过设定的关联分析规则,归整出身份属性(虚拟账号),并通过不断的迭代更新,完善身份特征刻画模型,并通过广告联盟用户标识将无关联的的虚拟身份绑定为关联虚拟身份;并将关联绑定分为广告联盟内虚拟身份关联绑定、广告联盟间虚拟身份关联绑定,克服了现有技术中通过IP识别用户的不准确的缺点,提出一种有效的虚拟身份刻画方法,完成虚拟身份的关联聚类,实现网络空间身份的有效刻画,为网络安全管理工作提供有效的手段。

在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1