一种短暂上网事务中频繁共现账号挖掘方法

文档序号:9471428阅读:309来源:国知局
一种短暂上网事务中频繁共现账号挖掘方法
【技术领域】
[0001] 本发明涉及用户上网行为审计领域,特别是面向网络原始流的跨域上网账号同源 性归并的一种短暂上网事务中频繁共现账号挖掘方法。
【背景技术】
[0002] 近十年来,随着Web2. 0理念的深入,越来越多的在线社交媒体出现,其发展迅速, 种类多样。人们在虚拟社会网络空间中的行为直接反映了其在真实世界中的身份、社会关 系和活动规律。因此,虚拟社会网络已经形成一种新形态的数字社会,成为连接物理社交世 界和虚拟网络空间的桥梁。由于社会媒体详细记录了用户的思想和行为轨迹,这使得利用 计算技术观察和研究社会成为可能。因此,社交媒体在定向信息推送、推荐系统、舆论监管 等方面占据出举足轻重的地位。
[0003] 但是,网络的虚拟性和匿名化掩盖了用户的真实身份。由于用户的个性化信息与 用户隐私密切相关,所以互联网服务提供商一般会对用户数据进行匿名化处理之后再提供 共享或对外发布。而且,社交媒体的丰富资源带来信息交流方式的多样化,人们倾向于使用 多种渠道进行线上沟通,并有意识地区分不同网络行为所使用的用户标识,这使得同一个 真实的社会实体在虚拟网络环境中拥有多个账号、多重身份。
[0004]目前,现有方法基于用户上网登记信息(如接入账号、手机号等)进行有限的账号 关联,但是在没有用户上网接入账号的情况下,用户上网行为是无法准确关联的。另一些方 法侧重于在单一数据源上对匿名的网络用户进行独立分析和行为审计,但是用户的各种信 息会碎片化地散布在各个社交媒体中,单一的社交媒体所提供的信息是不完整的,无法还 原一个真实社会实体的上网行为整体全貌。
[0005] 由于在网络数据中信息是离散、无序的,附属于同一社会实体的多种用户身份的 关联线索无据可循,因此在多种数据流空间中对表象独立的用户身份进行关联融合是一个 具有挑战性的课题。在现实工作中面临着诸多困难,如:网络流量巨大,导致简单的数据挖 掘方法无法满足处理规模的制约;目标社会属性稀缺,导致目标社会身份的推测异常困难; NAT、动态IP等技术广泛应用,导致在难以寻找可靠的用户标识关联依据;数据资源协议多 样、形态复杂,导致缺乏有效的方法适应异构的原始数据。
[0006] 因此,如何在网络原始流中,不依赖先验的线索,自动挖掘跨域上网账号的同源 性,关联上网用户对多种社交媒体的访问行为,是必需认真解决的技术问题。

【发明内容】

[0007] 针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供基于网络原始数 据流来关联一个用户多个上网账号的一种短暂上网事务中频繁共现账号挖掘方法,有效解 决对单个上网账号的行为审计扩大到相关的多种应用、多个账号上,从而实现对用户上网 行为的跨数据流跟踪和审计的问题。
[0008] 本发明解决的技术方案是,包括以下步骤:
[0009] (1)用户上网数据流获取:基于网络分流技术,在网络关口处镜像网络原始数据, 这些数据承载了用户访问各种社交应用的通信数据,包括上网地址、上网账号、时间、应用 数据等;
[0010](2)用户上网元数据提取:以网络流量分类方法为基础,基于浮动关键字匹配、正 则表达式过滤,对网络中不同应用对应的数据流进行识别,提取社交应用的用户上网数据, 形成"元数据",包括:源IP地址、协议、目的IP地址、时间、社交应用类型和网络账号数据;
[0011] (3)短暂上网事务数据库构建:对步骤(2)得到的用户上网"元数据"按时间和上 网地址进行汇总整理,形成上网短暂事务数据库,其中每个事务数据代表单位时间内单个 本地地址向外访问的社交应用账号集;
[0012] (4)频繁共现网络帐号挖掘:对待分析的用户上网原始流量所对应的事务数据库 中的每个事务数据,利用频繁模式挖掘算法找出所有事务数据中包含的频繁项集,得到频 繁项集集合;
[0013] (5)频繁共现网络帐号归并:对每个频繁项集,计算项集间的重叠率,对频繁项集 进行合并,将规模较小的项集归并到较大项集中,保证归并后项集中的账户具有关联性,得 到归属于同一社会人的多个网络账号,从而实现短暂上网事务中频繁共现账号挖掘。
[0014] 本发明方法简单、易操作,能准确发现隐藏在网络通信流中网络帐号之间的关联 性,这种关联性来源于用户的上网习惯,可以有效克服上网行为关联对先验关联线索的依 赖性,提高对用户在多种应用上网行为的联合审计能力,具有实际的应用价值。
【附图说明】
[0015] 图1为本发明流程框示图。
[0016] 图2为本发明的短暂上网事务数据库示意图。
[0017] 图3为本发明测试验证所依托的迪普上网行为审计网络环境。
【具体实施方式】
[0018] 以下结合附图对本发明的【具体实施方式】作详细说明。
[0019] 由图1给出,本发明包括上网短暂事务数据库构建、频繁共现网络帐号挖掘以及 频繁共现网络帐号归并部分,上网短暂事务数据库构建模块主要负责获取用户上网数据 流,提取用户上网元数据,构建事务数据库D,为了尽可能地在事务中保留用户在多个社交 应用的上网数据,同时缩减事务库规模,事务数据库的构建既要有上网行为的连续性,还要 兼顾上网业务的独立性;频繁共现网络帐号挖掘模块从事务数据库D中挖掘出频繁项集; 频繁共现网络帐号归并模块主要对频繁项集进行归并处理,以还原真实的社会实体的多个 账号,具体步骤是:
[0020]1)、获取用户上网元数据:
[0021] 用户上网元数据获取是后续数据分析的基础,用户上网元数据主要包括网络源IP 地址、目的IP地址、上网地址、上网时间、访问网址、应用类型和上网账号,由于在线网络原 始流量非常庞大,应提交网络分流设备的分流规则,以此将筛选后的数据作为后续分析的 数据基础,筛选后的数据应具有相关性、连续性和多样性的特点,在选取用户上网样本时应 遵循以下原则:
[0022] (1)为确保相关性,在数据获取时应收集地域相对集中的内部网关口处的网络上 下行数据;
[0023] (2)为确保连续性,数据采集时间相对集中,以尽可能获得一个用户上网周期内的 访问多个应用的原始数据;
[0024] (3)为确保多样性,除常用的QQ通信、WebMail,提取多样的社交应用中的上网账 号,包括购物网站、游戏、论坛、云盘;
[0025] 2)构建短暂上网事务数据库
[0026] 将多个上网账号同源性归并转化为数据挖掘中的频繁项集挖掘,在用户上网元数 据获取的基础上,将单位时间单个上网地址上出现的网络访问行为对应事务,网络行为中 出现的上网账号对应事务中的项,构建事务数据库(如图2所示);
[0027] 3)频繁共现网络帐号挖掘:
[0028] 由于用户上网短暂事务数据库中事务数据量大,带来算法在执行过程中的候选项 集巨大,传统的穷尽型频繁模式挖掘,Apriori算法将会受到数据处理规模的限制,因此通 过对事务数据迭代取交集的方式挖掘最大频繁项集,给定事务库D,最小支持数S,最大频 繁项集挖掘的方法如下:
[0029] (1)将事务库D中的事务按项的个数从大到小排序,以尽早发现最大频繁项集,为 缩减事务库规模,合并事务库中重复的事务,并对事务个数计数;
[0030] (2)为减少取交集的次数,对于事务Ti,l<i<|D|-S+1,从i=1开始,首先找 出包含T1中任意项的事务集合DT^iyTj至少包括!\中的一个项目,j>LT1依次与T取 交集,将两者的交集移入新的事务库D1,同时剔除T,,$c:!;;
[0031] (3)对于新事务库D1*的事务T,当T是由不小于S个事务取交集而得,则将T移 入最大频繁候选项集集合MFCS中,同时剔除T在D1中的子事务;
[0032] (4)当新事务库D1中的剩余事务个数小于最小支持数S,则结束对事务库Di的处 理,返回到上层事务库;否则,对D1从第1步开始再进行此过程;
[0033] (5)当事务库D中剩余的事务数小于S时,S卩i>|D|_S+l,结束对当前事务库D的 处理;
[0034] (6)对MFCS中的项集进行合并同时剔除非最大频繁项集,最后的结果即为所求的 最大频繁项集集合MFS;
[0035] 4)频繁共现网络帐号归并:
[0036]由于最小支持数的限制,使得MFS中最大频繁项集规模较小,而且有些项集之间 存在重叠项,这些项集代表的账户簇从属于同一个社会实体,为解决这一问题,使用重叠率 来量化两个项集之间的相似性,设项集X1,X2GMFS,将X:和X2的重叠率记为:
[0038] 上式中,IX1HX2I表示乂:与X2重叠项目的个数,MindX」,|X2|)表示规模较小的 项集中项目的个数,项集归并的方法是:
[0039] (1)将MFS中的最大频繁项集按项目的个数从大到小排序;
[0040] ⑵遍历MFS中的每个最大频繁项集,从i= 1开始,对vx,eMFS (1彡i彡IMFS
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1