一种互联网账户信息挖掘的方法和装置的制造方法

文档序号:9865628阅读:192来源:国知局
一种互联网账户信息挖掘的方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网术领域,尤其涉及一种互联网账户信息挖掘的方法和装置。
【背景技术】
[0002]随着互联网的蓬勃发展,各类网络应用层出不穷,一个自然人可能具有多个互联网账户,通过这些互联网账户可以伪装成不同的虚拟人在互联网世界中活动。如何分辨出多个互联网账户属于同一个自然人变得越来越困难。目前,解决多重虚拟身份关联的方法大概分为两类方法:一种是应用于解决网络水军问题的主题模型方法,通过共性数据嵌入降维的方法,由已产生的网络信息内容来识别发布者的网络虚拟身份,该类方法对于社交网络类或邮件类网络信息应用效果较好,但随着客户端应用和移动互联网的发展,该方法的效率和准确度已经无法满足现有需求;另一种是主要应用统计的叶贝斯过滤器算法,该算法对网络信息本身依据既定规则提取特征值,随后通过叶贝斯算法进行聚类分析,得出相似度,但该类方法目前已经无法应用于大量的互联网信息,仅仅针对邮件类信息也不能满足现有需求。

【发明内容】

[0003]本发明要解决的技术问题是,提供一种互联网账户信息挖掘的方法和装置,能快速准确的通过已知互联网账户,识别出与该互联网账户相关的其他互联网账户。
[0004]本发明采用的技术方案是,所述互联网账户信息挖掘的方法,包括:
[0005]步骤1:获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
[0006]步骤2:在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组;
[0007]步骤3:根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
[0008]进一步的,所述账户上网信息,包括:互联网账户密码;或者,
[0009]所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
[0010]在所述步骤2中,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组,包括:
[0011]若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
[0012]进一步的,所述步骤3,包括:
[0013]步骤31:根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
[0014]步骤32:依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
[0015]进一步的,所述步骤31,包括:
[0016]步骤311:为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
[0017]步骤312:针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
[0018]步骤313:计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
[0019]进一步的,所述步骤311中,预设积分々<预设积分8<预设积分C。
[0020]进一步的,所述步骤312,包括:
[0021]若样本数据包中的账户上网信息为互联网账户密码,则该待测数据包的初始积分等于预设积分C;
[0022]若样本数据包中的账户上网信息为:IP地址、入网账号和互联网账户密码三种信息中的至少两种信息,则将该待测数据包中相应的所述至少两种信息的预设积分相加得到该待测数据包的初始积分。
[0023]本发明还提供一种互联网账户信息挖掘的装置,包括:
[0024]样本信息模块:用于获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
[0025]聚类分组模块:用于在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组;
[0026]账户相关模块:用于根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
[0027]进一步的,所述账户上网信息,包括:互联网账户密码;或者,
[0028]所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
[0029]所述聚类分组模块,具体用于:
[0030]若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
[0031]进一步的,所述账户相关模块,包括:
[0032]总积分计算模块:用于根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
[0033]总积分排序模块:用于依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
[0034]进一步的,所述总积分计算模块,包括:
[0035]聚类积分添加模块:用于为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
[0036]聚类积分计算模块:用于针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
[0037]时间点积分模块:用于计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
[0038]采用上述技术方案,本发明至少具有下列优点:
[0039]本发明所述的互联网账户信息挖掘的方法和装置,能够有效的解决互联网中多重虚拟身份关联的问题。依据上网人的使用习惯、物理位置和使用设备特点进行多重互联网账户关联。在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中,都能起到重要作用。
【附图说明】
[0040]图1为本发明第一实施例的互联网账户信息挖掘方法的流程图;
[0041]图2为本发明第二实施例的互联网账户信息挖掘方法的流程图;
[0042]图3为本发明第三实施例的互联网账户信息挖掘装置的组成结构示意图。
【具体实施方式】
[0043]为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
[0044]本发明第一实施例,一种互联网账户信息挖掘的方法,如图1所示,包括以下具体步骤:
[0045]步骤SlOl:获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1