一种基于DPI数据互联网身份识别的ID图谱建立方法与流程

文档序号:13666997阅读:1329来源:国知局
一种基于DPI数据互联网身份识别的ID图谱建立方法与流程

本发明涉及一种基于dpi数据互联网身份识别的id图谱建立方法,属于互联网挖掘的技术领域。



背景技术:

现如今dpi深度报文检测技术已经发展的相当成熟,运营商通过dpi平台已经累积了海量的流量数据。通信运营商通过这些流量数据已经提取出了如号码等关键字段;通过号码塑造家庭画像,进而对家庭实施精准的融合业务营销、异网用户策反等经营手段。

如今大多数用户识别使用imei/idfa终端唯一识别码进行识别,在进行大量的家庭画像塑造的同时,通信运营商发现流量数据十分驳杂,充满了噪声与不确定数据。这些数据是由谁产生,家庭下到底有几个人,及用户所采用信息等都难以判断。因此需要一个用户id图谱来识别具体用户身份。



技术实现要素:

本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于dpi数据互联网身份识别的id图谱建立方法,解决现有的方法进行用户识别时数据驳杂充满了噪声与不确定数据,无法快速准确的构建互联网下的用户id图谱的问题。

本发明具体采用以下技术方案解决上述技术问题:

一种基于dpi数据互联网身份识别的id图谱建立方法,包括以下步骤:

步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中http请求和cookie中的关键字;

步骤二、利用得到的特征字符串、http请求和关键字对dpi数据采集系统中的数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息;

步骤三、对所获得的用户终端型号信息、号码信息以及互联网帐号信息中终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,对频繁集进行频繁模式挖掘,挖掘获得一个家庭宽带下由最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现组成的集合;

步骤四、利用步骤三频繁模式挖掘所得到集合进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取得到终端型号信息、号码信息以及互联网帐号信息之间的关联关系;

步骤五、利用步骤四得到的关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据并生成用户互联网身份的id图谱,且将id图谱存放在hdfs中以用于检索。

进一步地,作为本发明的一种优选技术方案:所述步骤二中互联网帐号信息至少包括一个用户使用的应用账号。

进一步地,作为本发明的一种优选技术方案:所述所述步骤二中互联网帐号信息包括电商类应用帐号、社交类应用帐号、视频类应用帐号、外卖类应用帐号。

进一步地,作为本发明的一种优选技术方案:所述步骤二中用户的号码信息包括手机号码、互联网帐号、宽带帐号。

进一步地,作为本发明的一种优选技术方案:所述步骤二中用户的终端型号信息包括终端标识码、mac地址以及终端型号。

本发明采用上述技术方案,能产生如下技术效果:

本发明提供一种基于dpi数据互联网身份识别的id图谱建立方法,通过关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据,建立出用户互联网身份的id图谱。基于dpi数据提取出的互联网帐号、宽带帐号、终端识别码imsi/idfa、mac地址以及终端型号信息挖掘关联规则,设计帐号关联关系算法,通过关联规则建立id图谱;该方法的目标是通过id图来识别用户的互联网身份。

本发明方法扩充了原有方案的采集面,从终端唯一标识码拓展到了互联网帐号体系。利用id图谱能在终端唯一标识码、或者号码等信息缺失的时候依然能够辨识到具体用户,提高了用户识别的效率和准确性。尤其是在做用户行为分析相关业务时,每种终端应用和浏览器上传的数据各不相同,原先需要结合大量的外部数据源进行关联分析;效率低下人工投入高,现只需要将单条流量数据中包含的终端型号信息、号码信息以及互联网帐号信息中的任意一种放到索引库中检索,即可分析出这条流量属于那个用户;解决了家庭宽带下长久以来的用户识别困难。

附图说明

图1为本发明基于dpi数据互联网身份识别的id图谱建立方法的流程示意图。

图2为本发明中建立关联关系的示意图。

图3为本发明中生成的用户互联网身份的id图谱示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示,本发明设计了一种基于dpi数据互联网身份识别的id图谱建立方法,包括以下步骤:

步骤一、通过抓包测试获取用户终端如pc、移动终端的上网流量信息中特征字符串和流量信息中http请求和cookie中的关键字。

步骤二、利用步骤一得到的特征字符串和http请求、关键字对运营商dpi数据采集系统中的数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息。

其中,所述步骤二中互联网帐号信息至少包括一个用户使用的应用账号。优选地互联网帐号信息包括电商类应用帐号、社交类应用帐号、视频类应用帐号、外卖类应用帐号。

以及,用户号码信息可以包括用户的手机号码、互联网帐号、宽带帐号;及用户的终端型号信息可以包括终端识别码、mac地址以及终端型号信息等。

步骤三、对步骤二所获得的用户终端型号信息、号码信息以及互联网帐号信息中终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,对频繁集进行频繁模式挖掘,挖掘获得一个家庭宽带下由最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现组成的集合。

步骤四、利用步骤三频繁模式挖掘所得到集合进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取得到终端型号信息、号码信息以及互联网帐号信息之间的关联关系,获得的关联关系如图2所示。

步骤五、利用步骤四得到的关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据并生成用户的id图谱,如图3所示,且将id图谱存放在hdfs中以用于检索。

综上,本发明方法扩充了原有方案的采集面,从用户终端型号信息拓展到了互联网帐号体系;本发明方法利用id图谱能在终端或者号码等信息缺失的时候依然能够辨识到具体用户,提高了用户识别的效率和准确性。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。



技术特征:

技术总结
本发明公开了一种基于DPI数据互联网身份识别的ID图谱建立方法,包括步骤:通过抓包测试获取信息中特征字符串和HTTP请求、关键字;对DPI数据采集系统中数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息;对终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,进行频繁模式挖掘,挖掘获得一个家庭宽带下最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的集合;进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取关联关系;进行聚合形成一条数据并生成用户ID图谱且存放在HDFS。本发明利用ID图谱能够辨识到具体用户,提高了用户识别的效率和准确性。

技术研发人员:王攀
受保护的技术使用者:南京邮数通信息科技有限公司
技术研发日:2017.10.18
技术公布日:2018.02.09
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1