多账号关联方法、装置及电子设备的制造方法

文档序号:9597887阅读:325来源:国知局
多账号关联方法、装置及电子设备的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,尤其涉及一种多账号关联方法、装置及电子设备。
【背景技术】
[0002] 随着大数据领域的不断扩张,互联网用户数据日益剧增。互联网用户的数据包括 用户的年龄、性别、职业等用户信息,这些信息渗透在社交网络、电子商务等各大互联网领 域,具备极大的经济价值,对定向精准地发布信息和资讯、预测用户行为、构建用户画像等, 起着决定性的作用。
[0003] 获取用户数据的前置条件,就是用户的挖掘与识别,现有技术通常基于同一个 IP (Internet Protocol)或者IP和用户代理(User Agent)等粗粒度的关联规则,对网站储 存在用户本地终端上的Cookie数据的身份信息(Identity,ID)和应用程序账号信息进行 强制关耳关。
[0004] 但是,由于网络互联的复杂多样性,同一用户往往具有多个网站的账号或者应用 程序(Application, App)账号;且所述Cookie数据的ID信息和应用程序账号信息存在大 量的脏数据;而且同一个IP或者IP和User Agent可能会被不同的上网用户所使用,造成 关联规则不准确,进而无法精确的将同一用户的所有账号信息数据进行关联分类。

【发明内容】

[0005] 本发明解决的技术问题是如何提高用户账号信息分类的准确性。
[0006] 为解决上述技术问题,本发明实施例提供一种多账号关联方法,包括:
[0007] 获取用户网络行为的统一资源定位符URL信息;
[0008] 按照网络入口规则从所述URL信息中规则挖掘账号信息;
[0009] 过滤所述账号信息,剔除脏数据;
[0010] 对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔 生成 Session ;
[0011] 提取同一所述Session下的所述账号信息,生成具备关联关系的账号信息组;
[0012] 根据所述关联关系计算所述每个账号信息组的支持度和置信度;
[0013] 基于所述支持度和所述置信度对所述账号信息组进行图运算,生成所述关联关系 的图像。
[0014] 可选的,所述账号信息包括应用程序账号和cookie ID信息。
[0015] 可选的,所述过滤所述账号信息,剔除脏数据包括:
[0016] 统计所述账号信息的数量、分布及比例并按照时间顺序进行序列化显示;
[0017] 所述账号信息的数量大于设定阈值时,过滤所述账号信息。
[0018] 可选的,所述对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定 的时间间隔生成Session,包括:
[0019] 提取所述URL信息、所述账号信息和所述Refferer消息,并根据时间顺序进行排 序;
[0020] 在设定的时间阈值内,根据所述Refferer消息,将具备跳转关系的所述URL信息 串联,形成所述Session。
[0021] 可选的,所述账号信息组包括主账号和从账号;所述账号信息组的关联关系采用 权重值表示,所述账号信息组出现一次,对应的所述权重值加一。
[0022] 可选的,所述每个账号信息组的支持度为所述每个账号信息组的所述权重值与所 述账号信息组的所述权重值的总和之比;
[0023] 所述每个账号信息组的置信度为所述每个账号信息组的所述权重值与包含所述 主账号的所述账号信息组的所述权重值的总和之比;
[0024] 可选的,所述网络入口规则包括IP、所述IP和浏览器的User Agent、上网账号以 及所述上网账号和所述浏览器的User Agent。
[0025] 为解决上述技术问题,本发明实施例还公开了一种多账号关联装置,所述多账号 关联装置包括:
[0026] 采集模块,用于获取用户网络行为的统一资源定位符URL信息;
[0027] 账号挖掘模块,耦接所述采集模块,用于按照网络入口规则从所述URL信息中规 则挖掘账号信息;
[0028] 清洗模块,耦接所述账号挖掘模块,用于过滤所述账号信息,剔除脏数据;
[0029] Session生成模块,耦接所述清洗模块,用于对过滤后的所述账号信息基于所述 URL信息和Refferer消息在设定的时间间隔生成Session ;
[0030] 账号信息组生成模块,親接所述Session生成模块,提取同一所述Session下的所 述账号信息,生成具备关联关系的账号信息组;
[0031] 参数计算模块,耦接所述账号信息组生成模块,用于根据所述关联关系计算所述 每个账号信息组的支持度和置信度;
[0032] 图像生成模块,耦接所述参数计算模块,用于基于所述支持度和所述置信度对所 述账号信息组进行图运算,生成所述关联关系的图像。
[0033] 可选的,所述清洗模块包括:
[0034] 统计所述账号信息的数量、分布及比例并按照时间顺序进行序列化显示;
[0035] 所述账号信息的数量大于设定阈值时,过滤所述账号信息。
[0036] 可选的,Session生成模块包括:提取所述URL信息、所述账号信息和所述 Refferer消息,并根据时间顺序进行排序;
[0037] 在设定的时间阈值内,根据所述Refferer消息,将具备跳转关系的所述URL信息 串联,形成所述Session。
[0038] 可选的,所述账号信息组生成模块包括:生成的所述账号信息组包括主账号和从 账号;所述账号信息组的关联关系采用权重值表示,所述账号信息组出现一次,对应的所述 权重值加一。
[0039] 本发明实施例还公开了一种电子设备,所述电子设备配置有所述多账号关联装 置。
[0040] 与现有技术相比,本发明实施例的技术方案具有以下有益效果:
[0041] 本发明实施例通过将挖掘到的账号信息进行过滤,剔除了大量的网络脏数据;结 合URL信息和Refferer消息生成Session,提取同一 Session下的账号信息,生成具备关联 关系的账号信息组,并通过计算每个账号信息组的支持度和置信度,将同一用户的多类型 账号进行关联,提高了用户账号信息分类的准确性、完整性。
[0042] 进一步,本发明实施例通过采用IP和浏览器的User Agent、上网账号以及上网账 号和浏览器的User Agent的多类型网络入口规则挖掘账号信息,充分的挖掘了用户的互联 网访问行为信息,提高了用户账号信息的丰富性。
【附图说明】
[0043] 图1是本发明实施例一种多账号关联方法流程图;
[0044] 图2是本发明实施例一种过滤账号信息方法流程图;
[0045] 图3是本发明实施例一种Session生成方法流程图;
[0046] 图4是本发明实施例一种多账号关联方法生成的关联关系的图像示意图;
[0047] 图5是本发明实施例一种多账号关联装置示意图。
【具体实施方式】
[0048] 如【背景技术】中所述,由于网络互联的复杂多样性,同一用户往往具有多个网站的 账号或者应用程序(Application, App)账号;且所述cookie数据的ID信息和应用程序账 号信息存在大量的脏数据,同一个IP或者IP和User Agent很可能会被不同的上网用户所 使用,造成关联规则不准确,进而无法精确的将同一用户的所有账号信息数据进行关联分 类。
[0049] 本发明实施例通过将挖掘到的账号信息进行过滤,剔除了大量的网络脏数据;结 合URL信息和Ref ferer消息生成Session,提取同一 Session下的账号信息,生成具备关联 关系的账号信息组,并通过计算每个账号信息组的支持度和置信度,将同一用户的多类型 账号进行关联,提高了用户账号信息分类的准确性、完整性。
[0050] 为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明 的具体实施例做详细的说明。
[0051] 图1是本发明实施例一种多账号关联方法流程图。
[0052] 请参照图1,本发明实施例的多账号关联方法包括:步骤S101,获取用户网络行为 的统一资源定位符URL信息。
[0053] 本实施例中,统一资源定位
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1