一种识别独立用户的方法和装置的制造方法

文档序号:9380472阅读:624来源:国知局
一种识别独立用户的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术,尤指一种识别独立用户(UV,Unique Visitor)的方法和 装置。
【背景技术】
[0002] 在科技产品和互联网飞速发展的当下社会,一人多机已经成为人们生活中的普遍 现象。很多网民通常同时拥有手机,平板电脑及台式机等电子设备,甚至一人持有多部手 机,或多台电脑。如何准确识别独立用户对于信息对象的监测具有重大意义。
[0003] 现有的识别独立用户的方法中,将个人计算机(PC, Personal Computer)设备 和移动设备分记为两个不同的独立用户。其中,对于PC设备采用cookie来识别独立用 户。Cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端 上的数据。对于多次出现的访问数据,如果具有相同的Cookie,则认为是同一个独立用 户。对于移动设备采用设备标识(ID)来识别独立用户。设备ID可以是开放设备识别 码(OpenUDID)、广告标示符(IDFA,Identifier For Advertising)、移动设备国际身份 码(IMEI,International Mobile Equipment Identity)、媒体访问控制地址(MAC,Media Access Control Address)、安卓标识(AndroidID)、设备指纹、Cookie等信息中的一个或多 个。
[0004] 现有的识别独立用户的方法中,由于同一个独立用户可能在较短的时间内先后使 用多台PC设备和/或多台移动设备访问相同的内容,例如某大型快餐连锁品牌的广告;而 使用现有的识别独立用户的方法来识别独立用户时,该独立用户使用的PC设备计为一个 独立用户,移动设备计为另一个独立用户。这与只有一个独立用户的实际情况是不符的,从 而使得识别独立用户的精度较低。
[0005] 现有的另一种识别独立用户的方法是根据互联网协议(IP,InternetProtocol) 地址来识别独立用户,即相同IP地址的用户为同一独立用户,而不同IP地址的用户为不同 的独立用户。该方法忽略了相同IP地址的用户也可能是不同的独立用户,例如,网吧中多 台设备通过光纤专线接入网络,虽然具有相同的IP地址,但大多数为不同的独立用户,从 而识别独立用户的精度较低。

【发明内容】

[0006] 为了解决上述问题,本发明提出了一种识别独立用户的方法和装置,能够提高识 别独立用户的精度。
[0007] 为了达到上述目的,本发明提出了一种识别独立用户的方法,包括:
[0008] 获取第一阈值;
[0009] 在第二预设时间内获取不同设备的上网行为数据,所述上网行为数据至少包括通 用唯一识别码UUID、互联网协议IP地址和时间;
[0010] 计算同一 IP地址对应的UUID的个数,判断出计算得到的UUID的个数大于第一阈 值,所述同一 IP地址对应的各UUID均为不同的独立用户。
[0011] 优选地,所述获取第一阈值包括:
[0012] 选取第一样本用户集合,在第一预设时间或第一预设时间周期内统计所述第一样 本用户集合中每个样本用户使用过的UUID的个数,计算第一样本用户集合中所有样本用 户的UUID的个数的均值和标准差,将高于均值三个标准差的UUID的个数作为第一阈值。
[0013] 优选地,当判断出计算得到的UUID的个数小于或等于第一阈值时,该方法还包 括:
[0014] 为所述同一 IP地址对应的各UUID分配关联标识;
[0015] 所述关联标识相同的UUID为同一独立用户,所述关联标识不同的各UUID均为不 同的独立用户。
[0016] 优选地,所述为所述同一 IP地址对应的各UUID分配关联标识包括:
[0017] 获取第二阈值;
[0018] 将所述同一 IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;
[0019] 将排列好的第一项上网行为数据设置为当前项;
[0020] 根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID 存在关联标识,且判断出所述当前项存在下一项,计算所述当前项和下一项之间的时间间 隔;
[0021] 判断出计算得到的时间间隔大于所述第二阈值,将所述下一项上网行为数据设置 为所述当前项,重复判断直至所述当前项不存在下一项。
[0022] 优选地,所述获取第二阈值包括:
[0023] 选取第二样本用户集合,在第三预设时间内或者在第二预设时间周期内统计第二 样本用户集合中每个样本用户使用的UUID和IP均发生变化时,前一次和后一次产生上网 行为的时间间隔,计算第二样本用户集合中所有样本用户的时间间隔的均值和标准差,将 低于均值三个标准差的时间间隔作为第二阈值。
[0024] 优选地,当根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项 中的UUID不存在关联标识时,该方法还包括:
[0025] 为所述当前项中的UUID分配关联标识;
[0026] 保存所述当前项中的UUID和分配的关联标识之间的对应关系。
[0027] 优选地,当判断出计算得到的时间间隔小于或等于所述第二阈值,且所述下一项 中的UUID不存在关联标识时,该方法还包括:
[0028] 为所述下一项中的UUID分配与所述当前项中的UUID的关联标识相同的关联标 识;
[0029] 保存所述下一项中的UUID和分配的关联标识之间的对应关系;
[0030] 将所述下一项设置为所述当前项。
[0031] 优选地,当判断出所述下一项中的UUID存在关联标识,且所述下一项中的UUID的 关联标识与所述当前项中的UUID的关联标识不相同时,该方法还包括:
[0032] 根据自身保存的UUID和关联标识之间的对应关系,将与所述下一项中的UUID的 关联标识相同的所有UUID的关联标识更改为所述当前项中的UUID的关联标识。
[0033] 本发明还提出了一种识别独立用户的装置,至少包括:
[0034] 获取模块,用于获取第一阈值;在第二预设时间内获取不同设备的上网行为数据, 所述上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;
[0035] 计算模块,用于计算同一 IP地址对应的UUID的个数;
[0036] 判断模块,用于判断出计算得到的UUID的个数大于第一阈值,所述同一 IP地址对 应的各UUID均为不同的独立用户。
[0037] 优选地,所述判断模块,还用于:
[0038] 判断出计算得到的UUID的个数小于或等于第一阈值,为所述同一 IP地址对应的 各UUID分配关联标识;所述关联标识相同的UUID为同一独立用户,所述关联标识不同的各 UUID均为不同的独立用户。
[0039] 优选地,所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,具 体用于:
[0040] 将所述同一 IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;将排 列好的第一项上网行为数据设置为当前项;根据自身保存的UUID和关联标识之间的对应 关系判断出所述当前项中的UUID存在关联标识,且判断出所述当前项存在下一项,计算所 述当前项和下一项之间的时间间隔;判断出计算得到的时间间隔大于第二阈值,将所述下 一项上网行为数据设置为所述当前项,重复判断直至所述当前项不存在下一项;
[0041] 所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1