一种生成集体宿舍ip库的方法和装置的制造方法_3

文档序号:9306818阅读:来源:国知局
计算第一矩阵中两两相似度最高的P行所对应 的用户中,近期居住在集体宿舍中的第二比例X。
[0099] 在本实施例中,此处取P= 2,通常在实际情况中总用户数以及受调研用户数都较 大,P可以但不限于取受调研用户数百分之一。
[0100] 由步骤五中的表六可知:
[0101] 第二矩阵第1行与第一矩阵中相似度最高的两行分别为:第3,4行,其中,第一矩 阵第3,4行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
[0102] 第二矩阵第2行与第一矩阵中相似度最高的两行分别为:第1,2行,其中,第一矩 阵第1行所代表的用户近期居住在集体宿舍中;第一矩阵第2行所代表的用户近期不居住 在集体宿舍中,第二比例X为50%。
[0103] 第二矩阵第3行与第一矩阵中相似度最高的两行分别为:第3,4行,其中,第一矩 阵中第3,4行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
[0104] 第二矩阵第4行与第一矩阵中相似度最高的两行分别为:第1,2行,其中,第一矩 阵第1行所代表的用户近期居住在集体宿舍中;第一矩阵第2行所代表的用户近期不居住 在集体宿舍中,第二比例X为50%。
[0105] 第二矩阵第5行与第一矩阵中相似度最高的两行分别为:第2,3行,其中,第一矩 阵第2, 3行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
[0106] 第二矩阵第6行与第一矩阵中相似度最高的两行分别为:第2,3行,其中,第一矩 阵第2, 3行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
[0107] 步骤6. 2 :比较第二比例X与第一比例,如果比例X大于或等于第一比例,则将第 二矩阵中这一行对应的用户标记为近期居住在集体宿舍中;如果第二比例X小于第一比 例,则将第二矩阵中这一行对应的用户标记为近期不居住在集体宿舍中。
[0108] 在本例中,第二矩阵第1,3,5,6行的第二比例X为0%,小于第一比例25%,故将 第二矩阵第1,3, 5,6行所代表的用户标记为近期不居住在集体宿舍中。
[0109] 第二矩阵第2,4行的第二比例X为50%,大于第一比例25%,故将第二矩阵第2, 4行所代表的用户标记为近期居住在集体宿舍中。
[0110] 即C〇〇kie5,7,9,10所代表的用户标记为近期不居住在集体宿舍中;C〇〇kie6,8所 代表的用户标记为近期居住在集体宿舍中。
[0111] 步骤七:对第一数据集合和第二数据集合,统计出现的所有IP地址(即:上网行 为数据中出现过的所有IP地址),记为第一IP集合。
[0112] 在本例中,第一IP集合为:
[0113] 162. 105. 38. 246
[0114] 162. 105. 38. 247
[0115] 162. 105. 38. 248
[0116] 162. 105. 38. 249
[0117] 162. 105. 38. 250
[0118] 162. 105. 38. 251
[0119] 162. 105. 38. 252
[0120] 162. 105. 38. 253
[0121] 162. 105. 38. 254
[0122] 162. 105. 38. 255
[0123] 步骤八:对第一IP集合中的每个IP地址,分别进行如下操作:
[0124] 在该IP地址对应的上网行为数据中,统计每日20时以后、次日8时前,有上网行 为数据的cookie所对应的用户,记为第一用户集合;选出第一用户集合中按照步骤一至六 标记为备选用户的cookie对应的用户,记为第二用户集合。计算第二用户集合中的用户数 与第一用户集合中的用户数的商,记为第三比例Y。
[0125] 若第三比例Y大于50%,则判断该IP地址为集体宿舍IP地址。
[0126] 若第三比例Y小于或等于50%,则判断该IP地址为非集体宿舍IP地址。
[0127] 在本例中,
[0128]IP地址162. 105. 38. 246的第一用户集合为Cookiel所代表的用户;从中选出按 照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookiel,第三 比例Y为100%,>50%,所以判断IP地址162. 105. 38. 248为集体宿舍IP地址。
[0129]IP地址162. 105. 38. 247的第一用户集合为Cookiel,Cookie2所代表的用户; 从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为 Cookiel,第三比例Y为50%,等于50%,所以判断IP地址162. 105. 38. 247为非集体宿舍 IP地址。
[0130]IP地址162. 105. 38. 248的第一用户集合为Cookiel,Cookie3所代表的用户; 从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为 Cookiel,第三比例Y为50%,等于50%,所以判断IP地址162. 105. 38. 248为非集体宿舍 IP地址。
[0131]IP地址162. 105. 38. 249的第一用户集合为C〇〇kie4所代表的用户;从中选出按 照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为空,第三比例Y 为0%,〈50%,所以判断IP地址162. 105. 38. 249为非集体宿舍IP地址。
[0132]IP地址162. 105. 38. 250的第一用户集合为C〇〇kie5所代表的用户;从中选出按 照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为空,第三比例Y 为0%,〈50%,所以判断IP地址162. 105. 38. 250为非集体宿舍IP地址。
[0133]IP地址162. 105. 38. 251的第一用户集合为Cookie5,Cookie6所代表的用户; 从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为 Cookie6所代表的用户,第三比例Y为50%,等于50%,所以判断IP地址162. 105. 38. 251 为非集体宿舍IP地址。
[0134]IP地址162. 105. 38. 252的第一用户集合为C〇〇kie6所代表的用户;从中选出按 照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为C〇〇kie6所代 表的用户,第三比例Y为100%,> 50%,所以判断IP地址162. 105. 38. 252为集体宿舍IP 地址。
[0135]IP地址162. 105. 38. 253的第一用户集合为Cookie7, 8所代表的用户;从中选出 按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为CookieS所 代表的用户,第三比例Y为50%,等于50%,所以判断IP地址162. 105. 38. 253为非集体宿 舍IP地址。
[0136]IP地址162. 105. 38. 254的第一用户集合为Cookie8, 10所代表的用户;从中选出 按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为CookieS所 代表的用户,第三比例Y为50%,等于50%,所以判断IP地址162. 105. 38. 254为非集体宿 舍IP地址。
[0137]IP地址162. 105. 38. 255的第一用户集合为Cookie9, 10所代表的用户;从中选出 按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为空,第三比例 Y为0%,〈50%,所以判断IP地址162. 105. 38. 255为非集体宿舍IP地址。
[0138] 步骤九:取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
[0139] 在本例中,所生成的集体宿舍IP库为:
[0140]IP162. 105. 38. 246
[0141]IP162. 105. 38. 252。
[0142] 实施例二、一种生成集体宿舍IP库的装置,如图2所示,包括:
[0143] 收集模块,用于收集指定IP范围内用户的上网行为数据;所述上网行为数据包括 cookie、IP地址、访问的网站,上网时间;
[0144] 预处理模块,用于在所述上网行为数据中,提取已确认过是否为集体宿舍用户的 cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合; 在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占 的比例,得到第一比例;
[0145] 标注模块,用于对于所述第二数据集合中的各cookie,分别选出与该cookie访问 各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属 于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数 据集合中的cookie标记为备选用户;P为正整数;
[0146] 判断模块,用于对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地 址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用 户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地 址;
[0147] 建库模块,用于取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
[0148] 本实施例的一种实施方式中,所述标注模块对于所述第二数据集合中的各 cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie 具体可以指:
[0149] 所述标注模块根据所述上网行为数据分别统计所述上网行为数据中各cookie 对于所
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1