网络用户的人口属性预测方法和装置制造方法

文档序号:6629077阅读:153来源:国知局
网络用户的人口属性预测方法和装置制造方法
【专利摘要】本发明公开了一种网络用户的人口属性预测方法和装置,其中,所述方法包括:确定网络用户在设定时间段内所访问的若干网页;确定每个网页的人口属性为特定属性值的概率,并确定每个网页所属频道的人口属性为特定属性值的概率;根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为特定属性值的概率,预测网络用户的人口属性为特定属性值的概率。由于频道通常包含多个网页,频道的访问量相对较多,因此本发明在进行网络用户的人口属性预测时将网络用户所访问过的网页所属频道的人口属性考虑在内,增加了网络用户的人口属性预测的稳定性,相应提高了网络用户的人口属性预测的准确度。
【专利说明】网络用户的人口属性预测方法和装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】,尤其涉及一种网络用户的人口属性预测方法和装 置。

【背景技术】
[0002] 在计算广告学领域,定向广告就是将特定的网络广告发送给特定的人群。发布定 向广告首先要制定定向条件,即确定将定向广告"发送给谁"。然后由广告发布系统根据定 向条件确定目标人群并将广告发布出去。比如,针对年轻的学生推广一种快速消费品。定 向广告一方面可以令广告主对目标人群进行重点宣传,避免了市场费用浪费在非目标人群 上;另一方面也可以在一次广告活动中,对不同的人群采取不同的市场策略,以达到更好地 广告效果。
[0003] 其中,广告发布系统根据定向条件确定目标人群主要是根据网络用户的人口属性 的统计特征来选取出符合定向条件的网络用户,将选取的这些网络用户作为目标人群进行 广告投放。因此,在计算广告领域中网络用户的人口属性预测方面的研究是一项重要的研 究内容。通常,网络用户的人口属性有多种,如性别、年龄、兴趣等。若在一个网页的广告位 上,定向投放广告A到若干个性别为女性的网络用户,这些性别为女性的网络用户访问该 网页时,该网页的广告位上便展示广告A。
[0004] 目前的研究表明,网络用户的人口属性与其在网络上的浏览行为有很大的关系。 针对网络用户的人口属性预测,现在比较通用的方法是根据待预测的网络用户的cookie, 记录网络用户在网络上的行为信息,主要包括网络用户的cookie访问了哪些页面等,根据 该网络用户访问的页面的人口属性,预测该网络用户的人口属性。具体地,现有的根据网 络用户访问的页面的人口属性预测网络用户的人口属性的方法主要包括:对于待预测的网 络用户所访问过的每个网页,根据访问该网页的人口属性已知的若干个网络用户的人口属 性,确定该网页的人口属性;根据待预测的网络用户所访问的网页的人口属性,确定该网络 用户的人口属性。然而,对于一些网页,这些网页的访问量可能较少(或称为数据缺失),导 致访问这些网页的属性已知的网络用户也较少,进而会造成确定这些网页的人口属性的准 确度不高,因而仅根据网络用户所访问过的网页的人口属性来确定网络用户的人口属性的 方式准确度不高。
[0005] 因此,有必要提供一种能够更为准确地对网络用户的人口属性进行预测的方法。


【发明内容】

[0006] 针对上述现有技术存在的缺陷,本发明实施例提供了一种网络用户的人口属性预 测方法和装置,用以提高网络用户的人口属性预测的准确度。
[0007] 本发明实施例提供了一种网络用户的人口属性预测方法,包括:
[0008] 确定网络用户在设定时间段内所访问的若干网页;
[0009] 对于确定出的每个网页,确定每个网页的人口属性为特定属性值的概率,并确定 每个网页所属频道的人口属性为所述特定属性值的概率;
[0010] 根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属 性为所述特定属性值的概率,预测所述网络用户的人口属性为所述特定属性值的概率。
[0011] 较佳地,所述确定每个网页的人口属性为特定属性值的概率,具体包括:
[0012] 对于确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征 向量计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设 定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该 网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定 属性值的概率;
[0013] 所述确定每个网页所属频道的人口属性为所述特定属性值的概率,具体包括:
[0014] 对于确定出的每个网页,根据访问该网页所属频道的人口属性已知的网络用户的 数量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该 网页所属频道的人口属性为所述特定属性值的概率。
[0015] 较佳地,所述确定每个网页的人口属性为特定属性值的概率还包括:
[0016] 对于确定出的每个网页,所述得到该网页的人口属性为特定属性值的概率之后, 统计所述设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属 性为所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定 属性值的概率进行纠正处理;
[0017] 所述确定每个网页所属频道的人口属性为所述特定属性值的概率,还包括:
[0018] 对于确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概 率之后,统计所述设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用 户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页所 属频道的人口属性为所述特定属性值的概率进行纠正处理。
[0019] 较佳地,所述预测所述网络用户的人口属性为所述特定属性值的概率之后,还包 括:
[0020] 根据预测出的所述网络用户的人口属性为所述特定属性值的概率进行定向广告 投放。
[0021] 较佳地,所述根据该网页的特征向量计算该网页的人口属性为所述特定属性值的 概率,具体包括:
[0022] 对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语 集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的 该网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的 概率。
[0023] 本发明实施例还提供了一种网络用户的人口属性预测装置,包括:
[0024] 网页确定模块,用于确定网络用户在设定时间段内所访问的若干网页;
[0025] 网页属性确定模块,用于确定所述网页确定模块确定出的每个网页的人口属性为 特定属性值的概率;
[0026] 频道属性确定模块,用于确定所述网页确定模块确定出的每个网页所属频道的人 口属性为所述特定属性值的概率;
[0027] 人口属性预测模块,用于根据每个网页的人口属性为特定属性值的概率、以及每 个网页所属频道的人口属性为所述特定属性值的概率,预测所述网络用户的人口属性为所 述特定属性值的概率。
[0028] 较佳地,所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网 页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为 所述特定属性值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间 段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属 性值的网络用户的数量,计算该网页的人口属性为所述特定属性值的概率;
[0029] 所述频道属性确定模块具体用于对于所述网页确定模块确定出的每个网页,根据 访问该网页所属频道的属性已知的网络用户的数量、以及访问该网页所属频道的人口属性 为所述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值 的概率。
[0030] 较佳地,所述网页属性确定模块还用于对于所述网页确定模块确定出的每个网 页,得到该网页的人口属性为特定属性值的概率之后,统计所述设定时间段内访问该网页 所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所 占的比例,使用该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理;
[0031] 所述频道属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该 网页所属频道的人口属性为所述特定属性值的概率之后,统计所述设定时间段内访问该网 页所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的 网络用户所占的比例,使用该比例对该频道的人口属性为所述特定属性值的概率进行纠正 处理。
[0032] 较佳地,还包括:
[0033] 定向广告投放模块,用于根据预测出的所述网络用户的人口属性为所述特定属性 值的概率进行定向广告投放。
[0034] 较佳地,所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网 页,若判定该网页的访问量小于设定阈值,则对该网页的文档内容进行分词,分别统计分词 后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得 到该网页的特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网 页的人口属性为所述特定属性值的概率。
[0035] 本发明的技术方案中,在预测网络用户的人口属性时,基于网络用户访问过的网 页的人口属性、以及网络用户访问过的网页所属频道的人口属性,对网络用户的人口属性 进行预测。由于频道通常包含多个网页,频道的访问量相对较多,将频道的人口属性考虑在 内可以增加网络用户的人口属性预测的稳定性,继而提高了网络用户的人口属性预测的准 确度。

【专利附图】

【附图说明】
[0036] 图1为本发明实施例的网络用户的人口属性预测方法的流程图;
[0037] 图2为本发明实施例的网络用户的人口属性预测装置的内部结构框图。

【具体实施方式】
[0038] 为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实 施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为 了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以 实现本发明的这些方面。
[0039] 本申请使用的"模块"、"系统"等术语旨在包括与计算机相关的实体,例如但不限 于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理 器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计 算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的 一个进程和/或线程内。
[0040] 本发明的技术方案中,在预测网络用户的人口属性时,加入对待预测的网络用户 所访问过的网页所属频道的人口属性的考虑;从而,基于网络用户访问过的网页的人口属 性、以及网络用户访问过的网页所属频道的人口属性,对网络用户的人口属性进行预测。其 中,频道指的是诸如新浪网的体育、财经、等频道。由于频道通常包含多个网页,频道的访 问量相对较多,将频道的属性考虑在内可以增加网络用户的人口属性预测的准确度的稳定 性,继而提高了网络用户的人口属性预测的准确度。
[0041] 下面结合附图详细说明本发明的技术方案。
[0042] 上述的网络用户的人口属性是常用的一种定向标签,网络用户的人口属性指的是 网络用户自身所具备的相关属性,包括年龄、性别、学历、婚姻、收入水平等。在实际应用中, 往往通过网络用户的网络行为分析网络用户的人口属性。
[0043] 网络用户的人口属性具体可以有多个属性值,例如男性、女性,少年、青年、中年、 老年等属性值。本发明在进行网络用户的人口属性预测时,可先确定出网络用户在设定时 间段内所访问的若干网页;之后,根据确定出的每个网页的人口属性为特定属性值的概率、 以及每个网页所属频道的人口属性为特定属性值的概率,预测出该网络用户的人口属性 为特定属性值的概率。例如,当特定属性值为男性时,对于网络用户userl,确定网络用户 userl在一个月内所访问的网页,根据网络用户userl在这一个月内所访问的每个网页的 人口属性为男性的概率、以及网络用户userl在这一个月内所访问的每个网页所属频道的 人口属性为男性的概率,预测出网络用户userl的人口属性为男性的概率。
[0044] 具体地,本发明实施例提供的网络用户的人口属性预测的方法的流程图,如图1 所示,包括如下步骤:
[0045] SlOl :确定网络用户在设定时间段内所访问的若干网页。
[0046] 网络用户通过客户端浏览器访问服务器时,服务器使用cookie标识该网络用 户,从而将该网络用户的浏览行为记录到cookie访问日志中。根据待预测的网络用户的 cookie访问日志,可以确定出该网络用户在设定时间段内访问过的网页。
[0047] S102 :对于确定出的每个网页,确定每个网页的人口属性为特定属性值的概率,并 确定每个网页所属频道的人口属性为特定属性值的概率。
[0048] 具体地,若人口属性的属性值的个数为n,记特定属性值为人口属性的第i个属性 值Ci,i为1至n的自然数,则对于确定出的每个网页,若该网页的访问量小于设定阈值,则 根据该网页的特征向量计算该网页的人口属性为C i的概率;若该网页的访问量大于等于 设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问 该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为Ci的概 率。
[0049] 对于确定出的访问量小于设定阈值的每个网页,可基于支持向量机分类模型,根 据该网页的特征向量计算该网页的人口属性为Ci的概率,具体可以为:对于确定出的访问 量小于设定阈值的每个网页,对该网页的文档内容进行分词,统计分词后的词语落入预先 得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向 量[ ri,r2,. . .,rk];根据得到的该网页的特征向量,采用预先训练的支持向量机分类模型得 到该网页的人口属性为C i的概率。

【权利要求】
1. 一种网络用户的人口属性预测方法,其特征在于,包括: 确定网络用户在设定时间段内所访问的若干网页; 对于确定出的每个网页,确定每个网页的人口属性为特定属性值的概率,并确定每个 网页所属频道的人口属性为所述特定属性值的概率; 根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为 所述特定属性值的概率,预测所述网络用户的人口属性为所述特定属性值的概率。
2. 如权利要求1所述的方法,其特征在于,所述确定每个网页的人口属性为特定属性 值的概率,具体包括: 对于确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量 计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设定阈 值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页 的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定属性 值的概率; 所述确定每个网页所属频道的人口属性为所述特定属性值的概率,具体包括: 对于确定出的每个网页,根据访问该网页所属频道的人口属性已知的网络用户的数 量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该网 页所属频道的人口属性为所述特定属性值的概率。
3. 如权利要求2所述的方法,其特征在于,所述确定每个网页的人口属性为特定属性 值的概率还包括: 对于确定出的每个网页,所述得到该网页的人口属性为特定属性值的概率之后,统计 所述设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属性为 所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定属性 值的概率进行纠正处理; 所述确定每个网页所属频道的人口属性为所述特定属性值的概率,还包括: 对于确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概率之 后,统计所述设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计 算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页所属频道 的人口属性为所述特定属性值的概率进行纠正处理。
4. 如权利要求1-3任一所述的方法,其特征在于,所述预测所述网络用户的人口属性 为所述特定属性值的概率之后,还包括: 根据预测出的所述网络用户的人口属性为所述特定属性值的概率进行定向广告投放。
5. 如权利要求4所述的方法,其特征在于,所述根据该网页的特征向量计算该网页的 人口属性为所述特定属性值的概率,具体包括: 对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语集 合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的该 网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的概 率。
6. -种网络用户的人口属性预测装置,其特征在于,包括: 网页确定模块,用于确定网络用户在设定时间段内所访问的若干网页; 网页属性确定模块,用于确定所述网页确定模块确定出的每个网页的人口属性为特定 属性值的概率; 频道属性确定模块,用于确定所述网页确定模块确定出的每个网页所属频道的人口属 性为所述特定属性值的概率; 人口属性预测模块,用于根据每个网页的人口属性为特定属性值的概率、以及每个网 页所属频道的人口属性为所述特定属性值的概率,预测所述网络用户的人口属性为所述特 定属性值的概率。
7. 如权利要求6所述的装置,其特征在于, 所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网页,若该网页 的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为所述特定属性 值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间段内访问该网 页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用 户的数量,计算该网页的人口属性为所述特定属性值的概率; 所述频道属性确定模块具体用于对于所述网页确定模块确定出的每个网页,根据访问 该网页所属频道的属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为所 述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值的概 率。
8. 如权利要求7所述的装置,其特征在于, 所述网页属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该网页 的人口属性为特定属性值的概率之后,统计所述设定时间段内访问该网页所在网站的人口 属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用 该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理; 所述频道属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该网 页所属频道的人口属性为所述特定属性值的概率之后,统计所述设定时间段内访问该网页 所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网 络用户所占的比例,使用该比例对该频道的人口属性为所述特定属性值的概率进行纠正处 理。
9. 如权利要求6-8任一所述的装置,其特征在于,还包括: 定向广告投放模块,用于根据预测出的所述网络用户的人口属性为所述特定属性值的 概率进行定向广告投放。
10. 如权利要求9所述的装置,其特征在于, 所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网页,若判定该 网页的访问量小于设定阈值,则对该网页的文档内容进行分词,分别统计分词后的词语落 入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的 特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网页的人口属 性为所述特定属性值的概率。
【文档编号】G06F17/30GK104317822SQ201410515420
【公开日】2015年1月28日 申请日期:2014年9月29日 优先权日:2014年9月29日
【发明者】王永杰, 高翔, 齐翔 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1