点击率预估方法、装置、计算设备及存储介质与流程

文档序号:14452710阅读:210来源:国知局

本发明涉及互联网应用技术领域,尤其涉及点击率预估方法及装置。



背景技术:

点击率预估在计算广告学、推荐系统等领域有广泛的应用。对广告点击率进行统计,可以了解不同用户感兴趣的广告,从而向每个用户更精确地推送广告,以提高广告的点击率。准确的广告点击率预估可以提高真实的广告点击率,从而增加广告收益。

根据不同的广告数据特征采用不同的广告点击率预估模型,可以获得较好的预估效果。逻辑回归模型、支持向量机模型、贝叶斯模型、神经网络模型等广告点击率预估模型适用于历史广告点击率数据丰富的情况。层次聚类模型、相似项预估模型、因式分解机等模型适用于无历史广告点击数据和广告点击数据稀疏的模型。

目前的点击率预估方法采用人工特征工程结合逻辑回归算法,首先抽取用户输入关键词和候选广告的相关特征,并将该相关特征输入线性模型中得到对应广告的点击率,但相关特征的抽取需要花费较高的人力和时间成本。并且这种方法主观性太强容易筛选出大量无用特征影响模型评估的准确性,并且逻辑回归算法是广义线性模型,线性模型学习能力有限,模型中各个特征对预测结果的关系都是互相独立,彼此不受影响的,因此无法学习特征之间的非线性关系,进而导致获取的预测结果的准确性较差。此外,线性模型会导致其它问题,例如高维场景下如何选择特征,一般采用人工特征工程,随着过程的深入,这种方式的收益会逐步达到上限。

因此,仍然需要一种新的广告点击率预估方案。



技术实现要素:

本发明要解决的技术问题是提供一种新型的广告点击率预估方法及装置,能够方便地预估广告点击率。

根据本发明的一个方面,提供了一种广告点击率预估方法,可以包括:建立以用户特征和物品特征为节点的特征评价网络;基于特征评价网络建立点击率预估模型;以及基于点击率预估模型预估用户对物品的点击率。

本方案中的点击率预估模型以网络的形式体现了用户特征与物品特征之间的关联关系,能够方便地预估广告点击率。

优选地,其中,建立以用户特征和物品特征为节点的特征评价网络的步骤可以包括:生成用户特征集合和物品特征集合,用户特征集合包括至少一个用户特征ui,物品特征集合包括至少一个物品特征ij,i和j分别为正整数;建立用户特征集合中各个用户特征与物品特征集合中各个物品特征之间的连接。

其中,用户特征集合中的每个用户特征可以看作是一个点击率预估专家,物品特征集合中的每个物品特征可以看作是从某一角度看待该物品。

优选地,生成用户特征集合的步骤可以包括:

基于用户画像数据生成用户特征,其中用户画像数据可以包括用户属性、内容偏好中至少一项;和/或

通过基于用户和/或物品的协同过滤推荐算法生成用户特征;和/或

根据基于关联规则数据挖掘算法计算出的用户特征组合,生成用户特征。

生成物品特征集合的步骤可以包括:

基于物品信息生成物品特征,其中,物品信息可以包括物品、物品分类、物品关键词中至少一项;和/或

通过基于用户和/或物品的协同过滤推荐算法生成物品特征;和/或

根据基于关联规则数据挖掘算法计算出的物品特征组合,生成物品特征;和/或

生成体现点击率信息的物品特征。

优选地,建立用户特征集合中各个用户特征与物品特征集合中各个物品特征之间的连接的步骤可以包括:

将通过相同的协同过滤推荐算法生成的用户特征和对应的物品特征仅彼此连接,而不与其它用户特征或物品特征连接;以及

将其余每一个用户特征与除体现点击率信息的物品特征和通过协同过滤推荐算法生成的对应的物品特征之外的每一个物品特征分别连接。

通过建立用户特征和物品特征的关联关系,可以构建出以用户特征和物品特征为节点的特征评价网络。

优选地,基于特征评价网络建立点击率预估模型的步骤可以包括:确定拥有用户特征ui的用户对拥有物品特征ij的物品的统计点击率uci,j,作为点击率预估模型的参数。

其中,统计点击率可以从群体用户历史行为数据中获取。

优选地,基于特征评价网络建立点击率预估模型的步骤还可以包括:为统计点击率uci,j设置第一权重uwi,j,第一权重uwi,j体现用户特征集合中用户特征ui的重复性和/或重要性;以及/或者

为拥有物品特征ij的物品的特征点击率icj设置第二权重iwj,第二权重iwj体现物品特征集合中物品特征ij的重复性和/或重要性。

优选地,基于点击率预估模型预估用户对物品的点击率的步骤可以包括:

基于用户所拥有的用户特征集合ufu和统计点击率uci,j,计算该用户对拥有物品特征ij的物品的特征点击率icj;以及

基于物品所拥有的物品特征集合ifa和特征点击率icj计算用户对物品的点击率。

优选地,基于点击率预估模型预估用户对物品的点击率的步骤还可以包括:计算使得点击率预估模型的损失函数最小化的第一权重uwi,j和/或所述第二权重iwj。

根据本发明的另一方面,提供了一种点击率预估装置,可以包括:

网络建立模块,用于建立以用户特征和物品特征为节点的特征评价网络;

模型建立模块,用于基于网络建立模块建立的特征评价网络建立点击率预估模型;

预估模块,用于基于模型建立模块建立的点击率预估模型预估用户对物品的点击率。

通过上述装置可以直观的以网络的形式体现用户特征与物品特征之间的关联关系,进而方便统计拥有一用户特征的用户对拥有与该用户特征连接的物品特征的物品的点击率,能够方便地预估广告点击率。

优选地,网络建立模块可以包括:

生成单元,用于生成用户特征集合和物品特征集合,用户特征集合包括至少一个用户特征ui,物品特征集合包括至少一个物品特征ij,i和j分别为正整数;

连接单元,用于建立生成单元生成的用户特征集合中各个用户特征与物品特征集合中各个物品特征之间的连接。

优选地,其中生成单元可以包括:

第一生成单元,用于基于用户画像数据生成用户特征,其中用户画像数据包括用户属性、内容偏好中至少一项;和/或

第二生成单元,用于通过基于用户和/或物品的协同过滤推荐算法生成用户特征;和/或

第三生成单元,用于根据基于关联规则数据挖掘算法计算出的用户特征组合,生成用户特征;和/或

第四生成单元,用于基于物品信息生成物品特征,其中,物品信息包括物品、物品分类、物品关键词中至少一项;和/或

第五生成单元,用于通过基于用户和/或物品的协同过滤推荐算法生成物品特征;和/或

第六生成单元,用于根据基于关联规则数据挖掘算法计算出的物品特征组合,生成物品特征;和/或

第七生成单元,用于生成体现点击率信息的物品特征。

优选地,模型建立模块可以包括:

参数确定单元,用于确定拥有用户特征ui的用户对拥有物品特征ij的物品的统计点击率uci,j,作为点击率预估模型的参数。

优选地,模型建立单元还可以包括:

第一设置单元,用于为统计点击率uci,j设置第一权重uwi,j,第一权重uwi,j体现用户特征集合中用户特征ui的重复性和/或重要性;以及/或者

第二设置单元,用于为拥有物品特征ij的物品的特征点击率icj设置第二权重iwj,第二权重iwj体现物品特征集合中物品特征ij的重复性和/或重要性。

优选地,预估模块可以包括:

第一计算单元,用于基于用户所拥有的用户特征集合ufu和统计点击率uci,j,计算该用户对拥有物品特征ij的物品的特征点击率icj;

第二计算单元,用于基于物品所拥有的物品特征集合ifa和特征点击率icj计算用户对所述物品的点击率。

优选地,预估模块还可以包括:

第三计算单元,用于计算使得点击率预估模型的损失函数最小化的第一权重uwi,j和/或第二权重iwj。

根据本发明的另一个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行广告点击率预估方法。

根据本发明的另一个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被计算设备的处理器执行时,使所述处理器执行广告点击率预估方法。

通过本发明的上述点击率预估方案,通过建立用户特征与物品特征的连接,能够直观方便地预估广告点击率,该点击率预估模型是从专家评价法产生的算法,可解释性强。用户特征集合和物品特征集合中的特征组合是由算法完成的,降低了人工特征工程里人工干预造成的主观性影响,并且特征组合的加入使该算法兼具线性和非线性表达的能力。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。

图1示出了根据本发明一实施例的点击率预估方法的示意性流程图。

图2示出了根据本发明一实施例的点击率预估装置的结构框图。

图3示出了根据本发明一实施例的网络建立模块的结构框图。

图4示出了根据本发明一实施例的生成单元的结构框图。

图5示出了根据本发明一实施例的模型建立模块的结构框图。

图6示出了根据本发明一实施例的预估模块的结构框图。

图7示出了根据本发明一实施例的计算设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

为了使点击率预估方法更简单方便,本发明提供一种新的点击率预估方案,基于用户特征和物品特征建立一种特征评价网络模型,利用该模型进行点击率预估。

下面参考附图和实施例详细描述本发明的技术方案。

图1示出了根据本发明一实施例的点击率预估方法的示意性流程图。

如图1所示,在步骤s100中,建立以用户特征和物品特征为节点的特征评价网络。

可以把用户看成不同用户特征的组合体,同样物品也可以看成多个物品特征的组合体,用户对物品的评价可以根据用户拥有的各个用户特征对与该用户特征连接的物品特征的评价来确定。该特征评价网络可以直观地反映用户特征与物品特征之间的关联关系,能够简单方便地预估广告点击率。

根据本发明一实施例,可以生成用户特征集合和物品特征集合,以建立该特征评价网络。用户特征集合包括至少一个用户特征ui,物品特征集合包括至少一个物品特征ij,i和j分别为正整数。

根据本发明一实施例,其中,用户特征集合可以通过下述方式生成:

基于用户画像数据生成用户特征,其中用户画像数据包括用户属性、内容偏好中至少一项;和/或

通过基于用户和/或物品的协同过滤推荐算法生成用户特征;和/或

根据基于关联规则数据挖掘算法计算出的用户特征组合,生成用户特征。

例如,在第一种生成方式中,可以通过年龄、性别等自然属性刻画用户。可以对连续的量做离散化处理,如性别离散化为“男”、“女”,年龄离散化为“儿童”、“少年”、“青年”、“中年”、“老年”,也可以离散化为年龄段如“0-18”、“19-25”、“26-30”、“31-40”、“41-50”、“51岁以上”。其中,连续特征离散化有利于模型的快速迭代,离散化后的特征对异常数据有很强的鲁棒性,比如一个特征是年龄大于30为1,否则为0,如果特征没有离散化,一个异常数据“年龄300岁”会对模型造成很大的干扰。离散化后的特征有单独的权重,能够提高模型的非线性表达能力。

还可以通过文化水平、职业、地域等社会属性刻画用户。例如,文化水平可以离散化为“小学”、“初中”、“高中”、“大专”、“大学”、“硕士”、“博士”等,职业可以离散化为“教师”、“医生”、“公务员”、“白领”、“老板”等,地域可以离散化为“北京”、“上海”、“广州”等。

可以通过用户的偏好刻画用户,如喜欢军事的用户刻画为“军事迷”,喜欢文艺的用户刻画为“文艺青年”喜欢小说的刻画为“小说迷”,喜欢科技的刻画为“科技爱好者”。

在第二种生成方式中,可以将通过推荐算法计算出的某一指标作为用户特征。例如,可以使用协同过滤算法,根据用户之前的喜好及其他兴趣相近的用户的选择来给用户推荐物品。例如,根据相似用户推荐,根据相似物品推荐,根据关键字推荐,根据以上组合推荐。

在第三种生成方式中,可以将以上生成的用户特征通过apriori算法进行组合,生成新的用户特征,如“青年&广州”、“教师&军事迷”等。其中,特征组合可以为模型加入非线性表达,基本特征仅仅是真实特征分布在低维空间的映射,不足以描述真实分布,加入组合特征是为了在更高维的空间拟合真实分布,使预测更加准确。

本方案使用的apriori算法是一种挖掘关联规则的频繁项集算法。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度,只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,可以使用递归的方法。在本方案中可以设定最小频繁数,再用apriori算法中间凹处所有的用户特征组合和物品特征组合。

通过算法进行特征选择,能够剔除不相关或冗余的特征,从而减少特征个数,提高模型精确度,减少运行时间。

根据本发明一实施例,其中,物品特征集合可以通过下述方式生成:

基于物品信息生成物品特征,其中,物品信息包括物品、物品分类、物品关键词中至少一项;和/或

通过基于用户和/或物品的协同过滤推荐算法生成物品特征;和/或

根据基于关联规则数据挖掘算法计算出的物品特征组合,生成物品特征;和/或

生成体现点击率信息的物品特征。

例如,在第一种生成方式中,可以根据物品分类确定物品特征,如分类属性为“军事类”、“搞笑类”、“游戏类”、“购物类”等。

可以根据物品的关键词确定物品特征,例如,物品是一篇文章,文章中出现的“程序开发”、“矩阵应用”等关键词,棋牌类中“斗地主”、“麻将”等关键词,人物名字、热点新闻等也可以作为一个物品特征。

物品本身也可以作为一个特征。这样的特征可以成为私有物品特征,即不会有其他物品有相同的该特征。

在第二种生成方式中,可以将通过推荐算法计算出的某一指标作为物品特征。例如,根据相似用户喜好的物品推荐,根据相似物品推荐,根据关键字推荐,根据以上组合推荐。

在第三种生成方式中,可以将以上生成的物品特征通过apriori算法进行组合,生成新的物品特征,例如可以生成“军事类&乾隆”。

在生成用户特征集合与物品特征集合之后,就可以建立用户特征集合中各个用户特征与物品特征集合中各个物品特征之间的连接。

在此,可以将通过相同的协同过滤推荐算法生成的用户特征和对应的物品特征仅彼此连接,而不与其它用户特征或物品特征连接。

其中,使用相同的基于用户和/或物品的协同过滤算法推荐的用户特征有一个对应的物品特征,并且该对应的物品特征不与其他用户特征连接,例如,通过基于物品的协同过滤计算出来的指标可以定义为“itemcf”,同时物品特征里必须要有与itemcf对应的物品指标,如“itemcf_rank:1-10”表示通过基于物品的协同过滤算法计算出的用户与物品的相似性排名在前10以内,并且“itemcf_rank:1-10”不与其他用户特征连接。

然后可以将其余每一个用户特征与除体现点击率信息的物品特征和通过协同过滤推荐算法生成的对应的物品特征之外的每一个物品特征分别连接。

其中,体现点击率信息的物品特征可以是已经加工好的物品特征,如“高点击率物品”这类特征与用户特征不连接即可给出物品点击率预估值。除去上述两种物品特征,其余每一个用户特征与每一个物品特征分别连接。

接下来,在步骤s200中,基于特征评价网络建立点击率预估模型。

在一个实施例中,可以确定拥有用户特征ui的用户对拥有物品特征ij的物品的统计点击率uci,j,以作为点击率预估模型的参数。

该模型从专家评价法得到启发,每个用户特征都可以看作是一个专家,每个物品特征可以看作是从该物品特征的角度评价物品点击率。每个用户特征可以从某个物品特征的角度给出点击率。其中,统计点击率uci,j可以基于群体用户历史行为数据中,拥有用户特征i的用户中点击过拥有物品特征j的物品的次数和被展示过拥有物品特征j的物品的次数来获取。

根据本发明一实施例,还可以进一步为统计点击率uci,j设置第一权重uwi,j,第一权重uwi,j体现用户特征集合中用户特征ui的重复性和/或重要性。

同样地,还可以进一步为拥有物品特征ij的物品的特征点击率icj设置第二权重iwj,第二权重iwj体现物品特征集合中物品特征ij的重复性和/或重要性。

在上述点击率预估模型中,每个用户特征可以看作是一个点击率预估专家,每个物品特征可以认为是从某一个角度看该物品,每个专家(用户特征)从某一个角度(物品特征)对物品做出评价,一个是点击率预估值用uci,j表示,取值范围为0-1的小数,一个是该点击率预估值的权重用uwi,j表示,取值范围大于0,用户特征重复性越高,重要程度越小uwi,j值越小,例如,如果所有用户特征中,只有一个用户特征表示性别“男”,假设权重为0.5,如果由于某种原因把用户特征“男性”也加入用户特征集合中,用户特征集合中就有两个不同特征描述一个完全相同的用户属性,此时系统会减小用户特征“男”的权重值,例如减小为0.25。

如图1所示,在步骤s300中,基于点击率预估模型预估用户对物品的点击率。

其中,物品可以是推荐下载的应用、销售的商品、网站页面上的某一内容等,也可以是服务等虚拟物品。进一步地,物品可以是通过一定媒介和形式直接或者间接地介绍所推销的商品或者所提供的服务的商业广告。每个物品可以拥有多个物品特征。

根据本发明一实施例,可以基于用户所拥有的用户特征集合ufu和上述统计点击率uci,j,计算该用户对拥有物品特征ij的物品的特征点击率icj。

基于物品所拥有的物品特征集合ifa和特征点击率icj,可以计算用户对物品的点击率。

应当理解,这里提到的“用户对物品的点击率”可以是指与相应物品相关的广告的统计点击率。

对上述点击率预估模型参数求解,可以首先获取用户展现点击日志,求解用户特征对物品特征的统计点击率uci,j,clicknumsi,j表示拥有用户特征i的用户中,点击过拥有物品特征j的物品的次数,showmumsi,j表示拥有用户特征i的用户中,被展示过拥有物品特征j的物品的次数,则uci,j=clicknumsi,j/shownumsi,j。

一般地,上述公式中必须满足shownumsi,j>100/avgctr(其中avgctr是所有物品的平均点击率)时,uci,j才有值,否则断开用户特征i与物品特征j的连接,例如avgctr=0.01,则展示次数必须大于一万次,用户特征和物品特征才能连接,这样做的目的是为了保证有足够的统计数据,避免随机误差带来的影响。

可选地,可以计算使得点击率预估模型的损失函数最小化的第一权重uwi,j和/或第二权重iwj。

例如,可以通过构造损失函数求解使得点击率预估模型的损失函数最小化的第一权重uwi,j和/或第二权重iwj。u表示所有用户的集合,su表示给用户曝光过物品的集合,isclicku,a表示用户u是否点击过物品a,0表示没有,1表示有,则损失函数定义为:

由专家评价法启示,icj的计算公式可以表示为:

pctru,a可以表示用户对物品的点击率预估值,其计算公式可以是:

将pctru,a和icj的计算公式带入上述损失函数中,通过梯度下降法确定损失函数最小时uw和iw的值。

梯度下降法是一种最优化算法,用来递归性地逼近最小偏差模型,其中通过梯度下降法求解最小损失函数的参数值的步骤可以包括:

1、随机给定一组在0-1之间的小数组成的向量uw和iw,设为uw(0),iw(0),初始化迭代步数k=0。

2、迭代计算

其中θ为迭代的步长,例如,可以取为0.01。

3、判断是否收敛

计算先后两次迭代结果的变化量δl。

δl(uw(k+1),iw(k+1))=|l(uw(k+1),iw(k+1)-l(uw(k),iw(k))|

如果|l(uw(k+1),iw(k+1)-l(uw(k),iw(k))|<α,或者k大于等于最大步数(例如10000),则返回的uw(k+1),iw(k+1)即为模型的参数值,否则回到第二步继续迭代计算,其中,α是一个很小的值,可以取α=0.01θ。

上述的点击率预估模型的损失函数是平方函数,但这不是固定的,还可以包括0-1损失、log损失、hinge损失、指数损失和感知损失。对于回归问题常用的是平方损失和绝对值损失,对于分类问题常用的是hinge损失和log损失。回归问题的前提是有收集的数据和假设的模型,假设的模型即一个函数,这个损失函数中含有未知的参数,通过学习可以估计出参数,然后利用这个模型去预测或分类新的数据。

图2示出了根据本发明一实施例的点击率预估装置200的结构框图。

如图2所示,该装置200可以包括网络建立模块201、模型建立模块202和预估模块203。

网络建立模块201可以建立以用户特征和物品特征为节点的特征评价网络。

模型建立模块202可以基于网络建立模块201建立的特征评价网络建立点击率预估模型。

预估模块203可以基于模型建立模块202建立的点击率预估模型预估用户对物品的点击率。

通过上述装置,可以以网络的形式体现用户特征与物品特征之间的关联关系,从而能够方便地预估广告点击率。

图3示出了根据本发明一实施例的网络建立模块201的结构框图。

如图3所示,网络建立模块201可以包括:生成单元300和连接单元301。

生成单元300可以生成用户特征集合和物品特征集合,其中用户特征集合包括至少一个用户特征ui,物品特征集合包括至少一个物品特征ij,i和j分别为正整数。

连接单元301可以建立生成单元300生成的用户特征集合中各个用户特征与物品特征集合中各个物品特征之间的连接。

用户特征集合可以包含多个用户特征,可以根据对用户不同角度的刻画来获取。同样物品特征集合也可以包含多个物品特征,通过物品不同角度来划分。

如图4所示,生成单元300可以包括:第一生成单元400、第二生成单元401、第三生成单元402、第四生成单元403、第五生成单元404、第六生成单元405和第七生成单元406。

第一生成单元400可以基于用户画像数据生成用户特征,其中用户画像数据包括用户属性、内容偏好中至少一项。

其中,把不同方法、维度刻画用户汇总起来就形成用户画像,将其作为刻画用户的数学模型。

例如,可以通过用户年龄、性别等自然属性刻画用户特征,对于连续的量可以做离散化处理,便于进行特征组合,如年龄离散化为“儿童”、“少年”、“青年”、“中年”、“老年”,或者离散化为年龄段“1-18”、“19-25”、“26-30”、“31-40”、“41-50”、“51岁以上”。

又例如,可以通过文化水平、职业、地域等社会属性刻画,如文化水平分为“初中”、“高中”、“大学”、“研究生”等,职业分为“教师”、“医生”、“公务员”、“科研工作者”等,地域分为“北京”、“上海”、“广州”、“成都”等。可以通过用户对内容的偏好刻画,如喜欢军事的刻画为“军事迷”、喜欢游戏的刻画为“游戏迷”等。

第二生成单元401可以通过基于用户和/或物品的协同过滤推荐算法生成用户特征。

这里,作为示例,描述一种第二生成单元401可以用来通过协同过滤算法推荐用户特征的方法。

首先,分析多个用户的行为,收集用户偏好。

然后,计算用户之间的相似度,可以有多种方法,比如常用的余弦夹角,欧几里德距离度量,皮尔逊相关系数等,在计算用户之间的相似度时,将一个用户对所有物品的偏好作为一个向量,而在计算物品之间的相似度时,将所有用户对某个物品的偏好作为一个向量,找到相似的用户或者物品。

可以根据用户的相似度权重以及它们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表进行推荐。

或者从物品角度进行推荐,比如喜欢物品a的用户都喜欢物品c,可以知道物品a与物品c的相似度很高,而用户c喜欢物品a,那么可以推断出用户c也可能喜欢物品c。

第三生成单元402可以根据基于关联规则数据挖掘算法计算出的用户特征组合,生成用户特征。

例如,可以通过apriori算法找出所有的组合特征,首先依据支持度找出所有频繁项集(频度),然后依据置信度产生关联规则(强度),通过设定最小频繁数生成用户特征组合,作为新的用户特征。例如生成“青年&广州”、“大学&游戏迷”等用户特征组合。

第四生成单元403可以基于物品信息生成物品特征,其中,物品信息包括物品、物品分类、物品关键词中至少一项。

例如,可以根据物品分类属性分为“军事类”、“搞笑类”、“娱乐类”、“游戏类”等。可以根据物品的关键词生成物品特征,如物品是一篇文章,文章中的关键词“历史事件”、“程序开发”等也可以作为一个特征,棋牌类关键词“斗地主”、“麻将”等,人物名字关键词“乾隆”、“慈禧”等。

物品本身也可以作为一个特征,这样的特征可以成为私有物品特征,即不会有其他的物品有该相同的特征,在训练模型参数时,可以先把私有物品特征抛开,训练共有物品特征的参数,然后把训练出的共有物品特征参数带入模型训练出私有物品特征参数。

第五生成单元404可以通过基于用户和/或物品的协同过滤推荐算法生成物品特征。

例如,可以使用与生成用户特征相同的协同过滤推荐算法生成物品特征。此时,物品特征里有一个对应的用户特征与之连接,并且该对应的物品特征不与其他用户特征连接。例如,通过基于物品的协同过滤计算出来的指标可以定义为“itemcf”,同时物品特征里必须要有与itemcf对应的物品指标,如“itemcf_rank:1-10”表示通过基于物品的协同过滤算法计算出的用户与物品的相似性排名在前10以内,并且“itemcf_rank:1-10”不与其他用户特征连接。

第六生成单元405可以根据基于关联规则数据挖掘算法计算出的物品特征组合,生成物品特征。

与生成用户特征组合的方法相同,可以通过apriori算法找出所有的组合特征,首先依据支持度找出所有频繁项集(频度),然后依据置信度产生关联规则(强度),通过设定最小频繁数生成用户特征组合,作为新的用户特征。例如生成“军事类&乾隆”、“搞笑类&小说”等物品特征组合。

第七生成单元406可以生成体现点击率信息的物品特征。

例如,“高点击率物品”等不需要与用户特征连接即可给出物品点击率预估值的物品特征。

通过不同方法、维度刻画用户,以及不同类别、角度刻画物品,可以获得有效的用户特征和物品特征,用户特征组合和物品特征组合的加入也增加了模型的非线性表达能力。

图5示出了根据本发明一实施例的模型建立模块202的结构框图。

如图5所示,该模型建立模块202可以包括:参数确定单元500。

参数确定单元500可以确定拥有用户特征ui的用户对拥有物品特征ij的物品的统计点击率uci,j,作为点击率预估模型的参数。其中,统计点击率uci,j可以基于群体用户的历史行为数据进行统计分析。

可选地,该模型建立模块202还可以包括第一设置单元501和第二设置单元502。

第一设置单元501可以为统计点击率uci,j设置第一权重uwi,j,第一权重uwi,j体现用户特征集合中用户特征ui的重复性和/或重要性。

第二设置单元502用于为拥有物品特征ij的物品的特征点击率icj设置第二权重iwj,第二权重iwj体现物品特征集合中物品特征ij的重复性和/或重要性。

在上述的点击率预估模型中,每个用户特征可以看作是一个点击率预估专家,每个物品特征可以认为是从某一个角度看该物品,每个专家(用户特征)从某一个角度(物品特征)对物品做出评价,一个是点击率预估值用uci,j表示,取值范围为0-1的小数,一个是该点击率预估值的权重用uwi,j表示,取值范围大于0,用户特征重复性越高,重要程度越小uwi,j值越小,例如,如果所有用户特征中,只有一个用户特征表示性别“男”,假设权重为0.5,如果由于某种原因把用户特征“男性”也加入用户特征集合中,用户特征集合中就有两个不同特征描述一个完全相同的用户属性,此时系统会减小用户特征“男”的权重值,例如减小为0.25。

图6示出了根据本发明一实施例的预估模块203的结构框图。

如图6所示,该预估模块203可以包括:第一计算单元600、第二计算单元601。

第一计算单元600可以基于用户所拥有的用户特征集合ufu和统计点击率uci,j,计算该用户对拥有物品特征ij的物品的特征点击率icj。

第二计算单元601可以基于物品所拥有的物品特征集合ifa特征点击率icj计算用户对物品的点击率。

应当理解,这里提到的“用户对物品的点击率”可以是指与相应物品相关的广告的统计点击率。

上述的点击率预估模型参数计算由专家评价法启发,即首先根据评价对象的具体情况选定评价指标,对每个指标定出评价等级,然后基于此基准,对评价对象进行分析和评价,从而得到评价结果。

特征点击率icj的计算可以表示为:

用户对物品的点击率预估值可以表示为pctru,a,计算公式可以表示为:

可选地,该预估装置203还可以包括:第三计算单元602。

第三计算单元602可以计算使得点击率预估模型的损失函数最小化的第一权重uwi,j和/或第二权重iwj。

这种情况下,可以通过构造损失函数求解模型参数最优解,u表示所有用户的集合,su表示给用户曝光过物品的集合,isclicku,a表示用户u是否点击过物品a,0表示没有,1表示有,则损失函数定义为:

由专家评价法启示,icj的计算公式可以表示为:

pctrua可以表示用户对物品的点击率预估值,其计算公式可以是:

将pctru,a和icj的计算公式带入上述损失函数中,通过梯度下降法确定损失函数最小时uw和iw的值。

梯度下降法是一种最优化算法,用来递归性地逼近最小偏差模型,其中通过梯度下降法求解最小损失函数的参数值的步骤可以包括:

1、随机给定一组在0-1之间的小数组成的向量uw和iw,设为uw(0),iw(0),初始化迭代步数k=0。

2、迭代计算

其中θ为迭代的步长,取0.01。

3、判断是否收敛

计算先后两次迭代结果的变化量δl。

δl(uw(k+1),iw(k+1))=|l(uw(k+1),iw(k+1)-l(uw(k),iw(k))|

如果|l(uw(k+1),iw(k+1)-l(uw(k),iw(k))|<α,或者k大于等于最大步数(例如10000),则返回的uw(k+1),iw(k+1)即为模型的参数值,否则回到第二步继续迭代计算,其中,α是一个很小的值,可以取α=0.01θ。

上述的点击率预估模型的损失函数是平方函数,但这不是固定的,还可以包括0-1损失、log损失、hinge损失、指数损失和感知损失。对于回归问题常用的是平方损失和绝对值损失,对于分类问题常用的是hinge损失和log损失。回归问题的前提是有收集的数据和假设的模型,假设的模型即一个函数,这个损失函数中含有未知的参数,通过学习可以估计出参数,然后利用这个模型去预测或分类新的数据。

本发明还提供了一种计算设备700,如图7所示,包括处理器701,以及存储器702,其上存储有可执行代码,当可执行代码被执行时,使处理器701执行上述的点击率预估方法。

处理器701可以生成用户特征集合和物品特征集合,然后以各特征为节点建立特征评价网络,能够直接地体现用户特征与物品特征之间的关联关系,从而方便地预估广告点击率。

此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。

上文中已经参考附图详细描述了根据本发明的点击率预估方案。

通过上述方案建立的新的点击率预估模型可以以网络的形式体现用户特征与物品特征之间的关联关系,从而能够方便地预估广告点击率。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1