推荐广告的方法及广告推荐服务器的制造方法

文档序号:6549832阅读:135来源:国知局
推荐广告的方法及广告推荐服务器的制造方法
【专利摘要】本发明实施例提供推荐广告的方法及广告推荐服务器。该方法包括:获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告;根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页时x个广告的点击概率;确定x个广告分别对应的新颖性因子;根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告。本发明实施例能够提高广告的点击率并提升用户体验。
【专利说明】推荐广告的方法及广告推荐服务器

【技术领域】
[0001] 本发明涉及信息处理领域,并且具体地,涉及推荐广告的方法及广告推荐服务器。

【背景技术】
[0002] 互联网在线广告已成为除电视和报纸之外的主要广告投放方式。在线广告的收益 与广告的点击率密切相关,增加广告点击率是提高广告收益的有效途径之一。为了提高广 告点击率,推荐广告之前需要预测用户点击广告的概率(以下称为广告的点击概率)。
[0003] 目前,主要通过两种算法预测广告的点击概率来向用户推荐广告。一种是基于内 容过滤(Content-based Filtering, CBF)的推荐算法,另一种是基于用户或项目的协同过 滤(Collaborative Filtering,CF)的推荐算法。
[0004] 具体而言,对于基于CBF的算法,主要是利用信息检索或信息过滤技术,根据广告 和网页内容的相关性向目标用户推荐广告。即,与网页内容相关性越高的广告,认为其点击 概率越高。因此,在相同的网页上往往会向用户推荐相同的广告。然而,这种算法未考虑用 户的兴趣,导致广告的点击概率预测的准确性并不高,因此难以保证广告的点击率。
[0005] 对于基于用户的CF算法,主要根据用户的历史广告点击信息计算用户之间的相 似性,然后根据与目标用户相似性较高的用户对广告的点击情况,预测目标用户对广告的 喜好程度,然后根据喜好程度对目标用户进行推荐。对于基于项目的CF算法,主要通过计 算广告之间的相似性,选择目标广告的最接近的广告集合,根据当前用户对最接近的广告 的喜好程度来决定是否推荐目标广告。这两种CF算法均是利用用户的喜好程度预测广告 的点击概率。可见,相比基于CBF的算法而言,虽然CF算法在一定程度上提高了广告的点击 概率预测的准确性,能够提高广告的点击率,但是由于用户经常访问内容相似的网页,采用 CF算法推荐给用户的广告往往和此用户熟悉的广告很相似,无法发现用户并不熟悉但潜在 感兴趣的广告,导致广告的点击率不高,用户体验差。


【发明内容】

[0006] 本发明实施例提供推荐广告的方法及广告推荐服务器,能够提高广告的点击率, 进而提升用户体验。
[0007] 第一方面,提供了一种推荐广告的方法,包括:从用户访问互联网日志中获取网页 访问信息和广告点击信息,所述网页访问信息用于指示m个用户所访问的η个网页,所述广 告点击信息用于指示m个用户在η个网页上点击的X个广告,n、m和X均为大于1的正整 数;根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网 页时所述X个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至η的正整 数;确定所述X个广告分别对应的新颖性因子,所述X个广告中每个广告对应的新颖性因子 用于表示所述第i用户对所述每个广告的知晓程度;根据所述X个广告的点击概率和所述 X个广告分别对应的新颖性因子,在所述X个广告中确定待向所述第i用户推荐的P个广 告,其中,所述第i用户对所述P个广告的知晓程度低于所述第i用户对所述X个广告中除 所述P个广告之外的广告的知晓程度,所述P个广告的点击概率高于所述X个广告中除所 述P个广告之外的广告的点击概率,P为正整数且P彡X。
[0008] 结合第一方面,在第一种可能的实现方式中,所述确定所述X个广告分别对应的 新颖性因子,包括:根据历史推荐信息,确定所述X个广告分别对应的新颖性因子,所述历 史推荐信息用于指示向所述第i用户分别推荐所述X个广告的历史记录。
[0009] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据 历史推荐信息,确定所述X个广告分别对应的新颖性因子,包括:对于所述X个广告中的第 k广告,如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第 k广告对应的新颖性因子为第一值;如果所述历史推荐信息指示过去向所述第i用户推荐 过所述第k广告,则确定所述第k广告对应的新颖性因子为第二值;其中,所述第一值大于 所述第二值,k为取值从1至X的正整数。
[0010] 结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定 所述第k广告对应的新颖性因子为第二值,包括:确定q天前向所述第i用户推荐过所述第 k广告,q为正整数;确定所述q天对应的艾宾浩斯遗忘曲线值;确定所述第k广告对应的 新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
[0011] 结合第一方面,在第四种可能的实现方式中,所述确定所述X个广告分别对应的 新颖性因子,包括:对于所述X个广告中的第k广告,确定所述第k广告分别与所述X个广 告中除所述第k广告之外的其它广告之间的相似度;根据所述第k广告分别与所述X个广 告中除所述第k广告之外的其它广告之间的相似度,确定在所述X个广告中所述第k广告 对应的相似性排名和所述第k广告对应的不相似性排名;对所述第k广告对应的相似性排 名和所述第k广告对应的不相似性排名进行加权,以得到所述第k广告对应的新颖性因子; 其中,k为取值从1至X的正整数。
[0012] 结合第一方面,在第五种可能的实现方式中,所述确定所述X个广告分别对应的 新颖性因子,包括:对于所述X个广告中的第k广告,确定所述第k广告分别与所述X个广 告中除所述第k广告之外的其它广告之间的多样性距离;根据所述第k广告分别与所述X 个广告中除所述第k广告之外的其它广告之间的多样性距离,确定所述第k广告对应的新 颖性因子;其中,k为取值从1至X的正整数。
[0013] 结合第一方面或上述任一实现方式,在第六种可能的实现方式中,所述根据所述X 个广告分别对应的点击概率和所述X个广告分别对应的新颖性因子,在所述X个广告中确 定待向所述第i用户推荐的P个广告,包括:对所述X个广告中每个广告对应的点击概率和 所述每个广告对应的新颖性因子进行加权,确定所述X个广告分别对应的评分;按照所述X 个广告对应的评分从大到小的顺序,对所述X个广告进行排序,得到排序后的X个广告;将 所述排序后的X个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
[0014] 结合第一方面或第一种可能的实现方式至第五种可能的实现方式中任一方式,在 第七种可能的实现方式中,所述根据所述X个广告分别对应的点击概率和所述X个广告分 别对应的新颖性因子,在所述X个广告中确定待向所述第i用户推荐的P个广告,包括:按 照点击概率从大到小的顺序,对所述X个广告进行排序,得到排序后的X个广告;按照新颖 性因子从大到小的顺序,对所述排序后的X个广告中的前q个广告进行排序,得到重新排序 后的q个广告,其中q为正整数且q大于P ;将所述重新排序后的q个广告中的前P个广告 确定为待向所述第i用户推荐的P个广告。
[0015] 结合第一方面或上述任一实现方式,在第八种可能的实现方式中,所述根据所述 网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述X 个广告的点击概率,包括:根据所述网页访问信息和所述广告点击信息,生成用户-网页访 问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的 第i行第j列对象表示所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩 阵的第i行第k列对象表示所述第i用户对第k广告的点击记录,所述广告-网页关联度 矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至 X的正整数;对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联 度矩阵进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网 页隐含特征向量和所述第k广告的广告隐含特征向量;根据所述第i用户的用户隐含特征 向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量,确定所述第 i用户访问所述第j网页时所述第k广告的点击概率。
[0016] 第二方面,提供了一种广告推荐服务器,包括:获取单元,用于从用户访问互联网 日志中获取网页访问信息和广告点击信息,所述网页访问信息用于指示m个用户所访问的 η个网页,所述广告点击信息用于指示m个用户在η个网页上点击的X个广告,n、m和X均 为大于1的正整数;预测单元,用于根据所述网页访问信息和所述广告点击信息,预测所述 m个用户中第i用户访问第j网页时所述X个广告的点击概率,其中i为取值从1至m的正 整数,j为取值从1至η的正整数;确定单元,用于确定所述X个广告分别对应的新颖性因 子,所述X个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的 知晓程度;选择单元,用于根据所述X个广告的点击概率和所述X个广告分别对应的新颖性 因子,在所述X个广告中确定待向所述第i用户推荐的P个广告,其中,所述第i用户对所 述P个广告的知晓程度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的 知晓程度,所述P个广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点 击概率,P为正整数且Ρ<χ。
[0017] 结合第二方面,在第一种可能的实现方式中,所述确定单元,具体用于:根据历史 推荐信息,确定所述X个广告分别对应的新颖性因子,所述历史推荐信息用于指示向所述 第i用户分别推荐所述X个广告的历史记录。
[0018] 结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定 单元,具体用于:对于所述X个广告中的第k广告,如果所述历史推荐信息指示未向所述第 i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第一值;如果所述历 史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新 颖性因子为第二值;其中,所述第一值大于所述第二值,k为取值从1至X的正整数。
[0019] 结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定 单元,具体用于:确定q天前向所述第i用户推荐过所述第k广告,q为正整数;确定所述q 天对应的艾宾浩斯遗忘曲线值;确定所述第k广告对应的新颖性因子为所述第一值与所述 艾宾浩斯遗忘曲线值之间的差值。
[0020] 结合第二方面,在第四种可能的实现方式中,所述确定单元,具体用于:对于所述 X个广告中的第k广告,确定所述第k广告分别与所述X个广告中除所述第k广告之外的 其它广告之间的相似度;根据所述第k广告分别与所述X个广告中除所述第k广告之外的 其它广告之间的相似度,确定在所述X个广告中所述第k广告对应的相似性排名和所述第 k广告对应的不相似性排名;对所述第k广告对应的相似性排名和所述第k广告对应的不 相似性排名进行加权,以得到所述第k广告对应的新颖性因子;其中,k为取值从1至X的 正整数。
[0021] 结合第二方面,在第五种可能的实现方式中,所述确定单元,具体用于:对于所述 X个广告中的第k广告,确定所述第k广告分别与所述X个广告中除所述第k广告之外的 其它广告之间的多样性距离;根据所述第k广告分别与所述X个广告中除所述第k广告之 外的其它广告之间的多样性距离,确定所述第k广告对应的新颖性因子;其中,k为取值从 1至X的正整数。
[0022] 结合第二方面或上述任一实现方式,在第六种可能的实现方式中,所述选择单元, 具体用于:对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子 进行加权,确定所述X个广告分别对应的评分;按照所述X个广告对应的评分从大到小的顺 序,对所述X个广告进行排序,得到排序后的X个广告;将所述排序后的X个广告中的前P 个广告确定为待向所述第i用户推荐的P个广告。
[0023] 结合第二方面或第一种可能的实现方式至第五种可能的实现方式中任一方式,在 第七种可能的实现方式中,所述选择单元,具体用于:按照点击概率从大到小的顺序,对所 述X个广告进行排序,得到排序后的X个广告;按照新颖性因子从大到小的顺序,对所述排 序后的X个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且 q大于P ;将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P 个广告。
[0024] 结合第二方面或上述任一实现方式,在第八种可能的实现方式中,所述预测单 元,具体用于:根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用 户-广告点击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j 列对象表示所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行 第k列对象表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j 行第k列对象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至X的正整 数;对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进 行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特 征向量和所述第k广告的广告隐含特征向量;根据所述第i用户的用户隐含特征向量、所述 第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量,确定所述第i用户访 问所述第j网页时所述第k广告的点击概率。
[0025] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页 时X个广告的点击概率,根据历史推荐信息确定X个广告分别对应的新颖性因子,并根据X 个广告的点击概率和X个广告分别对应的新颖性因子在X个广告中确定待向第i用户推荐 的P个广告,其中第i用户对P个广告的知晓程度低于第i用户对X个广告中除P个广告 之外的广告的知晓程度,P个广告的点击概率高于X个广告中除P个广告之外的广告的点 击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够 提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间 向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提 升用户体验。

【专利附图】

【附图说明】
[0026] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使 用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0027] 图1是根据本发明实施例的推荐广告的方法的示意性流程图。
[0028] 图2是根据本发明实施例的推荐广告的方法的过程的示意性流程图。
[0029] 图3是根据本发明实施例的AdRec模型的示意图。
[0030] 图4是根据本发明实施例的广告推荐服务器的示意性框图。
[0031] 图5是根据本发明实施例的广告推荐服务器的示意性框图。
[0032] 图6是根据本发明实施例的广告推荐系统的示意框图。

【具体实施方式】
[0033] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实 施例,都应属于本发明保护的范围。
[0034] 本发明实施例可以应用于各种对象的推荐场景,例如商品、应用(Application) 或歌曲等对象的推荐。因此,本发明实施例中,广告可以是这些推荐对象的载体,被推荐对 象的信息可以通过广告页面来显示。
[0035] 本发明实施例的方法可以由广告推荐服务器来执行。广告推荐服务器可以存储广 告主发布的广告,对广告主发布的广告进行管理,并可以向用户提供广告服务。具体地,广 告推荐服务器可以统计用户对广告的点击记录以及用户对网页的点击记录等信息,可以基 于这些信息向用户推荐广告。
[0036] 图1是根据本发明实施例的推荐广告的方法的示意性流程图。图1的方法可由广 告推荐服务器执行。
[0037] 110,从用户访问互联网日志中获取网页访问信息和广告点击信息,网页访问信息 用于指示m个用户所访问的η个网页,广告点击信息用于指示m个用户在η个网页上点击 的X个广告,n、m和X均为大于1的正整数。
[0038] 120,根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页 时X个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至η的正整数。
[0039] 130,根据历史推荐信息,确定X个广告分别对应的新颖性因子,历史推荐信息用 于指示向第i用户分别推荐X个广告的历史记录,X个广告中每个广告的新颖性因子用于 表示第i用户对该广告的知晓程度。
[0040] 140,根据X个广告的点击概率和X个广告分别对应的新颖性因子,在X个广告中 确定待向第i用户推荐的P个广告,其中,第i用户对P个广告的知晓程度低于第i用户对 X个广告中除所述P个广告之外的广告的知晓程度,P个广告的点击概率高于X个广告中除 P个广告之外的广告的点击概率,P为正整数且P < X。
[0041] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页 时X个广告的点击概率,根据历史推荐信息确定X个广告分别对应的新颖性因子,并根据X 个广告的点击概率和X个广告分别对应的新颖性因子在X个广告中确定待向第i用户推荐 的P个广告,其中第i用户对P个广告的知晓程度低于第i用户对X个广告中除P个广告 之外的广告的知晓程度,P个广告的点击概率高于X个广告中除P个广告之外的广告的点 击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够 提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间 向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提 升用户体验。
[0042] 具体而言,现有的广告推荐算法中,均是利用二维信息预测广告的点击概率,例如 广告和网页的相关信息或者用户和广告的相关信息。此外,基于现有的基于CBF的算法或 CF算法,向用户推荐的广告往往和该用户熟悉的广告很相似。用户不熟悉但具有潜在兴趣 的广告却难以被推荐给用户。
[0043] 本发明实施例中,网页访问信息用于指示m个用户所访问的η个网页,广告点击信 息用于指示m个用户在η个网页上点击的X个广告,因此,根据网页访问信息和广告点击信 息预测广告的点击概率,也就是利用用户、网页以及广告这三个维度的信息预测X个广告 的点击概率,从而能够提高广告的点击概率预测的准确性。此外,根据用于指示向第i用户 推荐X个广告的历史记录的历史推荐信息,确定X个广告分别对应的新颖性因子。这样,在 根据X个广告的点击概率和X个广告分别对应的新颖性因子确定待向第i用户推荐的P个 广告时,同时考虑了广告的点击概率预测的准确性和广告的新颖性两方面,因此不仅能够 提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间 向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,并提升 用户体验。
[0044] 应理解,本发明实施例中,第i用户可以是m个用户中任意一个用户,第j网页可 以是η个网页中任意一个网页。
[0045] 可选地,作为一个实施例,上述X个广告可以是广告推荐服务器中存储的所有广 告或部分广告。
[0046] 可选地,作为另一实施例,在步骤120中,可以根据网页访问信息和广告点击信 息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,用 户-网页访问矩阵的第i行第j列对象表示第i用户对第j网页的访问记录,用户-广告 点击矩阵的第i行第k列对象表示第i用户对第k广告的点击记录,广告-网页关联度矩 阵的第j行第k列对象表示第j网页与第k广告之间的关联度,k为取值从1至X的正整 数。然后可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行 联合概率矩阵分解,得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第 k广告的广告隐含特征向量。最后可以根据第i用户的用户隐含特征向量、第j网页的网页 隐含特征向量和第k广告的广告隐含特征向量,确定第i用户访问第j网页时第k广告的 点击概率。
[0047] 通常网页的数量非常大,可以将网页按照进行分类后,再将网页访问信息和广告 点击信息转化为用户-网页访问矩阵、用户-广告点击矩阵以及网页和广告同时出现时广 告的点击率矩阵。例如,可以按照域名对网页进行分类。此外,可以从网页访问信息和广告 点击信息中提取网页与广告的相似度信息。基于网页和广告同时出现时广告的点击率矩阵 以及网页与广告的相似度信息,可以得到广告-网页关联度矩阵。
[0048] 利用联合概率矩阵分解(Unified Probabilistic Matrix Factorization,UPMF) 算法,可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行分 解,从而得到第i用户访问第j网页时X个广告的点击概率。
[0049] 用户-网页访问矩阵和用户-广告点击矩阵可以反映用户的的兴趣,而广告-网 页关联度矩阵可以反映网页与广告之间的相关性,可见,本实施例中,同时考虑了用户的兴 趣以及网页与广告之间的相关性,预测各个广告的点击概率。因此,能够提高广告的点击概 率预测的准确性,从而能够保证广告的点击率。
[0050] 目前,由于网页数量和用户数量很大,用户对网页的访问数据以及用户对广告的 点击数据十分稀疏。这种现象也可以称为数据稀疏。这种情况下,采用基于CBF的算法或 者CF算法预测广告的点击概率的准确率会大大降低。而本发明实施例中,利用联合概率矩 阵分解算法,根据用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵这三 个矩阵预测广告的点击概率,虽然这三个矩阵可能均为稀疏矩阵,但由于并非仅仅基于其 中某一个矩阵预测点击概率,从而在数据稀疏的情况下也能够保证广告的点击概率预测的 准确性。稀疏矩阵可以指行或列的数据缺失较多的矩阵。
[0051] 具体而言,在第i用户访问第j网页时,对于X个广告中的第k广告,可以以最大 化联合后验概率为目标函数,基于梯度下降法,对用户-网页访问矩阵、用户-广告点击矩 阵和广告-网页关联度矩阵进行分解,得到第i用户的用户隐含特征向量、第j网页的网页 隐含特征向量和第k广告的广告隐含特征向量。可以利用,根据第i用户的用户隐含特征 向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,预测第k广告的点击 概率。
[0052] 具体地,以最大化联合后验概率为目标函数,基于梯度下降法,根据上述三个矩阵 得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含 特征向量。根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告 的广告隐含特征向量,可以分别确定第一向量、第二向量和第三向量,第一向量可以表不第 i用户对第j网页的感兴趣程度,第二向量可以表示第i用户对第k广告的感兴趣程度,第 三向量可以表示第j网页与第k广告的关联程度。可以将第一向量、第二向量以及第三向 量的线性组合映射到[0,1],从而可以得到在第i用户访问第j网页时第k广告的点击概 率。
[0053] 第k广告可以是X个广告中的任一广告。对于每个广告而言,均可以按照上述过 程计算在第i用户访问第j网页时其点击概率。这样可以得到在第i用户访问第j网页时 X个广告的点击概率。
[0054] 目前,由于网页数量和用户数量的规模较大,因此推荐算法的复杂度是需要重点 关注的因素。本实施例中,计算过程的开销主要来源于梯度下降法。算法复杂度随三个矩 阵中数据量增加而线性增长。因此,本实施例适用于大规模数据的处理。
[0055] 可选地,作为另一实施例,在步骤130中,对于x个广告中的第k广告,如果历史推 荐信息指示未向第i用户推荐过第k广告,则可以确定第k广告对应的新颖性因子为第一 值;如果历史推荐信息指示过去向第i用户推荐过第k广告,则可以确定第k广告对应的新 颖性因子为第二值。
[0056] 其中,第一值大于第二值,k为取值从1至X的正整数。
[0057] 具体而言,上述第k广告可以是X个广告中的任意一个广告。每个广告可以对应 一个新颖性因子。每个广告对应的新颖性因子可以用于表示对第i用户而言该广告的新颖 性。对于每个广告而言,在未向第i用户推荐过的情况下的新颖性因子大于在向第i用户 已经推荐过的情况下的新颖性因子。广告对应的新颖性因子越大,则可以表明对于第i用 户来说该广告的新颖性越高,换句话说,第i用户对该广告不熟悉或者未见过该广告。
[0058] 可见,本实施例中,对于每个广告而言,在未向第i用户推荐过的情况下的新颖性 因子大于在向第i用户已经推荐过的情况下的新颖性因子,这样,能够提升所推荐的广告 的新颖性,从而提升用户体验。
[0059] 第一值和第二值可以是预先设定的,例如,第一值可以预设为1,第二值可以预设 为0. 5。或者,第二值可以是根据历史推荐信息和艾宾浩斯遗忘曲线得到的。
[0060] 可选地,作为另一实施例,在步骤130中,可以确定q天前向第i用户推荐过第k 广告,q为正整数,确定q天对应的艾宾浩斯遗忘曲线值,并确定第k广告对应的新颖性因 子为第一值与艾宾浩斯遗忘曲线值之间的差值。
[0061] 例如,第一值可以预设为1,第二值为1-艾宾浩斯遗忘曲线值。
[0062] 对于向第i用户推荐过的广告而言,可以基于艾宾浩斯遗忘曲线来确定该广告对 应的新颖性因子。这样能够提高新颖性因子的准确度,从而能够提升向用户推荐的广告的 新颖性,并提升用户体验。需要说明的是,基于艾宾浩斯遗忘曲线值来确定该广告对应的新 颖性因子只是本发明采用的一种较佳的实施方式,可以理解的是,将艾宾浩斯遗忘曲线值 替换成与q相关的权重值,也可以实现本发明方案。
[0063] 可选地,作为另一实施例,在步骤130中,对于X个广告中的第k广告,可以确定第 k广告分别与X个广告中除第k广告之外的其它广告之间的相似度。可以根据第k广告分 别与X个广告中除第k广告之外的其它广告之间的相似度,确定在X个广告中第k广告对 应的相似性排名和第k广告对应的不相似性排名。可以对第k广告对应的相似性排名和第 k广告对应的不相似性排名进行加权,以得到第k广告对应的新颖性因子,其中,k为取值从 1至X的正整数。
[0064] 具体而言,可以根据领域分类体系的评价指标--列表内部相似度(Intra-list Similarity)来确定各个广告对应的新颖性因子。针对X个广告,可以确定两两广告之间的 相似度。例如,可以根据余弦相似性算法或皮尔森(Pearson)相似性算法,确定两两广告之 间的相似度。这样,对于每个广告,可以利用其与其它广告之间的相似度,确定在X个广告 中该广告对应的相似性排名RS和不相似性排名NRS。然后可以对该广告对应的相似性排名 和不相似性排名进行加权,从而得到该广告对应的新颖性因子。例如,该广告的新颖性因子 =W*RS+(1-W)*NRS,其中W为权重值。
[0065] 本实施例能够提高新颖性因子的准确度,从而能够提升向用户推荐的广告的新颖 性,并提升用户体验。
[0066] 可选地,作为另一实施例,在步骤130中,对于x个广告中的第k广告,确定第k广 告分别与X个广告中除第k广告之外的其它广告之间的多样性距离;根据第k广告分别与 X个广告中除第k广告之外的其它广告之间的多样性距离,确定第k广告对应的新颖性因 子;其中,k为取值从1至X的正整数。
[0067] 具体地,可以基于推荐多样性原理来确定X个广告分别对应的新颖性因子。对于 X个广告,可以确定两两广告之间的多样性距离。例如,可以基于Jaccard多样性距离计算 方式,来得到两两广告之间的多样性距离。
[0068]因此,对于每个广告,可以计算出其与其它各个广告之间的多样性距离。根据该广 告与其它各个广告之间的多样性距离,确定该广告对应的新颖性因子。例如,可以将该广告 与其它各个广告之间的多样性距离进行求和,得到该广告对应的新颖性因子。本实施例能 够提高新颖性因子的准确度,从而能够提升向用户推荐的广告的新颖性,并提升用户体验。
[0069] 可选地,作为另一实施例,在步骤140中,可以对X个广告中每个广告对应的点击 概率和每个广告对应的新颖性因子进行加权,确定X个广告分别对应的评分。可以按照X 个广告对应的评分从大到小的顺序,对X个广告进行排序,得到排序后的X个广告。可以将 排序后的X个广告中的前P个广告确定为待向第i用户推荐的P个广告。
[0070] 具体地,可以通过加权算法,对点击概率和新颖性因子进行加权,来得到各个广告 对应的评分。例如,对于每个广告,可以为其点击概率和新颖性因子分配相应的权重,利用 所分配的权重对该广告的点击概率和新颖性因子进行加权,从而得到该广告对应的评分。 可以按照评分从大到小的顺序对X个广告进行排序,将排序后的X个广告中前P个广告作 为待向第i用户推荐的广告。可见,在确定要向第i用户推荐的广告时,同时考虑了点击概 率和新颖性因子两方面因素,从而能够提高广告的点击率并提升用户体验。
[0071] 可选地,作为另一实施例,在步骤140中,可以按照点击概率从大到小的顺序,对X 个广告进行排序,得到排序后的X个广告。可以按照新颖性因子从大到小的顺序,对排序后 的X个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大 于P。可以将重新排序后的q个广告中前P个广告确定为待向第i用户推荐的P个广告。
[0072] 例如,可以基于上述这种漏斗形的过滤加权方式得到广告推荐列表。q优选为p的 2倍。可见,在确定待向第i用户推荐的广告时,同时考虑了点击概率和新颖性因子两方面 因素,从而能够提高广告的点击率并提升用户体验。
[0073] 可选地,作为另一实施例,在步骤110中,可以实时地从用户访问互联网日志中获 取网页访问信息和广告点击信息。广告点击信息可以包含用户对推荐的P个广告的点击信 息。也就是说,用户对推荐的P个广告的点击信息会被实时地反馈回来,这样结合实时的信 息能够自适应地调整广告的点击概率,从而进一步提高广告的点击概率预测的准确性。
[0074] 下面将结合具体例子详细描述本发明实施例的过程。应理解,下面的例子仅是为 了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
[0075] 图2是根据本发明实施例的推荐广告的方法的过程的示意性流程图。
[0076] 201,从用户访问互联网的日志中获取网页访问信息和广告点击信息,网页访问信 息用于指示m个用户所访问的η个网页,广告点击信息用于指示m个用户在η个网页上点 击的X个广告,n、m和X均为大于1的正整数。
[0077] 202,根据网页访问信息和广告点击信息,生成用户-网页访问矩阵、用户-广告点 击矩阵和广告-网页关联度矩阵。
[0078] (I)用户-网页访问矩阵
[0079] B可以表示用户-网页访问矩阵。B中的元素[0,1])表示用户屮对网 页%的访问记录,也可以认为是用户Ui对网页 Wj的感兴趣程度。显然地,用户浏览网页的 次数越多,可以表明用户对此网页内容越感兴趣。可以由公式(1)计算得到:
[0080] b^· = g(f (ui; Wj)) (1)
[0081] 其中,g( ·)是逻辑斯蒂(Logistic Function)函数,用于归一化。f^Ui, Wj)表示 用户Ui浏览网%的次数。
[0082] (II)用户-广告点击矩阵
[0083] C可以表示用户-广告点击矩阵。C中的元素 cik表示用户Ui对广告ak的感兴趣 程度。显然地,用户点击广告,可以表明用户对该广告感兴趣。c ik可以由公式(2)得到:
[0084] cik = g(f (ui; ak)) (2)
[0085] 其中,f (Up ak)表示用户w点击广告ak的次数。
[0086] (III)广告-网页关联度矩阵
[0087] R可以表示广告-网页关联度矩阵。R中的元素 rjk表示网页%与广告ak之间的 关联度。同一广告在不同网页上显示时,具有不同的点击率。广告和网页的内容越相关,广 告被点击的可能性越大。此处结合网页-广告同时出现时广告的点击率以及网页和广告之 间的相似度,确定广告-网页关联度矩阵,这样能够提高广告-网页关联度矩阵的准确度。
[0088] rjk可以由公式(3)得到:
[0089] rJk = a dJk+ (1- α ) hJk ⑶
[0090] 其中,djk可以表示网页Wj与广告ak之间的相似度,h jk表示在网页Wj上广告ak的 点击率。
[0091] djk 可以按照概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)方法或潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)算法得到。
[0092] hjk可以等于网页Wj上广告ak被点击的次数除以广告ak在网页 Wj上总的投放次 数。
[0093] 203,根据用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,确 定用户 Ui的用户隐含特征向量、网页Wj的网页隐含特征向量和X个广告各自的广告隐含特 征向量。
[0094] 用户对网页的访问历史和对广告的点击历史均能反映用户的兴趣或偏好。而广告 点击率与用户兴趣及广告与网页关联度密切相关。本实施例中,通过利用AdRec模型将用 户兴趣及广告与网页关联度相结合。
[0095] 下面将以X个广告中的广告ak为例进行描述。应理解,广告ak可以是X个广告中 任一广告。
[0096] 具体地,可以基于AdRec模型确定这三个隐含特征向量。图3是根据本发明实施 例的AdRec模型的示意图。如图3所示,用户-网页访问矩阵与用户-广告点击矩阵共享 用户隐含特征向量A,用户-广告点击矩阵与广告-网页关联度矩阵共享广告隐含特征向 量Ak。
[0097] AdRec模型基于如下假设:
[0099] ( 4 )
[0098] (I)假设%、Wj和Ak先验服从正态分布且相互独立,即

【权利要求】
1. 一种推荐广告的方法,其特征在于,包括: 从用户访问互联网日志中获取网页访问信息和广告点击信息,所述网页访问信息用于 指示m个用户所访问的η个网页,所述广告点击信息用于指示m个用户在η个网页上点击 的X个广告,n、m和X均为大于1的正整数; 根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j 网页时所述X个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至η的正 整数; 确定所述X个广告分别对应的新颖性因子,所述X个广告中每个广告对应的新颖性因 子用于表示所述第i用户对所述每个广告的知晓程度; 根据所述X个广告的点击概率和所述X个广告分别对应的新颖性因子,在所述X个广 告中确定待向所述第i用户推荐的P个广告,其中,所述第i用户对所述P个广告的知晓程 度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的知晓程度,所述P个 广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点击概率,P为正整数 且 P < X。
2. 根据权利要求1所述的方法,其特征在于,所述确定所述X个广告分别对应的新颖性 因子,包括: 根据历史推荐信息,确定所述X个广告分别对应的新颖性因子,所述历史推荐信息用 于指示向所述第i用户分别推荐所述X个广告的历史记录。
3. 根据权利要求2所述的方法,其特征在于,所述根据历史推荐信息,确定所述X个广 告分别对应的新颖性因子,包括: 对于所述X个广告中的第k广告, 如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第k 广告对应的新颖性因子为第一值; 如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第 k广告对应的新颖性因子为第二值; 其中,所述第一值大于所述第二值,k为取值从1至X的正整数。
4. 根据权利要求3所述的方法,其特征在于,所述确定所述第k广告对应的新颖性因子 为第二值,包括: 确定q天前向所述第i用户推荐过所述第k广告,q为正整数; 确定所述q天对应的艾宾浩斯遗忘曲线值; 确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间 的差值。
5. 根据权利要求1所述的方法,其特征在于,所述确定所述X个广告分别对应的新颖性 因子,包括: 对于所述X个广告中的第k广告, 确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似 度; 根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似 度,确定在所述X个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似 性排名; 对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权,以 得到所述第k广告对应的新颖性因子; 其中,k为取值从1至X的正整数。
6. 根据权利要求1所述的方法,其特征在于,所述确定所述X个广告分别对应的新颖性 因子,包括: 对于所述X个广告中的第k广告, 确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样 性距离; 根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样 性距离,确定所述第k广告对应的新颖性因子; 其中,k为取值从1至X的正整数。
7. 根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述X个广告分别 对应的点击概率和所述X个广告分别对应的新颖性因子,在所述X个广告中确定待向所述 第i用户推荐的P个广告,包括: 对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行 加权,确定所述X个广告分别对应的评分; 按照所述X个广告对应的评分从大到小的顺序,对所述X个广告进行排序,得到排序后 的X个广告; 将所述排序后的X个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
8. 根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述X个广告分别 对应的点击概率和所述X个广告分别对应的新颖性因子,在所述X个广告中确定待向所述 第i用户推荐的P个广告,包括: 按照点击概率从大到小的顺序,对所述X个广告进行排序,得到排序后的X个广告; 按照新颖性因子从大到小的顺序,对所述排序后的X个广告中的前q个广告重新进行 排序,得到重新排序后的q个广告;其中q为正整数且q大于P ; 将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P个广 生 1=1 〇
9. 根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所述网页访问信息 和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述X个广告的点击 概率,包括: 根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用户-广告点 击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j列对象表示 所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行第k列对象 表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j行第k列对 象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至X的正整数; 对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵 进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含 特征向量和所述第k广告的广告隐含特征向量; 根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第 k广告的广告隐含特征向量,确定所述第i用户访问所述第j网页时所述第k广告的点击概 率。
10. -种广告推荐服务器,其特征在于,包括: 获取单元,用于从用户访问互联网日志中获取网页访问信息和广告点击信息,所述网 页访问信息用于指示m个用户所访问的η个网页,所述广告点击信息用于指示m个用户在 η个网页上点击的X个广告,n、m和X均为大于1的正整数; 预测单元,用于根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i 用户访问第j网页时所述X个广告的点击概率,其中i为取值从1至m的正整数,j为取值 从1至η的正整数; 确定单元,用于确定所述X个广告分别对应的新颖性因子,所述X个广告中每个广告对 应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度; 选择单元,用于根据所述X个广告的点击概率和所述X个广告分别对应的新颖性因子, 在所述X个广告中确定待向所述第i用户推荐的P个广告,其中,所述第i用户对所述P个 广告的知晓程度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的知晓程 度,所述P个广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点击概率, P为正整数且P彡X。
11. 根据权利要求10所述的广告推荐服务器,其特征在于,所述确定单元,具体用于: 根据历史推荐信息,确定所述X个广告分别对应的新颖性因子,所述历史推荐信息用 于指示向所述第i用户分别推荐所述X个广告的历史记录。
12. 根据权利要求11所述的广告推荐服务器,其特征在于,在根据历史推荐信息,确定 所述X个广告分别对应的新颖性因子的方面,所述确定单元,具体用于: 对于所述X个广告中的第k广告, 如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第k 广告对应的新颖性因子为第一值; 如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第 k广告对应的新颖性因子为第二值; 其中,所述第一值大于所述第二值,k为取值从1至X的正整数。
13. 根据权利要求12所述的广告推荐服务器,其特征在于,在确定所述第k广告对应的 新颖性因子为第二值的方面,所述确定单元,具体用于: 确定q天前向所述第i用户推荐过所述第k广告,q为正整数; 确定所述q天对应的艾宾浩斯遗忘曲线值; 确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间 的差值。
14. 根据权利要求10所述的广告推荐服务器,其特征在于,在确定所述X个广告分别对 应的新颖性因子的方面,所述确定单元,具体用于: 对于所述X个广告中的第k广告, 确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似 度; 根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似 度,确定在所述X个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似 性排名; 对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权,以 得到所述第k广告对应的新颖性因子; 其中,k为取值从1至X的正整数。
15. 根据权利要求10所述的广告推荐服务器,其特征在于,在确定所述X个广告分别对 应的新颖性因子的方面,所述确定单元,具体用于: 对于所述X个广告中的第k广告, 确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样 性距离; 根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样 性距离,确定所述第k广告对应的新颖性因子; 其中,k为取值从1至X的正整数。
16. 根据权利要求10至15中任一项所述的广告推荐服务器,其特征在于,所述选择单 元,具体用于: 对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行 加权,确定所述X个广告分别对应的评分; 按照所述X个广告对应的评分从大到小的顺序,对所述X个广告进行排序,得到排序后 的X个广告; 将所述排序后的X个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
17. 根据权利要求10至15中任一项所述的广告推荐服务器,其特征在于,所述选择单 元,具体用于: 按照点击概率从大到小的顺序,对所述X个广告进行排序,得到排序后的X个广告; 按照新颖性因子从大到小的顺序,对所述排序后的X个广告中的前q个广告进行排序, 得到重新排序后的q个广告,其中q为正整数且q大于P ; 将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P个广 生 1=1 〇
18. 根据权利要求10至17中任一项所述的广告推荐服务器,其特征在于,所述预测单 元,具体用于: 根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用户-广告点 击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j列对象表示 所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行第k列对象 表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j行第k列对 象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至X的正整数; 对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵 进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含 特征向量和所述第k广告的广告隐含特征向量; 根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第 k广告的广告隐含特征向量,确定所述第i用户访问所述第j网页时所述第k广告的点击概 率。
【文档编号】G06Q30/02GK104090919SQ201410268560
【公开日】2014年10月8日 申请日期:2014年6月16日 优先权日:2014年6月16日
【发明者】涂丹丹, 张勇 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1