推荐广告的方法及广告推荐服务器的制造方法

文档序号：6549832阅读：135来源：国知局

推荐广告的方法及广告推荐服务器的制造方法
【专利摘要】本发明实施例提供推荐广告的方法及广告推荐服务器。该方法包括：获取网页访问信息和广告点击信息，网页访问信息用于指示m个用户所访问的n个网页，广告点击信息用于指示m个用户在n个网页上点击的x个广告；根据网页访问信息和广告点击信息，预测m个用户中第i用户访问第j网页时x个广告的点击概率；确定x个广告分别对应的新颖性因子；根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告。本发明实施例能够提高广告的点击率并提升用户体验。
【专利说明】推荐广告的方法及广告推荐服务器

【技术领域】
[0001] 本发明涉及信息处理领域，并且具体地，涉及推荐广告的方法及广告推荐服务器。

【背景技术】
[0002] 互联网在线广告已成为除电视和报纸之外的主要广告投放方式。在线广告的收益与广告的点击率密切相关，增加广告点击率是提高广告收益的有效途径之一。为了提高广告点击率，推荐广告之前需要预测用户点击广告的概率（以下称为广告的点击概率）。
[0003] 目前，主要通过两种算法预测广告的点击概率来向用户推荐广告。一种是基于内容过滤（Content-based Filtering, CBF)的推荐算法，另一种是基于用户或项目的协同过滤（Collaborative Filtering，CF)的推荐算法。
[0004] 具体而言，对于基于CBF的算法，主要是利用信息检索或信息过滤技术，根据广告和网页内容的相关性向目标用户推荐广告。即，与网页内容相关性越高的广告，认为其点击概率越高。因此，在相同的网页上往往会向用户推荐相同的广告。然而，这种算法未考虑用户的兴趣，导致广告的点击概率预测的准确性并不高，因此难以保证广告的点击率。
[0005] 对于基于用户的CF算法，主要根据用户的历史广告点击信息计算用户之间的相似性，然后根据与目标用户相似性较高的用户对广告的点击情况，预测目标用户对广告的喜好程度，然后根据喜好程度对目标用户进行推荐。对于基于项目的CF算法，主要通过计算广告之间的相似性，选择目标广告的最接近的广告集合，根据当前用户对最接近的广告的喜好程度来决定是否推荐目标广告。这两种CF算法均是利用用户的喜好程度预测广告的点击概率。可见，相比基于CBF的算法而言，虽然CF算法在一定程度上提高了广告的点击概率预测的准确性，能够提高广告的点击率，但是由于用户经常访问内容相似的网页，采用 CF算法推荐给用户的广告往往和此用户熟悉的广告很相似，无法发现用户并不熟悉但潜在感兴趣的广告，导致广告的点击率不高，用户体验差。

【发明内容】

[0006] 本发明实施例提供推荐广告的方法及广告推荐服务器，能够提高广告的点击率，进而提升用户体验。
[0007] 第一方面，提供了一种推荐广告的方法，包括：从用户访问互联网日志中获取网页访问信息和广告点击信息，所述网页访问信息用于指示m个用户所访问的η个网页，所述广告点击信息用于指示m个用户在η个网页上点击的X个广告，n、m和X均为大于1的正整数；根据所述网页访问信息和所述广告点击信息，预测所述m个用户中第i用户访问第j网页时所述X个广告的点击概率，其中i为取值从1至m的正整数，j为取值从1至η的正整数；确定所述X个广告分别对应的新颖性因子，所述X个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度；根据所述X个广告的点击概率和所述 X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，其中，所述第i用户对所述P个广告的知晓程度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的知晓程度，所述P个广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点击概率，P为正整数且P彡X。
[0008] 结合第一方面，在第一种可能的实现方式中，所述确定所述X个广告分别对应的新颖性因子，包括：根据历史推荐信息，确定所述X个广告分别对应的新颖性因子，所述历史推荐信息用于指示向所述第i用户分别推荐所述X个广告的历史记录。
[0009] 结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据历史推荐信息，确定所述X个广告分别对应的新颖性因子，包括：对于所述X个广告中的第 k广告，如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告，则确定所述第 k广告对应的新颖性因子为第一值；如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告，则确定所述第k广告对应的新颖性因子为第二值；其中，所述第一值大于所述第二值，k为取值从1至X的正整数。
[0010] 结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述确定所述第k广告对应的新颖性因子为第二值，包括：确定q天前向所述第i用户推荐过所述第 k广告，q为正整数；确定所述q天对应的艾宾浩斯遗忘曲线值；确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
[0011] 结合第一方面，在第四种可能的实现方式中，所述确定所述X个广告分别对应的新颖性因子，包括：对于所述X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度，确定在所述X个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名；对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权，以得到所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
[0012] 结合第一方面，在第五种可能的实现方式中，所述确定所述X个广告分别对应的新颖性因子，包括：对于所述X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离；根据所述第k广告分别与所述X 个广告中除所述第k广告之外的其它广告之间的多样性距离，确定所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
[0013] 结合第一方面或上述任一实现方式，在第六种可能的实现方式中，所述根据所述X 个广告分别对应的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，包括：对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权，确定所述X个广告分别对应的评分；按照所述X 个广告对应的评分从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；将所述排序后的X个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
[0014] 结合第一方面或第一种可能的实现方式至第五种可能的实现方式中任一方式，在第七种可能的实现方式中，所述根据所述X个广告分别对应的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，包括：按照点击概率从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；按照新颖性因子从大到小的顺序，对所述排序后的X个广告中的前q个广告进行排序，得到重新排序后的q个广告，其中q为正整数且q大于P ;将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
[0015] 结合第一方面或上述任一实现方式，在第八种可能的实现方式中，所述根据所述网页访问信息和所述广告点击信息，预测所述m个用户中第i用户访问第j网页时所述X 个广告的点击概率，包括：根据所述网页访问信息和所述广告点击信息，生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵，其中，所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录，所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录，所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度，k为取值从1至 X的正整数；对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解，得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量；根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量，确定所述第 i用户访问所述第j网页时所述第k广告的点击概率。
[0016] 第二方面，提供了一种广告推荐服务器，包括：获取单元，用于从用户访问互联网日志中获取网页访问信息和广告点击信息，所述网页访问信息用于指示m个用户所访问的 η个网页，所述广告点击信息用于指示m个用户在η个网页上点击的X个广告，n、m和X均为大于1的正整数；预测单元，用于根据所述网页访问信息和所述广告点击信息，预测所述 m个用户中第i用户访问第j网页时所述X个广告的点击概率，其中i为取值从1至m的正整数，j为取值从1至η的正整数；确定单元，用于确定所述X个广告分别对应的新颖性因子，所述X个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度；选择单元，用于根据所述X个广告的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，其中，所述第i用户对所述P个广告的知晓程度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的知晓程度，所述P个广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点击概率，P为正整数且Ρ<χ。
[0017] 结合第二方面，在第一种可能的实现方式中，所述确定单元，具体用于：根据历史推荐信息，确定所述X个广告分别对应的新颖性因子，所述历史推荐信息用于指示向所述第i用户分别推荐所述X个广告的历史记录。
[0018] 结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述确定单元，具体用于：对于所述X个广告中的第k广告，如果所述历史推荐信息指示未向所述第 i用户推荐过所述第k广告，则确定所述第k广告对应的新颖性因子为第一值；如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告，则确定所述第k广告对应的新颖性因子为第二值；其中，所述第一值大于所述第二值，k为取值从1至X的正整数。
[0019] 结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述确定单元，具体用于：确定q天前向所述第i用户推荐过所述第k广告，q为正整数；确定所述q 天对应的艾宾浩斯遗忘曲线值；确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
[0020] 结合第二方面，在第四种可能的实现方式中，所述确定单元，具体用于：对于所述 X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度，确定在所述X个广告中所述第k广告对应的相似性排名和所述第 k广告对应的不相似性排名；对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权，以得到所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
[0021] 结合第二方面，在第五种可能的实现方式中，所述确定单元，具体用于：对于所述 X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离，确定所述第k广告对应的新颖性因子；其中，k为取值从 1至X的正整数。
[0022] 结合第二方面或上述任一实现方式，在第六种可能的实现方式中，所述选择单元，具体用于：对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权，确定所述X个广告分别对应的评分；按照所述X个广告对应的评分从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；将所述排序后的X个广告中的前P 个广告确定为待向所述第i用户推荐的P个广告。
[0023] 结合第二方面或第一种可能的实现方式至第五种可能的实现方式中任一方式，在第七种可能的实现方式中，所述选择单元，具体用于：按照点击概率从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；按照新颖性因子从大到小的顺序，对所述排序后的X个广告中的前q个广告进行排序，得到重新排序后的q个广告，其中q为正整数且 q大于P ;将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P 个广告。
[0024] 结合第二方面或上述任一实现方式，在第八种可能的实现方式中，所述预测单元，具体用于：根据所述网页访问信息和所述广告点击信息，生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵，其中，所述用户-网页访问矩阵的第i行第j 列对象表示所述第i用户对所述第j网页的访问记录，所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录，所述广告-网页关联度矩阵的第j 行第k列对象表示所述第j网页与所述第k广告之间的关联度，k为取值从1至X的正整数；对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解，得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量；根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量，确定所述第i用户访问所述第j网页时所述第k广告的点击概率。
[0025] 本发明实施例中，根据网页访问信息和广告点击信息预测第i用户访问第j网页时X个广告的点击概率，根据历史推荐信息确定X个广告分别对应的新颖性因子，并根据X 个广告的点击概率和X个广告分别对应的新颖性因子在X个广告中确定待向第i用户推荐的P个广告，其中第i用户对P个广告的知晓程度低于第i用户对X个广告中除P个广告之外的广告的知晓程度，P个广告的点击概率高于X个广告中除P个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率，从而能够提升广告的点击概率预测的准确性，并且由于考虑了广告的新颖性，从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告，因此能够提高广告的点击率，进而提升用户体验。

【专利附图】

【附图说明】
[0026] 为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0027] 图1是根据本发明实施例的推荐广告的方法的示意性流程图。
[0028] 图2是根据本发明实施例的推荐广告的方法的过程的示意性流程图。
[0029] 图3是根据本发明实施例的AdRec模型的示意图。
[0030] 图4是根据本发明实施例的广告推荐服务器的示意性框图。
[0031] 图5是根据本发明实施例的广告推荐服务器的示意性框图。
[0032] 图6是根据本发明实施例的广告推荐系统的示意框图。

【具体实施方式】
[0033] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
[0034] 本发明实施例可以应用于各种对象的推荐场景，例如商品、应用（Application) 或歌曲等对象的推荐。因此，本发明实施例中，广告可以是这些推荐对象的载体，被推荐对象的信息可以通过广告页面来显示。
[0035] 本发明实施例的方法可以由广告推荐服务器来执行。广告推荐服务器可以存储广告主发布的广告，对广告主发布的广告进行管理，并可以向用户提供广告服务。具体地，广告推荐服务器可以统计用户对广告的点击记录以及用户对网页的点击记录等信息，可以基于这些信息向用户推荐广告。
[0036] 图1是根据本发明实施例的推荐广告的方法的示意性流程图。图1的方法可由广告推荐服务器执行。
[0037] 110,从用户访问互联网日志中获取网页访问信息和广告点击信息，网页访问信息用于指示m个用户所访问的η个网页，广告点击信息用于指示m个用户在η个网页上点击的X个广告，n、m和X均为大于1的正整数。
[0038] 120,根据网页访问信息和广告点击信息，预测m个用户中第i用户访问第j网页时X个广告的点击概率，其中i为取值从1至m的正整数，j为取值从1至η的正整数。
[0039] 130,根据历史推荐信息，确定X个广告分别对应的新颖性因子，历史推荐信息用于指示向第i用户分别推荐X个广告的历史记录，X个广告中每个广告的新颖性因子用于表示第i用户对该广告的知晓程度。
[0040] 140,根据X个广告的点击概率和X个广告分别对应的新颖性因子，在X个广告中确定待向第i用户推荐的P个广告，其中，第i用户对P个广告的知晓程度低于第i用户对 X个广告中除所述P个广告之外的广告的知晓程度，P个广告的点击概率高于X个广告中除 P个广告之外的广告的点击概率，P为正整数且P < X。
[0041] 本发明实施例中，根据网页访问信息和广告点击信息预测第i用户访问第j网页时X个广告的点击概率，根据历史推荐信息确定X个广告分别对应的新颖性因子，并根据X 个广告的点击概率和X个广告分别对应的新颖性因子在X个广告中确定待向第i用户推荐的P个广告，其中第i用户对P个广告的知晓程度低于第i用户对X个广告中除P个广告之外的广告的知晓程度，P个广告的点击概率高于X个广告中除P个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率，从而能够提升广告的点击概率预测的准确性，并且由于考虑了广告的新颖性，从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告，因此能够提高广告的点击率，进而提升用户体验。
[0042] 具体而言，现有的广告推荐算法中，均是利用二维信息预测广告的点击概率，例如广告和网页的相关信息或者用户和广告的相关信息。此外，基于现有的基于CBF的算法或 CF算法，向用户推荐的广告往往和该用户熟悉的广告很相似。用户不熟悉但具有潜在兴趣的广告却难以被推荐给用户。
[0043] 本发明实施例中，网页访问信息用于指示m个用户所访问的η个网页，广告点击信息用于指示m个用户在η个网页上点击的X个广告，因此，根据网页访问信息和广告点击信息预测广告的点击概率，也就是利用用户、网页以及广告这三个维度的信息预测X个广告的点击概率，从而能够提高广告的点击概率预测的准确性。此外，根据用于指示向第i用户推荐X个广告的历史记录的历史推荐信息，确定X个广告分别对应的新颖性因子。这样，在根据X个广告的点击概率和X个广告分别对应的新颖性因子确定待向第i用户推荐的P个广告时，同时考虑了广告的点击概率预测的准确性和广告的新颖性两方面，因此不仅能够提升广告的点击概率预测的准确性，并且由于考虑了广告的新颖性，从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告，因此能够提高广告的点击率，并提升用户体验。
[0044] 应理解，本发明实施例中，第i用户可以是m个用户中任意一个用户，第j网页可以是η个网页中任意一个网页。
[0045] 可选地，作为一个实施例，上述X个广告可以是广告推荐服务器中存储的所有广告或部分广告。
[0046] 可选地，作为另一实施例，在步骤120中，可以根据网页访问信息和广告点击信息，生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵，其中，用户-网页访问矩阵的第i行第j列对象表示第i用户对第j网页的访问记录，用户-广告点击矩阵的第i行第k列对象表示第i用户对第k广告的点击记录，广告-网页关联度矩阵的第j行第k列对象表示第j网页与第k广告之间的关联度，k为取值从1至X的正整数。然后可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行联合概率矩阵分解，得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第 k广告的广告隐含特征向量。最后可以根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量，确定第i用户访问第j网页时第k广告的点击概率。
[0047] 通常网页的数量非常大，可以将网页按照进行分类后，再将网页访问信息和广告点击信息转化为用户-网页访问矩阵、用户-广告点击矩阵以及网页和广告同时出现时广告的点击率矩阵。例如，可以按照域名对网页进行分类。此外，可以从网页访问信息和广告点击信息中提取网页与广告的相似度信息。基于网页和广告同时出现时广告的点击率矩阵以及网页与广告的相似度信息，可以得到广告-网页关联度矩阵。
[0048] 利用联合概率矩阵分解（Unified Probabilistic Matrix Factorization，UPMF) 算法，可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行分解，从而得到第i用户访问第j网页时X个广告的点击概率。
[0049] 用户-网页访问矩阵和用户-广告点击矩阵可以反映用户的的兴趣，而广告-网页关联度矩阵可以反映网页与广告之间的相关性，可见，本实施例中，同时考虑了用户的兴趣以及网页与广告之间的相关性，预测各个广告的点击概率。因此，能够提高广告的点击概率预测的准确性，从而能够保证广告的点击率。
[0050] 目前，由于网页数量和用户数量很大，用户对网页的访问数据以及用户对广告的点击数据十分稀疏。这种现象也可以称为数据稀疏。这种情况下，采用基于CBF的算法或者CF算法预测广告的点击概率的准确率会大大降低。而本发明实施例中，利用联合概率矩阵分解算法，根据用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵这三个矩阵预测广告的点击概率，虽然这三个矩阵可能均为稀疏矩阵，但由于并非仅仅基于其中某一个矩阵预测点击概率，从而在数据稀疏的情况下也能够保证广告的点击概率预测的准确性。稀疏矩阵可以指行或列的数据缺失较多的矩阵。
[0051] 具体而言，在第i用户访问第j网页时，对于X个广告中的第k广告，可以以最大化联合后验概率为目标函数，基于梯度下降法，对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行分解，得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。可以利用，根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量，预测第k广告的点击概率。
[0052] 具体地，以最大化联合后验概率为目标函数，基于梯度下降法，根据上述三个矩阵得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量，可以分别确定第一向量、第二向量和第三向量，第一向量可以表不第 i用户对第j网页的感兴趣程度，第二向量可以表示第i用户对第k广告的感兴趣程度，第三向量可以表示第j网页与第k广告的关联程度。可以将第一向量、第二向量以及第三向量的线性组合映射到[0,1]，从而可以得到在第i用户访问第j网页时第k广告的点击概率。
[0053] 第k广告可以是X个广告中的任一广告。对于每个广告而言，均可以按照上述过程计算在第i用户访问第j网页时其点击概率。这样可以得到在第i用户访问第j网页时 X个广告的点击概率。
[0054] 目前，由于网页数量和用户数量的规模较大，因此推荐算法的复杂度是需要重点关注的因素。本实施例中，计算过程的开销主要来源于梯度下降法。算法复杂度随三个矩阵中数据量增加而线性增长。因此，本实施例适用于大规模数据的处理。
[0055] 可选地，作为另一实施例，在步骤130中，对于x个广告中的第k广告，如果历史推荐信息指示未向第i用户推荐过第k广告，则可以确定第k广告对应的新颖性因子为第一值；如果历史推荐信息指示过去向第i用户推荐过第k广告，则可以确定第k广告对应的新颖性因子为第二值。
[0056] 其中，第一值大于第二值，k为取值从1至X的正整数。
[0057] 具体而言，上述第k广告可以是X个广告中的任意一个广告。每个广告可以对应一个新颖性因子。每个广告对应的新颖性因子可以用于表示对第i用户而言该广告的新颖性。对于每个广告而言，在未向第i用户推荐过的情况下的新颖性因子大于在向第i用户已经推荐过的情况下的新颖性因子。广告对应的新颖性因子越大，则可以表明对于第i用户来说该广告的新颖性越高，换句话说，第i用户对该广告不熟悉或者未见过该广告。
[0058] 可见，本实施例中，对于每个广告而言，在未向第i用户推荐过的情况下的新颖性因子大于在向第i用户已经推荐过的情况下的新颖性因子，这样，能够提升所推荐的广告的新颖性，从而提升用户体验。
[0059] 第一值和第二值可以是预先设定的，例如，第一值可以预设为1，第二值可以预设为0. 5。或者，第二值可以是根据历史推荐信息和艾宾浩斯遗忘曲线得到的。
[0060] 可选地，作为另一实施例,在步骤130中，可以确定q天前向第i用户推荐过第k 广告，q为正整数，确定q天对应的艾宾浩斯遗忘曲线值，并确定第k广告对应的新颖性因子为第一值与艾宾浩斯遗忘曲线值之间的差值。
[0061] 例如，第一值可以预设为1，第二值为1-艾宾浩斯遗忘曲线值。
[0062] 对于向第i用户推荐过的广告而言，可以基于艾宾浩斯遗忘曲线来确定该广告对应的新颖性因子。这样能够提高新颖性因子的准确度，从而能够提升向用户推荐的广告的新颖性，并提升用户体验。需要说明的是，基于艾宾浩斯遗忘曲线值来确定该广告对应的新颖性因子只是本发明采用的一种较佳的实施方式，可以理解的是，将艾宾浩斯遗忘曲线值替换成与q相关的权重值，也可以实现本发明方案。
[0063] 可选地，作为另一实施例，在步骤130中，对于X个广告中的第k广告，可以确定第 k广告分别与X个广告中除第k广告之外的其它广告之间的相似度。可以根据第k广告分别与X个广告中除第k广告之外的其它广告之间的相似度，确定在X个广告中第k广告对应的相似性排名和第k广告对应的不相似性排名。可以对第k广告对应的相似性排名和第 k广告对应的不相似性排名进行加权，以得到第k广告对应的新颖性因子，其中，k为取值从 1至X的正整数。
[0064] 具体而言，可以根据领域分类体系的评价指标--列表内部相似度（Intra-list Similarity)来确定各个广告对应的新颖性因子。针对X个广告，可以确定两两广告之间的相似度。例如，可以根据余弦相似性算法或皮尔森（Pearson)相似性算法，确定两两广告之间的相似度。这样，对于每个广告，可以利用其与其它广告之间的相似度，确定在X个广告中该广告对应的相似性排名RS和不相似性排名NRS。然后可以对该广告对应的相似性排名和不相似性排名进行加权，从而得到该广告对应的新颖性因子。例如，该广告的新颖性因子 =W*RS+(1-W)*NRS，其中W为权重值。
[0065] 本实施例能够提高新颖性因子的准确度，从而能够提升向用户推荐的广告的新颖性，并提升用户体验。
[0066] 可选地，作为另一实施例，在步骤130中，对于x个广告中的第k广告，确定第k广告分别与X个广告中除第k广告之外的其它广告之间的多样性距离；根据第k广告分别与 X个广告中除第k广告之外的其它广告之间的多样性距离，确定第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
[0067] 具体地，可以基于推荐多样性原理来确定X个广告分别对应的新颖性因子。对于 X个广告，可以确定两两广告之间的多样性距离。例如，可以基于Jaccard多样性距离计算方式，来得到两两广告之间的多样性距离。
[0068]因此，对于每个广告，可以计算出其与其它各个广告之间的多样性距离。根据该广告与其它各个广告之间的多样性距离，确定该广告对应的新颖性因子。例如，可以将该广告与其它各个广告之间的多样性距离进行求和，得到该广告对应的新颖性因子。本实施例能够提高新颖性因子的准确度，从而能够提升向用户推荐的广告的新颖性，并提升用户体验。
[0069] 可选地，作为另一实施例，在步骤140中，可以对X个广告中每个广告对应的点击概率和每个广告对应的新颖性因子进行加权，确定X个广告分别对应的评分。可以按照X 个广告对应的评分从大到小的顺序，对X个广告进行排序，得到排序后的X个广告。可以将排序后的X个广告中的前P个广告确定为待向第i用户推荐的P个广告。
[0070] 具体地，可以通过加权算法，对点击概率和新颖性因子进行加权，来得到各个广告对应的评分。例如，对于每个广告，可以为其点击概率和新颖性因子分配相应的权重，利用所分配的权重对该广告的点击概率和新颖性因子进行加权，从而得到该广告对应的评分。可以按照评分从大到小的顺序对X个广告进行排序，将排序后的X个广告中前P个广告作为待向第i用户推荐的广告。可见，在确定要向第i用户推荐的广告时，同时考虑了点击概率和新颖性因子两方面因素，从而能够提高广告的点击率并提升用户体验。
[0071] 可选地，作为另一实施例，在步骤140中，可以按照点击概率从大到小的顺序，对X 个广告进行排序，得到排序后的X个广告。可以按照新颖性因子从大到小的顺序，对排序后的X个广告中的前q个广告进行排序，得到重新排序后的q个广告，其中q为正整数且q大于P。可以将重新排序后的q个广告中前P个广告确定为待向第i用户推荐的P个广告。
[0072] 例如，可以基于上述这种漏斗形的过滤加权方式得到广告推荐列表。q优选为p的 2倍。可见，在确定待向第i用户推荐的广告时，同时考虑了点击概率和新颖性因子两方面因素，从而能够提高广告的点击率并提升用户体验。
[0073] 可选地，作为另一实施例，在步骤110中，可以实时地从用户访问互联网日志中获取网页访问信息和广告点击信息。广告点击信息可以包含用户对推荐的P个广告的点击信息。也就是说，用户对推荐的P个广告的点击信息会被实时地反馈回来，这样结合实时的信息能够自适应地调整广告的点击概率，从而进一步提高广告的点击概率预测的准确性。
[0074] 下面将结合具体例子详细描述本发明实施例的过程。应理解，下面的例子仅是为了帮助本领域技术人员更好地理解本发明实施例，而非限制本发明实施例的范围。
[0075] 图2是根据本发明实施例的推荐广告的方法的过程的示意性流程图。
[0076] 201，从用户访问互联网的日志中获取网页访问信息和广告点击信息，网页访问信息用于指示m个用户所访问的η个网页，广告点击信息用于指示m个用户在η个网页上点击的X个广告，n、m和X均为大于1的正整数。
[0077] 202,根据网页访问信息和广告点击信息，生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵。
[0078] (I)用户-网页访问矩阵
[0079] B可以表示用户-网页访问矩阵。B中的元素[0，1])表示用户屮对网页％的访问记录，也可以认为是用户Ui对网页 Wj的感兴趣程度。显然地，用户浏览网页的次数越多，可以表明用户对此网页内容越感兴趣。可以由公式（1)计算得到：
[0080] b^· = g(f (ui； Wj)) (1)
[0081] 其中，g( ·)是逻辑斯蒂（Logistic Function)函数，用于归一化。f^Ui, Wj)表示用户Ui浏览网％的次数。
[0082] (II)用户-广告点击矩阵
[0083] C可以表示用户-广告点击矩阵。C中的元素 cik表示用户Ui对广告ak的感兴趣程度。显然地，用户点击广告，可以表明用户对该广告感兴趣。c ik可以由公式（2)得到：
[0084] cik = g(f (ui； ak)) (2)
[0085] 其中，f (Up ak)表示用户w点击广告ak的次数。
[0086] (III)广告-网页关联度矩阵
[0087] R可以表示广告-网页关联度矩阵。R中的元素 rjk表示网页％与广告ak之间的关联度。同一广告在不同网页上显示时，具有不同的点击率。广告和网页的内容越相关，广告被点击的可能性越大。此处结合网页-广告同时出现时广告的点击率以及网页和广告之间的相似度，确定广告-网页关联度矩阵，这样能够提高广告-网页关联度矩阵的准确度。
[0088] rjk可以由公式（3)得到：
[0089] rJk = a dJk+ (1- α ) hJk ⑶
[0090] 其中，djk可以表示网页Wj与广告ak之间的相似度，h jk表示在网页Wj上广告ak的点击率。
[0091] djk 可以按照概率潜在语义分析（Probabilistic Latent Semantic Analysis, PLSA)方法或潜在狄利克雷分配（Latent Dirichlet Allocation, LDA)算法得到。
[0092] hjk可以等于网页Wj上广告ak被点击的次数除以广告ak在网页 Wj上总的投放次数。
[0093] 203,根据用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵，确定用户 Ui的用户隐含特征向量、网页Wj的网页隐含特征向量和X个广告各自的广告隐含特征向量。
[0094] 用户对网页的访问历史和对广告的点击历史均能反映用户的兴趣或偏好。而广告点击率与用户兴趣及广告与网页关联度密切相关。本实施例中，通过利用AdRec模型将用户兴趣及广告与网页关联度相结合。
[0095] 下面将以X个广告中的广告ak为例进行描述。应理解，广告ak可以是X个广告中任一广告。
[0096] 具体地，可以基于AdRec模型确定这三个隐含特征向量。图3是根据本发明实施例的AdRec模型的示意图。如图3所示，用户-网页访问矩阵与用户-广告点击矩阵共享用户隐含特征向量A，用户-广告点击矩阵与广告-网页关联度矩阵共享广告隐含特征向量Ak。
[0097] AdRec模型基于如下假设：
[0099] ( 4 )
[0098] (I)假设％、Wj和Ak先验服从正态分布且相互独立，即

【权利要求】
1. 一种推荐广告的方法，其特征在于，包括：从用户访问互联网日志中获取网页访问信息和广告点击信息，所述网页访问信息用于指示m个用户所访问的η个网页，所述广告点击信息用于指示m个用户在η个网页上点击的X个广告，n、m和X均为大于1的正整数；根据所述网页访问信息和所述广告点击信息，预测所述m个用户中第i用户访问第j 网页时所述X个广告的点击概率，其中i为取值从1至m的正整数，j为取值从1至η的正整数；确定所述X个广告分别对应的新颖性因子，所述X个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度；根据所述X个广告的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，其中，所述第i用户对所述P个广告的知晓程度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的知晓程度，所述P个广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点击概率，P为正整数且 P < X。
2. 根据权利要求1所述的方法，其特征在于，所述确定所述X个广告分别对应的新颖性因子，包括：根据历史推荐信息，确定所述X个广告分别对应的新颖性因子，所述历史推荐信息用于指示向所述第i用户分别推荐所述X个广告的历史记录。
3. 根据权利要求2所述的方法，其特征在于，所述根据历史推荐信息，确定所述X个广告分别对应的新颖性因子，包括：对于所述X个广告中的第k广告，如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告，则确定所述第k 广告对应的新颖性因子为第一值；如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告，则确定所述第 k广告对应的新颖性因子为第二值；其中，所述第一值大于所述第二值，k为取值从1至X的正整数。
4. 根据权利要求3所述的方法，其特征在于，所述确定所述第k广告对应的新颖性因子为第二值，包括：确定q天前向所述第i用户推荐过所述第k广告，q为正整数；确定所述q天对应的艾宾浩斯遗忘曲线值；确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
5. 根据权利要求1所述的方法，其特征在于，所述确定所述X个广告分别对应的新颖性因子，包括：对于所述X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度，确定在所述X个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名；对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权，以得到所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
6. 根据权利要求1所述的方法，其特征在于，所述确定所述X个广告分别对应的新颖性因子，包括：对于所述X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离，确定所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
7. 根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述X个广告分别对应的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，包括：对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权，确定所述X个广告分别对应的评分；按照所述X个广告对应的评分从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；将所述排序后的X个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
8. 根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述X个广告分别对应的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，包括：按照点击概率从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；按照新颖性因子从大到小的顺序，对所述排序后的X个广告中的前q个广告重新进行排序，得到重新排序后的q个广告；其中q为正整数且q大于P ; 将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P个广生 1=1 〇
9. 根据权利要求1至8中任一项所述的方法，其特征在于，所述根据所述网页访问信息和所述广告点击信息，预测所述m个用户中第i用户访问第j网页时所述X个广告的点击概率，包括：根据所述网页访问信息和所述广告点击信息，生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵，其中，所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录，所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录，所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度，k为取值从1至X的正整数；对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解，得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量；根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第 k广告的广告隐含特征向量，确定所述第i用户访问所述第j网页时所述第k广告的点击概率。
10. -种广告推荐服务器，其特征在于，包括：获取单元，用于从用户访问互联网日志中获取网页访问信息和广告点击信息，所述网页访问信息用于指示m个用户所访问的η个网页，所述广告点击信息用于指示m个用户在 η个网页上点击的X个广告，n、m和X均为大于1的正整数；预测单元，用于根据所述网页访问信息和所述广告点击信息，预测所述m个用户中第i 用户访问第j网页时所述X个广告的点击概率，其中i为取值从1至m的正整数，j为取值从1至η的正整数；确定单元，用于确定所述X个广告分别对应的新颖性因子，所述X个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度；选择单元，用于根据所述X个广告的点击概率和所述X个广告分别对应的新颖性因子，在所述X个广告中确定待向所述第i用户推荐的P个广告，其中，所述第i用户对所述P个广告的知晓程度低于所述第i用户对所述X个广告中除所述P个广告之外的广告的知晓程度，所述P个广告的点击概率高于所述X个广告中除所述P个广告之外的广告的点击概率， P为正整数且P彡X。
11. 根据权利要求10所述的广告推荐服务器，其特征在于，所述确定单元，具体用于：根据历史推荐信息，确定所述X个广告分别对应的新颖性因子，所述历史推荐信息用于指示向所述第i用户分别推荐所述X个广告的历史记录。
12. 根据权利要求11所述的广告推荐服务器，其特征在于，在根据历史推荐信息，确定所述X个广告分别对应的新颖性因子的方面，所述确定单元，具体用于：对于所述X个广告中的第k广告，如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告，则确定所述第k 广告对应的新颖性因子为第一值；如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告，则确定所述第 k广告对应的新颖性因子为第二值；其中，所述第一值大于所述第二值，k为取值从1至X的正整数。
13. 根据权利要求12所述的广告推荐服务器，其特征在于，在确定所述第k广告对应的新颖性因子为第二值的方面，所述确定单元，具体用于：确定q天前向所述第i用户推荐过所述第k广告，q为正整数；确定所述q天对应的艾宾浩斯遗忘曲线值；确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
14. 根据权利要求10所述的广告推荐服务器，其特征在于，在确定所述X个广告分别对应的新颖性因子的方面，所述确定单元，具体用于：对于所述X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的相似度，确定在所述X个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名；对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权，以得到所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
15. 根据权利要求10所述的广告推荐服务器，其特征在于，在确定所述X个广告分别对应的新颖性因子的方面，所述确定单元，具体用于：对于所述X个广告中的第k广告，确定所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离；根据所述第k广告分别与所述X个广告中除所述第k广告之外的其它广告之间的多样性距离，确定所述第k广告对应的新颖性因子；其中，k为取值从1至X的正整数。
16. 根据权利要求10至15中任一项所述的广告推荐服务器，其特征在于，所述选择单元，具体用于：对所述X个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权，确定所述X个广告分别对应的评分；按照所述X个广告对应的评分从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；将所述排序后的X个广告中的前P个广告确定为待向所述第i用户推荐的P个广告。
17. 根据权利要求10至15中任一项所述的广告推荐服务器，其特征在于，所述选择单元，具体用于：按照点击概率从大到小的顺序，对所述X个广告进行排序，得到排序后的X个广告；按照新颖性因子从大到小的顺序，对所述排序后的X个广告中的前q个广告进行排序，得到重新排序后的q个广告，其中q为正整数且q大于P ; 将所述重新排序后的q个广告中的前P个广告确定为待向所述第i用户推荐的P个广生 1=1 〇
18. 根据权利要求10至17中任一项所述的广告推荐服务器，其特征在于，所述预测单元，具体用于：根据所述网页访问信息和所述广告点击信息，生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵，其中，所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录，所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录，所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度，k为取值从1至X的正整数；对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解，得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量；根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第 k广告的广告隐含特征向量，确定所述第i用户访问所述第j网页时所述第k广告的点击概率。
【文档编号】G06Q30/02GK104090919SQ201410268560
【公开日】2014年10月8日申请日期:2014年6月16日优先权日:2014年6月16日
【发明者】涂丹丹, 张勇申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：涂丹丹;张勇
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。