一种基于迁移学习的在线广告受众排序方法

文档序号：6633246阅读：287来源：国知局

一种基于迁移学习的在线广告受众排序方法
【专利摘要】一种基于迁移学习的在线广告受众排序方法，旨在根据互联网受众对广告的潜在相关性对受众进行排序，使得预算不足的长尾广告主能够通过购买排序靠前的固定数量的用户进行广告投放。本方法假设用户历史行为域与其对广告的偏好域在不同特征空间里，并通过定义相关性转换矩阵建立两者的关系，以减少非相关用户历史行为信息对其广告偏好的影响，进而提出一种改进的基于迁移学习的相关性计算算法——TransferBM25。在此基础上，该方法通过对广告历史数据的预处理、特征抽取、模型训练以及效果评测四个步骤，得到最终的受众排序模型，并根据该模型对广告受众进行排序，从而使得排序后排名靠前的用户具有更高的广告点击概率。
【专利说明】一种基于迁移学习的在线广告受众排序方法

【技术领域】
[0001] 本发明涉及互联网广告数据预处理、特征抽取、模型训练、效果评测方法，特别涉及一种基于迁移学习的在线广告受众排序方法。

【背景技术】
[0002] 科技与互联网在全球的快速发展，带动了一个具有巨大经济价值的新兴产业一在线广告产业。在线广告区别于传统的线下购买的广告投放模式，具有可交互性、可定制、可跟踪、可送达的特点。根据其特点，为优化在线广告的投放效果，使广告主、媒体、受众的收益最大化，一个新兴的学科"计算广告学"诞生了。"计算广告学"旨在根据给定的用户和上下文内容，通过计算得到与之最匹配的广告并进行精准定向投放。
[0003] 行为定向是在线广告中一种主流的受众定向方式，其根据用户的在线历史行为如搜索和网页浏览日志等，将广告正确的投放给对其感兴趣的用户。传统的行为定向方式通过对用户行为进行建模，按照用户对广告的兴趣偏好输出成百上千的用户分段，且每个用户分段会被给予一个标签，如"体育"、"旅行"等，广告主会通过这些标签来判断是否够购买这些用户分段，以尽可能的将广告投放给对其产品感兴趣的受众。然而，这样的受众选择方法过于依赖人工经验，且用户分段中可能包含数百万的用户，一些长尾广告主由于预算有限无法负担起如此大量的用户。为了有效利用有限的预算，广告主希望选择更小范围的受众。根据用户对广告的潜在兴趣，并通过对广告与用户的相关性排序，广告主选择相关性排序靠前的固定数量的用户进行广告投放，从而获得更好的广告收益。该问题称为受众排序问题。受众排序依赖于传统的行为定向中用户行为历史与其对广告的偏好具有潜在相似性的假设。尽管用户的历史行为与其对广告的潜在兴趣有很强的关联性，但是同一用户不同的历史行为信息并不具有完全相同的潜在兴趣意图。例如，某用户的历史查询中包含较多的"牛仔裤"及"迁移学习"，但这两个查询与其对广告的兴趣意图具有不同层次的关联性。 "牛仔裤"更有可能是是对"牛仔裤"服饰感兴趣，如果推荐给其"牛仔裤"的广告，其点击的概率较大；而对于查询"迁移学习"，可能用户只想获得与"迁移学习"的相关概念，而并不能认为其对"迁移学习"的广告感兴趣，何况几乎不存在关于"迁移学习"的广告。
[0004] 综上，本方法提出一种基于迁移学习的在线广告受众排序方法，该方法基于排序学习模型并根据用户对广告的潜在相关性对广告受众进行排序。与传统的行为定向假设不同，本方法假设用户历史行为与用户对广告的潜在兴趣是两个不同的域，存在于不同的特征空间内。通过定义一个转换矩阵建立两个域之间的关系，并提出一种改进的BM25相关性算法--TransferBM25用以减少非相关查询的影响。通过实验表明，本方法提出在线广告受众排序方法是有效的，并且在相同的学习排序模型下，引入迁移知识的TransferBM25在广告点击率提升方面优于传统的BM25相关性算法。

【发明内容】

[0005] 本发明要解决的技术问题是：克服现有技术的不足，提出一种基于迁移学习的在线广告受众排序方法。首先，该方法提出基于排序学习模型，并按用户对广告的潜在相关性对广告受众进行排序。其次，与传统的行为定向假设不同，该方法假设用户历史行为与用户对广告的潜在偏好是两个不同的域，存在于不同的特征空间内。通过定义一个转换矩阵建立两个域之间的关系，并提出一个改进BM25相关性计算算法--TransferBM25,在刻画广告与用户之间的相关性的同时，减少非相关历史行为的影响。最后，该方法提出评价受众排序效果的指标，以验证本方法的正确性与有效性。
[0006] 本发明解决其技术问题所采用的技术方案：一种基于迁移学习的在线广告受众排序方法，包括数据预处理、特征抽取、模型训练、效果评测四部分。
[0007] 数据预处理过程如下：
[0008] 1?抽取广告标题及其描述信息；
[0009] 2.从互联网历史日志中，抽取用户长期的搜索引擎查询信息，并将其聚合在一起；
[0010] 特征抽取过程如下：
[0011] 1.提出引入迁移知识的改进BM25算法--TransferBM25,用于计算广告与用户的相关性分数；
[0012] 2.计算用于排序学习模型训练的特征值；
[0013] 模型训练过程如下：
[0014] 1?采用基于pairwise的SVM Ranking排序学习模型进行训练；
[0015] 实验评测过程如下：
[0016] 1.提出用于受众排序效果评价的指标；
[0017] 2.基于训练后的最优模型对测试数据集中的受众进行排序并对其效果进行评测；
[0018] 本发明与现有技术相比所具有的优点是：
[0019] 1.本发明所述的基于迁移学习的在线广告受众排序方法，基于排序学习模型按用户对广告的潜在相关性对广告受众进行排序，使得排序靠前的用户具有更高的广告点击概率，从而广告主能够有效利用预算，选择靠前的固定数量的用户进行广告投放，获得更好的广告收益。
[0020] 2.本发明所述的基于迁移学习的在线广告受众排序方法，与传统的行为定向假设不同，提出用户历史行为与用户对广告的潜在偏好是两个不同的域，存在于不同的特征空间内的假设，并根据该假设提出引入迁移知识的改进BM25相关性算法--TransferBM25, 将用户历史行为作为辅助域知识迁移到用户对广告的潜在兴趣的目标域，从而减少非相关查询的影响，帮助排序算法更好地刻画用户对广告的相关性特征。通过实验表明，广告受众通过本方法进行排序后，排序靠前的用户具有更高的广告点击率，且引入迁移知识的 TransferBM25算法比传统的BM25算法在该问题上有更好的效果提升。

【专利附图】

【附图说明】
[0021] 图1为本发明方法整体框架结构图；
[0022] 图2为同一排序模型下，TransferBM25与BM25在指标CTR _ % a下的对比示意图；
[0023] 图3为同一排序模型下，TransferBM25与BM25在指标ImprOlOa下的对比示意图。

【具体实施方式】
[0024] 本发明的基于迁移学习的在线广告受众排序方法的整体流程图如图1所示。整体流程包括数据预处理、特征抽取、模型训练、效果评测四部分。
[0025] (一）数据预处理
[0026] 1.抽取广告标题与描述信息
[0027] 在线广告通常提供广告标题和广告描述来呈现广告的具体内容，广告描述比较于广告标题是对广告内容更详尽的表达。广告标题属于简练的短文本信息，广告描述属于详细的长文本信息。本方法通过对广告标题与描述信息的抽取、分词，并用向量空间模型中的词袋模型来表征一幅在线广告。
[0028] 2.从互联网历史日志中，抽取用户长期的搜索引擎查询信息，并将其聚合在一起在互联网使用场景下，用户搜索查询行为大多发生在搜索引擎上，用户的历史查询内容与用户的兴趣意图有很强的关联，本方法通过对用户的长期历史查询内容进行合并汇总、分词，并用向量空间模型中的词袋模型来表示某一用户。
[0029] (二）特征抽取
[0030] 1.提出引入迁移知识的改进BM25算法--TransferBM25,用于计算广告与用户的相关性分数
[0031] 受众排序的主要目标是广告受众经过排序后，使得排名靠前的用户对广告具有更高的点击概率。因此，直接的想法是基于用户的历史广告点击行为去反映他们对广告的偏好。然而，在真实的应用场景中，用户的广告点击行为是非常稀疏的，很多用户从未点击过广告，因此传统的解决方法是基于用户的其他历史行为，如浏览内容、搜索查询等做了一个权衡。尽管这些历史行为与他们对广告的偏好有很强的关联性，但是它们不能完全准确的反映其对广告的潜在意图。如，搜索"牛仔裤"比搜索"迁移学习"具有更强的广告偏好暗 /Jn 〇
[0032] "翻译学习"是迁移学习中的一种，其通过定义一个转换矩阵，将辅助域"翻译"到目标域，从而建立两个特征域空间的关系。本方法基于迁移学习的思想，定义R(a|q)来表示查询q与广告a的相关性，其表达式为：
[0033]

【权利要求】
1. 一种基于迁移学习的在线广告受众排序方法，其特征在于，包括如下步骤：数据预处理、特征抽取、模型训练和效果评测；步骤一：数据预处理过程如下： 1) 抽取广告标题及其描述信息； 2) 从互联网历史日志中，抽取用户长期的搜索引擎查询信息，并将其聚合在一起；步骤二：特征抽取过程如下： 1) 提出引入迁移知识的改进BM25算法--TransferBM25,用于计算广告与用户的相关性分数； 2) 计算用于排序学习模型训练的特征值；步骤三：模型训练过程如下： 1)采用基于Pairwise的SVM Ranking排序学习模型进行训练；步骤四：实验评测过程如下： 1) 提出用于受众排序效果评价的指标； 2) 基于训练后的最优模型对测试数据集中的受众进行排序并对其效果进行评测。
2. 根据权利要求1所述的基于迁移学习的在线广告受众排序方法，其特征在于步骤二：假设用户历史行为域与其对广告的偏好域在不同特征空间里，并通过定义相关性转换矩阵建立两者的关系，以减少非相关用户历史行为信息对其广告偏好的影响，定义R(a I q) 来表示查询q与广告a的相关性，其表达式为：
对于与广告相关性很差的查询，使用次数多，而召回的广告少，因此R(a|q)分值会很低；而对于与广告相关性较强的查询而言，R(a|q)则会得到较高的分值；定义转换矩阵 T[i，j] = R(a」I qi)，则引入迁移知识的用户查询矩阵为Utonsfw = UqUOTy*T，其中Uquwy为原始用户查询矩阵。
3. 根据权利要求2所述的基于迁移学习的在线广告受众排序方法，其特征在于：步骤二中所述的TransferBM25方法如下：对于给定的广告A，用户U以及包含关键词qi. . . qn的广告查询Q，TransferBM25定义为：
其中f(qi，U)为^在用户历史查询U中出现的词频，其计算方法为f(qi，U)= qi |/| q e U|，|U|为用户历史查询中包含的关键词个数，avgl为用户集合中所有用户历史查询中平均包含的关键词个数，k与b为调节参数。R(Alq i)表示查询qi对广告A的相关度分值；IDF(qi)为对qi的反文档频率，其计算的方法如下：
其中N为用户集合中包含的用户个数，n (?)为包含查询词qi的用户个数。
4. 根据权利要求1所述的基于迁移学习的在线广告受众排序方法，其特征在于：步骤三：与信息检索中的文档搜索类似，将广告a看作是查询，用户u看作是文档，并按照两者间的相关性用广告去检索出相关用户集；将用户u对广告a的行为看作是相关性标签；定义1 =1表示用户U点击了广告a, I = O表示用户u浏览但是没有点击；根据相关性标签，生成所有用户对< U1, U2 >表示用户U1相对用户U2对广告的偏好程度；并根据基于pairwise 的SVM ranking排序学习模型进行训练。
5. 根据权利要求1所述的基于迁移学习的在线广告受众排序方法，其特征在于：提出两种用于评价受众排序效果的指标；首先，对于给定广告a，定义：
其中CTRON% a用来表示排序在前N%的用户的平均点击率，CTRa，u表示用户u对于广告a的点击率，其中Clicka，u为用户u对广告a的点击次数，Im preSSi〇na，u为用户u对广告a的浏览次数，a a和β a别为基于先验统计的所有用户对广告a的平均点击次数与平均广告展现次数；其次，定义：
表示排序靠前10%数量的用户对广告a的点击率相比所有用户平均点击率的提升程度。
【文档编号】G06F17/30GK104391883SQ201410616126
【公开日】2015年3月4日申请日期:2014年11月5日优先权日:2014年11月5日
【发明者】张立鑫, 陈真勇, 陈朋杰, 熊璋申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张立鑫;陈真勇;陈朋杰;熊璋;
技术所有人：北京航空航天大学;
我是此专利的发明人

上一篇：计量器具套件及设置计量器具的强制检定认证标识的方法
上一篇：基于图像的数字油画画布的自动生成方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。