广告点击率的预测方法和预测装置与流程

文档序号:14250104阅读:576来源:国知局
广告点击率的预测方法和预测装置与流程

本发明涉及计算机技术领域,具体而言,本发明涉及一种广告点击率的预测方法和预测装置。



背景技术:

随着电子商务的发展,越来越多的商家意识到网站已经成为其展示产品特点和进行营销活动的载体,由此,网络广告也成为继期刊广告、电视广告、广播广告等之后的新媒介广告进入人们的生活。同时,网络广告也成为各大网站的最主要的盈利方式,其中,搜索广告是规模最大,增长最快的网络广告形式,它根据用户搜索的内容投放相关的广告,而相关的广告的投放顺序是根据预估的广告点击率决定的,且该点击率也影响着广告点击的费用。因此,如何有效的利用海量历史数据对搜索广告的点击率进行预测是非常重要的。

目前,对于搜索广告的点击率的预测大多是通过随机梯度优化算法训练逻辑回归模型确定的;但针对海量历史数据来说,通过随机梯度优化算法训练逻辑回归模型确定搜索广告的点击率的方式的可扩展性差且浪费大量时间。



技术实现要素:

为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:

本发明的实施例提出了一种广告点击率的预测方法,包括:

提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本;

基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重;

基于广告特征数据样本中特征关键词的出现频率,选取优选特征数据;

建立原始特征数据与优选特征数据的关联关系,并基于关联关系确定优选特征数据的特征权重;

根据优选特征数据的特征权重,确定待测广告的点击率。

优选地,提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本,包括:

对展现点击日志进行归一化处理,以生成原始特征数据;

将同一广告的原始特征数据进行结合,以生成广告特征数据样本。

优选地,基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重,包括:

基于预定的编码与标识规则,对广告特征数据样本的原始特征数据进行编码及标识处理,以获取原始特征编码信息及相应的特征标识信息;

将获取到的特征标识信息输入预定的训练模型以确定相应的原始特征数据的特征权重。

优选地,建立原始特征数据与优选特征数据的关联关系,包括:

基于预定的编码规则,对优选特征数据进行编码处理,以获取优选特征编码信息;

根据原始特征编码信息及相应的特征标识信息,并结合优选特征数据及相应的优选特征编码信息,来确定优选特征数据及原始特征编码信息相应的特征标识信息的对应关系。

优选地,基于关联关系确定优选特征数据的特征权重,包括:

根据原始特征数据的特征权重,并结合优选特征数据及原始特征编码信息相应的特征标识信息的对应关系,来确定优选特征数据的特征权重。

其中,原始特征数据包括针对点击次数的特征数据和/或针对展现次数的特征数据。

优选地,预估方法还包括:重新随机排序广告特征数据样本。

本发明的另一实施例提出了一种广告点击率的预测装置,包括:

广告特征数据样本获取模块,用于提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本;

第一特征权重确定模块,用于基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重;

优选特征数据选取模块,用于基于广告特征数据样本中特征关键词的出现频率,选取优选特征数据;

第二特征权重确定模块,用于建立原始特征数据与优选特征数据的关联关系,并基于关联关系确定优选特征数据的特征权重;

广告点击率预测模块,用于根据优选特征数据的特征权重,确定待测广告的点击率。

优选地,广告特征数据样本获取模块包括:

生成原始特征数据单元,用于对展现点击日志进行归一化处理;以生成原始特征数据;

生成广告特征数据样本单元,用于将同一广告的原始特征数据进行结合,以生成广告特征数据样本。

优选地,第一特征权重确定模块包括:

第一获取单元,用于基于预定的编码与标识规则,对广告特征数据样本的原始特征数据进行编码及标识处理,以获取原始特征编码信息及相应的特征标识信息;

第一特征权重确定单元,用于将获取到的特征标识信息输入预定的训练模型以确定相应的原始特征数据的特征权重。

优选地,第二特征权重确定模块包括:

第二获取单元,用于基于预定的编码规则,对优选特征数据进行编码处理,以获取优选特征编码信息;

对应关系确定单元,用于根据原始特征编码信息及相应的特征标识信息,并结合优选特征数据及相应的优选特征编码信息,来确定优选特征数据及原始特征编码信息相应的特征标识信息的对应关系。

优选地,第二特征权重确定模块还包括:

第二特征权重确定单元,用于根据原始特征数据的特征权重,并结合优选特征数据及原始特征编码信息相应的特征标识信息的对应关系,来确定优选特征数据的特征权重。

其中,原始特征数据包括针对点击次数的特征数据和/或针对展现次数的特征数据。

优选地,预估装置还包括:

广告特征数据样本排序模块,用于重新随机排序广告特征数据样本。

本发明的技术方案基于生成的广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重,可高效利用海量历史数据进行训练模型的权重计算;且通过预定的训练模型确定权重方式的可扩展性好;同时通过建立原始特征数据与优选特征数据的关联关系,确定优选特征数据的特征权重,从而准确的确定待测广告的点击率,为进一步合理地设置广告的投放顺序提供了前提保证,为最终实现获得最大的经济效益提供了可能。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明中一个实施例的广告点击率的预测方法的流程示意图;

图2为本发明的具体实施例中生成广告特征数据样本的流程示意图;

图3为本发明的具体实施例中确定相应的原始特征数据的特征权重的流程示意图;

图4为本发明的具体实施例中建立原始特征数据与优选特征数据的关联关系的流程示意图;

图5为本发明中另一实施例的广告点击率的预测装置的结构框架示意图;

图6为本发明的具体实施例中广告特征数据样本获取模块的结构框架示意图;

图7为本发明的具体实施例中第一特征权重确定模块的结构框架示意图;

图8为本发明的具体实施例中第二特征权重确定模块的结构框架示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

图1为本发明中一个实施例的广告点击率的预测方法的流程示意图。

步骤s101:提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本;步骤s102:基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重;步骤s103:基于广告特征数据样本中特征关键词的出现频率,选取优选特征数据;步骤s104:建立原始特征数据与优选特征数据的关联关系,并基于关联关系确定优选特征数据的特征权重;步骤s105:根据优选特征数据的特征权重,确定待测广告的点击率。

本发明的技术方案基于生成的广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重,可高效利用海量历史数据进行训练模型的权重计算;且通过预定的训练模型确定的权重的方式的可扩展性好;同时通过建立原始特征数据与优选特征数据的关联关系,确定优选特征数据的特征权重,从而准确的确定待测广告的点击率,为进一步合理地设置广告的投放顺序提供了前提保证,为最终实现获得最大的经济效益提供了可能。

以下针对各个步骤的具体实现做进一步的说明:

步骤s101:提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本。

具体地,首先,提取多个广告在预定历史时间内的展现点击日志的方式包括:通过网站跟踪方法对用户访问网站的行为数据进行收集并保存在网络服务器的记录文件中,网络服务器通过提取该记录文件中的行为数据并对该行为数据进行分析以提取关于用户查询词与搜索广告的展示以及点击的数据,以生成展现点击日志。

对展现点击日志进行数据处理以生成广告特征数据样本的步骤,如图2所述,包括:步骤s201:对展现点击日志进行归一化处理,以生成原始特征数据;步骤s202:将同一广告的原始特征数据进行结合,以生成广告特征数据样本。

其中,原始特征数据包括针对特征关键词的点击次数的特征数据和/或针对特征关键词的展现次数的特征数据。特征关键词包括但不限于:广告关键词、广告题目分词与广告关键词分词的组合以及广告竞价词。例如,原始特征数据包括但不限于:在用户查询词为广告关键词的情况下,广告的点击次数和展现次数、在用户查询词为广告题目分词与广告关键词分词的组合情况下,广告的点击次数和展现次数以及在用户查询词为广告竞价词的情况下,广告的点击次数和展现次数。

具体地,将展示点击日志进行归一化处理,并对归一化处理后的展示点击日志进行统计以获取所记录的在不同的用户查询词下,每条广告的点击次数和展现次数的数据,以生成原始特征数据;并将同一广告的原始特征数据组成一个广告特征数据样本。通过将展示点击日志归一化处理,加快后续数据计算处理速度;且通过对原始特征数据的扩展和结合,使得广告特征数据样本中的原始特征类别繁多,进一步有利于准确且快速寻找有意义的特征数据。

其中,原始特征数据可通过键值对的形式进行存储,如键为“广告关键词”,值为相应的“广告的点击次数”。

步骤s102:基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重。如图3所示,步骤s102进一步包括:步骤s301:基于预定的编码与标识规则,对广告特征数据样本的原始特征数据进行编码及标识处理,以获取原始特征编码信息及相应的特征标识信息;步骤s302:将获取到的特征标识信息输入预定的训练模型以确定相应的原始特征数据的特征权重。

其中,编码规则包括但不限于:根据哈希算法对原始特征数据的特征关键词进行编码。

标识规则包括但不限于:根据数字从小到大的顺序对原始特征数据的特征关键词中键值对的值进行编号。

原始特征编码信息包括但不限于:原始特征数据的特征关键词对应的哈希值。

特征标识信息包括但不限于:原始特征数据的特征关键词中键值对的值对应的id编号。

具体地,对原始特征数据的特征关键词进行哈希值的计算,且对该所有原始特征数据的特征关键词中键值对的值依次进行编号;以获取原始特征数据的特征关键词对应的哈希值和与原始特征数据的特征关键词对应的哈希值相对应的原始特征数据的特征关键词中键值对的值对应的id编号。例如,原始特征数据为:特征关键词“鲜花速递”,特征关键词“鲜花速递”中键值对的值“1”;则原始特征编码信息为“鲜花速递”的哈希值,特征标识信息为特征关键词“鲜花速递”中键值对的值“1”对应的id编号0,以获取原始特征数据的特征关键词“鲜花速递”的哈希值和该哈希值对应的id编号0,即以“hash-id”的形式表示。

其中,训练模型包括但不限于:sdca模型(stochasticdualcoordinateascent,随机对偶坐标上升)。

具体地,将特征识信息输入到sdca模型,以确定相应的原始特征数据的特征权重。在sdca模型中,通过损失函数确定id编号相应的原始特征数据的特征权重;例如,基于损失函数和梯度下降法确定损失函数的最小值,以确定id编号相应的原始特征数据的特征权重。

步骤s102不但高效地利用海量历史数据进行训练模型的权重计算,且通过sdca模型确定权重的方式可扩展性好;同时,通过步骤s301对原始特征数据进行编码和标识处理,可以减小原始特征数据大小和长度,减少存储空间,加速后续权重的计算速度。步骤s302中将特征标识信息作为sdca模型输入,能够快速计算相应的原始特征数据的特征权重。

步骤s103:基于广告特征数据样本中特征关键词的出现频率,选取优选特征数据。

具体地,选取特征关键词在广告特征数据样本中的出现频率高于预设的出现频率阈值的原始特征数据作为优选特征数据。通过选取优选特征数据,确定对于广告点击率最有参考意义的特征数据,更能准确预测待测广告的点击率。

步骤s104:建立原始特征数据与优选特征数据的关联关系,并基于关联关系确定优选特征数据的特征权重。

具体地,建立原始特征数据与优选特征数据的关联关系的步骤,如图4所示,包括:步骤s401:基于预定的编码规则,对优选特征数据进行编码处理,以获取优选特征编码信息;步骤s402:根据原始特征编码信息及相应的特征标识信息,并结合优选特征数据及相应的优选特征编码信息,来确定优选特征数据及原始特征编码信息相应的特征标识信息的对应关系。

其中,编码规则包括但不限于:根据哈希算法对优选特征数据的特征关键词进行编码。

优选特征编码信息包括但不限于:优选特征数据的特征关键词对应的哈希值。

更具体地,对优选特征数据的特征关键词进行哈希值的计算,以获取特征关键词对应的哈希值。例如,优选特征数据的特征关键词为“鲜花速递”;则优选特征编码信息为“鲜花速递”的哈希值,以“hash-明文”的形式来表示“鲜花速递”及相应哈希值。

具体地,基于关联关系确定优选特征数据的特征权重的步骤,包括:根据原始特征数据的特征权重,并结合优选特征数据及原始特征编码信息相应的特征标识信息的对应关系,来确定优选特征数据的特征权重。

更具体地,原始特征数据的特征关键词的特征权重与原始特征数据的特征关键词的对应的数值的id编号相对应,即以“id-特征权重”的形式表示;基于优选特征数据的特征关键词对应的哈希值对应的id编号,来确定优选特征数据的特征关键词的特征权重,即以“明文-特征权重”的形式表示。例如,原始特征数据的特征关键词“鲜花速递”的特征权重为w1,其对应的特征关键词“鲜花速递”的数值的id编号“0”,即以“0-w1”的形式表示;基于优选特征数据的特征关键词“鲜花速递”对应的id编号也为“0”,来确定优选特征数据的特征关键词“鲜花速递”的特征权重为w1,即以“鲜花速递-w1”的形式表示。通过关联关系确定的优选特征数据的特征权重,使得最终确定的优选特征数据的特征权重又返回到最初的以明文文本格式数据进行显示,方便用户和商家进行查看和调取,节省了人力和时间成本。

步骤s105:根据优选特征数据的特征权重,确定待测广告的点击率。

具体地,待测广告的点击率通过预测函数确定,预测函数如下式1)所示:

式1)中,w为特征权重,x为最优特征数据的特征向量,intercept是sdca模型的偏置。

根据预测函数,写出要解决的原问题,如式2)和式3):

其中,yi表示第n个样本是否点击,xi是第n个样本的特征向量;

根据原问题表达式,写出它的对偶问题表达式4):

其中,λ是正则参数;

整理得:

对偶问题d(α)的子问题容易求解,其子问题如下式6):

对偶问题的解法如下7):

上式没有closeform的解,可以使用newtonmethod迭代求解,由于δαi是标量,非常容易求2阶导数,每次迭代代价非常小,o(1)时间复杂度。

利用预测广告点击率的步骤可以对提取的点击展现日志中的广告的点击率进行预测,以对sdca模型的评估其好坏,并对sdca模型进行修正,以保证准确预测广告点击率。

具体地,本实施例还包括:重新随机排序广告特征数据样本的步骤。

在步骤s101和步骤s103之间,还包括:打乱广告特征数据样本原有的顺序,重新随机排序广告特征数据样本的步骤。重新对广告特征数据样本进行随机排序,确保原始特征数据分布均匀,保证广告特征数据样本独立同分布,并提高了训练模型的训练稳定度和训练效果准确度。

优选特征数据的特征权重的文本格式数据、广告特征数据样本数据、原始特征编码信息及相应的特征标识信息等均保存在hadoop分布式文件系统中,并且将优选特征数据的特征权重的文本格式数据下载到azkaban所部属的跳板机上,以提供用户线上预测广告点击率的服务。为了节约hadoop分布式文件系统的空间,在确定优选特征数据的特征权重的文本格式数据后,删除广告特征数据样本、原始特征编码信息及相应的特征标识信息。

图5为本发明中另一实施例的广告点击率的预测装置的结构框架示意图。

广告特征数据样本获取模块501提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本;第一特征权重确定模块502基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重;优选特征数据选取模块503基于广告特征数据样本中特征关键词的出现频率,选取优选特征数据;第二特征权重确定模块504建立原始特征数据与优选特征数据的关联关系,并基于关联关系确定优选特征数据的特征权重;广告点击率预测模块505根据优选特征数据的特征权重,确定待测广告的点击率。

以下针对各个模块的具体实现做进一步的说明:

广告特征数据样本获取模块501提取多个广告在预定历史时间内的展现点击日志,并对展现点击日志进行数据处理以生成广告特征数据样本。

具体地,首先,提取多个广告在预定历史时间内的展现点击日志的方式包括:通过网站跟踪方法对用户访问网站的行为数据进行收集并保存在网络服务器的记录文件中,网络服务器通过提取该记录文件中的行为数据并对该行为数据进行分析以提取关于用户查询词与搜索广告的展示以及点击的数据,以生成展现点击日志。

广告特征数据样本获取模块501,如图6所示,进一步包括:生成原始特征数据单元601对展现点击日志进行归一化处理,以生成原始特征数据;生成广告特征数据样本单元602将同一广告的原始特征数据进行结合,以生成广告特征数据样本。

其中,原始特征数据包括针对特征关键词的点击次数的特征数据和/或针对特征关键词的展现次数的特征数据。特征关键词包括但不限于:广告关键词、广告题目分词与广告关键词分词的组合以及广告竞价词。例如,原始特征数据包括但不限于:在用户查询词为广告关键词的情况下,广告的点击次数和展现次数、在用户查询词为广告题目分词与广告关键词分词的组合情况下,广告的点击次数和展现次数以及在用户查询词为广告竞价词的情况下,广告的点击次数和展现次数。

具体地,生成原始特征数据单元601将展示点击日志进行归一化处理,并对归一化处理后的展示点击日志进行统计以获取所记录的在不同的用户查询词下,每条广告的点击次数和展现次数的数据,以生成原始特征数据;生成广告特征数据样本单元602将同一广告的原始特征数据组成一个广告特征数据样本。通过将展示点击日志归一化处理,加快后续数据计算处理速度;且通过对原始特征数据的扩展和结合,使得广告特征数据样本中的原始特征类别繁多,进一步有利于准确且快速寻找有意义的特征数据。

其中,原始特征数据可通过键值对的形式进行存储,如键为“广告关键词”,值为相应的“广告的点击次数”。

第一特征权重确定模块502基于广告特征数据样本的原始特征数据,通过预定的训练模型以确定相应的原始特征数据的特征权重;第一特征权重确定模块502,如图7所示,进一步包括:第一获取单元701基于预定的编码与标识规则,对广告特征数据样本的原始特征数据进行编码及标识处理,以获取原始特征编码信息及相应的特征标识信息;第一特征权重确定单元702将获取到的特征标识信息输入预定的训练模型以确定相应的原始特征数据的特征权重。

其中,编码规则包括但不限于:根据哈希算法对原始特征数据的特征关键词进行编码。

标识规则包括但不限于:根据数字从小到大的顺序对原始特征数据的特征关键词中键值对的值进行编号。

原始特征编码信息包括但不限于:原始特征数据的特征关键词对应的哈希值。

特征标识信息包括但不限于:原始特征数据的特征关键词中键值对的值对应的id编号。

具体地,第一获取单元701对原始特征数据的特征关键词进行哈希值的计算,且对该所有原始特征数据的特征关键词中键值对的值依次进行编号;以获取原始特征数据的特征关键词对应的哈希值和与原始特征数据的特征关键词对应的哈希值相对应的原始特征数据的特征关键词中键值对的值对应的id编号。例如,原始特征数据为:特征关键词“鲜花速递”,特征关键词“鲜花速递”中键值对的值“1”;则原始特征编码信息为“鲜花速递”的哈希值,特征标识信息为特征关键词“鲜花速递”中键值对的值“1”对应的id编号0,以获取原始特征数据的特征关键词“鲜花速递”的哈希值和该哈希值对应的id编号0,即以“hash-id”的形式表示。

其中,训练模型包括但不限于:sdca模型(stochasticdualcoordinateascent,随机对偶坐标上升)。

具体地,第一特征权重确定单元702将特征识信息输入到sdca模型,以确定相应的原始特征数据的特征权重。在sdca模型中,通过损失函数确定id编号相应的原始特征数据的特征权重;例如,基于损失函数和梯度下降法确定损失函数的最小值,以确定id编号相应的原始特征数据的特征权重。

第一特征权重确定模块502不但高效地利用海量历史数据进行训练模型的权重计算,且通过sdca模型确定权重的方式可扩展性好;同时,通过第一获取单元701对原始特征数据进行编码和标识处理,可以减小原始特征数据大小和长度,减少存储空间,加速后续权重的计算速度。第一特征权重确定单元702中将特征标识信息作为sdca模型输入,能够快速计算相应的原始特征数据的特征权重。

优选特征数据选取模块503基于广告特征数据样本中特征关键词的出现频率,选取优选特征数据。

具体地,优选特征数据选取模块503选取特征关键词在广告特征数据样本中的出现频率高于预设的出现频率阈值的原始特征数据作为优选特征数据。通过选取优选特征数据,确定对于广告点击率最有参考意义的特征数据,更能准确预测待测广告的点击率。

第二特征权重确定模块504建立原始特征数据与优选特征数据的关联关系,并基于关联关系确定优选特征数据的特征权重。第二特征权重确定模块504,如图8所示,进一步包括:第二获取单元801基于预定的编码规则,对优选特征数据进行编码处理,以获取优选特征编码信息;对应关系确定单元802根据原始特征编码信息及相应的特征标识信息,并结合优选特征数据及相应的优选特征编码信息,来确定优选特征数据及原始特征编码信息相应的特征标识信息的对应关系。

其中,编码规则包括但不限于:根据哈希算法对优选特征数据的特征关键词进行编码。

优选特征编码信息包括但不限于:优选特征数据的特征关键词对应的哈希值。

更具体地,第二获取单元801对优选特征数据的特征关键词进行哈希值的计算,以获取特征关键词对应的哈希值。例如,优选特征数据的特征关键词为“鲜花速递”;则优选特征编码信息为“鲜花速递”的哈希值,以“hash-明文”的形式来表示“鲜花速递”及相应哈希值。

首先,对应关系确定单元802比对原始特征数据的特征关键词对应的“hash-id”中的哈希值与优选特征数据的特征关键词对应的“hash-明文”中的哈希值,确定具有相同哈希值的“hash-id”及“hash-明文”,通过原始特征数据的特征关键词对应的哈希值对应的id编号,来确定具有相同哈希值的优选特征数据的特征关键词对应的id编号,以“明文-id”的形式表示。例如,比对原始特征数据的特征关键词对应的“hash-id”中的哈希值与优选特征数据的特征关键词对应的“hash-明文”中的哈希值,确定具有相同哈希值“hash1”的“hash1-0”及“hash1-鲜花速递”,来确定以“鲜花速递-0”的形式表示最优特征数据的特征关键词“鲜花速递”对应的id编号为0。通过建立原始特征数据与优选特征数据的特征编码信息的关系,将优选特征关键词进行id编号,为确定优选特征数据的特征权重提供了便利。

具体地,第二特征权重确定模块504还包括:第二特征权重确定单元803根据原始特征数据的特征权重,并结合优选特征数据及原始特征编码信息相应的特征标识信息的对应关系,来确定优选特征数据的特征权重。

更具体地,第二特征权重确定单元803将原始特征数据的特征关键词的特征权重与原始特征数据的特征关键词的对应的数值的id编号相对应,即以“id-特征权重”的形式表示;基于优选特征数据的特征关键词对应的哈希值对应的id编号,来确定优选特征数据的特征关键词的特征权重,即以“明文-特征权重”的形式表示。例如,原始特征数据的特征关键词“鲜花速递”的特征权重为w1,其对应的特征关键词“鲜花速递”的数值的id编号“0”,即以“0-w1”的形式表示;基于优选特征数据的特征关键词“鲜花速递”对应的id编号也为“0”,来确定优选特征数据的特征关键词“鲜花速递”的特征权重为w1,即以“鲜花速递-w1”的形式表示。通过关联关系确定的优选特征数据的特征权重,使得最终确定的优选特征数据的特征权重又返回到最初的以明文文本格式数据进行显示,方便用户和商家进行查看和调取,节省了人力和时间成本。

广告点击率预测模块505根据优选特征数据的特征权重,确定待测广告的点击率。

具体地,待测广告的点击率通过预测函数确定,预测函数如下式1)所示:

式1)中,w为特征权重,x为最优特征数据的特征向量,intercept是sdca模型的偏置。

根据预测函数,写出要解决的原问题,如式2)和式3):

其中,yi表示第n个样本是否点击,xi是第n个样本的特征向量;

根据原问题表达式,写出它的对偶问题表达式4):

其中,λ是正则参数;

整理得:

对偶问题d(α)的子问题容易求解,其子问题如下式6):

对偶问题的解法如下7):

上式没有closeform的解,可以使用newtonmethod迭代求解,由于δαt是标量,非常容易求2阶导数,每次迭代代价非常小,o(1)时间复杂度。利用预测广告点击率的步骤可以对提取的点击展现日志中的广告的点击率进行预测,以对sdca模型的评估其好坏,并对sdca模型进行修正,以保证准确预测广告点击率。

具体地,本实施例预测装置还包括:广告特征数据样本排序模块重新随机排序广告特征数据样本。

广告特征数据样本排序模块获取广告特征数据样本获取模块501的广告特征数据样本,并打乱广告特征数据样本原有的顺序,重新随机排序广告特征数据样本;将重新随机排序的广告特征数据样本发送到第一特征权重确定模块502中。重新对广告特征数据样本进行随机排序,确保原始特征数据分布均匀,保证广告特征数据样本独立同分布,并提高了训练模型的训练稳定度和训练效果准确度。

优选特征数据的特征权重的文本格式数据、广告特征数据样本数据、原始特征编码信息及相应的特征标识信息等均保存在hadoop分布式文件系统中,并且将优选特征数据的特征权重的文本格式数据下载到azkaban所部属的跳板机上,以提供用户线上预测广告点击率的服务。为了节约hadoop分布式文件系统的空间,在确定优选特征数据的特征权重的文本格式数据后,删除广告特征数据样本、原始特征编码信息及相应的特征标识信息。

本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随即存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1