一种预测模型的建立方法及终端的制作方法

文档序号：9766243阅读：626来源：国知局

一种预测模型的建立方法及终端的制作方法
【技术领域】
[0001]本发明涉及电子计算领域，尤其涉及一种预测模型的建立方法及终端。
【背景技术】
[0002]广告点击率(Click-Through Rate)预估是互联网计算广告中的关键环节，CTR预估的准确性直接影响公司广告收入。
[0003]目前，在对精准内容(如广告投放/媒体推荐等)的点击率进行预测时，通常是通过建立CTR预测模型进行预测。目前CTR预测模型主要是利用GBDT模型进行建立CTR预测模型。但是，在利用GBDT(Gradient Boosting Decis1n Tree，梯度提升决策树)模型进行建立CTR预测模型时，样本包括的特征信息中可包括枚举型特征信息，枚举型特征信息可如用户的性别、所在地点等，该特征信息取值众多，而由于GBDT模型较为复杂，无法支持非常大规模的训练数据，因此也无法支持取值多的枚举型特征信息。这使得GBDT模型在对样本进行训练时，往往是丢弃掉包括枚举型特征信息的样本进行训练，这使得GBDT模型训练的样本类型过少，从而使得训练获得的CTR预测模型无法准确预估结果，从而降低预测准确率。

【发明内容】

[0004]本发明实施例所要解决的技术问题在于，提供一种预测模型的建立方法及终端。可使得终端基于GBDT模型对枚举型特征信息进行训练获得预测模型，提高预测模型的准确性。
[0005]为了解决上述技术问题，本发明实施例提供了一种预测模型的建立方法，包括:
[0006]从预置的第一训练样本库中获取包括枚举型特征信息的样本；
[0007]将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本；
[0008]从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练，获得预测模型。
[0009]其中，所述获取预置的第一训练样本库之前包括:
[0010]从预置的第二训练样本库中获取样本，其中，所述样本包括所述枚举型特征信息；
[0011]采用逻辑回归模型对所述样本进行训练，获得所述枚举型特征信息所对应的权重；
[0012]建立所述枚举型特征信息与所述权重的对应关系。
[0013]其中，所述将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本包括:
[0014]根据所述枚举型特征信息与所述权重的对应关系，获取所述枚举型特征信息所对应的权重；
[0015]将所述枚举型特征信息转换为所述权重，获得包括所述权重的样本。
[0016]其中，所述从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练，获得预测模型之后还包括:
[0017]根据预置的测试样本对所述预测模型进行测试，获得测试结果；
[0018]根据所述测试结果调整所述预测模式。
[0019]其中，所述从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练，获得预测模型之后包括:
[0020]当接收到待预测的样本时，根据所述预测模型对所述待预测的样本进行计算获得预测结果；
[0021 ]根据所述预测结果输出提示信息。
[0022 ]相应地，本发明实施例还提供了一种终端，包括:
[0023]第一获取单元，用于从预置的第一训练样本库中获取包括枚举型特征信息的样本；
[0024]第二获取单元，用于将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本；
[0025]第一训练单元，用于从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练，获得预测模型。
[0026]其中，所述终端包括:
[0027]第三获取单元，用于从预置的第二训练样本库中获取样本，其中，所述样本包括所述枚举型特征信息；
[0028]第二训练单元，用于采用逻辑回归模型对所述样本进行训练，获得所述枚举型特征信息所对应的权重；
[0029]建立单元，用于建立所述枚举型特征信息与所述权重的对应关系。
[0030]其中，所述第二获取单元包括:
[0031]获取子单元，用于根据所述枚举型特征信息与所述权重的对应关系，获取所述枚举型特征信息所对应的权重；
[0032]转换子单元，用于将所述枚举型特征信息转换为所述权重，获得包括所述权重的样本。
[0033]其中，所述终端还包括:
[0034]测试单元，用于根据预置的测试样本对所述预测模型进行测试，获得测试结果；
[0035]调整单元，用于根据所述测试结果调整所述预测模式。
[0036]其中，所述终端还包括:
[0037]计算单元，用于当接收到待预测的样本时，根据所述预测模型对所述待预测的样本进行计算获得预测结果；
[0038]输出单元，用于根据所述预测结果输出提示信息。
[0039]实施本发明实施例，具有如下有益效果:
[0040]本发明实施例通过从预置的第一训练样本库中获取包括枚举型特征信息的样本，将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本，从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练，获得预测模型，使得终端可基于GBDT模型对枚举型特征信息进行训练获得预测模型，提高预测模型的准确性。
【附图说明】
[0041]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0042]图1是本发明实施例提供的及一种预测模型的建立方法的第一实施例流程示意图；
[0043]图2是本发明实施例提供的及一种预测模型的建立方法的第二实施例流程示意图；
[0044]图3是本发明实施例提供的及一种预测模型的建立方法的第三实施例流程示意图；
[0045]图4是本发明一种终端的第一实施例结构图；
[0046]图5是本发明一种终端的第二实施例结构图；
[0047]图6是本发明一种终端的第三实施例结构图。
【具体实施方式】
[0048]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0049]本发明实施例中所描述的终端可以是进行样本训练的服务器。
[0050]参见图1，是本发明实施例提供的及一种预测模型的建立方法第一实施例流程示意图。本发明实施例的及一种预测模型的建立方法包括如下步骤:
[0051]S100，从预置的第一训练样本库中获取包括枚举型特征信息的样本。
[0052]在本发明实施例中，在进行CTR预估时，终端可构建第一训练样本库，其中，第一训练样本库可以是用户将处理获得的第一训练样本库预置在终端中，或者终端采集样本存储在第一训练样本库，为提高训练稳定性，防止训练过拟合，第一训练样本库可包括适量样本，如几万条样本。进一步的，样本可包括特征信息以及特征信息对应的目标值，特征信息可以是，用户的年龄，性别，地点，职业，学校，手机平台、广告大小，广告文本，广告所属行业，广告图片等信息。具体的，特征信息还可以是枚举型特征信息或数值型特征信息。其中，枚举型特征信息之间不具有大小关系，如性别、地点和学校等特征信息，且枚举型特征信息可包括多个取值，如枚举型特征信息“姓名”可包括多个姓名；数值型特征信息之间具有大小关系，如年龄、C0EC(Click Over Expected Click，超预期点击)等取值为自然数或实数的特征信息，其中，COEC为历史点击量与历史预期点击量的比值，历史预期点击量为展现量与某展现位置上平均点击率的乘积，目标值可以是特征信息对应的点击率。进一步的，样本可以是一组向量，向量包括特征信息对应的特征值及特征信息对应的目标值，目标值的范围可以是在{O，I}之间。
[0053]SlOl，将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本。
[0054]在本发明实施例中，终端可从预置的第一训练样本库中获取包括枚举型特征信息的样本，从而获取样本中的枚举型特征信息。当终端获取到样本中的枚举型特征信息后，终端可根据预置的枚举型特征信息与权重的对应关系，获取枚举型特征信息所对应的权重，其中，权重为一个自然数或实数。当终端获取到枚举型特征信息所对应的权重后，终端可将样本中的枚举型特征信息转换为对应的权重，获得包括权重的样本，即是将包括多个取值的枚举型特征信息简化为一个取值的权重，从而简化了在处理枚举型特征信息的计算量。
[0055]S102，从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江頔;
技术所有人：北京金山安全软件有限公司;
我是此专利的发明人

上一篇：目标集散点选择方法、终端和服务器的制造方法
上一篇：一种基于数据挖掘技术的深水网箱养殖鱼类生长预测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。