一种广告投放方法及装置的制造方法_2

文档序号：9866434阅读：来源：国知局

上广告点击率较低的问题，本发明提供了一种广告投放方法及装置，W下结合附图W及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不限定本发明。
[00%] 实施例1
[0027] 本实施例提供了一种广告投放方法，图1是本发明实施例1提供的广告点击率的预测方法的流程图，如图1所示，该方法包括如下步骤：
[0028] 步骤101:根据广告的历史访问数据确定用户对广告的偏好信息；
[0029] 对广告的点击日志或展示日志对cookie(储存在用户本地终端上的数据）、会话标识ID(IDentity，身份标识）、广告ID进行整合；
[0030] 通过广告的点击日志或展示日志中的广告素材ID与广告素材信息库进行整合得到广告素材的行业描述信息；
[0031] 通过点击日志或展示日志中的cookie与用户信息进行连接整合得到该用户的属性信息与偏好信息；
[0032] 对经过整合的数据进行清洗，去掉不合法的cookie。
[0033] 步骤102:对用户对广告的偏好信息进行特征提取；
[0034] 在对偏好信息进行特征提取之后，如果偏好信息中的特征为具有有限类别的离散型特征，对该离散型特征进行离散化编码;如果偏好数据中的特征为连续型特征，则根据预设模型算法的类型确定是否对连续型特征进行离散化编码。
[0035] 其中，对用户对广告的偏好信息进行特征提取包括:提取用户对广告的偏好信息中的发生点击或展示广告时的上下文环境信息、广告的描述信息、点击W及展示广告的用户属性信息W及用户对广告的偏好信息。
[0036] 步骤103: W提取到的特征数据为训练数据，按照预设的算法模型进行训练得到训练模型；
[0037] 其中，W提取到的特征数据为训练数据，按照预设的算法模型进行训练得到训练模型，包括:使用逻辑回归模型和/或树模型算法对训练数据进行训练，得到训练模型。
[0038] 使用逻辑回归模型和/或树模型算法对训练数据进行训练，得到训练模型，包括：
[0039] 在仅使用逻辑回归模型的情况下，使用逻辑回归模型在训练数据的向量空间中计算每一个特征维度的权重值，针对广告的点击日志或展示日志中的每一条记录计算权重值与对应特征值的加权和，再将加权和代入逻辑回归函数;在仅适用树模型的情况下，使用一个树对训练数据进行训练，逐渐加入新的树对上一次训练得到的模型进行增强，得到训练模型;在同时使用逻辑回归模型W及树模型的情况下，使用树模型对广告的点击日志或展示日志中的每条记录进行分区，得到新的特征集合，使用逻辑回归模型对新的特征集合进行训练。
[0040] 步骤104:使用训练模型对广告测试数据进行预测，得到广告的预测点击率；
[0041] 该步骤104具体可W包括:在得到广告的预测点击率之后，使用广告的验证数据确定广告的最佳点击率阔值;如果广告的预测点击率大于最佳点击率阔值，则投放该广告，否则放弃投放该广告。
[0042] 步骤105:根据的广告预测点击率投放广告。
[0043] 实施例2
[0044] 本实施例提供了一种广告投放方法，该方法在充分挖掘与利用用户对广告的偏好信息的情况下，结合广告素材等多方面数据，选择合适的算法模型来进行广告点击率的预测。在本实施例中利用如下四方面数据作为广告点击率预测的数据源：
[0045] User Profiles(用户配置文件）：通过分析用户在视频网站里观看视频与点击广告等行为挖掘出用户对广告行业偏好信息与视频网站频道偏好信息，另外，还包括用户的性别与年龄等信息，每条信息由用户的cookie标识唯一表示；
[0046] 素材信息库：品牌广告的素材信息库，包括该广告所处的行业、子行业与品类信息；
[0047] 广告点击日志：用户点击广告时记录下的相关信息，如时间、设备类型、操作系统 W及所在投放ID等；
[0048] 广告展示日志：广告展示时记录下的相关信息，如时间、设备类型、操作系统W及所在投放ID等。
[0049] 将W上四方数据进行数据整合与清洗后，对整合与清洗后的数据进行格式化，形成适合算法模型进行训练的数据格式，最后通过选择合适的算法模型进行训练得到预测广告点击率的训练模型并验证，如图2所示，详细过程包括W下几个阶段：
[0050] 数据整合与清洗:用户如果观看了某支广告，并点击了该广告，那么广告展示日志和广告点击日志会同时记录下该日志，且两条日志中记录的cookie、会话IDW及广告位ID 是相同的。如果用户只观看了该广告而没有点击该广告，则仅在广告展示日志里记录有该广告。基于此，对广告点击日志或展示日志通过cookie、会话ID、广告ID进行整合，如果某个用户在某次会话中既观看又点击了该广告，则把运条点击日志记为正样本。如果用户在某次会话中只观看但并无点击该广告，则把运条日志记为负样本。然后，通过日志里的广告素材ID可W与素材信息库进行连接整合得到广告素材的行业描述信息，最后通过日志里的 cookie可W与User Profiles里的用户信息进行连接整合得到该用户的属性信息与用户对广告的偏好信息。
[0051] 其中，上述数据清洗的工作主要是通过一些验证去掉一些不合法的cookie,或者对一些缺失数据进行处理。
[0052] 特征抽取与格式化：
[0053] 对整合与清洗过的数据要进行特征抽取与格式化，得到用于训练的特征，其中，抽取的特征包括的信息具体可W抽取如下Ξ个方面：
[0054] 上下文信息特征，即发生当前广告行为时的上下文环境信息，比如:时间、地点、广告位、频道、子频道、设备类型等；
[0055] 广告信息特征，即广告素材的描述信息，比如:广告行业、子行业与品类信息；
[0056] 用户信息特征，即当前用户的基础信息与偏好信息，比如：用户的性别、年龄、广告偏好、频道偏好。
[0057] 需要对运些特征进行格式化，变成适合算法训练的数据格式，运里分两类特征，类别特征与连续特征，需要分别进行处理。
[005引类别特征:类别特征包括设备类型、用户性别运样的具有有限几种类别的特征。需要对它进行离散化编码，使得算法能够有效理解，采用普遍的化e-hot encoding(-位有效编码)技术对类别特征进行编码。
[0059] 连续特征:连续特征包括素材时长、视频时长，某投放的历史CTR(Click-化rough- Rate，点击到达率)统计值等。连续特征是否需要进行离散化要根据选择的算法模型而定，例如，逻辑回归模型由于要对各维度数据进行线性组合，所W需要进行离散化处理，而使用树模型则不需要进行离散化。连续特征离散化一般采用分段离散的方法，比如广告素材时长，可W分5s为一段进行One-hot encoding编码。
[0060] 模型训练：
[0061] 在本实施中具体可W选择Ξ种算法模型对数据进行训练。分别是逻辑回归模型化ogistic Regression)、G抓T(Gradient

完整全部详细技术资料下载

当前第2页1 2 3 4