广告反作弊方法及装置的制造方法

文档序号:10656592阅读:268来源:国知局
广告反作弊方法及装置的制造方法
【专利摘要】本发明公开了一种广告反作弊方法及装置;方法包括:获取样本集合,其中,样本集合中的至少一个样本包括作弊用户、以及作弊用户点击广告的点击日志;从样本集合的样本中提取与待识别的作弊用户的层级对应的至少一个维度的特征,其中,不同层级待识别的作弊用户所对应的特征不同;将作弊用户、作弊用户点击广告的点击日志对应至少一个维度的特征形成正样本,至少基于正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练;确定待识别的样本对应至少一个维度的特征;将待识别样本对应至少一个维度的特征输入训练后的作弊用户识别模型,识别出待识别的样本中的作弊用户。实施本发明,能够准确识别互联网中进行广告作弊的作弊用户。
【专利说明】
广告反作弊方法及装置
技术领域
[0001] 本发明设及通信领域的互联网广告技术,尤其设及一种广告反作弊方法及装置。
【背景技术】
[0002] 目前,广告主存在向用户推送广告W对产品或服务进行宣传的需求,伴随互联网 用户尤其是移动互联网用户的快速增长,互联网广告成为广告投放的新的形式,互联网广 告的投放量也呈现快速增长的趋势。
[0003] 在互联网广告的生态系统中,流量方基于用户提供各种形式的基于互联网的服务 (如提供新闻、媒体播放、在线游戏等各种形式),在用户使用服务的过程中广告系统向用户 使用的服务中(如用户使用的应用,或用户访问的网页)投放广告,如果用户点击广告则使 广告的点击量(也称为广告流量)增加,可见流量方基于自身所拥有的广告资源(如应用中 的广告、网页中的广告位等)对广告的点击量进行消耗。
[0004] 上述互联网广告的系统中存在W下问题:
[0005] 流量方为了提高用户在拥有的广告资源上投放的广告的点击量,W获取更多的收 入,会采用作弊的方式对广告资源上投放的广告进行点击,从而形成广告的虚假的点击量 (也成为虚假广告流量),而对于准确识别作弊用户W从广告的点击量中过滤虚假的点击 量,相关技术尚无有效解决方案。

【发明内容】

[0006] 本发明实施例提供一种广告反作弊方法及装置,能够准确识别互联网中进行广告 作弊的作弊用户。
[0007] 本发明实施例的技术方案是运样实现的:
[000引第一方面,本发明实施例提供一种广告反作弊方法,所述方法包括:
[0009] 获取样本集合,其中,所述样本集合中的至少一个样本包括作弊用户、W及所述作 弊用户点击广告的点击日志;
[0010] 从所述样本集合的样本中提取与待识别的作弊用户层级对应的至少一个维度的 特征,其中,不同层级待识别的作弊用户所对应的特征不同;
[0011] 基于所述作弊用户、所述作弊用户点击广告的点击日志在所述至少一个维度的特 征形成正样本,至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模 型进行训练;
[0012] 确定待识别的样本对应所述至少一个维度的特征;
[0013] 将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识 别模型,基于输出结果识别出所述待识别的样本中的作弊用户。
[0014] 第二方面,本发明实施例提供一种广告反作弊装置,所述装置包括:
[0015] 样本模块,用于获取样本集合,其中,所述样本集合中的至少一个样本包括作弊用 户、W及所述作弊用户点击广告的点击日志;
[0016] 提取模块,用于从所述样本集合的样本中提取与待识别的作弊用户的层级对应的 至少一个维度的特征,其中,不同层级所述待识别的作弊用户所对应的特征不同.
[0017] 模型训练模块,用于基于所述作弊用户、所述作弊用户点击广告的点击日志在所 述至少一个维度的特征形成正样本,至少基于所述正样本对与待识别的作弊用户的层级对 应的作弊用户识别模型进行训练;
[0018] 模型应用模块,用于确定待识别的样本对应所述至少一个维度的特征;将所述待 识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型,基于输出结 果识别出所述待识别的样本中的作弊用户。
[0019] 本发明实施例中,基于待识别的作弊用户的不同层级,从样本中提取相应的特征 对相应层级作弊用户识别模型进行训练,从而可W利用训练后的模型对不同层级的作弊用 户进行有针对性的全面的识别。
【附图说明】
[0020] 图1-1为本发明实施例中广告反作弊装置的一个可选的架构示意图;
[0021] 图1-2为本发明实施例中广告反作弊装置的一个可选的架构示意图;
[0022] 图2为本发明实施例中广告反作弊装置识别低层级作弊用户的一个可选的实现示 意图;
[0023] 图3-1为本发明实施例中识别低层级作弊用户的一个可选的流程示意图;
[0024] 图3-2为本发明实施例中识别低层级作弊用户的一个可选的流程示意图;
[0025] 图4为本发明实施例中训练中层级作弊用户识别模型、W及利用中层级作弊用户 识别模型识别中层级作弊用户的一个可选的实现示意图;
[0026] 图5为本发明实施例中识别高层级作弊用户的一个可选的流程示意图;
[0027] 图6为本发明实施例中训练高层级作弊用户识别模型、W及利用高层级作弊用户 识别模型识别高层级作弊用户的一个可选的实现示意图;
[0028] 图7为本发明实施例中示广告反作弊系统进行作弊用户识别的一个可选的示意 图;
[0029] 图8为本发明实施例中广告反作弊系统的一个可选的功能架构示意图;
[0030] 图9为本发明实施例中示广告反作弊系统进行作弊用户识别的一个可选的示意 图。
【具体实施方式】
[0031] W下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的 实施例仅仅用W解释本发明,并不用于限定本发明。另外,W下所提供的实施例是用于实施 本发明的部分实施例,而非提供实施本发明的全部实施例,在本领域技术人员不付出创造 性劳动的前提下,对W下实施例的技术方案进行重组所得的实施例、W及基于对发明所实 施的其他实施例均属于本发明的保护范围。
[0032] 需要说明的是,在本发明实施例中,术语"包括"、"包含"或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要 素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要 素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括该要素 的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元)。
[0033] 本发明实施例中设及的名词和术语适用于如下的解释。
[0034] 广告曝光:广告在用户侧的广告位(如用户访问的页面中的广告位、用户使用的应 用中的广告位)展示,广告在用户侧展示一次称为一次广告曝光。
[0035] 广告点击:用户在终端(如智能手机、平板电脑)通过点击广告而访问广告主的页 面,用户点击一次广告而访问广告主的页面,称为广告点击。
[0036] 广告效果:广告在被曝光后,用户点击广告从而在广告主的网页下单购买商品或 下载应用,称为广告效果。
[0037] 点击率:广告点击量与广告曝光次数的比值。
[0038] 水军:受雇于网络公司通过点击广告、下载应用或发帖回帖等手段达到盈利或营 造舆论等目的的网络人员,本发明实施例中也称为作弊用户。
[0039] 广告作弊:在广告曝光、点击、效果等环节,用户出于某种恶意的目的,存在可W提 升广告曝光次数、广告点击量、广告效果的行为,运种作弊用户的恶意的行为称为广告作 弊。
[0040] 广告反作弊:对广告曝光、点击和效果等环节进行检查,判断广告曝光、广告点击、 广告效果等是由于用户侧的正常访问触发,还是由于作弊用户通过广告作弊手段实现。
[0041] 广告反作弊系统:对广告曝光、广告点击和广告效果等环节进行反作弊检查的系 统。
[0042] 广告反作弊策略:广告反作弊系统为打击作弊行为所使用的一系列规则,每种规 则称为一种策略。
[0043] 广告任务平台:仅提供广告浏览、广告点击或应用下载等有偿任务的平台,平台用 户通过完成有偿任务获取积分来兑换钱或奖品,平台用户的广告点击行为与作弊用户的广 告点击行为类似。
[0044] 高(第一)层级作弊用户:专业的作弊用户群体,对反作弊系统了解透彻,一群高层 级的作弊用户共同点击一批应用(APP),高层级作弊用户使用的应用是带壳的虚假APP,专 用于供高层级作弊用户进行广告作弊,保证单个作弊用户的行为与正常用户无异,多为作 弊软件伪造的用户群体。
[0045] 中(第二)层级作弊用户:专业的作弊用户、对反作弊系统有所了解,长期分散地、 有间歇地点击广告,多为广告任务平台的用户或职业水军。
[0046] 低(第S)层级作弊用户:无组织的作弊用户、对反作弊系统了解较少,短时间内点 击大量广告,多为流量方内部或周边人员。
[0047] 在互联网广告的生态系统中,部分流量方为了获取更高的点击率和收入,会短期 或长期自己内部或雇佣水军或诱导用户来点击自己流量上的广告。反作弊系统(本发明实 施例中W反作弊装置实施为反作弊系统为例进行说明)需要识别出作弊用户并过作弊用户 针对广告的点击量。
[0048] 相关技术提供的反作弊系统能够识别比较明显的作弊用的广告作弊行为,但随着 作弊用户的作弊手段的变化和深入,一些隐藏更深的作弊用户难W识别。
[0049] 针对运种情况,本发明实施例提供一种广告反作弊方法、W及应用广告反作弊方 法的广告反作弊装置,广告反作弊装置可W采用各种方式来实施,W下对广告反作弊装置 的实施方式进行说明。
[0050] 在一个示例中,参见图1-1示出的广告反作弊装置的一个可选的架构示意图,广告 反作弊装置实施为广告反作弊系统(实际应用中可W服务器或服务器集群的形式实现,可 选地,W云服务的形式提供广告反作弊业务),广告反作弊系统与广告系统连接,下面对广 告系统进行说明。
[0051] 广告系统根据广告主设定的投放广告的定向条件(如广告受众的年龄、地域、群 体、消费能力等信息)向相应的用户的终端的广告位投放广告,并根据用户对广告的点击情 况,对应形成每个统计时段(如一周)的点击日志,点击日日志中用于记录用户针对广告的 点击的各种信息如点击量、点击时间等。
[0052] 另外,对于每个统计时段,广告系统还统计形成曝光日志,示例性地,曝光日志包 括用户所点击的广告所曝光的对象如应用、商品等。
[0053] 此外,对于每个统计时段,广告系统对应每个应用还统计形成效果日志,示例性 地,效果日志包括用户点击广告后所达到的针对广告的曝光对象实现的效果。
[0054] 除此之外,对于每个统计时段,广告系统对应统计用户点击广告所使用的设备的 信息,如设备的硬件信息和软件信息等。
[0055] 广告反作弊系统从广告系统获取用户点击广告的点击日志、效果日志、曝光日志、 W及用户的设备信息等,基于上述至少一种信息进行处理形成用于识别不同层级的作弊用 户的模型,进而利用不同的模型识别出不同层级的作弊用户,还可对作弊用户点击广告的 点击量进行过滤处理,W确保统计到的用户侧的广告点击量的准确性。
[0056] 在另一个示例中,参见图1-2,广告反作弊装置作为图1-1示出的广告系统的一个 功能模块禪合入广告系统中,广告反作弊装置从广告系统获取用户点击广告的点击日志、 效果日志、曝光日志、W及用户的设备信息等,基于上述至少一种信息进行处理形成用于识 别不同层级的作弊用户的模型,进而利用不同的模型识别出对应层级的作弊用户,还可对 作弊用户点击广告的点击量进行过滤处理,W确保统计到的用户侧的广告点击量的准确 性。
[0057] 需要指出的是,图1-1和图1-2示出的广告反作弊处理装置可选的架构仅仅是示意 性的,实际应用中可W根据图1-1和图1-2示出的广告反作弊处理装置进行轻易变换而W不 同的方式实施。
[0058] 下面结合图1-1对广告反作弊系统针对低层级作弊用户、中层级作弊用户和高层 级作弊用户的识别进行说明,对于基于图1-2示出的广告反作弊装置对广告反作弊系统针 对低层级作弊用户、中层级作弊用户和高层级作弊用户的识别,可W参照W下的记载而实 施。
[0059] 一、识别低层级作弊用户
[0060] 在一些实施例中,参见图2示出的广告反作弊装置识别低层级作弊用户的一个可 选的实现示意图,低层级的作弊用户的识别采用线上实时判罚W及线下延迟重判的处理方 式。示例性地,线上实施判罚的处理方式包括黑名单策略和统计型策略,线下延迟重判的处 理方式包括统计型策略,W下分别进行说明。
[0061] 1)线上实时判罚
[0062] 1.1)黑名单策略
[0063] 作为线上实时判罚的一个示例,广告反作弊系统预先维护了包括有低层级作弊用 户的黑名单,其中包括有低层级作弊用户的标识。广告反作弊系统从广告系统实施获取的 点击日志提取出当前正在点击广告的用户的标识,与黑名单中低层级作弊用户的标识匹 配,一旦匹配成功,则确定当前点击广告的用户为低层级作弊用户。
[0064] 示例性地,低层级作弊用户的标识采用唯一区分用户的信息,如用户的手机号码、 社交平台账号(如微信账号、QQ账号)等,当然低层级作弊用户的标识的类型不限于此,还可 W采用网际协议(IP)地址、介质接入(MAC)地址等任意类型的标识。可选地,为了保证识别 低层级作弊用户的准确性,可W将上述的标识的两种或多种结合使用来标定低层级作弊用 户。
[00化]1.2)统计型策略
[0066] 作为线上实时判罚的另一个示例,广告反作弊系统统计从广告系统获取的点击日 志统计出用户在统计时段(如5分钟、1小时,实际应用中根据情况设定)中点击广告的次数, 当点击广告的次数超出点击量阔值时,将用户识别为低层级作弊用户。广告反作弊系统利 用对低层级的作弊用户的点击量进行过滤(判罚)并反馈至广告系统,避免广告系统利用点 击量因低层级作弊用户的点击量造成的不精确的问题。
[0067] 作为对低层级作弊用户的点击量进行过滤的一个示例,对超过点击量阔值后的点 击量按照预定比例过滤,超出点击量阔值的点击量越多,则过滤比例越大。
[0068] 例如,设用户的点击量为a,点击量阔值为b,当a大于b时,对超出点击量阔值的点 击量(a-b)按照(a-b)取值空间与过滤比例的对应关系选择相应的过滤比例进行过滤,(a- b)取值空间与过滤比例的对应关系的一个示例如表1所示, 「HHAOl LUU/UJ 衣 i
[0071] 从表1中可W看出,超出点击量阔值的点击量越多,则相应的过滤比例越大,从而 最大程度减少广告的点击量由低层级作弊用户产生的点击量。
[0072] 2)线下延迟重判
[0073] 在一些实施例中,为了进一步减小广告的点击量中由低层级作弊用户产生的点击 量,广告反作弊系统还采用延迟重判的方式。
[0074] 示例性地,广告反作弊系统统计出从广告系统获取的点击日志统计出用户在统计 时段(设定的间隔时间如5分钟、1小时,实际应用中根据情况设定)中点击广告的次数,当点 击广告的次数超出点击量阔值时,将用户识别为低层级作弊用户。对低层级的作弊用户的 点击量中未超出点击量阔值的点击量按照预定比例进行过滤,或者全部过滤也就是将低层 级作弊用户的点击量清零。
[0075] 另外,线下延迟重判方式中使用的预定比例可W是一个固定不变的比例,或者,根 据用户在统计时段的点击量动态确定(如成正比),利用根据用户在统计时段的点击量与预 定比例正相关(例如正比例)的关系动态确定针对每个低层级作弊用户的预定比例,也就是 用户在统计时段的点击量越大,则对用户的点击量中未超出点击量阔值部分进行过滤的预 定比例越大。
[0076] 假设是1小时内的点击超过20次后的点击量开始过滤,延迟重判是对前20次没有 超过阔值的点击量过滤,并不会再处理超过点击量阔值的部分点击量。同时,对前20次没有 超过点击量阔值(20)的点击量过滤的比例基于用户在运1小时的点击量确定。假设用户A在 1小时内点击了21次,那么对前20次的过滤的比例,低于用户B在1小时内点击了 100次时对 用户B的前20次点击的过滤比例。
[0077] 例如,设用户的点击量为a,点击量阔值为b,当a大于b时,对点击量a未超出点击量 阔值的点击量也就是点击量b按照预定比例(如70%)进行过滤处理,则用户的点击量为b* (1 -70 % ),或者将点击量b全部过滤,则用户的点击量未超出点击量阔值的点击量b被清零。
[0078] 结合图2示出的针对低层级作弊用户的实时判罚和延迟重判,对于低层级作弊用 户的点击量中超出点击量阔值的点击量进行实施判罚(按照比例过滤),对于低层级作弊用 户的点击量中未超出点击量阔值的部分进行线下的延迟重判(按照如的固定预定比例或动 态调整的预定比例进行过滤),能够最大程度减少广告的点击量中低层级作弊用户的点击 量,确保广告系统最终统计到的广告点击量的准确性和可靠性,也保证针对广告主的投放 广告生成准确地计费数据。
[0079] 二、识别中层级作弊用户
[0080] 参见图3-1示出的本发明实施例中识别低层级作弊用户的一个可选的流程示意 图,包括步骤101至步骤106,W下对各步骤进行说明。
[0081] 本发明实施例中广告反作弊系统使用中层级作弊用户识别模型从用户中识别出 中层级作弊用户,为此,广告反作弊系统需要形成可用的样本对中层级作弊用户识别模型 进行训练,W使中层级作弊用户识别模型的识别精度达到可用的预设精度。
[0082] 在一些实施例中,广告反作弊系统从广告任务平台获取样本集合(步骤101)用W 形成对中层级作弊用户识别模型进行训练的样本。样本集合包括与中层级作弊用户对应的 样本,样本中的一个可选的数据结构如表2所示:
[0
1234 表 2 2 参见表2,样本集合中的样本包括至少一个中层级作弊用户W及中层级作弊用户 在统计时段(如一周)的点击日志,示例性地,点击日志包括中层级作弊用户点击广告的操 作数据,如每次点击广告的ID、点击的时间等。 3 实际应用中,由于广告任务平台的用户与中层级作弊用户的点击行为最接近,因 此可W将广告任务平台中完成广告任务的平台用户视为中层级作弊用户,相应地,从广告 任务平台获取广告任务平台用户完成广告任务时所对应的点击日志形成样本集合。 4 继续对广告反作弊系统获取样本集合的处理进行说明,前述的与中层级作弊用户 对应的样本用于供广告反作弊系统形成对中层级作弊用户识别模型进行训练的正样本,为 了进一步提升中层级作弊用户识别模型识别中层级作弊用户的精度,在另一些实施例中, 广告反作弊系统获取的样本集合中还包括与非作弊用户对应的样本,用于供广告反作弊系 统形成用W训练中层级作弊用户识别模型的负样本,示例性地,非作弊用户对应的样本包 括:正常应用(也就是已知未存在作弊用户的应用)的用户也即非作弊用户、W及用户在使 用正常应用的过程中在应用的广告位中点击广告所对应的点击日志,与非作弊用户对应的 样本的一个可选的数据结构如表3所示:
[0089]
[0090] 表 3
[0091] 表3示出了非作弊用户对应的样本的一个可选的数据结构,在表3中,W应用3为正 常应用为例,用户3和用户4均在各自的终端中安装了应用1,并且都在应用1的广告位中点 击过广告,相应地,广告反作弊系统基于从广告系统获取的点击日志形成对应应用1中各非 作弊用户(用户3和用户4)的样本。
[0092] 接续对前述步骤进行说明,在广告反作弊系统获取到样本集合后,解析样本集合 中的点击日志对应用户点击广告的操作数据,从操作数据中提取得到与用户点击广告的操 作相关联的特征(步骤102)。
[0093] 如前,在一些实施例中,当样本集合中仅包括与中层级作弊用户对应的样本时,贝U 广告反作弊系统解析与中层级作弊用户对应样本中的点击日志,W确定与中层级作弊用户 点击广告的操作关联的特征。在另一些实施例中,当样本集合中还包括与非作弊用户对应 的样本时,则广告反作弊系统还解析与非作弊用户对应样本中的点击日志,W确定与非作 弊用户点击广告的操作关联的特征。
[0094] 在一些实施例中,与用户(中层级作弊用户或非作弊用户)点击广告的操作相关联 的特征包括W下至少一个维度的特征:
[0095] 1)用户在统计时段内的点击量。
[0096] 示例性地,用户在统计时段内点击广告的点击量,为用户在统计时段内在任意广 告位,如页面的广告、应用中广告位点击广告的次数的总量。
[0097] 例如,用户在统计时段内点击了广告1、广告2和广告3共3个广告,相应的点击次数 为1次、2次和3次,则用户在统计时段的点击量为6(1+化3)。
[0098] 或者,用户在统计时段内点击广告的点击量为用户在统计时段内点击同一广告的 次数的总量,用户在统计时段的第一个时间周期点击了广告1、广告2和广告3共3个广告,相 应的点击次数为1次、2次和3次,用户在统计时段的第二个时间周期点击了广告1、广告2和 广告3共3个广告,相应的点击次数为1次、2次和3次,则用户在统计时段对应广告1、广告2和 广告 3 的点击量为 2(1+1)、4(2+2)、6(3+3)。
[0099] 2)用户在统计时段内点击过广告的时间周期的数量。
[0100] 示例性地,用户点击广告的时间周期的数量为用户点击广告时所处的时间周期的 数量。
[0101] W统计时段为1天,时间周期为小时为例,假设用户在1天第1/2/4/5小时均点击的 广告,则用户在该统计时段内点击过广告的时间周期的数量为4。
[0102] 3)用户在统计时段中点击广告的间隔时间的平均值。
[0103] W用户在统计时段的T'l/T2/T3时刻点击了广告为例,对应的平均值为(T2-T1V2 +(T3-T2)/2〇
[0104] 4)用户统计时段内识别的作弊用户的历史比例。
[0105] 在当前统计时段的任一统计时段中,识别出的中层级作弊用户的数量与点击广告 的用户(包括中层级作弊用户和非作弊用户)的历史比例,当然,历史比例也可W为当前统 计时段的多个统计时段的比例的平均值。
[0106] 5)用户在统计时段内所点击过广告的时间周期中点击广告的平均点击量。
[0107] 仍W统计时段为1天,时间周期为小时为例,假设用户在1天第1/2/4/5小时均点击 的广告,则用户在该统计时段内点击过广告的时间周期的数量为4,统计时段的点击量为12 (1+2+4+5),在4个时间周期点击广告的平均点击量为3(12/4)。
[0108] 需要指出的是,在本发明实施例中使用的与用户点击广告的操作相关联的特征不 仅限于W上所示,本领域的技术人员可W轻易对上述与用户点击广告的操作相关联的特征 进行变形或延伸,从而实施出不同于上述与用户点击广告的操作相关联的特征。
[0109] 接续对前述步骤进行说明,在广告反作弊系统从与中层级作弊用户对应样本中提 取出至少一个维度特征后,则可W形成用于训练中层级作弊用户识别模型的正样本,示例 性地,广告反作弊系统将作弊用户、作弊用户点击广告的点击日志在至少一个维度的特征 标记为正样本(步骤103)。
[0110] 在一些实施例中,若广告反作弊系统还从非作弊用户对应样本中提取出至少一个 维度的特征,则广告反作弊系统可W形成用于训练中层级作弊用户识别模型的负样本,示 例性地,参见图3-2示出的本发明实施例中识别低层级作弊用户的一个可选的流程示意图, 广告反作弊系统将非作弊用户、非作弊用户点击广告的点击日志在至少一个维度的特征标 记为负样本(步骤107)。
[0111] 接续对前述步骤进行说明,当广告反作弊系统形成用于训练中层级作弊用户识别 模型的正样本后,将正样本输入中层级作弊用户识别模型W对中层级作弊用户识别模型的 模型参数进行训练(步骤104)。在一些实施例中,若广告反作弊系统还形成了用于训练中层 级作弊用户识别模型的负样本,则将负样本连同正样本共同输入待训练的中层级作弊用户 识别模型,W提升中层级作弊用户识别模型的识别精度,缩短训练过程。
[0112] W下对利用样本(正样本和负样本)对中层级作弊用户识别模型的训练进行说明, 中层级作弊用户识别模型可W视为由一系列函数形成的从所提取的至少一个维度的特征 到用户的识别结果(是否为中层级作弊用户)的映射,一个可选的示例为:
[0113] 识别结果=f (a*特征i+b*特征2);
[0114]其中,特征1和特征2为用于训练的样本(正样本和负样本之一)的特征,模型参数 a、b用于控制特征I、特征2的权重,中层级作弊用户识别模型的训练过程就是不断优化调整 模型参数a/b的过程,实际应用中模型参数的数量可W为两个或多个,且使用的特征的数量 也不存在限制。
[0115] 那么,在一个实施例中,为了验证中层级作弊用户识别模型的识别精度是否达到 实用需求,广告反作弊系统可W利用先验的数据库(其中包括作弊用户、非作弊用户、W及 点击日志的特征)测试中层级作弊用户识别模型的识别作弊用户的精度(也即是正确率), 识别精度未达到预设精度时,利用对模型参数进行调整处理,直至中层级作弊用户识别模 型的精度达到预设精度。
[0116] 接续对前述的步骤进行说明,在广告反作弊系统训练中层级作弊用户识别模型之 后,则可W利用训练后的中层级作弊用户识别模型识别中层级作弊用户。广告反作弊系统 从广告系统获取待识别的样本(步骤105),待识别的样本数据结构可W参照前述表2和表3, 包括待识别用户W及待识别用户的点击日志,广告反作弊系统从待识别样本中提取对应前 述至少一个维度的特征,输入训练后的作弊用户识别模型,基于中层级作弊用户识别模型 输出的识别结果(是否为中层级作弊用户)确定待识别的样本中的中层级作弊用户(步骤 106)。
[0117] 在一些实施例中,参见图3-2,当广告反作弊系统从待识别样本中识别出中层级作 弊用户后,还对中层级作弊用户的点击量进行过滤(步骤108),并将过滤后的中层级作弊用 户的点击量更新至广告系统(步骤109),使广告系统的计费端利用更新后的广告的点击量 结合计费策略进行广告投放的计费,由于在广告的点击量已经对中层级作弊用户的点击量 进行了过滤,确保了广告的点击量是由用户的常规点击操作形成的,保证广告点击量的准 确性和真实性,避免了对广告主的广告计费不准确的问题。
[0118] 示例性地,广告反作弊系统对中层级作弊用户的点击量进行过滤时有多种方式, W下结合不同过滤方式进行说明。
[0119] 过滤方式1)按照预定比例对中层级作弊用户的点击量进行过滤,W中层级作弊用 户的点击量为a,预定比例为70%为例,则过滤后中层级作弊用户的点击量被更新为a* 30%,特别地,当预定比例为100%时,中层级作弊用户的点击量被清零。
[0120] 过滤方式2)将中层级作弊用户的点击量中未超出点击量阔值的点击量按照比例 进行过滤,或者全部过滤也就是将中层级作弊用户的点击量清零;将中层级作弊用户的点 击量中超过点击量阔值后的点击量按照预定比例过滤,超出点击量阔值的点击量越多,贝U 过滤比例越大。
[0121] 再结合图4示出的训练中层级作弊用户识别模型、W及利用中层级作弊用户识别 模型识别中层级作弊用户的一个可选的实现示意图,包括模型训练和模型使用两个阶段, 下面分别进行说明。
[0122] 1)模型训练
[0123] 训练的正样本来源于广告任务平台的点击日志,训练的负样本来源于正常功能 APP(已知未存在作弊用户的APP)的点击日志,
[0124] 中层级作弊用户长期分散的、有间歇的点击广告。
[0125] 针对运一特性,基于正样本和负样本提取了 6个特征:一周的点击量、一周点击过 广告的天数、一周点击过广告的小时数、一周平均的相邻点击时间差、一周线上识别的作弊 比例、一周的点击量与一周点击过广告的小时数的比例。基于运6个特征,训练逻辑斯蒂回 归化Ogistic Regression)模型来判断用户是否是中层级作弊用户。
[0126] 2)模型使用
[0127] 训练得到逻辑斯蒂回归模型的模型参数之后,基于从广告系统获取的待识别用户 的一周内点击广告的点击日志,提取待识别用户的一周内点击广告的点击日志的特征,并 选取出如上的6个特征输入逻辑斯蒂回归模型,逻辑斯蒂回归化Ogistic Regression)模型 输出待识别用户是中层级作弊用户还是正常用户(非作弊用户)的作弊识别结果。
[01%] S、识别高层级作弊用户
[0129] 发明人在实施本发明实施例的过程中发现,高层级作弊用户使用(如开发)特定的 应用来产生虚假的流量,该特定应用本身并不具有为用户提供服务(如媒体服务、社交服 务)的功能,仅仅是利用自身封装的程序模拟不同的用户来点击特定流量方的广告位中的 广告,W产生虚假的流量,也就是说该特定应用是专用于产生虚假流量的应用,其中的用户 全部是高层级作弊用户。一旦能够识别出一个应用是高层级作弊用户所使用的特定应用, 则可将该特定应用中的全部用户都识别为高层级作弊用户。
[0130] 另外,发明人在实施本发明实施例的过程中发现,高层级作弊用户在使用特定应 用进行广告作弊的过程中,所模拟的点击广告的用户在很多维度的特征非常接近,也就是 相关度很高,而正常用户(非作弊用户)在不同维度的特征则具有离散的特点,也就是相关 度很低。
[0131] 基于此,本发明实施例中识别高层级作弊用户时W应用为单位,对应用中的用户 是否为高层级作弊用户进行整体的一次性识别:对待识别的应用中的全部用户在多个维度 的相似程度进行判断,一旦相似度较高则将该待识别的应用识别为高层级作弊用户所使用 的特定应用,相应地,将该识别样本应用中的全部用户识别为高层级作弊用户,下面结合流 程图进行说明。
[0132] 参见图5示出的本发明实施例中识别高层级作弊用户的一个可选的流程示意图, W下对各步骤进行说明。
[0133] 本发明实施例中广告反作弊系统使用高层级作弊用户识别模型识别高层级作弊 用户,为此,广告反作弊系统需要形成可用的样本对高层级作弊用户识别模型进行训练,如 前,对于高层级作弊用户的识别是W应用为单位(对一个应用的用户是否为高层级作弊用 户进行一次性识别),相应地,广告反作弊系统获取W应用为单位的样本(简称为应用样本) 构成的样本集合(步骤201 ),样本集合中的每个应用样本与一个应用对应,并且,至少一个 应用样本与已知存在高作弊用户的应用对应,W供广告反作弊系统用W形成对高层级作弊 用户识别模型进行训练的正样本。另外,可选地,样本集合中还可W包括未知是否存在高层 级作弊用的应用对应的应用样本,称为无标记的应用样本。
[0134] 在一些实施例中,应用样本中包括与应用对应的各种信息,应用样本的一个可选 的数据结构如表4所示:
[0135]
[0136] 表4
[0137] 如表4所示,示例性地,每个应用样本与一个应用对应,包括所对应应用的W下信 息至少之一:
[0138] 1)应用的每个用户在应用中点击广告的点击日志。
[0139] 点击日志从不同的记录应用中的每个用户点击广告的操作的相关信息。示例性 地,点击日志包括W下信息:
[0140] 1.1)用户在统计时段在应用的广告位中点击的广告。
[0141] 用户点击的广告W广告系统侧为广告分配的序列号(ID)来区分,或者,W广告系 统侧的为广告分配的类别标签来区分。
[0142] 示例性地,用户在统计时间段点击的广告,可W为用户在应用的所有广告位中的 点击的广告的记录,如采用广告1、广告2、广告3运样的形式记录。
[0143] 又或者,用户在统计时间段点击的广告为用户在应用的不同广告位中点击的广告 的记录,如采用运样的方式来记录:广告位1-广告1-广告2、广告2-广告3-广告4。
[0144] 1.2)用户在统计时段内在应用的广告位所点击广告的点击量。
[0145] 示例性地,用户在统计时段内在应用的广告位中点击广告的点击量,为用户在统 计时段内在应用的广告位点击广告的次数的总量。
[0146] 例如,用户在统计时段(如一周)在应用的广告位内点击了广告1、广告2和广告3共 3个广告,相应的点击次数为2次、3次和4次,则在统计时段的点击量为9(2+3+5)。
[0147] 示例性地,用户在统计时段内在应用的广告位点击广告的点击量,还可W是用户 在统计时段内在应用的广告位点击同一广告的次数的总量,又或者,为用户在统计时段(如 一周)的各个时间周期(小于统计时段,如一天或一小时)内在应用的广告位点击同一广告 的次数的总量。
[0148] 例如,用户在统计时段的第一个时间周期在应用的广告位点击了广告1、广告2和 广告3共3个广告,相应的点击次数为2次、3次和4次,用户在统计时段的第二个时间周期在 应用的广告位点击了广告1、广告2和广告3共3个广告,相应的点击次数为2次、3次和4次,贝U 用户在统计时段对应广告1、广告2和广告3的点击量为4(化2)、6(3+3)、8(4+4)。
[0149] 1.3)用户在统计时段内在应用中的广告位点击广告的时间。
[0150] 示例性地,用户在统计时段内在应用中的广告位点击广告的时间,为用户在统计 时段内在应用的广告位点击广告的总的时长。
[0151] 例如,假设应用中具有广告位1和广告位2两个广告位,在统计时段内,用户在广告 位1中点击广告的时长为T1,用户在广告位2中点击广告的时长为T2,则用户在统计时段内 在应用的广告位点击广告的总的时长为Tl巧2。
[0152] 或者,用户在统计时段内在应用中的广告位点击广告的时间,也可W为用户在每 个广告位点击广告的时长,如前述的用户在广告位1点击广告的时长Tl, W及用户在广告位 2点击广告的时长T2。
[0153] 1.4)用户在统计时段内点击广告的广告位的类型。
[0154] W应用中的广告位为例,广告位的类型包括:
[0155] 开屏广告位,在应用开启画面后在应用的内容加载前,应用的界面中用户显示广 告的位置。
[0156] 插屏广告位,在应用的内容加载的过程在应用的界面中插入广告的位置。
[0157] Banner广告位,应用中用户停留较久(停留时间超出停留时间阔值)的页面,或应 用中用户访问比较频繁的页面中用于呈现广告的位置,如页面的边缘(顶部区域、底部区域 等)。
[0158] 2)应用的每个用户在应用的广告位中点击广告的曝光日志。
[0159] 曝光日志用W记录应用的每个用户在应用的广告位点击的广告所曝光的对象,如 应用的名称、商品的名称、页面的地址等。
[0160] 3)应用的每个用户在应用中点击广告的效果日志。
[0161] 如前,效果日志包括应用中的每个用户点击广告后针对广告的曝光对象所达到的 广告效果。
[0162] W广告的曝光对象为应用为例,广告效果可W为W下之一:用户开始下载应用;应 用下载完成;应用在用户的设备安装;应用在用户的设备激活使用;用户在用户的设备中删 除了应用。
[0163] 再W广告的曝光对象为在线销售的商品为例,效果日志中记录的针对广告的广告 效果可W为:用户针对商品下订单;用户支付订单;用户撤销订单。
[0164] 4)应用的每个用户所使用的设备的信息。
[0165] 示例性地,设备的信息可W为设备的硬件信息如设备的型号、设备剩余空间、设备 的剩余电量等。
[0166] 当然,设备的软件信息可W为设备所使用的通信运营商、设备使用的操作系统(类 型和型号)和设备的联网方式等信息。另外设备的信息还可W是设备的位置(如经缔度)等、 设备的移动速度等信息。
[0167] 需要指出的是,在本发明实施例中使用的与应用样本所包括的信息不仅限于W上 所示,本领域的技术人员可W轻易对上述应用样本包括的信息进行变形或延伸,从而实施 出不同于上述应用样本所包括的信息,运里不再一一说明。
[0168] 接续对前述步骤进行说明,在广告反作弊系统获取到样本集合后,对于每个应用 样本,广告反作弊系统解析出应用样本中任意两个用户在至少一个维度的特征的相关度 (步骤202),特征所采用的维度根据应用样本中所包括的信息的类型选取,W下对不同维度 的特征的相关度举例说明。
[0169] 在一些实施例中,可W采用如下维度的特征的相关度:
[0170] 1)应用中任意两个用户在应用中点击广告的操作的特征的相关度。
[0171] 用户在应用的广告位中点击广告的特征可W采用如用户在应用中点击的位置(或 频率)、下载广告所曝光应用的次数和访问广告所曝光网页的次数等。
[0172] 2)应用中任意两个用户在应用样本中点击的广告所曝光的对象的相关度。
[0173] 3)应用中任意两个用户点击广告所使用的设备的信息的相关度。
[0174] 应用的用户所使用设备的相关度可W采用硬件信息、软件信息,设备的位置、设备 的移动速度等维度的相关度。
[0175] W硬件信息的相关度为例,可W采用用户使用的设备在设备剩余空间、设备的剩 余电量等方面的差值的相关度。
[0176] 4)应用中任意两个用户点击所点击广告的广告效果的相关度。
[0177] 对于样本集合中的样本应用,若样本应用为已知存在高层级作弊用户的应用,那 么该应用中任意两个用户在上述维度的相似度均为100%。若样本应用为未知是否存在高 层级作弊用户的应用,则该应用任意两个用户在上述维度的相似度均为0%。
[017引例如,设已知一个存在高层级作弊用户的APP,将APP内的任意两个用户的组合、W 及运两个用户的相似度作为正样本,且运个APP内用户两两之间的相似度总是100%。假设 APP内存在4个用户A、B、C、D,则一共有6条正样本,即为:(A,B:100% ;A,C: 100% ;A,D: 100% ;B,C:100% ;B,D:100% ;C,D:100%)0
[0179] 对于未知是否存在高层级作弊用户的APP,把运个APP内的任意两个用户、W及运 两个用户的相似度作为无标记样本,且运个APP内任意两个用户之间的相似度总是0%。假 设APP内存在4个用户A、B、C、D,则一共有6条正样本,即为:(A,B:0%;A,C:0%;A,D:0%;B, C:0%;B,D:0%;C,D:0%)。
[0180] 接续对前述步骤进行说明,对于每个样本应用,在广告反作弊系统解析出任意样 本应用的任意两个用户在至少一个维度的特征的相关度之后,将已知包括有高层级作弊用 户的应用样本、W及应用样本任意两个用户对应至少一个维度的相关度标记为正样本(步 骤203),将正样本输入作弊用户识别模型W对作弊用户识别模型中的模型参数进行训练 (步骤204)。
[0181] 在一个实施例中,广告反作弊系统还利用样本集合中未标记应用样本中任意两个 用户、W及运两个用户在上述维度的相似度(0%)形成对高层级作弊用户识别模型进行训 练的无标记样本,将无标记样本连同正样本输入高层级作弊用户识别模型(步骤210),基于 高层级作弊用户识别模型通过迭代的方式选取无标记样本标记为正样本W增加正样本的 数量,当样本集合中的被标记为正样本的应用样本的数量稳定(多次迭代后正样本的数量 不再增加)后,将样本集合中剩余的无标记的应用样本标记为负样本,其中负样本中任意两 个用户的相关度为0%。
[0182] 高层级作弊用户识别模型可W视为由一系列函数形成,目的在于构成从输入应用 样本到应用样本的平均相关度的映射,一个可选的示例为:
[0183] 应用样本的平均相关度=f (C*特征3+b*特征4);
[0184] 其中,特征3和特征4为用于训练的样本(正样本和负样本之一)的特征,模型参数 a、b用于控制特征3、特征3的权重,高层级作弊用户识别模型的训练过程就是不断优化调整 模型参数c/d,使输出的平均相似度更加精确的过程,实际应用中模型参数的数量可W为两 个或多个,且使用的特征的数量也不存在限制。
[0185] 接续对前述步骤进行说明,在广告反作弊系统对高层级作弊用户识别模型训练完 成后,将待识别应用上述至少一个维度的特征输入高层级作弊用户识别模型(步骤205),获 取作弊用户识别模型输出的待识别应用中的用户与至少一个维度对应的相关度,将任意两 个用户在至少一个维度的特征的相关度取平均值,得到应用样本与至少一个维度对应的平 均相关度(步骤206)。
[0186] W应用1的用户包括用户1、用户2和用户3为例,在设备信息相似度维度任意两个 用户的相似度设为sl、s2和S3,则应用1在设备信息相似维度的平均相似度为(sl+s2+s3)/ 3。
[0187] 基于平均相关度进行高层级作弊用户的识别:(步骤207):将平均相关度与平均相 关度阔值进行比较,若输出的平均相关度高于平均相关度阔值,表明待识别应用中用户的 特征极其接近,将待识别应用判定为高层级作弊用户进行广告作弊所使用的应用,待识别 应用中的全部用户均识别为高层级作弊用户。从而,对待识别应用的用户是否为高层级作 弊用户进行一次性地高效判决。
[0188] 在一些实施例中,当广告反作弊系统从待识别样本中识别出高层级作弊用户后, 还对高层级作弊用户的点击量进行过滤(步骤208),并将过滤后的高层级作弊用户的点击 量更新至广告系统(步骤209),使广告系统的计费端利用更新后的广告的点击量结合计费 策略进行广告投放的计费,由于在广告的点击量已经对高层级作弊用户的点击量进行了过 滤,确保了广告的点击量是由用户的常规点击操作形成的,从而确保了广告点击量的准确 性和真实性,避免针对广告主投放广告的计费数据的精确性因中层级用户的产生的点击量 而受到影响。
[0189] 示例性地,广告反作弊系统对高层级作弊用户的点击量进行过滤时有多种方式, 例如,按照预定比例对高层级作弊用户的点击量进行过滤,W高层级作弊用户的点击量为 曰,预定比例为70%为例,则过滤后高层级作弊用户的点击量被更新为a*30%,特别地,当预 定比例为100%时,高层级作弊用户的点击量被清零。
[0190] 再结合图6示出的训练高层级作弊用户识别模型、W及利用高层级作弊用户识别 模型识别高层级作弊用户的一个可选的实现示意图。
[0191] 高层级作弊用户是伪造作弊APP并使用作弊APP进行广告作弊的用户群体,通常在 高层级作弊用户在作弊APP上具有集中性。常规的APP(如社交APP)不存在高层级作弊用户, 而作弊APP中的用户全都是高层级作弊用户。由于单个作弊用户的点击次数不多,需要利用 作弊用户群体的特征相关度来识别。对于存在高层级作弊用户群体的APP,其最明显的特征 是:该APP内的用户在设备信息W及曝光、点击和效果方面的特征相似度非常高。针对运一 特性,将待识别的APP内用户全部设备信息和所有曝光日志、点击日志和效果日志综合在一 起,提取不同维度的特征计算用户之间的特征的相似度。然后,根据APP内用户的平均相似 度与预设的平均相似度阔值来判断该APP内是否存在高层级作弊用户群体,预设的平均相 似度阔值可W从对常规APP的用户之间的特征的相似度平均值。
[0192] 在计算任意两个用户之间的相似度时,使用的特征如下:
[0193] 设备信息相关的特征:两个用户设备型号的相似度、设备剩余空间差值、经缔度相 似度、运营商相似度、联网方式相似度等特征;
[0194] 曝光、点击和效果相关的特征:两个用户曝光APP的相似度、曝光次数的差值、点击 APP的相似度、点击次数的差值、点击坐标的相似度、下载APP的相似度、下载次数的差值等 特征。
[01巧]基于上述特征训练了一个梯度提升回归树(Gradient Boosting Regression Tree)模型来计算待识别应用的用户在至少一个维度的平均相似度。
[0196] 对梯度提升回归树模型来初始训练的正样本来源于应用样本的样本集合中已知 存在高层级作弊用户的APP的数据饱括曝光日志、点击日志、效果日志、用户设备信息),初 始训练无标记的样本来源于应用样本的样本集合中剩余的APP。通过正例和无标记样本学 习(Positive-Unlabeled Learning)的方法不断迭代增加正样本的数量,训练结果稳定后, 也就是样本集合中正样本的数量稳定后,样本集合中剩余的无标记样本就作为负样本。利 用正样本和负样本对梯度提升回归树模型进行训练。
[0197] 训练得到的模型用于待识别应用的用户之间的相似度,根据待识别应用内用户的 平均相似度来判断该待识别应用是否存在高层级作弊用户群体。对待识别应用的识别结果 可W更新至样本集合不断累积训练样本,从而完成对梯度提升回归树模型的自动修正。
[0198] 在一些实施例中,考虑到广告反作弊装置需要对不同层级的作弊用户进行权全面 地识别,相应地,参见图7示出的广告反作弊系统进行作弊用户识别的一个可选的流程示意 图,主要包括有两个流程:
[0199] 1)线上实时判罚:黑名单策略过滤黑名单中用户的点击;
[0200] 预先维护包括有低层级作弊用户的黑名单,其中包括有低层级的作弊用户的标 识,从广告系统实施获取的点击日志提取出当前正在点击广告的用户的标识,与黑名单中 低层级作弊用户的标识匹配,一旦匹配成功,则确定当前点击广告的用户为低层级作弊用 户,并对低层级作弊用户的点击量进行过滤。
[0201] 2)线下延迟重判:
[0202] 2.1)如前第一部分章节,广告反作弊系统利用统计型策略对低层级作弊用户的点 击量中未超出点击量阔值的部分进行过滤。
[0203] 2.2)如前第二部分章节,广告反作弊系统利用低层级作弊用户识别策略识别中层 级作弊用户,并过滤中层级作弊用户的点击量。
[0204] 2.3)如前第S部分章节,广告反作弊系统利用高层级作弊用户识别策略识别高层 级作弊用户,并过滤高层级作弊用户的点击量。
[0205] 从图7中可W看出,广告反作弊系统根据作弊用户不同的作弊手段和异常行为,将 作弊用户分为低层级作弊用户、中层级作弊用户和高层级作弊用=个层级,对于每种层级 的作弊用户采用对应的方式进行识别,对作弊用户进行分层次地、全面性地识别,不存在遗 漏识别的问题。同时,对于识别出的作弊用户针对广告的点击量采用相应的广告进行过滤, 确保了统计的广告效果的真实可靠性。
[0206] 本发明实施例提供的广告反作弊装置可W独立实施于服务器中,抑或是W广告反 作弊系统的方式分散实施于服务器集群中,广告反作弊系统的一个可选的功能架构示意图 如图8所示,包括:样本模块10、提取模块20、模型训练模块30、模型应用模块40、统计模块50 和判罚模块60。
[0207] 结合图9示出的广告反作弊系统分层级识别作弊用户的示意图进行说明。
[0208] -、低层级作弊用户识别
[0209] 1)线上实时判罚
[0210] 1.1)黑名单策略
[0211] 统计模块50预先维护了包括有低层级作弊用户的黑名单,其中包括有低层级的作 弊用户的标识,从广告系统实施获取的点击日志提取出当前正在点击广告的用户的标识, 与黑名单中低层级作弊用户的标识匹配,一旦匹配成功,则确定当前点击广告的用户为低 层级作弊用户(低层级作弊结果)。
[0212] 1.2)统计型策略
[0213] 统计模块50从广告系统获取的点击日志统计,当统计出用户点击广告的次数超出 点击量阔值时,将用户识别为低层级作弊用户。
[0214] 判罚模块60对低层级的作弊用户的点击量进行过滤并反馈至广告系统。在一个示 例中,对超过点击量阔值后的点击量按照预定比例过滤,超出点击量阔值的点击量越多,贝U 过滤比例越大。
[0215] 1.3)线下延迟重判
[0216] 2)线下延迟重判
[0217] 判罚模块60对低层级的作弊用户的点击量中未超出点击量阔值的点击量按照预 定比例进行过滤,或者全部过滤也就将低层级作弊用户的点击量清零;一般地,线下延迟重 判方式中使用的预定比例大于统计型策略中所使用的预定比例,从而对低层级作弊用户的 点击量中未超出点击量阔值的部分点击量(运部分点击量被恶意触发产生的概率较未超出 点击量阔值的部分点击量更大)进行更大程度过滤。
[0218] 二、中层级作弊用户识别
[0219] 样本模块10获取样本集合,样本集合中的至少一个样本包括作弊用户、W及作弊 用户点击广告的点击日志;
[0220] 提取模块20从样本集合的样本中提取与待识别的作弊用户的层级对应的至少一 个维度的特征,其中,不同层级待识别的作弊用户所对应的维度不同。
[0221] 模型训练模块30和模型应用模块40共同实施中层级作弊用户识别策略。
[0222] 模型训练模块30将作弊用户、作弊用户点击广告的点击日志在至少一个维度的特 征标记为正样本,至少基于正样本对与待识别的作弊用户的层级对应的作弊用户识别模型 进行训练;
[0223] 模型应用模块40确定待识别的样本对应至少一个维度的特征;将待识别样本对应 至少一个维度的特征输入训练后的作弊用户识别模型,识别出待识别的样本中的作弊用户 (中层级反作弊结果)。
[0224] 提取模块20解析样本集合中的点击日志对应得到与点击广告的操作相关联的特 征。
[0225] 其中,与点击广告的操作相关联的特征包括W下至少一个维度的特征:
[0226] 在统计时段内的点击量;
[0227] 在统计时段内点击过广告的时间周期的数量;
[0228] 在统计时段中点击广告的间隔时间的平均值;
[0229] 统计时段内识别的作弊用户的历史比例;
[0230] 统计时段内所点击过广告的时间周期中点击广告的平均点击量。
[0231] 模型训练模块30采用如下方式进行训练:将正样本输入作弊用户识别模型W对作 弊用户识别模型中的模型参数进行训练;测试作弊用户识别模型的识别作弊用户的精度, 识别精度未达到预设精度时对模型参数进行调整处理,直至作弊用户识别模型的精度达到 预设精度;其中,作弊用户的点击日志为作弊用户执行广告任务平台中广告任务所对应的 点击日志。
[0232] 模型训练模块30还可结合负样本与正样本共同训练:将非广告作弊用户、非作弊 用户的点击广告的点击日志对应至少一个维度的特征标记为负样本;将负样本连同正样本 输入作弊用户识别模型W对作弊用户识别模型中的模型参数进行训练;其中,样本集合中 的至少一个样本包括非作弊用户、W及非作弊用户点击广告的点击日志,非作弊用户的点 击日志为非作弊用户在应用中点击广告所对应的点击日志。
[0233] S、高层级作弊用户识别
[0234] 样本模块10形成的样本集合中的样本为与不同的应用对应的应用样本,至少一个 应用样本为已知存在高层级作弊用户的应用对应,每个应用样本包括所对应应用的W下维 度的信息至少之一:
[0235] 应用的用户在应用中点击广告的点击日志;
[0236] 应用的用户在应用中点击广告的曝光日志;
[0237] 应用的用户在应用中点击广告的效果日志;
[0238] 应用的用户所使用的设备的信息。
[0239] 提取模块20解析应用样本中任意两个用户对应至少一个维度的相关度;确定应用 样本与至少一个维度对应的平均相关度,其中,与一个维度对应的平均相关度为应用样本 的任意两个用户对应维度的特征的相关度的平均值。
[0240] 模型训练模块30将已知包括有高层级作弊用户的应用样本、W及应用样本对应至 少一个维度的平均相关度标记为正样本;将正样本输入作弊用户识别模型W对作弊用户识 别模型中的模型参数进行训练。
[0241] 模型训练模块30将样本集合中未标记应用样本(样本集合中未知存在高层级作弊 用户的应用样本)、应用样本对应至少一个维度的平均相关度作为无标记应用样本、无标记 应用样本中任意两个用户对应至少一个维度的相关度作为无标记样本,将无标记样本连同 正样本输入作弊用户识别模型,W对作弊用户识别模型的模型参数进行训练,直至输入作 弊用户识别模型的无标记样本中被作弊用户识别模型标记为正样本的数量处于稳定状态。
[0242] 模型应用模块40获取作弊用户识别模型输出的待识别应用中任意两个用户与至 少一个维度对应的相关度,确定待识别应用中用户与至少一个维度对应的平均相关度;当 平均相关度超出平均相关度阔值时判定待识别应用中的用户为高层级作弊用户(高层级作 弊识别结果)。
[0243] 综上,本发明实施例具有W下有益效果:
[0244] 1)在线下采用延迟处理的方式对中层级作弊用户进行识别,即采用逻辑斯蒂回归 模型在线下识别中层级作弊用户,并对中层级作弊用户的点击量进行过滤,确保统计的广 告的点击量的准确性;
[0245] 2)在线下采用延迟处理的方式对高层级作弊用户进行识别,即采用梯度提升回归 树模型识别高层级作弊用户,并对高层级作弊用户的点击量进行过滤,确保统计的广告的 点击量的准确性;
[0246] 3)线上实时判罚的方式,能够对低层级作弊用户进行实时识别,并对低层级作弊 用户的点击量进行实时过滤,保证了在需要实时获取广告点击量的需求场景中,能够对低 层级作弊用户的点击量进行有效过滤。同时,
[0247] 4)线下延迟重判能够覆盖识别每个层级的作弊用户,从而保证了对作弊用户的点 击进行全面过滤。
[0248] 本发明实施例所述集成的模块如果W软件功能模块的形式实现并作为独立的产 品销售或使用时,也可W存储在一个计算机可读取存储介质中。基于运样的理解,本领域内 的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明 可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且, 本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实 施的计算机程序产品的形式,所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM, Read-Only Memo巧)、随机存取存储器(RAM,Random Access Memo巧)、磁盘存储器、CD-ROM、 光学存储器等。
[0249 ]本发明是根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、W及流程图和/或方框图中的流程和/或方框的结合。可提供运些计算机程序指令 到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器W产生一 个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在 流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0250] 运些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备W特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0251] 运些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤W产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0252] 尽管已描述了本发明的实施例,但本领域内的技术人员一旦得知了基本创造性概 念,则可对运些实施例做出另外的变更和修改。所W,所附权利要求意欲解释为包括实施例 W及落入本发明范围的所有变更和修改。
[0253] W上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明掲露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应W所述权利要求的保护范围为准。
【主权项】
1. 一种广告反作弊方法,其特征在于,所述方法包括: 获取样本集合,其中,所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用 户点击广告的点击日志; 从所述样本集合的样本中提取与待识别的作弊用户层级对应的至少一个维度的特征, 其中,不同层级待识别的作弊用户所对应的特征不同; 基于所述作弊用户、所述作弊用户点击广告的点击日志对应所述至少一个维度的特征 形成正样本,至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模型 进行训练; 确定待识别的样本对应所述至少一个维度的特征; 将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模 型,基于输出结果识别出所述待识别的样本中的作弊用户。2. 根据权利要求要求1所述的方法,其特征在于,所述从样本中提取与待识别的作弊用 户的层级对应的至少一个维度的特征,包括: 所述样本集合中的样本为与应用对应的应用样本,至少一个所述应用样本为已知存在 所述高层级作弊用户的应用对应,每个所述应用样本包括所对应应用的以下维度的信息至 少之一: 所述应用的用户在所述应用中点击广告的点击日志; 所述应用的用户在所述应用中点击广告的曝光日志; 所述应用的用户在所述应用中点击广告的效果日志; 所述应用的用户所使用的设备的信息; 解析出所述应用样本中所包括的用户、以及所述应用样本中任意两个用户在以下至少 一个维度的相关度: 所述应用中任意两个用户在应用中点击广告的操作的特征的相关度; 所述应用中任意两个用户在所述应用中点击的广告所曝光对象的相关度; 所述应用中任意两个用户点击广告所使用的设备的信息的相关度; 所述应用中任意两个用户点击所点击广告的广告效果的相关度。3. 根据权利要求要求2所述的方法,其特征在于,所述基于所述作弊用户、所述作弊用 户点击广告的点击日志在所述至少一个维度的特征形成所述正样本,至少基于所述正样本 对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练,包括: 将已知包括有所述第一层级作弊用户的所述应用样本、以及所述应用样本中任意两个 用户在所述至少一个维度的特征的相关度标记为所述正样本; 将所述正样本输入第一层级作弊用户识别模型,基于输入的正样本对所述第一层级作 弊用户识别模型中的模型参数进行训练。4. 根据权利要求要求2所述的方法,其特征在于,所述基于所述作弊用户、所述作弊用 户点击广告的点击日志在所述至少一个维度的特征标记正样本,至少基于所述正样本对与 待识别的作弊用户的层级对应的作弊用户识别模型进行训练,包括: 基于所述样本集合中的无标记应用样本、所述无标记应用样本中任意两个用户对应至 少一个所述维度的相关度形成无标记样本,基于所述无标记样本和所述正样本对第一层级 作弊用户识别模型的模型参数进行训练,直至,输入所述第一层级作弊用户识别模型的所 述无标记样本中被所述第一层级作弊用户识别模型标记为正样本的数量处于稳定状态; 其中,所述无标记应用样本为所述样本集合中未知存在高层级作弊用户的应用样本。5. 根据权利要求要求2所述的方法,其特征在于,所述基于输出结果识别出所述待识别 的样本中的作弊用户,包括: 所述待识别样本为待识别应用; 获取第一层级作弊用户识别模型输出的所述待识别应用中任意两个用户与至少一个 所述维度对应的相关度,确定待识别应用中用户与至少一个所述维度对应的平均相关度; 当所述平均相关度超出平均相关度阈值时判定所述待识别应用中的用户为第一层级 作弊用户。6. 根据权利要求要求1所述的方法,其特征在于,所述从样本集合的样本中提取与待识 别的作弊用户的层级对应的至少一个维度的特征,包括: 提取出所述样本集合中的点击日志中对应点击广告的操作数据; 解析所提取的操作数据对应得到与点击广告的操作相关联的特征; 其中,与点击广告的操作相关联的特征包括以下至少一个维度的特征: 在统计时段内的点击量; 在所述统计时段内点击过广告的时间周期的数量; 在所述统计时段中点击广告的间隔时间的平均值; 所述统计时段内识别的作弊用户的历史比例; 所述统计时段内所点击过广告的时间周期中点击广告的平均点击量。7. 根据权利要求要求6所述的方法,其特征在于,所述至少基于所述正样本对与待识别 的作弊用户的层级对应的作弊用户识别模型进行训练,包括: 将所述正样本输入第二层级作弊用户识别模型,基于输入的正样本对所述第二层级作 弊用户识别模型中的模型参数进行训练; 测试所述第二层级作弊用户识别模型的识别作弊用户的精度,识别精度未达到预设精 度时对所述模型参数进行调整处理,直至所述第二层级作弊用户识别模型的精度达到预设 精度; 其中,所述作弊用户的点击日志为所述作弊用户执行广告任务平台中广告任务所对应 的点击日志。8. 根据权利要求要求7所述的方法,其特征在于,所述方法还包括: 所述样本集合中的至少一个样本包括非作弊用户、以及所述非作弊用户点击广告的点 击日志,所述非作弊用户的点击日志用于记录所述非作弊用户在应用中点击广告的操作; 将所述非广告作弊用户、所述非作弊用户的点击广告的点击日志对应所述至少一个维 度的特征标记为负样本; 将所述负样本连同所述正样本输入所述第二层级作弊用户识别模型,基于输入的正样 本和负样本对所述第二层级作弊用户识别模型中的模型参数进行训练。9. 根据权利要求要求1所述的方法,其特征在于, 所述方法还包括: 当点击广告的用户的标识与预设的第三层级作弊用户的标识匹配时,将所述点击广告 的用户识别为所述第三层级作弊用户; 或者, 获取点击广告的用户在统计时段中点击广告的次数,当点击广告的次数超出点击量阈 值时,将所述点击广告的用户识别为所述第三层级作弊用户; 所述方法还包括: 对所述作弊用户的点击量进行过滤,过滤方式包括以下至少之一: 对所述作弊用户的点击量中超出点击量阈值之外的点击量进行过滤; 对所述作弊用户的点击量中未超出点击量阈值的点击量进行过滤。10. -种广告反作弊装置,其特征在于,所述装置包括: 样本模块,用于获取样本集合,其中,所述样本集合中的至少一个样本包括作弊用户、 以及所述作弊用户点击广告的点击日志; 提取模块,用于从所述样本集合的样本中提取与待识别的作弊用户的层级对应的至少 一个维度的特征,其中,不同层级所述待识别的作弊用户所对应的特征不同; 模型训练模块,用于基于所述作弊用户、所述作弊用户点击广告的点击日志对应所述 至少一个维度的特征形成正样本,至少基于所述正样本对与待识别的作弊用户的层级对应 的作弊用户识别模型进行训练; 模型应用模块,用于确定待识别的样本对应所述至少一个维度的特征;将所述待识别 样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型,基于输出结果识 别出所述待识别的样本中的作弊用户。11. 根据权利要求要求10所述的装置,其特征在于, 所述样本模块,还用于解析出所述应用样本中所包括的用户、以及所述应用样本中任 意两个用户在以下至少一个维度的相关度: 所述应用中任意两个用户在应用中点击广告的操作的特征的相关度; 所述应用中任意两个用户在所述应用中点击的广告所曝光对象的相关度; 所述应用中任意两个用户点击广告所使用的设备的信息的相关度; 所述应用中任意两个用户点击所点击广告的广告效果的相关度; 所述样本集合中的样本为与应用对应的应用样本,至少一个所述应用样本为已知存在 所述高层级作弊用户的应用对应,每个所述应用样本包括所对应应用的以下维度的信息至 少之一: 所述应用的用户在所述应用中点击广告的点击日志; 所述应用的用户在所述应用中点击广告的曝光日志; 所述应用的用户在所述应用中点击广告的效果日志; 所述应用的用户所使用的设备的信息。12. 根据权利要求要求11所述的装置,其特征在于, 所述模型训练模块,还用于将已知包括有所述第一层级作弊用户的所述应用样本、以 及所述应用样本中任意两个用户在所述至少一个维度的特征的相关度标记为所述正样本; 将所述正样本输入第一层级作弊用户识别模型,基于输入的正样本对所述第一层级作弊用 户识别模型中的模型参数进行训练。13. 根据权利要求要求11所述的装置,其特征在于, 所述模型训练模块,还用于基于所述样本集合中的无标记应用样本、所述无标记应用 样本中任意两个用户对应至少一个所述维度的相关度形成无标记样本,基于所述无标记样 本和所述正样本对第一层级作弊用户识别模型的模型参数进行训练,直至,输入所述第一 层级作弊用户识别模型的所述无标记样本中被所述第一层级作弊用户识别模型标记为正 样本的数量处于稳定状态; 其中,所述无标记应用样本为所述样本集合中未知存在高层级作弊用户的应用样本。14. 根据权利要求要求11所述的装置,其特征在于, 所述模型应用模块,还用于获取第一层级作弊用户识别模型输出的待识别应用中任意 两个用户与至少一个所述维度对应的相关度,确定待识别应用中用户与至少一个所述维度 对应的平均相关度; 当所述平均相关度超出平均相关度阈值时判定所述待识别应用中的用户为第一层级 作弊用户。15. 根据权利要求要求10所述的装置,其特征在于, 所述提取模块,还用于提取出所述样本集合中的点击日志中对应点击广告的操作数 据; 解析所提取的操作数据对应得到与点击广告的操作相关联的特征; 其中,与点击广告的操作相关联的特征包括以下至少一个维度的特征: 在统计时段内的点击量; 在所述统计时段内点击过广告的时间周期的数量; 在所述统计时段中点击广告的间隔时间的平均值; 所述统计时段内识别的作弊用户的历史比例; 所述统计时段内所点击过广告的时间周期中点击广告的平均点击量。16. 根据权利要求要求15所述的装置,其特征在于, 所述模型训练模块,还用于将所述正样本输入第二层级作弊用户识别模型,基于输入 的正样本对所述第二层级作弊用户识别模型中的模型参数进行训练;测试所述第二层级作 弊用户识别模型的识别作弊用户的精度,识别精度未达到预设精度时对所述模型参数进行 调整处理,直至所述第二层级作弊用户识别模型的精度达到预设精度; 其中,所述作弊用户的点击日志为所述作弊用户执行广告任务平台中广告任务所对应 的点击日志。17. 根据权利要求要求16所述的装置,其特征在于, 所述模型训练模块,还用于将非广告作弊用户、所述非作弊用户的点击广告的点击日 志对应所述至少一个维度的特征标记为负样本; 将所述负样本连同所述正样本输入所述第二层级作弊用户识别模型,基于所述正样本 和所述负样本对所述第二层级作弊用户识别模型中的模型参数进行训练; 其中,所述样本集合中的至少一个样本包括所述非作弊用户、以及所述非作弊用户点 击广告的点击日志,所述非作弊用户的点击日志用于记录所述非作弊用户在应用中点击广 告的操作; 其中,所述待识别样本为所述待识别应用。18. 根据权利要求要求10所述的装置,其特征在于, 所述装置还包括: 统计模块,用于当点击广告的用户的标识与预设的第三层级作弊用户的标识匹配时, 将所述点击广告的用户识别为所述第三层级作弊用户;或者,获取点击广告的用户在统计 时段中点击广告的次数,当点击广告的次数超出点击量阈值时,将所述点击广告的用户识 别为所述第三层级作弊用户; 所述装置还包括: 判罚模块,用于对所述作弊用户的点击量进行过滤,过滤方式包括以下至少之一: 对所述作弊用户的点击量中超出点击量阈值之外的点击量进行过滤; 对所述作弊用户的点击量中未超出点击量阈值的点击量进行过滤。
【文档编号】G06Q30/02GK106022834SQ201610349338
【公开日】2016年10月12日
【申请日】2016年5月24日
【发明人】程权, 李益群, 王春辉
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1