一种媒体反作弊方法及装置、存储介质、终端与流程

文档序号:12887921阅读:327来源:国知局
一种媒体反作弊方法及装置、存储介质、终端与流程

本发明涉及互联网数据领域,具体地涉及一种媒体反作弊方法及装置、存储介质、终端。



背景技术:

伴随互联网的发展,互联网信息发布产业不断壮大。在这一大背景下,为了追求利益最大化,媒体(用于向公众发布待展示信息)、待展示信息的提供方(以下简称信息提供方)和第三方平台(用于连接所述媒体和信息提供方的平台)都会有作弊行为。这其中,媒体作弊是一个巨大的主体。据权威机构统计,目前有接近30%的媒体流量来自于虚假流量(也可称为作弊流量),媒体通过作弊流量来骗取更高的收益。这种行为大大伤害了信息提供方的利益,扰乱了竞价市场,同时对于需求方平台(demand-sideplatform,简称dsp),由于虚假的作弊流量的接入,影响了所述需求方平台的模型的效果。因此,反作弊刻不容缓。

现有比较普遍的媒体作弊行为主要包括以下几种:

机器流量或肉鸡:一部分源于机器作弊,例如,脚本刷量、病毒控制肉鸡访问,更有甚者开始偷梁换柱,包括域名系统(domainnamesystem,简称dns)劫持、通过技术方式在页面加载肉眼不可见的广告等方式,制造虚假曝光、点击、甚至转化以获得作弊流量。

真人作弊:在移动互联网、众包模式发达的今天,同样滋生了雇佣真人点击、刷单、甚至接听回访电话、实际付费购买的真人作弊产业链。这种人工干预,是最难防止的,因为它几乎与正常的广告行为非常相似。例如,随着品牌广告主对优质资源的需求量增大,部分媒体受利益的驱使,以次充好。比如将一些劣质网站资源“包装”后出售、以个人计算机(personalcomputer,简称pc)流量冒充移动流量等。这种人为作弊方式,使得信息发布投入的性价比大打折扣。

在现阶段,针对信息发布市场的作弊行为,主要包括以下的反作弊手段:

其一,依赖展示信息的投放日志,提取出有效规则和黑名单,比如在互联网协议(internetprotocol,简称ip)、设备身份(deviceidentification,简称deviceid)、媒体(media)、广告位置(adslot)等维度统计点击通过率(click-through-rate,简称ctr)、点击广告后成功跳转到落地页面的比例(landing-rate)等指标,并根据这些指标的异常建立规则和黑名单。

其二,积累作弊流量样本,根据实时竞价(realtimebidding,简称rtb)数据和信息提供方数据建立人群行为特征,从中发现作弊特征,并采用机器学习方法将其运用于在线过滤作弊。

此外,还包括前端技术检测,检测的内容包括多层展示信息位叠加,展示信息位不可见,非人的浏览行为等。

但是,上述现有技术主要侧重于对作弊手段的分析和预防,无法从根源上切断媒体作弊链,无法满足信息发布方对媒体反作弊的效果预期。进一步地,对于信息发布方,若无法有效切断媒体作弊链,不仅会提高信息发布成本,使得信息发布投入的性价比大打折扣,还会极大的影响信息发布的实际成功率。



技术实现要素:

本发明解决的技术问题是如何更有效的识别并预防媒体的作弊行为,以降低信息发布成本,提高信息发布的实际成功率。

为解决上述技术问题,本发明实施例提供一种媒体反作弊方法,包括:从展示请求中获取用户信息,所述用户信息包括用户标识以及媒体标识,所述展示请求指向由所述用户标识和媒体标识界定的展示资源;统计预设时间段内获取的多个用户信息,并根据统计结果构建媒体共享网络图,所述媒体共享网络图用于表示不同媒体标识对同一用户标识的共享度;对所述媒体共享网络图进行降维处理;根据降维处理后的媒体共享网络图更新作弊媒体清单。

可选的,所述媒体反作弊方法还包括:对于新的展示请求,查找所述新的展示请求包括的媒体标识是否记录于更新后的作弊媒体清单;当查找结果表明所述媒体标识记录于所述更新后的作弊媒体清单时,滤除所述展示请求。

可选的,所述统计结果包括第一统计结果和第二统计结果,所述统计预设时间段内获取的多个用户信息包括:对于每一个媒体标识,统计所述多个用户信息中与所述媒体标识相关联的所有用户标识的数量,其中,位于同一用户信息中的媒体标识和用户标识相关联;基于与所述媒体标识相关联的所有用户标识的数量获得所述第一统计结果;对于任两个媒体标识,统计所述多个用户信息中被所述任两个媒体标识共享的所有用户标识的数量;基于被所述任两个媒体标识共享的所有用户标识的数量获得所述第二统计结果。

可选的,所述基于与所述媒体标识相关联的所有用户标识的数量获得所述第一统计结果包括:根据第一预设阈值过滤与所述媒体标识相关联的所有用户标识的数量,以获得所述第一统计结果。

可选的,所述基于被所述任两个媒体标识共享的所有用户标识的数量获得所述第二统计结果包括:根据第二预设阈值过滤被所述任两个媒体标识共享的所有用户标识的数量,以获得所述第二统计结果。

可选的,所述根据统计结果构建媒体共享网络图包括:以所述媒体标识为节点构建所述媒体共享网络图,其中,共享相同用户标识的两个媒体标识以边进行连接,所述边的边长根据所述第一统计结果和第二统计结果确定。

可选的,所述边的边长根据所述第一统计结果和第二统计结果确定是指:所述边长等于与所述边长关联的第二结果项除以与所述边长关联的第一结果项,其中,所述第二结果项是指所述第二统计结果中,基于所述边所连接的两个媒体标识共享的所有用户标识的数量获得的结果项;所述第一结果项是指所述第一统计结果中,基于所述两个媒体标识各自关联的所有用户标识的数量分别获得的结果项中较大的一个。

可选的,所述对所述媒体共享网络图进行降维处理包括:采用聚类算法对所述媒体共享网络图进行降维处理。

可选的,所述聚类算法包括k中心值算法,其中,所述k用于表示所述降维处理后的媒体共享网络图中各节点至少包括的边的数量。

可选的,所述聚类算法包括完全子图算法。

可选的,所述对所述媒体共享网络图进行降维处理还包括:在采用聚类算法对所述媒体共享网络图进行降维处理之前,将边长小于预设边长的边从所述媒体共享网络图中删除。

可选的,在采用聚类算法对所述媒体共享网络图进行降维处理之前和/或之后,还包括:删除所述媒体共享网络图中的孤立节点。

可选的,所述展示请求包括统一资源定位符,所述从展示请求中获取用户信息包括:解析所述统一资源定位符,以获取所述用户信息。

可选的,所述展示请求是以广播日志的形式发送的。

本发明实施例还提供一种媒体反作弊装置,包括:获取模块,用于从展示请求中获取用户信息,所述用户信息包括用户标识以及媒体标识,所述展示请求指向由所述用户标识和媒体标识界定的展示资源;统计构建模块,用于统计预设时间段内获取的多个用户信息,并根据统计结果构建媒体共享网络图,所述媒体共享网络图用于表示不同媒体标识对同一用户标识的共享度;降维处理模块,用于对所述媒体共享网络图进行降维处理;更新模块,用于根据降维处理后的媒体共享网络图更新作弊媒体清单。

可选的,所述媒体反作弊装置还包括:查找模块,对于新的展示请求,查找所述新的展示请求包括的媒体标识是否记录于更新后的作弊媒体清单;滤除模块,当查找结果表明所述媒体标识记录于所述更新后的作弊媒体清单时,滤除所述展示请求。

可选的,所述统计结果包括第一统计结果和第二统计结果,所述统计构建模块包括:第一统计子模块,对于每一个媒体标识,统计所述多个用户信息中与所述媒体标识相关联的所有用户标识的数量,其中,位于同一用户信息中的媒体标识和用户标识相关联;第一确定子模块,用于基于与所述媒体标识相关联的所有用户标识的数量获得所述第一统计结果;第二统计子模块,对于任两个媒体标识,统计所述多个用户信息中被所述任两个媒体标识共享的所有用户标识的数量;第二确定子模块,用于基于被所述任两个媒体标识共享的所有用户标识的数量获得所述第二统计结果。

可选的,所述第一确定子模块包括:第一过滤单元,用于根据第一预设阈值过滤与所述媒体标识相关联的所有用户标识的数量,以获得所述第一统计结果。

可选的,所述第二确定子模块包括:第二过滤单元,用于根据第二预设阈值过滤被所述任两个媒体标识共享的所有用户标识的数量,以获得所述第二统计结果。

可选的,所述统计构建模块还包括:构建子模块,用于以所述媒体标识为节点构建所述媒体共享网络图,其中,共享相同用户标识的两个媒体标识以边进行连接,所述边的边长根据所述第一统计结果和第二统计结果确定。

可选的,所述边的边长根据所述第一统计结果和第二统计结果确定是指:所述边长等于与所述边长关联的第二结果项除以与所述边长关联的第一结果项,其中,所述第二结果项是指所述第二统计结果中,基于所述边所连接的两个媒体标识共享的所有用户标识的数量获得的结果项;所述第一结果项是指所述第一统计结果中,基于所述两个媒体标识各自关联的所有用户标识的数量分别获得的结果项中较大的一个。

可选的,所述降维处理模块包括:降维处理子模块,用于采用聚类算法对所述媒体共享网络图进行降维处理。

可选的,所述聚类算法包括k中心值算法,其中,所述k用于表示所述降维处理后的媒体共享网络图中各节点至少包括的边的数量。

可选的,所述聚类算法包括完全子图算法。

可选的,所述降维处理模块还包括:第一删除子模块,用于在采用聚类算法对所述媒体共享网络图进行降维处理之前,将边长小于预设边长的边从所述媒体共享网络图中删除。

可选的,所述降维处理模块还包括:第二删除子模块,用于在采用聚类算法对所述媒体共享网络图进行降维处理之前和/或之后,删除所述媒体共享网络图中的孤立节点。

可选的,所述展示请求包括统一资源定位符,所述获取模块包括:解析子模块,用于解析所述统一资源定位符,以获取所述用户信息。

可选的,所述展示请求是以广播日志的形式发送的。

本发明实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。

本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

从展示请求中获取用户信息,所述用户信息包括用户标识以及媒体标识,所述展示请求指向由所述用户标识和媒体标识界定的展示资源;统计预设时间段内获取的多个用户信息,并根据统计结果构建媒体共享网络图,所述媒体共享网络图用于表示不同媒体标识对同一用户标识的共享度;对所述媒体共享网络图进行降维处理;根据降维处理后的媒体共享网络图更新作弊媒体清单。较之现有技术以作弊手段的分析和预防为主的媒体反作弊方案,本发明实施例的技术方案从源头着手,通过数据分析,识别出作弊群(例如,若多个网站的站内人群高度重叠,则有极大概率可以确定所述多个网站组成了一个作弊群),从而更有效的识别并预防媒体的作弊行为,降低信息发布成本,提高信息发布的实际成功率。

进一步,对于新的展示请求,查找所述新的展示请求包括的媒体标识是否记录于更新后的作弊媒体清单;当查找结果表明所述媒体标识记录于所述更新后的作弊媒体清单时,滤除所述展示请求。例如,建立一个作弊媒体库对基于本发明实施例的技术方案确定的作弊群中包括的作弊媒体进行记录,所述作弊媒体库可以包括所述作弊媒体清单,若新的展示请求包括的媒体标识在所述作弊媒体清单中可以查找到对应记录,可以确定所述媒体标识关联的媒体是作弊媒体,则过滤所述展示请求,不进行竞价操作。

附图说明

图1是本发明第一实施例的一种媒体反作弊方法的流程图;

图2是采用本发明第一实施例构建的一种媒体共享网络图的示意图;

图3是采用本发明第一实施例构建的另一种媒体共享网络图的示意图;

图4是采用本发明实施例的一种媒体反作弊方法的应用场景示意图;

图5是本发明第二实施例的一种媒体反作弊装置的结构示意图。

具体实施方式

本领域技术人员理解,如背景技术所言,现有技术主要侧重于对作弊手段的分析和预防。

但是,本申请发明人通过分析发现,在实际应用中,不论是机器流量还是雇佣人工都需要成本。而且,现有的反作弊机制使得作弊流量无法在同一个媒体上无限作弊。又因为作弊的成本很高,如果要获得收益,就决定了媒体作弊通常是以网站群(或者网站联盟)的形式出现(其中,所述网站群包括的每一个网站可以与一个媒体相关联),这样的网站群可以称为作弊群。本申请发明人通过数据分析发现,对于多个网站,若所述多个网站之间毫不相关(或者相关性低于一定程度),但是所述多个网站内的人群却高度重叠,则所述多个网站有极大概率组成了一个作弊群或者作弊联盟进行媒体作弊。

例如,所述多个网站分摊作弊成本,以作弊群的形式雇佣同一批真人点击所述作弊群中所有网站上发布的信息,从而向在所述多个网站上投放信息的信息发布方收取更多的报酬。若基于现有技术,只能从作弊手段着手,对所述作弊群中每一个网站的作弊行为分别进行识别、预防,反作弊效率低下,还极易发生遗漏,无法更好的降低信息发布成本,提高信息发布的实际成功率。

为了解决这一技术问题,本发明实施例的技术方案从展示请求中获取用户信息,所述用户信息包括用户标识以及媒体标识,所述展示请求指向由所述用户标识和媒体标识界定的展示资源;统计预设时间段内获取的多个用户信息,并根据统计结果构建媒体共享网络图,所述媒体共享网络图用于表示不同媒体标识对同一用户标识的共享度;对所述媒体共享网络图进行降维处理;根据降维处理后的媒体共享网络图更新作弊媒体清单。从源头着手,通过数据分析,识别出作弊群,进而更有效的识别并预防媒体的作弊行为,降低信息发布成本,提高信息发布的实际成功率。

进一步,对于新的展示请求,查找所述新的展示请求包括的媒体标识是否记录于更新后的作弊媒体清单;当查找结果表明所述媒体标识记录于所述更新后的作弊媒体清单时,滤除所述展示请求。例如,建立一个作弊媒体库对基于本发明实施例的技术方案确定的作弊群中包括的作弊媒体进行记录,所述作弊媒体库可以包括所述作弊媒体清单,若新的展示请求包括的媒体标识在所述作弊媒体清单中可以查找到对应记录,可以确定所述媒体标识关联的媒体是作弊媒体,则过滤所述展示请求,不进行竞价操作。

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明第一实施例的一种媒体反作弊方法的流程图。其中,所述媒体可以是提供展示资源的销售方,例如,所述媒体可以通过销售方平台(sell-sideplatform,简称ssp)对自身的展示资源进行管理;所述媒体反作弊可以包括识别、预防所述媒体的作弊行为;所述作弊行为可以包括所述媒体通过虚假点击等方式,制造所述展示资源上发布的信息被成功点击的假象,以向在所述展示资源上发布信息的信息发布方获取非法报酬的行为。

具体地,在本实施例中,所述媒体反作弊方法可以按照如下步骤实施:

步骤s101,从展示请求中获取用户信息,所述用户信息包括用户标识以及媒体标识,所述展示请求指向由所述用户标识和媒体标识界定的展示资源。

步骤s102,统计预设时间段内获取的多个用户信息,并根据统计结果构建媒体共享网络图,所述媒体共享网络图用于表示不同媒体标识对同一用户标识的共享度。

步骤s103,对所述媒体共享网络图进行降维处理。

步骤s104,根据降维处理后的媒体共享网络图更新作弊媒体清单。

进一步地,所述展示请求可以包括实时竞价(realtimebidding,简称rtb)请求。优选地,所述展示请求可以是历史上进行信息发布时生成的,也可以是进行本次信息发布时生成的。

例如,用户通过手机打开与所述媒体相关联的网站,所述网站上有一个展示资源,所述媒体通过所述ssp询问所述信息发布方是否需要在所述展示资源上发布(也可称为投放)信息,所述信息发布方通过需求方平台(demand-sideplatform,简称dsp)获取所述媒体的询问,并通过所述dsp发送所述rtb请求,以就所述展示资源进行竞价,所述rtb请求中包括所述用户信息,基于本发明实施例的技术方案,通过统计预设时间段内获取的多个用户信息,可以判断所述媒体是否为作弊媒体,进而确定是否在未来就所述媒体提供的展示资源进行竞价。优选地,所述信息发布方(或者所述dsp)通过所述用户标识和媒体标识确定提供所述展示资源的媒体,以及竞价成功后最终呈现所述信息发布方的信息的设备。

进一步地,所述用户标识可以包括与所述用户相关联的身份标识(identification,简称id)。更进一步地,所述用户标识与所述用户一一对应。在一个优选例中,所述身份标识可以包括设备的身份标识,所述设备可以用于向所述用户展示在所述展示资源上发布的信息。

优选地,对于使用ios系统的设备,所述用户标识可以是所述设备的广告标示符(identifierforidentifier,简称idfa);对于使用android系统的设备,所述用户标识可以是所述设备的国际移动设备身份码(internationalmobileequipmentidentity,简称imei),本领域技术人员还可根据实际需要变化出更多实施例,在此不予赘述。

进一步地,所述媒体标识可以提供所述展示资源的媒体的身份标识。更进一步地,所述媒体标识与所述媒体一一对应。在一个优选例中,所述媒体标识可以是与所述媒体相关联的网站的域名(domainname,也可简称为domain)。

进一步地,所述展示请求中包括统一资源定位符(uniformresourcelocator,简称url)。

在一个优选例中,所述步骤s101可以包括步骤:解析所述统一资源定位符,以获取所述用户信息。例如,所述url中包括与所述展示请求相关联的设备所处的互联网协议地址(internetprotocoladdress,简称ip地址),通过解析获得所述设备所处的ip地址,可以获取所述媒体标识(例如,与所述媒体相关联的网站的域名)。又例如,所述展示请求中还可以包括与所述展示请求相关联的设备的cookie,通过解析所述cookie,可以获得所述用户标识(例如,所述设备的身份标识)。

需要指出的是,本实施例并未就所述展示请求的发送发和接收方做任何特殊限定,只要是可以从中解析出所述用户信息的展示请求即可。

例如,所述展示请求可以是以广播日志的形式发送的。例如,可以从广告交易平台(adexchange)发送给所述dsp的互联网流量数据(即rtb广播数据)中获取所述用户信息;另一方面,若提供所述展示资源的媒体未记录于所述作弊媒体清单,所述dsp还可以根据所述rtb广播数据生成所述rtb请求以就所述展示请求执行的展示资源进行竞价,或者,所述dsp还可以在执行了本发明实施例的技术方案后,再根据所述更新后的作弊媒体清单确定是否参与本次竞价。

进一步地,所述预设时间段可以由所述信息发布方或所述dsp确定,或者,也可以由其他第三方进行设置,这并不影响本发明的技术内容。例如,所述预设时间段可以是历史上首次生成所述展示请求至今的所有时期;又例如,所述预设时间段还可以是最近一周、一个月、一年等。

进一步地,所述统计结果包括第一统计结果和第二统计结果。所述步骤s102中统计预设时间段内获取的多个用户信息的步骤可以包括:对于每一个媒体标识,统计所述多个用户信息中与所述媒体标识相关联的所有用户标识的数量,其中,位于同一用户信息中的媒体标识和用户标识相关联;基于与所述媒体标识相关联的所有用户标识的数量获得所述第一统计结果;对于任两个媒体标识,统计所述多个用户信息中被所述任两个媒体标识共享的所有用户标识的数量;基于被所述任两个媒体标识共享的所有用户标识的数量获得所述第二统计结果。

进一步地,对于不同的两个用户信息,若两个用户信息包括相同的用户标识,但这两个用户信息包括的媒体标识不相同,则所述用户标识可以与这两个媒体标识均相关联,亦即所述用户标识被这两个媒体标识共享。

例如,在所述预设时间段内获取的多个用户信息中,有一部分的用户信息包括的用户标识相同,还有一部分的用户信息包括的媒体标识相同,即所述多个用户信息中有一部分用户标识被不止一个媒体标识共享,则本实施例通过构建所述媒体共享网络图来体现上述多个用户信息中,所有被不止一个媒体标识共享的用户标识被媒体标识共享的程度,进而可以通过所述媒体共享网络图来体现与多个用户信息相关联的所有媒体的紧密程度。其中,所述紧密程度可以是两个不相关的媒体的网站内人群(可以通过所述用户标识指代)的重叠程度。

在一个优选例中,可以根据第一预设阈值过滤与所述媒体标识相关联的所有用户标识的数量,以获得所述第一统计结果。其中,所述第一预设阈值可以由所述信息发布方或所述dsp确定,或者,也可以由其他第三方进行设置。优选地,所述第一预设阈值可以是100。本领域技术人员理解,所述第一预设阈值可以用于过滤掉获得的结果项中与所述媒体标识相关联的所有用户标识数量过小的结果项,可以认为这些结果项不具有统计意义。

在另一个优选例中,还可以根据第二预设阈值过滤被所述任两个媒体标识共享的所有用户标识的数量,以获得所述第二统计结果。其中,所述第二预设阈值可以由所述信息发布方或所述dsp确定,或者,也可以由其他第三方进行设置。优选地,所述第二预设阈值可以是20万。本领域技术人员理解,所述第二预设阈值可以用于过滤掉所述结果项中被所述两个媒体标识共享的所有用户标识数量过大的结果项,因为不能排除这些结果项对应的媒体确实相关的可能性,所以,为了避免误伤,可以将这些结果项过滤掉,以免反而对所述信息发布方的信息发布造成负面影响。

在一个典型的应用场景中,结合图2所示,所述步骤s102中根据统计结果构建媒体共享网络图的步骤可以包括:以所述媒体标识为节点构建所述媒体共享网络图,其中,共享相同用户标识的两个媒体标识以边进行连接,所述边的边长根据所述第一统计结果和第二统计结果确定。

例如,参考图2,基于所述步骤s102对所述预设时间段内获取的多个用户信息进行统计后,获得的所述统计结果包括10个媒体标识,其中,每一个媒体标识(以域名表示)可以对应图2示出的一个节点(为方便表述,本实施例将节点直接命名为对应的媒体标识,即图2示出的10个节点分别为001875.cn节点、ziyouhu.com节点、cdszynj.com节点、zhongfeihuayuan.com节点、yxlady.com节点、023163.cn节点、shcyw.com.cn节点、ttachi.com节点、ytskzx.cn节点以及zhenzuanwang.com节点)。优选地,还可以在所述媒体共享网络图中记录每个节点关联的用户标识的数量(图中未示出)。进一步地,还可以将上述10个节点中共享相同用户标识的两个节点相连。例如,继续参考图2,基于所述统计结果,所述023163.cn节点和所述zhenzuanwang.com节点共享相同的用户标识,则所述023163.cn节点和所述zhenzuanwang.com节点之间有连线;而所述统计结果表明所述023163.cn节点和所述shcyw.com.cn节点未共享任何用户标识,则所述023163.cn节点和所述shcyw.com.cn节点之间没有连线。优选地,还可以在所述媒体共享网络图中记录任两个节点共享的相同用户标识的数量(图中未示出)。

进一步地,所述边长等于与所述边长关联的第二结果项除以与所述边长关联的第一结果项,其中,所述第二结果项是指所述第二统计结果中,基于所述边所连接的两个媒体标识共享的所有用户标识的数量获得的结果项;所述第一结果项是指所述第一统计结果中,基于所述两个媒体标识各自关联的所有用户标识的数量分别获得的结果项中较大的一个。

继续参考图2,以所述cdszynj.com节点和001875.cn节点为例,为了确定连接这两个节点的边的边长,需要确定三个参数,其一是统计所述cdszynj.com节点和001875.cn节点共享的所有用户标识的数量获得的结果项(如5000个),其二是统计与所述cdszynj.com节点相关联的所有用户标识的数量获得的结果项(如1万个),其三是统计与所述001875.cn节点相关联的所有用户标识的数量获得的结果项(如2万个),则基于前述计算原理,所述第一结果项为2万个、第二结果项为5000个,则所述边长为5000/10000=0.5。

本领域技术人员理解,所述边长越小,所述边长所连接的两个媒体标识关联的媒体就越紧密,这两个媒体标识组成作弊群雇佣同一批用户进行作弊的概率也就越大。

进一步地,所述步骤s103可以包括:采用聚类算法对所述媒体共享网络图进行降维处理。在一个优选例中,可以采用k中心值算法(k-core算法)对所述媒体共享网络图进行降维处理。其中,所述k用于表示所述降维处理后的媒体共享网络图中各节点至少包括的边的数量。

例如,对于基于所述步骤s101和步骤s102获得的所述媒体共享网络图,若设置所述k为2,就可以获得图2所示的媒体共享网络图(此时,图2示出的所述媒体共享网络图可以是已经基于所述k中心值算法进行过降维处理的媒体共享网络图)。其中,仍保留在图2示出的所述媒体共享网络图中的每一节点各自包括的边的数量都大于等于2。

又例如,对于基于所述步骤s101和步骤s102获得的所述媒体共享网络图,若设置所述k为3,就可以获得图3所示的媒体共享网络图(此时,图3示出的所述媒体共享网络图可以是已经基于所述k中心值算法进行过降维处理的媒体共享网络图)。其中,仍保留在图3示出的所述媒体共享网络图中的每一节点各自包括的边的数量都大于等于3。

作为一个变化例,还可以采用完全子图算法对所述媒体共享网络图进行降维处理。具体地,在采用所述完全子图算法进行降维处理后,获得的所述降维处理后的媒体共享网络图中每两个节点相互连接。本领域技术人员理解,较之上述k中心值算法,本变化例所采用的完全子图算法可以确保降维处理后的媒体共享网络图的结构更加紧密,能够更好的避免误杀。但是,这样的方案同样可能导致最终得到的作弊网络太小,无法识别所有的作弊媒体。此外,所述完全子图算法的算法复杂度也较高。所以,在实际应用中,本领域技术人员可以根据实际需要选择所述k中心值算法或者所述完全子图算法来对所述媒体共享网络图进行降维处理,或者,也可以采用其他合适的聚类算法(也可称为降维算法)对所述媒体共享网络图进行降维处理。

在一个变化例中,在采用所述聚类算法对所述媒体共享网络图进行降维处理之前,还可以将边长小于预设边长的边从所述媒体共享网络图中删除。例如,可以将本变化例视为对所述媒体共享网络图进行降维处理之前的一次预降维处理,用于对所述媒体共享网络图进行一次过滤,将组成作弊群的概率较小的两个媒体之间的紧密程度降为零,以确保保留在所述媒体共享网络图中存在共享用户标识两个媒体标识各自对应的媒体之间的紧密程度是足够高的。优选地,所述预设边长可以是0.5,本领域技术人员还可以根据实际需要变化出更多实施例,在此不予赘述。作为一个变化例,所述小于还可以包括小于等于。

在另一个变化例中,在采用所述聚类算法对所述媒体共享网络图进行降维处理之前和/或之后,还可以包括:删除所述媒体共享网络图中的孤立节点。

例如,以图3为例,若图3示出的是进行降维处理之前的媒体共享网络图,并且本次基于所述k中心值算法进行降维处理时采用的k=4,则在进行了降维处理后,图3示出的所述媒体共享网络图中,zyhtjx.com节点、zzhspl.cn节点、zztieba.com节点、zhuangyuanxiong.com节点以及cc00.cn节点都会降维为孤立点,则可以确定这几个节点不是作弊媒体,因而可以将这些节点从降维处理后的媒体共享网络图中删除,以优化降维处理后的媒体共享网络图的显示结果。

相似的,在对所述媒体共享网络图进行降维处理之前,所述媒体共享网络图也可能已经存在孤立点,同样需要将所述孤立点删除。例如,所述预设时间段内获取的多个用户信息中,可能存在初始就与其他媒体标识没有共享任何用户标识的媒体标识,则该媒体标识在所述媒体共享网络图构建初期就可以以孤立点的形式展现,需要删除。又例如,在基于上述变化例所述的预设边长对所述媒体共享网络图进行过滤边操作后,同样可能导致原本不是孤立点的媒体标识变成了孤立点,则在进行了滤边操作后,也需要取出所述媒体共享网络图中新出现的孤立点。

进一步地,所述更新可以包括建立新的作弊媒体清单,还可以包括在旧有作弊媒体清单的基础上进行更新,以确保所述作弊媒体清单中记录的作弊媒体的及时性以及准确性。

进一步地,在更新所述作弊媒体清单时,还可以统计所述降维处理后的媒体共享网络图中显示的节点数量,以及每一个节点各自关联的用户标识的数量。

在本实施例的一个变化例中,在执行步骤s104之后,还可以包括:对于新的展示请求,查找所述新的展示请求包括的媒体标识是否记录于更新后的作弊媒体清单;当查找结果表明所述媒体标识记录于所述更新后的作弊媒体清单时,滤除所述展示请求。例如,若所述新的展示请求包括的媒体标识记录与所述更新后的作弊媒体清单,则过滤掉所述新的展示请求,不对所述新的展示请求指向的展示资源进行竞价。

本领域技术人员理解,本实施例的技术方案是可以定期甚至实时执行的,例如,有的媒体经前一次执行本实施例的技术方案后确定不是作弊媒体,但并不代表该媒体未来不会成为作弊媒体,所以,对于新的展示请求,除了基于本变化例的方案判断是否需要滤除该展示请求之外,还可以就所述新的展示请求执行本实施例的技术方案,以判断与所述新的展示请求指向的展示资源相关联的媒体是否可能与所述预设时间段内获取的多个用户信息对应的媒体组成作弊群。

或者,为了减少运行量,在对前一预设时间段内获取的多个用户信息执行本发明实施例的技术方案以更新了所述作弊媒体清单后,对于新的展示请求,可以不是立即对所述新的展示请求执行本实施例的技术方案,而是将所述新的展示请求包括的用户信息计入一个新的预设时间段内获取的多个用户信息中的一个,当所述新的预设时间段到期时,再执行本实施例的技术方案以更新前一预设时间段更新过的所述作弊媒体清单。

进一步地,在删除所述孤立点时,还可以判断所述孤立点是否包括在所述作弊媒体清单中,例如,上一次执行本实施例的技术方案时判断一个媒体是作弊媒体,但本次执行本实施例的技术方案时判断所述媒体不是作弊媒体(即所述媒体构成所述降维处理后的媒体共享网络图中的孤立点),则可以将所述媒体从所述作弊媒体清单(或者更新后的作弊媒体清单)中删除,以为所述信息发布方创造更多的信息发布机会。

接下来结合图4进行进一步阐述,在执行本实施例的技术方案时,信号可以基于图4示出的应用场景示意图中的用户信息获取模块41、媒体共享网络构建模块42、媒体共享网络降维模块43以及媒体反作弊模块44之间流转,以识别作弊媒体并有效反作弊。

例如,参考图4,所述用户信息获取模块41所述预设时间段内多个rtb广播数据的url解析获得所述多个用户信息(包括用户标识和媒体标识),所述媒体共享网络构建模块42接收到所述用户信息获取模块41发送的所述多个用户信息后,确定任两个媒体标识对独立用户(uniquevisitor,简称uv)的共享比例(即所述第一统计结果和第二统计结果),从而根据所述多个用户信息包括的媒体标识数量,以及任两个媒体标识共享的用户标识数量,构建所述媒体共享网络图,所述媒体共享网络降维模块43采用所述k中心值算法简化所述媒体共享网络图,以剔除出不是作弊群的媒体标识,最终,所述媒体反作弊模块44根据所述媒体共享网络降维模块43降维处理后的媒体共享网络图更新作弊媒体清单,并在信息投放系统中使用。在所述信息投放系统中,对于与所述作弊媒体清单中记录的媒体标识相关联的新的展示请求,所述媒体反作弊模块44不就所述新的展示请求指向的展示资源参加竞价。

进一步地,所述媒体反作弊模块44还可以执行动作a1,以向所述媒体共享网络构建模块42发送反馈。其中,所述媒体共享网络构建模块42可以根据所述反馈调整所述第一预设阈值、第二预设阈值以及所述k中心值算法的k的具体数值。

本领域技术人员理解,在实际应用中,在实施本发明实施例的技术方案期间,也可以对所述作弊媒体清单中的媒体进行一定程度的探索,如按照预设的随机概率就这些媒体提供的展示资源参加竞价,以完成对于所述作弊媒体清单中的媒体所提供的媒体资源的预设信息发布指标。例如,所述预设的随机概率可以是p(如10%),而按照所述预设的随机概率就所述作弊媒体清单中各个媒体提供的展示资源参加竞价产生流量的成本记为cost,则投放在这些作弊媒体上的总成本可以基于公式cost=cost/p表示,其中,所述cost可以是所述预设信息发布指标。优选地,所述预设信息发布指标cost可以由信息发布方设定,也可以由所述dsp设定。在实施本发明实施例的技术方案期间,所述媒体反作弊模块44实时监控所述预设信息发布指标cost的数值变化情况,并通过执行所述动作a1以将监控结果反馈给所述媒体共享网络构建模块42。

在一个优选例中,当所述cost过大时(如超过预设临界最大值),则所述媒体共享网络构建模块42可以适当调大所述第一预设阈值、第二预设阈值以及所述k中心值算法的k的具体数值。

在一个变化例中,当所述cost过小时(如超过预设临界最小值),则所述媒体共享网络构建模块42可以适当调小所述第一预设阈值、第二预设阈值以及所述k中心值算法的k的具体数值。

表1示出了采用本实施例前后,所述信息发布方的成本开销对比。

具体地,如表1所示,其中列出了所述作弊媒体清单中记录的部分作弊媒体的媒体标识,以及各个媒体标识对应的用户标识的数量、历史上的显示数、点击量、采用本实施例之前就所述媒体提供的展示资源参加竞价而产生流量的成本(即反作弊前成本)以及采用本实施例之后就所述媒体提供的展示资源参加竞价而产生流量的成本(即反作弊后成本)。

表1采用本实施例前后的成本开销对比

从所述表1中可以直观的看出,在采用本实施例之后,能够极大的降低信息发布方消耗在所述作弊媒体上的信息发布成本。

由上,采用第一实施例的方案,可以基于历史上的多个展示请求获取多个用户信息,进而通过对所述多个用户信息的统计构建所述媒体共享网络图,并通过对所述媒体共享网络图进行降维处理来合理滤除组成作弊群的概率较小的那部分媒体标识,以及若误伤可能对信息发布方造成不利影响的那部分媒体标识,从而基于所述降维处理后的媒体共享网络图更新作弊媒体清单,以便对新的展示请求进行过滤,滤除与作弊群关联的展示请求,不参与作弊群提供的展示资源的竞价。

图5是本发明第二实施例的一种媒体反作弊装置的结构示意图。本领域技术人员理解,本实施例所述媒体反作弊装置5用于实施上述图1至图4所示实施例中所述的方法技术方案。具体地,在本实施例中,所述媒体反作弊装置5包括获取模块51,用于从展示请求中获取用户信息,所述用户信息包括用户标识以及媒体标识,所述展示请求指向由所述用户标识和媒体标识界定的展示资源;统计构建模块52,用于统计预设时间段内获取的多个用户信息,并根据统计结果构建媒体共享网络图,所述媒体共享网络图用于表示不同媒体标识对同一用户标识的共享度;降维处理模块53,用于对所述媒体共享网络图进行降维处理;更新模块54,用于根据降维处理后的媒体共享网络图更新作弊媒体清单。

进一步地,所述媒体反作弊装置5还包括查找模块55,对于新的展示请求,查找所述新的展示请求包括的媒体标识是否记录于更新后的作弊媒体清单;滤除模块56,当查找结果表明所述媒体标识记录于所述更新后的作弊媒体清单时,滤除所述展示请求。

进一步地,所述统计结果包括第一统计结果和第二统计结果,所述统计构建模块52包括第一统计子模块521,对于每一个媒体标识,统计所述多个用户信息中与所述媒体标识相关联的所有用户标识的数量,其中,位于同一用户信息中的媒体标识和用户标识相关联;第一确定子模块522,用于基于与所述媒体标识相关联的所有用户标识的数量获得所述第一统计结果;第二统计子模块523,对于任两个媒体标识,统计所述多个用户信息中被所述任两个媒体标识共享的所有用户标识的数量;第二确定子模块524,用于基于被所述任两个媒体标识共享的所有用户标识的数量获得所述第二统计结果。

优选地,所述第一确定子模块522包括第一过滤单元5221,用于根据第一预设阈值过滤与所述媒体标识相关联的所有用户标识的数量,以获得所述第一统计结果。

优选地,所述第二确定子模块524包括第二过滤单元5241,用于根据第二预设阈值过滤被所述任两个媒体标识共享的所有用户标识的数量,以获得所述第二统计结果。

进一步地,所述统计构建模块52还包括构建子模块525,用于以所述媒体标识为节点构建所述媒体共享网络图,其中,共享相同用户标识的两个媒体标识以边进行连接,所述边的边长根据所述第一统计结果和第二统计结果确定。

优选地,所述边的边长根据所述第一统计结果和第二统计结果确定是指:所述边长等于与所述边长关联的第二结果项除以与所述边长关联的第一结果项,其中,所述第二结果项是指所述第二统计结果中,基于所述边所连接的两个媒体标识共享的所有用户标识的数量获得的结果项;所述第一结果项是指所述第一统计结果中,基于所述两个媒体标识各自关联的所有用户标识的数量分别获得的结果项中较大的一个。

进一步地,所述降维处理模块53包括降维处理子模块532,用于采用聚类算法对所述媒体共享网络图进行降维处理。

优选地,所述聚类算法包括k中心值算法,其中,所述k用于表示所述降维处理后的媒体共享网络图中各节点至少包括的边的数量。

优选地,所述聚类算法包括完全子图算法。

进一步地,所述降维处理模块53还包括第一删除子模块531,用于在采用聚类算法对所述媒体共享网络图进行降维处理之前,将边长小于预设边长的边从所述媒体共享网络图中删除。

进一步地,所述降维处理模块53还包括第二删除子模块533,用于在采用聚类算法对所述媒体共享网络图进行降维处理之前和/或之后,删除所述媒体共享网络图中的孤立节点。

进一步地,所述展示请求包括统一资源定位符,所述获取模块51包括解析子模块511,用于解析所述统一资源定位符,以获取所述用户信息。优选地,所述展示请求是以广播日志的形式发送的。

关于所述媒体反作弊装置5的工作原理、工作方式的更多内容,可以参照图1至图4中的相关描述,这里不再赘述。

进一步地,本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图1至图4所示实施例中所述的方法技术方案。优选地,所述存储介质可以包括计算机可读存储介质。所述存储介质可以包括rom、ram、磁盘或光盘等。

进一步地,本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1至图4所示实施例中所述的方法技术方案。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1