基于大数据的流量反作弊方法和装置与流程

文档序号：16134363发布日期：2018-12-01 00:44阅读：588来源：国知局

本发明涉及互联网大数据分析技术领域，尤其涉及大数据流量反作弊的方剂和装置。

背景技术

rtb(realtimebidding)实时竞价，是一种利用第三方技术在数以百万计的网站上针对每一个用户展示行为进行评估以及出价的竞价技术。在rtb广告交易模式中，原有的广告生态链发生了变化，整个生态链包括广告主、dsp、广告交易平台以及互联网媒体四个主体。广告主将自己的广告需求放到dsp平台上，互联网媒体将自己的广告流量资源放到广告交易平台，dsp通过与广告交易平台的技术对接完成竞价购买。

由于接入的渠道流量巨大，且实时高并发，对于流量的识别，需要具有高可靠、高扩展、高效、高容错、低成本等特性，用于对海量数据的高效分析和处理。但是目前的网络广告生态圈中，存在着不少作弊流量。作弊流量利用伪造网站、伪造广告点击等各种不同方式来赚取广告主用于网络宣传的经费。如果在网络广告生态圈中的需求方平台(dsp)中采用这种作弊流量，竞价成功并展示广告成功，那么广告主为该流量的花费并没有投放给广告主的正确目标人群，故过滤作弊流量对于dsp来说是一个很重要的步骤。

现有技术中的反作弊技术方案主要包括以下两种模式：

应用hadoop技术对于离线历史数据的处理能够提供高效适用的解决方案，但对于实时在线的数据处理场景无法满足其需求，对于rtb实时程序化购买竞价流量反作弊有一定的滞后性。

媒体验证分析，对国内媒体备案api的技术验证和app商店的来源真实性验证，技术上也存在一定的滞后性，更新周期较长，效率有一定的影响

技术实现要素：

本发明是为了现有技术中的流量防作弊方案的技术问题，提供一种能够有效识别作弊流量，同时提高防作弊效率，提高rtb广告交易效率的基于大数据的流量反作弊方法和装置。

本发明的一个实施例中提供了一种基于大数据的流量反作弊方法，所述方法包括以下步骤：

通过监控流量日志，监控新产生的流量请求；

加载所述流量请求的发起终端的作弊综合权重；

实时根据流量请求的来源信息，屏蔽无效流量请求，筛选出有效流量请求；

根据终端作弊综合权重，解析有效流量请求的作弊概率，根据所述有效流量请求的作弊概率，判定本次流量请求是否为真实流量或作弊流量。

作为优选，通过监控流量日志，监控新产生的流量请求的步骤之后包括：解析流量请求的用户id，标记无用户id的流量请求为无效流量并屏蔽，根据用户id识别流量请求的发起终端。

作为优选，所述加载所述流量请求的发起终端的作弊综合权重的步骤包括：

根据流量请求的发起终端判断流量请求是长期稳定流量终端或是未稳定流量终端；

若是稳定流量终端，加载在先存储的作弊综合权重，所述作弊综合权重是从预设的纬度对终端的历史行为进行分析，获得基于所述纬度的作弊综合权重；

若是未稳定流量终端，则从预设的纬度对所述终端的历史行为进行分析，获得基于所述纬度的作弊综合权重。

作为优选，从预设的纬度对终端的历史行为进行分析，获得基于所述纬度的作弊综合权重的步骤，进一步包括：

通过终端的ip地址，采用二分法分析ip来源，得到终端所在的地域，细化到城市，如果在一天内某终端的地域分布的城市大于3个，则标识该终端为ip地址异常，并记录权重w1＝0.2；

通过终端的ua指纹，记录每个终端对应的所有ua指纹，若一个终端对应的ua指纹数量大于5个，则记录为ua指纹异常，并记录权重w2＝0.2；

统计流量的点击和曝光情况，当某个终端流量只有点击没有曝光，或者单日的点击次数大于1000，则记录此终端为点击曝光异常，记录权重w3＝0.2；

对pc流量的来源以及移动端流量的包名进行验证，即如果pc流量的来源页面可以访问，或移动端流量的包名符合包名规则，且此包名在各大appstore中存在，则此流量为正常流量，否则记录此终端为来源异常，记录权重w4＝0.2；

统计每个终端流量的广告曝光和点击时间，并持续分析3一周，若一周内某终端对于某个广告的曝光和点击时间分布一致，则记录此终端为时间分布异常，记录权重w5＝0.1；

对于每个终端判断其是否为首次发出流量请求的新终端，若为新终端，则直接记录其综合权重＝1.0；

计算综合权重，并更新与终端对应的作弊综合权重数据。

作为优选，所述的流量请求的来源信息包括流量的ip来源和媒体来源。

本发明的一个实施例中提供了一种基于大数据的流量反作弊装置，所述装置包括：

监控模块，用于通过监控流量日志，监控新产生的流量请求；

加载模块，用于加载所述流量请求的发起终端的作弊综合权重；

实时分析模块，用于实时根据流量请求的来源信息，屏蔽无效流量请求，筛选出有效流量请求；

决策模块，用于根据终端作弊综合权重，解析有效流量请求的作弊概率，根据所述有效流量请求的作弊概率，判定本次流量请求是否为真实流量或作弊流量。

本发明实施例提供的技术方案中，对于流量请求进行了多重分析判断，对于流量请求发起的终端进行有效性判定、实时分析流量的ip来源和媒体来源从而直接屏蔽掉部分作弊可能极大的流量请求，对于有效流量请求进行历史行为的离线分析的作弊综合权重计算，基于作弊综合权重解析判定流量作弊概率，并决策是否购买。

同时区分长期稳定流量终端或是未稳定流量终端，对于长期稳定流量终端直接加载在先作弊综合权重，通过实时分析屏蔽来源有异常的流量请求，从而利用提高长期稳定流量终端的作弊判定效率。对未稳定流量终端进行历史行为的离线分析，结合实时分析的方式有效拦截虚假作弊流量。够有效识别作弊流量，同时提高防作弊效率，提高rtb广告交易效率

附图说明

图1是本发明一实施例的基于大数据的流量反作弊方法的流程示意图。

图2是本发明另一实施例的基于大数据的流量反作弊方法的流程示意图。

图3是本发明另一实施例的基于大数据的流量反作弊装置的结构示意图。

图4是本发明另一实施例的基于大数据的流量反作弊装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，本发明的一个实施例中提供了一种基于大数据的流量反作弊方法，所述方法包括以下步骤：

101通过监控流量日志，监控新产生的流量请求。

102加载所述流量请求的发起终端的作弊综合权重。

103实时分析流量请求的来源信息，屏蔽无效流量请求，筛选出有效流量请求。

所示的流量请求的来源信息包括流量的ip来源和媒体来源。

104根据终端作弊综合权重，解析有效流量请求的作弊概率，根据所述有效流量请求的作弊概率，判定本次流量请求是否为真实流量或作弊流量。

上述101步骤的具体过程是：在本实施例中通过设置日志服务器，负责对流量日志进行初步过滤和收集。在每一台日志服务器上部署日志采集客户端，客户端对于产生日志的目录进行监控，当发现有新日志产生时，首先对日志进行逐条解析和过滤，解析流量请求的用户id，标记无用户id的流量请求为无效流量并屏蔽(pc流量为用户id，移动app流量为设备id，安卓为imei、androidid，ios设备为idfa)，根据用户id识别流量请求的发起终端，然后把日志数据逐条录入至一个数据的消息队列中。

上述102步骤的具体过程是利用hadoop离线分析技术，根据流量请求的发起终端判断流量请求是长期稳定流量终端或是未稳定流量终端。所述判定方法是根据已经存储的历史行为分析数据，是指在该终端的基于大数据分析技术的历史行为分析数据的记录时间跨度、流量请求频率、以及作弊综合权重等在线数据，根据预设的策略来判断。

因此，若是稳定流量终端，直接加载在先存储的作弊综合权重，所述作弊综合权重是从预设的纬度对终端的历史行为进行分析，获得基于所述纬度的作弊综合权重。

而未稳定流量终端，同样是根据已经存储的历史行为分析数据，是指在该终端的的基于大数据分析技术的历史行为分析数据的记录时间跨度、流量请求频率、以及作弊综合权重等在线数据，根据预设的策略来判断。未稳定流量终端是没有在线历史行为分析数据，或者历史行为分析数据时间宽度较短，或者流量请求频率交底，作弊综合权重较高的终端。

因此，若是未稳定流量终端，则从预设的纬度对所述终端的历史行为进行分析，获得基于所述纬度的作弊综合权重。

通过上述机制，应用大数据分析技术能够通过终端的历史行为数据分析出终端的作弊综合权重，从而对后续步骤的流量购买提供决策依据。并且区分了长期稳定流量终端或是未稳定流量终端，对于长期稳定流量终端，采用直接加载在先数据的方式，可以有效降低资源消耗，并且避免离线分析所造成的滞后问题，因此rtb广告模式是购买实时的流量进行广告曝光，因此对即时性有较高要求，上述方法能够更好的将大数据分析技术应用于rtb广告竞价模式中。

根据上一步骤中识别的本次流量请求发起的终端，查找预存的作弊综合权重，

上述103步骤的具体过程是：所述的流量请求的来源信息二分法分析ip来源和媒体验证，除了用户行为分析外，对于一些作弊流量也可以通过一些实时的纬度去判断，如ip地址和垃圾媒体，在dsp程序化购买的rtb过程中，主动屏蔽机房，网吧等异常ip地址库中140多万的ip地址，有效防范一些机房等无效流量，对于媒体库判断，对于pc网站，验证国内网站未备案情况，通过技术接口方式，对未备案站点的流量存疑判断，对于app流量，安卓和ios，根据媒体包名，通过技术反爬相关app商店，验证流量来源情况，以上媒体信息将分析结果存入静态媒体库供实时调用查询。

上述104步骤的具体过程是：流量请求经过步骤103的有效流量请求，以及该流量请求的发起终端的作弊综合权重，进行判定。所述判定规则基于实际使用情况中广告投放策略决定。

如图2所示，本发明的另一个实施例中提供了一种基于大数据的流量反作弊方法，所述方法包括：

所述加载所述流量请求的发起终端的作弊综合权重的步骤包括：

201根据流量请求的发起终端判断流量请求是长期稳定流量终端或是未稳定流量终端；

202若是稳定流量终端，加载在先存储的作弊综合权重，所述作弊综合权重是从预设的纬度对终端的历史行为进行分析，获得基于所述纬度的作弊综合权重；

203若是未稳定流量终端，则从预设的纬度对所述终端的历史行为进行分析，获得基于所述纬度的作弊综合权重。

作为优选，从预设的纬度对终端的历史行为进行分析，获得基于所述纬度的作弊综合权重的步骤包括：

通过终端的ua指纹，记录每个终端对应的所有ua指纹，若一个终端对应的ua指纹数量大于5个，则记录为ua指纹异常，并记录权重w2＝0.2；

统计流量的点击和曝光情况，当某个终端流量只有点击没有曝光，或者单日的点击次数大于1000，则记录此终端为点击曝光异常，记录权重w3＝0.2；

对于每个终端判断其是否为首次发出流量请求的新终端，若为新终端，则直接记录其综合权重＝1.0；并通过后续发起流量请求后的历史行为数据进行持续更新和修正。

计算综合权重，并更新与终端对应的作弊综合权重数据。

有效流量请求的发起终端的作弊综合权重，进行判定中。所述判定规则基于实际使用情况中广告投放策略决定。在本实施例中投放粗略为：

依据综合权重的区间，判断是否为作弊流量，判断规则为：

作弊综合权重＝w1+w2+w3+w4+w5；

0≤作弊综合权重≤0.3，属于优质流量，可直接进行投放；

0.4≤作弊综合权重≤0.7，属于一般流量，需要进一步判断；

0.8≤作弊综合权重≤1，属于作弊流量，无法进行投放。

如图3所示，本发明的另一个实施例中提供了一种基于大数据的流量反作弊装置，所述装置包括：

监控模块301，用于通过监控流量日志，监控新产生的流量请求。

加载模块302，用于加载所述流量请求的发起终端的作弊综合权重。

实时分析模块303，用于实时根据流量请求的来源信息，屏蔽无效流量请求，筛选出有效流量请求；所述的流量请求的来源信息包括流量的ip来源和媒体来源。

决策模块304，用于根据终端作弊综合权重，解析有效流量请求的作弊概率，根据所述有效流量请求的作弊概率，判定本次流量请求是否为真实流量或作弊流量。

如图4所示，本发明的另一个实施例中提供了一种基于大数据的流量反作弊装置，本实施例中，加载模块302包括：

判断单元401，用于根据流量请求的发起终端判断流量请求是长期稳定流量终端或是未稳定流量终端；

作弊权重计算单元402，用于从预设的纬度对所述终端的历史行为进行分析，获得基于所述纬度的作弊综合权重。

获取单元403，用于流量请求的发起终端是稳定流量终端时，加载作弊权重计算单元在先存储的作弊综合权重；

分析单元404，用于流量请求的发起终端是未稳定流量终端时，通过作弊权重计算单元，获得基于所述纬度的作弊综合权重。

优选的，所述作弊权重计算单元402用于：

用于通过终端的ip地址，采用二分法分析ip来源，得到终端所在的地域，细化到城市，如果在一天内某终端的地域分布的城市大于3个，则标识该终端为ip地址异常，并记录权重w1＝0.2；

用于通过终端的ua指纹，记录每个终端对应的所有ua指纹，若一个终端对应的ua指纹数量大于5个，则记录为ua指纹异常，并记录权重w2＝0.2；

统计流量的点击和曝光情况，当某个终端流量只有点击没有曝光，或者单日的点击次数大于1000，则记录此终端为点击曝光异常，记录权重w3＝0.2；

对于每个终端判断其是否为首次发出流量请求的新终端，若为新终端，则直接记录其综合权重＝1.0；

计算综合权重，并更新与终端对应的作弊综合权重数据。

优选的，决策模块404，有效流量请求的发起终端的作弊综合权重，进行判定。所述判定规则基于实际使用情况中广告投放策略决定。在本实施例中投放粗略为：

依据综合权重的区间，判断是否为作弊流量，判断规则为：

作弊综合权重＝w1+w2+w3+w4+w5；

0≤作弊综合权重≤0.3，属于优质流量，可直接进行投放；

0.4≤作弊综合权重≤0.7，属于一般流量，需要进一步判断；

0.8≤作弊综合权重≤1，属于作弊流量，无法进行投放。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董大伟
技术所有人：杭州探索文化传媒有限公司
我是此专利的发明人

上一篇：一种抗下陷PU透明底漆及其制备方法与流程
上一篇：一种垃圾焚烧飞灰重金属螯合剂及其制备工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。