识别基于DBSCAN模型的非正常批量购票行为的方法与流程

文档序号:11156557阅读:263来源:国知局
识别基于DBSCAN模型的非正常批量购票行为的方法与制造工艺

本发明涉及异常行为识别技术领域,尤其涉及一种识别基于DBSCAN模型的非正常批量购票行为的方法。



背景技术:

现场演出票由于价钱高资源少,会引来大量的黄牛前来刷票(网络购票异常行为),然后高价倒卖,黄牛的出现,损害用户的利益,极大的降低了网上购票的用户体验和平台的用户粘性。黄牛为了抢票,经常会通过机器批量注册很多账户,还会通过多个账户进行高频,大量的访问,以最快的速度下单占有资源。所以黄牛一般会通过程序进行刷票。目前识别黄牛大都是通过统计用户的访问来源,访问频次,访问周期,从中找出异于大多数用户的访问异常,从而判定为黄牛。建立黄牛黑名单。黄牛的定义并不一定是一个真正的用户,也可以是一个资源,黄牛使用该资源进行刷票,将此资源也纳入到黄牛黑名单中,因而,会有IP黑名单,Cookie黑名单,账号黑名单等。

当前的识别黄牛的方式主要通过监控访问日志,通过解析,计算日志中的IP,Cookie,设备,账号的访问频次,访问时间间隔,来识别异常访问,这在一定程度上能够防止黄牛。但是应用上述技术的时候,发明人发现,单一维度的识别,不能够唯一判别用户设备,容易误杀正常用户,比如IP,黄牛和正常用户在同一个楼或是小区,用同一个出口IP,如果使用IP识别,容易误杀正常用户。第二,频次识别只能是在一定程度上识别黄牛,当黄牛拉大访问间隔,降低访问频次,就不好判定。而且黄牛会模拟不同的客户端,多渠道的进行刷票。黄牛为了快速抢票,会走捷径,不会像正常用户操作,因而其行为轨迹也缺失关键步骤,所以当前基于流量访问异常的识别方法,已不满足识别黄牛的需要。



技术实现要素:

为了解决上述技术问题,本发明提供了一种识别基于DBSCAN模型的非正常批量购票行为的方法,可以将网络批量购票异常行为特征从正常购票行为特征中识别出来,进行隔离,并降低误识别概率,使资源的分配更具合理性和公平性。

本发明提供了一种识别基于DBSCAN模型的非正常批量购票行为的方法,包括:

监测预定时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;

将所述标记的至少一个高度集中的注册账户簇的网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识;

提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性;

识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离。

进一步的,所述将网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识,包括:

通过哈希函数将网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识。

进一步的,所述识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离,包括:

识别所述网络购票行为属性中的频次阀值和黑名单,所述频次阀值包括但不限于:不同IP访问频次、每个IP的访问不同url的频次、IP+cookie+agent访问频次或IP+cookie+agent访问不同url的频次中的一种或多种;

通过所述频次阀值和黑名单识别出异常行为的用户IP,将所述识别出的用户IP存入黑名单进行隔离。

进一步的,所述提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性,包括:

提取所述用户标识中的历史行为记录中的历史频次阀值和历史黑名单;

提取所述用户标识中的历史交易行为记录中存在潜在的购买行为异常阀值和超出购买行为异常阀值的异常注册用户的黑名单;

实时采集用户标识的当前访问行为记录中的当前用户访问频次和路径。

进一步的,所述提取所述用户标识中的历史行为记录中的历史频次阀值,包括以下步骤:

将历史行为记录中的日志文件内容载入到大数据数仓Hive中,在Hive中建立日志文件格式化数据表,将日志文件内容格式化到数据表中;

在数据表中,计算访问频次,并将计算结果存入大数据数仓中;所述访问频次包括但不限于不同IP访问频次、每个IP的访问不同url的频次、IP+cookie+agent访问频次或IP+cookie+agent访问不同url的频次中的一种或多种;

使用直方图,观察频次分布,自定义确定历史频次阀值并存储所述历史频次阀值。

进一步的,所述提取所述用户标识中的历史行为记录中的历史黑名单,包括以下步骤:

将ngnix代理服务器集群中不同的服务器上的前一天的用户访问日志文件集中到分布式存储系统HDFS上;

将日志文件内容载入到大数据数仓Hive中,在Hive中建立日志文件格式化数据表,将日志文件内容格式化到数据表中;

在Hive中,计算不同IP访问频次,每个IP的访问不同url的频次,IP+cookie+agent访问频次,IP+cookie+agent访问不同url的频次;将计算结果存入大数据数仓中;使用直方图,观察频次分布,自定义确定历史频次阀值;

基于确定的历史频次阀值和频次计算结果,识别出异常的客户,存入到黑名单表中。

进一步的,所述提取所述用户标识中的历史交易行为记录中存在潜在的购买行为异常阀值,包括以下步骤:

导入历史交易行为记录到数据仓库中;

计算每个用户IP的单场次购票数,购买项目数,平均购票数;

使用直方图,观察单场次购票数,购买项目数,平均购票数分布,根据自定义规则分析确定存在潜在的购买行为异常阀值,并存储所述存在潜在的购买行为异常阀值。

进一步的,所述提取所述用户标识中的历史交易行为记录中超出购买行为异常阀值的异常注册用户的黑名单,包括以下步骤:

导入前一天所有交易记录和至少一年的交易记录到数据仓库中;

计算每个用户IP一年之内的单场次购票数,购买项目数,平均购票数;使用直方图,观察单场次购票数,购买项目数,平均购票数分布,根据自定义规则分析确定存在潜在的购买行为异常阀值;

基于确定的潜在的购买行为异常阀值和频次计算结果,识别出超出购买行为异常阀值的异常注册用户,存入到黑名单表中。

进一步的,所述实时采集用户标识的当前访问行为记录中的当前用户访问频次和异常访问路径,包括:

实时读取nginx的访问日志文件并发送到日志处理系统;

日志处理系统实时接收日志采集系统发送的日志,以一秒钟为一个计算窗口,计算IP访问频次,每个IP的访问url的频次,IP+cookie+agent访问频次,IP+cookie+agent访问url的频次和异常访问路径,并将计算结果存储到缓存中。

进一步的,所述识别阈值的计算方式包括:

其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。

本发明通过监测预定时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;将所述标记的至少一个高度集中的注册账户簇的网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识;提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性;识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离。确定识别黄牛的各种阀值,为判别黄牛提供数据判断依据。实时记录用户的行为特征(频次和轨迹),能够为实时黄牛拦截提供实时依据;能够建立黑名单,能够基于黑名单,提前拦截黄牛,使资源的分配更具合理性和公平性。

附图说明

图1为本发明提供的一种识别基于DBSCAN模型的非正常批量购票行为的方法的实施例一的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供了一种识别基于DBSCAN模型的非正常批量购票行为的方法,如图1所示,包括:步骤S110至S140。

在步骤S110中,监测预定时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇。

在步骤S120中,将所述标记的至少一个高度集中的注册账户簇的网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识。

在步骤S130中,提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性。

在步骤S140中,识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离。

进一步的,所述将网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识,包括:

通过哈希函数将网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识。

进一步的,所述识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离,包括:

识别所述网络购票行为属性中的频次阀值和黑名单,所述频次阀值包括但不限于:不同IP访问频次、每个IP的访问不同url的频次、IP+cookie+agent访问频次或IP+cookie+agent访问不同url的频次中的一种或多种;

通过所述频次阀值和黑名单识别出异常行为的用户IP,将所述识别出的用户IP存入黑名单进行隔离。

进一步的,所述提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性,包括:

提取所述用户标识中的历史行为记录中的历史频次阀值和历史黑名单;

提取所述用户标识中的历史交易行为记录中存在潜在的购买行为异常阀值和超出购买行为异常阀值的异常注册用户的黑名单;

实时采集用户标识的当前访问行为记录中的当前用户访问频次和路径。

进一步的,所述提取所述用户标识中的历史行为记录中的历史频次阀值,包括以下步骤:

将历史行为记录中的日志文件内容载入到大数据数仓Hive中,在Hive中建立日志文件格式化数据表,将日志文件内容格式化到数据表中;

在数据表中,计算访问频次,并将计算结果存入大数据数仓中;所述访问频次包括但不限于不同IP访问频次、每个IP的访问不同url的频次、IP+cookie+agent访问频次或IP+cookie+agent访问不同url的频次中的一种或多种;

使用直方图,观察频次分布,自定义确定历史频次阀值并存储所述历史频次阀值。

进一步的,所述提取所述用户标识中的历史行为记录中的历史黑名单,包括以下步骤:

将ngnix代理服务器集群中不同的服务器上的前一天的用户访问日志文件集中到分布式存储系统HDFS上;

将日志文件内容载入到大数据数仓Hive中,在Hive中建立日志文件格式化数据表,将日志文件内容格式化到数据表中;

在Hive中,计算不同IP访问频次,每个IP的访问不同url的频次,IP+cookie+agent访问频次,IP+cookie+agent访问不同url的频次;将计算结果存入大数据数仓中;使用直方图,观察频次分布,自定义确定历史频次阀值;

基于确定的历史频次阀值和频次计算结果,识别出异常的客户,存入到黑名单表中。

进一步的,所述提取所述用户标识中的历史交易行为记录中存在潜在的购买行为异常阀值,包括以下步骤:

导入历史交易行为记录到数据仓库中;

计算每个用户IP的单场次购票数,购买项目数,平均购票数;

使用直方图,观察单场次购票数,购买项目数,平均购票数分布,根据自定义规则分析确定存在潜在的购买行为异常阀值,并存储所述存在潜在的购买行为异常阀值。

进一步的,所述提取所述用户标识中的历史交易行为记录中超出购买行为异常阀值的异常注册用户的黑名单,包括以下步骤:

导入前一天所有交易记录和至少一年的交易记录到数据仓库中;

计算每个用户IP一年之内的单场次购票数,购买项目数,平均购票数;使用直方图,观察单场次购票数,购买项目数,平均购票数分布,根据自定义规则分析确定存在潜在的购买行为异常阀值;

基于确定的潜在的购买行为异常阀值和频次计算结果,识别出超出购买行为异常阀值的异常注册用户,存入到黑名单表中。

进一步的,所述实时采集用户标识的当前访问行为记录中的当前用户访问频次和异常访问路径,包括:

实时读取nginx的访问日志文件并发送到日志处理系统;

日志处理系统实时接收日志采集系统发送的日志,以一秒钟为一个计算窗口,计算IP访问频次,每个IP的访问url的频次,IP+cookie+agent访问频次,IP+cookie+agent访问url的频次和异常访问路径,并将计算结果存储到缓存中。

进一步的,所述识别阈值的计算方式包括:

其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。

本发明实施例通过监测预定时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;将所述标记的至少一个高度集中的注册账户簇的网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识;提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性;识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离。确定识别黄牛的各种阀值,为判别黄牛提供数据判断依据。实时记录用户的行为特征(频次和轨迹),能够为实时黄牛拦截提供实时依据;能够建立黑名单,能够基于黑名单,提前拦截黄牛,使资源的分配更具合理性和公平性。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1