网页数据处理方法、装置、计算机设备和存储介质与流程

文档序号:19892616发布日期:2020-02-11 12:52阅读:256来源:国知局
网页数据处理方法、装置、计算机设备和存储介质与流程

本申请涉及互联网技术领域,特别是涉及一种网页数据处理方法、装置、计算机设备和存储介质。



背景技术:

随着互联网技术的发展,用户通过互联网浏览网页页面的过程中,通过挖掘用户在网页中的行为数据,为用户提供更好的互联网服务。然而,随着爬虫技术的发展,网络爬虫越来越泛滥,当网络爬虫在爬取互联网数据时,会模拟用户行为,比如,模拟用户登录,登录之后爬取数据。从而导致挖掘到的网页行为数据不够准确。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高得到网页行为数据准确性的网页数据处理方法、装置、计算机设备和存储介质。

一种网页数据处理方法,所述方法包括:

获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;

当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;

根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;

当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;

根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

在其中一个实施例中,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括:

获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;

当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。

在其中一个实施例中,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括:

获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;

获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;

当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。

在其中一个实施例中,在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:

将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;

则在当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据之后,还包括:

获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;

当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。

在其中一个实施例中,已训练的爬虫识别模型的生成步骤,包括:

获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;

将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。

在其中一个实施例中,在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:

根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;

根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。

一种网页数据处理装置,所述装置包括:

检测模块,用于获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;

访问数据获取模块,用于当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;

识别模块,用于根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;

行为数据得到模块,用于当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;

目标数据得到模块,用于根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

在其中一个实施例中,检测模块还用于获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;

当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;

根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;

当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;

根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;

当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;

根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;

当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;

根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

上述网页数据处理方法、装置、计算机设备和存储介质,通过预设规则检测网页行为数据中是否存在异常行为数据,当存在异常行为数据时,使用爬虫识别模型识别出异常行为数据中的爬虫网页行为数据,能够准确的得到爬虫网页行为数据,然后根据爬虫网页行为数据得到目标网页行为数据,提高了得到的目标网页行为数据的准确性。

附图说明

图1为一个实施例中网页数据处理方法的应用场景图;

图2为一个实施例中网页数据处理方法的流程示意图;

图3为一个实施例中得到异常行为数据的流程示意图;

图4为另一个实施例中得到异常行为数据的流程示意图;

图5为一个实施例中得到爬虫网页行为数据的流程示意图;

图6为一个实施例中训练爬虫识别模型的流程示意图;

图7为一个实施例中生成网页点击行为展示图的流程示意图;

图8为一个实施例中网页数据处理装置的结构框图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的网页数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种网页数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

s202,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据。

其中,网页行为数据是指访问网页后产生的网页行为的统计数据,比如,对网页的pv(pageview,网页点击量),页面停留时间等等,该网页行为数据中不仅包括有用户的行为数据,还可能包括爬虫的行为数据。

具体地,服务器从网页终端获取网页行为数据,并在服务器中根据预设规则检测网页行为数据中是否存在异常行为数据。

s204,当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据。

其中,异常行为数据是指与正常行为数据存在差别的数据,比如,网页点击行为数据在一段时间内增长超过正常增长速度等等。网页访问数据是指在访问网页时产生的访问日志信息。比如访问标识、访问时间、页面响应时间等等。

具体地,当网页行为数据存在异常行为数据时,服务器获取异常行为数据对应的网页访问数据。比如,可以从服务器保存的访问日志中得到网页访问数据,也可以在前端网页页面中设置监控脚本,监控脚本用于获取前端访问者的访问标识、访问时间、页面相应时间等并发送到服务器保存为访问日志。

s206,根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果。

其中,访问特征用于识别访问网页的是否是爬虫还是用户,可以包括访问标识特征、访问时间特征、访问次数特征和页面停留时间特征等等。爬虫识别结果是指对访问特征的识别结果,可以为爬虫访问网页或用户访问网页。

具体地,服务器根据网页访问数据提取访问特征,将访问特征数值化得到访问特征向量,将访问特征向量输入到已训练的爬虫识别模型中进行识别,得到爬虫识别结果。比如,访问标识特征为1,访问时间特征为1小时内、访问次数特征15次和页面停留时间特征30s,得到访问特征向量为(1,1,15,30)。

s208,当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据。

其中,爬虫标识用于唯一标识爬虫。可以是爬虫的名称,也可以是爬虫的ip(internetprotocoladdress,互联网协议地址)地址等等。

具体地,当爬虫识别结果是网页访问数据为爬虫访问数据,即是爬虫导致网页产生异常行为数据,说明访问请求中存在爬虫的访问请求,此时,从网页访问数据中得到访问标识,将访问标识作为爬虫标识。根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据。比如,可以根据爬虫标识从网页点击行为数据中得到爬虫点击量。当爬虫识别结果是网页访问数据为正常访问数据,说明访问请求中未存在爬虫的访问请求,不做处理。

s210,根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

其中,目标网页行为数据是指除过爬虫访问网页时产生的行为数据后访问网页的行为数据。

具体地,服务器根据得到的爬虫网页行为数据和所有的网页行为数据计算得到目标网页行为数据。比如,根据爬虫点击量和所有的网页点击行为数据得到用户的网页点击量。

在上述实施例中,通过预设规则检测网页行为数据中是否存在异常行为数据,当存在异常行为数据时,通过使用爬虫识别模型识别出异常行为数据中的爬虫网页行为数据,能够准确的得到爬虫网页行为数据,然后根据爬虫网页行为数据得到目标网页行为数据,提高了得到的目标网页行为数据的准确性。

在一个实施例中,如图3所示,步骤s202,即获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括步骤:

s202,获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据。

其中,时间段是预先设置好的时间区间,第一时间段和第二时间段是连续的两个时间段。比如,可以将每天分为12个时间段,一个小时为一个时间段,第一网页行为数据是指在第一时间段内得到的网页行为数据,第二网页行为数据是指在第二时间段内得到的网页行为数据。比如,获取12点到13点的时间区间的网页行为数据作为第一网页行为数据,获取到13点到14点的时间区间的网页行为数据作为第二网页行为数据。增量行为数据是指增加的网页行为数据。比如,12点到13点的用户点击量为100次,13点到14的用户点击量为120次,此时,得到的增量点击为20次。

具体地,服务器获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据。

s204,当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。

其中,预设增量行为数据是指预先设置好正常时应该增加的行为数据,可以是一个值,也可以是一个区间。比如,设置的增量点击可以是10次,也可以是10到15次。

具体的,服务器将得到的增量行为数据与预设增量行为数据进行比较,当增量行为数据超过预设增量行为数据时,得到第二时间段对应的第二网页行为数据为异常行为数据。即第二时间段内产生的第二网页行为数据中有爬虫产生的网页行为数据。当当增量行为数据未超过预设增量行为数据时,说明第二时间段内对应的第二网页行为数据为正常行为数据。即是用户访问网页时产生的网页行为数据。

在上述实施例中,通过获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据,根据得到的增量行为数据来判断是否存在异常行为数据,提高得到异常行为数据的准确性。

在一个实施例中,如图4所示,步骤s202,即获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括步骤:

s402,获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率。

其中,历史时间段是指当前日期之前的日期的时间段。比如昨天的时间段,前天的时间段,即今天之前的日期对应的时间段。历史数据增长率是指在历史时间段中网页行为数据的增长率。

具体地,服务器获取到各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率。比如,今天是10月1日,各个历史时间段可以将9月份的每天进行划分得到的时间段,即每天都可以有24个时间段。获取到9月份中每天时间段的网页点击行为数据,根据9月份中每天时间段的网页点击行为数据计算得到历史点击数据的增长率。

s404,获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率。

其中,目标时间段是指根据当前时间划分得到的时间段,比如,当前时间点为10月1日12点,则目标时间段可以是将10月1日0点到12点进行划分得到的时间段,可以划分将1个小时作为1个目标时间段,得到12个目标时间段。目标数据增长率是当前时间内的网页行为数据的增长率。

具体地,服务器获取各个目标时间段内的网页行为数据,根据各个标时间段的网页行为数据计算得到目标数据增长率,将目标数据增长率和历史数据增长率进行比较。

s406,当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。

具体地,当目标数据增长率超过历史数据增长率时,服务器将目标时间段内的网页行为数据作为异常行为数据。当目标数据增长率未超过历史数据增长率时,服务器将目标时间段内的网页行为数据作为正常行为数据。在一个实施例中,当目标数据增长率在根据历史数据增长率得到的增长率范围之内时,服务器将目标时间段内的网页行为数据作为正常行为数据,当目标数据增长率在根据历史数据增长率得到的增长率范围之外时,服务器将目标时间段内的网页行为数据作为异常行为数据。

在上述实施例中,通过根据历史网页行为数据计算得到历史数据增长率,将历史数据增长率与当前网页行为数据增长率进行比较,根据比较结果得到异常行为数据。即通过历史数据增量率来判断异常行为数据,提高得到异常行为数据的准确性。

在一个实施例中,在步骤s210之后,即在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括步骤:

将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库。

其中,预设黑名单数据库用于存储爬虫相关信息,包括爬虫标识、爬虫行为数据和爬虫访问数据等等。

具体地,服务器将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库,方便后续的管理和查看。同时,也可以将目标网页行为数据也存储到数据库中,方便后续的管理。

则如图5所示,在步骤s204之后,即在当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据之后,还包括步骤:

s502,获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识。

具体地,服务器获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识。

s504,当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。

具体地,当预设黑名单数据库中存在访问标识时,即在预设黑名单数据库中能够查找到该访问标识,说明该访问标识是爬虫的访问标识。此时,根据访问标识从网页行为数据中查找到访问标识对应的网页行为数据,即得到爬虫的网页行为数据。然后可以根据爬虫的网页行为数据和网页行为数据得到真实用于的网页行为数据。

在上述实施例中,即当在预设黑名单数据库中查找到对应的访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据,能够提交得到爬虫网页行为数据的效率,提高得到目标网页行为数据的效率。

在一个实施例中,如图6所示,已训练的爬虫识别模型的生成步骤,包括步骤:

s602,获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签。

其中,历史爬虫访问数据是指历史爬虫访问网页时记录的访问数据。历史目标访问数据是指历史正常用户方位网页时记录的访问数据。历史爬虫标签是指根据爬虫方位数据得到的标签,历史目标标签是指根据历史目标访问数据得到的目标标签。

具体地,服务器获取到历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签。

s604,将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。

其中,循环神经网络是指是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。比如,可以是lstm(longshort-termmemory)神经网络。lstm是长短期记忆网络,是一种时间循环神经网络。预设条件是指预先设置好训练完成的条件,可以是训练达到预设迭代次数或者计算误差达到预设阈值。在训练时,使用的激活函数是s型激活函数,并通过交叉熵函数计算误差。

具体地,服务将将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当训练达到预设迭代次数或者计算误差达到预设阈值时,训练完成,得到已训练的爬虫识别模型。

在上述实施例中,通过历史爬虫访问数据和历史目标访问数据使用循环神经网络算法训练得到爬虫识别模型,然后将训练的爬虫识别模型部署到服务器中,使用服务器可以直接使用爬虫识别模型,提高爬虫识别效率。

在一个实施例中,如图7所示,在步骤s210之后,即在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:

s702,根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点。

其中,爬虫点击行为坐标点是指爬虫点击网页时,点击位置在网页中的坐标,目标点击行为坐标点是指用户在点击网页时,点击位置在网页中的坐标。

具体地,根据爬虫网页行为数据得到各个爬虫点击行为坐标点并根据目标网页行为数据得到各个目标点击行为坐标点。比如,用户的每次点击网页都会记录网页中的点击位置,得到每次点击对应的坐标点。

s704,根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。

其中,网页点击行为展示图是指将爬虫点击行为坐标点和目标点击行为坐标点进行可视化展示。比如,可以生成模拟网页,使用不同颜色的标记在模拟网页中标记出坐标点的位置,得到点击行为展示图。

具体地,服务器根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示,方便管理终端进行查看和分析。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图8所示,提供了一种网页数据处理装置800,包括:检测模块802、访问数据获取模块804、识别模块806、行为数据得到模块808和目标数据得到模块810,其中:

检测模块802,用于获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;

访问数据获取模块804,用于当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;

识别模块806,用于根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;

行为数据得到模块808,用于当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;

目标数据得到模块810,用于根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

在一个实施例中,检测模块802还用于获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。

在一个实施例中,检测模块802还用于获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。

在一个实施例中,网页数据处理装置800,还包括:

存储模块,用于将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;

则网页数据处理装置800,还包括:

查找模块,用于获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。

在一个实施例中,网页数据处理装置800,还包括:

提取模块,用于获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;

训练模块,用于将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。

在一个实施例中,网页数据处理装置800,还包括:

展示模块,用于根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。

关于网页数据处理装置的具体限定可以参见上文中对于网页数据处理方法的限定,在此不再赘述。上述网页数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储网页行为数据和网页访问数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页数据处理方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果为是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库。则处理器执行计算机程序时还实现以下步骤:获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库。则计算机程序被处理器执行时还实现以下步骤:获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1