数据防爬方法、装置、设备及计算机可读存储介质与流程

文档序号:22500964发布日期:2020-10-13 09:33阅读:115来源:国知局
数据防爬方法、装置、设备及计算机可读存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种数据防爬方法、装置、设备及计算机可读存储介质。



背景技术:

互联网数据安全一直是一个比较棘手的问题,黑客或者竞争对手往往会使用网络爬虫来非法获取公司的商业信息。网络爬虫是一种获取网页内容的程序,通过网页的链接地址来寻找网页。目前爬虫技术已经很成熟,通过设定的规则,爬虫可以轻易地抓取页面源代码中一些重要信息。目前,针对平安车险报价信息,已采取了一些防护措施,主要通过黑白名单的形式进行限制,这种方式限制了一大批非法访问系统报价信息的请求。但是不法分子的攻击形式也会升级。不法分子通过利用一些虚拟ip、机器模拟、切换基础参数等各种方式来获取敏感数据,因此,如何解决敏感数据的数据安全性低下的技术问题,成为了目前亟待解决的技术问题。



技术实现要素:

本发明的主要目的在于提供一种数据防爬方法、装置、设备及计算机可读存储介质,旨在解决敏感数据的数据安全性低下的技术问题。

为实现上述目的,本发明提供一种数据防爬方法,所述数据防爬方法包括以下步骤:

在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;

判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;

若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;

在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。

可选地,所述判断所述基础信息是否满足预设防爬规则的步骤包括:

在检测到所述基础信息满足所述基础规则时,将所述基础信息输入所述大数据用户画像模型,以得到所述基础信息对应的风险评分;

判断所述风险评分是否低于预设低风险阈值;

若是,则判定所述基础信息满足所述防爬规则。

可选地,所述大数据用户画像模型基于贝叶斯理论所创建;

设定x代表所述目标数据访问请求的发送端,y1至yn代表预设的n种用户群体类型,每一用户群体类型分别对应不同的风险评分,p(y1|x)至p(yn|x)分别代表所述目标数据访问请求的发送端对应的n种不同用户群体类型的概率值,p(yk|x)代表在所述n种不同用户群体类型的概率值中数值最大的用户群体概率;

用于判定所述目标数据访问请求的发送端对应的用户群体类型的公式为:

p(yk|x)=max{p(y1|x),p(y2|x),...,p(yn|x)},x∈yk。

可选地,所述若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级的步骤之后,还包括:

在所述风险等级为中风险等级时,根据所述优化规则中的预设ai人脸识别算法对所述基础信息中的面部信息进行识别;

在识别出所述面部信息与预设已授权的人脸面部数据不匹配时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

可选地,所述若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级的步骤之后,还包括:

在所述风险等级为低风险等级时,输出交互验证信息,以在所述目标数据访问请求的发送端未通过基于所述交互验证信息的验证时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

可选地,所述若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级的步骤之后,还包括:

将不满足所述防爬规则的基础信息保存至所述防爬规则的存储端,以利用未通过所述防爬规则的基础信息优化所述防爬规则中的优化规则。

可选地,所述判断所述基础信息是否满足预设防爬规则的步骤之后,还包括:

若所述基础信息满足所述防爬规则,则向所述目标数据访问请求的发送端开放所述目标数据的访问权限,其中,所述目标数据存储于区块链中。

此外,为实现上述目的,本发明还提供一种数据防爬方法装置,所述数据防爬方法装置包括:

基础信息获取模块,用于在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;

防爬规则判断模块,用于判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;

风险等级确定模块,用于若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;

数据访问终止模块,用于在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。

可选地,所述防爬规则判断模块包括:

用户画像判断单元,用于在检测到所述基础信息满足所述基础规则时,将所述基础信息输入所述大数据用户画像模型,以得到所述基础信息对应的风险评分;

风险阈值判断单元,用于判断所述风险评分是否低于预设低风险阈值;

判定通过单元,用于若是,则判定所述基础信息满足所述防爬规则。

可选地,所述数据防爬方法装置还包括:

用户模型创建模块,用于所述大数据用户画像模型基于贝叶斯理论所创建,设定x代表所述目标数据访问请求的发送端,y1至yn代表预设的n种用户群体类型,每一用户群体类型分别对应不同的风险评分,p(y1|x)至p(yn|x)分别代表所述目标数据访问请求的发送端对应的n种不同用户群体类型的概率值,p(yk|x)代表在所述n种不同用户群体类型的概率值中数值最大的用户群体概率;

用于判定所述目标数据访问请求的发送端对应的用户群体类型的公式为:

p(yk|x)=max{p(y1|x),p(y2|x),...,p(yn|x)},x∈yk。

可选地,所述数据防爬方法装置还包括:

人脸数据识别模块,用于在所述风险等级为中风险等级时,根据所述优化规则中的预设ai人脸识别算法对所述基础信息中的面部信息进行识别;

在识别出所述面部信息与预设已授权的人脸面部数据不匹配时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

可选地,所述数据防爬方法装置还包括:

交互信息验证模块,用于在所述风险等级为低风险等级时,输出交互验证信息,以在所述目标数据访问请求的发送端未通过基于所述交互验证信息的验证时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

可选地,所述数据防爬方法装置还包括:

数据样本优化模块,用于将不满足所述防爬规则的基础信息保存至所述防爬规则的存储端,以利用未通过所述防爬规则的基础信息优化所述防爬规则中的优化规则。

可选地,所述数据防爬方法装置还包括:

访问权限开放模块,用于若所述基础信息满足所述防爬规则,则向所述目标数据访问请求的发送端开放所述目标数据的访问权限,其中,所述目标数据存储于区块链中。

此外,为实现上述目的,本发明还提供一种数据防爬方法设备,所述数据防爬方法设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的数据防爬方法程序,其中所述数据防爬方法程序被所述处理器执行时,实现如上述的数据防爬方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据防爬方法程序,其中所述数据防爬方法程序被处理器执行时,实现如上述的数据防爬方法的步骤。

本发明提供一种数据防爬方法、装置、设备及计算机可读存储介质。所述数据防爬方法通过在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。通过上述方式,本发明能够灵活定义及集成各种防爬方案来作为预设防爬规则,可合理利用基于大数据技术创建的用户画像模型在原有的基础的防爬规则的基础上进行优化补充,以对访问请求方的基础信息进行更为有效的判断;通过确定基础信息的风险等级,并直接终止高风险的基础信息所对应的访问请求方的数据访问请求,能够更大程度地限制住了非法用户请求,降低了敏感数据被直接爬取的可能性,提高了敏感数据的安全性,从而解决了敏感数据的数据安全性低下的技术问题。

附图说明

图1为本发明实施例方案中涉及的数据防爬方法设备的硬件结构示意图;

图2为本发明数据防爬方法第一实施例的流程示意图;

图3为本发明数据防爬方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例涉及的数据防爬方法主要应用于数据防爬方法设备,该数据防爬方法设备可以是pc、便携计算机、移动终端等具有显示和处理功能的设备。

参照图1,图1为本发明实施例方案中涉及的数据防爬方法设备的硬件结构示意图。本发明实施例中,数据防爬方法设备可以包括处理器1001(例如cpu),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口);存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的硬件结构并不构成对数据防爬方法设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及数据防爬方法程序。

在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的数据防爬方法程序,并执行以下操作:

在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;

判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;

若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;

在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。

进一步地,处理器1001可以调用存储器1005中存储的数据防爬程序,还执行以下操作:

在检测到所述基础信息满足所述基础规则时,将所述基础信息输入所述大数据用户画像模型,以得到所述基础信息对应的风险评分;

判断所述风险评分是否低于预设低风险阈值;

若是,则判定所述基础信息满足所述防爬规则。

进一步地,处理器1001可以调用存储器1005中存储的数据防爬程序,还执行以下操作:

所述大数据用户画像模型基于贝叶斯理论所创建;

设定x代表所述目标数据访问请求的发送端,y1至yn代表预设的n种用户群体类型,每一用户群体类型分别对应不同的风险评分,p(y1|x)至p(yn|x)分别代表所述目标数据访问请求的发送端对应的n种不同用户群体类型的概率值,p(yk|x)代表在所述n种不同用户群体类型的概率值中数值最大的用户群体概率;

用于判定所述目标数据访问请求的发送端对应的用户群体类型的公式为:

p(yk|x)=max{p(y1|x),p(y2|x),...,p(yn|x)},x∈yk。

进一步地,处理器1001可以调用存储器1005中存储的数据防爬程序,还执行以下操作:

在所述风险等级为中风险等级时,根据所述优化规则中的预设ai人脸识别算法对所述基础信息中的面部信息进行识别;

在识别出所述面部信息与预设已授权的人脸面部数据不匹配时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

进一步地,处理器1001可以调用存储器1005中存储的数据防爬程序,还执行以下操作:

在所述风险等级为低风险等级时,输出交互验证信息,以在所述目标数据访问请求的发送端未通过基于所述交互验证信息的验证时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

进一步地,处理器1001可以调用存储器1005中存储的数据防爬程序,还执行以下操作:

将不满足所述防爬规则的基础信息保存至所述防爬规则的存储端,以利用未通过所述防爬规则的基础信息优化所述防爬规则中的优化规则。

进一步地,处理器1001可以调用存储器1005中存储的数据防爬程序,还执行以下操作:

若所述基础信息满足所述防爬规则,则向所述目标数据访问请求的发送端开放所述目标数据的访问权限,其中,所述目标数据存储于区块链中。

基于上述硬件结构,提出本发明数据防爬方法的各个实施例。

互联网数据安全一直是一个比较棘手的问题,因为黑客或者竞争对手会想尽各种办法非法获取公司的商业信息。网络爬虫(简称爬虫)是一种获取网页内容的程序,爬虫通过网页的链接地址来寻找网页。目前爬虫技术已经很成熟,通过设定的规则,爬虫可以轻易地抓取页面源代码中一些重要信息,例如商品报价信息、商家电话号码、商品评分或是商品关键参数等等。目前,防止爬虫的抓取一般有两种方法:重要信息图片化处理和请求屏蔽。图片化处理就是将源代码中明文显示的重要信息替换成图片的形式进行展示,但图片化处理只能屏蔽掉普通爬虫(即只分析源代码的爬虫)的抓取。爬虫通过抓取图片后,进行光学字符识别(ocr,opticalcharacterrecognition),依然可以获取图片内的信息。请求屏蔽具体为:分析http请求、通过useragent、请求ip等信息,针对爬虫的特征进行识别,如果识别出该请求为爬虫的请求,则将其进行屏蔽。但是,请求屏蔽只能识别到正规网络爬虫(即提供useragent信息的爬虫),对于很多模拟人工访问的爬虫则不能被识别。另外,根据ip等信息进行识别会出现误杀或是漏杀的情况,屏蔽的效果会存在较大误差。例如,针对平安车险报价信息,目前虽已采取了一些防护措施,主要通过黑白名单的形式进行限制,这种方式限制了一大批非法访问系统报价信息的请求。但是不法分子的攻击形式也会升级,通过利用一些虚拟ip、机器模拟、切换基础参数等各种方式来获取重要数据,因此依然存在敏感数据的安全性低下的问题。

为解决上述问题,本发明提供一种数据防爬方法,即能够灵活定义及集成各种防爬方案来作为预设防爬规则,可合理利用基于大数据技术创建的用户画像模型在原有的基础的防爬规则的基础上进行优化补充,以对访问请求方的基础信息进行更为有效的判断;通过确定基础信息的风险等级,并直接终止高风险的基础信息所对应的访问请求方的数据访问请求,能够更大程度地限制住了非法用户请求,降低了敏感数据被直接爬取的可能性,提高了敏感数据的安全性,从而解决了敏感数据的数据安全性低下的技术问题。所述数据防爬方法应用于数据访问请求的接收端。

参照图2,图2为本发明数据防爬方法第一实施例的流程示意图。

本发明第一实施例提供一种数据防爬方法,所述数据防爬方法包括以下步骤:

步骤s10,在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;

在本实施例中,目标数据即为需要保护的敏感数据。基础信息可为访问方的身份信息、位置信息等。目标数据请求可由用户当前通过用户端发起,也可根据预设程序自动发起。访问接收端在接收到当前用户发送的目标数据访问请求时,获取这一请求中的请求发送端的相关基础信息。具体地,设定目标信息为车险报价信息。当前发出访问车险报价信息的请求方可能是原报价用户,也可能是通过虚拟ip、机器模拟等方式非法访问当前车险报价系统的不法分子。请求发送方进入当前的车险报价系统,试图访问目标车险报价信息,基于车险报价系统发送车险报价信息访问请求。访问接收端则从车险报价信息访问请求中获取到请求发送方的基础信息。

步骤s20,判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;

在本实施例中,预设基础规则可为黑名单规则、白名单规则等常规手段所运用到的规则。预设优化规则为基于大数据用户画像模型判断人机交互,并可结合如安全蜜罐规则等其他前沿技术。蜜罐好比是情报收集系统,故意让人攻击的目标,引诱黑客前来攻击。在攻击者入侵后,就可随时了解针对服务器发动的最新的攻击和漏洞,还可以通过窃听黑客之间的联系,收集黑客所用的种种工具,并且掌握他们的社交网络。如果向用户提供企业级安全解决方案,需要一整套闭环安全生态系统。则可采用模拟数据中心服务的蜜罐,基于沙箱技术的客户端的蜜罐,和网络型诱导蜜罐,本实施例对蜜罐的类型不做具体限定。预设防爬规则可灵活定义及集成各种防爬方案,合理利用各种前沿技术在原有的防爬规则的基础上进行补充,以对访问请求方的基础信息进行更为有效的判断,同时还能够根据实际需求对预设防爬规则进行个性化配置,当一个新防爬规则接入时,可先进行小范围的试点运营,再根据接入效果决定是否扩大其推广范围。

访问接收端判断当前获取到的访问方的基础信息是否通过预设的防止敏感数据爬取的规则。具体地,沿用步骤s10中具体实施例中的设定。可在车险报价系统内设置多种预设防爬规则的勾选框。若预先勾选了大数据用户画像模型的防爬规则,则请求接收端基于预设的大数据用户画像模型对基础信息进行处理,以获取访问方的群体分类信息。另外,需要说明的是,在预设的防爬规则包括多项时,各规则可独立配置,也可组合接入。为提高风控防护效率,规则引擎采用多线程的方式进行异步调用,各规则的执行及分析通过并行操作的方式加快了风控平台分析及决策速度,快速响应,缩短了整体接口请求及响应时间,极大地优化了用户体验。

步骤s30,若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;

在本实施例中,风险等级可根据实际需求灵活设定,通常设置高、中、低三个等级。具体的判定方式通常为预先根据行业经验设置低风险阈值、中风险阈值与高风险阈值,在检测到当前的基础信息超出低风险阈值但低于中风险阈值时,判定其为低风险等级;在检测到当前的基础信息超出中风险阈值但低于高风险阈值时,判定其为中风险等级;在检测到当前的基础信息超出高风险阈值时,判定其为高风险等级。其中,低风险阈值、中风险阈值与高风险阈值可根据行业经验与实际需求灵活设置,本实施例对此不做具体限定。具体地,请求接收端根据预设防爬规则生成当前的基础数据对应的风险评分,并将这一风险评分与预设的低风险阈值相比较。若该风险评分高于低风险评分阈值,则可判定该基础信息不满足预设防爬规则,请求接收端再根据预设的中风险阈值与高风险阈值确定该基础信息的风险等级。

步骤s40,在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。

在本实施例中,请求接收端对当前的基础信息的风险等级进行评定,在评定该基础信息的风险等级为高风险等级时,直接终止当前的这一目标数据访问请求,以避免不法分子通过网络爬虫来爬取敏感数据。具体地,沿用步骤s30中具体实施例中的设定,且设定高风险阈值为80。若当前车险报价信息访问请求的基础信息的风险评分为95,则车险报价系统即可判定其风险等级为高风险等级,直接终止其报价或获取信息请求,并输出高风险警告的界面提示。

在本实施例中,通过在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。通过上述方式,本发明能够灵活定义及集成各种防爬方案来作为预设防爬规则,可合理利用基于大数据技术创建的用户画像模型在原有的基础的防爬规则的基础上进行优化补充,以对访问请求方的基础信息进行更为有效的判断;通过确定基础信息的风险等级,并直接终止高风险的基础信息所对应的访问请求方的数据访问请求,能够更大程度地限制住了非法用户请求,降低了敏感数据被直接爬取的可能性,提高了敏感数据的安全性,从而解决了敏感数据的数据安全性低下的技术问题。

进一步地,参照图3,图3为本发明数据防爬方法第二实施例的流程示意图。

基于上述图2所示实施例,本实施例中,图中未示的,步骤s20具体包括:

在检测到所述基础信息满足所述基础规则时,将所述基础信息输入所述大数据用户画像模型,以得到所述基础信息对应的风险评分;

判断所述风险评分是否低于预设低风险阈值;

若是,则判定所述基础信息满足所述防爬规则。

本实施例中,预设防爬规则可设置为用户画像模型的风险评定。此用户画像模型为大数据用户画像模型,可采用数据库(dv,datavault)模型。dv模型是用于企业级的数据仓库建模,datavault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。预设低风险阈值可由实际需求灵活设置,本实施例对此不做具体限定。访问接收端先要将基础信息进行预设基础规则的检测,如黑白名单的检测,在当前的基础信息通过预设基础规则后,访问接收端再将该基础信息输入模型中,得到对应的风险评分。若风险评分低于预设低风险阈值,则判定基础信息通过了预设防爬规则,可向其开放目标数据的访问权限;若风险评分高于预设低风险阈值,则判定当前的基础信息未通过预设防爬规则,还需对其根据具体的风险等级采取不同的处理措施。

进一步地,在本实施例中,

所述大数据用户画像模型基于贝叶斯理论所创建;

设定x代表所述目标数据访问请求的发送端,y1至yn代表预设的n种用户群体类型,每一用户群体类型分别对应不同的风险评分,p(y1|x)至p(yn|x)分别代表所述目标数据访问请求的发送端对应的n种不同用户群体类型的概率值,p(yk|x)代表在所述n种不同用户群体类型的概率值中数值最大的用户群体概率;

用于判定所述目标数据访问请求的发送端对应的用户群体类型的公式为:

p(yk|x)=max{p(y1|x),p(y2|x),...,p(yn|x)},x∈yk。

在本实施例中,该大数据用户画像模型由贝叶斯分类理论所创建。具体地,可先假设:x={a1,a2,...,am}为一个样本数据,而每个a为x的一个特征属性,在车险报价系统中,x即为访问车险报价系统的用户,a为该用户的特征属性,包括手机号、车牌号、设备号,访问行为等属性。定义类别集合c={y1,y2,...,yn},该集合定义了车险报价用户群体的分类,例如:潜力用户、正常用户、低风险用户、中风险用户、高风险用户等群体。再求解p(y1|x),p(y2|x),...,p(yn|x),最后求出在x个属性条件下,各组特征分类项分别归属于某种用户群体的概率,计算得到这组概率中的最大值,即为该行为属性下系统归类的用户群体。用公式表示为:

p(yk|x)=max{p(y1|x),p(y2|x),...,p(yn|x)},则x∈yk。

进一步地,在本实施例中,步骤s30之后,还包括:

步骤s50,在所述风险等级为中风险等级时,根据所述优化规则中的预设ai人脸识别算法对所述基础信息中的面部信息进行识别;

在本实施例中,中风险等级由中风险阈值与高风险阈值所判定。若当前的基础信息的经过预设防爬规则的风险评分超出中风险阈值但低于高风险阈值,则可判定当前的基础信息为中风险等级。请求接收端根据预设优化规则中已训练的ai人脸识别模型判断基础信息中是否存在面部信息。若存在面部信息,则进一步判断是否为预先已登记,获取了目标数据访问权限的正规用户的人脸面部信息。

步骤s60,在识别出所述面部信息与预设已授权的人脸面部数据不匹配时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

在本实施例中,若经ai人脸识别模型先判定当前的基础信息中是否存在迷面部信息。若不存在人脸面部数据,或是虽存在人脸面部数据,但并非已获取目标数据访问权限的人脸面部数据,则终止当前的数据访问;若经ai人脸识别模型判定当前的基础信息中存在已授权的人脸面部数据,则允许当前的目标数据访问请求。

进一步地,图中未示的,在本实施例中,步骤s30之后,还包括:

在所述风险等级为低风险等级时,输出交互验证信息,以在所述目标数据访问请求的发送端未通过基于所述交互验证信息的验证时,终止所述目标数据访问请求的发送端对所述目标数据的访问。

在本实施例中,低风险等级由低风险阈值与中风险阈值所判定。若当前的基础信息的经过预设防爬规则的风险评分超出低风险阈值但低于中风险阈值,则可判定当前的基础信息为低风险等级。交互验证信息可为滑块验证信息、验证码交互信息等。请求接收端在判定当前的基础数据为低风险等级时,生成并向请求发送端输出交互验证信息。请求发送端接收到改交互验证信息后,会向请求接收端发出相应操作信息。请求接收端判断当前的操作信息是否通过验证,例如,滑块是否滑到指定位置,验证码是否输入正确等。若当前的操作信息通过验证,则允许当前的目标数据访问请求;当前的操作信息未通过验证,则终止当前的数据访问请求。

作为一具体实施例,预先设置防爬规则组来对试图在车险报价系统中进行报价或是获取报价信息的请求方进行安全性判断。防爬规则组中的规则设置至少包括黑名单规则、白名单规则、大数据用户画像模型、dv模型判断人机交互与安全蜜罐规则。针对未通过防爬规则组安全性判断的请求方进行进一步的风险等级判断。预先根据行业经验设置低风险阈值、中风险阈值与高风险阈值。对于触发低风险阈值的请求方,设置有滑块验证来判断当前是否为人为操作;对于触发中风险阈值的请求方,设置有ai人脸识别进一步判断当前是否为人为操作;对于触发高风险阈值的请求方,则直接终止其报价或获取信息请求,并输出界面提示;对于通过防爬规则组安全性判断的请求方,则允许其正常报价或是获取报价信息、对于触发低风险阈值与中风险阈值的请求方,记录并保存其不满足的基础信息。

在本实施例中,进一步通过大数据用户画像模型,对当前的基础信息进行风险评分,使得能够对当前的请求发送端的风险程度进行更为高效准确的判定;通过运用贝叶斯理论对发送端对应的用户群体进行判定,使得能够得到有效的风险评分;通过在高风险等级的基础上,设置中风险等级与低风险等级,以及对应的处理措施,能够更加合理地对不同风险等级的请求方进行判断,更大程度地限制住了非法用户请求,既提升了目标敏感数据的数据安全性,同时也提高了访问请求的处理效率。

进一步地,图中未示的,基于上述图2所示的第一实施例,提出本发明数据防爬方法的第三实施例。本实施例中,所述步骤s30之后,还包括:

将不满足所述防爬规则的基础信息保存至所述防爬规则的存储端,以利用未通过所述防爬规则的基础信息优化所述防爬规则中的优化规则。

在本实施例中,请求接收端可将不满足预设人脸识别算法的基础信息,也即是高于低风险阈值的基础信息中的风险信息记录并保存。所有风控拦截信息进行入库存储之后,将通过数据链路对接大数据平台,不断强化预设防爬规则存储端的数据样本库,强大的样本库能够为验证及回归风控模型提供基础,为模型准确度分析提供了一套完善的良性循环机制。具体地,可将不满足预设人脸识别算法的基础信息所对应的风险信息录入数据样本库,在大数据及ai识别核心技术的基础上,将这些数据作为训练数据集,对模型进行训练优化,以不断提高模型的精确度。且录入数据样本库中的数据越多,经训练后的模型的准确度就越高。例如,用这些数据来对上述的大数据用户画像模型与ai人脸识别中所用到的人脸识别模型进行训练,即可进一步提高大数据用户画像模型的准确度与人脸识别模型的识别准确性,进而提高对网络爬虫识别的准确度,提升用户敏感数据的安全性。

进一步地,所述步骤s20之后,还包括:

若所述基础信息满足所述防爬规则,则向所述目标数据访问请求的发送端开放所述目标数据的访问权限,其中,所述目标数据存储于区块链中。

在本实施例中,是否满足预设防爬规则由低风险阈值所判定。若当前的基础信息的经过预设防爬规则的风险评分低于低风险阈值,则可判定当前的基础信息满足预设防爬规则。若请求接收端根据预设防爬规则判定基础信息满足预设防爬规则,则访问请求的发送端开放目标数据的访问权限。需要强调的是,为进一步保证上述目标数据的私密和安全性,上述目标数据还可以存储于一区块链的节点中。具体地,访问请求端在车险报价系统中可正常获取或上传报价信息。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在本实施例中,进一步通过在大数据及ai识别技术的基础上,结合强大的样本数据库进行模型训练及优化,针对性地制定及配置数据反扒措施,多维度的系统分析及决策,构建了一套完整的风控防护体系,具有灵活的扩展性;通过对符合标准的请求方开放数据访问权限,使得授权用户能够正常进行数据访问。

此外,本发明实施例还提供一种数据防爬方法装置。

本实施例中,所述数据防爬方法装置包括:

基础信息获取模块,用于在接收到目标数据访问请求时,获取基于所述目标数据访问请求所确定的基础信息;

防爬规则判断模块,用于判断所述基础信息是否满足预设防爬规则,其中,所述防爬规则包括基础规则与基于大数据用户画像模型所制定的优化规则;

风险等级确定模块,用于若所述基础信息不满足所述防爬规则,则确定所述基础信息的风险等级;

数据访问终止模块,用于在所述风险等级为高风险等级时,终止所述目标数据访问请求的发送端对目标数据的访问。

其中,上述数据防爬方法装置中各个模块与上述数据防爬方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

本发明还提供一种数据防爬设备。

所述数据防爬设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的数据防爬程序,其中所述数据防爬程序被所述处理器执行时,实现如上所述的数据防爬方法的步骤。

其中,所述数据防爬程序被执行时所实现的方法可参照本发明数据防爬方法的各个实施例,此处不再赘述。

此外,本发明实施例还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有数据防爬方法程序,其中所述数据防爬方法程序被处理器执行时,实现如上述的数据防爬方法的步骤。

其中,数据防爬方法程序被执行时所实现的方法可参照本发明数据防爬方法的各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1