一种基于服务器封包镜像的反爬系统的制作方法

文档序号：15358365发布日期：2018-09-05 00:18阅读：194来源：国知局

本发明涉及一种基于服务器封包镜像的反爬系统。

背景技术：

全球互联网请求中约20%为恶意爬虫所产生，数年来比例高居不下，恶意爬虫以窃取互联网上的权威和核心商业数据为目标，非法盗用他人数据而获取私利，还通过强硬的技术手段对加密数据进行破解，广大数据运营厂商深受其害，因此信息安全领域中对于数据防护技术的诉求日渐强烈。

目前业内的反爬技术架构设计通常存在两处不足之处，一是应用程序需要额外增加转发模块，将请求转发至反爬识别系统进行识别，这对于应用程序的负载设计增加了很大难度，同时对于后期应用程序升级、测试和运维将增加很多工作量；二是反爬模块与应用程序存在耦合，反爬模块无法提供独立的分析识别服务，模块可复用性低。

技术实现要素：

本发明提供了一种基于服务器封包镜像的反爬系统，其特点在于通过对服务器接收到的全量请求封包进行镜像复制，在旁路中将封包还原为用户请求，在与服务器分离的反爬分析中心及策略中心内对用户请求进行爬虫特征识别，以上过程不会对服务器正常工作过程产生影响，服务器根据策略中心的识别结果对请求做出相应的处理。对于背景技术中所陈述的业内反爬技术架构设计中存在的不足，本系统给出了有效的应对实践。

本发明通过以下技术方案实现上述设计与目标：

s1，客户端发送至服务器的封包后发送的流式请求数据传输单元在到达服务器网关时，通过流量复制的方式，将全量封包进行复制，而原始请求正常进入到s2步骤，复制后的封包进入到s3步骤；

s2，原始请求封包正常进入到服务器端进行处理，服务器端将针对此请求向反爬策略中心发送分析请求，反爬策略中心给出爬虫识别结果，服务器针对此结果对请求进行正常响应或抛弃处理；

较佳地，所述步骤s2包含：

在服务器端应用程序中使用与反爬策略中心相配合的反爬sdk实现策略请求与响应的通讯过程，此sdk适配多种语言，只实现请求与响应的基础通讯过程，因此逻辑稳定无需经常性更新或独立部署，不会对应用程序的后续升级以及测试过程产生额外工作量；

s3，镜像后的封包，经过封包重组，还原为原始请求数据格式，并筛选其中发往目标程序的有必要监控的请求，并将请求数据整理后，发送至反爬行为分析中心，分析结果用于更新和完善反爬策略中心的识别规则，应用服务器将请求到最新的反爬策略。

较佳地，所述步骤s3包含：

使用kafka流处理平台承载大数据量的流式数据封包处理序列实现消息队列，确保请求序列完整，数据分析过程不发生遗漏；

由于是全量封包，数据报的各字段都将完整保留，因此可以进行更为精确的设备指纹记录与用户画像。

在符合本领域常识的基础上，上述各优选条件，可组合使用，达到本发明较佳实例。

本发明的积极进步效果在于：

使用网络层面的请求复制技术，不影响现有系统的运行，并且sdk部署稳定，不需要在策略变化时修改和发布程序，同时，反爬策略可以实时得到更新，令服务器的反爬效果得到及时的升级；

解决了业内同类系统普遍存在的模块耦合与动态部署的难题；

流量镜像旁路处理过程中的各模块相对独立，便于软硬件扩展，适合与现有应用系统的无缝集成。

附图说明

图1为本发明基于服务器封包镜像的反爬系统整体流程示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围中。

如图1所示，本发明中，用户请求在从网关发往服务器的过程中，通过软件或硬件的方式将请求进行复制，此复制过程对于应用系统透明，主要从网络与硬件层面对数据传输单元进行完整复制，因此复制过程或模块，对于应用系统来说是随时可以启用和停用的热插拨使用模式，非常适用于对既有系统进行安全升级。可硬件可软件的实施方法也为应用系统在权衡性能与成本方案时提供了极大便利。

由于复制过程中是对数据封包进行全量复制，而单个的数据封包非完整的数据请求，因此将同一请求的分组封包重组是必要的，重组后的请求中，还需要将目标访问地址为监控应用程序的部分筛选出来，只对有必要监控的请求进行后续处理。

原始请求正常进行处理，服务器端应用程序植入策略中心sdk，此sdk的逻辑稳定，只具备发送请求及响应是否爬虫的响应值，设备指纹、行为分析以及误伤评定以及其它综合指标的判断与升级均在策略中心进行，不对应用程序产生影响。

sdk可以以前端脚本或后端服务等形式植入应用程序，当应用程序需要请求反爬策略中心时辅助分析爬虫行为时，通过调用sdk中的相应方法，将请求数据中的关键参数用此方法传递给策略中心，策略中心反馈的返回值只有几种简易的枚举标记位，应用程序根据此标记位响应或抛弃请求，此过程及逻辑相对简单稳定。

反爬策略中心与应用系统并不存在强耦合关系，应用程序可以自行决定以实时询问或定期检测的方式从策略中心获得反爬指导，也可以针对业务数据增加风险控制中心与反爬策略中心相互配合实现数据防护。

反爬策略中心作为流量镜像这一旁路的末端模块，可以独立提供反爬api指导服务，因此在同一网段内的其它应用也可以将其请求列入筛选范围，将请求行为数据纳入分析模块，继而从策略中心获得更为准确的反爬策略支持。

策略中心完成的功能为，针对平衡礼貌策略、代理ip伪装、拟人操作这些不断进化的高仿真恶意机器行为，以设备指纹、访问流量，系统日志为基础，利用大数据模型、机器学习等技术完成用户画像、行为分析等工作，识别爬虫，拟定规则，在保证识别率的基础之上，进行误伤率评定，综合各项技术指标权重得出爬虫判断结果。

技术特征：

技术总结
本发明提供了一种基于服务器封包镜像的反爬系统，其特点在于通过对服务器接收到的全量请求封包进行镜像复制，在旁路中将封包还原为用户请求，在与服务器分离的反爬分析中心及策略中心内对用户请求进行爬虫特征识别，以上过程不会对服务器正常工作过程产生影响，服务器根据策略中心的识别结果对请求做出相应的处理。通过使用网络层面的请求复制技术，不影响现有系统的运行，并且SDK部署稳定，不需要在策略变化时修改和发布程序，同时，反爬策略可以实时得到更新，令服务器的反爬效果得到及时的升级。

技术研发人员：郭兴华;刘鑫;郝缙;单学钟;李禹霆;赵利;孙国洋;张继璘;吴晓庆
受保护的技术使用者：博雅创智（天津）科技有限公司
技术研发日：2018.05.31
技术公布日：2018.09.04

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭兴华;刘鑫;郝缙;单学钟;李禹霆;赵利;孙国洋;张继璘;吴晓庆
技术所有人：博雅创智（天津）科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。