反爬虫方法、计算机设备及存储介质与流程

文档序号:36618809发布日期:2024-01-06 23:15阅读:16来源:国知局
反爬虫方法、计算机设备及存储介质与流程

本申请实施例涉及反爬虫领域,尤其涉及反爬虫方法、计算机设备及存储介质。


背景技术:

1、随着互联网的发展,网页传输的内容越来越丰富,也出现了大量爬虫非法爬取网页上的内容进行盗用。

2、现有技术方案中,在网页构建时服务器会基于网页的页面渲染数据,生成图片式的网页。当接收到用户终端发送的网页访问请求时,服务器会直接将图片网页反馈给用户终端,以供用户查看。

3、但由于图片的尺寸是固定的,用户终端进行展示图片网页时,用户只能放大缩小图片。实际上,不同用户终端的尺寸不同,固定尺寸的图片网页难以满足不同用户终端的显示需求,进而影响用户浏览网页的体验。


技术实现思路

1、本申请实施例提供了反爬虫方法、计算机设备及存储介质,用于在自适应不同用户终端显示需求的前提下,保护网页文本,避免网页的重要文本内容被爬虫技术非法获取。

2、本申请实施例第一方面提供一种反爬虫方法,应用于服务器,所述方法包括:

3、根据终端发送的针对目标页面的网页访问请求,确定所述目标页面中至少一段原始文本所对应虚拟文本的指示信息;

4、向所述终端发送所述虚拟文本的指示信息,所述虚拟文本的指示信息用于所述终端获得所述虚拟文本并生成所述虚拟文本在待生成的目标页面的布局信息,具有对应关系的所述虚拟文本与所述原始文本中同一类型字符的字符数量相同;

5、根据所述终端发送的虚拟文本对应的布局信息,生成包括所述虚拟文本所对应原始文本的文本图像;

6、向所述终端发送所述文本图像,以使所述终端基于所述文本图像得到所述目标页面。

7、在一些具体实现方式中,根据终端发送的针对目标页面的网页访问请求,确定所述目标页面中至少一段原始文本所对应虚拟文本的指示信息,包括:

8、响应于所述网页访问请求,获取所述目标页面中的至少一段原始文本;

9、若所述至少一段原始文本属于保护文本,则确定所述至少一段原始文本所对应虚拟文本的指示信息。

10、在一些具体实现方式中,所述方法还包括:

11、获取用户输入的保护标识字段;

12、响应于针对所述目标页面的文本保护指令,在所述文本保护指令指示的至少一个原始文本中新增所述保护标识字段;

13、所述若所述至少一段原始文本属于保护文本,则确定所述至少一段原始文本所对应虚拟文本的指示信息,包括:

14、判断所述至少一段原始文本中是否存在预设的保护标识字段;

15、若所述至少一段原始文本中存在所述保护标志字段,则确定所述至少一段原始文本属于保护文本。

16、在一些具体实现方式中,所述方法还包括:

17、响应于针对所述目标页面的文本保护指令,将所述文本保护指令包含的每个文本标识记录在预设的文本保护信息中;

18、所述若所述至少一段原始文本属于保护文本,则确定所述至少一段原始文本所对应虚拟文本的指示信息,包括:

19、判断所述保护文本信息中是否存在所述至少一段原始文本的文本标识;

20、若所述保护文本信息中存在所述至少一段原始文本的文本标识,则所述服务器确定所述至少一段原始文本属于保护文本。

21、在一些具体实现方式中,所述布局信息包括字体信息以及尺寸信息,所述根据所述终端发送的虚拟文本对应的布局信息,生成包括所述虚拟文本所对应原始文本的文本图像,包括:

22、确定所述虚拟文本对应的所述原始文本;

23、按照所述尺寸信息生成包括所述虚拟文本所对应原始文本的文本图像,所述文本图像中的原始文本符合所述字体信息。

24、在一些具体实现方式中,所述按照所述尺寸信息生成包括所述虚拟文本所对应原始文本的文本图像,包括:

25、按照所述尺寸信息生成包括所述虚拟文本所对应原始文本的初始图像,所述初始图像中的原始文本符合所述字体信息;

26、按照预设的水印格式在所述初始图像中添加水印,获得所述文本图像。

27、本申请实施例第二方面提供一种反爬虫方法,应用于终端,所述方法包括:

28、向服务器发送针对目标页面的网页访问请求;

29、接收所述服务器发送的虚拟文本的指示信息,所述虚拟文本的指示信息对应于所述目标页面中至少一段原始文本;

30、基于所述虚拟文本的指示信息确定所述虚拟文本,并生成所述虚拟文本在待生成的目标页面的布局信息,具有对应关系的所述虚拟文本与所述原始文本中同一类型字符的字符数量相同;

31、向所述服务器发送所述虚拟文本对应的布局信息;

32、根据所述服务器发送的文本图像,获得所述目标页面,所述文本图像包括所述虚拟文本对应的原始文本。

33、在一些具体实现方式中,所述基于所述虚拟文本的指示信息确定所述虚拟文本,包括:

34、按照所述虚拟文本的指示信息包括的不同类型字符的字符数量,生成随机文本;

35、将所述随机文本确定为所述虚拟文本。

36、在一些具体实现方式中,所述布局信息还包括位置信息,所述根据所述服务器发送的文本图像,获得所述目标页面,包括:

37、基于所述虚拟文本进行页面渲染获得渲染后页面;

38、删除所述渲染后页面中的虚拟文本,并按照所述位置信息在所述渲染后页面中添加所述文本图像,以获得所述目标页面。

39、本申请实施例第二方面提供一种计算机设备,包括:

40、中央处理器,存储器以及输入输出接口;

41、所述存储器为短暂存储存储器或持久存储存储器;

42、所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行第一方面所述的方法。

43、本申请实施例第三方面提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面所述的方法。

44、本申请实施例第四方面提供一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如第一方面所述的方法。

45、从以上技术方案可以看出,本申请实施例具有以下优点:终端使用虚拟文本代替具备对应关系的原始文本进行渲染,所获得的虚拟文本在待生成的目标页面中的布局信息,也就是具备对应关系的原始文本在待生成的目标页面中的布局信息。之后,终端使用服务器按照布局信息生成的包括原始文本的文本图像,来获得目标页面。其中,原始文本为目标页面中需要防爬虫的关键内容,但是原始文本的文本内容是通过文本图像在目标页面中体现的,所以终端无法通过爬虫技术获取目标页面中的关键内容。另外,文本图像是基于虚拟文本在待生成的目标页面中的布局信息生成的,能适应终端尺寸。因此,本申请实施例在实现反爬虫技术的基础上,实现了页面布局的自适应。



技术特征:

1.一种反爬虫方法,其特征在于,应用于服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据终端发送的针对目标页面的网页访问请求,确定所述目标页面中至少一段原始文本所对应虚拟文本的指示信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述布局信息包括字体信息以及尺寸信息,所述根据所述终端发送的虚拟文本对应的布局信息,生成包括所述虚拟文本所对应原始文本的文本图像,包括:

6.根据权利要求5所述的方法,其特征在于,所述按照所述尺寸信息生成包括所述虚拟文本所对应原始文本的文本图像,包括:

7.一种反爬虫方法,其特征在于,应用于终端,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述虚拟文本的指示信息确定所述虚拟文本,包括:

9.根据权利要求7所述的方法,其特征在于,所述布局信息还包括位置信息,所述根据所述服务器发送的文本图像,获得所述目标页面,包括:

10.一种计算机设备,其特征在于,包括:

11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至6或7至9中任一项所述的方法。


技术总结
本申请实施例公开了反爬虫方法、计算机设备及存储介质,用于在自适应不同用户终端显示需求的前提下,保护网页文本,避免网页的重要文本内容被爬虫技术非法获取。本申请实施例方法包括:根据终端发送的针对目标页面的网页访问请求,确定目标页面中至少一段原始文本所对应虚拟文本的指示信息;向终端发送虚拟文本的指示信息,虚拟文本的指示信息用于终端获得虚拟文本并生成虚拟文本在待生成的目标页面的布局信息,具有对应关系的虚拟文本与原始文本中同一类型字符的字符数量相同;根据终端发送的虚拟文本对应的布局信息,生成包括虚拟文本所对应原始文本的文本图像;向终端发送文本图像,以使终端基于文本图像得到目标页面。

技术研发人员:陈存腾
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1