一种页面生成方法、装置及存储介质与流程

文档序号:21725953发布日期:2020-08-05 01:17阅读:131来源:国知局
一种页面生成方法、装置及存储介质与流程

本公开涉及移动终端数据处理技术,尤其涉及一种页面生成方法、装置及存储介质。



背景技术:

爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。爬虫定位信息的方法是找到控件的标签,并且在此标签下寻找各级子标签。根据获取的标签获取网页中的信息。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种页面生成方法、装置及存储介质。

根据本文实施例的第一方面,提供了一种页面生成方法,包括:

确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;

根据所述标签映射集合生成所述目标页面的伪页面,发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;

接收针对所述目标页面的访问请求,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;

使用所述新的访问请求获得响应结果。

在另一实施方式中,所述方法还包括:确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;

根据所述响应结果构建响应页面的伪页面,发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。

在另一实施方式中,所述方法还包括:以设定方式更新所述映射关系中的伪标签;

所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:

定时更新所述映射关系中的伪标签;

记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;

记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。

在另一实施方式中,所述更新所述映射关系中的伪标签包括以下中的一种:

随机生成符合第一设定规则的字符串作为伪标签;

在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。

在另一实施方式中,所述确定目标页面中的标签映射集合,包括:

记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。

在另一实施方式中,所述确定目标页面中的标签映射集合,包括:

确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;

使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。

根据本文实施例的第二方面,提供了一种页面生成装置,包括:

第一确定模块,用于确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;

第一生成模块,用于根据所述标签映射集合生成所述目标页面的伪页面;

第一发布模块,用于发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;

接收模块,用于接收针对所述目标页面的访问请求;

第二生成模块,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;

获取模块,用于使用所述新的访问请求获得响应结果。

在另一实施方式中,所述装置还包括:

第二确定模块,用于确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;

构建模块,用于根据所述响应结果构建响应页面的伪页面;

第二发布模块,用于发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。

在另一实施方式中,所述装置还包括:

更新模块,用于以设定方式更新所述映射关系中的伪标签;

所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:

定时更新所述映射关系中的伪标签;

记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;

记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。

在另一实施方式中,所述更新所述映射关系中的伪标签包括以下中的一种:

随机生成符合第一设定规则的字符串作为伪标签;

在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。

在另一实施方式中,所述第一确定模块,还用于使用以下方法确定目标页面中的标签映射集合:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。

在另一实施方式中,所述第一确定模块,还用于使用以下方法确定目标页面中的标签映射集合:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。

根据本文实施例的第三方面,提供了一种页面生成装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中的可执行指令以实现上述所述方法的步骤。

根据本文实施例的第四方面,提供了一种非临时性计算机可读存储介质,其上存储有可执行指令,其特征在于,该可执行指令被处理器执行时实现上述所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果:通过为页面中的控件设置原标签与伪标签的对应关系,使用伪标签构建伪页面,使得爬虫无法定位标签的值,在有效反爬虫的同时保证用户的正常使用。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种页面生成方法的流程图;

图2是根据一示例性实施例示出的一种页面生成方法的流程图;

图3是根据一示例性实施例示出的一种页面生成装置的结构图;

图4是根据一示例性实施例示出的一种页面生成装置的结构图;

图5是根据一示例性实施例示出的一种页面生成装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中提供一种页面生成方法。参照图1,图1是根据一示例性实施例示出的一种页面生成方法的流程图。如图1所示,此方法包括:

步骤s11,确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系。

步骤s12,根据所述标签映射集合生成所述目标页面的伪页面,发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。

步骤s13,接收针对所述目标页面的访问请求,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求。

步骤s14,使用所述新的访问请求获得响应结果。

本实施例中,通过为页面中的控件设置原标签与伪标签的对应关系,使用伪标签构建伪页面,使得爬虫无法定位标签的值,在有效反爬虫的同时保证用户的正常使用。

本公开实施例中还提供了一种页面生成方法,参照图2,图2是根据一示例性实施例示出的一种页面生成方法的流程图。此方法包括图1示出的方法,并且还包括:

步骤s15,确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系。

步骤s16,根据所述响应结果构建响应页面的伪页面,发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。

本实施例中,在实现与用户的交互的过程中,为每个交互页面构建伪页面,防止爬虫获取用户交互过程中的各个交互页面中的信息,保护用户信息。

本公开实施例中还提供了一种页面生成方法,此方法包括图1或图2示出的方法,并且还包括:以设定方式更新所述映射关系中的伪标签。其中,以设定方式更新所述映射关系中的伪标签包括以下中的一种:

一,定时更新所述映射关系中的伪标签。其中,定时时长是可修改的值,根据用户的使用需要设置不同的值。例如:定时时长为若干天,若干小时,若干分钟等。

二,记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签。通过此方式,为使用较多的控件较为频繁的更新伪标签,可以提高常用控件的信息安全性。

三,记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。通过此方式,为使用较多的页面较为频繁的更新伪标签,可以提高常用页面的信息安全性。

本实施例中,更新所述映射关系中的伪标签包括以下中的一种:

一,随机生成符合第一设定规则的字符串作为伪标签。例如:第一设定规则包括以下规则中至少一规则:字符数量大于第一设定值、字母字符的数量大于第二设定值、大写字母字符的数量大于第三设定值、小写字母字符的数量大于第四设定值、数字字符的数量大于第五设定值。

二,在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。例如第二设定规则包括以下规则中的至少一种:在不同位置插入的字符个数不同,在不同位置插入的字符类型不同。

本公开实施例中还提供了一种页面生成方法,此方法包括图1或图2示出的方法,并且还包括:步骤s11中确定目标页面中的标签映射集合,包括:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。

本实施例中,为使用频繁的控件高频率的更新伪标签,可以提高常用控件的信息安全性。

本公开实施例中还提供了一种页面生成方法,此方法包括图1或图2示出的方法,并且还包括:步骤s11中确定目标页面中的标签映射集合,包括:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。

本实施例中,为较重要的控件高频率的更新伪标签,可以提高重要控件的信息安全性。

本公开实施例中提供一种页面生成装置。参照图3,图3是根据一示例性实施例示出的一种页面生成装置的结构图。如图3所示,此装置包括:

第一确定模块301,用于确定目标页面的标签映射集合,所述标签映射集合包括所述目标页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;

第一生成模块302,用于根据所述标签映射集合生成所述目标页面的伪页面;

第一发布模块303,用于发布所述目标页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签;

接收模块304,用于接收针对所述目标页面的访问请求;

第二生成模块305,确定所述访问请求中包含的控件的伪标签,查询所述标签映射集合确定所述访问请求中包含的控件的原标签,使用确定出的各控件的原标签相应替换所述访问请求中的伪标签,生成新的访问请求;

获取模块306,用于使用所述新的访问请求获得响应结果。

本公开实施例中提供一种页面生成装置。参照图4,图4是根据一示例性实施例示出的一种页面生成装置的结构图。如图4所示,此装置包括图3所示的装置,还包括:

第二确定模块401,用于确定响应页面的标签映射集合,所述标签映射集合包括所述响应页面中至少一控件的标签映射关系,所述标签映射关系是控件的原标签与伪标签的一一映射关系;

构建模块402,用于根据所述响应结果构建响应页面的伪页面;

第二发布模块403,用于发布所述响应页面的伪页面;所述伪页面中的所述至少一控件的标签为相应的伪标签。

本公开实施例中提供一种页面生成装置,此装置包括图3或图4所示的装置,还包括:

更新模块,用于以设定方式更新所述映射关系中的伪标签;

所述以设定方式更新所述映射关系中的伪标签包括以下中的一种:

定时更新所述映射关系中的伪标签;

记录查询所述映射关系的次数,在所述查询所述映射关系的次数大于设定查询次数后,更新所述映射关系中的伪标签;

记录所述映射关系所属的目标页面的访问次数,在所述访问次数大于设定访问次数后,更新所述映射关系中的伪标签。

在另一实施方式中,所述更新所述映射关系中的伪标签包括以下中的一种:

随机生成符合第一设定规则的字符串作为伪标签;

在所述原标签的设定位置插入符合第二设定规则的字符串构成伪标签。

本公开实施例中提供一种页面生成装置,此装置包括图3或图4所示的装置,还包括:

所述第一确定模块301,还用于使用以下方法确定目标页面中的标签映射集合:记录所述目标页面中各控件的使用频率,将使用频率超过设定频率的控件作为目标控件,确定所述标签映射集合包括所述目标页面中所述目标控件的标签映射关系。

本公开实施例中提供一种页面生成装置,此装置包括图3或图4所示的装置,还包括:

所述第一确定模块301,还用于使用以下方法确定目标页面中的标签映射集合:确定所述目标页面中各控件的重要程度,所述重要程度与以下参数中至少一个参数均呈正相关:使用频率、控件对应信息的隐私程度;使用不同的伪标签生成规则确定不同控件的伪标签;控件的重要程度越高,相应的伪标签生成规则的复杂度越高,或者,相应的伪标签的长度越大,或者,相应的伪标签包含的字符种类越多。

本公开实施例中还提供一种页面生成装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中的可执行指令以实现上述所述方法的步骤。

本公开实施例中还提供一种页面生成装置,参照图5,图5是根据一示例性实施例示出的一种页面生成装置500的结构图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(i/o)接口559。装置500可以操作基于存储在存储器532的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

本公开实施例中提供一种非临时性计算机可读存储介质,其上存储有可执行指令,其特征在于,该可执行指令被处理器执行时实现上述所述方法的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1