设置率确定方法和装置与流程

文档序号：12719702阅读：386来源：国知局

本申请涉及互联网领域，具体而言，涉及一种设置率确定方法和装置。

背景技术：

在互联网领域，为了提高网站的导航效果，通常会在网站中的网页上设置返回首页链接，用户在浏览网站的过程中可以直接通过该链接返回到网站的首页。网站返回首页链接设置率指的是网站中设置返回首页链接的网页占全部网页的比值。返回首页链接设置率这一指标在很大程度上反应了网站的用户体验情况，也是评价网站绩效的一项重要指标。

目前，通常是通过人工搜索的方式来确定网页上是否设置了返回首页链接。具体地，通过人工登陆访问网站，查看该网站的网页上是否设置了返回首页链接，进而统计设置了返回首页链接的网页数，计算返回首页链接设置率。然而，这种通过人工方式来确定网页上是否设置了返回首页链接，导致计算返回首页链接设置率的效率低且工作量大。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本申请实施例提供了一种设置率确定方法和装置，以至少解决现有技术中通过人工方式来确定网页上是否设置了返回首页链接，导致计算返回首页链接设置率的效率低且工作量大的技术问题。

根据本申请实施例的一个方面，提供了一种设置率确定方法，包括：对目标网站的访问日志进行解析，确定出所述目标网站中被访问的网页；从所述被访问的网页中识别出目标网页，统计出第一网页数量，其中，所述第一网页数量为所述目标网页的数量，所述目标网页为所述被访问的网页中设置有返回首页链接的网页；对所述被访问的网页中除所述目标网页之外的其他网页的源代码进行解析，统计出第二网页数量，其中，所述第二网页数量为存在返回首页链接的网页的数量；以及根据所述被访问的网页的网页总数、所述第一网页数量以及所述第二网页数量计算得到所述目标网站上的所述返回首页链接的设置率。

进一步地，对所述被访问的网页中除所述目标网页之外的其他网页的源代码进行解析包括：通过爬虫程序爬取所述被访问的网页中除所述目标网页之外的其他网页；从所述被访问的网页中除所述目标网页之外的其他网页中查询所述返回首页链接。

进一步地，从所述被访问的网页中识别出目标网页包括：从所述目标网站的访问日志中查询出目标访问日志，其中，所述目标访问日志为访问所述目标网站的首页页面的日志；对所述目标访问日志进行解析，提取出访问所述目标网站的首页页面的访问来源；判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页；在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时，确定所述访问来源的网页为所述目标网页。

进一步地，判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页包括：判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同；在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时，确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。

进一步地，对所述目标访问日志进行解析，提取出访问所述目标网站的首页页面的访问来源包括：从所述目标访问日志中解析出目标字段，其中，所述目标字段为记录有上一跳网页的统一资源定位符的字段。

根据本申请实施例的另一方面，还提供了一种设置率确定装置，包括：确定单元，用于对目标网站的访问日志进行解析，确定出所述目标网站中被访问的网页；第一统计单元，用于从所述被访问的网页中识别出目标网页，统计出第一网页数量，其中，所述第一网页数量为所述目标网页的数量，所述目标网页为所述被访问的网页中设置有返回首页链接的网页；第二统计单元，用于对所述被访问的网页中除所述目标网页之外的其他网页的源代码进行解析，统计出第二网页数量，其中，所述第二网页数量为存在返回首页链接的网页的数量；以及计算单元，用于根据所述被访问的网页的网页总数、所述第一网页数量以及所述第二网页数量计算得到所述目标网站上的所述返回首页链接的设置率。

进一步地，所述第二统计单元包括：爬取模块，用于通过爬虫程序爬取所述被访问的网页中除所述目标网页之外的其他网页；第一查询模块，用于从所述被访问的网页中除所述目标网页之外的其他网页中查询所述返回首页链接。

进一步地，所述第一统计单元包括：第二查询模块，用于从所述目标网站的访问日志中查询出目标访问日志，其中，所述目标访问日志为访问所述目标网站的首页页面的日志；提取模块，用于对所述目标访问日志进行解析，提取出访问所述目标网站的首页页面的访问来源；判断模块，用于判断所述访问来源的网页是否为所述目标网站中除所述首页页面之外的其他网页；确定模块，用于在所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页时，确定所述访问来源的网页为所述目标网页。

进一步地，所述判断模块包括：判断子模块，用于判断所述访问来源的网页的统一资源定位符中包含的域名是否与所述目标网站的域名相同；确定子模块，用于在所述访问来源的网页的统一资源定位符中包含的域名与所述目标网站的域名相同时，确定所述访问来源的网页是所述目标网站中除所述首页页面之外的其他网页。

进一步地，所述提取模块具体用于从所述目标访问日志中解析出目标字段，其中，所述目标字段为记录有上一跳网页的统一资源定位符的字段。

根据本申请实施例，对目标网站的访问日志进行解析，确定出目标网站中被访问的网页，从被访问的网页中识别出目标网页，统计出第一网页数量，其中，第一网页数量为目标网页的数量，目标网页为被访问的网页中设置有返回首页链接的网页，对被访问的网页中除目标网页之外的其他网页的源代码进行解析，统计出第二网页数量，其中，第二网页数量为存在返回首页链接的网页的数量，根据被访问的网页的网页总数、第一网页数量以及第二网页数量计算得到目标网站上的返回首页链接的设置率，通过从被访问的网页中识别出目标网页以及对网页的源代码进行解析，确定出存在返回首页链接的网页，并分别统计这两类网页的数量，从而计算出目标网站的返回首页链接的设置率，相对于现有技术中通过人工打开网页查看网页并进行统计的方式，提高了效率，降低了工作量，解决了现有技术中通过人工方式来确定网页上是否设置了返回首页链接，导致计算返回首页链接设置率的效率低且工作量大的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的设置率确定方法的流程图；

图2是根据本申请实施例的设置率确定装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种设置率确定方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的设置率确定方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，对目标网站的访问日志进行解析，确定出目标网站中被访问的网页。

本申请实施例的目标网站的访问日志可以通过在目标网站添加Tracker，收集用户在目标网站的访问日志，其中，Tracker的本质为一段JS脚本，嵌入在目标网站的源代码中，可以将用户在目标网站的访问日志发送到指定的服务器，其中，目标网站的访问日志记录有不同的用户在目标网站上的访问行为数据，包括站内搜索的行为数据。从目标网站的访问日志中可以确定出用户访问了哪些网页。

步骤S104，从被访问的网页中识别出目标网页，统计出第一网页数量，其中，第一网页数量为目标网页的数量，目标网页为被访问的网页中设置有返回首页链接的网页。

本实施例中，在确定出被访问的网页之后，从这些网页中识别出设置有返回首页链接的网页即目标网页，并统计该目标网页的数量即第一网页数量。具体可以根据访问日志中记录的访问来源来识别出目标网页，如果访问日志中记录了从目标网站中某一网页跳转到首页上，则访问首页的访问来源网页即上述中某一网页上设置有返回首页链接。

步骤S106，对被访问的网页中除目标网页之外的其他网页的源代码进行解析，统计出第二网页数量，其中，第二网页数量为存在返回首页链接的网页的数量。

对于被访问的网页中除目标网页以外的其他网页，其上可能设置有返回首页链接，也可能没有设置返回首页链接。

为了保证最终结果的准确性，本实施例中，对于其他网页，可以逐个解析其上的源代码，查询源代码中是否存在返回首页链接。如果存在该链接，则表明相应的网页上设置有返回首页链接，反之，则没有。通过解析识别之后，统计出存在返回首页链接的网页数量即第二网页数量。

步骤S108，根据目标网站的网页总数、第一网页数量以及第二网页数量计算得到目标网站上的返回首页链接的设置率。第一网页数量为被访问的网页中设置有返回首页链接的网页数量，第二网页数量为通过解析网页代码识别出的存在返回首页链接的网页数量。

在确定出第一网页数量和第二网页数量之后，可以计算第一网页数量和第二网页数量之和，再除以被访问的网页的网页总数，得到该目标网站上的返回首页链接的设置率。

需要说明的是，由于从被访问的网页中识别出目标网页的方式，无法分析出目标网页之外的网页是否设置有返回首页链接，为了提高准确性，本申请实施例中，采用源代码解析的方式，对目标网页之外的其他网页进行识别，统计出其他网页中存在返回首页链接的网页数量，从而在提高设置率的计算效率的同时，保证计算结果的准确性。

优选地，对被访问的网页中除目标网页之外的其他网页的源代码进行解析包括：通过爬虫程序爬取目标网站中除目标网页之外的其他网页；从被访问的网页中除目标网页之外的其他网页中查询返回首页链接。

本实施例中，可以统计被访问的网页的所有网页的URL，从中去除上述中目标网页的URL，得到初步的未设置返回首页链接的网页的URL，然后通过爬虫程序爬取这些URL对应的网页，并分析网页源代码中是否存在指向首页的链接，若没有则相应的网页上没有设置返回首页链接，若有则认为相应的网页上设置了返回首页链接，最后统计出这些网页中设置返回首页链接的网页数量，即上述第二网页数量。

优选地，从被访问的网页中识别出目标网页包括：从目标网站的访问日志中查询出目标访问日志，其中，目标访问日志为访问目标网站的首页页面的日志；对目标访问日志进行解析，提取出访问目标网站的首页页面的访问来源；判断访问来源的网页是否为目标网站中除首页页面之外的其他网页；在访问来源的网页是目标网站中除首页页面之外的其他网页时，确定访问来源的网页为目标网页。

本实施例中，从目标网站的所有访问日志中，查询出访问过目标网站的首页页面的访问日志，即目标访问日志，以便于从这些日志中解析出访问首页页面的访问来源。这里的访问来源是指通过链接跳转到首页页面的网页来源，例如，用户访问网页A，然后通过网页A跳转到目标网站的首页页面，那么网页A的URL会记录在目标网站的首页页面的访问日志中，用以表示访问目标网站的首页页面的访问来源。

本实施例中，在确定出首页页面的访问来源之后，判断该访问来源的页面是否是目标网站的中除首页页面之外的其他网页，也即是判断跳转到目标网站的首页页面的访问来源页面是否为所述目标网站中的网页，如果是，则认为该访问来源的网页上设置有返回首页链接，即，用户在访问非首页页面之后，通过该页面上的返回首页链接跳转到首页页面。反之，则该访问来源则是其他网站的网页，因此，也就不会设置有返回首页链接。

根据本申请实施例，通过解析访问日志，识别出设置有返回首页链接的网页，相对于现有技术中的人工方式，提高了效率，降低了工作量，解决了现有技术中通过人工方式来确定网页上是否设置了返回首页链接，导致计算返回首页链接设置率的效率低且工作量大的技术问题。

优选地，判断访问来源的网页是否为目标网站中除首页页面之外的其他网页包括：判断访问来源的网页的统一资源定位符中包含的域名是否与目标网站的域名相同；在访问来源的网页的统一资源定位符中包含的域名与目标网站的域名相同时，确定访问来源的网页是目标网站中除首页页面之外的其他网页。

由于每个网页的统一资源定位符(URL)中都包含其所在网站的域名，因此，在判断上述访问来源的网页是否为目标网站的网页时，可以判断该访问来源的网页对应的URL中含有的域名是否与目标网站的域名相同，如果相同，则认为访问来源的网页为上述目标网站的网页，这种情况下，可以认为该访问来源的网页为目标网站中非首页的网页；反之，则认为上述访问来源网页为其他网站的网页。

根据本申请实施例，通过访问来源的网页的URL来确定该网页是否为目标网站的非首页的网页，从而可以从上述访问来源的网页中剔除从其他网站的网页跳转到目标网站的首页页面的网页。

进一步地，对目标访问日志进行解析，提取出访问目标网站的首页页面的访问来源包括：从目标访问日志中解析出目标字段，其中，目标字段为记录有上一跳网页的统一资源定位符的字段。

本实施例中，可以在目标网站的访问日志中可以设置有目标字段，该目标字段用于记录网页的上一跳网页的URL字段即ReferURL字段。如果用户通过浏览器的返回按钮返回首页时，访问日志中记录的ReferURL为空，而通过点击网页上的返回首页链接返回到首页时，访问日志会将当前网页的URL记录在首页的ReferURL字段。

在提取出目标字段之后，可以利用该目标字段中的URL来判断访问来源的网页是否为目标网站的非首页的网页，具体可以参见上述实施例，这里不再赘述。

下面对本申请实施例的一种可选实施方式进行描述，具体包括：

步骤1：在目标网站部署Tracker。其中，部署完成之后，用户在该目标网站的所有访问日志都会被发送到服务器，其中，访问日志中还可以记录有站内搜索的数据。

步骤2：配置目标网站的首页URL及其域名D。

步骤3：逐条解析服务器收集到的访问日志。

步骤4：从步骤3的结果中找到访问首页的访问日志，即目标访问日志。具体地可以通过判断访问页面的URL与步骤2中的首页的URL是否相同来确定目标访问日志。

步骤5：从步骤4的结果中找到ReferURL的域名与目标网站域名D相同的日志，其中，ReferURL即为上述中的目标字段，记录有上一跳网页的URL。这里找出ReferURL 的域名与目标网站域名D相同的日志即删除ReferURL为其他网站或者为空的记录，这部分记录所对应的ReferURL即为目标网站中设置了返回首页链接的网页，也即是目标网页。

步骤6：统计目标网站的被访问的网页的URL，从中去除上述中目标网页的URL，得到初步的未设置返回首页链接的网页的URL。

步骤7：通过爬虫程序爬取步骤6得到的URL对应的网页，并分析网页源代码中是否存在指向首页的链接，若没有则相应的网页上没有设置返回首页链接，若有则认为相应的网页上设置了返回首页链接，最后统计出这些网页中设置返回首页链接的网页数量N1，即上述第二网页数量。

步骤8：统计被访问的网页中总的页面数M和步骤5中分析出的ReferURL数量N，即目标网页的数量。

步骤9：该目标网站的返回首页链接设置率即为(N+N1)/M。

本实施例通过获取用户在目标网站的访问数据，分析统计该访问数据计算出被访问的网页中设置返回首页链接的数量，并通过爬虫爬取分析结果中被认为是没有设置返回首页链接的页面，然后通过分析爬取的网页源代码，进一步判断页面是否设置的返回首页链接，提高了分析的准确度。

本申请实施例还提供了一种设置率确定装置，该装置可以用于执行本申请实施例的设置率确定方法，如图2所示，该装置包括：确定单元10、第一统计单元20、第二统计单元30和计算单元40。

确定单元10用于对目标网站的访问日志进行解析，确定出目标网站中被访问的网页。

第一统计单元20用于从被访问的网页中识别出目标网页，统计出第一网页数量，其中，第一网页数量为目标网页的数量，目标网页为被访问的网页中设置有返回首页链接的网页。

第二统计单元30用于对被访问的网页中除目标网页之外的其他网页的源代码进行解析，统计出第二网页数量，其中，第二网页数量为存在返回首页链接的网页的数量。

对于被访问的网页中除目标网页以外的其他网页，其上可能设置有返回首页链接，也可能没有设置返回首页链接。

计算单元40用于根据被访问的网页的网页总数、第一网页数量以及第二网页数量计算得到目标网站上的返回首页链接的设置率。

第一网页数量为被访问的网页中设置有返回首页链接的网页数量，第二网页数量为通过解析网页代码识别出的存在返回首页链接的网页数量。

优选地，第二统计单元包括：爬取模块，用于通过爬虫程序爬取被访问的网页中除目标网页之外的其他网页；第一查询模块，用于从被访问的网页中除目标网页之外的其他网页中查询返回首页链接。

优选地，第一统计单元包括：第二查询模块，用于从目标网站的访问日志中查询出目标访问日志，其中，目标访问日志为访问目标网站的首页页面的日志；提取模块，用于对目标访问日志进行解析，提取出访问目标网站的首页页面的访问来源；判断模块，用于判断访问来源的网页是否为目标网站中除首页页面之外的其他网页；确定模块，用于在访问来源的网页是目标网站中除首页页面之外的其他网页时，确定访问来源的网页为目标网页。

优选地，判断模块包括：判断子模块，用于判断访问来源的网页的统一资源定位符中包含的域名是否与目标网站的域名相同；确定子模块，用于在访问来源的网页的统一资源定位符中包含的域名与目标网站的域名相同时，确定访问来源的网页是目标网站中除首页页面之外的其他网页。

进一步地，提取模块具体用于从目标访问日志中解析出目标字段，其中，目标字段为记录有上一跳网页的统一资源定位符的字段。

所述设置率确定装置包括处理器和存储器，上述确定单元10、第一统计单元20、第二统计单元30和计算单元40等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来计算目标网站的返回首页链接的设置率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：对目标网站的访问日志进行解析，确定出目标网站中被访问的网页；从被访问的网页中识别出目标网页，统计出第一网页数量，其中，第一网页数量为目标网页的数量，目标网页为被访问的网页中设置有返回首页链接的网页；对被访问的网页中除目标网页之外的其他网页的源代码进行解析，统计出第二网页数量，其中，第二网页数量为存在返回首页链接的网页的数量；以及根据被访问的网页的网页总数、第一网页数量以及第二网页数量计算得到目标网站上的返回首页链接的设置率。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李新国;崔维福;吴茜
技术所有人：北京国双科技有限公司
我是此专利的发明人

上一篇：内开窗的制作方法与工艺
上一篇：低流阻双向密封旋球阀的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。