一种获取页面内容的方法及装置与流程

文档序号：12362330阅读：145来源：国知局

本发明涉及互联网通信领域，具体而言，涉及一种获取页面内容的方法及装置。

背景技术：

目前，用户经常通过互联网浏览网络站点或应用客户端的页面，有时用户需要对不同时间段某页面的页面内容进行对比分析，因此需要获取该页面的页面内容，以便用户对比分析不同时间该页面的页面内容。

当前，现有技术提供了一种获取页面内容的方法，包括：终端根据用户输入的页面地址显示该页面地址对应的页面，在该页面中确定用户选择的需要获取的指定区域，判断该指定区域是否被加密，如果该指定区域被加密，则先对该指定区域进行解密，然后执行爬虫程序获取该指定区域中包括的页面内容。如果该指定区域未加密，则直接执行爬虫程序获取该指定区域中包括的页面内容。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

当需要获取的指定区域被加密时，需要先进行解密之后才能获取而解密过程需要花费大量的时间，导致获取页面内容的效率很低，且存在解密失败的风险，导致获取失败。

技术实现要素：

有鉴于此，本发明实施例的目的在于提供一种获取页面内容的方法及装置，实现截取需要获取的指定区域的图像，以避免指定区域被加密时要先解密才可以获取，提高了获取页面内容的效率，避免获取失败。

第一方面，本发明实施例提供了一种获取页面内容的方法，所述方法包括：

从当前页面中确定需要获取的指定区域；

对所述指定区域进行截图，得到所述指定区域的图像；

采用文字识别的方式获取所述指定区域的图像中的内容。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实现方式，其中，所述从当前页面中确定需要获取的指定区域，包括：

将所述当前页面中用户选定的区域确定为需要获取的指定区域；或者，

将所述当前页面中包含有预先设定的敏感字的区域确定为需要获取的指定区域；或者，

将所述当前页面的整个区域确定为需要获取的指定区域。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实现方式，其中，所述对所述指定区域进行截图，得到所述指定区域的图像，包括：

获取所述指定区域的尺寸及所述指定区域在所述当前页面中的位置；

根据所述指定区域的尺寸及所述指定区域在所述当前页面中的位置，对所述指定区域进行截图，得到所述指定区域的图像。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实现方式，其中，所述对所述指定区域进行截图，得到所述指定区域的图像，包括：

根据所述当前页面的链接，确定所述当前页面的页面类型，所述页面类型包括应用app类型或网络web类型；

若所述页面类型为所述app类型，采用屏幕截图方式截取所述指定区域的图像；

若所述页面类型为所述web类型，采用浏览器截图方式截取所述指定区域的图像。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实现方式，其中，所述从当前页面中确定需要获取的指定区域，还包括：

按照时间触发方式或者事件触发方式从当前页面中确定需要获取的指定区域。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实现方式，其中，所述方法还包括：

从数据库中获取所述当前页面对应的历史获取内容，将所述当前页面的历史获取内容与当前获取内容进行对比分析，生成所述当前页面的统计报告。

第二方面，本发明实施例提供了一种获取页面内容的装置，所述装置包括：

确定模块，用于从当前页面中确定需要获取的指定区域；

截图模块，用于对所述指定区域进行截图，得到所述指定区域的图像；

获取模块，用于采用文字识别的方式获取所述指定区域的图像中的内容。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实现方式，其中，所述确定模块包括：

第一确定单元，用于将所述当前页面中用户选定的区域确定为需要获取的指定区域；或者，

第二确定单元，用于将所述当前页面中包含有预先设定的敏感字的区域确定为需要获取的指定区域；或者，

第三确定单元，用于将所述当前页面的整个区域确定为需要获取的指定区域。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实现方式，其中，所述截图模块包括：

获取单元，用于获取所述指定区域的尺寸及所述指定区域在所述当前页面中的位置；

截图单元，用于根据所述指定区域的尺寸及所述指定区域在所述当前页面中的位置，对所述指定区域进行截图，得到所述指定区域的图像。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实现方式，其中，所述截图模块包括：

第四确定单元，用于根据所述当前页面的链接，确定所述当前页面的页面类型，所述页面类型包括应用app类型或网络web类型；

第一截取单元，用于若所述页面类型为所述app类型，采用屏幕截图方式截取所述指定区域的图像；

第二截取单元，用于若所述页面类型为所述web类型，采用浏览器截图方式截取所述指定区域的图像。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实现方式，其中，所述装置还包括：

分析模块，用于从数据库中获取所述当前页面对应的历史获取内容，将所述当前页面的历史获取内容与当前获取内容进行对比分析，生成所述当前页面的统计报告。

在本发明实施例提供的方法及装置中，由于对指定区域进行截图，得到指定区域的图像，采用文字识别的方式获取指定区域的图像中的内容，所以即便需要获取的指定区域被加密，也可以截取需要获取的指定区域的图像，根据指定区域的图像来获取指定区域中的内容，能够保证成功地获取页面内容，且避免了对指定区域进行解密，提高了获取页面内容的效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供的一种获取页面内容的方法流程图；

图2示出了本发明实施例2所提供的一种获取页面内容的方法流程图；

图3示出了本发明实施例3所提供的一种获取页面内容的装置结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到相关技术中，当需要获取的指定区域被加密时，需要先进行解密之后才能获取，而解密过程需要花费大量的时间，导致获取页面内容的效率很低，且存在解密失败的风险，导致获取失败。基于此，本发明实施例提供了一种获取页面内容的方法及装置。下面通过实施例进行描述。

实施例1

参见图1，本发明实施例提供了一种获取页面内容的方法，该方法由终端执行，该终端可以是手机或计算机等设备。该方法具体包括以下步骤：

步骤101：从当前页面中确定需要获取的指定区域；

上述需要获取的指定区域可以有多种确定方式。例如，可以根据用户选定的区域来确定，或者根据当前页面中包含的内容来确定等。基于此，上述从当前页面中确定需要获取的指定区域的步骤可以至少包括以下方式之一：

第一种方式，将当前页面中用户选定的区域确定为需要获取的指定区域。

此种方式中，由用户自行选定需要获取的指定区域，由此使得用户可以方便快捷地设定需要获取的指定区域，为用户带来了极大的便利，从而使本发明实施例提供的获取页面内容的方法更加实用。另外，由于用户选定了需要获取的指定区域，则后续只获取用户选定的区域，对于用户不关心的区域不进行获取，如此可以节省获取页面内容的网络流量。

第二种方式，将当前页面中包含有预先设定的敏感字的区域确定为需要获取的指定区域。

此种方式中，将包含预先设定的敏感字的区域确定为需要获取的指定区域，认为不包含预先设定的敏感字的区域中的页面内容不是用户所需要的内容，所以对这部分内容不进行获取，由此可以节省获取页面内容的网络流量。

第三种方式，将当前页面的整个区域确定为需要获取的指定区域。

此种方式是直接将当前页面的整个区域确定为需要获取的指定区域，即确定需要获取整个页面的内容。

在用户没有给出选定的区域，且也没有预先设定的敏感字时，可以将当前页面的整个区域确定为需要获取的指定区域，该指定区域的确定方式可以作为默认处理方式，这种处理方式无需用户参与即可实现，方便用户使用。

指定区域的确定步骤，可以采用时间触发方式，也可以采用事件触发方式，这两种触发方式的选取可以预先由用户设定。基于此，上述从当前页面中确定需要获取的指定区域的步骤还可以包括：按照时间触发方式或者事件触发方式从当前页面中确定需要获取的指定区域。

其中，按照时间触发方式即预先设定需要获取的内容对应的页面链接以及获取周期，根据该获取周期来周期性地确定需要获取页面内容对应的指定区域，并获取该指定区域中的内容。具体地，实时判断当前时间是否到达当前页面对应的获取周期，若到达，则根据预先设定的页面链接打开该页面链接对应的页面，该页面即为当前页面，并执行从当前页面中确定需要获取的指定区域的步骤。例如，设定获取周期为一天，第一次获取时间为3月1日12:00，则当时间到达3月2日12:00时，将判断出当前时间到达当前页面对应的获取周期，则执行本步骤操作。

按照事件触发方式即当接收到用户的获取指令时执行从当前页面中确定需要获取的指定区域的步骤。可以预先设置一个获取对话框或获取按钮。当用户向终端中的浏览器输入页面链接，或者用户点击终端中的一应用程序的图标时，终端显示当前页面，同时弹出预先设置的获取对话框或显示获取按钮，如果用户勾选此获取对话框或点击获取按钮，则表明当前需要进行获取操作，则执行从当前页面中确定需要获取的指定区域的操作。

步骤102：对该指定区域进行截图，得到该指定区域的图像；

上述截图操作过程中，对于指定区域的具体定位过程可以在坐标系下实现。基于此，上述对该指定区域进行截图的步骤可以包括：

获取指定区域的尺寸及指定区域在当前页面中的位置；根据指定区域的尺寸及指定区域在当前页面中的位置，对指定区域进行截图，得到指定区域的图像。

其具体实现方案可以包括：将当前页面的一个顶点确定为坐标原点，将该顶点对应的相邻两边分别设为坐标系的x轴和y轴。在该坐标系中确定出需要获取的指定区域的中心点的坐标，将该中心点的坐标确定为该指定区域在当前页面中的位置。当该指定区域的形状为矩形或三角形等有顶点的形状时，在该坐标系中确定出该指定区域的各顶点的坐标，根据该指定区域的各顶点的坐标确定出该指定区域的尺寸。当该指定区域的形状为圆形时，在该坐标系中确定出该指定区域的边界上一个点的坐标，根据该点的坐标与该指定区域的中心点的坐标，确定出该指定区域的半径，根据该半径确定出指定区域的尺寸。通过上述操作确定出该指定区域的尺寸及该指定区域在当前页面中的位置之后，根据该指定区域的尺寸和该位置，对该指定区域进行截图，得到该指定区域的图像。

在本发明实施例中，对指定区域进行截图所采用的截图方式包括屏幕截图和浏览器截图。实际应用时，可以根据当前页面的页面类型选取适用的截图方式。基于此，上述对该指定区域进行截图的步骤可以包括：

根据当前页面的链接，确定当前页面的页面类型，该页面类型包括app(Application，应用)类型或web(网络)类型；若页面类型为app类型，采用屏幕截图方式截取指定区域的图像；若页面类型为web类型，采用浏览器截图方式截取指定区域的图像。

上述的页面类型可以通过页面的链接中包含的内容进行确定。通常，网站的页面的链接中一般包含“http”、“www”或“.com”等特定字段，而应用程序的链接中一般包含“wap”字段以及该应用程序的标识。因此可以根据当前页面的链接，来确定当前页面的页面类型，若当前页面的链接中包含“http”、“www”或“.com”等特定字段，则确定当前页面的页面类型为web类型。若当前页面的链接中包含“wap”字段或应用程序的标识，则确定该当前页面的页面类型为app类型。

另外，也可以根据用户打开页面时的操作对象来确定页面的类型。用户通常是在浏览器中输入页面的链接来打开当前页面，或者通过点击应用程序的图标来打开当前页面，此时终端可以根据用户操作的对象是浏览器或应用程序的图标来确定出当前页面的页面类型。当用户操作的对象是浏览器时，确定出当前页面的页面类型为web类型。当用户操作的对象是应用程序的图标时，确定出当前页面的页面类型为app类型。

步骤103：采用文字识别的方式获取该指定区域的图像中的内容。本发明实施例中，文字识别的方式可以为通过图像处理识别图像中的文字，或者通过ORC(Optical Character Recognition，光学字符识别)等文字识别应用来识别图像中的文字。采用文字识别的方式获取指定区域的图像中的内容，即便原页面的内容被加密，也可以获取到指定区域中的文字信息。

通过上述的步骤101-103的操作实现了获取页面内容的目的，且具有较高的效率。

在上述技术方案的基础上，本发明实施例中，该获取页面内容的方法还可以包括如下操作：

从数据库中获取当前页面对应的历史获取内容，将当前页面的历史获取内容与当前获取内容进行对比分析，生成当前页面的统计报告。

在数据库中存储有过去预设时间段内获取的页面内容，预设时间段可以为一周、一月或一年等。

根据当前页面的标识，从数据库中获取当前页面对应的历史获取内容。将获取的历史获取内容与当前获取内容进行对比分析。根据过去一周获取的页面内容生成周报表，或者根据过去一月获取的页面内容生成月报表等统计报告。

用户可以通过浏览周报表或月报表等统计报告来查看当前页面的页面内容随时间变化的情况，可以为业务决策者提供强有力的数据支持。例如，用户关心自己开发的游戏在一应用程序内的排名情况，则可以周期性地获取该应用程序内对游戏进行排名的页面内容，并根据获取的页面内容生成统计报告，通过统计报告来查看自己开发的游戏的排名变化情况。

在本发明实施例提供的方法中，由于对指定区域进行截图，得到指定区域的图像，采用文字识别的方式获取指定区域的图像中的内容，所以即便需要获取的指定区域被加密，也可以截取需要获取的指定区域的图像，根据指定区域的图像来获取指定区域中的内容，能够保证成功地获取页面内容，且避免了对指定区域进行解密，提高了获取页面内容的效率。

实施例2

参见图2，本发明实施例提供了一种获取页面内容的方法，该方法可以由终端执行，该终端可以为手机或计算机等设备。该方法具体包括以下步骤：

步骤201：从当前页面中确定需要获取的指定区域；

本步骤中可以按照时间触发方式或者事件触发方式从当前页面中确定需要获取的指定区域。

其中，按照时间触发方式即预先设定需要获取的页面内容对应的页面链接以及获取周期，根据该获取周期来周期性地确定需要获取页面内容对应的指定区域，并获取该指定区域中的内容。具体地，实时判断当前时间是否到达当前页面对应的获取周期，若到达，则根据预先设定的页面链接打开该页面链接对应的页面，该页面即为当前页面，并执行从当前页面中确定需要获取的指定区域的步骤。例如，设定获取周期为一天，第一次获取时间为3月1日12:00，则当时间到达3月2日12:00时，将判断出当前时间到达当前页面对应的获取周期，则执行本步骤操作。

上述需要获取的指定区域可以有多种确定方式，本实施例可以通过如下第一至第三三种方式从当前页面中确定需要获取的指定区域。

第一种方式，将当前页面中用户选定的区域确定为需要获取的指定区域。

第一种方式具体实施时，用户可以通过鼠标或触摸屏等输入装置在当前页面中勾画出需要获取的指定区域的边界轨迹。终端检测到鼠标或触摸屏等输入装置输入的边界轨迹时，将该边界轨迹围成的区域确定为需要获取的指定区域。

为便于用户自定义设置指定区域，终端还可以向用户提供设置页面，该设置页面中至少包括文本输入框和确定按钮。用户可以在该设置页面的文本输入框中输入需要获取的指定区域的位置和尺寸，并通过点击确认按钮来向终端提交设置命令。当终端检测到用户提交的设置命令时，从该设置页面包括的文本输入框中，获取用户输入的位置和尺寸，根据该位置和尺寸，从当前页面中确定出需要获取的指定区域。另外，终端还存储需要获取的指定区域的位置和尺寸。

由于用户可以自行选定需要获取的指定区域，由此使得用户可以方便快捷地设定需要获取的指定区域，为用户带来了极大的便利，从而使本发明实施例提供的获取页面内容的方法更加实用。另外，由于用户选定了需要获取的指定区域，则后续只获取用户选定的区域，对于用户不关心的区域不进行获取，如此可以节省获取页面内容的网络流量。

如果用户没有自行选定需要获取的页面内容，还可以通过如下第二和第三两种方式来确定需要获取的指定区域。

第二种方式，将当前页面中包含有预先设定的敏感字的区域确定为需要获取的指定区域。

预先设定的敏感字一般为用户比较关心的内容所涉及的关键字。例如，假设用户为游戏开发者，该用户非常关心其开发的一款游戏在“最受欢迎游戏排名”中的名次，则预先设定的敏感字可以为“游戏排名”或“游戏名次”等。

第二种方式的具体实现方案包括：，获取预先设定的敏感字。根据该预先设定的敏感字，对当前页面中包含的文本内容进行检索，确定当前页面的文本内容中是否包含该预先设定的敏感字，若包含，则在当前页面中，将该预先设定的敏感字周围预设尺寸范围内的区域确定为需要获取的指定区域。另外，对于当前页面中包括的图像等非文本内容，通过文字识别的方式将图像等非文本内容转换为文本内容，然后再按照上述对文本内容的处理方式，确定出图像等非文本内容中是否包含预先设定的敏感字，并在确定包含时确定出需要获取的指定区域。

其中，预设尺寸范围包括预先设定的敏感字且小于或等于当前页面的尺寸。进一步地，还可以根据当前页面中包含预先设定的敏感字的数目以及预先设定的敏感字在当前页面中的分布位置，绘制出预先设定的敏感字在当前页面中的密度分布图。根据该密度分布图，确定出预先设定的敏感字分布最集中的位置，将该位置周围预设尺寸范围的区域确定为需要获取的指定区域。

由于将包含预先设定的敏感字的区域确定为需要获取的指定区域，认为不包含预先设定的敏感字的区域中的页面内容不是用户所需要的内容，所以对这部分内容不进行获取，如此可以节省获取页面内容的网络流量。

第三种方式，将当前页面的整个区域确定为需要获取的指定区域。

当用户没有选定需要获取的指定区域时，还可以直接将当前页面的整个区域确定为需要获取的指定区域，如此可以保证获取到用户需要的页面内容。确定的需要获取的指定区域的形状可以为矩形、三角形或圆形等形状。优选地，需要获取的指定区域的形状为矩形。

通过本步骤的操作确定需要获取的指定区域之后。需要通过如下步骤202和203的操作来获取需要获取的指定区域中的内容。

步骤202：对该指定区域进行截图，得到该指定区域的图像；

目前，获取页面内容时，主要存在以下(1)和(2)两种可能导致获取页面内容失败的情况：

(1)：为了避免恶意分子对页面内容的获取和恶意使用，目前网站和应用程序经常对自己的页面进行加密，用户访问被加密的页面时，加密后的页面内容通常以图像或视频的形式显示，这样实现了在不影响普通用户浏览页面的同时防止恶意分子获取页面内容。

(2)：目前，很多网站或应用程序采用HTML5(HyperText Markup Language，超文本标记语言)技术，导致获取页面内容所使用的爬虫程序的接口协议可能与网站或应用程序的接口协议不同，从而导致爬虫程序无法获取到网站或应用程序中的页面内容。

为了解决以上(1)和(2)两种可能导致获取失败的情况，需要通过本步骤的操作来截取需要获取的指定区域的图像。本步骤可以通过如下第一和第二两种方式来截取指定区域的图像。

第一种方式：获取该指定区域的尺寸及该指定区域在该当前页面中的位置。根据该指定区域的尺寸及该指定区域在该当前页面中的位置，对该指定区域进行截图，得到该指定区域的图像。

第一种方式的具体实现方案包括：将当前页面的一个顶点确定为坐标原点，将该顶点对应的相邻两边分别设为坐标系的x轴和y轴。在该坐标系中确定出需要获取的指定区域的中心点的坐标，将该中心点的坐标确定为该指定区域在当前页面中的位置。当该指定区域的形状为矩形或三角形等有顶点的形状时，在该坐标系中确定出该指定区域的各顶点的坐标，根据该指定区域的各顶点的坐标确定出该指定区域的尺寸。当该指定区域的形状为圆形时，在该坐标系中确定出该指定区域的边界上一个点的坐标，根据该点的坐标与该指定区域的中心点的坐标，确定出该指定区域的半径，根据该半径确定出指定区域的尺寸。通过上述操作确定出该指定区域的尺寸及该指定区域在当前页面中的位置之后，根据该指定区域的尺寸和该位置，对该指定区域进行截图，得到该指定区域的图像。

其中，当指定区域的形状为矩形时，该指定区域的中心点可以为对角线的交点。当指定区域的形状为三角线时，该指定区域的中心点可以为三条边上的高线的交点。当指定区域的形状为圆形时，该指定区域的中心点为圆心。当指定区域的形状为其他形状时，可根据指定区域的具体形状来具体确定该指定区域的中心点。

进一步地，若在步骤201中是根据用户在设置页面中输入的位置和尺寸来确定需要获取的指定区域的，则直接获取存储的需要获取的指定区域的位置和尺寸。然后根据该指定区域的位置和尺寸，对该指定区域进行截图，得到该指定区域的图像。

第二种方式：根据该当前页面的链接，确定该当前页面的页面类型，该页面类型包括app类型或web类型。若该页面类型为app类型，采用屏幕截图方式截取该指定区域的图像。若该页面类型为web类型，采用浏览器截图方式截取该指定区域的图像。

其中，在本步骤中，可以分别通过第一和第二两种方式来对该指定区域进行截图，也可以通过第一和第二相结合的方式来对该指定区域进行截图，即获取该指定区域的尺寸以及在该当前页面中的位置，以及确定当前页面的页面类型。根据该指定区域的位置、尺寸以及当前页面的页面类型，对该指定区域进行截图，得到该指定区域的图像。

通过本步骤就实现了截取需要获取的指定区域的图像，如此即便该指定区域被加密，或者当前页面的接口协议与爬虫程序的接口协议不相同，也可以获取到需要获取的指定区域的图像，能够保证成功地获取页面内容，且避免了对指定区域进行解密，提高了获取页面内容的效率。

其中，通过本步骤截取到该指定区域的图像之后，为了更方便地对该指定区域中的页面内容的分析处理，需要通过如下步骤203的操作来从该指定区域的图像中获取到文本形式的页面内容。

步骤203：采用文字识别的方式获取该指定区域的图像中的内容；

其中，文字识别的方式可以为通过图像处理识别图像中的文字，或者通过ORC等文字识别应用来识别图像中的文字。

获取了页面内容后，可以将获取的页面内容与当前页面的标识进行关联后，存储到数据库中。

步骤204：从数据库中获取当前页面对应的历史获取内容，将当前页面的历史获取内容与当前获取内容进行对比分析，生成当前页面的统计报告。

数据库中存储有过去预设时间段内获取的页面内容，预设时间段可以为一周、一月或一年等。

本步骤具体包括：根据当前页面的标识，从数据库中获取当前页面对应的历史获取内容。将获取的历史获取内容与当前获取内容进行对比分析。根据过去一周获取的页面内容生成周报表，或者根据过去一月获取的页面内容生成月报表等统计报告。

其中，用户可以通过浏览周报表或月报表等统计报告来查看当前页面的页面内容随时间变化的情况，可以为业务决策者提供强有力的数据支持。例如，用户关心自己开发的游戏在一应用程序内的排名情况，则可以周期性地获取该应用程序内对游戏进行排名的页面内容，并根据获取的页面内容生成统计报告，通过统计报告来查看自己开发的游戏的排名变化情况。

进一步地，通过对每次获取的内容，可以确定出当前页面的内容的更新频率，可以根据该更新频率来调节按时间触发方式进行获取的获取周期。例如，假设确定出当前页面的内容的更新频率为一天更新一次，则可以设置获取周期为每隔一天获取一次。

本发明实施例提供的方法，能实现加密页面内容的自动化获取，可以获取图片内容。实现了HTML5网站的页面内容以及app页面内容的获取，无需被获取站点做额外的操作，不需要破解网站以及应用程序的加密方式。

实施例3

参见图3，本发明实施例提供了一种获取页面内容的装置，该装置用于执行上述获取页面内容的方法。该装置具体包括：

确定模块301，用于从当前页面中确定需要获取的指定区域；

确定模块301可以按照时间触发方式或者事件触发方式从当前页面中确定需要获取的指定区域。

按照时间触发方式即预先设定需要获取的页面内容对应的页面链接以及获取周期，确定模块301根据该获取周期来周期性地确定需要获取页面内容对应的指定区域，并获取该指定区域中的内容。具体地，确定模块301实时判断当前时间是否到达当前页面对应的获取周期，若到达，则根据预先设定的页面链接打开该页面链接对应的页面，该页面即为当前页面，并执行从当前页面中确定需要获取的指定区域的步骤。例如，设定获取周期为一天，第一次获取时间为3月1日12:00，则当时间到达3月2日12:00时，确定模块301将判断出当前时间到达当前页面对应的获取周期，然后从当前页面中确定出需要获取的指定区域。

按照事件触发方式即当接收到用户的获取指令时执行从当前页面中确定需要获取的指定区域的步骤。可以预先设置一个获取对话框或获取按钮。当用户向终端中的浏览器输入页面链接，或者用户点击终端中的一应用程序的图标时，终端显示当前页面，同时弹出预先设置的获取对话框或显示获取按钮，如果用户勾选此获取对话框或点击获取按钮，则表明当前需要进行获取操作，则确定模块301从当前页面中确定需要获取的指定区域的操作。

在本发明实施例中，上述确定模块301可以通过多种确定方式来确定需要获取的指定区域。例如，确定模块301可以根据用户选定的区域来确定，或者根据当前页面中包含的内容来确定等。基于此，确定模块301可以至少包括以下功能单元之一：

第一确定单元，用于将当前页面中用户选定的区域确定为需要获取的指定区域；

第二确定单元，用于将当前页面中包含有预先设定的敏感字的区域确定为需要获取的指定区域；

第三确定单元，用于将当前页面的整个区域确定为需要获取的指定区域。

截图模块302，用于对指定区域进行截图，得到指定区域的图像；

上述截图模块302可以在坐标系下确定指定区域的具体位置，并实现对指定区域进行截图。基于此，该截图模块302可以包括：

获取单元，用于获取指定区域的尺寸及指定区域在当前页面中的位置；

截图单元，用于根据指定区域的尺寸及指定区域在当前页面中的位置，对指定区域进行截图，得到指定区域的图像。

其具体截图过程可以包括：截图模块302将当前页面的一个顶点确定为坐标原点，将该顶点对应的相邻两边分别设为坐标系的x轴和y轴。在该坐标系中确定出需要获取的指定区域的中心点的坐标，将该中心点的坐标确定为该指定区域在当前页面中的位置。当该指定区域的形状为矩形或三角形等有顶点的形状时，在该坐标系中确定出该指定区域的各顶点的坐标，根据该指定区域的各顶点的坐标确定出该指定区域的尺寸。当该指定区域的形状为圆形时，在该坐标系中确定出该指定区域的边界上一个点的坐标，根据该点的坐标与该指定区域的中心点的坐标，确定出该指定区域的半径，根据该半径确定出指定区域的尺寸。通过上述操作确定出该指定区域的尺寸及该指定区域在当前页面中的位置之后，根据该指定区域的尺寸和该位置，对该指定区域进行截图，得到该指定区域的图像。

当指定区域的形状为矩形时，该指定区域的中心点可以为对角线的交点。当指定区域的形状为三角线时，该指定区域的中心点可以为三条边上的高线的交点。当指定区域的形状为圆形时，该指定区域的中心点为圆心。当指定区域的形状为其他形状时，可根据指定区域的具体形状来具体确定该指定区域的中心点。

在本发明实施例中，截图模块302对指定区域进行截图所采用的截图方式包括屏幕截图和浏览器截图。实际应用时，截图模块302 可以根据当前页面的页面类型选取适用的截图方式。基于此，上述截图模块302包括：

第四确定单元，用于根据当前页面的链接，确定当前页面的页面类型，页面类型包括应用app类型或网络web类型；

第一截取单元，用于若页面类型为app类型，采用屏幕截图方式截取指定区域的图像；

第二截取单元，用于若页面类型为web类型，采用浏览器截图方式截取指定区域的图像。

上述的页面类型可以通过页面的链接中包含的内容进行确定。通常网站的页面的链接中一般包含“http”、“www”或“.com”等特定字段，而应用程序的链接中一般包含“wap”字段以及该应用程序的标识。因此截图模块302可以根据当前页面的链接，来确定当前页面的页面类型，若当前页面的链接中包含“http”、“www”或“.com”等特定字段，则确定当前页面的页面类型为web类型。若当前页面的链接中包含“wap”字段或应用程序的标识，则确定该当前页面的页面类型为app类型。

另外，截图模块302也可以根据用户打开页面时的操作对象来确定页面的类型。用户通常是在浏览器中输入页面的链接来打开当前页面，或者通过点击应用程序的图标来打开当前页面，此时截图模块302可以根据用户操作的对象是浏览器或应用程序的图标来确定出当前页面的页面类型。当用户操作的对象是浏览器时，确定出当前页面的页面类型为web类型。当用户操作的对象是应用程序的图标时，确定出当前页面的页面类型为app类型。

获取模块303，用于采用文字识别的方式获取指定区域的图像中的内容。其中，文字识别的方式可以为通过图像处理识别图像中的文字，或者通过ORC等文字识别应用来识别图像中的文字。获取模块303采用文字识别的方式获取指定区域的图像中的内容，即便原页面的内容被加密，也可以获取到指定区域中的文字信息。

另外，获取模块303还将获取的页面内容以及当前页面的标识存储到数据库中。

通过上述确定模块301、截图模块302和获取模块303的操作实现了获取页面内容的目的，且具有较高的效率。

在上述功能模块实现的技术方案的基础上，在本发明实施例中，该获取页面内容的装置还包括：

分析模块304，用于从数据库中获取当前页面对应的历史获取内容，将当前页面的历史获取内容与当前获取内容进行对比分析，生成当前页面的统计报告。

上述分析模块304根据当前页面的标识，从数据库中获取当前页面对应的历史获取内容。将获取的历史获取内容与当前获取内容进行对比分析。根据过去一周获取的页面内容生成周报表，或者根据过去一月获取的页面内容生成月报表等统计报告。

在本发明实施例提供的装置中，由于对指定区域进行截图，得到指定区域的图像，采用文字识别的方式获取指定区域的图像中的内容，所以即便需要获取的指定区域被加密，也可以截取需要获取的指定区域的图像，根据指定区域的图像来获取指定区域中的内容，能够保证成功地获取页面内容，且避免了对指定区域进行解密，提高了获取页面内容的效率。

本发明实施例所提供的获取页面内容的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程。

在本申请所提供的几个实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁捷;梁卡喆;洪兴海;
技术所有人：广州爱九游信息技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。