页面信息获取方法、装置、计算机设备和存储介质与流程

文档序号:14389691阅读:180来源:国知局
页面信息获取方法、装置、计算机设备和存储介质与流程

本发明涉及互联网技术领域,尤其涉及一种页面信息获取方法、装置、计算机设备和存储介质。



背景技术:

验证码能够提高站点资源的自动化机器访问门槛,使网站资源优先服务人类用户。滑动验证码作为一种新兴的验证码类型,主要包括拼图和背景图两张图片,用户通过拖到图片下方的滑动控件,使拼图和背景图吻合来通过验证。

然而,滑动验证码在保证用户优先访问网站资源的同时,也降低了网页信息采集效率。比如,在使用网络爬虫等收集公开信息的过程中,若需要通过滑动验证码验证才可以获取网页中的信息,则收集公开信息的过程需要用户参与来验证滑动验证码,每次获取网页中的信息之前均需要等待用户验证滑动验证码,等待时间较长,从而导致网页信息采集效率低。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的第一个目的在于提出一种页面信息获取方法,以实现对滑动验证码的自动验证,避免用户手动验证,提高网页信息采集效率,解决现有技术中用户手动验证滑动验证码导致网页信息采集效率低的技术问题。

本发明的第二个目的在于提出一种页面信息获取装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的,本发明第一方面实施例提出了一种页面信息获取方法,包括:

获取页面的滑动验证信息;其中,所述滑动验证信息包括拼图图片、第一乱序图片和第二乱序图片;所述第一乱序图片,是对正序图片切分后乱序排列得到的图片;所述第二乱序图片,是具有所述拼图图片轮廓的所述正序图片切分后乱序排列得到的图片;

确定目标图片块对应所述正序图片中的目标位置;所述目标图片块是所述第二乱序图片中具有所述拼图图片轮廓的图片块;

根据所述目标图片块对应所述正序图片中的目标位置,选取预先录制的滑动轨迹进行滑动验证;

当滑动验证通过后,访问所述页面以获取所述页面内所需信息。

本发明实施例的页面信息获取方法,通过获取页面的滑动验证信息,滑动验证信息中包括拼图图片、第一乱序图片和第二乱序图片,确定目标图片块对应正序图片中的目标位置,根据目标图片块对应正序图片中的目标位置选取预先录制的滑动轨迹进行验证,并在滑动验证通过后访问页面以获取页面内所需信息。由此,能够实现对滑动验证码的自动验证,避免用户手动验证滑动验证码,缩短等待用户手动验证的等待时间,从而能够提高网页信息采集效率,解决现有技术中用户手动验证滑动验证码导致网页信息采集效率低的技术问题。

为达上述目的,本发明第二方面实施例提出了一种页面信息获取装置,包括:

获取模块,用于获取页面的滑动验证信息;其中,所述滑动验证信息包括拼图图片、第一乱序图片和第二乱序图片;所述第一乱序图片,是对正序图片切分后乱序排列得到的图片;所述第二乱序图片,是具有所述拼图图片轮廓的所述正序图片切分后乱序排列得到的图片;

确定模块,用于确定目标图片块对应所述正序图片中的目标位置;所述目标图片块是所述第二乱序图片中具有所述拼图图片轮廓的图片块;

验证模块,用于根据所述目标图片块对应所述正序图片中的目标位置,选取预先录制的滑动轨迹进行滑动验证;

访问模块,用于当滑动验证通过后,访问所述页面以获取所述页面内所需信息。

本发明实施例的页面信息获取装置,通过获取页面的滑动验证信息,滑动验证信息中包括拼图图片、第一乱序图片和第二乱序图片,确定目标图片块对应正序图片中的目标位置,根据目标图片块对应正序图片中的目标位置选取预先录制的滑动轨迹进行验证,并在滑动验证通过后访问页面以获取页面内所需信息。由此,能够实现对滑动验证码的自动验证,避免用户手动验证滑动验证码,缩短等待用户手动验证的等待时间,从而能够提高网页信息采集效率,解决现有技术中用户手动验证滑动验证码导致网页信息采集效率低的技术问题。

为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面实施例所述的页面信息获取方法。

为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的页面信息获取方法。

为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如第一方面实施例所述的页面信息获取方法。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明一实施例提出的页面信息获取方法的流程示意图;

图2(a)为拼图图片示意图;

图2(b)为与第一乱序图片对应的正序图片的示意图;

图2(c)为与第二乱序图片对应的正序图片的示意图;

图2(d)为第一乱序图片示意图一;

图2(e)为第二乱序图片示意图一;

图3(a)为滑动验证码示意图;

图3(b)为验证后的滑动验证码示意图;

图4为本发明另一实施例提出的页面信息获取方法的流程示意图;

图5为对第一乱序图片中的各图片块进行重排得到候选图片的方法流程示意图;

图6为本发明又一实施例提出的页面信息获取方法的流程示意图;

图7为本发明再一实施例提出的页面信息获取方法的流程示意图;

图8为本发明一实施例提出的页面信息获取装置的结构示意图;

图9为本发明另一实施例提出的页面信息获取装置的结构示意图;

图10为本发明再一实施例提出的页面信息获取装置的结构示意图;以及

图11为本发明一实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的页面信息获取方法、装置、计算机设备和存储介质。

图1为本发明一实施例提出的页面信息获取方法的流程示意图。

如图1所示,该页面信息获取方法包括以下步骤:

步骤101,获取页面的滑动验证信息。

其中,滑动验证信息包括拼图图片、第一乱序图片和第二乱序图片;第一乱序图片是对正序图片切分后乱序排列得到的图片;第二乱序图片是具有拼图图片轮廓的正序图片切分后乱序排列得到的图片;正序图片绘制有滑动验证的背景;拼图图片是滑动验证的移动图片。

浏览器自动测试技术可以在浏览器上通过脚本程序(比如javascript,简称js脚本)来模拟人类用户的浏览、点击、拖动等操作,目前被广泛应用于web站点的自动化测试。基于该浏览器测试技术,本实施例中,可以利用脚本程序控制浏览器访问允许网络爬虫等收集公开信息的页面,并监控所访问的页面发出的所有网络请求,以判断是否需要进行滑动验证。对于不需要滑动验证的页面,可以直接利用网络爬虫获取数据,完成对页面的数据采集。对于需要滑动验证的页面,则获取页面的滑动验证信息。

本实施例中,获取的滑动验证信息中包括拼图图片、第一乱序图片和第二乱序图片,其中,第二乱序图片和第一乱序图片基本相同,唯一的区别是第二乱序图片中带有拼图图片轮廓。

举例而言,图2(a)为拼图图片示意图;图2(b)为与第一乱序图片对应的正序图片的示意图;图2(c)为与第二乱序图片对应的正序图片的示意图。图2(b)所示的正序图片被分成六块,按照除图2(b)所示的排列顺序之外的其他顺序排列这六块图片,可以得到多种排列方式的第一乱序图片,如图2(d)所示,图2(d)为第一乱序图片示意图一。同样的,如图2(c)所示的正序图片对应有多种排列方式的第二乱序图片,如图2(e)所示,图2(e)为第二乱序图片示意图一。从图2(d)和图2(e)可以看出,第二乱序图片与第一乱序图片的区别在于,第二乱序图片中携带有如图2(a)所示的拼图图片轮廓。

步骤102,确定目标图片块对应正序图片中的目标位置,其中,目标图片块是第二乱序图片中具有拼图图片轮廓的图片块。

比如,可以根据第二乱序图片中具有拼图图片轮廓的图片块即目标图片块中显示的图片内容,识别正序图片中与目标图片块中显示相同图片内容的图片块,该图片块处于正序图片中的位置即为目标图片块对应正序图片中的目标位置。

步骤103,根据目标图片块对应正序图片中的目标位置,选取预先录制的滑动轨迹进行滑动验证。

具体地,可以根据目标图片块对应正序图片中的目标位置,选取滑动轨迹;其中,滑动轨迹用于指示滑动终点位置与时间的对应关系。

本实施例中,可以预先录制各种滑动距离的滑动轨迹,以适应自动验证过程中,每次验证的滑动距离可能不同的情况。其中,滑动轨迹可以以拖动序列形式存在,每一个拖动序列可以包含拖动位置和拖动时刻。进而,当确定了目标图片块之后,可以根据拼图图片与目标图片块之间的距离,从预先录制的各种距离的拖动序列中选择匹配的拖动序列作为滑动轨迹。

此处需要说明的是,可以针对每种距离预先录制多个拖动序列,并在确定滑动轨迹时从匹配距离的多个拖动序列中随机选择一个拖动序列作为滑动轨迹,以避免拖动序列被标识为机器生成数据,并保证滑动轨迹的多样性。

进而,根据滑动轨迹,将拼图图片移动至目标位置,以通过滑动验证。具体地,获取了滑动轨迹之后,即可根据滑动轨迹模拟用户对拼图图片的滑动操作,将拼图图片移动至目标位置,以通过滑动验证。其中,滑动操作的持续时间与滑动轨迹中指示的时间一致。

作为一种示例,图3(a)为滑动验证码示意图,其中,31为拼图图片,32为目标图片块中包含的拼图图片轮廓,33为滑动控件。根据31和32之间的距离,可以确定滑动轨迹,进而根据滑动轨迹对滑动控件33进行拖动,将拼图图片31拖动至32所在的位置,使两个六边形重合,得到如图3(b)所示的验证码,滑动验证通过。

进一步地,为了进一步提高滑动验证标准,保证页面信息的安全,在本发明实施例一种可能的实现方式中,还可以设置验证通过的条件,比如,当满足如下三点条件时,才认为滑动验证通过:(1)拼图图片与拼图图片轮廓的重合度较高,偏差不超过三个像素;(2)拖动滑动控件的时间不超过预设时长;(3)拖动滑动控件的过程符合人工操作特点,若拖动速度过于均匀、拖动速度太快或拖动过程过于准确则验证失败。

步骤104,当滑动验证通过后,访问页面以获取页面内所需信息。

本实施例中,当滑动验证通过后,则可访问页面以获取页面内所需信息,比如,可以通过网络爬虫收集页面中的数据,完成数据采集。

本实施例的页面信息获取方法,通过获取页面的滑动验证信息,滑动验证信息中包括拼图图片、第一乱序图片和第二乱序图片,确定目标图片块对应正序图片中的目标位置,根据目标图片块对应正序图片中的目标位置选取预先录制的滑动轨迹进行验证,并在滑动验证通过后访问页面以获取页面内所需信息。由此,能够实现对滑动验证码的自动验证,避免用户手动验证滑动验证码,缩短等待用户手动验证的等待时间,从而能够提高网页信息采集效率,解决现有技术中用户手动验证滑动验证码导致网页信息采集效率低的技术问题。

为了更加清楚地描述上述实施例中确定目标图片块对应正序图片中的目标位置的具体实现过程,本发明实施例提出了另一种页面信息获取方法,图4为本发明另一实施例提出的页面信息获取方法的流程示意图。如图4所示,在如图1所示实施例的基础上,步骤102可以包括以下步骤:

步骤1021,对第一乱序图片中的各图片块进行重排,得到候选图片集。

本实施例中,获取了滑动验证信息之后,可以通过脚本程序将第一乱序图片中的各个图片块进行重排,得到若干个候选图片,组成候选图片集。

此处需要说明的是,得到的候选图片集中包括至少一个候选图片,重排后得到的候选图片可能仍为乱序图片,也可能是正序图片。

通过脚本程序对第一乱序图片中的各图片块进行重排得到候选图片,能够使得外部程序无法仅通过获取的滑动验证信息直接识别出拼图图片所在的位置,提升自动识别难度,避免页面数据被非法获取。

步骤1022,对比候选图片集和第二乱序图片,确定第二乱序图片中目标图片块对应候选图片集的各候选图片中的位置。

滑动验证码是通过拖动滑动控件使拼图图片滑动至背景图片中拼图图片轮廓所在的位置,使拼图图片和背景图片吻合来实现滑动验证的。为了能够实现滑动验证,首先需要确定拼图图片轮廓所在的位置。从而,本实施例中,可以将得到的候选图片集中的各个候选图片与第二乱序图片进行对比,通过比对候选图片和第二乱序图片中各图片块上显示的图片,来确定第二乱序图片中具有拼图图片轮廓的目标图片块所对应的候选图片中的位置。

举例而言,假设候选图片为如图2(b)所示的与第一乱序图片对应的正序图片,第二乱序图片如图2(e)所示,通过对比候选图片和第二乱序图片,可以确定目标图片块对应标号为③的位置。

步骤1023,根据目标图片块对应各候选图片中的位置,确定目标图片块对应正序图片中的目标位置。

本实施例中,确定了第二乱序图片中目标图片块对应候选图片集的各候选图片中的位置之后,得到若干个可能的位置。进而,根据目标图片块对应各候选图片中的位置,可以确定目标图片对应正序图片中的目标位置。

作为一种示例,可以在滑动控件的滑块被触发(比如按下滑块)时,显示正序图片,根据目标图片块中的图片内容以及显示的正序图片,唯一确定目标图片块对应正序图片中的目标位置。

本实施例的页面信息获取方法,通过对第一乱序图片中各图片块进行重排得到候选图片集,对比候选图片集和第二乱序图片确定第二乱序图片中目标图片块对应候选图片集的各候选图片中的位置,根据目标图片块对应各候选图片中的位置,确定目标图片块对应正序图片中的目标位置,相比较于全图搜索,上述确定目标位置的方式中图片对比次数显著降低,提高了确定目标位置的效率。

图5为对第一乱序图片中的各图片块进行重排得到候选图片的方法流程示意图。

如图5所示,在如图4所示实施例的基础上,步骤1021可以包括以下步骤:

步骤201,根据各图片块边缘处的像素点,确定不同图片块的边缘之间的相似程度。

将一张图片分割成多个图片块,则属于同一分割线的相邻两个图片块边缘处的像素点通常是相同或相近的,基于此,为了能够将乱序排列的图片重新排列为正序图片,本实施例中,可以利用各图片块边缘处的像素点,确定不同图片块的边缘之间的相似程度。

具体地,在确定不同图片块的边缘之间的相似程度时,可以先根据各图片块边缘处的像素点,生成对应各图片块的rgb向量,并计算对应不同图片块的rgb向量的欧氏距离,进而根据对应不同图片块的rgb向量的欧式距离确定不同图片块的边缘之间的相似程度。

不难理解,欧式距离越小,两个图片块的边缘之间的相似程度越高,这两个图片块的边缘可拼接在一起的可能性越大;欧式距离越大,两个图片块的边缘之间的相似程度越低,这两个图片块的边缘可拼接在一起的可能性越小。

此处需要说明的是,可以采用相关程序或调用相关软件来获取边缘像素点的rgb向量,获取像素点的rgb向量的技术已相对成熟,且不属于本发明的发明点所在,此处不作过多描述。

步骤202,根据不同图片块的边缘之间的相似程度,进行聚类,得到不同图片块之间相互匹配的边缘。

本实施例中,确定了不同图片块的边缘之间的相似程度之后,可以根据所得的相似程度进行聚类,得到不同图片块之间相互匹配的边缘。

由于边缘像素点相同或相似的两个图片块的边缘之间的相似程度很高,边缘像素点相差较大的边缘之间的相似程度较低,因此,所得的相似程度会呈现出比较明显的两极分布,通过k-means聚类算法能够很容易地分辨出可拼接的边缘组合。

此处需要说明的是,聚类后得到的不同图片块之间相互匹配的边缘可能有多种拼接方式,比如,对于一张含有蓝天的背景图,分出两块纯天蓝色图片块,这两块图片块可任意调换位置,正确的拼接方式则不止一种。

步骤203,从各图片块中确定起始图片块。

本实施例中,确定好各图片块之间相互匹配的边缘之后,可以从所有图片块中任意选择一个图片块作为起始图片块。

优选地,可以从所有图片块中选择匹配的边缘最少的一个图片块作为起始图片块。比如,如果一个图片块的边缘可以与其他图片块的边缘进行拼接,即一个图片块的边缘存在与其匹配的边缘,则该图片块的边缘可称为疑似内部边。在所有的图片块中,可以选取含有疑似内部边最少的图片块作为起始图片块。

步骤204,从起始图片块开始,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片块进行拼接。

本实施例中,确定了起始图片块之后,即可从起始图片块开始,使用广度或深度遍历的方式进行图片拼接,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片进行拼接。

进一步地,在拼接过程中,若当前拼接的边缘存在至少两个相互匹配的边缘,则将至少两个相互匹配的边缘中的一个边缘所属的图片块与当前拼接的边缘所属的图片块进行拼接,其中,在从至少两个相互匹配的图片块中选择待拼接的图片块时,可以随机选择。

进而,若存在同一边缘与至少两个相互匹配的情况,则将上一次拼接过程中最后一个拼接的图片块作为本次拼接过程的起始图片块,并从本次拼接过程的起始图片块开始,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片块进行拼接,以得到本次拼接过程的候选图片。在本次拼接过程中,如果当前拼接的边缘存在至少两个相互匹配的边缘,则将至少两个相互匹配的边缘中的另一个边缘所属的图片块,与当前拼接的边缘所属的图片块进行拼接,其中,另一个边缘在本次拼接过程之前未与当前拼接的边缘进行过拼接。

为便于理解,下面举例进行说明。

假设图片块a的一个边缘存在两个相互匹配的边缘,这两个相互匹配的边缘所属的图片块分别为b和c,且与图片块b相邻的下一个图片块和与图片块c相邻的下一个图片块相同,为图片块d。在上一次拼接过程中,选择与图片块a进行拼接的图片块为图片块b,则在本次拼接过程中,由于与图片块d的一个边缘相互匹配的边缘有两个,分别为图片块b的一个边缘和图片块c的一个边缘,且上一次拼接过程中与图片块d进行拼接的上一个图片块为图片块b,图片块c在上一个拼接过程中未与图片块d的当前拼接的边缘进行拼接,因此在本次拼接过程中,选择图片块c与图片块d进行拼接。

通过在存在同一个边缘与至少两个相互匹配的情况时,进行多次拼接,并每次选择不同的相互匹配的边缘所属的图片块进行拼接,能够穷举所有的拼接可能性,得到所有可能的正序图片,提高获得正确的正序图片的概率。

步骤205,若存在拼接剩余的图片块,或者,拼接得到的图片尺寸不符合第一乱序图片的尺寸,舍弃拼接得到的图片。

本实施例中,如果在拼接过程中无法再添加任何图片块,则此次拼接结束,可以进一步判断拼接所得的图片是否可以作为候选图片。如果在拼接结束后仍存在拼接剩余的图片块,或者拼接得到的图片尺寸不符合第一乱序图片的尺寸,则说明拼接得到的图片一定不是具有拼图图片轮廓的正序图片,因此,舍弃拼接得到的图片。

步骤206,若拼接得到的图片尺寸符合第一乱序图片的尺寸,将拼接得到的图片作为候选图片集中的候选图片。

如果拼接结束后得到的图片的图片尺寸符合第一乱序图片的尺寸,即所得的图片的长度和宽度与第一乱序图片的长度和宽度均一致,则将拼接得到的图片作为候选图片集中的候选图片。

本实施例的页面信息获取方法,通过根据各图片块边缘处的像素点确定不同图片块的边缘之间的相似程度,根据相似程度进行聚类得到不同图片块之间相互匹配的边缘,从各图片块中确定起始图片块,并从起始图片块开始,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片块进行拼接,将拼接得到的图片尺寸符合第一乱序图片的尺寸的图片作为候选图片集中的候选图片,能够起到混淆作用,提高自动识别的难度。

由于对第一乱序图片中的各个图片块进行重新拼接的方式可能不止一种,从而得到的候选图片也不止一个。当候选图片为多个时,可以对候选图片进行筛选。基于此,本发明实施例提出了另一种页面信息获取方法,图6为本发明又一实施例提出的页面信息获取方法的流程示意图。如图6所示,在如图4所示实施例的基础上,步骤1023可以包括以下步骤:

步骤301,响应于用户触发滑块的操作指令,获取页面显示的正序图片。

当候选图片为多个时,通过对比候选图片和第二乱序图片确定的第二乱序图片中具有拼图图片轮廓的图片块对应的候选图片中的目标图片块的个数也为多个。此时,可以模拟用户触发滑块的操作,比如,点击图3(a)中滑动控件33上原点,之后,页面会显示正序图片,进而可以获取页面上显示的正序图片。

步骤302,根据正序图片,对目标图片块对应候选图片中的位置进行筛选,以得到保留的目标位置。

本实施例中,获取到正序图片之后,可以根据正序图片对目标图片块对应多个候选图片中的位置进行筛选,从多个候选图片中筛选出与正序图片排序一致的候选图片,则目标图片块对应该候选图片中的位置即为目标位置。

本实施例的页面信息获取方法,通过获取正序图片,根据正序图片对目标图片块对应候选图片中的位置进行筛选以得到保留的目标位置,能够显著降低图片对比次数,提高验证效率。

为了更加清楚地说明前述实施例中根据目标图片块在候选图片中的目标位置生成滑动轨迹的具体实现过程,本发明提出了另一种页面信息获取方法,图7为本发明再一实施例提出的页面信息获取方法的流程示意图。

如图7所示,在如图1所示实施例的基础上,步骤103可以包括以下步骤:

步骤401,根据目标位置,确定滑动距离。

其中,滑动距离是从拼图图片的预设起始位置至目标位置之间的距离。

本实施例中,可以预先设定好拼图图片在候选图片中的起始位置,比如,设置拼图图片的起始位置为候选图片的第一个图片块中,进而,根据拼图图片的起始位置和目标图片块在候选图片中的目标位置,即可确定滑动距离。

步骤402,根据滑动距离,从预先对人工滑动操作进行录制得到的多个录制轨迹中,查询得到与滑动距离匹配的至少一个候选轨迹。

本实施例中,可以预先对人工滑动操作进行录制得到多个录制轨迹,比如,可以针对不同的距离录制不同的录制轨迹,并针对每种距离录制至少一个录制轨迹,同一种距离的多个录制轨迹之间可以是滑动速度不同、滑动时间不同、滑动速度的变化情况不同等。进而,在确定了滑动距离之后,可以根据滑动距离,从预先录制的多个录制轨迹中查询得到与滑动距离匹配的至少一个候选轨迹。

步骤403,从至少一个候选轨迹中确定滑动轨迹。

如果查询得到的候选轨迹为一个,则可以将该候选轨迹确定为滑动轨迹;当查询获得的候选轨迹为不止一个时,可以从多个候选轨迹中随机选择一个候选轨迹作为滑动轨迹。

本实施例的页面信息获取方法,通过确定滑动距离,根据滑动距离确定候选轨迹,进而从至少一个候选轨迹中确定滑动轨迹,能够为同一滑动距离提供多种可供选择的滑动轨迹,避免被标识为机器生成数据。

为了实现上述实施例,本发明还提出一种页面信息获取装置。

图8为本发明一实施例提出的页面信息获取装置的结构示意图。

如图8所示,该页面信息获取装置70包括:获取模块710、确定模块720、验证模块730,以及访问模块740。其中,

获取模块710,用于获取页面的滑动验证信息;其中,滑动验证信息包括拼图图片、第一乱序图片和第二乱序图片;第一乱序图片,是对正序图片切分后乱序排列得到的图片;第二乱序图片,是具有拼图图片轮廓的正序图片切分后乱序排列得到的图片。

确定模块720,用于确定目标图片块对应正序图片中的目标位置;目标图片块是第二乱序图片中具有拼图图片轮廓的图片块。

验证模块730,用于根据目标图片块对应正序图片中的目标位置,选取预先录制的滑动轨迹进行滑动验证。

具体地,验证模块730用于根据目标图片块对应正序图片中的目标位置,选取滑动轨迹,其中,滑动轨迹用于指示滑动终点位置与时间的对应关系;根据滑动轨迹,将拼图图片移动至目标位置,以通过滑动验证。

访问模块740,用于当滑动验证通过后,访问页面以获取页面内所需信息。

进一步地,在本发明实施例一种可能的实现方式中,如图9所示,在如图8所示实施例的基础上,确定模块720包括:

重排单元721,用于对第一乱序图片中的各图片块进行重排,得到候选图片集。

具体地,重排单元721用于根据各图片块边缘处的像素点,确定不同图片块的边缘之间的相似程度;根据不同图片块的边缘之间的相似程度,进行聚类,得到不同图片块之间相互匹配的边缘;从各图片块中确定起始图片块;从起始图片块开始,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片块进行拼接;若存在拼接剩余的图片块,或者,拼接得到的图片尺寸不符合第一乱序图片的尺寸,舍弃拼接得到的图片;若拼接得到的图片尺寸符合第一乱序图片的尺寸,将拼接得到的图片作为候选图片集中的候选图片。

重排单元721确定不同图片块的边缘之间的相似度时,可以根据各图片块边缘处的像素点,生成对应各图片块的rgb向量;计算对应不同图片块的rgb向量的欧式距离;根据对应不同图片块的rgb向量的欧式距离,确定不同图片块的边缘之间的相似程度。

重排单元721在对图片进行拼接的过程中,若当前拼接的边缘存在至少两个相互匹配的边缘,则将至少两个相互匹配的边缘中的一个边缘所属的图片块,与当前拼接的边缘所属的图片块进行拼接。若存在同一边缘与至少两个相互匹配的情况,重排单元721将上一次拼接过程中最后一个拼接的图片块作为本次拼接过程的起始图片块;从本次拼接过程的起始图片块开始,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片块进行拼接,以得到本次拼接过程的候选图片;在本次拼接过程中,若当前拼接的边缘存在至少两个相互匹配的边缘,将至少两个相互匹配的边缘中的另一个边缘所属的图片块,与当前拼接的边缘所属的图片块进行拼接;其中,另一个边缘在本次拼接过程之前未与所述当前拼接的边缘进行过拼接。

通过在存在同一个边缘与至少两个相互匹配的情况时,进行多次拼接,并每次选择不同的相互匹配的边缘所属的图片块进行拼接,能够穷举所有的拼接可能性,得到所有可能的正序图片,提高获得正确的正序图片的概率。

第一确定单元722,用于对比候选图片集和第二乱序图片,确定第二乱序图片中目标图片块对应候选图片集的各候选图片中的位置。

第二确定单元723,用于根据目标图片块对应各候选图片中的位置,确定目标图片块对应正序图片中的目标位置。

在本发明实施例一种可能的实现方式中,当候选图片为多个时,第二确定单元723响应于用户触发滑块的操作指令,获取页面显示的正序图片;根据正序图片,对目标图片块对应候选图片中的位置进行筛选,以得到保留的目标位置。

通过根据各图片块边缘处的像素点确定不同图片块的边缘之间的相似程度,根据相似程度进行聚类得到不同图片块之间相互匹配的边缘,从各图片块中确定起始图片块,并从起始图片块开始,根据不同图片块之间相互匹配的边缘,在相互匹配的边缘处对不同图片块进行拼接,将拼接得到的图片尺寸符合第一乱序图片的尺寸的图片作为候选图片,能够起到混淆作用,提高自动识别的难度。

在本发明实施例的一种可能的实现方式中,如图10所示,在如图8所示实施例的基础上,验证模块730可以包括:

确定单元731,用于根据目标位置,确定滑动距离;滑动距离是从拼图图片的预设起始位置至目标位置之间的距离。

查询单元732,用于根据滑动距离,从预先对人工滑动操作进行录制得到的多个录制轨迹中,查询得到与滑动距离匹配的至少一个候选轨迹。

选定单元733,用于从至少一个候选轨迹中确定滑动轨迹。

通过确定滑动距离,根据滑动距离确定候选轨迹,进而从至少一个候选轨迹中确定滑动轨迹,能够为同一滑动距离提供多种可供选择的滑动轨迹,避免被标识为机器生成数据。

需要说明的是,前述对页面信息获取方法实施例的解释说明也适用于该实施例的页面信息获取装置,其实现原理类似,此处不再赘述。

本实施例的页面信息获取装置,通过获取页面的滑动验证信息,滑动验证信息中包括拼图图片、第一乱序图片和第二乱序图片,确定目标图片块对应正序图片中的目标位置,根据目标图片块对应正序图片中的目标位置选取预先录制的滑动轨迹进行验证,并在滑动验证通过后访问页面以获取页面内所需信息。由此,能够实现对滑动验证码的自动验证,避免用户手动验证滑动验证码,缩短等待用户手动验证的等待时间,从而能够提高网页信息采集效率,解决现有技术中用户手动验证滑动验证码导致网页信息采集效率低的技术问题。

为了实现上述实施例,本发明还提出一种计算机设备。

图11为本发明一实施例提出的计算机设备的结构示意图。如图11所示,该计算机设备110包括:存储器111、处理器112及存储在存储器111上并可在处理器112上运行的计算机程序113,处理器112执行计算机程序113时,实现如前述实施例所述的页面信息获取方法。

为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述实施例所述的页面信息获取方法。

为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行前述实施例所述的页面信息获取方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1