一种同源网站扩展的方法、装置及介质与流程

文档序号:30664048发布日期:2022-07-06 02:22阅读:324来源:国知局
一种同源网站扩展的方法、装置及介质与流程

1.本技术涉及互联网领域,特别是涉及一种同源网站扩展的方法、装置及介质。


背景技术:

2.网络空间搜索引擎是收集网络资产,提供资产信息,评估漏洞影响和安全管理等功能为一体的网络空间资产安全管理系统。在同源网站扩展业务的场景中,需要借助网络空间搜索引擎进行扩展,其中,同源网站扩展指的是在互联网中找到与待扩展网站相同架构和相同模板的其他网站。
3.在进行同源网站扩展时,首先需要借助浏览器访问待扩展网站以获取访问过程中产生的响应信息,然后人工根据以往经验对获取的响应信息进行网站特征提取,其中,访问一个网站时,一次完整的http或https请求包含请求头、响应头、请求正文和响应正文,网站特征是指从响应头和响应正文中提取出区别于其他网站的标志性特征。每提取一个网站特征需要人工手动将其转化为网络空间搜索引擎能够识别的特定查询语法,并由网络空间搜索引擎对该网站特征进行查询,得到查询结果后,人工对查询结果进行评估和验证,在整个查询过程中,若网站特征提取不合适,查询结果会出现误报的情况,若网站特征提取数量不合适,查询结果则会出现漏报的情况,误报和漏报对应提取的网站特征均不具备标志性,需要重复上述查询步骤直至获取到具备标志性的网站特征。
4.可见,目前进行同源网站时,基于人工以往的经验进行网站特征提取的效率低,此外,人工对网站特征进行网络空间搜索引擎查询语言的转换,以及人工对查询结果进行反复验证,均会降低同源网站扩展的效率。
5.由此可见,如何提高同源网站扩展的效率,是本领域技术人员亟待解决的问题。


技术实现要素:

6.本技术的目的是提供一种同源网站扩展的方法、装置及介质,基于网络空间搜索引擎实现自动提取待扩展网站对应的网站特征,自动转换网站特征为网络空间搜索引擎可识别的查询字符串,并实现自动验证网站特征的标志性以确定待扩展网站对应的同源网站,避免人工提取、转换和验证网站特征的低效率,提高同源网站的扩展效率。
7.为解决上述技术问题,本技术提供一种同源网站扩展的方法,包括:
8.获取待扩展网站url和任务相关参数;
9.对所述待扩展网站url发起http或https请求得到响应信息;
10.从所述响应信息中提取待扩展网站对应的网站特征得到网站特征集合;
11.从所述网站特征集合中选取目标网站特征,并将所述目标网站特征转换为网络空间搜索引擎可识别的查询字符串;
12.调用所述网络空间搜索引擎,以便所述网络空间搜索引擎根据所述任务相关参数验证所述目标网站特征的标志性以确定所述待扩展网站对应的同源网站。
13.优选地,所述从所述响应信息中提取待扩展网站对应的网站特征得到网站特征集
合包括:
14.解析所述响应信息得到响应正文;
15.从所述响应正文中提取指定标签中的所述网站特征;其中,所述指定标签为多个;
16.对提取的所有所述网站特征进行过滤以得到所述网站特征集合。
17.优选地,从所述网站特征集合中选取目标网站特征包括:
18.依据各所述指定标签中所述网站特征对应的价值,对所述网站特征集合中的各所述网站特征进行排序得到排序结果;
19.根据所述排序结果,将价值从高到低的所述网站特征依次选取为所述目标网站特征。
20.优选地,所述任务相关参数包括目标网站特征组合数和验证次数,其中,所述验证次数的初始值为零,所述目标网站特征组合数的初始值大于零。
21.优选地,所述网络空间搜索引擎根据所述任务相关参数验证所述目标网站特征的标志性包括:
22.依次将所述目标网站特征加入查询组中与其他所述目标网站特征进行组合的得到最新查询组;
23.每得到一个所述最新查询组,所述网络空间搜索引擎对所述最新查询组中所述目标网站特征组合对应的所述查询字符串进行一次查询得到一个查询结果,且所述目标网站特征组合数减一,所述验证次数加一;
24.判断所述最新查询组中的所述目标网站特征个数是否大于或等于预设值;
25.若大于或等于所述预设值,验证最新预设值次数的各所述查询结果是否相同,若相同,则结束查询,并确定所述预设值次数中的各所述目标网站特征具有标志性;
26.若小于所述预设值,则进入所述依次将所述目标网站特征加入查询组中与其他所述目标网站特征进行组合的得到最新查询组的步骤。
27.优选地,若最新预设值次数的各所述查询结果不相同,还包括:
28.去除所述最新查询组中价值最高的所述目标网站特征,并加入所述网站特征集合中下一个所述目标网站特征进行组合得到当前所述最新查询组;
29.进入所述判断所述最新查询组中的所述目标网站特征个数是否大于或等于预设值的步骤。
30.优选地,在确定所述最新查询组中的所述目标网站特征个数大于或等于预设值之后还包括:
31.判断所述目标网站特征组合数是否等于零;
32.若不等于零,则进入所述验证最新预设值次数的各所述查询结果是否相同的步骤;
33.若等于零,则结束并确定所述待扩展网站扩展失败。
34.为了解决上述技术问题,本技术还提供了一种同源网站扩展的装置,包括:
35.获取模块,用于获取待扩展网站url和任务相关参数;
36.请求模块,用于对所述待扩展网站url发起http或https请求得到响应信息;
37.提取模块,用于从所述响应信息中提取待扩展网站对应的网站特征得到网站特征集合;
38.选取模块,用于从所述网站特征集合中选取目标网站特征;
39.转换模块,用于将所述目标网站特征转换为网络空间搜索引擎可识别的查询字符串;
40.调用模块,用于调用所述网络空间搜索引擎,以便所述网络空间搜索引擎根据所述任务相关参数验证所述目标网站特征的标志性以确定所述待扩展网站对应的同源网站。
41.为了解决上述技术问题,本技术还提供了一种同源网站扩展的装置,包括存储器,用于存储计算机程序;
42.处理器,用于执行所述计算机程序时实现如所述的同源网站扩展的方法的步骤。
43.为了解决上述技术问题,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如所述的同源网站扩展的方法的步骤。
44.本发明所提供的一种同源网站扩展的方法,包括:获取待扩展网站url和任务相关参数,并对待扩展网站url发起http或https请求得到响应信息,从响应信息中提取待扩展网站对应的网站特征得到网站特征集合,然后从网站特征集合中选取目标网站特征,并将目标网站特征转换为网络空间搜索引擎可识别的查询字符串,调用网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性,进而确定待扩展网站对应的同源网站。由此可见,本技术所提供的技术方案,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取网站特征,转换网站特征查询语言,以及验证网站特征的低效率,进而提高了同源网站扩展的效率。
45.此外,本技术还提供一种同源网站扩展的装置及介质,与所述的同源网站扩展的方法相对应,效果同上。
附图说明
46.为了更清楚地说明本技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本技术实施例所提供的一种同源网站扩展的方法的流程图;
48.图2为本技术另一实施例所提供的一种同源网站扩展的方法的流程图;
49.图3为本技术实施例所提供的一种同源网站扩展的装置的结构图;
50.图4为本技术另一实施例提供的同源网站扩展的装置的结构图。
具体实施方式
51.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本技术保护范围。
52.本技术的核心是提供一种同源网站扩展的方法、装置及介质,实现了自动提取待扩展网站的网站特征,并将网站特征自动转换为网络空间搜索引擎可识别的查询字符串,
由网络空间搜索引擎自动对查询字符串进行查询以验证网站特征的标志性,进而实现确定待扩展网站的同源网站的目的,避免人工进行网站特征的提取、转换和验证的低效率,提高同源网站扩展的效率。
53.为了使本技术领域的人员更好地理解本技术方案,下面结合附图和具体实施方式对本技术作进一步的详细说明。
54.网络空间搜索引擎是收集网络资产,提供资产信息,评估漏洞影响和安全管理等功能为一体的网络空间资产安全管理系统,实现了互联网空间的测绘工作,并指定了特殊的查询语法用于检索相关资产。因此,网络空间搜索引擎常用语同源网站扩展业务,同源网站扩展指的是在互联网中找到与待扩展网站相同架构和相同模板的其他网站。例如,待扩展网站a需要扩展,则需要通过网络空间搜索引擎在互联网中检索与网站a相同架构和相同模板的网站。
55.目前,在进行同源网站扩展时,首先需要借助浏览器访问待扩展网站以获取访问过程中产生的响应信息,然后人工根据以往经验对获取的响应信息进行网站特征提取,其中,访问一个网站时,一次完整的http或https请求包含请求头、响应头、请求正文和响应正文,网站特征是指从响应头和响应正文中提取出区别于其他网站的标志性特征。每提取一个网站特征需要人工手动将其转化为网络空间搜索引擎能够识别的特定查询语法,并由网络空间搜索引擎对该网站特征进行查询,得到查询结果后,人工对查询结果进行评估和验证,在整个查询过程中,若网站特征提取不合适,查询结果会出现误报的情况,若网站特征提取数量不合适,查询结果则会出现漏报的情况,误报和漏报对应提取的网站特征均不具备标志性,需要重复上述查询步骤直至获取到具备标志性的网站特征。
56.可见,目前进行同源网站时,基于人工以往的经验进行网站特征提取的效率低,此外,人工对网站特征进行网络空间搜索引擎查询语言的转换,以及人工对查询结果进行反复验证,均会降低同源网站扩展的效率。
57.为了提升同源网站扩展的效率,本技术提供了一种同源网站扩展的方法,基于网站空间搜索引擎实现了自动提取、转换和验证网站特征的目的,进而确定待扩展网站的同源网站。
58.图1为本技术实施例所提供的一种同源网站扩展的方法的流程图,如图1所示,该方法包括:
59.s10:获取待扩展网站url和任务相关参数。
60.s11:对待扩展网站url发起http或https请求得到响应信息。
61.s12:从响应信息中提取待扩展网站对应的网站特征得到网站特征集合。
62.在具体实施中,需要获取待扩展网站的统一资源定位符(uniform resource locator,简称url),并对该待扩展网站url发起http或https请求得到响应信息,可以理解的是,一次完整的http或https请求包含请求头、响应头、请求正文、响应正文,而待扩展网站的网站特征存在于响应正文中,因此,需要对响应信息进行解析得到响应正文,并从响应正文中提取待扩展网站对应的网站特征得到网站特征集合。
63.需要说明的是,从响应正文中提取网站特征时,提取指定标签中的网站特征,并对提取的所有网站特征进行过滤以得到网站特征集合,可以理解的是,指定标签为多个,本技术对指定标签的个数和种类不作限定。
64.s13:从网站特征集合中选取目标网站特征,并将目标网站特征转换为网络空间搜索引擎可识别的查询字符串。
65.得到网站特征集合后,通过步骤s13,从该网站特征集合中选取目标网站特征,并将目标网站特征转换为网络空间搜索引擎可识别的查询字符串。值得注意的是,在选取目标网站特征时,先对网站特征集合中的各网站特征按照价值进行排序,并依据价值从高到低选取依次将网站特征作为目标网站特征。
66.s14:调用网络空间搜索引擎,以便网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性以确定待扩展网站对应的同源网站。
67.在步骤s14中,调用网络空间搜索引擎,通过网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性,进而确定待扩展网站对应的同源网站。其中,任务相关参数包括目标网站特征组合数和验证次数,验证次数的初始值为零,目标网站特征组合数的初始值大于零。需要说明的是,任务相关参数中的目标网站特征组合数用于避免陷入无限次查询,验证次数用于累计网络空间搜索引擎的验证目标网站特征标志性的次数。
68.在验证目标网站特征的标志性时,依次将网站特征集合中选取的目标网站特征加入查询组中与其他目标网站特征进行组合得到最新查询组,每得到一个最新查询组,网络空间搜索引擎对当前的最新查询组中各目标网站特征组合而成的查询字符串进行一次查询得到一个查询结果,并将目标网站特征组合数减一,验证次数加一。每得到一个查询结果,判断当前的最新查询组中的目标网站特征个数是否大于或等于预设值,若大于或等于预设值,验证最新预设值次数中的查询结果是否相同,若相同,即可确定当前的最新查询组中各目标网站特征具有标志性,则通过该最新查询组查询的各网站即为待扩展网站对应的全部同源网站。当最新查询组中的目标网站特征个数小于预设值,则继续从网站特征集合中选取下一个目标网站特征加入查询组中与其他目标网站特征进行组合得到最新查询组。
69.当最新预设值次数中的查询结果不相同时,将当前的最新查询组中价值最高的目标网站特征去除,并加入网站特征集合中下一个目标网站特征进行组合得到新的最新查询组,然后进入判断当前的最新查询组中的目标网站特征个数是否大于或等于预设值的步骤。需要说明的是,本技术对预设值的设定不作限定。
70.在具体实施例中,在确定最新查询组中的目标网站特征个数大于或等于预设值之后,判断目标网站特征组合数是否等于零,若不等于零,则进入验证最新预设值次数的各查询结果是否相同的步骤,若等于零,则结束,并确定待扩展网站扩展失败。
71.本技术实施例所提供的同源网站扩展的方法,包括:获取待扩展网站url和任务相关参数,并对待扩展网站url发起http或https请求得到响应信息,从响应信息中提取待扩展网站对应的网站特征得到网站特征集合,然后从网站特征集合中选取目标网站特征,并将目标网站特征转换为网络空间搜索引擎可识别的查询字符串,调用网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性,进而确定待扩展网站对应的同源网站。由此可见,本技术所提供的技术方案,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取网站特征,转换网站特征查询语言,以及验证网站特征的低效率,进而提高了同源网站扩展的效率。
72.在具体实施例中,对待扩展网站url发起一次完整的http或https请求得到的响应
信息包括请求头、响应头、请求正文和响应正文,得到响应信息后对其进行解析以获取响应正文,并从响应正文中提取指定标签中的网站特征得到网站特征集合。为了便于理解,下面将举例说明。
73.例如,待扩展网站url为http://www.abcxxxx.com,依据响应正文的各标签中网站特征的价值,选取a标签、img标签、link标签和script标签作为指定标签。对该待扩展网站url发起http或https请求后,对响应信息进行解析得到响应正文,并从响应正文中分别获取a标签、img标签、link标签和script标签中的网站特征。
74.需要说明的是,在响应正文中,一个完整标签的形式为:《标签名》kdf capital《/标签名》,其中,“kdf capital”为填写的内容,例如,a标签为《a class="mui-tab-item cur"href="/index.php?m=index&a=index"》《span class="mui-icon cur"》《/span》《span class="mui-tab-label"》xxxx《/span》《/a》,其中,该a标签中的网站特征为“/index.php?m=index&a=index”。某个script标签为:《script src="/public/home/js2/jquery.dependclass.js"》《/script》,其中,该script标签中的网站特征为“/public/home/js2/jquery.dependclass.js”。
75.需要说明的是,指定标签为多个,依据标签中的网站特征的价值,优先将价值高的标签作为指定标签,对于选取指定标签的个数本技术不作限定。值得注意的是,从各指定标签中提取到网站特征后,对所有的网站特征进行去重、分类和过滤,以便过滤出特征长度较短或数据为空的网站特征。
76.本技术实施例所提供的同源网站扩展的方法,在得到待扩展网站url的响应信息后,对响应信息进行解析得到响应正文,以便从响应正文中提取指定标签中的网站特征得到网站特征集合。其中,指定标签为多个,且优选网站特征价值高的标签作为指定标签,进而保证提取网站标签准确性的情况下,实现自动提取网站特征的目的,避免人工提取网站特征时的低效率。
77.在上述实施例的基础上,从指定标签中提取网站特征得到网站特征集合后,依据各指定标签中的网站特征价值对网站特征集合中的各网站特征进行排序得到排序结果,并按照排序结果将,将价值从高到低的网站特征依次选取作为目标网站特征。
78.例如,从响应正文中选取a标签、img标签、link标签和script标签作为指定标签,通常情况下,a标签中的网站特征价值和img标签中的网站特征价值相同,且大于link标签中的网站特征价值,而link标签中的网站特征价值大于script标签中的网站特征价值,即a标签=img标签>ink标签>script标签。
79.可以理解的是,网站特征价值指的是将网站特征转换为网络空间搜索引擎可识别的查询字符串,并利用网络空间搜索引擎进行查询时,可查询到的同源网站的数量。例如,将“香蕉”转换为网络空间搜索引擎可识别的查询字符串进行查询得到的同源网站的结果与“水果”转换为网络空间搜索引擎可识别的查询字符串进行查询得到的同源网站的结果相比要少,因此网站特征“香蕉”的价值要小于网站特征“水果”的价值。
80.从a标签、img标签、link标签和script标签中选取网站特征得到网站特征集合后,依据各指定标签中网站特征的价值进行排序得到排序结果,并依据排序结果将价值从高到低的网站特征依次作为目标网站特征。值得注意的是,a标签和img标签中的网站特征价值相同,因此,在选取目标网站特征时,可以随机选取a标签和img标签中的网站特征作为目标
网站特征,当a标签和img标签中的网站特征选取完时,再依据价值从高到低的规则选取link标签和script标签中的网站特征。对于选取标签中的网站特征价值相同的网站特征作为目标特征的方式,本技术不作限定,此外,对于选取的指定标签种类和数量本技术也不作限定。
81.本技术实施例所提供的同源网站扩展的方法,在得到网站特征集合后,依据各指定标签中网站特征对应的价值,对网站特征集合中的各网站特征进行排序得到排序结果,并根据排序结果将价值从高到低的网站特征依次选取为目标网站特征,进而保证了选取的网站特征的准确性。
82.图2为本技术另一实施例所提供的一种同源网站扩展的方法的流程图,如图2所示,该方法包括:
83.s20:依次将目标网站特征加入查询组中与其他目标网站特征进行组合的得到最新查询组。
84.s21:每得到一个最新查询组,网络空间搜索引擎对最新查询组中目标网站特征组合对应的查询字符串进行一次查询得到一个查询结果,且目标网站特征组合数减一,验证次数加一。
85.s22:判断最新查询组中的目标网站特征个数是否大于或等于预设值,若大于或等于预设值,进入步骤s23,若小于预设值,进入步骤s20。
86.s23:判断目标网站特征组合数是否等于零,若不等于零,则进入步骤s24,若等于零,则进入步骤s25。
87.s24:验证最新预设值次数的各查询结果是否相同,若相同,进入步骤s26,若不相同,则进入步骤s27。
88.s25:结束并确定待扩展网站扩展失败。
89.s26:结束查询,并确定预设值次数中的各目标网站特征具有标志性。
90.s27:去除最新查询组中价值最高的目标网站特征,并加入网站特征集合中下一个目标网站特征进行组合得到当前最新查询组,并返回步骤s22。
91.在上述实施例中,依据各指定标签中网站特征的价值对网站特征集合中的各网站特征进行了排序,并依据排序将价值从高到低的网站特征依次作为目标网站特征,则在步骤s20中,依次将目标网站特征加入查询组中与其他目标网站特征进行组合的得到最新查询组。事实上,步骤s20为将第一个目标网站特征转换为网络空间搜索引擎可识别的查询字符串进行查询得到一个查询结果,然后从网站特征集合中选取第二个网站特征与第一个网站特征进行组合,并转换为查询字符串进行查询得到一个查询结果,以此类推进行组合查询。
92.需要注意的是,步骤s20每执行一次需执行一次步骤s21,即每得到一个最新查询组,网络空间搜索引擎对最新查询组中目标网站特征组合对应的查询字符串进行一次查询得到一个查询结果,且目标网站特征组合数减一,验证次数加一。当然,每执行一次步骤s21需要执行一次步骤s22,即判断最新查询组中的目标网站特征个数是否大于或等于预设值,若未大于或等于预设值,返回步骤s20继续进行组合查询得到查询结果。
93.当最新查询组中的目标网站特征个数大于或等于预设值时,先判断目标网站特征组合数是否等于零,若等于零,则确定待扩展网站对应的网站特征均不具备标志性,且待扩
展网站扩展失败,结束待扩展网站的扩展。若不等于零,则验证最新预设值次数的各查询结果是否相同,如果相同,结束查询,并确定预设值次数中的各目标网站特征具有标志性。如果不相同,则去除最新查询组中价值最高的目标网站特征,并加入网站特征集合中下一个目标网站特征进行组合得到当前最新查询组,然后再返回步骤s22继续判断最新查询组中的目标网站特征个数是否大于或等于预设值。
94.值得注意的是,任务相关参数包括目标网站特征组合数和验证次数,验证次数的初始值为零,目标网站特征组合数的初始值大于零。为了便于理解,下面将举例说明。
95.例如,将目标网站特征组合数命名为max_num,且max_num的初始值为5,验证次数命名为try_num,且try_num为0,将预设值设定为3。从网站特征集合中依据价值将第一个目标网站特征加入查询组中,并自动转换为网络空间搜索引擎可识别的字符串,然后调用网络空间搜索引擎的查询接口对该查询字符串进行查询得到查询结果search_text_base,并以此为基准,try_num加1,max_num减法1,此时,try_num为1,max_num为4,可以理解的是,得到的第一个最新查询组中只有一个目标网站特征。
96.此时,确定try_num1小于预设值3,继续从网站特征集合中依据价值将第二个目标网站特征加入查询组中进行组合,并自动转换为字符串,然后通过调用网络空间搜索引擎的查询接口进行查询得到查询结果search_text_one,同样的,try_num加1,max_num减法1,此时,try_num为2,max_num为3。
97.try_num2小于预设值3,继续从网站特征集合中依据价值将第三个目标网站特征加入查询组中进行组合,并自动转换为字符串,然后通过调用网络空间搜索引擎的查询接口进行查询得到查询结果search_text_sec,try_num加1,max_num减法1,此时,try_num为3等于预设值,且max_num为2大于零,即try_num》=3且max_num》0,则判断三次查询的结果是否相同,若search_text_base=search_text_one=search_text_sec=400,则确定三次查询结果相同,且待扩展网站查询到的同源网站为400个,即可确定输出的三个目标网站特征具备标志性。
98.若三次查结果不相同,则去除最新查询组中价值最高的目标网站特征,并加入网站特征集合中第四个目标网站特征进行组合得到当前最新查询组,调用查询接口进行查询得到查询结果,自此之后try_num不断递增,即会一直大于预设值3,则每去除最新查询组中价值最高的目标网站特征,并加入网站特征集合中下一个目标网站特征进行组合得到当前最新查询组时,均需要验证一次最新预设值次数的查询结果是否相等,即验证最新3次查询结果是否相等,直至找到验证结果相等的目标网站特征。
99.在此过程中,max_num不断递减,当max_num=0时,则确定待扩展网站扩展失败,即待扩展网站中的网站特征均不具备标志性。可以理解的是,目标网站特征组合数的设定是为了避免无限验证查询结果中,
100.本技术实施例所提供的同源网站扩展的方法,通过基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取、转换和验证网站特征的低效率,进而提高了同源网站扩展的效率。
101.在上述实施例中,对于同源网站扩展的方法进行了详细描述,本技术还提供同源网站扩展的装置对应的实施例。需要说明的是,本技术从两个角度对装置部分的实施例进
行描述,一种是基于功能模块的角度,另一种是基于硬件结构的角度。
102.图3为本技术实施例所提供的一种同源网站扩展的装置的结构图,如图3所示,该装置包括:
103.获取模块10,用于获取待扩展网站url和任务相关参数;
104.请求模块11,用于对待扩展网站url发起http或https请求得到响应信息;
105.提取模块12,用于从响应信息中提取待扩展网站对应的网站特征得到网站特征集合;
106.选取模块13,用于从网站特征集合中选取目标网站特征;
107.转换模块14,用于将目标网站特征转换为网络空间搜索引擎可识别的查询字符串;
108.调用模块15,用于调用网络空间搜索引擎,以便网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性以确定待扩展网站对应的同源网站。
109.由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
110.本技术实施例所提供的同源网站扩展的装置,包括:获取待扩展网站url和任务相关参数,并对待扩展网站url发起http或https请求得到响应信息,从响应信息中提取待扩展网站对应的网站特征得到网站特征集合,然后从网站特征集合中选取目标网站特征,并将目标网站特征转换为网络空间搜索引擎可识别的查询字符串,调用网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性,进而确定待扩展网站对应的同源网站。由此可见,本技术所提供的技术方案,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取网站特征,转换网站特征查询语言,以及验证网站特征的低效率,进而提高了同源网站扩展的效率。
111.图4为本技术另一实施例提供的同源网站扩展的装置的结构图,如图4所示,同源网站扩展的装置包括:存储器20,用于存储计算机程序;
112.处理器21,用于执行计算机程序时实现如上述实施例所提到的同源网站扩展的方法的步骤。
113.本实施例提供的同源网站扩展的装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
114.其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(digital signal processor,简称dsp)、现场可编程门阵列(field-programmable gate array,简称fpga)、可编程逻辑阵列(programmable logic array,简称pla)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(central processing unit,简称cpu);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图像处理器(graphics processing unit,简称gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(artificial intelligence,简称ai)处理器,该ai处理器用于处理有关机器学习的计算操作。
115.存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的同源网站扩展的方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括windows、unix、linux等。数据203可以包括但不限于同源网站扩展的方法中所涉及的相关数据等。
116.在一些实施例中,同源网站扩展的装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
117.本领域技术人员可以理解,图4中示出的结构并不构成对同源网站扩展的装置的限定,可以包括比图示更多或更少的组件。
118.本技术实施例提供的同源网站扩展的装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:同源网站扩展的方法。
119.本技术实施例所提供的同源网站扩展的装置,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取网站特征,转换网站特征查询语言,以及验证网站特征的低效率,进而提高了同源网站扩展的效率。
120.最后,本技术还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
121.可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
122.以上对本技术所提供的一种同源网站扩展的方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
123.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1