一种同类网站的确定方法及装置与流程

文档序号:28290203发布日期:2021-12-31 22:36阅读:72来源:国知局
一种同类网站的确定方法及装置与流程

1.本发明涉及网站检索领域,特别是涉及一种同类网站的确定方法及装置。


背景技术:

2.不法分子在开设恶意网站时,通常会在恶意网站中设置能够诱导用户输入账号密码或者进行消费的元素,以骗取用户的财产和信息,现有技术根据用户提供的恶意网站地址以及关键词来搜索与该恶意网站相似的同类网站,例如,根据用户提供的恶意网站网址“www.xxx.com”或者恶意网站关键词“xx理财”搜索恶意网站以及该网站的同类网站,但是由于不法分子更换账户、网站域名和网站关键词等信息的频率快,现有技术根据用户提供的信息发现同类恶意网站的难度大。


技术实现要素:

3.本发明的目的是提供一种同类网站的确定方法及装置能够找到比通过关键词找到的同类网站数量更多的与原始网站类型相似的其他网站,降低了发现同类型网站的难度。
4.为解决上述技术问题,本发明提供了一种同类网站的确定方法,包括:
5.获取原始网站的第一源码和待对比网站的第二源码;
6.判断所述第一源码中的第一网站特征与所述第二源码中的第二网站特征是否一致;
7.若一致,则基于所述第一源码中的第一源码特征和所述第二源码中的第二源码特征确定所述待对比网站与所述原始网站是否为同类网站。
8.优选的,获取原始网站的第一源码和待对比网站的第二源码,包括:
9.获取所述第一源码的头部标签中的第一标题;
10.获取所述第二源码的头部标签中的第二标题;
11.判断所述第一源码中的第一网站特征与所述第二源码中的第二网站特征是否一致,包括:
12.判断所述第一标题与所述第二标题是否一致;
13.若一致,则判定所述第一源码中的第一网站特征与所述第二源码中的第二网站特征一致;
14.若不一致,则判定所述第一源码中的第一网站特征与所述第二源码中的第二网站特征不一致。
15.优选的,基于所述第一源码中的第一源码特征和所述第二源码中的第二源码特征确定所述待对比网站与所述原始网站是否为同类网站,包括:
16.确定所述第一源码的第一哈希值;
17.确定所述第二源码的第二哈希值;
18.判断所述第二哈希值与所述第一哈希值是否一致;
19.若一致,则判定所述待对比网站与所述原始网站为同类网站;
20.若不一致,则判定所述待对比网站与所述原始网站不为同类网站。
21.优选的,获取原始网站的第一源码和待对比网站的第二源码,包括:
22.获取所述第一源码的body体中的实现目标功能的第一字符串;
23.获取所述第二源码的body体中的实现所述目标功能的第二字符串;
24.判断所述第一源码中的第一网站特征与所述第二源码中的第二网站特征是否一致,包括:
25.判断所述第一字符串与所述第二字符串是否一致;
26.若一致,则判定所述第一源码中的第一网站特征与所述第二源码中的第二网站特征一致;
27.若不一致,则判定所述第一源码中的第一网站特征与所述第二源码中的第二网站特征不一致。
28.优选的,基于所述第一源码中的第一源码特征和所述第二源码中的第二源码特征确定所述待对比网站与所述原始网站是否为同类网站,包括:
29.确定所述第一源码的第一源码字符串长度;
30.确定所述第二源码的第二源码字符串长度;
31.判断所述第二源码字符串长度与所述第一源码字符串长度的长度差是否在预设长度差范围内;
32.若所述长度差在所述预设长度差范围内,则判定所述待对比网站与所述原始网站为同类网站;
33.若所述长度差不在所述预设长度差范围内,则判定所述待对比网站与所述原始网站不为同类网站。
34.优选的,所述第一字符串的参数包括:
35.所述原始网站中的图片对应的相对路径和/或包含post函数的字符串和/或包含get函数的字符串和/或超链接对应的文字的字符串;
36.所述第二字符串的参数包括:
37.所述待对比网站中的图片对应的相对路径和/或包含post函数的字符串和/或包含get函数的字符串和/或超链接对应的文字的字符串。
38.优选的,在获取原始网站的第一源码之前,还包括:
39.发送访问请求给所述原始网站;
40.基于所述原始网站在接收所述访问请求时的响应判断所述原始网站是否存活;
41.若所述原始网站存活,则进入获取原始网站的第一源码和待对比网站的第二源码的步骤。
42.优选的,基于所述原始网站在接收所述访问请求时的响应判断所述原始网站是否存活,包括:
43.若所述响应为表示成功的状态码或表示重定向到新url的状态码,则判定所述原始网站存活;
44.若所述响应为无响应或表示客户端出现错误的状态码或表示服务端出现错误的状态码,则判定所述原始网站不存活。
45.优选的,获取原始网站的第一源码,包括:
46.若所述响应为所述表示成功的状态码,则获取所述原始网站的所述第一源码;
47.若所述响应为所述表示重定向到新url的状态码,则获取所述原始网站在重定向到所述新url后的所述第一源码。
48.本发明还提供一种同类网站的确定装置,包括:
49.存储器,用于存储计算机程序;
50.处理器,用于执行所述计算机程序时实现如上述的同类网站的确定方法的步骤。
51.本发明提供了一种同类网站的确定方法及装置,首先获取原始网站的第一源码和待对比网站的第二源码,判断第一源码中的第一网站特征与第二源码中的第二网站特征是否一致,在第一网站特征和第二网站特征一致时,能够初步判定待对比网站和原始网站是同类网站,为了进一步判定待对比网站和原始网站是否为同类网站,基于第一源码中的第一源码特征和第二源码中的第二源码特征确定待对比网站是否为原始网站的同类网站,可以确定该待对比网站和原始网站是同类网站,能够找到比通过关键词找到的同类网站数量更多的与该原始网站类型相似的其他网站,降低了发现同类型网站的难度。
附图说明
52.为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.图1为本发明提供的一种同类网站的确定方法的流程图;
54.图2为本发明提供的一种同类网站的确定装置的结构示意图。
具体实施方式
55.本发明的目的是提供一种同类网站的确定方法及装置能够找到比通过关键词找到的同类网站数量更多的与原始网站类型相似的其他网站,降低了发现同类型网站的难度。
56.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
57.请参照图1,图1为本发明提供的一种同类网站的确定方法的流程图,包括:
58.s11:获取原始网站的第一源码和待对比网站的第二源码;
59.s12:判断第一源码中的第一网站特征与第二源码中的第二网站特征是否一致;
60.s13:若一致,则基于第一源码中的第一源码特征和第二源码中的第二源码特征确定待对比网站与原始网站是否为同类网站。
61.为了能够根据一个网站找出与该网站类型相似的其他网站,在本实施例中,首先获取原始网站的第一源码和待对比网站的第二源码,然后判断第一源码中的第一网站特征和第二源码中的第二网站特征是否一致,当网站特征一致时,最后再基于第一源码中的第
一源码特征和第二源码中的第二源码特征确定待对比网站与原始网站是否为同类网站。
62.具体的,不法分子在开设恶意网站时,通常会基于一个网站模板开始多个同类型的恶意网站,这些恶意网站再经过略微修改后,就能够避免被通过关键词搜索,例如,其中一个网站的关键词为(aa理财),与该网站同模板的另一个网站的关键词为(bb财经),由于两个网站的关键词完全不同,不能够根据关键词来搜索到此类修改了关键词的同类网站。本技术通过爬虫技术获取原始网站的第一源码和获取预设网站库中的待对比网站的第二源码,判断这两个源码中的网站特征是否一致,当两个网站特征一致时,可以初步判定待对比网站与原始网站是同类网站,为了进一步确定两个网站是否为同类网站,需要在判定网站特征一致之后,再判断两个源码中的源码特征是否一致,当两个源码特征一致时,表示这两个网站可能是同一个人开设的,说明待对比网站和原始网站属于同一网站模板,可以确定待对比网站和原始网站是同类网站。
63.此外,预设网站库可以是基于ip(internet protocol address,互联网协议地址)及域名扫描的网站库,也可以是其他能够实现预设网站库功能的网站库,本技术在此不作限定。
64.综上所述,首先获取原始网站的第一源码和待对比网站的第二源码,判断第一源码中的第一网站特征与第二源码中的第二网站特征是否一致,在第一网站特征和第二网站特征一致时,能够初步判定待对比网站和原始网站是同类网站,为了进一步判定待对比网站和原始网站是否为同类网站,基于第一源码中的第一源码特征和第二源码中的第二源码特征确定待对比网站是否为原始网站的同类网站,可以确定该待对比网站和原始网站是同类网站,能够找到比通过关键词找到的同类网站数量更多的与该原始网站类型相似的其他网站,降低了发现同类型网站的难度。
65.在上述实施例的基础上:
66.作为一种优选的实施例,获取原始网站的第一源码和待对比网站的第二源码,包括:
67.获取第一源码的头部标签中的第一标题;
68.获取第二源码的头部标签中的第二标题;
69.判断第一源码中的第一网站特征与第二源码中的第二网站特征是否一致,包括:
70.判断第一标题与第二标题是否一致;
71.若一致,则判定第一源码中的第一网站特征与第二源码中的第二网站特征一致;
72.若不一致,则判定第一源码中的第一网站特征与第二源码中的第二网站特征不一致。
73.为了找出与原始网站标题相同的同类网站,本实施例中,获取第一源码的头部标签中的第一标题和第二源码的头部标签中的第二标题,然后判断第一标题和第二标题是否一致,当标题一致时,说明待对比网站和原始网站的网站特征一致,当标题不一致时,说明这两个网站的网站特征不一致。
74.具体的,不法分子为了能够节约开设网站的时间,可能会直接照搬一个网站模板开设其他网站,不会修改各个网站的标题,每一个网站的标题只有一个,所以可以将网站的标题视为网站特征,首先获取第一源码的第一标题和第二源码的第二标题,标题存在于源码的头部标签中,头部标签的代码为<head>,标题的代码为<title>,然后判断这两个标题
是否一致,一致时,说明待对比网站可能是照搬原始网站的网站模板开设的,此时就判定这两个网站的网站特征一致,当这两个网站的标题不一致时,说明待对比网站并非照搬原始网站的网站模板开设的,可能是无害的网站或者是官方网站,此时判定这两个网站的网站特征不一致。例如,不法分子开设了类似于百度首页的恶意网站,原始网站的标题为“白度搜索”,当待对比网站的标题也是“白度搜索”时,判定这两个网站的标题一致,可能属于同一个网站模板,当待对比网站的标题是“百度搜索”时,判定这两个网站的标题不一致,待对比网站可能是被模仿的官方网站。
75.综上所述,通过标题来判断第一源码的网站特征和第二源码的网站特征是否一致,能够找出网站关键词不同但标题与原始网站相同的待对比网站,降低了发现同类网站的难度。
76.作为一种优选的实施例,基于第一源码中的第一源码特征和第二源码中的第二源码特征确定待对比网站与原始网站是否为同类网站,包括:
77.确定第一源码的第一哈希值;
78.确定第二源码的第二哈希值;
79.判断第二哈希值与第一哈希值是否一致;
80.若一致,则判定待对比网站与原始网站为同类网站;
81.若不一致,则判定待对比网站与原始网站不为同类网站。
82.考虑到不法分子为了节约开设网站的时间以尽可能多的开设网站,可能会完全照搬原始网站的网站模板来开设同类网站,由于网站源码的一点小改变也能引起哈希值的大改变,所以当哈希值一致时,能够确定两个网站是同类网站,甚至可能是完全一样,为了找出哈希值与原始网站一致的同类网站,本实施例中,首先确定第一源码的哈希值和第二源码的哈希值,然后判断这两个哈希值是否一致,当哈希值一致时能够确定待对比网站和原始网站是同类网站,当哈希值不一致时,说明待对比网站并非照搬原始网站的网站模板,即非同类网站。
83.此外,确定哈希值的方法,可以是通过md5(md5 message

digest algorithm,md5信息摘要算法),也可以是通过sha

1(secure hash algorithm1,安全散列算法1)或其他能够计算确定哈希值的方法,本技术在此不作限定。
84.综上所述,通过确定两个网站的哈希值来判断待对比网站和原始网站是否为同类网站,能够找出关键词不同但哈希值与原始网站一致的同类网站,降低了找出同类网站的难度。
85.作为一种优选的实施例,获取原始网站的第一源码和待对比网站的第二源码,包括:
86.获取第一源码的body体中的实现目标功能的第一字符串;
87.获取第二源码的body体中的实现目标功能的第二字符串;
88.判断第一源码中的第一网站特征与第二源码中的第二网站特征是否一致,包括:
89.判断第一字符串与第二字符串是否一致;
90.若一致,则判定第一源码中的第一网站特征与第二源码中的第二网站特征一致;
91.若不一致,则判定第一源码中的第一网站特征与第二源码中的第二网站特征不一致。
92.考虑到不法分子基于一个网站模板开设网站,这些网站实现的目标功能是相同的,不法分子为了节约开设网站的时间和精力,可能不会对网站实现目标功能的源码进行修改,而是都使用相同的字符串,为了找出实现目标功能的字符串与原始网站相同的同类网站,在本实施例中,首先获取第一源码和第二源码中的body体中的实现目标功能的字符串,再判断这两个字符串是否一致,在字符串一致时判定两个网站的网站特征一致,例如,当目标功能是存储某一张图片时,首先获取第一源码中对应于这张图片的相对路径,例如“/public/home/img/activity.png”,以及获取第二源码中对应于这张图片的相对路径,当第二源码中的相对路径也是“/public/home/img/activity.png”时,说明待对比网站和原始网站存储这张图片的相对路径相同,实现存储这张图片功能对应的字符串一致,此时判定这两个网站的字符串一致。
93.综上所述,根据两个网站的源码中的字符串来判断两个网站的网站特征是否一致,能够找出关键词不同但是实现目标功能的字符串与原始网站相同的同类网站,降低了找出同类网站的难度。
94.作为一种优选的实施例,基于第一源码中的第一源码特征和第二源码中的第二源码特征确定待对比网站与原始网站是否为同类网站,包括:
95.确定第一源码的第一源码字符串长度;
96.确定第二源码的第二源码字符串长度;
97.判断第二源码字符串长度与第一源码字符串长度的长度差是否在预设长度差范围内;
98.若长度差在预设长度差范围内,则判定待对比网站与原始网站为同类网站;
99.若长度差不在预设长度差范围内,则判定待对比网站与原始网站不为同类网站。
100.考虑到不法分子在基于同一网站模板开设网站时,不会对各个网站的源码作过多的修改,所以源码的字符长度变化不大,为了能找出字符串长度与原始网站源码的字符串长度相近的同类网站,本实施例中,首先确定第一源码和第二源码的源码字符串长度,然后得出两个源码的字符串长度之间的长度差,判断长度差是否在预设的长度差范围内,当长度差在预设长度差范围内时,判定待对比网站和原始网站是同类网站。
101.具体的,由于不同网站的功能不会完全相同,加上实现每个功能的字符串的长度也不完全相同,所以网站的源码字符串长度可能会相差较大,当两个网站之间的源码字符串长度比较相近时,说明这两个网站的功能很相似,进一步说明这两个网站是同类网站,所以可以但不限于通过length()函数来确定源码的字符串长度,然后可以但不限于通过误差计算公式来确定两个源码的字符串长度之间的长度差,然后根据长度差和预设的长度差范围来判定待对比网站和原始网站是否为同类网站,例如,当第一源码字符串长度为a,第二源码字符串长度为b时,通过误差计算公式能够得出长度差x=(a

b)/a*100%,此时若长度差范围是

5%~5%,当长度差x在

5%~5%的范围内时,则判定待对比网站和原始网站是同类网站。
102.综上所述,通过两个网站源码的字符串长度之间的长度差与预设长度差范围比较的方式来判定待对比网站和原始网站是否为同类网站,能够找出关键词不同但是源码字符串长度相近的网站,降低了找出同类网站的难度。
103.作为一种优选的实施例,第一字符串的参数包括:
104.原始网站中的图片对应的相对路径和/或包含post函数的字符串和/或包含get函数的字符串和/或超链接对应的文字的字符串;
105.第二字符串的参数包括:
106.待对比网站中的图片对应的相对路径和/或包含post函数的字符串和/或包含get函数的字符串和/或超链接对应的文字的字符串。
107.为了能够准确地找出字符串与原始网站相同的同类网站,本实施例中,字符串的参数包括了该网站中的图片对应的相对路径和/或包含post函数的字符串和/或包含get函数的字符串和/或超链接对应的文字的字符串。
108.具体的,当两个网站对于同一张图片对应的相对路径相同时,说明这两个网站的相对路径都指向同一个终端设备,代表这两个网站可能都属于该终端设备的所有者开设的;包含post函数的字符串和包含get函数的字符串都是一种指定了向服务器端传递数据的方式,当两个网站的post函数或get函数都指向同一个服务器时,代表这两个网站都属于这个服务器的所有者开设的;由于不同开发者的语言习惯不一样,同一个超链接对应的文字相同的可能性很低,当两个网站中的同一个超链接对应的文字字符串相同时,说明这两个网站可能属于同一个开发者开设的。根据这几种参数来进行字符串相应的步骤,针对图片较多的网站,获取图片对应的相对路径比较有效,针对内容简单且带有超链接跳转的网站,获取超链接对应的文字比较有效,针对带有表单类提交的后台类网站,获取post函数或get函数比较有效,这些参数能够简单直接的找出字符串与原始网站相同的同类网站。
109.作为一种优选的实施例,在获取原始网站的第一源码之前,还包括:
110.发送访问请求给原始网站;
111.基于原始网站在接收访问请求时的响应判断原始网站是否存活;
112.若原始网站存活,则进入s11。
113.考虑到不存活的网站对找出该网站的同类网站没有帮助,为了减少找出不存活网站的同类网站的工作量,本实施例中,在获取原始网站的第一源码之前,先输入原始网站的url(uniform resource locator,统一资源定位器),然后发送访问请求给原始网站,,最后基于原始网站在接收到该访问请求时的响应来判断原始网站是否存活,在原始网站存活时再进入s11。例如,输入原始网站的url后,然后向原始网站发送连接请求,以建立起与原始网站的连接关系,基于原始网站在接收到该连接请求时返回的响应来判断原始网站是否存活,若与原始网站建立起了连接关系,则说明原始网站存活,能够减少找出不存活网站的同类网站的工作量。
114.作为一种优选的实施例,基于原始网站在接收访问请求时的响应判断原始网站是否存活,包括:
115.若响应为表示成功的状态码或表示重定向到新url的状态码,则判定原始网站存活;
116.若响应为无响应或表示客户端出现错误的状态码或表示服务端出现错误的状态码,则判定原始网站不存活。
117.考虑到原始网站返回的响应有很多种,且每种响应代表的含义不同,为了更好地根据响应来判断原始网站是否存活,本实施例中,在原始网站接收访问请求时的响应是表示成功的状态码或表示重定向到新url的状态码时,判定原始网站存活,其中表示成功的状
态码有:200,说明服务器成功处理了请求、201,说明请求成功并且服务器创建了新的资源、202,说明服务器已接受请求,但尚未处理、203,说明服务器已成功处理了请求,但返回的信息可能来自另一来源、204或205,说明服务器成功处理了请求,但没有返回任何内容和206,说明服务器成功处理了部分get请求等格式为2xx的状态码。其中表示重定向到新url的状态码有:300,说明针对访问请求时服务器可执行多种操作、301,说明请求的网页已永久移动到新位置、302,说明服务器目前从不同位置的网页响应请求、303,说明应在不同的位置使用单独的get请求来检索响应、304,说明自从上次请求后,请求的网页未修改过、305,说明只能使用代理访问请求的网页、306,说明使用新的http(hyper text transfer protocol,超文本传输协议)代码和307,说明应使用原有位置来进行以后的请求等格式为3xx的状态码。在原始网站接收访问请求时的响应为无响应或表示客户端出现错误的状态码或表示服务端出现错误的状态码时,说明原始网站不存活,其中表示客户端出现错误的状态码如400,说明请求中存在语法错误、401,说明请求没有经过许可、403:服务器拒绝请求和404:服务器找不到请求的网页等格式为4xx的状态码。表示服务端出现错误的状态码如500:服务器出现错误无法完成请求、502:服务器从上游服务器中收到无效响应和503:服务器无法处理请求等格式为5xx的状态码。
118.综上所述,在原始网站接收访问请求时的响应是表示成功的状态码或表示重定向到新url的状态码时,判定原始网站存活,能够简单直接地判定原始网站是否存活。
119.作为一种优选的实施例,获取原始网站的第一源码,包括:
120.若响应为表示成功的状态码,则获取原始网站的第一源码;
121.若响应为表示重定向到新url的状态码,则获取原始网站在重定向到新url后的第一源码。
122.考虑到表示成功的状态码和表示重定向到新url的状态码的性质不同,获取到的原始网站的第一源码也不同,为了能准确地获取到原始网站的第一源码,在本实施例中,当响应是表示成功的状态码时,则获取原始网站的第一源码,因为在响应是表示成功的状态码时,说明原始网站在接收到访请求并发出表示成功的状态码后,能够直接访问到原始网站;当响应是表示重定向到新url的状态码时,则获取原始网站在重定向到新url后的第一源码,因为在响应是表示重定向到新url的状态码时,说明此时不能直接访问原始网站,因为原始网站在接收到访问请求后会改变url,当url改变完毕后,才能访问原始网站,如在url改变完毕前获取原始网站的第一源码,可能获取到的第一源码并非真正的原始网站的第一源码,所以需要获取url改变完毕后,即原始网站在重定向到新url后再获取第一源码。能够基于不同的响应执行不同的获取第一源码的步骤,能够准确地获取到原始网站的第一源码。
123.请参照图2,图2为本发明提供的一种同类网站的确定装置的结构示意图,包括:
124.存储器1,用于存储计算机程序;
125.处理器2,用于执行计算机程序时实现如上述的同类网站的确定方法的步骤。
126.对于本技术提供的一种同类网站的确定装置的详细介绍,请参照上述一种同类网站的确定方法的实施例,本技术在此不再赘述。
127.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置
而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
128.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1