本公开涉及计算机,具体而言,涉及一种风险网站识别方法、装置、计算机设备及存储介质。
背景技术:
1、在众多类型的风险网站中,存在一种伪装成可信网站、骗取用户关键信息的虚假网站,这类网站又被称为“钓鱼网站”,钓鱼网站的页面从视觉上与真实的可信网站十分相似,用户可能将其误认为可信网站,并在网站中提交账户、密码等关键信息,导致用户隐私被窃取,因此,在网络安全场景中,对钓鱼网站进行精确识别十分重要。
2、对钓鱼网站进行识别检测时,通常对网站的页面截图进行商标识别,将识别到匹配商标的网站确定为钓鱼网站,但这种方式并不能对不包含商标的钓鱼页面进行识别,存在漏洞。
技术实现思路
1、本公开实施例至少提供一种风险网站识别方法、装置、计算机设备及存储介质。
2、第一方面,本公开实施例提供了一种风险网站识别方法,包括:
3、获取目标网站的页面截图,并对所述页面截图进行商标匹配,确定所述页面截图匹配的目标商标;
4、在所述页面截图未匹配到所述目标商标的情况下,从所述目标网站中包含的图像元素中识别出待检测文本;
5、基于所述待检测文本,确定所述目标网站的风险等级;
6、在所述风险等级为第一风险等级情况下,基于所述目标网站的域名信息以及预设的域名信息库,确定所述目标网站是否为伪装成可信网站的风险网站。
7、一种可选的实施方式中,所述基于所述待检测文本,确定所述目标网站的风险等级,包括:
8、基于多个第一风险关键词,对所述待检测文本进行风险关键词检测;
9、在检测到与所述待检测文本匹配的第一风险关键词的情况下,确定所述目标网站的风险等级为第一风险等级。
10、一种可选的实施方式中,所述基于所述目标网站的域名信息以及预设的域名信息库,确定所述目标网站是否为伪装成可信网站的风险网站,包括:
11、基于预设的黑名单域名信息库,对所述目标网站的域名信息进行黑名单匹配;
12、在所述域名信息成功匹配到黑名单域名信息的情况下,基于预设的白名单域名信息库,对所述目标网站的域名信息进行白名单匹配;
13、在所述域名信息成功匹配到所述白名单域名信息库中的任一白名单域名信息的情况下,确定所述目标网站为伪装成可信网站的风险网站。
14、一种可选的实施方式中,所述基于预设的黑名单域名信息库,对所述目标网站的域名信息进行黑名单匹配,包括:
15、从所述黑名单域名信息库中的域名后缀库中,查找与所述域名信息匹配的目标域名后缀;
16、从所述黑名单域名信息库中的网络协议ip地址库中,查找与所述域名信息对应的ip地址匹配的目标ip地址;
17、在查找到所述目标域名后缀或所述目标ip地址的情况下,确定所述域名信息成功匹配到黑名单域名信息。
18、一种可选的实施方式中,所述方法还包括:
19、在未查找到所述目标域名后缀或所述目标ip地址的情况下,获取所述域名信息对应的数字证书;
20、从白名单签发机构库中,查找与所述数字证书的签发机构匹配的目标签发机构;
21、在未查找到所述目标签发机构的情况下,确定所述域名信息成功匹配到黑名单域名信息。
22、一种可选的实施方式中,所述基于预设的白名单域名信息库,对所述目标网站的域名信息进行白名单匹配,包括:
23、确定所述域名信息与所述白名单域名信息库中的各个白名单域名信息之间的相似度;
24、确定相似度高于预设阈值的白名单域名信息与所述域名信息匹配。
25、一种可选的实施方式中,所述方法还包括:
26、在所述页面截图匹配到所述目标商标的情况下,确定所述目标网站的风险等级为第二风险等级;其中,所述第二风险等级高于所述第一风险等级;
27、在所述风险等级为所述第二风险等级的情况下,基于预设的黑名单域名信息库,对所述目标网站的域名信息进行黑名单匹配;
28、在所述域名信息成功匹配到黑名单域名信息的情况下,确定所述目标网站为伪装成可信网站的风险网站。
29、一种可选的实施方式中,对所述页面截图进行商标识别之前,所述方法还包括:
30、获取待检测网站的源代码;
31、在所述源代码中识别到第二风险关键词和/或表单输入功能代码的情况下,将所述待检测网站作为所述目标网站。
32、第二方面,本公开实施例还提供一种风险网站识别装置,包括:
33、获取模块,用于获取目标网站的页面截图,并对所述页面截图进行商标匹配,确定所述页面截图匹配的目标商标;
34、识别模块,用于在所述页面截图未匹配到所述目标商标的情况下,从所述目标网站中包含的图像元素中识别出待检测文本;
35、第一确定模块,用于基于所述待检测文本,确定所述目标网站的风险等级;
36、第二确定模块,用于在所述风险等级为第一风险等级情况下,基于所述目标网站的域名信息以及预设的域名信息库,确定所述目标网站是否为伪装成可信网站的风险网站。
37、一种可选的实施方式中,所述第一确定模块具体用于:
38、基于多个第一风险关键词,对所述待检测文本进行风险关键词检测;
39、在检测到与所述待检测文本匹配的第一风险关键词的情况下,确定所述目标网站的风险等级为第一风险等级。
40、一种可选的实施方式中,所述第二确定模块在基于所述目标网站的域名信息以及预设的域名信息库,确定所述目标网站是否为伪装成可信网站的风险网站时,用于:
41、基于预设的黑名单域名信息库,对所述目标网站的域名信息进行黑名单匹配;
42、在所述域名信息成功匹配到黑名单域名信息的情况下,基于预设的白名单域名信息库,对所述目标网站的域名信息进行白名单匹配;
43、在所述域名信息成功匹配到所述白名单域名信息库中的任一白名单域名信息的情况下,确定所述目标网站为伪装成可信网站的风险网站。
44、一种可选的实施方式中,所述第二确定模块在基于预设的黑名单域名信息库,对所述目标网站的域名信息进行黑名单匹配时,用于:
45、从所述黑名单域名信息库中的域名后缀库中,查找与所述域名信息匹配的目标域名后缀;
46、从所述黑名单域名信息库中的网络协议ip地址库中,查找与所述域名信息对应的ip地址匹配的目标ip地址;
47、在查找到所述目标域名后缀或所述目标ip地址的情况下,确定所述域名信息成功匹配到黑名单域名信息。
48、一种可选的实施方式中,所述第二确定模块还用于:
49、在未查找到所述目标域名后缀或所述目标ip地址的情况下,获取所述域名信息对应的数字证书;
50、从白名单签发机构库中,查找与所述数字证书的签发机构匹配的目标签发机构;
51、在未查找到所述目标签发机构的情况下,确定所述域名信息成功匹配到黑名单域名信息。
52、一种可选的实施方式中,所述第二确定模块在基于预设的白名单域名信息库,对所述目标网站的域名信息进行白名单匹配时,用于:
53、确定所述域名信息与所述白名单域名信息库中的各个白名单域名信息之间的相似度;
54、确定相似度高于预设阈值的白名单域名信息与所述域名信息匹配。
55、一种可选的实施方式中,所述第二确定模块还用于:
56、在所述页面截图匹配到所述目标商标的情况下,确定所述目标网站的风险等级为第二风险等级;其中,所述第二风险等级高于所述第一风险等级;
57、在所述风险等级为所述第二风险等级的情况下,基于预设的黑名单域名信息库,对所述目标网站的域名信息进行黑名单匹配;
58、在所述域名信息成功匹配到黑名单域名信息的情况下,确定所述目标网站为伪装成可信网站的风险网站。
59、一种可选的实施方式中,对所述页面截图进行商标识别之前,所述获取模块还用于:
60、获取待检测网站的源代码;
61、在所述源代码中识别到第二风险关键词和/或表单输入功能代码的情况下,将所述待检测网站作为所述目标网站。
62、第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
63、第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
64、关于上述风险网站识别装置、计算机设备、及计算机可读存储介质的效果描述参见上述风险网站识别方法的说明,这里不再赘述。
65、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
66、本公开实施例提供的风险网站识别方法、装置、计算机设备及存储介质,先对目标网站的页面截图进行商标匹配,在页面截图未匹配到目标商标的情况下,从目标网站中包含的图像元素中识别出待检测文本,并基于待检测文本确定目标网站的风险等级,在风险等级为第一风险等级的情况下,基于目标网站的域名信息及预设的域名信息库,确定目标网站是否为伪装成可信网站的风险网站。本公开实施例通过从未匹配到目标商标的目标网站的图像元素中提取出待检测文本,从而基于图像元素中的待检测文本,对目标网站进行风险等级的评级,并在风险等级为第一风险等级时,基于所述目标网站的域名信息以及预设的域名信息库对目标网站进行进一步的风险网站识别,能够检测到不包含商标的风险网站,有效提高风险网站的检出率。
67、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。