本发明实施例涉及计算机,具体涉及一种中文域名的仿冒检测方法、装置、计算设备及计算机存储介质。
背景技术:
1、域名是用户访问网络的入口,是连接底层资源和互联网应用的纽扣。其中,中文域名具有唯一权威、简便易记的特点,方便了人们对网络资源的访问,逐渐成为域名中的重要组成部分,与此同时,中文域名的仿冒也日渐增多。
2、在实现本发明实施例的过程中,发明人发现:现有的技术方案是大多采用计算编辑距离的方法,只能计算形近字,针对的仿冒情况有限,存在仿冒检测精确度不高的问题。
技术实现思路
1、鉴于上述问题,本发明实施例提供了一种中文域名的仿冒检测方法、装置、计算设备及计算机存储介质,克服了上述现有技术中存在仿冒检测精确度不高的问题。
2、根据本发明实施例的一个方面,提供一种中文域名的仿冒检测方法,所述方法包括:
3、确定待检测域名的字符集和目标域名的字符集;
4、将所述待检测域名的字符集和所述目标域名的字符集分别进行繁简字体转换,得到所述待检测域名的转换后字符集和所述目标域名的转换后字符集;
5、对所述字符集和所述转换后字符集分别进行近似计算,得到近似结果。
6、在一种可选的方式中,所述确定待检测域名的字符集和目标域名的字符集,进一步包括:
7、分别对所述待检测域名和所述目标域名进行提取,得到所述待检测域名的文本数据和所述目标域名的文本数据;
8、对所述待检测域名的文本数据和所述目标域名的文本数据分别进行分词处理,得到所述待检测域名的字符集和所述目标域名的字符集。
9、在一种可选的方式中,所述分别对所述待检测域名和所述目标域名进行提取,得到所述待检测域名的文本数据和所述目标域名的文本数据,进一步包括:
10、分别提取所述待检测域名和所述目标域名的主域名、子域名和后缀;
11、将所述待检测域名的主域名、子域名和后缀组合得到所述待检测域名的文本数据;
12、将所述目标域名的主域名、子域名和后缀组合得到所述目标域名的文本数据。
13、在一种可选的方式中,所述对所述字符集和所述转换后字符集分别进行近似计算,得到近似结果,进一步包括:
14、分别对所述字符集和所述转换后字符集进行形近字计算和近义计算,得到所述字符集的形近字数据和近义数据,以及所述转换后字符集的形近字数据和近义数据;
15、对所述字符集的形近字数据和近义数据进行融合,得到第一近似数据;
16、对所述转换后字符集的形近字数据和近义数据进行融合,得到第二近似数据;
17、根据所述第一近似数据和第二近似数据确定近似结果。
18、在一种可选的方式中,所述对所述字符集和所述转换后字符集进行近义计算,得到所述字符集的近义词数据和所述转换后字符集的近义数据,进一步包括:
19、分别计算所述字符集和所述转换后字符集的余弦相似度和域名整体相似度;
20、对所述字符集的余弦相似度和域名整体相似度进行加权,得到所述字符集的近似数据;
21、对所述转换后字符集的余弦相似度和域名整体相似度进行加权,得到所述转换后字符集的近似数据。
22、在一种可选的方式中,所述待检测域名的字符集和转换后字符集均包括分词后的至少一个词组,所述目标域名的字符集和转换后字符集均包括分词后的至少一个词组,所述计算所述字符集和所述转换后字符集的域名整体相似度,进一步包括:
23、根据所述待检测域名的字符集中的词组在所述目标域名的字符集中的词组出现的次数,确定所述字符集的域名整体相似度;
24、根据所述待检测域名的转换后字符集中的词组在所述目标域名的转换后字符集中的词组出现的次数,确定所述字符集的域名整体相似度。
25、在一种可选的方式中,根据所述根据所述第一近似数据和第二近似数据确定近似结果,进一步包括:
26、将所述近似数据和第二近似数据中得分最高的近似数据与预设近似阈值进行比较,确定近似结果。
27、根据本发明实施例的另一方面,提供一种中文域名的仿冒检测装置,所述装置包括:
28、处理模块,用于确定待检测域名的字符集和目标域名的字符集;
29、转换模块,用于将所述待检测域名的字符集和所述目标域名的字符集分别进行繁简字体转换,得到所述待检测域名的转换后字符集和所述目标域名的转换后字符集;
30、近似检测模块,用于对所述字符集和所述转换后字符集分别进行近似检测,得到近似结果。
31、根据本发明实施例的又一方面,提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
32、所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据上面任一项所述中文域名的仿冒检测方法的步骤。
33、根据本发明实施例的又一方面,提供一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据上面任一项所述中文域名的仿冒检测方法的步骤。
34、本发明实施例通过在确定待检测域名的字符集和目标域名的字符集之后,将所述待检测域名的字符集和所述目标域名的字符集分别进行繁简字体转换,得到所述待检测域名的转换后字符集和所述目标域名的转换后字符集,并分别对所述字符集和所述转换后字符集分别进行近似计算,得到近似结果,能够有效降低繁体字和简体字之间互相转换造成的域名仿冒风险,提高仿冒检测的精确度。且在对繁简字体转换前后的域名进行仿冒检测时,结合多种相似度计算方式,多维度地繁简字体转换域名进行仿冒检测,进一步提高了仿冒检测的精确度。
35、上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
1.一种中文域名的仿冒检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待检测域名的字符集和目标域名的字符集,进一步包括:
3.根据权利要求2所述的方法,其特征在于,所述分别对所述待检测域名和所述目标域名进行提取,得到所述待检测域名的文本数据和所述目标域名的文本数据,进一步包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述字符集和所述转换后字符集分别进行近似计算,得到近似结果,进一步包括:
5.根据权利要求4所述的方法,其特征在于,所述对所述字符集和所述转换后字符集进行近义计算,得到所述字符集的近义词数据和所述转换后字符集的近义数据,进一步包括:
6.根据权利要求5所述的方法,其特征在于,所述待检测域名的字符集和转换后字符集均包括分词后的至少一个词组,所述目标域名的字符集和转换后字符集均包括分词后的至少一个词组,所述计算所述字符集和所述转换后字符集的域名整体相似度,进一步包括:
7.根据权利要求4所述的方法,其特征在于,根据所述根据所述第一近似数据和第二近似数据确定近似结果,进一步包括:
8.一种中文域名的仿冒检测装置,其特征在于,所述装置包括:
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述中文域名的仿冒检测方法的步骤。