仿冒域名检测方法及设备的制作方法

文档序号:8003926阅读:300来源:国知局
仿冒域名检测方法及设备的制作方法
【专利摘要】本发明提供一种仿冒域名检测方法及设备。该仿冒域名检测方法包括:获取待检测域名;将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。本发明提供的仿冒域名检测方法及设备能够实现仿冒中文域名的有效检测。
【专利说明】仿冒域名检测方法及设备
【技术领域】
[0001]本发明涉及信息处理技术,尤其涉及一种仿冒域名检测方法及设备,属于网络安全【技术领域】。
【背景技术】
[0002]随着科技的普及化,网络通讯技术以不可取代的地位深入各个领域,而网络安全问题也日益严峻,其中以网络钓鱼问题尤为突出。
[0003]网络钓鱼,是指通过发送垃圾电子邮件等方式,将收信用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,并获取收信人在此网站上输入的个人敏感信息的网络犯罪行为。随着电子商务和互联网应用的普及和发展,网络钓鱼造成的损失日益严重。由于域名是网站面向终端用户的入口,网络钓鱼者行为常常要采用和目标域名相似的域名,来使得用户误以为钓鱼网站为正规的目标网站。因此,域名仿冒行为是钓鱼攻击的一个重要特征,所以在进行钓鱼网站和邮件的检测时,需要进行URL的域名部分的相似性分析,即仿冒域名检测。
[0004]目前的仿冒域名检测,主要是通过计算两个英文域名的字符串的编辑距离来实现的。但随着国际化域名(International Domain Names, IDN)的兴起,域名注册字符集进一步扩大,不可避免地将出现大量的相似性字符。中文域名是国际化域名的重要组成部分。汉字较大的字库空间以及象形、形声的造字规则产生了大量的相似字符,而网络钓鱼常常会利用这些相似字符来构造仿冒域名,对网络用户进行欺骗。目前针对英文域名的相似性检测方法无法有效检测出中文域名的仿冒域名。

【发明内容】

[0005]针对现有技术中的缺陷,本发明提供一种仿冒域名检测方法及设备,用以实现仿冒中文域名的有效检测。
[0006]根据本发明实施例的一方面,提供一种仿冒域名检测方法,包括:
[0007]获取待检测域名;
[0008]将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
[0009]根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
[0010]根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
[0011 ] 若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
[0012]进一步地,在上述实施例的仿冒域名检测方法中,所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对分别执行以下操作:
[0013]根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;
[0014]若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
[0015]若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述匹配对的相似度值。
[0016]进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:
[0017]获取所述两个中文字符的拼音序列字符串;
[0018]计算所述两个中文字符的拼音序列字符串的编辑距离;
[0019]根据所述编辑距离确定所述两个中文字符的语音相似度值。
[0020]进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:
[0021]获取所述两个中文字符的Unicode编码;
[0022]根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0_1矩阵;
[0023]根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
[0024]根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
[0025]进一步地,在上述实施例的仿冒域名检测方法中,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:
[0026]初始化编辑距离矩阵:
[0027]
【权利要求】
1.一种仿冒域名检测方法,其特征在于,包括: 获取待检测域名; 将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对; 根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值; 若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
2.根据权利要求1所述的仿冒域名检测方法,其特征在于,所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对分别执行以 下操作: 根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值; 若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值; 若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述匹配对的相似度值。
3.根据权利要求2所述的仿冒域名检测方法,其特征在于,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括: 获取所述两个中文字符的拼首序列字符串; 计算所述两个中文字符的拼音序列字符串的编辑距离; 根据所述编辑距离确定所述两个中文字符的语音相似度值。
4.根据权利要求2所述的仿冒域名检测方法,其特征在于,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括: 获取所述两个中文字符的Unicode编码; 根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵; 根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数; 根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
5.根据权利要求1-4任一所述的仿冒域名检测方法,其特征在于,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括: 初始化编辑距离矩阵:, ^0.1,..*,"0',i,...,e^tln -1 I
"Ul,iA.!,…,iA",.?.? + 1 D=…
—(.U”(*1.1 1.“ i^mUJ i"%^*+l,w+t J 其中,m为所述待检测域名的关键词的字符长度,η为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0〈i彡m+l,0〈j彡n+1 ; 按照以下公式对所述编辑距离矩阵的各元素进行赋值: d0,0=0,di;0=i, d0;J=j, d ^ Imm(d,^ , , )+bsim(i, j),如丨4#,U

L/ —I ’ ‘i,卜 I y h,j X 其匕 其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值; 将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
6.一种仿冒域名检测设备,其特征在于,包括: 获取模块,用于获取待 检测域名; 预处理模块,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对; 第一相似度计算模块,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值; 第二相似度计算模块,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值; 判定模块,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
7.根据权利要求6所述的仿冒域名检测设备,其特征在于,所述第一相似度计算模块具体包括: 语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值; 确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值; 字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值; 所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值。
8.根据权利要求7所述的仿冒域名检测设备,其特征在于,所述语音相似度计算单元具体用于: 获取所述两个中文字符的拼首序列字符串; 计算所述两个中文字符的拼音序列字符串的编辑距离; 根据所述编辑距离确定所述两个中文字符的语音相似度值。
9.根据权利要求7所述的仿冒域名检测设备,其特征在于,所述字形相似度计算单元具体用于: 获取所述两个中文字符的Unicode编码; 根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵; 根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数; 根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
10.根据权利要求6-9任一所述的仿冒域名检测设备,其特征在于,所述第二相似度计算模块具体用于: 初始化编辑距离矩阵:
【文档编号】H04L29/06GK103428307SQ201310346713
【公开日】2013年12月4日 申请日期:2013年8月9日 优先权日:2013年8月9日
【发明者】李海灵, 洪博, 王利明 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1