一种中文仿冒域名检测方法及系统与流程

文档序号:11811932阅读:来源:国知局

技术特征:

1.一种中文仿冒域名检测方法,包括以下步骤:

1)分别统计待测域名Domaindet和目标域名集合DomainSet1中每个域名的域名长度和总笔画数;

2)通过对比待测域名与目标域名集合DomainSet1中每个目标域名的域名长度和总笔画数,过滤出与待测域名长度相同且总笔画数差值百分比小于设定阈值T1的可能被仿冒的目标域名集合DomainSet2

3)将待测域名与可能被仿冒的目标域名集合DomainSet2中的每个目标域名分别对应拆分为单个汉字,将单个汉字按照其书写的笔画顺序转化为字符串,并基于该字符串的编辑距离计算单字相似度;

4)基于步骤3)得到的单字相似度计算对应的整体域名的相似度,判定与待测域名相似度最高且相似度值超过设定阈值T2的目标域名为被仿冒域名,输出被仿冒域名。

2.如权利要求1所述的中文仿冒域名检测方法,其特征在于,步骤1)中,通过从汉字笔画数据库中请求每个域名中每个汉字的笔画数,求和得每个域名的总笔画数。

3.如权利要求1所述的中文仿冒域名检测方法,其特征在于,步骤2)中,总笔画数差值百分比的计算方法如下:

<mrow> <msub> <mi>D</mi> <mrow> <mi>p</mi> <mi>c</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>a</mi> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>StrokeTotalNum</mi> <mi>det</mi> </msub> <mo>,</mo> <msub> <mi>StrokeTotalNum</mi> <mrow> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>StrokeTotalNum</mi> <mi>det</mi> </msub> </mrow> </mfrac> </mrow>

其中,StrokeTotalNumdet为待测域名的总笔画数,StrokeTotalNumtarget为目标域名的总笔画数。

4.如权利要求1所述的中文仿冒域名检测方法,其特征在于,步骤3)中首先去除待测域名与可能被仿冒的目标域名集合DomainSet2中的每个目标域名中的非汉字字符,再将待测域名与可能被仿冒的目标域名集合DomainSet2中的每个目标域名分别对应拆分为单个汉字;所述字符串使用英文字符表示汉字的每个基本笔画类别。

5.如权利要求1所述的中文仿冒域名检测方法,其特征在于,步骤3)中,计算单字相似度的方法为:

<mrow> <mi>C</mi> <mi>h</mi> <mi>a</mi> <mi>r</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>E</mi> <mi>d</mi> <mi>i</mi> <mi>t</mi> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>StrokeNum</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>StrokeNum</mi> <mn>2</mn> </msub> </mrow> </mfrac> </mrow>

其中c1,c2为待计算的两单字对应的笔画顺序字符串,EditDis(c1,c2)为字符串c1,c2的编辑距离,StrokeNum1,StrokeNum2为单字的笔画数。

6.如权利要求1所述的中文仿冒域名检测方法,其特征在于,步骤4)中,基于单字的相似度计算整体域名的相似度的方法为:

<mrow> <mi>D</mi> <mi>o</mi> <mi>m</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msub> <mi>CharSim</mi> <mi>i</mi> </msub> </mrow>

其中待测域名与目标域名的长度均为n,CharSimi表示域名对应的单字字符的相似度,i为1~n的整数。

7.一种中文仿冒域名检测系统,包括:

域名预处珲模块,用于统计输入的待测域名Domaindet和目标域名集合DomainSet1中每个域名的域名长度和总笔画数;

目标域名过滤模块,用于通过对比待测域名和目标域名集合DomainSet1中每个目标域名的域名长皮和总笔画数,过滤出与待测域名长度相同且总笔画数差值百分比小于设定阈值T1的可能被仿冒的目标域名集合DomainSet2

域名拆分模块,用于将待测域名与可能被仿冒的目标域名集合DomainSet2中的每个目标域名分别对应拆分为单个汉字;

单字相似度计算模块,用于将单个汉字按照其书写的笔画顺序转化为字符串,并基于该字符串的编辑距离计算单字相似度;

域名相似度计算模块,用于根据单字相似度计算对应的整体域名的相似度;

仿冒域名决策模块,用于将与待测域名相似度最高且相似度值超过设定阈值T2的目标域名判定为被仿冒域名并输出被仿冒域名。

8.如权利要求7所述的中文仿冒域名检测系统,其特征在于,所述域名预处理模块又包括:

域名长度统计子模块,用于统计输入的待测域名Domaindet和目标域名集合DomainSet1中每个域名的域名长度;

域名总笔画数统计子模块,用于统计输入的待测域名和目标域名集合DomainSet1中每个域名的总笔画数。

9.如权利要求7所述的中文仿冒域名检测系统,其特征在于,所述目标域名过滤模块又包括:

长度过滤子模块,用于依次对比待测域名利目标域名集合DomainSet1中各域名的长度,输出包含与待测域名长度相同的所有目标域名的集合DomainSettmp

总笔画数过滤子模块,用于依次对比待测域名和经长度过滤得到的集合DomainSettmp中各域名的总笔画数,输出包含与待测域名的域名总笔画数的差值百分比小于设定阈值T1的所有目标域名的集合DomainSet2

10.如权利要求7所述的中文仿冒域名检测系统,其特征在于,所述单字相似度计算模块又包括:

单字转换笔画子模块,用于输入一个汉字,输出其对应的笔画顺序字符串,该字符串使用英文字符表示汉字的每个基本笔画类别;

字符串相似度计算了模块,用于根据单字笔画顺序字符串的编辑距离计算单字相似度,单字相似度CharSim(c1,c2)具体计算方法为:

<mrow> <mi>C</mi> <mi>h</mi> <mi>a</mi> <mi>r</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>E</mi> <mi>d</mi> <mi>i</mi> <mi>t</mi> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>StrokeNum</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>StrokeNum</mi> <mn>2</mn> </msub> </mrow> </mfrac> </mrow>

其中c1,c2为待计算的两单字对应的笔画顺序字符串,EditDis(c1,c2)为字符串c1,c2的编辑距离,StrokeNum1,StrokeNum2为单字的笔画数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1