非法域名识别方法及装置的制作方法

文档序号:7987793阅读:252来源:国知局
专利名称:非法域名识别方法及装置的制作方法
技术领域
本发明涉及信息技术,尤其涉及一种非法域名识别方法及装置。
背景技术
域名是互联网的基础资源,相当于互联网上的门牌号码,是用于标识互联网上的计算机,是网站、电子邮箱等各种互联网应用的载体。非法域名是指以从事反动、涉黄、赌博网站等不良应用为目的或者其他非正常应用而存在的域名。目前,针对非法域名的识别主要有两种方法。一是相关域名管理机构通过对域名相关注册信息、所辖网站内容等进行审核,人工判断该域名是否涉嫌非法。二是利用网页抽取、文本挖掘等技术手段对相关网站内容的语义分析来达到非法域名自动识别的目的。上述两种方式非法域名识别的方法,在实际应用中都存在一定程度的弊端。第一种人工识别方式通常需要耗费大量的人力物力,效率低下,面对千万计的域名注册量,这种方法显然不能对非法域名实现及时有效的识别。第二种自动识别方式,虽然在一定程度上弥补了上述方式的不足,然而海量域名下网站内容的抽取入库过程依然繁琐,不仅需要耗费大量的存储资源,还要考虑该库的实时更新问题。另外,通过相关文本挖掘算法对入库后的内容进行分析的过程同样复杂且存在效率低下的问题。

发明内容
本发明提供一种非法域名识别方法及装置,以提高非法域名的识别效率。本发明提供一种非法域名识别方法,包括获取域名访问行为信息,根据所述域名访问行为信息生成共现矩阵,所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数;根据聚类算法对所述共现矩阵进行聚类分析,将所述共现矩阵中各列对应的域名划分为多个域名子集;根据非法域名列表确定各所述域名子集中域名的合法性。本发明提供一种非法域名识别装置,包括共现矩阵生成模块,用于获取域名访问行为信息,根据所述域名访问行为信息生成共现矩阵,所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数;域名子集划分模块,用于根据聚类算法对所述共现矩阵进行聚类分析,将所述共现矩阵中各列对应的域名划分为多个域名子集;合法性确定模块,用于根据非法域名列表确定各所述域名子集中域名的合法性。由上述技术方案可知,本发明提供的非法域名识别方法及装置,通过对根据域名访问行为信息生成共现矩阵,根据聚类算法对共现矩阵进行聚类分析,将共现矩阵中各列对应的域名划分为多个域名子集,根据非法域名列表确定各域名子集中域名的合法性。针对了非法域名的特殊性,其面向的互联网用户群体与正常域名所面向的用户群体会表现出较大的差异的特点,对域名间潜在的关联进行分析,以将非法域名和合法域名区分开,提高了非法网站的识别效率。


图1为本发明实施例提供的非法域名识别方法流程图;图2为本发明实施例提供的非法域名识别装置结构示意图。
具体实施例方式图1为本发明实施例提供的非法域名识别方法流程图。如图1所示,本实施例提供的非法域名识别方法具体可以应用于对域名合法性的识别分析,可以通过非法域名识别装置来执行,该非法域名识别装置可以为服务器。本实施例提供的非法域名识别方法具体包括步骤10、获取域名访问行为信息,根据域名访问行为信息生成共现矩阵,共现矩阵中的元素用以指示元素所在的行对应的用户对元素所在的列对应的域名的访问次数;域名访问行为信息具体可以为预设时间段内的用户访问域名行为的信息,该域名访问行为信息可以从递归服务器或者权威服务器中获取。对域名访问行为信息中的域名访问数据进行数据抽取,假设经过抽取后的用户集合为U = K, u2,. . .,%},域名集合为D = {d” d2,. . .,dN},将用户的域名访问行为抽象为集合U与集合D之间交互关系,如图2所示。 这种交互关系进一步表示为用户与域名之间的MXN阶共现矩阵UD UD = [w(um, dn)]MXN ;其中,w(um,dn)为该段时间内用户Um与域名dn的共现次数,即用户Um对域名dn的访问次数。步骤20、根据聚类算法对共现矩阵进行聚类分析,将共现矩阵中各列对应的域名划分为多个域名子集;聚类算法具体可以为潜在语义分析(Latent Semantic Analysis,简称LSA)算法或概率潜在语义分析(Probability Latent Semantic Analysis,简称PLSA)算法等。根据聚类算法对共现矩阵进行聚类分析,将共现矩阵中各列对应的域名划分为多个域名子集, 每个域名子集至少包含了一个域名,域名子集中的各域名的访问行为具有相似性。步骤30、根据非法域名列表确定各域名子集中域名的合法性。非法域名列表中包含了已经确定的非法域名,这些已经确定的非法域名可以为从网络中公开信息中获取的,也可以为相关部门提供的,还可以为通过网页抽取和文本挖掘技术获取到的。将划分后的各域名子集,分别与已知的非法域名列表进行比较,如果某一域名子集中含有一部分或者全部已知非法域名列表中的域名,则该子集中的域名可被视为非法的域名集合,该域名集合中的域名为非法域名。由于非法域名的特殊性,其面向的互联网用户群体往往会相对独立和集中,并且与正常域名所面向的用户群体会表现出较大的差异。对非法域名有特殊兴趣的互联网用户,其域名查询行为,必定有别于与其兴趣不同的互联网用户群体。换句话说,非法域名间潜在的关联关系会更强,非法域名比合法域名间的独立性会更高。因此,根据互联网用户与域名间的共现关系来对域名集合进行划分,可以有效的将非法域名和合法域名区分开来。本实施例提供的非法域名识别方法,通过对根据域名访问行为信息生成共现矩阵,根据聚类算法对共现矩阵进行聚类分析,将共现矩阵中各列对应的域名划分为多个域名子集,根据非法域名列表确定各域名子集中域名的合法性。针对了非法域名的特殊性,其面向的互联网用户群体与正常域名所面向的用户群体会表现出较大的差异的特点,对域名间潜在的关联进行分析,以将非法域名和合法域名区分开,提高了非法网站的识别效率。在本实施例中,步骤30,根据非法域名列表确定各域名子集中域名的合法性,具体可以包括如下步骤步骤301、将域名子集中的域名与非法域名列表中的域名进行比较,若域名子集与非法域名列表中相同的域名的数量大于预设阈值,则确定域名子集中的域名为非法域名。预设阈值具体可以根据实际的非法域名识别准确度需要来设置。进一步地,确定域名子集中的域名为涉嫌非法域名之后,具体还可以包括如下步骤步骤302、将非法域名作为一级非法域名,对一级非法域名中与非法域名列表中的域名不同的域名对应的网站进行文本挖掘,若判断获知一级非法域名对应的网站中包含非法信息,则将一级非法域名确定为二级非法域名。可以设置非法域名的等级,将大量的域名经过上述步骤的分析处理后,获得小范围的非法域名的集合,将这些非法域名作为一级非法域名。再对一级非法域名进行进一步地的处理,可以采用文本挖掘的方法获取域名对应网站内容,并对网站内容中非法信息进行判断,若判断获知一级非法域名对应的网站中包含非法信息,则将一级非法域名确定为二级非法域名。通过对一级非法域名进行进一步的识别,可以提高非法域名识别的准确性。在本实施例中,优选地,聚类算法为概率潜在语义分析(PLSA)算法。根据概率潜在语义分析算法对共现矩阵进行聚类分析,将共现矩阵中各列对应的域名划分为多个域名子集的实现方式具体如下定义类别的集合Z = Iz1, Z2,..., ζ。},类别的数量c可以根据用户集合U和域名集合D的大小情况来设置,并可以根据分类的质量来选择一个最佳值。具体的,高质量的类别划分应使相同类别内的域名访问行为相似性最高,而不同类别间的域名访问行为相似性最低。为了对类别划分的质量进行量化评估,对于每个类别k,计算该类别的独立程度Ck Ck = Cki/Ck0 ;其中Cki表示类别k内部的域名集合和用户集合间的交互程度,Cko表示类别k与其他类别间的交互程度。
权利要求
1.一种非法域名识别方法,其特征在于,包括获取域名访问行为信息,根据所述域名访问行为信息生成共现矩阵,所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数;根据聚类算法对所述共现矩阵进行聚类分析,将所述共现矩阵中各列对应的域名划分为多个域名子集;根据非法域名列表确定各所述域名子集中域名的合法性。
2.根据权利要求1所述的非法域名识别方法,其特征在于,所述根据非法域名列表确定各所述域名子集中域名的合法性,包括将所述域名子集中的域名与所述非法域名列表中的域名进行比较,若所述域名子集与所述非法域名列表中相同的域名的数量大于预设阈值,则确定所述域名子集中的域名为非法域名。
3.根据权利要求2所述的非法域名识别方法,其特征在于,所述确定所述域名子集中的域名为涉嫌非法域名之后,还包括将所述非法域名作为一级非法域名,对所述一级非法域名中与所述非法域名列表中的域名不同的域名对应的网站进行文本挖掘,若判断获知所述一级非法域名对应的网站中包含非法信息,则将所述一级非法域名确定为二级非法域名。
4.根据权利要求1所述的非法域名识别方法,其特征在于所述聚类算法为概率潜在语义分析算法。
5.一种非法域名识别装置,其特征在于,包括共现矩阵生成模块,用于获取域名访问行为信息,根据所述域名访问行为信息生成共现矩阵,所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数;域名子集划分模块,用于根据聚类算法对所述共现矩阵进行聚类分析,将所述共现矩阵中各列对应的域名划分为多个域名子集;合法性确定模块,用于根据非法域名列表确定各所述域名子集中域名的合法性。
6.根据权利要求5所述的非法域名识别装置,其特征在于所述合法性确定模块还用于将所述域名子集中的域名与所述非法域名列表中的域名进行比较,若所述域名子集与所述非法域名列表中相同的域名的数量大于预设阈值,则确定所述域名子集中的域名为非法域名。
7.根据权利要求6所述的非法域名识别装置,其特征在于所述合法性确定模块还用于将所述非法域名作为一级非法域名,对所述一级非法域名中与所述非法域名列表中的域名不同的域名对应的网站进行文本挖掘,若判断获知所述一级非法域名对应的网站中包含非法信息,则将所述一级非法域名确定为二级非法域名。
8.根据权利要求5所述的非法域名识别装置,其特征在于所述域名子集划分模块还用于根据概率潜在语义分析算法对所述共现矩阵进行聚类分析,将所述共现矩阵中各列对应的域名划分为多个域名子集。
全文摘要
本发明提供一种非法域名识别方法及装置,该非法域名识别方法包括获取域名访问行为信息,根据所述域名访问行为信息生成共现矩阵,所述共现矩阵中的元素用以指示所述元素所在的行对应的用户对所述元素所在的列对应的域名的访问次数;根据聚类算法对所述共现矩阵进行聚类分析,将所述共现矩阵中各列对应的域名划分为多个域名子集;根据非法域名列表确定各所述域名子集中域名的合法性。该非法域名识别装置包括共现矩阵生成模块、域名子集划分模块和合法性确定模块。本发明提供的非法域名识别方法及装置,针对了非法域名的特殊性,对域名间潜在的关联进行分析,以将非法域名和合法域名区分开,提高了非法网站的识别效率。
文档编号H04L29/12GK102523311SQ201110382578
公开日2012年6月27日 申请日期2011年11月25日 优先权日2011年11月25日
发明者尉迟学彪, 李晓东, 金键, 黄向阳 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1