域名分类方法和装置、域名识别方法和系统的制作方法

文档序号:7824228阅读:333来源:国知局
域名分类方法和装置、域名识别方法和系统的制作方法
【专利摘要】本发明提供了一种域名分类方法和装置、域名识别方法和系统,该分类方法包括:获取多个客户端的域名访问记录;根据所述域名访问记录生成数据类型与预设无监督特征学习算法对应的待训练数据;利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;获取所述各个域名的无监督特征向量的相似度;根据获取的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。本发明提供的域名分类方法以及利用其进行域名识别的方法不需要人工预先选取大量的样本数据,降低了人工工作量。
【专利说明】域名分类方法和装置、域名识别方法和系统

【技术领域】
[0001]本发明涉及互联网【技术领域】,尤其涉及一种域名分类方法和装置、域名识别方法和系统。

【背景技术】
[0002]域名是互联网的基础资源,相当于互联网上的门牌号码,是网站、电子邮箱等各种互联网应用的载体。随着网络技术的发展,域名技术已被广泛应用,如何对不同类型的域名进行分类并识别成为一个重要的课题。
[0003]随着每天新出现的注册的域名的数量越来越大,人工分类的方式变得不现实。目前一种主流的对域名分类的方式是有监督特征学习法,该方法中,预先根据不同的类别人工选取由大量的相应类别的域名组成的样本数据,之后由大量的相应类别的域名组成的样本数据训练得到一个识别模型,之后根据该识别模型对各个域名进行匹配,根据匹配结果进行分类。这种方式仍然需要通过人工的方式预先选取大量的样本数据,工作量也非常大。


【发明内容】

[0004]本发明的目的在于提供一种能够降低人工工作量的域名分类方法和装置。
[0005]第一方面,本发明提供了一种域名分类装置,包括:
[0006]域名获取模块,用于获取多个客户端的域名访问记录;
[0007]训练数据生成模块,用于根据所述域名获取模块获取到的所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应;
[0008]第一训练模块,用于利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;
[0009]相似度获取模块,用于获取所述各个域名的无监督特征向量的相似度;
[0010]聚类模块,用于根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0011]可选的,所述预设无监督特征学习算法为算法;
[0012]所述训练数据生成模块用于根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,一个文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。
[0013]可选的,所述域名获取模块用于获取域名解析服务器在预设时间段内的域名解析数据;根据所述域名解析数据获得多个客户端的域名访问记录。
[0014]可选的,还包括:第二训练模块,用于在所述聚类模块根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类之前,根据预设经验特征量化算法对各个域名中的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征;
[0015]融合模块,用于将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量;
[0016]所述相似度获取模块具体用于获取各个域名对应的融合后的无监督特征向量的相似度。
[0017]可选的,所述融合模块用于将各个域名的经验特征值向量与对应的无监督特征向量进行叠加,使用主成分分析算法或深度学习算法对叠加后的特征向量进行降维,得到融合后的无监督特征向量。
[0018]第二方面,本发明还提供了一种域名识别系统,该系统上述任一项所述的域名分类装置,还包括:
[0019]类别获取装置,用于确定所述域名访问记录中包括的域名中至少一个域名的类别;
[0020]类别确定模块,用于根据所述类别获取装置获取到的至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0021]第三方面,本发明还提供了一种域名分类方法,包括:
[0022]获取多个客户端的域名访问记录;
[0023]根据所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应;
[0024]利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;
[0025]获取所述各个域名的无监督特征向量的相似度;
[0026]根据获取到的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0027]可选的,所述预设无监督特征学习算法为word2vec算法;
[0028]所述根据所述域名访问记录生成预设数据类型的待训练数据,包括:
[0029]根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,一个文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。
[0030]可选的,所述获取多个客户端的域名访问记录,包括:
[0031]获取域名解析服务器在预设时间段内的域名解析数据;
[0032]根据所述域名解析数据获得多个客户端的域名访问记录。
[0033]可选的,在根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合之前,所述方法还包括:
[0034]根据预设经验特征量化算法对各个域名的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征;
[0035]将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量;
[0036]所述获取所述各个域名的无监督特征向量的相似度,包括:
[0037]获取各个域名对应的融合后的无监督特征向量的相似度。
[0038]可选的,所述将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量,包括:
[0039]将各个域名的经验特征值向量与对应的无监督特征向量进行叠加,使用主成分分析算法或深度学习算法对叠加后的特征向量进行降维,得到融合后的无监督特征向量。
[0040]第四方面,本发明还提供了一种域名识别系统,包括上述任一项所述的域名分类装置,还包括:确定所述域名访问记录中包括的域名中至少一个域名的类别;
[0041]根据所述至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0042]本发明提供的域名分类方法中,获取多个客户端的域名访问记录;根据所述域名访问记录生成数据类型与预设无监督特征学习算法对应的待训练数据;利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;获取所述各个域名的无监督特征向量的相似度;根据获取到的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合。本发明提供的域名分类方法不需要人工预先选取大量的样本数据,降低了人工工作量。

【专利附图】

【附图说明】
[0043]图1为本发明一实施例提供的一种域名分类方法的流程示意图;
[0044]图2为本发明再一实施例提供的一种域名识别方法的流程示意图;
[0045]图3为本发明再一实施例提供的一种域名分类装置的结构示意图;
[0046]图4为本发明再一实施例提供的一种域名识别系统的结构示意图。

【具体实施方式】
[0047]下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0048]如图1所示,为本发明一实施例提供的一种域名分类方法,该方法可以包括:
[0049]步骤101,获取多个客户端的域名访问记录。
[0050]步骤102,根据所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应。
[0051]步骤103,利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;
[0052]步骤104,获取所述各个域名的无监督特征向量的相似度;
[0053]步骤105,根据获取到的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0054]本发明提供域名分类方法,能够在不需要人工预先选取大量的样本数据的前提下,将类别相同或者相似的域名聚为一类,降低了人工工作量。
[0055]本发明实施例中所指的客户端可以是指能够进行访问网络的网络终端。具体的,这里的客户端可以为电脑、手机、平板电脑等。客户端的域名访问记录中的域名可以包括该客户端所访问的网页的域名、游戏端的域名、聊天工具的域名等。
[0056]在具体实施时,这里的步骤101可以具体包括图中未示出如下步骤:
[0057]步骤1011,获取域名解析服务器在预设时间段内的域名解析数据;
[0058]步骤1012,根据获取到的域名解析数据得到多个客户端的域名访问记录。
[0059]通过这种方式,能够较为简单的获取大量的客户端的域名访问记录。并且,能够使得所选择的客户端具有更大的随机性,相应的,能够使聚类结果更为准确,进而提高域名识别的准确性。
[0060]具体的,上述的步骤1012可以具体包括:将获取到的域名解析请求按照源IP地址进行分组;根据每一个源IP地址发起的域名解析请求确定具有该源IP地址的客户端的域名访问记录。在实际应用中,这里的预设时间可以根据实际需要任意设置,当然就为了提高识别的准确率,可以使设置一个较长的预设时间。比如两个周等。
[0061]可选的,在上述的步骤1011中,还可以在获取域名解析服务器在预设时间段内的域名解析数据之后,删除无效的域名解析数据,之后在步骤1012中,仅根据剩余的域名解析数据得到多个客户端的域名访问记录。这里删除无效的域名解析数据可以包括:删除重复的域名解析数据,和/或,删除错误的域名解析数据、和/或删除所请求解析的域名低于预设阈值的域名解析数据。进一步的,可以按照预设的规则判断哪些域名解析数据为错误的域名解析数据。
[0062]当然在实际应用中,也可以通过其他方式获取多个客户端的域名访问记录;比如可以通过人工导入的方式。具体通过何种方式实现上述的步骤101并不影响本发明的保护范围。
[0063]在具体实施时,可以采用多种无监督特征学习算法对域名进行训练并聚类,相应的,在步骤102中,需要针对不同的无监督特征学习算法生成不同数据类型的待训练数据。
[0064]word2vec (word to vector)是一个将文本数据类型的数据转换成向量形式的工具。通过转换,可以把对文本数据类型的数据的处理简化为向量空间中的向量运算,计算出向量空间上的相似度。下面以所采用的无监督特征学习算法为word2VeC进行说明。
[0065]当所采用的无监督特征学习算法为word2vec时,步骤102可以具体包括:根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,该文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。具体的,在上述的步骤102中生成的一个文本数据类型的待训练数据中各个词组可以为域名本身,也可以为域名的标识。比如,一种可选的实施例中,可以对步骤101中获取到的多个客户端的域名访问记录中所访问的全部域名采用对应的数字标识进行表示。之后针对每一个客户端的域名访问记录,将该域名访问记录中所访问的域名按时间顺序进行排列,并将域名替换为对应的数字标识得到该客户端的域名访问记录得到一个文本数据类型的待训练数据。举例来说,如果一个客户端访问的域名依次为 WWW.abed, com、www.123abc.com、www.alb2c.com、www.a2b2c4.com,另一客户端访问的域名依次为綱1 abed, com、www.alb2c.com、www.a2e5.com、www.123abc.com,其中,www.abed, com对应的数字标识为00001、www.123abc.com对应的数字标识为00011、www.alb2c.com对应的数字标识为00021、www.a2b2c4.comw对应的数字标识为00012,www.a2e5.com对应的数字标识为10010,则前一客户端的域名访问记录所对应的文本数据类型的待训练数据可以表示为00001000110002100012,后一客户端的域名访问记录所对应的文本数据类型的待训练数据可以表示为00001000211001000011。通过这种方式能够降低步骤103计算量。
[0066]在步骤105中可以获取一个人工输入的相似度的阈值,之后根据该相似度的阈值对相似度在该阈值范围之上的多个无监督特征向量对应的域名聚为一类,或者也可以预先获取一个需要聚类的数目,比如需要聚出100个类,根据需要聚类的数目,确定聚类的精度,进而聚类出相应输出的域名集合。在具体实施时,通过选择不同的聚类精度和聚类策略,可以聚类得到恶意域名的域名集合和合法域名的域名集合,也可以聚类得到商业网站域名集合、导航网站域名集合、社交网站域名集合、论坛网站域名集合、门户网站域名集合等。
[0067]根据相似度对向量进行聚类的方法可以有多种,本发明在此不再详细说明。
[0068]具体的,在步骤104之前,该方法还可以包括图中未示出的:
[0069]步骤10如,根据预设经验特征量化算法对各个域名中的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征;将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量;
[0070]此时,这里的步骤104可以具体包括图中为示出的:
[0071]步骤104’,获取各个域名对应的融合后的无监督特征向量的相似度。
[0072]在具体实施时,这里所指的预设的经验特征可以是指域名解析系统(1)011121111版11116
响应、同于客户端所请求同一域名的时间间隔、域名字符串的长度等根据经验选择的特征,获取各个域名的上述经验特征,并对相应的经验特征按照预设的经验特征量化算法进行赋值,最终得到由各个权重值组成的经验特征向量。获取域名的经验特征向量的方式可以参考现有技术,在此不再详细说明。
[0073]通过这种方式,能够使用经验特征相同对得到的无监督特征向量进行修正,使聚类更为准确。
[0074]进一步的,这里的步骤10?可以具体包括:针对每一个域名,其经验特征值向量与其无监督特征向量进行叠加,使用主成分分析001111)0116111: ^17818,
算法或深度学习算法对叠加后的特征向量进行降维,得到融合后的无监督特征向量。比如在实际应用中,可以将一个100维度的无监督特征向量与一个20维度的经验特征向量进行叠加,得到一个120维度的特征向量,之后使用主成分分析?…算法或深度学习算法确定相关性比较大的两个维度并删除其中一个维度,另一方面,确定对类别识别影响较小的维度并删除。这样做的好处是,降低步骤105的计算的复杂度,另一方面,由于降低了维度之间的相关性,能够使聚类结果更为准确。
[0075]本发明一个实施例还提供了一种域名识别方法,该方法可以包括如图1所示的域名分类方法,还包括图中未示出的:
[0076]步骤106,确定所述域名访问记录中包括的域名中至少一个域名的类别;
[0077]步骤107,根据所述至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0078]在具体实施时,上述的步骤106中确定至少一个域名的类别的方式是:记录用户针对域名记录中部分域名所标记的类别。比如人工的识别一个商业网站的域名、一个导航网站的域名、一个社交网站的域名、一个论坛网站的域名、一个门户网站的域名等并标注。按照本发明提供的识别方法,这些种子域名最终会聚类到相应的域名集合中。这样,在步骤107中,可以根据种子域名的类别确定种子域名所在的域名集合的类别,并相应的标记。通过这种方式,能够快速识别多个未知的域名。
[0079]需要指出的是,在实际应用中这里的步骤106可以在图1中的步骤101之后步骤107之前的任一时刻执行,比如在步骤101之后,步骤102之前,选取步骤101获取到的域名访问记录中包含的部分域名并标记其类别。或者,也可以在步骤105之后,从各个域名集合或者部分域名集合中选取部分域名并标记。
[0080]在具体实施时,如果一个域名集合中的一个域名为特定类别的域名,则可以推断包含该种子域名的域名集合中的所有域名均为特定类型的域名。当然在实际应用中,在确定在一个域名集合中的一个域名为特定类别的域名之后,也通过其他优化的算法确定归属于该域名集合的其他域名是否为特定类别的域名。
[0081]下面对本发明提供的一种域名识别方法的一个完整实施例进行详细说明,如图2所示,该方法可以包括:
[0082]步骤201,从DNS服务器上获取该DNS服务器在预设时间段内接收到的域名解析请求。
[0083]步骤202,删除获取到的域名解析请求中的无效域名解析请求。
[0084]在具体实施时,可以包括删除错误的域名解析请求、所请求的域名的次数小于预设阈值的域名解析请求等。
[0085]步骤203,根据源IP地址对剩余的各个域名解析请求进行分组,得到各个源IP地址发起的所有域名解析请求。
[0086]步骤204,针对每一个源IP地址发起的所有域名解析请求,生成一个文本数据类型的待训练数据。该文本数据类型的待训练数据中的每一个词组表示一个给源IP地址请求的域名,且一个文本数据中的各个词组按照其对应的域名被该源IP地址请求的时间排列。
[0087]步骤205,采用WOrd2VeC算法对得到的各个待训练数据进行训练,得到域名的无监督特征向量。
[0088]步骤206,根据预设经验特征量化算法对各个域名中的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征。
[0089]步骤207,将步骤205针对每一个域名中得到的无监督特征向量和步骤206中得到的经验特征向量进行叠加。
[0090]步骤208,使用主成分分析PCA算法或深度学习算法对步骤207叠加后的特征向量进行降维。
[0091]步骤209,获取步骤208中得到的各个特征向量的相似度。
[0092]步骤210,根据步骤209中获取的相似度对对步骤208各个的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0093]至此,完成了对域名进行分类的步骤。在步骤210之后,该方法还可以包括如图2所示的:
[0094]步骤211,确定所述域名访问记录中包括的域名中至少一个域名的类别。
[0095]步骤212,根据所述至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0096]在实际应用中,如果两个词组在多个文本数据中的上下文关系都比较接近,则很可能说明这两个词组的性质比较相近。相应的,如果在多个客户端对应的域名访问记录中,访问一个域名之前访问的若干个域名和之后访问的若干个域名与访问另一个域名之前访问的若干个域名和之后访问的若干个域名都比较相似,则说明这两个域名也很可能为相同类别的域名,根据本发明提供的方法,这两个域名会被聚为一类,通过识别其中一个域名,就能够确定另一个域名的类别。
[0097]需要指出的是,虽然本发明实施例中,是以10^(12^6(3算法、将域名访问记录处理成^1X12^6(3算法所训练的文本类型的数据进行的说明,但是在实际应用中通过其他类型的无监督特征学习算法也能达到同样的效果,本发明实施例在此不再进行详细说明。
[0098]基于相同的构思,本发明还提供了一种域名分类装置,可用于执行上述的域名分类方法,如图3所示,该装置可以包括:
[0099]域名获取模块301,用于获取多个客户端的域名访问记录;
[0100]域名处理模块302,用于根据域名获取模块301获取到的所述域名访问记录生成数据类型与预设无监督特征学习算法对应的待训练数据;
[0101]第一训练模块303,用于利用预设无监督特征学习算法对训练数据生成模块302生成的待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;
[0102]相似度获取模块304,用于获取所述各个域名的无监督特征向量的相似度;
[0103]聚类模块305,用于根据相似度获取模块304获取到的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0104]本发明提供的域名分类装置不需要人工预先选取大量的样本数据,降低了人工工作量。
[0105]可选的,所述预设无监督特征学习算法为算法;
[0106]训练数据生成模块302,用于根据所述域名获取模块301获取到的所述域名访问记录生成数据类型与预设无监督特征学习算法对应的待训练数据。
[0107]可选的,域名获取模块301用于获取域名解析服务器在预设时间段内的域名解析数据,根据所述域名解析数据获得多个客户端的域名访问记录。
[0108]可选的,该装置还包括图中未示出的:第二训练模块306,用于在所述聚类模块305根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类之前,根据预设经验特征量化算法对各个域名中的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征;
[0109]融合模块307,用于将所述第二训练模块306训练得到的各个域名的经验特征值向量与第一训练模块303训练得到的相应域名对应的无监督特征向量进行融合,得到融合后的无监督特征向量;
[0110]聚类模块305具体用于获取各个域名对应的融合后的无监督特征向量的相似度。
[0111]可选的,聚类模块304用于将各个域名的经验特征值向量与对应的无监督特征向量进行叠加,使用主成分分析算法或深度学习算法对叠加后的特征向量进行降维,得到融合后的无监督特征向量。
[0112]在一方面,本发明还提供了一种域名识别系统,可用于执行上述的域名识别方法,如图4所示,该系统可以包括域名识别装置410,这里域名识别装置410可以为图3中所示的域名识别装置,该系统还可以包括:
[0113]类别获取装置420,用于确定所述域名访问记录中包括的域名中至少一个域名的类别;
[0114]类别确定模块430,用于根据所述类别获取装置420获取到的至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0115]本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0116]类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0117]本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
[0118]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0119]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(039)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0120]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。词组“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的词组“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词组第一、第二、以及第三等的使用不表示任何顺序。可将这些词组解释为名称。
[0121]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
[0122]本发明实施例还提供了:
[0123]Al,一种域名分类装置,包括:
[0124]域名获取模块,用于获取多个客户端的域名访问记录;
[0125]训练数据生成模块,用于根据所述域名获取模块获取到的所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应;
[0126]第一训练模块,用于利用所述预设无监督特征学习算法对所述训练数据生成模块生成的待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;
[0127]相似度获取模块,用于获取所述各个域名的无监督特征向量的相似度;
[0128]聚类模块,用于根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0129]A2、如Al所述的装置,所述预设无监督特征学习算法为word2vec算法;
[0130]所述训练数据生成模块用于根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,一个文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。
[0131]A3、如Al所述的装置,所述域名获取模块用于获取域名解析服务器在预设时间段内的域名解析数据;根据所述域名解析数据获得多个客户端的域名访问记录。
[0132]A4、如Al所述的装置,还包括:第二训练模块,用于在所述聚类模块根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类之前,根据预设经验特征量化算法对各个域名中的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征;
[0133]融合模块,用于将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量;
[0134]所述相似度获取模块具体用于获取各个域名对应的融合后的无监督特征向量的相似度。
[0135]A5、如A4所述的装置,其特征在于,所述融合模块用于将各个域名的经验特征值向量与对应的无监督特征向量进行叠加,使用主成分分析算法或深度学习算法对叠加后的特征向量进行降维,得到融合后的无监督特征向量。
[0136]B6、一种域名识别系统,其特征在于,包括A1-A5任一项所述的域名分类装置,还包括:
[0137]类别获取装置,用于确定所述域名访问记录中包括的域名中至少一个域名的类别;
[0138]类别确定装置,用于根据所述类别获取模块获取到的至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0139]87、一种域名分类方法,包括:
[0140]获取多个客户端的域名访问记录;
[0141]根据所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应;
[0142]利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;
[0143]获取所述各个域名的无监督特征向量的相似度;
[0144]根据获取到的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
[0145]88、如87所述的方法,所述预设无监督特征学习算法为算法;
[0146]所述根据所述域名访问记录生成预设数据类型的待训练数据,包括:
[0147]根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,一个文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。
[0148]89、如87所述的方法,所述获取多个客户端的域名访问记录,包括:
[0149]获取域名解析服务器在预设时间段内的域名解析数据;
[0150]根据所述域名解析数据获得多个客户端的域名访问记录。
[0151]810、如87所述的方法,在根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合之前,所述方法还包括:
[0152]根据预设经验特征量化算法对各个域名的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征;
[0153]将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量;
[0154]所述获取所述各个域名的无监督特征向量的相似度,包括:
[0155]获取各个域名对应的融合后的无监督特征向量的相似度。
[0156]811、如810所述的方法,所述将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量,包括:
[0157]将各个域名的经验特征值向量与对应的无监督特征向量进行叠加,使用主成分分析算法或深度学习算法对叠加后的特征向量进行降维,得到融合后的无监督特征向量。
[0158]812、一种域名识别方法,包括利用如87-811任一项所述的域名分类方法进行域名分类,还包括:
[0159]确定所述域名访问记录中包括的域名中至少一个域名的类别;
[0160]根据所述至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
[0161]本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0162]类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0163]本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
[0164]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0165]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0166]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。词组“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的词组“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词组第一、第二、以及第三等的使用不表示任何顺序。可将这些词组解释为名称。
[0167]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
【权利要求】
1.一种域名分类装置,其特征在于,包括: 域名获取模块,用于获取多个客户端的域名访问记录; 训练数据生成模块,用于根据所述域名获取模块获取到的所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应; 第一训练模块,用于利用所述预设无监督特征学习算法对所述训练数据生成模块生成的待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量; 相似度获取模块,用于获取所述各个域名的无监督特征向量的相似度; 聚类模块,用于根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
2.如权利要求1所述的装置,其特征在于,所述预设无监督特征学习算法为Word2vec算法; 所述训练数据生成模块用于根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,一个文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。
3.如权利要求1所述的装置,其特征在于,所述域名获取模块用于获取域名解析服务器在预设时间段内的域名解析数据;根据所述域名解析数据获得多个客户端的域名访问记录。
4.如权利要求1所述的装置,其特征在于,还包括:第二训练模块,用于在所述聚类模块根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类之前,根据预设经验特征量化算法对各个域名中的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征; 融合模块,用于将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量; 所述相似度获取模块具体用于获取各个域名对应的融合后的无监督特征向量的相似度。
5.一种域名识别系统,其特征在于,包括如权利要求1-4任一项所述的域名分类装置,还包括: 类别获取装置,用于确定所述域名访问记录中包括的域名中至少一个域名的类别;类别确定装置,用于根据所述类别获取模块获取到的至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
6.一种域名分类方法,其特征在于,包括: 获取多个客户端的域名访问记录; 根据所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应; 利用所述预设无监督特征学习算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量; 获取所述各个域名的无监督特征向量的相似度; 根据获取到的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。
7.如权利要求6所述的方法,其特征在于,所述预设无监督特征学习算法为word2vec算法; 所述根据所述域名访问记录生成预设数据类型的待训练数据,包括: 根据每一个客户端的域名访问记录生成一个文本数据类型的待训练数据,一个文本数据类型的待训练数据中的每一个词组表示一个域名,且一个文本数据类型的待训练数据中的各个词组按照其对应的域名被该客户端访问的时间排列。
8.如权利要求6所述的方法,其特征在于,所述获取多个客户端的域名访问记录,包括: 获取域名解析服务器在预设时间段内的域名解析数据; 根据所述域名解析数据获得多个客户端的域名访问记录。
9.如权利要求6所述的方法,其特征在于,在根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合之前,所述方法还包括: 根据预设经验特征量化算法对各个域名的经验特征进行运算得到各个域名的经验特征向量;其中,所述经验特征为预先设定的特定类型的特征; 将各个域名的经验特征值向量与对应的无监督特征向量进行融合,得到融合后的无监督特征向量; 所述获取所述各个域名的无监督特征向量的相似度,包括: 获取各个域名对应的融合后的无监督特征向量的相似度。
10.一种域名识别方法,其特征在于,包括利用如权利要求6-9任一项所述的域名分类方法进行域名分类,还包括: 确定所述域名访问记录中包括的域名中至少一个域名的类别; 根据所述至少一个域名的类别确定所述至少一个域名所在的域名集合的类别。
【文档编号】H04L29/12GK104486461SQ201410838225
【公开日】2015年4月1日 申请日期:2014年12月29日 优先权日:2014年12月29日
【发明者】王占一, 张卓, 刘博
申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1