一种基于网络关系图的网站分类方法与流程

文档序号:12271511阅读:来源:国知局

技术特征:

1.一种基于网络关系图的网站分类方法,其特征在于,包括以下步骤:

步骤1:以“安全联盟”的恶意数据作为样本数据源,获取已有的数据分类和URL数据;

步骤2:通过抽取样本数据的外站链接和分词器处理,形成站点映射表和词频分析表;利用站点指纹特征提取器提取样本指纹特征,构建特征表,通过抽取各指纹特征集形成类型表;

步骤3:由各站点和其连接权重构成一个无向权重图,各站点作为网络图的节点,初始权重由相互之间的页面链接的紧密程度来确定;

步骤4:众多的站点和权重构成一个网络关系图,通过图聚类算法把一个大图分成若干个子图;即将各子图中的节点数统计出来,在分发队列里存储子图ID和其对应的节点数,根据子图的大小平均地把各子图分发到不同的服务器上进行计算;

步骤5:各任务单元在各自的服务器上通过站点指纹特征提取器和分类器来抽取指纹特征并分类。

2.如权利要求1所述的一种基于网络关系图的网站分类方法,其特征在于,所述步骤5具体为:基于样本特征得到新的站点数据和指纹特征,划分训练集,每个子训练集通过分类器得到分类结果,把这些数据存储到相应的表中。

3.如权利要求2所述的一种基于网络关系图的网站分类方法,其特征在于,还包括存储各站点的特征词汇、频率和分类列表。

4.如权利要求1至3任一项所述的一种基于网络关系图的网站分类方法,其特征在于,还包括根据分类结果中的特征值和权重系数,更新整个关系图的连接权重;对于新增的外站链接站点和其它来源的站点,在各任务处理单元处理时,添加到数据预处理队列中进行处理。

5.如权利要求4所述的一种基于网络关系图的网站分类方法,其特征在于,还包括重复前述步骤步骤1至步骤5,各数据分类结果构成一套在每次迭代之后都不断更新的网络关系图。

6.如权利要求5所述的一种基于网络关系图的网站分类方法,其特征在于,还包括在分类结果的基础上,结合白名单数据表和传统大站点的类型表对分类结果进一步处理,避免特殊因素影响分类结果。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1