一种基于内容的垃圾网页检测方法及其检测装置的制造方法

文档序号:9432605阅读:321来源:国知局
一种基于内容的垃圾网页检测方法及其检测装置的制造方法
【技术领域】
[0001] 本发明设及数据挖掘、文本挖掘和捜索引擎领域,尤其设及一种基于内容的垃圾 网页检测方法及其检测装置。
【背景技术】
[0002] 页面排序算法可用于对垃圾网页的检测。其中的网页等级任ageRank)是Google 用于标识网页的等级/重要性的一种方法,是Google用来衡量一个网站好坏的唯一标准。 阳00引化geRank的计算基于W下两个基本假设:
[0004] 数量假设:在网络图模型中,如果一个页面节点接收到的其他网页指向的入链数 量越多,那么运个页面越重要。
[0005] 质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传 递更多的权重。所W越是质量高的页面指向页面A,则页面A越重要。
[0006] 所W化geRank实现了将链接价值概念作为网页排名的因素。
[0007] 化geRank的计算步骤可分为如下两个:
[0008] 在初始阶段:网页通过链接关系构建起网络图,每个页面设置相同的化geRank 值,通过若干轮的计算,会得到每个页面所获得的最终化geRank值。随着每一轮的计算进 行,网页当前的化geRank值会不断得到更新。
[0009] 在一轮中更新页面化geRank得分的计算方法:在一轮更新页面化geRank得分的 计算中,每个页面将其当前的化geRank值平均分配到本页面包含的出链上,运样每个链接 即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到 新的化geRank得分。当每个页面都获得了更新后的化geRank值,就完成了一轮化geRank 计算。 阳010] 化geRank的缺陷在于它单纯地根据一个网页上被链接的站点数量和质量来给该 网页分配一个绝对的"重要性"值。即若一个网页的链入网页数越多且其等级越高,则传 递给此网页的页面等级值也将会越高。由此可W看出,PageRank算法只考虑了网页之间的 链接而忽略了网页的内容与主题间的相关性,所W即使一个网页的内容与主题的相关性较 低,也会因为此网页的PageRank值较大而获得较高的排名,从而影响了捜索结果的相关性 与准确性。

【发明内容】

[0011] 本发明提供了一种基于内容的垃圾网页检测方法及其检测装置,本发明能够有效 克服化geRank算法在检测垃圾网页时只考虑研究垃圾网页之间链接的关系,忽略了网页 内容关系的问题,详见下文描述:
[0012] 一种基于内容的垃圾网页检测方法,所述垃圾网页检测方法包括W下步骤:
[0013] 计算所有网页与种子垃圾网页的内容最大相似度值,生成相似度集合;
[0014] 利用化geRank算法对所有网页进行降序排序;
[0015] 基于排序结果,从相似度集合中查寻网页与种子垃圾网页间的内容相似度值;
[0016] 比较相似度值与相似度阔值,对网页进行检测,并将检测出的垃圾网页加入到垃 圾网页集合中。
[0017] 其中,所述计算所有网页与种子垃圾网页的内容最大相似度值,生成相似度集合 的步骤具体为:
[001引采用统计的方法对所有网页进行特征提取,然后利用向量空间模型将提取出的特 征组成向量;
[0019] 采用基于向量空间的余弦相似度方法计算所有网页与种子垃圾网页内容间的相 似性,选取最大相似度值;
[0020] 由最大相似度值组成相似度集合。
[0021] 其中,所述比较相似度值与相似度阔值,对网页进行检测,并将检测出的垃圾网页 加入到垃圾网页集合中的步骤具体为:
[0022] 若某一网页与种子垃圾网页内容的相似度值大于相似度阔值,则认定网页为垃圾 网页,并将网页加入到垃圾网页集合中。
[0023] 其中,所述方法还包括:挑选若干个垃圾网页作为种子垃圾网页。
[0024] 其中,所述方法还包括:
[00巧]设置垃圾网页集合的最大容量,重复进行查询,直至达到最大容量,流程结束。 [00%] -种基于内容的垃圾网页检测装置,所述垃圾网页检测装置包括:
[0027] 生成模块,用于计算所有网页与种子垃圾网页的内容最大相似度值,生成相似度 集合;
[0028] 排序模块,用于利用化geRank算法对所有网页进行降序排序;
[0029] 查询模块,用于基于排序结果,从相似度集合中查寻网页与种子垃圾网页间的内 容相似度值;
[0030] 检测模块,用于比较相似度值与相似度阔值,对网页进行检测,并将检测出的垃圾 网页加入到垃圾网页集合中。
[0031] 所述生成模块包括:
[0032] 提取子模块,用于采用统计的方法对所有网页进行特征提取,然后利用向量空间 模型将提取出的特征组成向量;
[0033] 选取模块,用于采用基于向量空间的余弦相似度方法计算所有网页与种子垃圾网 页内容间的相似性,选取最大相似度值;
[0034] 组成模块,用于由最大相似度值组成相似度集合。
[0035] 所述检测模块包括:
[0036] 检测子模块,用于若某一网页与种子垃圾网页内容的相似度值大于相似度阔值, 则认定网页为垃圾网页,并将网页加入到垃圾网页集合中。
[0037] 所述装置还包括:
[0038] 挑选模块,用于挑选若干个垃圾网页作为种子垃圾网页。
[0039] 本发明提供的技术方案的有益效果是:本发明为垃圾网页的检测提供了一种新思 路,鉴于传统的化geRank算法只考虑了网页之间的链接,本发明在传统的化geRank算法基 础上加入了对网页内容相似度的判定,把网页间的链接与内容结合起来,从链接的角度提 高了网页的重要性,从内容的角度提高了网页的相关性。首先,它提高了垃圾网页检测的准 确度和效率。其次,它方便了用户的查询,并且降低了引擎服务商的运营成本。最后,它减 少了数据库的存储空间,提高了数据库的存储利用率。实验结果表明,加入相似度计算后, 实验效果要优于化geRank算法,验证了本发明的可行性。
【附图说明】
[0040] 图1为一种基于内容的垃圾网页检测方法的流程图;
[0041] 图2为不同相似度阔值S时检测出的垃圾网页数量值随S值变化的示意图;
[0042] 图3为化geRank算法和本方法的垃圾网页召回率比较的示意图;
[0043]图4为一种基于内容的垃圾网页检测装置的结构示意图;
[0044] 图5为生成模块的示意图; W45]图6为检测模块的示意图;
[0046] 图7为一种基于内容的垃圾网页检测装置的另一结构示意图。
[0047] 附图中,各标号所代表的部件列表如下: W48] 1 :生成模块; 2 :排序模块; W例 3 :查询模块; 4 :检测模块;
[0050] 5 :挑选模块; 11 :提取子模块; 阳05U 12:选取模块; 13:组成模块;
[0052]41 :检测子模块。
【具体实施方式】
[0053] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。
[0054] 实施例1 阳化5] -种基于内容的垃圾网页检测方法,参见图1,该垃圾网页检测方法包括W下步 骤:
[0056]101 :挑选出若干个垃圾网页作为种子垃圾网页;
[0057] 假设总共有N个网页,其中已被标记出的垃圾网页有X个,存放在集合X中。从集 合X中随机挑选出m个垃圾网
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1