基于simd优化的网页去重并行方法

文档序号:6650673阅读:726来源:国知局
专利名称:基于simd优化的网页去重并行方法
基于SIMD优化的网页去重并行方法技术领域
本发明属于计算机应用技术领域,涉及一种基于MMD优化的网页去重并行方 法。MMD (Single Instruction Multiple Data,单指令多数据流)是一种采用一个控制器来 控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作 从而实现空间上的并行性的技术。在微处理器中,单指令流多数据流技术则是一个控制 器控制多个平行的处理微元,例如Intel的MMX或SSE以及AMD的3D Now !技术。技术背景
随着计算机科学技术与网络技术的飞速发展,网络已经成为人们获取重要信息 的重要途径。目前搜索引擎面临的最大困难就是返回的结果集包含了大量重复的信息, 这些重复的信息不但占用了用户的大量时间加重了用户的负担,同时也占用了大量的存 储空间和带宽,降低了索引的效率。因此,如何对搜索引擎结果集进行分类或者网页去 重成为了提高搜索引擎检索效率的重要环节。
基于“近似指纹”的网页去重算法,由于将文本的字符串映射到hash值集合, 将字符串匹配的问题转化成数值比较的问题,计算速度快,适合大规模运算。但是,在 文本块大小和数量的选择存在诸多困难,最完整的文本块是文本全文当作一个文本块, 这样的文本比较只能检测出一字不漏的文本复制,这种方法只能解决“一字不漏”的复 制问题。基于“Shingle”相似度检测算法通过把文本分词,提取shingle特征,比较共同 shingle的数目来计算相似度。算法需要考虑相似度阈值、shingle滑动窗口大小、shingle 权重系数和论文属性等参数对网页去重算法的准确率和召回率的影响,并且消除相似度 阈值设定的盲目性。
Streaming SIMD Extensions SSE4.2[3]是 hitel 自从 SSE2 之后对 ISA 扩展指令集最大的一次的升级扩展。SSE4.2的新指令面向了两大领域,分别是字符串与字符处理用 的新指令STTNI和面向具体应用的加速处理ΑΤΑ。新指令集增强了从多媒体应用到高性 能计算应用领域的性能,同时还利用一些专用电路实现对于特定应用加速。本发明依据 "Intel Core i7"系列处理器的体系结构优化代码,采用嵌入汇编SSE编码方式,以保证 同时一次比对1 位的指纹。分析实验和实际应用表明此算法能在不损失任何保证查 准率和查全率的同时,有效地提高文档相似度检测的速率。发明内容
本发明的目的是提出一种基于^tMD优化的网页去重并行方法,该基于SIMD优 化的网页去重并行方法能在高查准率和高查全率的同时,有效地提高网页相似度检测的 速率。
本发明的技术解决方案如下
一种基于^IMD优化的网页去重并行方法,其特征在于,包括以下步骤
步骤1 网页文本信息提取步骤该过程用于将网页有效信息提取出来;5
步骤2 Shingle提取步骤该过程用于提取网页特征,并生成Shingles集合;
步骤3:聚类步骤该过程用于降低比对次数,减小时间和空间复杂度;
步骤4:指纹比对步骤该过程用于寻找出相似网页,将相似的网页剔除。
步骤1的具体步骤为
对HTML、XHTML、XML网页格式的文件进行扫描,利用网页的标记信息提取出文本的标题,同时过滤掉与文本无关的信息。
步骤2的具体步骤为
首先,对提取的网页文本信息进行正向最大匹配分词处理,生成词语的集合;
然后,构建停用词表,并使用停用词表过滤掉网页中的噪音,按设定的窗口大 小,生成Shingles集合;噪音即词语的集合中所存在的无意义的词。
正向最大匹配分词算法的主要流程如下假设自动分词词库中的最长词条中汉 字个数为MAX,则取待处理文本中的前MAX个字作为匹配字段,查找分词词库,若词 库中有这样一个MAX字词,则匹配成功,匹配字段作为一个词被切分出来;如果词库中 找不到这样一个MAX字词,则匹配失败,把此匹配字段的最后一个字去掉,重复以上过 程,直到匹配成功为止。这样就完成了一次匹配,即匹配出一个词。然后再按上面的步 骤进行下去,直到切分出文本中的所有词为止。
从查准率和查全率来说,窗口大小越小越好;从显示效果来看,窗口大小越 大,显示的效果越好。一般情况下窗口取2-4为宜。
步骤3的具体步骤为
首先,对于生成的Shingle集合,设Shingle集合大小为L,从Shingle集合中每 隔 L/n 个 Shingle 选择 1 个 Shingle 作为其采样表 Sample_Shingle_List ;
然后,对Sample_Shingle_List使用M个不同的独立随机的置换Hash函数,采用 的Hash函数将SampleJWngle_List中的所有shingle的特征分别转换为一个1 位的指纹 集合Sample_Finger_List,从每个Sample_Finger_List中选择最小的指纹作为该网页的指 纹;
最后,对于N个网页生成的指纹进行聚类,聚类时,将具有相同指纹的网页划 归为一类,最终得到聚类后的网页集合。
M取7-10之间的整数。
采用M个独立随机的置换哈希(即Hash)函数Ji1, Ji2, ..., π M,就把任意一 个文档(Kdocument)的 Sample_Shingle_List 集合即 & 转换为 Sample_Finger_List
Sample_Finger_List = (min{ π j (Sd) }, min{ π 2 (Sd) }, ..., min{ π M(Sd) })
举个例子
Ω = {1,2,3,4,5},Sl = {1,2,3},S2 = {1,2,4},Ω 表示全集。
π 1{1, 2,3,4,5}-> {3,2,1,5,4},π 1表示M个独立随机的置换哈希 函数中的一个。
Ji 2{1, 2,3,4,5}-> {2,3,5,4,1}
...
JIM{1, 2,3,4,5}-> {5,3,1,2,4}
Ji I(Sl) = {3, 2,1} ; Ji 2(S1) = {2, 3,5} ; JiM(Sl) = {5, 3,1};
Ji 1(S2) = {3, 2,5} ; Ji 2 (S2) = {2, 3,4} ; JiM(S2) = {5, 3,2};
311是{1,2,3,4,5}-> {3,2,1,5,4}则就是
1- > 3,2- > 2,3- > 1,4_ > 5,5_ > 4,贝Ij π 1 (Si) = Ji 1 ({1,2,3})= {3, 2, 1}
其他的类推。
min(3i (Si)) = Sample_Finger_List(Sl) = {1, 2,1}
min( π 61))表示在每个集合Ji 1 61),Ji 2 (Si),…,πΜ^Ι)中分别取一个最小值,由这些最小值组成的集合。
min(3i (S2)) = Sample_Finger_List(S2) = {2,2,2}
然后他们具有相同的指纹丨2丨,则归为一类。因为它们都有丨2丨这个元素。
步骤4的具体步骤为
根据聚类结果,将每一个类中的网页ID取出,设该类有η个网页,对于所有的 网页的指纹集合为^fingerll Jinger2l ... JingernlΓ π ….fingerl2 finger22 ... fingern2
Matrixfinger_fingerlM finger2M …finger- ,的第b位如果是1-1,月^^^的第b位如果是0 ;x>0 、0, x<0 ‘
考虑每一列的指纹,首先生成一个1 维的向量V,每一位都初始化为0,考虑 该列的每一个指纹中的每一比特,若该位为1,则向量V的相应位+1,若该位为0,则向 量V的相应位-1;通过叠加后,对于向量V中为正的元素归为1,为负的元素归为0;
定义
权利要求
1.一种基于SIMD优化的网页去重并行方法,其特征在于,包括以下步骤 步骤1:网页文本信息提取步骤该过程用于将网页有效信息提取出来; 步骤2 Shingle提取步骤该过程用于提取网页特征,并生成Shingles集合; 步骤3:聚类步骤该过程用于降低比对次数,减小时间和空间复杂度; 步骤4:指纹比对步骤该过程用于寻找出相似网页,将相似的网页剔除。
2.根据权利要求1所述的基于SIMD优化的网页去重并行方法,其特征在于,步骤1 的具体步骤为对HTML、XHTML、XML网页格式的文件进行扫描,利用网页的标记信息提取出 文本的标题,同时过滤掉与文本无关的信息。
3.根据权利要求1所述的基于SIMD优化的网页去重并行方法,其特征在于,步骤2 的具体步骤为首先,对提取的网页文本信息进行正向最大匹配分词处理,生成词语的集合; 然后,构建停用词表,并使用停用词表过滤掉网页中的噪音,按设定的窗口大小, 生成Shingles集合;噪音即词语的集合中所存在的无意义的词。
4.根据权利要求1所述的基于SIMD优化的网页去重并行方法,其特征在于,步骤3 的具体步骤为首先,对于生成的Shingle集合,设Shingle集合大小为L,从Shingle集合中每隔L/ η 个 Shingle 选择 1 个 Shingle 作为其采样表 Sample_Shingle_List ;然后,对Sample_Shingle_List使用M个不同的独立随机的置换Hash函数,采用的 Hash函数将Sample_Shingle_List中的所有shingle的特征分别转换为一个128位的指纹 集合Sample_Finger_List,从每个Sample_Finger_List中选择最小的指纹作为该网页的指 纹;最后,对于N个网页生成的指纹进行聚类,聚类时,将具有相同指纹的网页划归为 一类,最终得到聚类后的网页集合。
5.根据权利要求1-4任一项所述的基于SIMD优化的网页去重并行方法,其特征在 于,步骤4的具体步骤为采用以下两种方法中的任一种方法 方法1:根据聚类结果,将每一个类中的网页ID取出,设该类有η个网页,对于所有的网页 的指纹集合为
全文摘要
本发明公开了一种基于SIMD优化的网页去重并行方法,包括以下步骤步骤1网页文本信息提取步骤该过程用于将网页有效信息提取出来;步骤2Shingle提取步骤该过程用于提取网页特征,并生成Shingles集合;步骤3聚类步骤该过程用于降低比对次数,减小时间和空间复杂度;步骤4指纹比对步骤该过程用于寻找出相似网页,将相似的网页剔除。该基于SIMD优化的网页去重并行方法能在保证查准率和查全率的同时,有效地提高网页相似度检测的速率。
文档编号G06F17/27GK102024065SQ20111002100
公开日2011年4月20日 申请日期2011年1月18日 优先权日2011年1月18日
发明者张祖平, 罗跃逸, 袁鑫攀, 龙军 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1