基于simd优化的网页去重并行方法

文档序号：6650673阅读：726来源：国知局

专利名称：基于simd优化的网页去重并行方法
基于SIMD优化的网页去重并行方法技术领域
本发明属于计算机应用技术领域，涉及一种基于MMD优化的网页去重并行方法。MMD (Single Instruction Multiple Data,单指令多数据流)是一种采用一个控制器来控制多个处理器，同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行性的技术。在微处理器中，单指令流多数据流技术则是一个控制器控制多个平行的处理微元，例如Intel的MMX或SSE以及AMD的3D Now ！技术。技术背景
随着计算机科学技术与网络技术的飞速发展，网络已经成为人们获取重要信息的重要途径。目前搜索引擎面临的最大困难就是返回的结果集包含了大量重复的信息，这些重复的信息不但占用了用户的大量时间加重了用户的负担，同时也占用了大量的存储空间和带宽，降低了索引的效率。因此，如何对搜索引擎结果集进行分类或者网页去重成为了提高搜索引擎检索效率的重要环节。
基于“近似指纹”的网页去重算法，由于将文本的字符串映射到hash值集合，将字符串匹配的问题转化成数值比较的问题，计算速度快，适合大规模运算。但是，在文本块大小和数量的选择存在诸多困难，最完整的文本块是文本全文当作一个文本块，这样的文本比较只能检测出一字不漏的文本复制，这种方法只能解决“一字不漏”的复制问题。基于“Shingle”相似度检测算法通过把文本分词，提取shingle特征，比较共同 shingle的数目来计算相似度。算法需要考虑相似度阈值、shingle滑动窗口大小、shingle 权重系数和论文属性等参数对网页去重算法的准确率和召回率的影响，并且消除相似度阈值设定的盲目性。
Streaming SIMD Extensions SSE4.2[3]是 hitel 自从 SSE2 之后对 ISA 扩展指令集最大的一次的升级扩展。SSE4.2的新指令面向了两大领域，分别是字符串与字符处理用的新指令STTNI和面向具体应用的加速处理ΑΤΑ。新指令集增强了从多媒体应用到高性能计算应用领域的性能，同时还利用一些专用电路实现对于特定应用加速。本发明依据 "Intel Core i7"系列处理器的体系结构优化代码，采用嵌入汇编SSE编码方式，以保证同时一次比对1 位的指纹。分析实验和实际应用表明此算法能在不损失任何保证查准率和查全率的同时，有效地提高文档相似度检测的速率。发明内容
本发明的目的是提出一种基于^tMD优化的网页去重并行方法，该基于SIMD优化的网页去重并行方法能在高查准率和高查全率的同时，有效地提高网页相似度检测的速率。
本发明的技术解决方案如下
一种基于^IMD优化的网页去重并行方法，其特征在于，包括以下步骤
步骤1 网页文本信息提取步骤该过程用于将网页有效信息提取出来；5
步骤2 Shingle提取步骤该过程用于提取网页特征，并生成Shingles集合；
步骤3:聚类步骤该过程用于降低比对次数，减小时间和空间复杂度；
步骤4:指纹比对步骤该过程用于寻找出相似网页，将相似的网页剔除。
步骤1的具体步骤为
对HTML、XHTML、XML网页格式的文件进行扫描，利用网页的标记信息提取出文本的标题，同时过滤掉与文本无关的信息。
步骤2的具体步骤为
首先，对提取的网页文本信息进行正向最大匹配分词处理，生成词语的集合；
然后，构建停用词表，并使用停用词表过滤掉网页中的噪音，按设定的窗口大小，生成Shingles集合；噪音即词语的集合中所存在的无意义的词。
正向最大匹配分词算法的主要流程如下假设自动分词词库中的最长词条中汉字个数为MAX，则取待处理文本中的前MAX个字作为匹配字段，查找分词词库，若词库中有这样一个MAX字词，则匹配成功，匹配字段作为一个词被切分出来；如果词库中找不到这样一个MAX字词，则匹配失败，把此匹配字段的最后一个字去掉，重复以上过程，直到匹配成功为止。这样就完成了一次匹配，即匹配出一个词。然后再按上面的步骤进行下去，直到切分出文本中的所有词为止。
从查准率和查全率来说，窗口大小越小越好；从显示效果来看，窗口大小越大，显示的效果越好。一般情况下窗口取2-4为宜。
步骤3的具体步骤为
首先，对于生成的Shingle集合，设Shingle集合大小为L，从Shingle集合中每隔 L/n 个 Shingle 选择 1 个 Shingle 作为其采样表 Sample_Shingle_List ；
然后，对Sample_Shingle_List使用M个不同的独立随机的置换Hash函数，采用的Hash函数将SampleJWngle_List中的所有shingle的特征分别转换为一个1 位的指纹集合Sample_Finger_List，从每个Sample_Finger_List中选择最小的指纹作为该网页的指纹；
最后，对于N个网页生成的指纹进行聚类，聚类时，将具有相同指纹的网页划归为一类，最终得到聚类后的网页集合。
M取7-10之间的整数。
采用M个独立随机的置换哈希(即Hash)函数Ji1, Ji2, ..., π M，就把任意一个文档(Kdocument)的 Sample_Shingle_List 集合即 & 转换为 Sample_Finger_List
Sample_Finger_List = (min{ π j (Sd) }， min{ π 2 (Sd) }, ...， min{ π M(Sd) })
举个例子
Ω = {1，2，3，4，5}，Sl = {1，2，3}，S2 = {1，2，4}，Ω 表示全集。
π 1{1, 2，3，4，5}-> {3，2，1，5，4}，π 1表示M个独立随机的置换哈希函数中的一个。
Ji 2{1, 2，3，4，5}-> {2，3，5，4，1}
...
JIM{1, 2，3，4，5}-> {5，3，1，2，4}
Ji I(Sl) = {3, 2，1} ； Ji 2(S1) = {2, 3，5} ； JiM(Sl) = {5, 3，1}；
Ji 1(S2) = {3, 2，5} ； Ji 2 (S2) = {2, 3，4} ； JiM(S2) = {5, 3，2}；
311是{1，2，3，4，5}-> {3，2，1，5，4}则就是
1- > 3，2- > 2，3- > 1，4_ > 5，5_ > 4，贝Ij π 1 (Si) = Ji 1 ({1，2，3})= {3， 2， 1}
其他的类推。
min(3i (Si)) = Sample_Finger_List(Sl) = {1, 2，1}
min( π 61))表示在每个集合Ji 1 61)，Ji 2 (Si),…，πΜ^Ι)中分别取一个最小值，由这些最小值组成的集合。
min(3i (S2)) = Sample_Finger_List(S2) = {2，2，2}
然后他们具有相同的指纹丨2丨，则归为一类。因为它们都有丨2丨这个元素。
步骤4的具体步骤为
根据聚类结果，将每一个类中的网页ID取出，设该类有η个网页，对于所有的网页的指纹集合为^fingerll Jinger2l ... JingernlΓ π ….fingerl2 finger22 ... fingern2
Matrixfinger_fingerlM finger2M …finger- ,的第b位如果是1-1,月^^^的第b位如果是0 ;x>0 、0, x<0 ‘
考虑每一列的指纹，首先生成一个1 维的向量V，每一位都初始化为0，考虑该列的每一个指纹中的每一比特，若该位为1，则向量V的相应位+1，若该位为0，则向量V的相应位-1;通过叠加后，对于向量V中为正的元素归为1，为负的元素归为0;
定义
权利要求
1.一种基于SIMD优化的网页去重并行方法，其特征在于，包括以下步骤步骤1:网页文本信息提取步骤该过程用于将网页有效信息提取出来；步骤2 Shingle提取步骤该过程用于提取网页特征，并生成Shingles集合；步骤3:聚类步骤该过程用于降低比对次数，减小时间和空间复杂度；步骤4:指纹比对步骤该过程用于寻找出相似网页，将相似的网页剔除。
2.根据权利要求1所述的基于SIMD优化的网页去重并行方法，其特征在于，步骤1 的具体步骤为对HTML、XHTML、XML网页格式的文件进行扫描，利用网页的标记信息提取出文本的标题，同时过滤掉与文本无关的信息。
3.根据权利要求1所述的基于SIMD优化的网页去重并行方法，其特征在于，步骤2 的具体步骤为首先，对提取的网页文本信息进行正向最大匹配分词处理，生成词语的集合；然后，构建停用词表，并使用停用词表过滤掉网页中的噪音，按设定的窗口大小，生成Shingles集合；噪音即词语的集合中所存在的无意义的词。
4.根据权利要求1所述的基于SIMD优化的网页去重并行方法，其特征在于，步骤3 的具体步骤为首先，对于生成的Shingle集合，设Shingle集合大小为L，从Shingle集合中每隔L/ η 个 Shingle 选择 1 个 Shingle 作为其采样表 Sample_Shingle_List ；然后，对Sample_Shingle_List使用M个不同的独立随机的置换Hash函数，采用的 Hash函数将Sample_Shingle_List中的所有shingle的特征分别转换为一个128位的指纹集合Sample_Finger_List，从每个Sample_Finger_List中选择最小的指纹作为该网页的指纹；最后，对于N个网页生成的指纹进行聚类，聚类时，将具有相同指纹的网页划归为一类，最终得到聚类后的网页集合。
5.根据权利要求1-4任一项所述的基于SIMD优化的网页去重并行方法，其特征在于，步骤4的具体步骤为采用以下两种方法中的任一种方法方法1:根据聚类结果，将每一个类中的网页ID取出，设该类有η个网页，对于所有的网页的指纹集合为
全文摘要
本发明公开了一种基于SIMD优化的网页去重并行方法，包括以下步骤步骤1网页文本信息提取步骤该过程用于将网页有效信息提取出来；步骤2Shingle提取步骤该过程用于提取网页特征，并生成Shingles集合；步骤3聚类步骤该过程用于降低比对次数，减小时间和空间复杂度；步骤4指纹比对步骤该过程用于寻找出相似网页，将相似的网页剔除。该基于SIMD优化的网页去重并行方法能在保证查准率和查全率的同时，有效地提高网页相似度检测的速率。
文档编号G06F17/27GK102024065SQ20111002100
公开日2011年4月20日申请日期2011年1月18日优先权日2011年1月18日
发明者张祖平, 罗跃逸, 袁鑫攀, 龙军申请人:中南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龙军;张祖平;袁鑫攀;罗跃逸
技术所有人：中南大学
我是此专利的发明人

上一篇：一种对信用风险进行评估的系统和方法
上一篇：一种在显示设备上显示光学可视编码的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。