基于内容与位置特征的近似web文档检测方法

文档序号:10612871阅读:252来源:国知局
基于内容与位置特征的近似web文档检测方法
【专利摘要】本发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。
【专利说明】
基于内容与位置特征的近似web文档检测方法
技术领域
[0001] 本发明涉及互联网空间中近似web文档的检测与去重领域,尤其涉及一种基于内 容与位置特征的近似web文档检测方法。
【背景技术】
[0002] 在信息检索领域,用户输入与查询目标相关的一组关键词进行网页搜索,通常会 遇到冗余信息过多、检索结果不明确的问题。一方面对搜索引擎系统而言,大量近似或者重 复的网页信息直接影响索引的构建过程,降低索引的建立与查询效率;另一方面,对搜索引 擎的使用者而言,真实的查询结果隐藏在大量重复信息中,增加了有效信息的甄别难度和 查询负担,将大大影响用户体验,并降低用户对搜索结果与性能的满意度(参见文献1与文 献2)。
[0003]互联网空间中的网络文档由于充斥着大量包括超链接文本与广告宣传栏等在内 的页面内噪音信息,因此对其内容近似或重复的检测较为困难。传统的文档复制检测技术 主要基于文件相互之间的内容重复度来对文件是否重复或近似作出判定,而web文档除了 可以利用文档的内容之外,还可以基于链接关系或网页对应的URL进行近似度的计算。
[0004] 基于web文档内容进行近似度判定的方法是目前研究的重点,以内容作为基本点, 判定内容近似度大于某一阈值的则为近似或重复文档,一般经过两个步骤:文档特征化和 近似度计算和近似判定。其中,文档特征化分方法从整体上可划分为基于语义和基于语法 两种类型,文档4提出了一种基于语义的文档近似度计算方法一一SCAM,该方法基于词频统 计挑选出一组关键词,采用相关频率模型RFM,将web文档特征化为关键词向量,以关键词向 量的距离作为文档近似度。RFM全称为relative frequency model,用来计算web文档间的 近似度,RFM模型通过对向量空间模型VSM向量距离计算公式进行改进,提高文档近似性判 定的精度和效率。文献5和7均是采用了与之类似的VSM近似检测算法和基于特征词的近似 镜像发掘算法。在此基础上,文献6提出CHECK方法将web文档的结构特征信息引入到近似度 计算和评估过程中。将文档特征化为以相应章、节、段落以及层级节点构成的文档树,利用 传统关键词项提取方法和启发式规则选取出能够代表文档内容特征的特征词,从上到下比 较文档树节点,并以节点匹配结果作为页面间近似性的判定依据。这种方法虽将web文档的 结构信息与内容信息共同结合起来计算,但是由于其时空复杂度较高,不适于包括搜索引 擎在内的海量网页近似度判定。
[0005] 而与之不同的是,文档8通过引入特征码和特征串等概念,试图进一步提高近似度 计算的精确度。特征码指的是在网页的特定区域包含的标点符号、摘要信息和特征字符,通 过将不同位置的特征码按照设定格式组合成特征串,将网页特征化为固定长度的特征串, 在网页近似度检测所称中,将各待测页面的特征串作为整体页面内容的特征表示,利用B-Tree等数据结构建立近似度计算和查询操作。这种方法通过将网页压缩成以标点符号和特 征词组成的特征串,然后以较短特征串进行近似度计算和判定,在海量数据计算中尽可能 减小单页面内容规模,提高了计算效率,同时,为了避免页面内噪音信息对计算过程的干 扰,引入重叠因子对特征串的作用进行了强化。
[0006] 文献9提出一种基于编辑距离的网页近似度判定和去重方法,将网页划分为同源 网页和非同源网页两种类型。首先选取ELFhash等散列函数将web文档对应的URL映射为散 列值,通过对散列值进行比较以此判断是否属于同源网页,同源网页即是重复网页,经过判 定如果是非同源网页则需进一步判定内容近似性。通过对网页源码进行清洗、去噪等操作, 抽取正文内容,并在此基础上提取能够代表页面内容的"指纹序列",利用编辑距离对网页 间的指纹序列进行相似性计算。最后将指纹序列的编辑距离纳入到web文档的差异度计算 过程中。此类方法在对页面内容近似度计算之前通过引入散列函数对页面的URL进行同源 检测,将较大程序节省内容提取和近似度计算的时间,提高判定效率。
[0007] 文献3在基于小世界模型与I-Match网页去重算法的基础上,为了增强近似度计算 的抗噪能力,避免对相关语料库的依赖性,提出一种基于概念语义共现网络的网页近似检 测方法,首先在对网页预处理的基础上抽取出代表文档的若干概念,构建语义网络,依据幂 等分布特点对Hub节点对语义网络的贡献度进行计算,并结合关键概念的位置和分布信息 构建特征向量,以特征向量的相似度作为文档的近似度。
[0008] 文献 1:JW Cooper,AR Coden,EW Brown.Detecting similar documents using salient terms. ACM International Conference on Information and Knowledge Management,2002·
[0009] 文南犬2:KM Hammouda,MS Kamel.Efficient Phrase-Based Document Indexing for Web Document Clustering.IEEE Transactions on Knowledge&Data Engineering, 2004.
[0010] 文南犬3:A Gionis,D Gunopulos,N Koudas.Efficient and Tunable Similar Set Retrieval.Acm Sigmod International Conference on Management of Data Acm,2001·
[0011] ^||^4:ffang.ff,Xiao.C,Lin.X.Efficient approximate entity extraction with edit distance constraints. In SIGMOD,2009.
[0012] 文南犬5:GS Manku,A Jain,A Das Sarma.Detecting near-duplicates for web crawling.International Conference on World Wide Web,2007.
[0013] 文献6 :Monostori,Kriszti,A Zaslavsky,H Schmidt .MatchDetectReveal: finding overlapping and similar digital documents, Information Resources Management Association International Conference,2000·
[0014] 文献7:ED Iorio,M Diligenti,M Gori .Detecting Near-replicas on the Web by Content and Hyperlink Analysis.IEEE/WIC International Conference on Web Intelligence,2003·
[0015] 文献8:S Ye,JR Wen,WY Ma.A systematic study on parameter correlations in large-scale duplicate document detection.Knowledge&Information Systems, 2008.
[0016] 文南犬9:N Shivakumar,H Garciamolina.Finding Near-Replicas of Documents on the Web.Lecture Notes in Computer Science,2000〇

【发明内容】

[0017] 针对已有web文档近似检测方法存在的一些问题,本发明提供一种基于文档内容 与位置特征的web文档近似性检测方法NWDCP(near_duplicate web documents detection based on content and position feature)。在传统文档近似性检测与网页去重方法的基 础上,将表征网页的词项集进行扩展,形成关键词项向量与词项概念,通过关键词项向量间 的相似度来计算网页文档之间的相似度,并基于词项概念构建位置特征向量,通过距离矩 阵统计两个文档正文中关键概念所处位置的距离分布和差异度。本发明提供的web文档近 似性检测方法综合考虑web文档的结构特点和特征词在页面内容的分布特征,提高了网页 近似性计算的精度。
[0018] 本发明提出了基于内容与位置特征的网页近似性检测方法,具体采用如下的实现 方案:
[0019] 一种基于内容与位置特征的近似web文档检测方法,包括下列步骤:
[0020] 步骤1:对网页文档WPX进行页面内去噪处理,获取网页经过页面内去噪后的正文 文本Ctx;
[0021] 步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF-IDF 值:记为 TF-IDF(w);
[0022] 步骤3:基于特定主题与文档的特点,设置阈值TF-IDFthr,对于词项w而言,如果丁?_ IDF(w) >TF-IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本 WP中选出TF-IDF值排Top N个关键词项W1,w2,…,w组成关键词项向量【;
[0023] 步骤4:对于任意两篇文档基于键词项向量丨计算二者之间的相似度 丁6叉七5:[111(肝3,肝1;).当了61七3;[111(肝 3,肝1;)>了61七3;[1]1伽时,所述的了61七3;[1]1伽是预定的文档相 似性阈值;认为文档WPs和WP t是相互近似的网页文本;否则,web文档Wps与WPt不近似;
[0024] 步骤5:在文档WP选取Μ个概念Cf(l彡f彡M),对关键概念在正文Ctx中的分布位置以 及出现次数进行统计,形成位置特征向量Fpx,该向量由Μ个行向量构成,每个行向量对应相 应的关键概念在文档中出现的所有位置;
[0025]步骤6:为了量化文档间结构方面的差异度,选取文档基于二者的位置特 征向量Fp4PFpb构建表示位置特征向量差异度大小的的距离矩阵,以此统计 两个文档正文中关键概念所处位置的距离分布和差异度;
[0026]步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文 档间的分布进行对比分析,基于距离矩阵7^;)统计两个文档正文中关键概念所处 位置的距离分布,并进行差异度计算。
[0027]步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库 INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和 差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;
[0028]步骤9:增量更新索引库INDB,将索引库已有内容与网页WPX对应的正文文本Ctx执 行合并更新。
[0029] 进一步的,所述的步骤4进一步包括以下子步骤:
[0030] 文档WPAWPt之间的相似度记为TeXtSim(WPs,WPt),i^P^^ v别是二者对应的关键 词项向量;关键词项向量间的相似度记为;使用关键词项向量间的相似度来计 算网页文档之间的相似度;
[0031] 文档WPs与WPt间的相似度定义为:
[0032]
[0033] 文档间的相似度由两方面决定,其中,表示基于向量$和€计算出的相似 度加权因子,而i/ecS/h (;, r,)表不关键词项向量的相似度;
[0034] 步骤4.1:首先找出两个与向量^和ξ相关的关键词项集Λ 3和Λ t,其中集合Λ 3是 在?的词项集中选择与向量$的某一词项相似度超出预定阈值的关键词项,At是在ζ的词 项集中选择与向量%的某一词项相似度超出预定阈值的关键词项;
[0035] 步骤4.2:基于集合Λ3与Λ t计算相似度加权因子以其计算结果度量两向 量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比;
[0036] 步骤4.3 :将,v,)定义为与向量_vs.和%的词项间相似度最大值相关的量 值,基于词项相似度计算向量相似度心cS7/h(v、, v;);
[0037] 步骤4.4:基于相似度加权因子<(^)与向量相似度1/£^1>?|(^,'^计算网页文档
[0038] 进一步的,所述的步骤7进一步包括以下子步骤:
[0039]步骤7.1:在某概念在文档WPa与Wpb中均存在的情况下,计算位置距离均值,将其他 情况统一置为0;所述的其他情况包括概念在文档中均不存在或只在其中一篇中存在的情 况;
[0040]步骤7.2:通过标准差计算关键概念匕(1^^彡1〇在文档1?3与1?4勺所处位置的距 离分布,Μ是在文档WP中选取的用于构建位置特征向量的概念总数;
[0041 ]步骤7.3:计算关键概念Ct( 1彡t<M)在文档WPAWpb的所处位置的差异度均值; [0042]步骤7.4:通过计算标准差Sa'b来表示文档WP a与Wpb中所有概念所处位置的差异度 分布。
[0043] 进一步的,所述的步骤4.1 中,设…K。,},% ,其 中11(1<1<111)和¥1;。(1<(3<11)分别表示组成向量_1^和_1纟的关键词项,111和11分别表示两个向 量的长度;[0044] Λ Λ *分别表示与s和t相关的两个集合,表示为:
[0045]
[0046]
[0047] 在公式5中,Simthr是相似度阈值,Sim(wsi,wtc)表示词项Wsi与词项Wtc的相似度,而 Sim(wt。,wsi)则表示词项wt。与词项wsi的相似度,u'Jj表示向量%中的词项 Ws1q 彡1彡P)与向量ζ中的所有词项wt。(1彡c彡q)的相似度的最大值,集合Λ s是在^的词项集中 选择与向量^的某一词项相似度超出预定阈值的关键词项,At是在^的词项集中选择与向 量^的某一词项相似度超出预定阈值的关键词项;
[0048] 所述的步骤4.2中,蝓的计算公式如式6所示:
[0049]
[0050] 式6中的p和q分别表示关键词项向量ζ和$的长度,TF-IDF(w)表示与关键词项w对 应的TF-IDF值,
表示关键词项wsi对应的TF-IDF值占向量 $中所有词项的TF-1DF值总和的比例,与之相同的j
)表 示关键词项wtc对应的TF-IDF值占向量^中的所有词项的TF-IDF值总和的比例,而i和j则分 别表示区间[1,P]和[l,q]的随机值;
[0051 ]所述的公式6在满足TF-IDF(w)>TF-IDFfc.的条件下才成立;
[0052] 所述的公式5与公式6结合表明向量vs和%间的相似度加权因子用于度量 两向量中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分 比;所述的百分比值越高,则加权因子越大,反之则越小。
[0053] 所述的步骤4.3中,向量相似度KeeS/m丨v、,vj是基于词项相似度计算得到的;将 FecS/wiJ,;)定义为与向量f和;的词项间相似度最大值相关的量值;
[0054]
[0055] 式7将FeriY/n (vs, vf)表不为向量&和%的词项间相似度最大值的平均值;首先逐一 固定ζ中的词项11 (K Kp),得到与向量^的所有词项的相似度,并求出最大值,然后求 和取均值avgtmpi;然后逐一固定向量VV中的词项Wt。(1彡C彡η),得到与向量%的所有词项的 相似度,并求出最大值,然后求和取均值avgtm P2;最后取均值avgtmpl和avgtmp2的平均值作为 (vs .s 的结果;
[0056] 根据所述的公式6与7,文档相似度是用基于关键词项向量间的相似度来计算的; 相似度加权因子>1/(^,卩)越大,向量相似度以5^(^,^)越大,贝 |1网页文档相似度161〖3;[111 (WPS,WPt)相应地越大;u/'?体现的是词项在所属的向量中所占 TF-1DF值的比例,而 FeeSmdf)则体现文档WPS和WPt两篇文档中含有的相似度超出设定阈值的相似词项个 数;在词项的TF-IDF值所占百分比较高,且文档间含有较多相似词项的情况下,则文档相似 性相应较高。
[0057] 进一步的,所述的步骤5中,在文档WP选取Μ个概念Cf ( Kf <M),构建位置特征向 量,记作Fpx,有= ((? …X>,,…山位置特征向量FpdE^关键概念在网页文档 经页面内去噪后的正文中所处的位置,其中,位置特征向量Fpx的每项$(丨< / < Μ)表示 为〇口£=(?08£,1,?08£,2,"_,?08£,」^",?08|^),是一个行向量,表示第;^个关键概念在文档中 出现的所有位置,Posy表示第f个关键概念第j次出现的位置,Ν表示第f个关键概念在文档 中出现的总次数,记为times(C s),为促使向量Fpx中各行向量维度保持一致,设Q为文档WP中 各概念出现总次数的最大值,有0 = ;将位置特征向量Fpx表示如式8所示:
[0058]
[0059] 在式8中,Pos的含义不固定,可分成两种情况。对任意概念Ce(l彡e彡M),在times (Ce)=Q的情况下,P〇Sq(l彡j彡Q)表示为概念Ce在文档正文中的实际位置;如果timeMCe) <0,则?〇8 (3,1;(1<1^1:;[11168(03))表示概念03在文档正文中的位置,而?08 (3,:1(1:;[11168(03)<1 <Q)则置为nuU^nuUt表示文档WP中概念C e没有出现过第t次。
[0060] 进一步的,所述的步骤7.1中,设文档WPjPWPb对应的位置特征向量分别为和 ^;设$表示文档WPS的第η个关键概念CA现的所有位置,相应地,/??表示概念匕在文 档WP S中第j次出现的位置,且有巧^ = @@)和]^ =(石?,设,...,没,...破), Μ表示两向量中概念的个数;定义位置特征向量间的距离矩阵力,厂/;,,),表示向量 :^与:^之间的距离,其计算方法如式9所示,
[0061] 公式9中,▽厂叫::丨'(I ?ν/.Ι W ^ 0表示文档WP^与文档WPb中共有的关键概念Q 出现第j次的位置距离,表示为概念在二者正文中所处位置的差值;
[0062]
[0063] 由于各概念在两个文档正文中出现的次数不同,因此在有非数值符号nule,t,其 中,e,t满足条件 :l<e<M,l<t<Q)引入的情况,对的计算既包括数值处理,也包括 符号定义;
[0064]
[0065] 式10中的nul (parameter)和numeric(parameter)代表两个返回逻辑值的函数或 过程,Λ表示逻辑与运算;其中,nul(parameter)用于判定赋予的参数parameter是否是nul 标识符号,而numeric (parameter)则用于判定赋予的参数parameter是否是表示概念所处 位置的数值。在与中有且只有一个值是nul的情况下,表示为代表关 键概念在文档中所处位置的一种差异,是在一个文档中出现第j次,而未出现在另外一个文 档中;
[0066] 关键概念Ct(l彡t彡M)在文档WPa与Wpb的位置距离均值记为J增f,其计算公式见 式11,
[0067]
[0068] 其中h代表概念Ct(l<t<M)在文档WPAWpb中出现次数times(Ct)的最小值,即 =雜{_氣A(c,)hl 1表示位置差 ¥乃<6的绝对值。公式表明位置距离均 值的计算只考虑概念在文档WPa与Wpb中均存在的情况,而均不存在或只有其中一篇中存在 的情况统一置为0;
[0069]所述的步骤7.2中,关键概念匕(1^^彡1〇在文档1?3与1?4勺所处位置的距离分布 通过标准差σ广来表示。
[0070]
[0071] 因此,关键概念集{&,&,···,CM}在文档WPgWpb中位置距离分布表示为
[0072]
[0073]所述的步骤7.3中,关键概念匕(1彡丨彡1〇在文档1?3与1?4勺所处位置的差异度记 为dd(Ct),表示为概念Ct仅在两篇文档其中一个出现的次数总和,具体表现为距离 矩阵中第t行值为nul的元素总个数,在1~Μ关键概念范围内,位置差异度均值记为,有
[0074]
[0075]文档中所有概念所处位置的差异度分布同样通过标准差sa'b来表示,公式 如式15所示。
[0076]
[0077] 在式15中,r表示区间[1,M]中的随机数。
[0078] 进一步的,所述的步骤8中:所述的文档中关键概念的位置距离和差异度均小于设 定阈值,即满足〇a, b<〇thr且以3,1)<以1^且8 £1,15<81^这三个条件,其中,〇1^表示标准差口;<' 4对 应的设定阈值,ythr表示位置差异度均值ya'b对应的阈值,而 Sthr表示标准差sa'b对应的阈值; 则可判定文档是近似或重复页面;在此使用符号~来表示网页文本的近似或重复, 记为Wp a~Wpb,否则不是近似网页。
[0079] 本发明的有益效果是:
[0080] 1)在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面 内噪音内容对近似web文档检测过程的影响;
[0081] 2)在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点 与位置特征进行对比,提高了近似页面检测的精度;
[0082] 3)充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中 关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性。
[0083] 4)将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语 料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。
【附图说明】
[0084] 图1是本发明提供的基于内容与位置特征的近似web文档检测方法的整体算法流 程图;
[0085]图2是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检 测方法在税务领域针对查准率评测指标的对比实验折线图;
[0086]图3是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检 测方法在税务领域针对查全率评测指标的对比实验折线图;
[0087]图4是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检 测方法在科技领域针对查准率评测指标的对比实验折线图;
[0088]图5是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检 测方法在科技领域针对查全率评测指标的对比实验折线图;
[0089]图6是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检 测方法在经济领域针对查准率评测指标的对比实验折线图;
[0090] 图7是本发明提供的基于内容与位置特征的近似web文档检测方法与其他三种检 测方法在经济领域针对查全率评测指标的对比实验折线图;
[0091] 图8是本发明提供的基于内容与位置特征的近似web文档检测方法在税务、科技与 经济三个领域内各主题特征类别中的对比实验分组条形图。
【具体实施方式】
[0092]为了便于理解本发明提出的近似web文档检测方法NWDCP,先对本发明所提出的相 关理论进行详细描述:
[0093]首先引入对"概念"的解释。概念(Concept)是将所感知的一组对象的共同特征以 理性思维加以概括,从而形成的一种认知形态。概念的表达形式包括单独的字、词甚至短 语。概念往往基于一个词项,根据其语义进行外延,形成表达事物本质属性或实体的同义词 项集(Synonym Set)。用概念代替词项来作为网页文档的0彡Sim(a,b)彡1特征,更能体现语 义层次的近似页面检测,使选取的文本特征拟合文本实际内容的准确性较高。对于词项e而 言,与之对应的同义词集和概念分别记为Syns(e)和Concept(e)。如果词项w与e是同义关 系,贝有weSyns(e)。可以使用与e对应的概念Concept(e)来表示词项集E(E = {e})本身与 其同义词集的并集,概念Concept(e)中包含的词项个数记为|Concept(es) | ·
[0094] Concept (e) = E U Syns(e),Syns(e) = {stk|keN*,ee(EH Syns(stk))} (1)
[0095] 在式(1)中,#表示正整数集,k表示正整数代表同义词编号,而stijlj表示e的同义 1·^] 〇
[0096]词项a与b的相似度(Similarity)记为Sim(a,b),根据数据挖掘相关理论,二者之 间的相似度Sim(a,b)满足如下三个条件:
[0097] 条件一:相似度量值的范围为[0,1],即满足0<Sim(a,b)<l。
[0098] 条件二:对于任意的a和b,等式Sim(a,b) =Sim(b,a)均成立;
[00"] 条件三:Sim(a,b) = 1在当且仅当a = b的情况下才成立。
[0100]在满足上述条件的情况下,词项间的相似度的值由语义相关性所决定。详细说明 便是:如果词项a与b相同,贝lj有Sim(a,b) = l;如果a与b不同,但是存在一定程度的语义相关 关系,那么这种情况下Sim(a,b)可通过相关度Cor(a,b)计算求出;其他情况下Sim(a,b)均 置为〇.
[0101 ] 如果Sim(a,b) >thr(thr为词项相似度阈值,是一个经验值),则认为用于比较的 两个词项相同,否则不同。
[0102]除基本词项之外,也可基于由多个字或词组成的词组或短语形成概念。将m个词项 e组成的短语记为gv,gv= {ei,e2,"_em},其中m表示构成短语gv的词项总数,而ei(Ki彡m) 则表示构成短语gv的各词项。短语gv对应的概念Concept (gv)表示组成短语gv的各词项对 应的概念集合,见式2:
[0103] Concept(gv) = {stlv,st2v,…,stmv |ie[l,m],eie(gvn Syns(stiv)} (2)
[0104] 式(2)中,[1,m]表示从1到m的闭合区间,ei表示构成短语的单个词项,m表示构成 短语gv的词项总数,而stmv则表示构成短语gv的各词项的同义词。
[0105] 与词项相似度不同的是,对概念而言,由于概念是词项与其对应的同义词集的结 合体,且本身已具备一定程度语义性,因此应按照集合间关系来计算概念间的相似度。对于 由词项8与13形成的两个概念(]〇1106口1:(3)与&31106口1:(13),二者之间相似度3;[111((]〇1106口1:(&), Concept (b))的计算方法如公式3所示:
[0106]
[0107] 式3表明概念相似度是通过概念之间相同同义词所占的比例来计算得到的,其中 Concept(a) HConcept(b) |表不a与b对应概念相互重叠的部分。
[0108] 如果Sim(Concept(a),Concept(b)) >Simthr(Simthr为概念相似度阈值,是一个经 验值),则认为用于比较的两个概念相同,否则不同。
[0109] -种基于内容与位置特征的近似web文档检测方法:包括如下步骤:
[0110] 步骤1:对网页文档WPX进行页面内去噪处理,获取网页经过页面内去噪后的正文 文本ct x;
[0111] 步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项w的TF-IDF 值:记为 TF-IDF(w);
[0112] 步骤3:基于特定主题与文档的特点,设置阈值TF-IDFthr,对于词项w而言,如果丁?_ IDF(w) >TF-IDFthr,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本 WP中选出TF-IDF值排Top N个关键词项W1,w2,…,w组成关键词项向量L
[0113] 步骤4:对于任意两篇文档基于键词项向量[计算二者之间的相似度 丁6叉七5:[111(肝3,肝1;).当了61七3;[111(肝 3,肝1;)>了61七3;[1]1伽时,所述的了61七3;[1]1伽是预定的文档相 似性阈值;认为文档WPs和WP t是相互近似的网页文本;否则,web文档WPs与WPt不近似;文档 WPS与WPt之间的相似度记为1^#5加(1?3^*),:^和 :^分别是二者对应的关键词项向量。关 键词项向量间的相似度记为。可以使用关键词项向量间的相似度来计算网页 文档之间的相似度。
[0114] 设,. v? ,其中wsi(KKm)和wtc(Kc 彡η)分别表示组成向量^和^的关键词项,m和η分别表示两个向量的长度;文档WPgWPt间 的相似度定义为:
[0115]
[0116] 式4中,<(VS,_V,.)表不基于向量_1^和·^计算出的相似度加权因子。这个加权因子是基 于具体的关键词项向量动态计算得到的,在整个文档相似度计算过程中是充当一个变量而 非一个常量。在介绍"/(^的计算方法之前,先引入对这两个符号的定义。
[0117] Λ 3和Λ t分别表示与s和t相关的两个集合,表示为:
[0118]
[0119]
[0120] 在公式5中,Simthr是相似度阈值,Sim(wsi,wtc)表示词项Wsi与词项Wtc的相似度,而 S im (wt。,ws 1)则表示词项wt。与词项ws 1的相似度,丨表示向量_ 中的词项ws 1 (1 彡1<P)与向量ζ中的所有词项wtc(l彡c彡q)的相似度的最大值,可以看出,集合八3是在;; 的词项集中选择与向量^的某一词项相似度超出预定阈值的关键词项,而类似的是,八*是 在g的词项集中选择与向量€的某一词项相似度超出预定阈值的关键词项。
[0121] Μ./?)的计算公式如式6所示:
[0122]
[0123] 式6中的ρ和q分别表示关键词项向量$和g的长度,TF-IDF(w)表示与关键词项w对 应的TF-IDF值,
;)表示关键词项wsi对应的TF-IDF值占向 量ζ中所有词项的TF-IDF值总和的比例,与之相同的是
表示关键词项wtc对应的TF-IDF值占向量^中的所有词项的TF-IDF值总和的比例,而i和j则 分别表示区间[1,P]和[l,q]的随机值。
[0124] 特别地,公式6在满足TF-IDF(w) >TF-IDFthr.的条件下才成立。
[0125] 公式5与公式6结合表明向量%.和%间的相似度加权因子u/( v、,v,)用于度量两向量 中TF-IDF值超出设定阈值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比。百分 比值越高,则加权因子越大,反之则越小。
[0126] 向量相似度%>是基于词项相似度计算得到的。因为关键词项向量是由 词项组成的,两个向量间相似度越高,表明两个向量均含有的相似词项较多,因此,可以参 考集合Λ ;5和Λ t的定义,将定义为与向量6和·^的词项间相似度最大值相关的
量值。
[0127]
[0128] 式7将Pec&V?? (i.,s, vf)表不为向量%和V,的词项间相似度最大值的平均值。首先逐一 固定?中的词项^1 (Κ Kp),得到与向量^的所有词项的相似度,并求出最大值,然后求 和取均值avgtmpi。然后逐一固定向量ν,中的词项w t。(1彡c彡η),得到与向量&的所有词项的 相似度,并求出最大值,然后求和取均值avgtmp2。最后取均值avgtmpl和avgtmp2的平均值作为 的结果。
[0129] 综合公式6与7,文档相似度是用基于关键词项向量间的相似度来计算的。显而易 见,相似度加权因子越大,向量相似度rec&kdD越大,则网页文档相似度 TextSim(WPs,WPt)相应地越大。体现的是词项在所属的向量中所占 TF-IDF值的比 例,而心cS/Μ?;?则体现文档WPS和WPt两篇文档中含有的相似度超出设定阈值的相似词 项个数。在词项的TF-IDF值所占百分比较高,且文档间含有较多相似词项的情况下,则文档 相似性相应较高。
[0130] 步骤5:在文档WP选取Μ个概念Cf(l彡f彡M),对关键概念在正文Ct x中的分布位置以 及出现次数进行统计,形成位置特征向量Fpx,该向量由Μ个行向量构成,每个行向量对应相 应的关键概念在文档中出现的所有位置;
[0131] 在文档WP选取Μ个概念Cf ( 1彡f彡Μ),构建位置特征向量,记作Fpx,有 = (QvQ^,…X>, 位置特征向量Fpx记录关键概念在网页文档经页面内去噪 后的正文中所处的位置,其中,位置特征向量Fpx的每项(:>,(1 2 / )表示为Cpf = (Posf, 1, P〇Sf,2,…,P〇Sf, j,…,P〇Sf,N),是一个行向量,表不第f个关键概念在文档中出现的所有位 置,Posy表示第f个关键概念第j次出现的位置,N表示第f个关键概念在文档中出现的总次 数,记为timeS(C s),为促使向量Fpx中各行向量维度保持一致,设Q为文档WP中各概念出现总 次数的最大值,有P = U。将位置特征向量??\表示如式8所示:
[0132]
[0133] 在式8中,Pos的含义不固定,可分成两种情况。对任意概念Ce(l彡e彡M),在times (Ce)=Q的情况下,P〇Sq(l彡j彡Q)表示为概念Ce在文档正文中的实际位置;如果timeMCe) <0,则?〇8 (3,1;(1<1^1:;[11168(03))表示概念03在文档正文中的位置,而?08 (3,:1(1:;[11168(03)<1 彡Q)则置为nuU t duU t表示文档WP中概念Ce没有出现过第t次,注意nuU t不是数值,仅充 当一种符号标识作用。
[0134] 步骤6:为了量化文档间结构方面的差异度,选取文档基于二者的位置特 征向量Fp4PFpb构建表示位置特征向量差异度大小的的距离矩阵),以此统计 两个文档正文中关键概念所处位置的距离分布和差异度;
[0135] 步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文 档间的分布进行对比分析,基于距离矩阵统计两个文档正文中关键概念所处 位置的距离分布,并进行差异度计算。
[0136] 设文档WPjPWPb对应的位置特征向量分别为,两个向量包含的概念名称和 顺序是相同的。设@表示文档WPS的第η个关键概念(^出现的所有位置,相应地,Ρα<7表示概 念Ci在文档WPs中第j次出现的位置,且有瓦= = 示两向量中概念的个数。定义位置特征向量间的距离矩阵为D欲($,?),表示向与 ^之间的距离,其计算方法如式9所示,
[0137] 公式9中,νΑΛ^χ? y 表示文档WP^与文档WPb中共有的关键概念Ci 出现第j次的位置距离,表示为概念在二者正文中所处位置的差值。
[0138]
[0139] 由于各概念在两个文档正文中出现的次数不同,因此在有非数值符号nuUt(其 中,e,t满足条件:l?M,l$t彡Q)引入的情况,对νΡοΛ^的计算既包括数值处理,也包括 符号定义。
[0140]
[0141 ] 式10中的nul (parameter)和numeric(parameter)代表两个返回逻辑值的函数或 过程,Λ表示逻辑与运算。其中,nul(parameter)用于判定赋予的参数parameter是否是nul 标识符号,而numeric (parameter)则用于判定赋予的参数parameter是否是表示概念所处 位置的数值。在中有且只有一个值是nul的情况下,表示为^,代表关 键概念在文档中所处位置的一种差异(在一个文档中出现第j次,而未出现在另外一个文档 中)。
[0142] 基于距离矩阵7?)统计两个文档正文中关键概念所处位置的距离分布 和差异度(difference degree)。
[0143] 关键概念Ct(l彡t彡Μ)在文档WPa与Wpb的位置距离均值记为dygf,其计算公式见 式11,
[0144]
[0145] 其中h代表概念Ct(l<t<M)在文档WPAWpb中出现次数times(Ct)的最小值,即
表示位置差的绝对值。公式表明位置距离均 值的计算只考虑概念在文档WPa与Wpb中均存在的情况,而均不存在或只有其中一篇中存在 的情况统一置为〇.
[0146] 关键概念Ct(l彡t彡Μ)在文档WPAWpb的所处位置的距离分布通过标准差σ广来表 不。
[0147]
[0148] 因此,关键概念集{&,C2,…,Cm}在文档WPgWpb中位置距离分布表示为
[0149]
[0150] 关键概念Ct(l彡t彡M)在文档WPa与Wpb的所处位置的差异度记为dd(C t),表示为概 念ct仅在两篇文档WPj^Wpb其中一个出现的次数总和,具体表现为距离矩阵中第t行值为 nul的元素总个数,在1~Μ关键概念范围内,位置差异度均值记为ya,b,有
[0151]
[0152] 文档中所有概念所处位置的差异度分布同样通过标准差sa'b来表示,公式 如式15所示。
[0153]
[0154] 在式15中,r表示区间[1,M]中的随机数。
[0155] 在通过网页相似性计算方法初步确定文档WPa与Wpb近似后,计算关键概念在文档 正文中位置距离分布与差异度;
[0156] 步骤8:以关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库 INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和 差异度均小于设定阈值,即满足〇a, b<0thr且ya,b<ythi^S a,b<Sthr这三个条件,其中,〇thr表 示标准差对应的设定阈值,y thr表示位置差异度均值ya'b对应的阈值,而Sthr表示标准差 sa'b对应的阈值。则可判定文档是近似或重复页面。在此使用符号~来表示网页文 本的近似或重复,记为Wp a~Wpb,否则不是近似网页;
[0157] 步骤9:增量更新索引库INDB,将索引库已有内容与网页WPX对应的正文文本Ctx执 行合并更新。
[0158] 由于主题爬虫爬取过程中处理的网页数量是海量的,且要求较高的爬行效率,因 此如何设计存储结构成为关键。倒排索引(Inverted Index)在包括垂直搜索研究在内的信 息检索领域中起着不可替代的作用,通过存储词项在网页文档集中的位置映射,可使索引 的调用者高效快速地根据单个词或词组成功获取倒排索引中存储的对应网页列表成为可 能,这也是Google等搜索引擎能够在毫秒级内返回千万条检索结果的重要原因。在索引技 术中,为了控制索引文件的大小,一般采用压缩技术对其数据结构进行压缩,提高索引的查 询效率、缩小存储空间。鉴于倒排索引的诸多优点,本文使用倒排索引作为页面中关键词项 向量和位置特征向量的存储和访问媒介。在主题爬虫对网页文件进行爬取的过程中,判定 网页WP X是否与已爬取的网页文档是否重复的过程被称为网页去重。引入倒排索引后,网页 去重的操作就转换为判断待爬取网页文档WP X是否与倒排索引库中已爬取页面重复。如果 判定重复,则认为WPX是重复页面而进行剔除,并将其关键词项向量和位置特征向量存入已 建倒排索引库中去,实现索引库的更新操作。
[0159]为检测本发明提出的基于内容与位置特征的近似网页检测方法的性能与可行性, 利用主题爬虫(不做网页去重处理)在税务、科技与经济这3大领域基于若干组主题特征词 爬取一定数量的网页,在爬取结果中分别运行I-Match、SCAM、CHECK算法以及本发明提供的 web文档近似检测方法NWDCP检测出近似页面,并基于评测指标对实验结果进行对比分析。 本发明所采用的实验数据集由领域名称、主题特征词类别、主题特征词组数以及爬取的URL 数量组成,见表1所示。
[0160] 首先提出用于对实验结果进行分析的评测指标:近似网页查全率(Recall Ratio) 和近似网页查准率(Precision Ratio),其中近似网页查全率指标可以简称为RR,而近似网 页查准率可以简称为PR.二者的定义见如下所示:
[0161]
[0162] 在税务领域中进行网页爬取之前,分别选取25组主题特征词进行独立网页爬行实 验,其中,8组对应企业情报类别,2组对应税收经验类别,12组对应产权交易类别,3组对应 税务领域的其他类别。并对其中抓取的网页进行4种近似网页检测算法的对比实验,图2和3 所示的是这4种算法对应的实验结果。
[0163] 表1:数据集由领域名称、主题特征词类别、主题特征词组数及爬取的URL组成
[0164]
[0166] 科技领域选取27组主题特征词用于网页爬取,其中,5组对应高科技产业类别,8组 对应科技热点类别,11组对应科技时事类别,3组对应科技领域的其他类别。4种检测方法对 应的实验结果如图4、5所示。
[0167] 经济领域选取20组主题特征词用于网页爬取,其中,11组对应热点解析类别,2组 对应世界贸易类别,6组对应财经股票类别,1组对应经济领域的其他类别。4种检测方法对 应的实验结果如图6、7所示。
[0168] 从图2至图7所示的4种近似页面检测算法在税务、科技与经济领域网页中的对比 实验结果可以看出,在近似网页查全率与近似网页查准率两个评测指标上,本发明提供的 基于文档内容与位置特征的web文档近似性检测方法NWDCP均具有明显的优势,相比其他3 种检测方法,NWDCP在一定程度上提高了近似网页检测的准确度,降低近似或重复网页的误 判率。
[0169] 为进一步验证本发明提供的基于文档内容与位置特征的web文档近似性检测方法 NWDCP的有效性与检测效率,利用NWDCP检测方法对表1所示数据集的各领域中不同主题特 征词类别进行分组统计实验,表2所示的是针对各主题域进行的近似网页检测算法的实验 统计数据。其中,"主题特征类别"列表明每个领域均分为4组,分别对应表1中各领域的不同 主题特征词类别。其中,了 &^13&1_23&1_3和了&1_4列分别表示税务领域的"企业情报"、 "税收经验"、"产权交易"和"其他"类别;Tech_l、Tech_2、Tech_3和Tech_4列分别表示科技 领域的"高科技产业"、"科技热点"、"科技时事"和"其他"类别;Econ_l、Econ_2 4〇〇11_3和 Econ_4列则分别表示经济领域的"热点解析"、"世界贸易"、"财经股票"和"其他"类别。表2 的雨与7^两列分别表示各主题特征类别下近似网页查准率与近似网页查全率的平均值。 [0170]表2:近似网页检测算法实验统计数据
[0171]
[0173] 图8所示的是在爬行时间为lh(h表示小时)、3h、6h与9h的限定条件下,本发明提出 的NWDCP检测方法在各主题特征类别内爬行时统计得到的近似网页查准率与近似网页查全 率平均值对应的条形图。图8是表2中Μ与通 :两列数据进行图形化转换的结果,以便较直 观地观察到各类别中近似网页检测的效果。
[0174] 需要说明的是,在近似网页检测算法中,近似网页查准率平均值表示检测正确的 近似页面占当前所有网页文档的比例,而近似网页查全率平均值则表示检测正确的近似页 面占 web空间中所有近似网页文档的比例。结合表2与图8可以看出,各主题域内的而与Μ 均保持在90%以上,有的类别甚至超过95%,例如Tax_l(税务领域中的企业情报类别)、 Tech_l (科技领域中的高科技产业类别)、Tech_2(科技领域中的科技热点类别)等。且从各 主题特征类别对应的执行时间可以看出,检测方法耗费的时间并没有随检测的近似网页数 的增减呈现较大的波动,说明方法较为稳定。结合表2的7^、与"执行时间"三列可发现 本发明提供的NWDCP检测方法在提高近似网页检测成功率的情况下保持了实际运行的有效 性与稳定性。
[0175] 上述实例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权 利要求的保护范围内,对本发明做出任何的修改和改变,都落入本发明的保护范围。
【主权项】
1. 一种基于内容与位置特征的近似web文档检测方法,其特征在于,包括下列步骤: 步骤1:对网页文档Wx进行页面内去噪处理,获取网页经过页面内去噪后的正文文本 Ctx ; 步骤2:对网页正文Ctx进行中文分词操作,逐一计算其正文文本的所有项W的TF-IDF值: 记为TF-IDF(w); 步骤3:基于特定主题与文档的特点,设置阔值TF-IDFthr,对于词项W而言,如果TF-IDF (W) >TF-IDFthr,则选取其作为关键词项;否则,忽略相应词项W并进行归类;从网页文本WP 中选出TF-IDF值排Top N个关键词项wi,W2,···,WN组成关键词项向量苗; 步骤4:对于任意两篇文档Wps与WPt,基于键词项向量;计算二者之间的相似度TextSim (WPs ,WPt).当TextSim(WPs ,WPt) >TextSimthr时,所述的TextSimthr是预定的文档相似性阔 值;认为文档WPs和WPt是相互近似的网页文本;否则,web文档Wps与WPt不近似; 步骤5:在文档WP选取Μ个概念Cf (1《M),对关键概念在正文Ctx中的分布位置W及出 现次数进行统计,形成位置特征向量巧X,该向量由Μ个行向量构成,每个行向量对应相应的 关键概念在文档中出现的所有位置; 步骤6:为了量化文档间结构方面的差异度,选取文档WPa与WPb,基于二者的位置特征向 量巧a和Fpb构建表示位置特征向量差异度大小的的距离矩阵D/巧此统计两个 文档正文中关键概念所处位置的距离分布和差异度; 步骤7:为了对文档间各概念所处位置的差异性均值、波动范围W及不同概念在文档间 的分布进行对比分析,基于距离矩阵风y/'C^.巧;)统计两个文档正文中关键概念所处位置 的距离分布,并进行差异度计算; 步骤8: W关键词项向量Vx和位置特征向量Fpx作为检索参数,查询已建倒排索引库 INDB,在与已有索引库记录的文档相似性超出预设阔值,且文档中关键概念的位置距离和 差异度均小于设定阔值的情况下,则认定页面是近似网页,否则不是近似网页; 步骤9:增量更新索引库INDB,将索引库已有内容与网页Wx对应的正文文本Ctx执行合 并更新。2. 根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在 于,所述的步骤4进一步包括W下子步骤: 文档WPs与WPt之间的相似度记为了6別5山(胖?3,胖?〇,是和耳分别是二者对应的关键词项 向量;关键词项向量间的相似度记为似.訊,如:,'。;使用关键词项向量间的相似度来计算网 页文档之间的相似度; 文档WPs与WPt间的相似度定义为:文档间的相似度由两方面决定,其中,W/反,&表示基于向量?和;计算出的相似度加 权因子,而0\。表不关键词项向量的相似度; 步骤4.1:首先找出两个与向量吝和;相关的关键词项集As和At,其中集合As是在Η 的词项集中选择与向量^的某一词项相似度超出预定阔值的关键词项,At是在;的词项集 中选择与向量;的某一词项相似度超出预定阔值的关键词项; 步骤4.2:基于集合Λ S与Λ t计算相似度加权因子IV/杞万),W其计算结果度量两向量中 TF-IDF值超出设定阔值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比; 步骤4.3:将細iiVs)定义为与向量V,和K的词项间相似度最大值相关的量值,基于 词项相似度计算向量相似度於Λ扣w(;v、. V|.); 步骤4.4:基于相似度加权因子μ/拓兩与向量相似度於c况/η(苗,。计算网页文档相似 度TextSim(WPs,WPt).。3. 根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在 于,所述的步骤7进一步包括W下子步骤: 步骤7.1:在某概念在文档WPa与Wpb中均存在的情况下,计算位置距离均值,将其他情况 统一置为0;所述的其他情况包括概念在文档中均不存在或只在其中一篇中存在的情况; 步骤7.2:通过标准差计算关键概念Ct( 1《t《M)在文档WPa与Wpb的所处位置的距离分 布,Μ是在文档WP中选取的用于构建位置特征向量的概念总数; 步骤7.3:计算关键概念。(1《杉1)在文档¥?3与¥即的所处位置的差异度均值; 步骤7.4:通过计算标准差33'6来表示文档11^^¥即中所有概念所处位置的差异度分布。4. 根据权利要求2所述的一种基于内容与位置特征的近似web文档检测方法其特征在 于: 所述的步骤4.1中,设1;,=如,|,抑',;,>^;,,->^、,,,},1,,=如1,%2,>吃.,".从。,},其中巧31(1《1《111) 和wtc (1《C《η)分别表示组成向量14.和的关键词项,m和η分别表示两个向量的长度; Λ S和Λ t分别表示与S和t相关的两个集合,表示为:在公式5中,Simthr是相似度阔值,Sim(wsi,wtc)表示词项Wsi与词项wtc的相似度,而Sim (wtc,wsi)贝懐示词项wtc与词项wsi的相似度,門佩"(伯,唯:)}表示向量S中的词项 《P)与向量??中的所有词项wt。( 1《C《q)的相似度的最大值,集合Λ S是在;的词项集中选 择与向量^的某一词项相似度超出预定阔值的关键词项,At是在^的词项集中选择与向量 ?的某一词项相似度超出预定阔值的关键词项; 所述的步骤4.2中,的计算公式如式6所示:式6中的P和q分别表示关键词项向量^和巧的长度,TF-IDF( W)表示与关键词项W对应的 TF-IDF值,巧表示关键词项wsi对应的TF-IDF值占向量 中所有词项的TF-IDF值总和的比例,与之相同的是表 示关键词项wtc对应的TF-IDF值占向量;中的所有词项的TF-IDF值总和的比例,而i和j则分 别表示区间[1,P]和[l,q]的随机值; 所述的公式6在满足TF-IDF(w) >TF-IDFthr.的条件下才成立; 所述的公式5与公式6结合表明向量;和苗间的相似度加权因子用于度量两向 量中TF-IDF值超出设定阔值的关键词集的TF-IDF值占所有词项TF-IDF值总和的百分比;所 述的百分比值越高,贝阳日权因子越大,反之则越小。 所述的步骤4.3中,向量相似度v\.,vj是基于词项相似度计算得到的;将 讯,2(与,。定义为与向量?和S的词项间相似度最大值相关的量值;式7将似.义。,后。隶示为向量石和是的词项间相似度最大值的平均值;首先逐一固定 ;中的词项wsi(l《l《p),得到与向量ζ的所有词项的相似度,并求出最大值,然后求和取 均值avgtmp 1;然后逐一固定向量1?.中的词项Wtc (1《C《η),得到与向量的所有词项的相似 度,并求出最大值,然后求和取均值avgtmp2 ;最后取均值avgtmpl和avgtmp2的平均值作为 K('r57";(i.'、,l·',)的结果; 根据所述的公式6与7,文档相似度是用基于关键词项向量间的相似度来计算的;相似 度加权因子越大,向量相似度你边細越大,贝>1网页文档相似度TextSim(WPs, WPt)相应地越大;体现的是词项在所属的向量中所占 TF-IDF值的比例,而 杯('訊Η(与则体现文档WPs和WP厢篇文档中含有的相似度超出设定阔值的相似词项个 数;在词项的TF-IDF值所占百分比较高,且文档间含有较多相似词项的情况下,则文档相似 性相应较高。5.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在 于: 所述的步骤5中,在文档WP选取Μ个概念Cf (1《f《M),构建位置特征向量,记作巧X,有 巧皮兩/每;',…,巧…巧。.位置特征向量Fpx记录关键概念在网页文档经页面内去噪 后的正文中所处的位置,其中,位置特征向量巧X的每项每^(1 < / <始)表示为Cpf = ( POSf, 1, P〇Sf,2,···,P〇Sf,j,…,P〇Sf,N),是一个行向量,表示第f个关键概念在文档中出现的所有位 置,P〇sf,j表示第f个关键概念第j次出现的位置,N表示第f个关键概念在文档中出现的总次 数,记为times(Cs),为促使向量巧X中各行向量维度保持一致,设Q为文档WP中各概念出现总 次数的最大值,扣9 = i"門?. 心/ > h将位置特征向量巧X表示如式8所示:在式8中,Pos的含义不固定,可分成两种情况。对任意概念Ce(l《e《M),在times(Ce) = Q的情况下,P〇Se,j(l《j《Q)表示为概念C庙文档正文中的实际位置;如果times(Ce)<Q,则 PoSe,t( l《t《times(Ce))表示概念Ce在文档正文中的位置,而化Se,i(times(Ce) <i《Q)则 置为nuUtDnuUt表示文档WP中概念Ce没有出现过第t次。6.根据权利要求3所述的一种基于内容与位置特征的近似web文档检测方法其特征在 于: 所述的步骤7.1中,设文档WPa和WPb对应的位置特征向量分别为奇;;和7^ :设^表示 文档WPs的第η个关键概念Cn出现的所有位置,相应地,/??康示概念Ci在文档WPs中第j次出 现的位置,且有],…,5?,...^!和巧^ =(石,…i石,M 表示两 向量中概念的个数;定义位置特征向量间的距离矩阵为而^,7瓦,农示向量^^与^ 之间的距离,其计算方法如式9所示, 公式9中,/ i? M,1 ??八0表示文档WP冲与文档WPb中共有的关键概念Cl出现 第j次的位置距离,表示为概念在二者正文中所处位置的差值;由于各概念在两个文档正文中出现的次数不同,因此在有非数值符号nule,t,其中,e,t 满足条件引入的情况,对V巧城6的计算既包括数值处理,也包括符号定 义;式10中的nul (parameter)和numeric (parameter)代表两个返回逻辑值的函数或过程, 八表示逻辑与运算;其中,nul (parameter)用于判定赋予的参数parameter是否是nul标识 符号,而numeric (parameter)则用于判定赋予的参数parameter是否是表示概念所处位置 的数值。在与Pm,?,中有且只有一个值是nul的情况下,表示为品7,代表关键概 念在文档中所处位置的一种差异,是在一个文档中出现第j次,而未出现在另外一个文档 中; 关键概念在文档WPa与Wpb的位置距离均值记为如扭'6,其计算公式见式11,其中h代表概念Ct (1《t《Μ)在文档WPa与Wpb中出现次数t ime S (Ct)的最小值,即良示位置差7巧<^^的绝对值;公式表明位置距离 均值的计算只考虑概念在文档WPa与Wpb中均存在的情况,而均不存在或只有其中一篇中存 在的情况统一置为0; 所述的步骤7.2中,关键概念。(1《*《1)在文档¥?3与¥96的所处位置的距离分布通过 标准差<'6来表示;因此,关键概念集{Cl,C2,…,Cm}在文档Wl^a与Wpb中位置距离分布表示为(Π 所述的步骤7.3中,关键概念。(1《*《1)在文档¥?3与¥96的所处位置的差异度记为(1(1 (Ct),表示为概念Ct仅在两篇文档WPa与Wpb其中一个出现的次数总和,具体表现为距离矩阵 中第t行值为nul的元素总个数,在1~Μ关键概念范围内,位置差异度均值记为ya'b,有 (14) 文档Wa与Wpb中所有概念所处位置的差异度分布同样通过标准差Sa'b来表示,公式如式 15所示;(1·^) 在式15中,r表示区间[1,M]中的随机数。7.根据权利要求1所述的一种基于内容与位置特征的近似web文档检测方法其特征在 于,所述的步骤8中:所述的文档中关键概念的位置距离和差异度均小于设定阔值,即满足 〇a'b<〇thr且ya'b<ythr且33'6<3化运立个条件,其中,Othr表示标准差?产对应的设定阔值, ythr表示位置差异度均值ya'b对应的阔值,而Sthr表示标准差S3'b对应的阔值;则可判定文档 WPa与Wpb是近似或重复页面;在此使用符号 >来表示网页文本的近似或重复,记为Wpa> Wpb,否则不是近似网页。
【文档编号】G06K9/62GK105975547SQ201610283628
【公开日】2016年9月28日
【申请日】2016年4月29日
【发明人】李石君, 吴岳廷, 张健, 余伟, 李宇轩
【申请人】武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1