一种快速比对文本内容的方法与系统的制作方法

文档序号:9865476阅读:496来源:国知局
一种快速比对文本内容的方法与系统的制作方法
【技术领域】
[0001]本发明涉及信息检索领域,特别涉及一种快速比对文本内容的方法及其计算机软件系统。
【背景技术】
[0002]文本内容比对是通过比较文档之文本所表述内容得出文档相似程度的过程。根据原理差异,文本内容比对可以采用两种层面的相似度衡量方法:第一种方法基于文本语义,根据文本所表述语义的接近程度来衡量相似度;第二种方法基于文字结构,根据文档段落、句、词、字的用法和组合方式判断两篇文档的相似程度。前者涉及的语义乃当前信息检索领域的一个难题,常用的方法是“词向量”法,使用文本中的关键词(keyword)表达语义特征;后者的重点在于文字本身的相似程度,已用于论文查重等领域。
[0003]从文本比对效率角度看,基于语义的第一种比对方法效率高,但结果不够直观。例如,“销售人员为了取得更多的销售业绩,采取赊销方式,往往导致逾期应收账款的发生”和“销售人员只关心销售业绩,往往采取赊销的方式,导致发生逾期的应收账款”,此两段中文语句语义相近但结构差距甚大,应用于文档查重时难有说服力。基于文字结构的第二种比对方法直观性好,其结果可以直接作为判断文本内容是否涉嫌抄袭的依据,但是,这种方法基于文档句子的两两比对,效率低,涉及大量文档时,通常无法达到实时比对的效果。例如,每到毕业季,学生提交毕业论文之后,往往需要等待几天甚至超过一周以上的时间才能获知查重结果。
[0004]本发明公开一种文本内容比对的快速方法及其计算机软件实现系统,兼具语义比对方法效率高和结构比对方法直观性好的优点。本发明针对包含有少量英文段落和英文关键词的中文文档,其典型的应用是基于文本内容的科技论文比对。

【发明内容】

[0005]本发明的目的是从大量文档中快速查找与待比对文档在文本语义上相似、文字结构上雷同的文档集。由于判断两篇文档文字结构是否雷同是一个耗时的过程,当需要比对的文档数量很大时,往往无法在短时间内完成。本发明融合文本语义比对和文字结构比对两种方法,提供一种两阶段的文本内容快速比对方法,并在一个文本内容比对系统中加以实现。所述系统包括(SI)和(S2)两个部分:
(51)文档注册部分。用于从待注册文档的文本中自动学习关键词和构造注册文档库;
(52)文档比对部分。用于从注册文档库搜索、输出与待比对文档在文本语义与文字结构均相似的m篇已注册文档,并输出每篇文档与待比对文档最相似句子间的连续关键词匹配关系。
[0006]进一步地,所述文档注册部分在注册一篇文档时,首先自动学习其中的新关键词(指未出现在注册时关键词库中的关键词),并更新关键词库。所述新关键词的自动学习和关键词库的更新过程由以下迭代的(LI)?(L4)步骤组成: (LI)将待注册文档中的文字进行断句处理,分解为句子的集合,建立侯选新关键字集合,并初始化为空;
(L2)对于每个句子,依据当前关键词库和标记为通过统计检验的候选新关键词,识别句子包含的关键词,称之为旧关键词;
(L3)对于每个句子,提取两个连续的非停用词(stopword)单字、一个非停用词单字及随后的旧关键词或一个旧关键词及随后的非停用词单字组成候选新关键词,添加到侯选新关键字集合,累计每个候选新关键词在本次迭代中出现的次数,运用统计方法确定其中的候选新关键词并作通过统计检验标记;
(L4)重复步骤(L2)?(L3)直到步骤(L3)没有标记任何通过统计检验的候选新关键词或达到指定的迭代次数,迭代结束后,将标记为通过统计检验且计数大于零的候选新关键词添加到关键词库。
[0007]所述文档注册部分使用更新后的关键词库,将待注册文档表示为“文本语义表达”和“文字结构表达”两种方式,并在注册文档库中保存每篇文档的这两种表示方式。具体地,首先将待比对文档中的文字进行断句处理,分解为句子的集合;接着,对于每个句子,依据关键词库识别其中包含的关键词,忽略未对应关键词或属于停用词的文字。每个句子的关键词序列构成所述待比对文档的“文字结构表达”方式;所述“文本语义表达”方式包含从所有句子中提取的无重复的关键词及其出现次数等信息。
[0008]进一步地,所述文档比对子系统将待比对文档与注册文档库中的文挡进行文本内容比对,包括以下(Cl)?(C3)三个步骤:
(Cl)使用所述文档注册子系统自动学习得到的关键词库和所述方法,用“文本语义表达”和“文字结构表达”两种方式表示待比对文档;
(C2)使用待比对文档的“文本语义表达”方式,与注册文档库中的文档一一进行语义相似性比对,获取相似度最高的η篇注册文档;
(C3)使用待比对文档的“文字结构表达”方式,与文本语义相似度最高的η篇文档一一进行文字结构相似性比对,输出相似度最高的m篇(m< η)文档及每篇文档与待比对文档的文字结构匹配关系。
[0009]所述步骤(C2)使用待比对文档以及每篇注册文档的“文本语义表达”方式,进行一一语义比对。具体地,首先将待比对文档的“文本语义表达”方式作规范化处理(normalizat1n),以消除文本内容长度差异带来的影响;接着,与注册文档库中每篇做过同样规范化处理的文档“文本语义表达”方式进行比对,计算文本语义相似度;最后,输出注册文档库中与待比对文档语义相似度最高的η篇文档。其中,η是用户给定的一个相对于注册文档数目而言很小的数;或者,用户给定一个文本语义相似度阈值,输出语义相似度大于该阈值的文档,这种情况下,记输出的注册文档数目为η。
[0010]所述步骤(C3)使用待比对文档以及步骤(C2)输出的每篇文档对应的“文字结构表达”方式,进行一一文字结构比对。具体地,首先从注册文档库提取出文本语义相似度最高的η篇文档;接着,计算每篇注册文档与待比对文档的文字结构相似度。文字结构相似度计算过程由以下(Wl)和(W2)两个步骤组成:
(Wl)以句子为单位,计算待比对文档的每个句子与注册文档每个句子中连续匹配的关键词数目。设待比对文档的句子数目为X,某篇注册文档的句子数目为Y,得到X X Y个匹配数目;记待比对文档的第X个句子与注册文档第y个句子的连续匹配的关键词数目为wxy;
(W2)使用二部图(bipartite graph)分割算法求取两篇文档句子的最佳匹配方案。具体地,将待比对文档的句子视作第一部分图的X个节点,注册文档的句子为第二部分图的Y个节点,wxy为二部图每对节点间的权重。使用二部图分割算法获得最大化权重和的句子匹配方案,基于权重和计算两篇文档的文字结构相似度。
[0011]进一步地,所述步骤(C3)对η个文字结构相似度进行排序,输出相似度最高的m篇文档。其中,m是用户给定的小于等于η的文档数目;或者,用户给定一个文字结构相似度阈值,输出文字结构相似度大于该阈值的注册文档。对于输出的每篇注册文档,根据所述步骤(W2)获得的句子匹配方案,输出注册文档与待比对文档的句子匹配信息。
[0012]本发明的有益效果是,所述步骤(C2)首先使用快速的文本语义比对方法,只保留少量文本语义上最相似的文档,再交由步骤(C3)进行效率较低的文字结构匹配,存在大量的需比对文档(注册文档)时,可以大幅提高文档的文本内容比对效率。同时,通过步骤(W2)的二部图匹配方法还能够输出相似文档文字结构上最佳的匹配方案,提供待比对文档是否涉嫌抄袭的直观、可验证
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1