一种快速比对文本内容的方法与系统的制作方法_3

文档序号：9865476阅读：来源：国知局

语义表达”为{ “要素”/1，“导致”/1，“逾期”/1，“重视”/1，“管理”/1，“赊销”/2，“收款”/1，“应收款”/2}，其中关键词按其在“105自动学习的关键词库”中的顺序排列。
[0024]进一步地，“202文本语义相似性快速比对”首先将待比对文档的“文本语义表达”方式作规范化处理，对照“105自动学习的关键词库”的关键词，将待比对文档的“文本语义表达”转换成单位词向量;接着，提取“106注册文档的文本语义表达库”中每篇注册文档的信息，做同样的规范化处理，计算待比对文档和注册文档将的文本语义相似度，所述语义相似度的计算方法包括但不仅限于单位词向量之间的Consine度量，度量的值越大表示文档间具有越高的文本语义相似度;最后，输出语义相似度最高的η篇注册文档。这里，η是用户给定的一个很小的整数，例如η=10篇;或者，用户给定一个语义相似度阈值，此时输出文本语义相似度大于该阈值的注册文档，语义相似度阈值为[0，1]区间的一个数，例如0.9。
[0025]进一步地，“203文字结构相似性比对”首先提取“201文本语义及文字结构表达”过程输出的“文字结构表达”；接着，从“107注册文档的文字结构表达库”提取与“202文本语义相似性快速比对”输出的η篇注册文档对应的“文字结构表达”，分别进行文字结构相似性比对，使用二部图分割算法，例如Kuhn-Munkr e s算法，计算出η个文字结构相似度。
[0026]下面以一个实例说明所述文字结构相似性比对过程。设待比对文档的“文字结构表达”为:“ I I I赊销收款要素I 2 I赊销导致逾期应收款I 3 I重视应收款管理”，被比对的注册文档的相应表达为:“ 111赊销逾期应收款I 2 I重视赊销收款”。这里，待比对文档的句子数目为Χ=3，注册文档的句子数目为Υ=2，记待比对文档的第X个句子与注册文档第y个句子的连续匹配的关键词数目为wxy。两篇文档的句子间连续匹配的关键词数目分别为:wn=l(匹配了 “赊销” )，w12=2(匹配了 “赊销”，“收款” )，w21=3(匹配了 “赊销”，“逾期应收款” )，w22=l(匹配了 “赊销”)，w31=l(匹配了“应收款”)和W32=l(匹配了 “重视”)。将待比对文档的句子视作第一部分图的3个节点，注册文档的句子为第二部分图的2个节点，wxy(x=l，2，3和y=l，2)为二部图节点间的权重，应用Kuhn -Munkr e s算法求解最大化该二部图权重和的节点匹配方案，得到的匹配关系为:待比对文档的111?注册文档的I 2 I，待比对文档的I 2 I?注册文档的11;此时，权重和为￥12+?21=2+3=5。待比对文档的“文字结构表达”包含10个关键词，由此，计算两篇文档的文字结构相似度为5/10=0.5。
[0027]进一步地，“204输出文本语义与文字结构均相似的注册文档集”对“203文字结构相似性比对”输出的η个文字结构相似度进行排序，输出相似度最高的m篇注册文档以及每篇注册文档与待比对文档的句子匹配信息。其中，m是用户给定的小于等于η的文档数目，例如m=5篇;或者，用户给定一个文字结构相似度阈值，此时输出文字结构相似度大于该阈值的注册文档，文字结构相似度阈值为[0，I]区间的一个数，例如0.3，这表明待比对文档有约30%的内容与该注册文档雷同。两篇文档的句子匹配信息根据二部图权重和最大匹配方案得到，在所述的例子中，匹配信息如下:待比对文档“ I I I赊销收款”?注册文档“ I 2 I赊销收莖”，待比对文档“ I 2 I验H”?注册文档“ I 11验H”，待比对文档“ I 2 I逾期应收款”?注册文档“111逾期应收款”。
[0028]最后应当说明的是，以上实施例仅用说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照具体实施例对本发明作了详细的说明，本领域的普通技术人员应当理解，可以对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。
【主权项】
1.一种快速比对文本内容的系统，其特征在于，由文档注册和文档比对两部分构成，其中，文档注册部分用于从待注册文档的文本中自动学习关键词和构造注册文档库，文档比对部分用于从注册文档库搜索、输出与待比对文档在文本语义与文字结构均相似的已注册文档，并输出每篇文档与待比对文档最相似句子间的连续关键词匹配关系。2.—种迭代的关键词自动学习方法，其特征在于，从待注册文档的文本中自动学习关键词，分为四个步骤:(I)将待注册文档中的文字进行断句处理，分解为句子的集合，建立侯选新关键字集合，并初始化为空；(2)对于每个句子，依据当前关键词库和标记为通过统计检验的候选新关键词，识别句子包含的关键词，称之为旧关键词；(3)对于每个句子，提取两个连续的非停用词单字、一个非停用词单字及随后的旧关键词或一个旧关键词及随后的非停用词单字组成候选新关键词，添加到侯选新关键字集合，计数每个候选新关键词在本次迭代中出现的次数，运用统计方法确定其中的候选新关键词并作通过统计检验标记；(4)重复本权利要求所述步骤(2)和(3)直到步骤(3)没有标记任何通过统计检验的候选新关键词或达到指定的迭代次数，迭代结束后，将标记为通过统计检验且计数大于零的候选新关键词添加到关键词库。3.—种快速比对文本内容的方法，其特征在于，在注册文档库中搜索与待比对文档在文本语义与文字结构均相似的m篇已注册文档，分为三个步骤:(I)识别待比对文档中出现在权利要求2所述自动学习关键词库中的关键词，用文本语义表达和文字结构表达两种方式表示待比对文档；(2)使用待比对文档的文本语义表达方式，与注册文档库中的文档一一进行文本语义相似性比对，获取相似度最高的η篇注册文档；(3)使用待比对文档的文字结构表达方式，与文本语义相似度最高的η篇文档一一进行文字结构相似性比对，输出文字结构相似度最高的m篇(m < η)文档及每篇文档与待比对文档的文字结构匹配关系。4.一种基于二部图分割的文字结构相似度计算方法，其特征在于，以句子为单位，计算待比对文档的每个句子与注册文档每个句子中连续匹配的关键词数目，将待比对文档的句子视作第一部分图的节点，注册文档的句子为第二部分图的节点，每对句子间连续匹配的关键词数目为二部图相应节点间的权重，使用二部图分割算法获得最大化权重和的节点匹配方案，基于权重和计算两篇文档的文字结构相似度。
【专利摘要】本发明属信息检索领域，公开一种快速比对文本内容的方法与系统，分为文档注册和文档比对两个部分。文档注册部分使用一种迭代式学习方法从待注册文档的文本中学习新关键词，构造关键词库，并基于关键词库建立文本语义和文字结构两种表达方式表示的注册文档库。文档比对部分基于关键词库建立待比对文档文本语义表达方式，与注册文档一一进行文本语义相似性比对，获取相似度最高的、很少数量的注册文档，再基于二部图分割算法与待比对文档一一进行文字结构相似性比对，输出文字结构相似度最高的若干篇注册文档及其与待比对文档的文字结构匹配关系。采用本发明所述方法,可以大幅提高文档的文本内容比对效率，并提供文档间相似文本内容的对应关系。
【IPC分类】G06F17/22
【公开号】CN105630751
【申请号】CN201510989166
【发明人】陈春蓉, 阳嫔虹, 张委员, 黄艺煌
【申请人】厦门优芽网络科技有限公司
【公开日】2016年6月1日
【申请日】2015年12月28日

完整全部详细技术资料下载

当前第3页1 2 3