一种快速比对文本内容的方法与系统的制作方法_2

文档序号:9865476阅读:来源:国知局
的判断依据。采用步骤(C2)和步骤(C3)这种两阶段的比对是有效的,这是因为两篇文档“文字结构相似”可以视作“文本语义相似”的一个充分条件。所述新关键词的自动学习方法进一步提高了本发明文本内容比对方法的有效性。
【附图说明】
[0013]图1为本发明文档注册和关键词自动学习流程图。
[0014]图2为本发明文本内容快速比对方法流程图。
【具体实施方式】
[0015]下面结合附图和【具体实施方式】对本发明作进一步描述。应当理解,此处所描述的【具体实施方式】仅用于解释本发明,并不用于限定本发明。
[0016]本发明所述文本内容比对系统由两个部分构成,第一部分为文档注册子系统,用于从待注册文档中学习关键词和构造注册文档库,其流程如图1所示;第二部分为文档比对子系统,用于将待比对文档与注册文档库中的文档进行文本内容比对,其流程如图2所示。此两个部分(及对应的图1和图2)共用以下三个数据:“105自动学习的关键词库”,“106注册文档的文本语义表达库”和“107注册文档的文字结构表达库”。初始状态下(未注册任何文档时),“105自动学习的关键词库”包含一些通用的词、词组,例如《现代汉语词典》中至少两个汉字构成的词、词组、成语以及应用领域已知的专业术语等。106和107统称为“注册文档库”。
[0017]如图1所示,文档注册子系统通过四个步骤完成一篇待注册文档的注册过程:“101新关键词识别”,“102关键词提取”,“103文本语义表达”和“104文字结构表达”。
[0018]具体地,“101新关键词识别”通过一个迭代的过程从待注册文档的文本中自动学习新的关键词。首先,对待注册文档中的文字内容进行断句处理,分解为句子的集合,并令C表示侯选新关键字集合且初始化为空;第二步,以句子为单位,搜索“105自动学习的关键词库”和C中标记为通过统计检验的侯选新关键字集合,获得能够最大程度覆盖句子中的文字、且所需关键词数最少的句子切分方案,称该切分方案包含的关键词为旧关键词;第三步,剔除切分方案中包含的停用词(stopword),提取候选新关键词,包括:连续的两个单字连接起来的字序列,一个单字和随后的一个旧关键词连接起来的字序列,以及一个旧关键词及随后的一个单字连接起来字序列;第四步,将候选新关键词并入集合C,累计本次迭代中每个候选新关键词出现的次数,运用统计方法确定其中的新关键词,为每个确定的新关键词作通过统计检验标记。所述统计方法包括但不仅限于依据频度阈值t确定新关键词:给定频度阈值t(t>l),C中出现次数大于等于t的侯选新关键词确定为新关键词;第五步,重复第二步、第三步、第四步直到第四步没有标记任何通过统计检验的候选新关键词或达到指定的迭代次数。最后,将C中标记为通过统计检验且计数大于O的新关键词添加到“105自动学习的关键词库”。
[0019]以文本“赊销和收款是两要素,而赊销往往导致逾期应收款,要重视应收款管理。”为例说明所述“101新关键词识别”过程。设初始的“105自动学习的关键词库”包含通用关键词“要素”、“往往”、“导致”、“逾期”,“重视”和“管理”,停用词包括“和”、“是”,“而”、“往往”和“要”,频度阈值设为t=2。首先,该文本被分解为三个句子:“赊销和收款是两个要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”。第一次迭代中所述第二步得到的切词方案是“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”;第三步提取到候选新关键词“赊销”、“收款”、“两要素”、“逾期应”、“重视应”、“应收”和“款管理”;第四步得到的集合(:为{ “赊销,,/2,“收款”/3,“两要素”/I,“逾期应”/1,“重视应,,/1,“应收”/2,“款管理”/I},其中符号后面的数字表示每个候选新关键词在本次迭代中出现的次数,应用统计方法作标记后得到集合C={ “赊销”/2*,“收款”/3*,“两要素”/I,“逾期应”/1,“重视应”/1,“应收”/2*,“款管理”/1},这里符号是候选新关键词通过统计检验的标记。接着,开始第二次迭代,所述第二步得到的切词方案分别变为“赊销和收款是两要童”、“而赊销往往导致逾期应收款”和“要重视应收款管理”;此时,第三步提取到新的候选新关键词为“两要素”、“应收款”和“款管理”;第四步得到的集合C变为{ “赊销”/2*,“收款”/1*,“两要素”/I,“应收”/2*,“应收款”/2*,“款管理”/I}。再进行第三次迭代,切词方案分别为“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”;第三步提取到候选新关键词只有“两要素”;接下来的第四步处理的集合C为{ “赊销”/2*,“收款”/I*,“两要素”/I,“应收”/0*,“应收款”/2*},不会标记任何通过统计检验的候选新关键词,迭代结束。最后得到自动学习的新关键词有“赊销”、“收款”和“应收款”。
[0020]进一步地,图1“102关键词提取”使用更新后的“105自动学习的关键词库”,重新扫描待注册文档中的文本内容,提取出文档包含的关键词。具体地,首先将待比对文档中的文字进行断句处理,分解为句子的集合;接着,对于每个句子,搜索“105自动学习的关键词库”,获得能够最大程度覆盖句子中的文字、且所需关键词数最少的句子切分方案;最后,删除句子中未对应关键词的文字。“103文本语义表达”和“104文字结构表达”使用所提取的关键词构造注册文档库。具体地,“103文本语义表达”提取每个句子的关键词(或关键词在“105自动学习的关键词库”的编号)序列构成待比对文档的“文字结构表达”方式,保存到“107注册文档的文字结构表达库”;“104文字结构表达”汇总从待比对文档提取的无重复的关键词及其出现次数,构成待比对文档的“文本语义表达”方式,保存到“106注册文档的文本语义表达库”。
[0021]如图2所示,文档比对子系统通过四个步骤完成一篇待比对文档和注册文档的文本比对并输出相似文档的过程:“201文本语义及文字结构表达”、“202文本语义相似性快速比对”、“203文字结构相似性比对”和“204输出文本语义与文字结构均相似的注册文档集”。
[0022]具体地,“201文本语义及文字结构表达”在第一步中对待比对文档中的文字内容进行断句处理,分解为句子的集合;第二步,以句子为单位,依据“105自动学习的关键词库”获得能够最大程度覆盖句子中的文字、且所需关键词数最少的句子切分方案;第三步,以句子为单位,识别其中包含的关键词,忽略未对应关键词或属于停用词的文字,构造待比对文档的“文字结构表达”;汇总从待比对文档提取的关键词,累计它们出现的次数,构造待比对文档的“文本语义表达”。
[0023]以所述包含三个句子的文本为例说明所述“201文本语义及文字结构表达”过程。所使用的“105自动学习的关键词库”包含关键词“要素”、“往往”、“导致”、“逾期”,“重视”、“管理”、“赊销”、“收款”和“应收款”,使用所述停用词表。所述第一步获得三个句子:“赊销和收款是两个要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”;第二步得到三个句子的切分方案:“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”;第三步,构造的“文字结构表达”为:“ 111赊销收款要素I 2 I赊销导致逾期应收款I 3
I重视应收款管理”,其中“ I ? I ”是句间分割符,?标记句子的序号;构造的“文本
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1