类似内容提取方法

文档序号:6424181阅读:161来源:国知局
专利名称:类似内容提取方法
技术领域
本发明专利涉及一种用于提取对象文档和比较文档之间的类似内容的提取方法和提取装置。
背景技术
近年,对目标对象和检测对象进行比较来提取相似度较高的类似内容的信息检测技术变得非常流行。例如,随着科学技术的发展,被发表的论文越来越多,因此,在新的论文提交时,会存在一个普遍的问题,即各个学会和杂志的评审们会花费大量的时间去检测论文是否剽窃其他论文,为了更有效地更快地评审,信息检测技术被应用到论文防剽窃系统中,利用信息检测技术,能够检测被检测文档中是否含有目标文档中信息。
·
并且,信息检测技术还被应用到客观题审批领域中,从而提高批阅设备的效率。此夕卜,信息检测技术还可以应用到输出管理系统中。用来防止传统的人工管理中存在的效率低、容易发生遗漏的问题。在现有信息检测技术中,一般来说,逐一比较对象文档的每一个句子和目标文档的每一个句子,计算各个句子之间的相似度。在中国发明专利《一种利用网络资源实现剽窃和格式检查的在线论文管理方法(2006101150. 8)》中提出了一种信息检测技术中的相似度计算方法。在该管理方法中,将文档直接划分成句子,然后利用Google搜索引擎对被划分的句子的主干进行检索,最后根据得到相似度权值来判断抄袭的等级。此外,在论文《基于语义分析树核的句子相似度计算》(王利局大连理工大学中国知网)中也曾有提出过一种相似度的计算方法。这篇论文是针对汉语句子进行的。具体来说,对句子进行分词和词性标注后,分别从句法结构特征、词语语义特征和词形特征三个方面得到的特征权重进行加权计算,来计算两个句子的相似度。在这些现有技术中,都存在的问题是在系统对被检测文档进行处理时,都是直接将对象文档划分成每个句子,然后逐句地与目标文档进行比较处理,分别求出相似度。这样一来,计算系统的数据处理量相当大,需要花费大量的时间,导致工作效率低下。

发明内容
本发明就是为了解决上述技术问题而完成的,其目的在于提供一种能够大大减少数据处理量和处理时间的类似内容提取方法和提取装置。本发明是一种对象文档与比较文档的类似内容提取方法,其特征在于,包括输入步骤,输入对象文档和比较文档;段落名词组生成步骤,将对象文档和比较文档按照每个段落进行拆分,从上述对象文档的各个段落中提取名词,生成各个段落对应的对象名词组,从上述比较文档的各个段落中提取名词,生成各个段落对应的比较名词组;选择步骤,从上述对象名词组中,选择包含有上述比较文档中记载的、进入特定单词列表中的单词在内的对象名词组;计算步骤,计算所选择的上述对象名词组与上述比较名词组之间的第一相似度;句子名词组生成步骤,以上述第一相似度的规定顺序依次将对应于所选择的对象名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的对象句名词组,将对应于上述比较名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的比较句名词组;以及对象句提取步骤,计算上述对象句名词组与上述比较句名词组之间的第二相似度,按照上述第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句。此外,本发明的类似内容提取方法也可以是,还具有数值比较步骤,在对象句提取步骤中提取的对象句和目标文档的句子中包括数值的情况下,进行数值及数值相关词干的比较,仅在数值及数值相关词干都符合规定的条例的情况下,输出相似且符合,在不符合规定的条例的情况下,输出相似但不符合。本发明还可以是一种对象文档与比较文档的类似内容提取装置,其特征在于,包括输入模块,输入对象文档和比较文档;段落名词组生成模块,将对象文档和比较文档按照每个段落进行拆分,从上述对象文档的各个段落中提取名词,生成各个段落对应的对象名词组,从上述比较文档的各个段落中提取名词,生成各个段落对应的比较名词组;选择模 块,从上述对象名词组中,选择包含有上述比较文档中记载的、进入特定单词列表中的单词在内的对象名词组;计算模块,计算所选择的上述对象名词组与上述比较名词组之间的第一相似度;句子名词组生成模块,以上述第一相似度的规定顺序依次将对应于所选择的对象名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的对象句名词组,将对应于上述比较名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的比较句名词组;以及对象句提取模块,计算上述对象句名词组与上述比较句名词组之间的第二相似度,按照上述第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句。本发明的类似内容提取方法中,先将文档按照段落进行划分,然后找到与目标段落较为相似(相似度较高)的检测段落,再对与目标段落较为相似的检测段落进行句子划分,仅比较选择出的与目标段落较为相似的检测段落的各个句子与目标句子之间的相似度。通过如上所述分两个阶段计算相似度,能够大大减少处理数据量以及处理时间,提高提取装置的整体效率。本发明的提取方法不但能够应用到论文防剽窃系统以及客观题审批领域,更可以应用到输出管理系统中,从而高效地进行输出管理。


图I是本发明的提取装置涉及的计算机系统的组成图。图2是说明本发明的第一实施方式涉及的提取方法的流程图。图3是本发明的第一实施方式中例举的被测文档和目标文档的示例图。图4是说明本发明的提取装置中的段落划分模块进行段落划分之后的结果示例图。图5是说明本发明的提取装置中的名词抽取模块进行名词抽取之后的结果示例图。图6是本发明的第一实施方式涉及的敏感字典的示例图。图7是本发明的第一实施方式中例举的相似度较高的被检测段落和目标段落的示例图。图8是本发明的第一实施方式中例举的被测句子的名词集合和目标句子的名词集合的示例图。图9是说明本发明的第二实施方式的流程图。图10是本发明的第二实施方式中例举的被测文档和目标文档的示例图。图11是本发明的第二实施方式中例举的段落划分模块处理结果的示例图。图12是本发明的第二实施方式中例举的名词抽取模块处理结果的示例图。图13是本发明的第二实施方式中例举的相似度较高的被检测段落和目标段落的示例图。
图14是本发明的第二实施方式中例举的被测句子的名词集合和目标句子的名词集合的示例图。图15是用于说明本发明的第二实施方式涉及的数值比较方法的示例图。
具体实施例方式以下结合附图来详细说明本发明涉及的具体实施方式
。(第一实施方式)本发明的类似内容提取装置能够作为软件或硬件模块嵌入计算机系统中发挥作用。图I是本发明的提取装置涉及的计算机系统的组成图。如图I所示,本发明的提取装置涉及的计算机系统主要包括处理核心、处理核心外围的数据库以及对提取结果107、110进行显示的浏览器。处理核心相当于本实施方式涉及的对象文档与比较文档的类似内容提取装置。其中,处理核心外围的数据库可以通过现有的存储装置加以实现,包括预先从目标文档100中抽取的敏感词字典101、作为普通的电子字典的同义词字典102、被检测文档103以及历史数据库108等。其中,敏感词字典101中预先保存有特定单词列表中的单词,可以将某些输出管理中的敏感名词作为特定单词存储在敏感词字典101中。此外,除了同义词字典102,也可以包括其他现有的类似数据库,以供处理核心使用。对提取结果107、110进行显示的浏览器是该计算机系统的输出装置。也可以使用语音等输出装置。处理核心相当于本发明的类似内容提取装置,包括段落划分模块104、名词抽取模块105、检测模块106以及历史记录查询模块109。具体来说,段落划分模块104用于从目标文档100或被检测文档103中提取文本数据,将这些文本数据按照每个段落进行划分,从而建立各个段落与文档之间的索引并储存在数据库中。同时,段落划分模块104还具有将目标文档100或被检测文档103的段落的文本数据按照每个句子进行划分,从而建立各个句子与文档之间的索引并储存在数据库中的功能。名词抽取模块105从被段落划分模块104划分后的各个段落或句子中提取该段落或句子中记载的所有名词,将所提取的名词保存成与各个段落或句子相对应的名词集合。段落划分模块104与名词抽取模块105对应于本发明中的“输入模块”、“段落名词组生成模块”以及“句子名词组生成模块”。
检测模块106是提取装置中的检索及计算模块,能够将敏感词字典101中保存的敏感词作为关键字,在名词抽取模块105生成的与被检测文档103的各个段落相对应的各个名词集合中检索是否含有这些敏感词,并且,对含有敏感词的名词集合与名词抽取模块105从目标文档100提取的与各个段落相对应的名词集合进行相似度计算,把相似度的计算结果保存到历史数据库108中,并作为结果107显示到浏览器上。并且,检测模块106还按照上述段落之间的相似度结果,将与各个名词集合对应的被检测文档103的段落进行排序,按照规定顺序(例如从高到低的顺序)依次计算被检测文档103的段落的每个句子的名词集合与所类似的目标文档100的段落中的每个句子的名词集合之间的类似度,并将结果显示在浏览器上。此外,检测模块106还可以按照句子之间的类似度的规定顺序(例如从高到低的顺序)提取被检测文档103的相应的句子作为对象句用于显示。检测模块106对应于本发明中的“选择模块”、“计算模块”以及“对象句提取模块”。历史记录查询模块109提供搜索历史记录查询功能并将搜索结果显示到浏览器上110。历史记录查询模块109主要用于用户查询过去的比较结果,在本发明中,在不需要进行历史查询的情况下,也可以省略历史记录查询模块109。 图2是说明本发明的第一实施方式涉及的提取方法的流程图。以下利用图2所示的流程详细说明第一实施方式涉及的对象文档与比较文档的类似内容提取方法。如图2所示,在本发明的被检测文档103(对象文档)与目标文档100(比较文档)的类似内容提取装置中,首先,通过段落划分模块104对被检测文档103 (对象文档)与目标文档100(比较文档)进行分段处理(步骤201),把目标文档100和用户上传到数库的所有被检测文档103进行段落划分,并建立段落与文档之间的索引。接着,名词抽取模块105从划分后的各个段落中提取该段落中的所有名词,生成与各个段落相对应的多个名词集合后加以保存(步骤202)。之所以对文档只进行名词抽取,是因为名词可以代表所在文档的大概意思,并且易于进行比较。接着,为了减少系统的工作量,在本发明中,利用敏感词字典101对这些名词集合进行敏感词检测,即,将敏感词字典101中的敏感词作为关键字,检索被检测文档103的各个段落所对应的名词集合,来进行敏感词汇的搜索(步骤203)。该步骤203是第一次过滤,能够剔除与目标文档100毫无关联的被检测文档103的段落。如果检索结果是在被检测文档103中没有出现任何敏感词,则进入步骤204,判断为该被检测文档103与目标文档100没有任何关系。如果在输出管理体系中则可以判断为能够输出。相反地,如果检索结果是在被检测文档103中出现了敏感词,则进入步骤205,对被检测文档103进行下一步处理。在步骤205中,检测模块106利用同义词字典102对所检测出的含有敏感词的被检测文档103的段落所对应的名词集合与目标文档100的某个段落所对应的名词集合进行相似度计算。对所计算出的相似度进行预定的排序。此处所谓的规定排序是指根据用户需要所进行的排序,例如在将本发明应用到论文防剽窃系统中时,需要找出相似度较高的文档,因此,可以根据相似度的大小,将各个段落按照相似度从大到小的顺序进行排序。以便从相似度最大的段落开始进行处理。也可以根据用户的需求,基于所计算出的段落相似度结果,仅选择相似度大小超过规定阈值或满足某种条件的段落来进行下一步的处理。由此,能够进一步剔除与目标文档100的段落关联不大的被检测文档103的段落。在第一实施方式中,此处设置为仅选择在相似度从大到小排列中规定数量(例如从头开始前10个相似度所对应的段落文档)的相似度较高的被检测文档103的段落(步骤206)。接着,针对所选择出的上述规定数量的被检测文档103的段落以及作为上述比较的基础的目标文档100的段落,通过段落划分模块104对被检测文档103的段落与目标文档100的段落进行句子划分,将各个段落按照每个句子划分成句子文档,并利用名词抽取模块105从各个句子文档中提取各个句子相对应的名词集合(步骤207),进而,再一次通过检测模块106对在步骤207中被划分出来的、被检测文档103的句子所对应的名词集合与目标文档100的句子所对应的名词集合进行相似度计算(步骤208)。并且,在目标文档103包括多个段落的情况,能够将所选择出的上述规定数量的被检测文档103的段落与目标文档103的多个段落逐一进行比较。最后把相似度的计算结果加以存储以便用于输出管理,或者按照规定的顺序(例如从大到小的顺序)将步骤208计算 出的相似度排序,以该相同顺序将相似度所对应的被检测文档103的句子作为对象句显示在显示器(浏览器)上来提示给用户(步骤209)。此外,如果用户想查询上次的记录,通过历史记录查询模块109可以实现历史查询。上述分别对段落以及句子进行的相似度计算也可以采用现有的相似度计算方法。例如,采用依赖两个字符串含有共同词形的数量的相似度计算方法。举例说明,设两个字符串包含名词的数量分别是M和N,两个字符串共同词形的数量是NK。只存在于第一个字符串中名词的个数是NL等于M-NK,只存在于第二个字符串中名词的个数是ND等于N-NK。则相似度计算公式如公式I. I所示。SIM = -~1,1
Nk + Nl + Np下面例举在提取某一被检测文档103 (简称为被测文档)与目标文档100之间的类似内容时进行的具体动作来详细说明本发明。图3是本发明的第一实施方式中例举的被测文档和目标文档的示例图。如图3所示,目标文档(sourcel)与被测文档(testl)都是多段落文档,本发明的提取装置用于检测被测文档与目标文档之间的相似关系。图4是说明本发明的提取装置中的段落划分模块进行段落划分之后的结果示例图。如图4所示,经过段落划分模块104的处理,目标文档(sourcel)被划分为两个段落文档sourcel. paragraphl、sourcel. paragraph〗,被测文档(testl)被划分为三个段落文档。分段之后,名词抽取模块105对划分后的每个段落逐一进行名词抽取,并以名词集合的形式保存在服务器上,图5是说明本发明的提取装置中的名词抽取模块进行名词抽取之后的结果示例图。接着,然后调用如图6所示的敏感词字典对刚刚得到的各个名词集合进行敏感词搜索。因为在被测文档的名词集合中存在敏感词,所以要运用同义词字典102和上述公式I. I进行段落之间的相似度的计算处理。作为图3所示的例子目标段落和被测段落相似度的计算结果如表I所示。表I :本发明实施例中目标段落和被测段落相似度的计算结果的示例
权利要求
1.一种对象文档与比较文档的类似内容提取方法,其特征在于,包括 输入步骤,输入对象文档和比较文档; 段落名词组生成步骤,将对象文档和比较文档按照每个段落进行拆分,从上述对象文档的各个段落中提取名词,生成各个段落对应的对象名词组,从上述比较文档的各个段落中提取名词,生成各个段落对应的比较名词组; 选择步骤,从上述对象名词组中,选择包含有上述比较文档中记载的、进入特定单词列表中的单词在内的对象名词组; 计算步骤,计算所选择的上述对象名词组与上述比较名词组之间的第一相似度; 句子名词组生成步骤,以上述第一相似度的规定顺序依次将对应于所选择的对象名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的对象句名词组,将对应于上述比较名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的比较句名词组;以及 对象句提取步骤,计算上述对象句名词组与上述比较句名词组之间的第二相似度,按照上述第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句。
2.根据权利要求I所述的类似内容提取方法,其特征在于, 还具有数值比较步骤,在对象句提取步骤中提取的对象句和目标文档的句子中包括数值的情况下,进行数值及数值相关词干的比较,仅在数值及数值相关词干都符合规定的条例的情况下,输出相似且符合,在不符合规定的条例的情况下,输出相似但不符合。
3.根据权利要求I所述的类似内容提取方法,其特征在于, 还具有数值比较步骤,在对象句提取步骤中提取的对象句或目标文档的句子中不包括数值的情况下,输出相似且符合。
4.根据权利要求2或3所述的类似内容提取方法,其特征在于, 所述数值相关词干包括领域关键词、物理量名称、大小关系或者单位。
5 根据权利要求I所述的类似内容提取方法,其特征在于, 上述第一相似度的规定顺序和上述第二相似度的规定顺序都是相似度从大到小排列的顺序。
6.根据权利要求I所述的类似内容提取方法,其特征在于, 还具有历史记录查询步骤,提取在上述对象句提取步骤中提取的对象句并通过输出装置提示给用户。
全文摘要
本发明的目的在于提供能够减少数据处理量和处理时间的提取方法。该类似内容提取方法包括输入对象文档和比较文档的步骤;将对象文档和比较文档按照每个段落进行拆分,生成对象名词组和比较名词组的步骤;从上述对象名词组中,选择包含有进入特定单词列表中的单词在内的对象名词组的步骤;计算所选择的对象名词组与比较名词组之间的第一相似度的步骤;以第一相似度的规定顺序依次将对应于所选择的对象名词组和比较名词组的段落按照每个句子进行拆分,生成对象句名词组和比较句名词组的步骤;以及计算对象句名词组与比较句名词组之间的第二相似度,按照第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句的步骤。
文档编号G06F17/30GK102789452SQ20111012549
公开日2012年11月21日 申请日期2011年5月16日 优先权日2011年5月16日
发明者尚磊, 细矢淳 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1