文本新颖性检测方法、装置、电子设备及可读存储介质与流程

文档序号:33712525发布日期:2023-04-01 00:30阅读:来源:国知局

技术特征:
1.一种文本新颖性检测方法,其特征在于,包括:获取待检测文本,对所述待检测文本进行成分句法分析,得到所述待检测文本的至少两个词汇、句法成分标签和句法树结构;引入预设词典对所述句法树的词汇进行处理,包括对停用词和高频词进行过滤去除,对至少两个词汇进行合并,得到检索概念及所述句法树结构的精简句法树结构;所述精简句法树结构中包括待检测文本的至少两个检索概念;所述预设词典包括停用词典、高频词典和领域词典;基于所述精简句法结构树中的句法成分标签特征,通过单分支划分方法获取待检测文本的至少一个检索单分支;基于所述预设词典对所述至少两个检索概念进行第一次词形以及语义扩展,生成表征所述待检测文本的总检索式;在第一次语义扩展的基础上,对所述至少两个检索概念进行第二次语义扩展,基于所述至少一个检索单分支,生成表征所述待检测文本多个不同角度检索的单分支检索式;基于所述总检索式和所述多个单分支检索式,预设新颖性条件,对所述待检测文本在预设数据库中依照总检索、单分支检索、双分支检索及多分支检索的多级顺序进行检索,通过剪枝序列检索方法得到每一次检索的文献信息;接收用户终端发送的针对文献信息的对比检测结果,基于所述文献信息以及所述对比检测结果,确定出相关的目标文献以及针对所述待检测文本的新颖性检测结论。2.根据权利要求1所述的文本新颖性检测方法,其特征在于,基于所述精简句法结构树中的句法成分标签特征,通过单分支划分方法获取待检测文本的至少一个检索单分支,包括:采用从顶层向下按照广度优先遍历结构树的方式对精简句法结构树进行遍历,利用精简句法树前2个层次的句法标签类型进行划分支处理,得到所述的至少一个检索单分支,具体方法如下:步骤一:取第一次划分分支:若精简句法结构树根节点的下一层分支节点结构为(mnp+nvp+xip),即根节点的首层结构含vp节点,转步骤二;若精简句法结构树根节点的下一层分支节点结构为(qnp+yw),即即根节点的首层结构不含vp节点,转步骤三;其中,记根节点的下一层节点为为s1,s2……
s
i
,s
i
的下一层级子分支为s
i1
,s
i2
……
s
ij
,(m、x、y为自然数,n、q、i、j为大于0的自然数),w为修饰短语;步骤二:根据s
ij
节点是否为vp节点划分第二次分支,具体为:(1)当s
ij
节点为vp节点时,s
ij
节点所在的分支作为一个独立的划分分支;(2)当s
ij
节点为非vp节点时,向下遍历s
ij
节点的下层分支,当s
ij
节点的分支节点含vp节点时,取该s
ij
节点所在的分支为独立的划分分支;(3)如有未划分的s
ij
节点,将s
ij
节点所在的分支作为逻辑上的另外一个独立的划分分支;步骤三:根据s
i
节点类型划分第二次分支,具体为:(1)当s
i
节点为np节点时,取np节点所在的分支为一个独立的划分分支;(2)当s
i
节点为w节点,即修饰短语类型时,若w节点的分支节点s
ij
为vp节点或s
ij
的分支节点中含vp节点,则s
ij
节点所在的分支作为一个独立的划分分支;
(3)如有未划分的s
ij
节点,与最后一个np节点所在的分支一起作为逻辑上的一个独立的划分分支;若精简句法结构树中无np节点,则其余的s
ij
节点所在的分支一起作为逻辑上的一个独立的划分分支;步骤四:上述独立的划分分支共同构成最终精简句法结构树的至少一个检索单分支。3.根据权利要求1所述的文本新颖性检测方法,其特征在于,基于所述预设词典对所述至少两个检索概念进行第一次词形以及语义扩展,生成表征所述待检测文本的总检索式,包括:基于所述预设词典,对所述至少两个检索概念通过获取每个检索概念在词典中对应的不同词形以及同义词、下位词的方法,进行第一次词形以及语义扩展,得到第一次扩展结果,各词汇之间以逻辑或组配连接;基于第一次扩展结果,各个检索概念之间采用逻辑与的关系组配连接后,生成所述待检测文本对应的总检索式。4.根据权利要求1所述的文本新颖性检测方法,其特征在于,在第一次语义扩展的基础上,对所述至少两个检索概念进行第二次语义扩展,基于所述至少一个检索单分支,生成表征所述待检测文本多个不同角度检索的单分支检索式,包括:在第一次语义扩展的基础上,基于所述预设词典,对所述至少两个检索概念获取每个检索概念在词典中对应的同位词以及上位关联词的方法,进行第二次语义扩展,得到第二次扩展结果,各词汇之间以逻辑或组配连接;基于第二次语义扩展结果,各个检索概念之间采用逻辑与的关系组配连接后,生成所述待检测文本对应的一个或多个单分支检索式。5.根据权利要求1所述的文本新颖性检测方法,其特征在于,基于预设的新颖性条件进行检索结果检测,包括:预设新颖性条件包括:所述文献信息中的文献数量等于大于零并小于预设值。6.根据权利要求1所述的文本新颖性检测方法,其特征在于,针对单分支检索、双分支检索及多分支检索中每一级n分支组合检索,n为大于0的自然数,具体检索过程如下:获取n个单分支,将n个单分支检索式采用逻辑与的方式组合生成n分支检索式,在预设的数据库中进行检索,当n分支检索式不具新颖性时,停止该n分支检索,将该n个单分支送入下一级n+1分支检索中,并重新获取另外n个单分支组合,进入下一组的n分支检索;当n分支检索式具有新颖性时,进行剪枝序列检索,在剪枝序列检索过程中出现不具新颖性的检索式时,记录该检索式和其前一个检索式,生成一个该n分支检索的新颖性结论,继续剪枝检索至该n分支检索结束,停止该n分支检索,进入下一组的n分支检索,直到所有n分支组合的检索结束。7.根据权利要求6所述的文本新颖性检测方法,其特征在于,所述n分支剪枝序列检索,包括如下任一种:(1)针对具有新颖性的n分支检索式的每个单分支,基于所述检索概念的层级树结构关系,从层级最深单分支的最下层级概念节点开始,依照从下向上从左到右的顺序减除分支中的概念节点,同时保持其它单分支检索式不变,依次生成检索式,至出现不满足新颖性条件的检索式或该单分支不少于一个概念节点;逐个单分支进行操作;所生成的检索式按顺序排列,即为n分支剪枝检索式序列,根据所述n分支剪枝检索式序列进行多次检索,记为逐
单分支剪枝序列检索;(2)针对具有新颖性的n分支检索式,基于所述检索概念在层级树中的结构关系,从层级最深的单分支的最下层级概念节点开始,依照从下向上从左到右的顺序减除分支中的概念节点,到与第二个分支层级深度相同后,再依次对两个单分支交替剪枝,依次生成检索式,n个分支交替进行操作至出现不满足新颖性条件的检索式或单分支不少于一个概念节点;所生成的检索式按顺序排列,即为n分支剪枝检索式序列,根据所述n分支剪枝检索式序列进行多次检索,记为交替剪枝序列检索;在一组n分支检索的剪枝序列检索过程中,若每个单分支剪枝到最后一个概念仍具有新颖性,生成一个新颖性结论,结束该n分支检索。8.根据权利要求7所述的文本新颖性检测方法,其特征在于,还包括:当有至少两个n分支检索式的检索结果为不具有新颖性时,则进行下一级n+1分支检索;直到检索全部结束。9.一种文本新颖性检测装置,其特征在于,包括:第一获取模块,用于获取待检测文本,对所述待检测文本进行成分句法分析,得到所述待检测文本的至少两个词汇、句法成分标签和句法树结构;词汇处理模块,用于引入预设词典对所述句法树的词汇进行处理,包括对停用词和高频词进行过滤去除,对至少两个词汇进行合并,得到检索概念及所述句法树结构的精简句法树结构;所述精简句法树结构中包括待检测文本的至少两个检索概念;所述预设词典包括停用词典、高频词典和领域词典;第二获取模块,用于获取所述精简句法结构树的至少一个检索单分支;其中,所述检索单分支是基于所述句法成分标签,通过单分支划分方法从所述精简句法结构树中确定的;第一检索式生成模块,用于基于所述领域词典对所述至少两个检索概念进行第一次词形以及语义扩展,生成表征所述待检测文本的总检索式;第二检索式生成模块,用于在第一次概念扩展的基础上,对所述至少两个检索概念进行第二次语义扩展,基于所述检索单分支,生成表征所述待检测文本多个不同角度检索的单分支检索式;检索模块,用于基于所述总检索式和所述多个单分支检索式,根据预设的新颖性条件,对所述待检测文本在预设数据库中依照总检索、单分支检索、双分支检索及多分支检索的多级顺序进行检索,通过剪枝序列检索方法得到每一次检索的文献信息;确定模块,用于接收用户终端发送的针对文献信息的对比检测结果,基于所述文献信息以及所述对比检测结果,确定出相关的目标文献以及针对所述待检测文本的新颖性检测结论。10.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8任一项所述方法的步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。

技术总结
本申请实施例提供了一种文本新颖性检测方法、装置、电子设备及可读存储介质,涉及文本智能处理领域。该方法包括:对待检测文本进行句法分析,得到词汇以及词汇间的层级逻辑关系;通过引入预设词典对词汇进行过滤、合并和语义扩展处理,通过单分支划分方法拆分待检测文本为多个检索分支,然后构建待检测文本对应的总检索式以及多个单分支检索式;依照总、单分支、双分支及多分支的多级检索流程在预设的文献数据库中进行检索,再参照新颖性检测条件以及对各单篇文献对比检测后得到新颖性结论,实现基于自动检索的文本内容新颖性检测;本申请通过分支划分、多级检索等方法,实现了文本自动新颖性检测,提高了文本新颖性检索效率以及检测准确性。及检测准确性。及检测准确性。


技术研发人员:曹燕 毛一雷 李琳珊 闫莹莹
受保护的技术使用者:中国科学技术信息研究所
技术研发日:2022.11.10
技术公布日:2023/3/31
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1