本发明属于数据处理,具体涉及一种基于名词与动词的需求文档的查重方法、装置及存储介质。
背景技术:
1、目前,在软件开发技术领域,需要对需求文档进行查重处理,以去除需求文档中的重复段落、词语和/或句子;其中,在实际应用时,是使用自然语言处理技术,对句子或者文本段落进行查重,其操作过程为:先去掉停用词,然后再对句子与文本段落计算对应的文本相似度,而后,通过设置相似度阈值,并比对计算出的相似度与相似度阈值,来对文本中的句子或者段落进行查重;但是,前述方法存在以下不足:查重结果容易受到文档质量的影响,从而导致查重结果不理想;基于此,如何提供一种查重准确率高的查重方法,已成为一个亟待解决的问题。
技术实现思路
1、本发明的目的是提供一种基于名词与动词的需求文档的查重方法、装置及存储介质,用以解决现有技术中所存在的查重准确率较低的问题。
2、为了实现上述目的,本发明采用以下技术方案:
3、第一方面,提供了一种基于名词与动词的需求文档的查重方法,包括:
4、获取目标需求文档,并对所述目标需求文档进行提炼处理,得到所述目标需求文档中的词语集合,其中,所述词语集合中包含有所述目标需求文档中所有的名词和动词;
5、获取同义词词库,并利用所述同义词词库对所述词语集合进行一次查重以及去重处理,得到初始查重结果和初始去重词语集合;
6、对所述初始去重词语集合进行二次查重以及去重处理,得到二次查重结果和二次去重后的词语集合;
7、利用知识图谱,对二次去重后的词语集合进行三次查重以及去重处理,得到三次查重结果和三次去重后的词语集合;
8、基于bert模型,对所述三次去重后的词语集合进行四次查重处理,以在四次查重处理后,得到四次查重结果;
9、利用所述初始查重结果、所述二次查重结果、所述三次查重结果以及所述四次查重结果,得到所述目标需求文档的最优查重结果。
10、基于上述公开的内容,本发明在获取到目标需求文档后,先提取出目标需求文档中所有的名词和动词,来组成词语集合,以避免文档质量对查重的影响;而后,基于词语集合,来进行目标需求文档的查重处理;具体的,则是先基于同义词词库,来对词语集合进行一次去重处理,得到初始查重结果和初始去重词语集合;然后,对初始去重词语集合进行二次去重处理,得到二次查重结果和二次去重后的词语集合;接着,再利用知识图谱对二次去重后的词语集合进行三次查重及去重处理,得到三次查重结果和三次去重后的词语集合;最后,则利用bert模型对三次去重后的词语集合进行四次查重处理,得到四次查重结果;如此,结合前述各个查重处理所得到的查重结果,即可确定出目标需求文档的最优查重结果。
11、通过上述设计,本发明先提取出需求文档中的动名词,并利用多种查重方法来进行多次查重处理,得到多次查重结果;最后,则可利用多次查重结果来确定出需求文档最终的查重结果;如此,本发明将基于名词和动词的需求文档,与同义词词库、知识图谱、bert模型等自然语言处理技术相结合,来实现查重处理,相比于传统技术,避免了文档质量对查重的影响,且结合了多种查重技术,可提高查重准确率,非常适用于在文档查重技术领域的大规模应用与推广。
12、在一个可能的设计中,所述目标需求文档中包含有若干文本句子,其中,对所述目标需求文档进行提炼处理,得到所述目标需求文档中的词语集合,包括:
13、对各个文本句子进行命名实体识别,以得到各个文本句子中每个词语的命名实体类别;
14、基于各个文本句子中每个词语的命名实体类别,从各个文本句子中提取出名词和动词;
15、利用提取出的名词和动词,组成所述词语集合。
16、在一个可能的设计中,所述目标需求文档中的若干文本句子是利用原子化分解方法对目标需求文档进行分解所得到的。
17、在一个可能的设计中,对所述初始去重词语集合进行二次查重,得到二次查重结果,包括:
18、获取词语查重规则;
19、利用词语查重规则,对初始去重词语集合进行二次查重处理,得到所述二次查重结果。
20、在一个可能的设计中,在对所述初始去重词语集合进行二次查重以及去重处理前,所述方法还包括:
21、将所述初始去重词语集合进行可视化展示,以使去重人员对展示的所述初始去重词语集合进行解析处理,得到解析后的初始去重词语集合,并上传所述解析后的初始去重词语集合;
22、响应于与所述去重人员的上传人机交互操作,以接收所述解析后的初始去重词语集合,并在接收后,对解析后的初始去重词语集合进行二次查重以及去重处理,得到所述二次查重结果和所述二次去重后的词语集合。
23、在一个可能的设计中,在得到所述目标需求文档的最优查重结果后,所述方法还包括:
24、基于初始查重结果、二次查重结果、三次查重结果以及四次查重结果,得到在初始查重处理、二次查重处理、三次查重处理以及四次查重处理时所对应的同义名词和同义动词;
25、利用所述同义名词和同义动词更新所述同义词词库,得到更新后的同义词词库,以便在接收到下一篇目标需求文档时,基于更新后的同义词词库对下一篇目标需求文档对应的词语集合进行一次查重以及去重处理。
26、在一个可能的设计中,根据权利要求6所述的方法,其特征在于,在利用所述同义名词和同义动词更新所述同义词词库,得到更新后的同义词词库前,所述方法还包括:
27、将所述同义名词和所述同义动词发送至审核端,以使审核端对应的审核人员对所述同义名词和所述同义动词进行审核处理,得到审核结果;
28、接收审核端上传的审核结果,并在审核结果为审核通过时,利用所述同义名词和同义动词更新所述同义词词库,得到更新后的同义词词库。
29、第二方面,提供了一种基于名词与动词的需求文档的查重装置,包括:
30、提炼单元,用于获取目标需求文档,并对所述目标需求文档进行提炼处理,得到所述目标需求文档中的词语集合,其中,所述词语集合中包含有所述目标需求文档中所有的名词和动词;
31、查重单元,用于获取同义词词库,并利用所述同义词词库对所述词语集合进行一次查重以及去重处理,得到初始查重结果和初始去重词语集合;
32、查重单元,用于对所述初始去重词语集合进行二次查重以及去重处理,得到二次查重结果和二次去重后的词语集合;
33、查重单元,用于利用知识图谱,对二次去重后的词语集合进行三次查重以及去重处理,得到三次查重结果和三次去重后的词语集合;
34、查重单元,用于基于bert模型,对所述三次去重后的词语集合进行四次查重处理,以在四次查重处理后,得到四次查重结果;
35、查重单元,还用于利用所述初始查重结果、所述二次查重结果、所述三次查重结果以及所述四次查重结果,得到所述目标需求文档的最优查重结果。
36、第三方面,提供了另一种基于名词与动词的需求文档的查重装置,以装置为电子设备为例,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计的所述基于名词与动词的需求文档的查重方法。
37、第四方面,提供了一种存储介质,存储介质上存储有指令,当指令在计算机上运行时,执行如第一方面或第一方面中任意一种可能设计的所述基于名词与动词的需求文档的查重方法。
38、第五方面,提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使计算机执行如第一方面或第一方面中任意一种可能设计的所述基于名词与动词的需求文档的查重方法。
39、有益效果:
40、(1)本发明先提取出需求文档中的动名词,并利用多种查重方法来进行多次查重处理,得到多次查重结果;最后,则可利用多次查重结果来确定出需求文档最终的查重结果;如此,本发明将基于名词和动词的需求文档,与同义词词库、知识图谱、bert模型等自然语言处理技术相结合,来实现查重处理,相比于传统技术,避免了文档质量对查重的影响,且结合了多种查重技术,可提高查重准确率,非常适用于在文档查重技术领域的大规模应用与推广。