一种基于问题生成的事实核查辅助方法及系统与流程

文档序号:37437582发布日期:2024-03-25 19:36阅读:19来源:国知局
一种基于问题生成的事实核查辅助方法及系统与流程

本发明涉及领域,更具体的,涉及一种基于问题生成的事实核查辅助方法及系统。


背景技术:

1、自动化事实核查系统相关工作主要聚焦于将事实核查全流程自动化,从而直接代替人类开展对事实信息的核查。此部分工作将事实核查划分为证据检索-事实验证两阶段,并分别引入信息检索技术和自动化事实验证技术来构建系统,从而实现同时接受大量待核查声明,开展证据检索,并结合检索得到的证据进行事实验证,最终完成事实核查。

2、在证据检索部分,目前的实现方法主要分为两类:第一类是借助各类网页api工具检索与待核查声明相关的文档,再依赖tf-idf或bm25等传统检索方法进行文档内的证据句匹配;第二类是引入预训练模型,通过建模待检索声明和待检索文档的向量表示来完成检索。

3、在事实验证部分,早期的技术实现主要基于lstm及注意力机制,利用多层感知机进行分类。然而,此类方法缺乏对证据及声明间相关性的建模。后续的技术研究注意到图神经网络对证据及声明间关系建模的有效性,并引入各类图神经网络进行技术实现。同时,随着预训练模型的兴起,技术实现也引入了各种预训练模型来提升事实验证的准确率。例如,gear模型利用了预训练模型bert来提取文本的初始表征。此外,corefbert等长文本共指信息提取能力优秀的预训练模型,促进了事实验证准确率的提升。

4、此外,区别于将事实核查全流程自动化,部分研究尝试为人工核查流程引进自动化的辅助方法,以直接提高人工核查的效率。研究工作指出,在真实场景下,对事实声明进行概括或预先提问是提高事实核查效率的有效方法。这是因为,人类在发起事实核查时,一个关键的核查步骤就是对声明提问。人们完成对声明的提问后,才能基于这些问题,更有针对性地检索后续证据,验证声明的真实性。如果能用自动化的方法节省人类的提问时间,人类事实核查的效率就会提高。例如,引入声明-信息数据集,能够为事实核查人员预先匹配针对待核查声明的相关问题,最高可以将核查时间降低20%。此外,侧重于针对政治相关待核查声明引入是否类型子问题,能够促进大众对政治声明的完整认识。上述研究展示了对事实声明进行分解提问的方法可以在可解释的事实核查系统的证据检索和准确性验证中发挥重要的作用。这些研究为改进事实核查流程提供了新的思路。对事实声明进行概括或提问,可以帮助核查人员更有效地获取关键信息,并加速事实核查的过程,从而提高事实核查系统的效率和准确性。同时,更高质量的提问通常可以在这个优化过程中发挥更好的作用。

5、然而,自动化的问题生成结果与人类的预期提问仍有不小的差距。这是因为,当前技术仅针对声明本身的内容进行问题生成,而忽视了对与声明相关外部知识的引入与建模。而人类在针对待核查声明提问时,则会结合自身的认知和待核查声明的内容。这导向了更加深入和准确的提问。

6、针对上述问题,亟需一种基于问题生成的事实核查辅助方法及系统。


技术实现思路

1、为解决现有技术中存在的不足,本发明提供一种基于问题生成的事实核查辅助方法及系统,方法通过采集原始知识文本,编码、抽取所述原始知识文本中的关键词段,将抽取出的所述关键词段与声明拼接,并对拼接结果进行问题生成。

2、本发明采用如下的技术方案。

3、本发明第一方面,涉及一种基于问题生成的事实核查辅助方法,方法包括以下步骤:通过声明-信息数据集核查网站链接,并基于网站链接搜索所述网站链接中的原始知识文本;利用自然语言处理模型对所述原始知识文本进行编码,抽取所述原始知识文本中的关键词段;将抽取出的所述关键词段与声明拼接,并对拼接结果进行问题生成。

4、优选的,通过声明-信息数据集核查网站链接,还包括:利用待核查的声明作为基准,从声明-信息数据中选择与所述待核查的声明相关联的网站链接。

5、优选的,基于网站链接搜索所述网站链接中的原始知识文本,还包括:通过newspaper3k库从所述网站链接中下载网页内容,获得与所述待核查的声明相匹配的原始知识文本;原始知识文本中至少包括所述待核查的声明的来源、与所述待核查的声明相匹配的报道信息、对所述报道信息的描述。

6、优选的,利用自然语言处理模型对所述原始知识文本进行编码,还包括:对所述原始知识文本b=(b1,b2...bn)进行文本编码,以获得文本向量表示w;对所述原始知识文本b再次编码,以实现关联维度的文本编码,从而获得m个关联文本向量表示{w1,w2,…,wm};比较关联文本向量表示{w1,w2,…,wm}与文本向量表示w的相似度,直到选出所述关键词段。

7、优选的,比较关联文本向量表示{w1,w2,…,wm}与文本向量表示w的相似度,还包括:计算wi与w的相似度为:

8、

9、若所述wi与w的相似度越高,则特征wi代表的词段与所述原始知识文本的相似度越高。

10、优选的,抽取出的所述关键词段与声明拼接,还包括:将抽取出的所述关键词段与声明按照拼接模板

11、<cls>claim<s>knowledge</s>

12、进行拼接;

13、其中,cls为声明字段索引,

14、claim为所述待核查的声明,

15、<s>为所述关键词段的起始索引,

16、</s>为所述关键词段的终止索引,

17、knowledge为所述关键词段。

18、优选的,对拼接结果进行问题生成,还包括:生成的初始问题的概率为:

19、

20、式中,x为所述待核查的声明的文本表示,f为所述关键词段的文本表示,

21、为所述待核查的声明的向量表示,为所述关键词段的向量表示,

22、为生成的第j个初始问题,k为标识符的编号,取值范围在1至l之间。

23、优选的,对拼接结果进行问题生成,还包括:基于所述拼接结果添加噪声,从而生成系列问题。

24、本发明第二方面,涉及一种利用本发明第一方面中方法的一种基于问题生成的事实核查辅助系统,系统包括搜索模块、抽取模块和生成模块;其中,搜索模块,用于通过声明-信息数据集核查网站链接,并基于网站链接搜索所述网站链接中的原始知识文本;抽取模块,用于利用自然语言处理模型对所述原始知识文本进行编码,抽取所述原始知识文本中的关键词段;生成模块,用于将抽取出的所述关键词段与声明拼接,并对拼接结果进行问题生成。

25、本发明第三方面,涉及一种终端,包括处理器及存储介质;存储介质用于存储指令;处理器用于根据指令进行操作以执行根据本发明第一方面中方法的步骤。

26、本发明第四方面,涉及计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面中方法的步骤。

27、本发明的有益效果在于,与现有技术相比,本发明中的一种基于问题生成的事实核查辅助方法及系统,方法通过采集原始知识文本,编码、抽取所述原始知识文本中的关键词段,将抽取出的所述关键词段与声明拼接,并对拼接结果进行问题生成。本发明有效利用外部知识,改进针对事实声明的提问质量。

28、本发明的有益效果还包括:

29、1、方法相对先前工作,通过引入声明背景知识,并加入关键词抽取方法利用背景知识,显著提升了生成问题的质量。

30、2、方法在消融实验部分不使用任何关键词抽取方法,直接将原始背景知识与声明输入模型获得生成问题。结果上,这种方法生成问题的质量弱于本技术方法,但相对先前工作仍有提升。这表明,在针对事实声明提问时,即使不考虑对外部知识的利用,引入外部知识对提升问题质量仍然存在效果。换言之,消融实验证明了简单引入外部知识对提升问题生成质量也仍有正向意义。

31、3、方法在围绕事实声明的问题生成过程引入了外部知识,并引入了模型对外部知识进行文本关键句提取,最终有效利用外部知识提升了针对声明的提问质量。

32、4、方法采用了比现有技术性能更高的关键词提取方法对背景信息进行关键信息抽取。在比对各类预训练语言模型的特点后,本技术也采用了在文本生成上表现更好的自然语言模型作为处理声明与知识的模型。最后,通过建模问题生成的过程,确认最小化负对数似然损失与最大化生成过程概率的一致性,选择以最小化负对数似然损失的方式训练整个模型。结果上,这使得方法相对先前工作获得了更优的表现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1