面向开放域科普的问答库自动更新方法和装置与流程

文档序号:34657884发布日期:2023-07-04 22:54阅读:33来源:国知局
面向开放域科普的问答库自动更新方法和装置与流程

本技术涉及自然语言处理,尤其涉及一种面向开放域科普的问答库自动更新方法和装置。


背景技术:

1、自动问答系统被广泛应用于现实场景中,如聊天机器人、智能客服、语音助手等。传统的自动问答系统存在若干问题:首先,对于开放域的问答场景,很难获取大规模的有效数据来构建相应的问答系统;其次,开放域下的问答场景,每次问题检索都需要花费一定的资源,不能做到根据检索到的文本进行“举一反三”;同时针对开放域的中文问答算法,缺少质量较高的数据机。


技术实现思路

1、本技术旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本技术的第一个目的在于提出一种面向开放域科普的问答库自动更新方法,解决了现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。

3、本技术的第二个目的在于提出一种面向开放域科普的问答库自动更新装置。

4、本技术的第三个目的在于提出一种计算机设备。

5、本技术的第四个目的在于提出一种非临时性计算机可读存储介质。

6、为达上述目的,本技术第一方面实施例提出了一种面向开放域科普的问答库自动更新方法,包括:获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。

7、可选地,在本技术的一个实施例中,根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集,包括:

8、根据问题库中的问题进行检索,得到检索页面;

9、当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;

10、当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。

11、可选地,在本技术的一个实施例中,将文本-问题-答案的监督信号添加至文本-问题-答案数据集,包括:

12、将文本-问题-答案的监督信号以字符串形式添加至答案的起始位置,以生成有监督信号的文本-问题-答案的数据集。

13、可选地,在本技术的一个实施例中,对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,包括:

14、获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数,以更新多语言预训练模型,保存更新后的多语言预训练模型的词汇表;

15、将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。

16、可选地,在本技术的一个实施例中,使用测试集对中文问答对生成模型进行评测,包括:

17、将测试集中的文本输入至中文问答对生成模型中,预测生成最佳的预设个数的问题-答案对;

18、将问题-答案对与标准问题-答案对进行对比,并使用bleu-4、rouge-l以及基于gan网络的方法三个评测指标对模型进行评测。

19、可选地,在本技术的一个实施例中,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库,包括:

20、根据待预测问题库中的问题进行检索,得到检索页面;

21、根据检索页面得到最优页面内容,并将最优页面内容作为文本输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库;

22、其中,当检索页面中含有精选框,则将精选框中的页面内容作为最优页面内容;

23、当检索页面不包含精选框,则选取检索页面中非广告的网页内容作为最优页面内容。

24、为达上述目的,本技术第二方面实施例提出了一种面向开放域科普的问答库自动更新装置,包括:

25、获取模块,用于获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;

26、划分模块,用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;

27、微调模块,用于对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;

28、生成模块,用于构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。

29、可选地,在本技术的一个实施例中,获取模块,具体用于:

30、根据问题库中的问题进行检索,得到检索页面;

31、当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;

32、当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。

33、为达上述目的,本技术第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的面向开放域科普的问答库自动更新方法。

34、为了实现上述目的,本技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种面向开放域科普的问答库自动更新方法。

35、本技术实施例的面向开放域科普的问答库自动更新方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。

36、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1