一种数据验证方法、装置、设备以及计算机可读存储介质与流程

文档序号:34885252发布日期:2023-07-25 15:24阅读:26来源:国知局
一种数据验证方法、装置、设备以及计算机可读存储介质与流程

本技术涉及互联网,尤其涉及一种数据验证方法、装置、设备以及计算机可读存储介质。


背景技术:

1、随着人工智能技术以及互联网的发展,智能应用随处可见,其中,人机对话是智能应用当下最火热的领域之一,简单来说,人机对话就是通过输入数据(例如语音以及文本),生成输出数据,例如回答文本。

2、现有的人机对话技术,通常采用自回归(auto-regressive)的方式进行文本生成,但是现有的自回归技术是基于语义的最优条件概率序列,而非基于真实性的文本生成回答;换句话说,现有技术所生成的文本的最高优先级为文段通顺,而非文段无误,故回答文本可能会包含事实性错误,即回答文本可能是错误的,又由于现有技术没有确定回答文本的回答质量结果,故会输出错误的回答文本。上述可知,现有技术会降低回答质量结果的准确性,进而会降低回答文本的准确性。


技术实现思路

1、本技术实施例提供一种数据验证方法、装置、设备以及计算机可读存储介质,可以提高回答质量结果的准确性以及回答文本的准确性。

2、本技术实施例一方面提供了一种数据验证方法,包括:

3、从回答文本中抽取用于表征回答文本的至少两个提及词;

4、获取用于表征至少两个实体词之间的实体关系的知识图谱,在至少两个实体词中获取至少两个提及词分别关联的实体词,作为关联实体词;

5、在至少两个关联实体词中,遍历获取包含作为起点实体词的关联实体词以及作为终点实体词的关联实体词的实体词对;起点实体词与终点实体词不同;

6、遍历知识图谱,获取用于连接起点实体词以及终点实体词的实体关系词,生成包含起点实体词、实体关系词以及终点实体词的知识路径;

7、根据知识路径对回答文本进行质量预测处理,得到回答文本的回答质量结果。

8、本技术实施例一方面提供了一种数据验证装置,包括:

9、提及抽取模块,用于从回答文本中抽取用于表征回答文本的至少两个提及词;

10、第一获取模块,用于获取用于表征至少两个实体词之间的实体关系的知识图谱,在至少两个实体词中获取至少两个提及词分别关联的实体词,作为关联实体词;

11、第二获取模块,用于在至少两个关联实体词中,遍历获取包含作为起点实体词的关联实体词以及作为终点实体词的关联实体词的实体词对;起点实体词与终点实体词不同;

12、第三获取模块,用于遍历知识图谱,获取用于连接起点实体词以及终点实体词的实体关系词,生成包含起点实体词、实体关系词以及终点实体词的知识路径;

13、文本处理模块,用于根据知识路径对回答文本进行质量预测处理,得到回答文本的回答质量结果。

14、其中,至少两个提及词包括提及词ab,b为正整数,且b小于或等于至少两个提及词的总数量;

15、第一获取模块,包括:

16、第一确定单元,用于确定提及词ab分别与至少两个实体词中每个实体词之间的分词共现次数;

17、第一获取单元,用于在至少两个分词共现次数中,获取z个分词共现次数;z为正整数,且z小于至少两个分词共现次数的总数量;z个分词共现次数大于剩余分词共现次数;剩余分词共现次数包括至少两个分词共现次数中除了z个分词共现次数之外的分词共现次数;

18、第二确定单元,用于在至少两个实体词中,将z个分词共现次数对应的实体词确定为提及词ab的候选实体词;

19、第二获取单元,用于确定提及词ab与候选实体词之间的相似度,获取相似度中的最大相似度;

20、第三确定单元,用于将具有最大相似度的候选实体词,确定为提及词ab的关联实体词。

21、其中,第一确定单元,包括:

22、窗口遍历子单元,用于根据遍历窗口的步长,在提及词ab中进行遍历,得到提及词ab对应的提及分词;提及分词的分词数量等于遍历窗口的步长;

23、第一获取子单元,用于获取至少两个实体词分别对应的实体分词;至少两个实体词包括实体词cd,d为正整数,且d小于或等于至少两个实体词的总数量;至少两个实体分词包括实体词cd对应的实体分词;

24、分词处理子单元,用于对提及分词以及实体词cd对应的实体分词进行分词共现处理,得到提及词ab与实体词cd之间的分词共现次数。

25、其中,提及分词的总数量为e,e个提及分词包括提及分词fg,e以及g均为正整数,且g小于或等于e;

26、分词处理子单元,包括:

27、分词对比子单元,用于将提及分词fg与实体词cd对应的实体分词进行对比;

28、总量确定子单元,用于若实体词cd对应的实体分词中,存在与提及分词fg相同的实体分词,则将与提及分词fg相同的实体分词的总数量,确定为提及分词fg对应的分词共现次数;

29、总和确定子单元,用于将e个提及分词对应的分词共现次数的总和,确定为提及词ab与实体词cd之间的分词共现次数。

30、其中,第二获取单元,包括:

31、第一生成子单元,用于调用度量生成模型,生成提及词ab的第一语义向量,以及候选实体词的第二语义向量;

32、第一确定子单元,用于将第一语义向量以及第二语义向量之间的相似度,确定为提及词ab与候选实体词之间的相似度。

33、其中,第二获取单元,还包括:

34、第二获取子单元,用于获取至少两个正样本词对;至少两个正样本词对包括正样本词对lk,k为正整数,且k小于或等于至少两个正样本词对的总数量;

35、第二生成子单元,用于调用度量生成初始模型,生成正样本词对lk中的样本提及词的第一语义预测向量,以及正样本词对lk中的第一实体词的第二语义预测向量;第一实体词属于知识图谱;

36、第二确定子单元,用于将第一语义预测向量以及第二语义预测向量,确定为正样本词对lk的语义预测向量对;

37、模型调整子单元,用于根据至少两个正样本词对分别对应的语义预测向量对,对度量生成初始模型中的参数进行调整,得到度量生成模型。

38、其中,模型调整子单元,包括:

39、第一相似子单元,用于确定第一语义预测向量以及第二语义预测向量之间的第一向量相似结果;

40、实体获取子单元,用于在至少两个正样本词对中,获取除了正样本词对lk之外的正样本词对中的第二实体词;第二实体词属于知识图谱;

41、向量确定子单元,用于在至少两个正样本词对分别对应的语义预测向量对中,将第二实体词对应的语义预测向量,确定为第三语义预测向量;

42、第二相似子单元,用于确定第一语义预测向量以及第三语义预测向量之间的第二向量相似结果;

43、参数调整子单元,用于根据第一向量相似结果以及第二向量相似结果,对度量生成初始模型中的参数进行调整,得到度量生成模型。

44、其中,参数调整子单元,具体用于确定用于调节度量生成初始模型对正样本词对lk所对应的负样本词对的关注程度的负样本关注参数;负样本词对是由样本提及词以及第二实体词所组成的;

45、参数调整子单元,还具体用于确定第一向量相似结果与负样本关注参数之间的第一比值,确定第二向量相似结果与负样本关注参数之间的第二比值;

46、参数调整子单元,还具体用于对第一比值进行指数处理,得到第一指数结果,对第二比值进行指数处理,得到第二指数结果;

47、参数调整子单元,还具体用于对第二指数结果进行求和处理,得到指数结果总值;

48、参数调整子单元,还具体用于根据第一指数结果以及指数结果总值,对度量生成初始模型中的参数进行调整,得到度量生成模型。

49、其中,参数调整子单元,还具体用于确定第一指数结果以及指数结果总值之间的第三比值,对第三比值进行对数处理,得到对数结果;

50、参数调整子单元,还具体用于对对数结果进行求负处理,得到正样本词对lk对应的误差值;

51、参数调整子单元,还具体用于对至少两个正样本词对分别对应的误差值进行求和处理,得到度量生成初始模型对应的模型误差值;

52、参数调整子单元,还具体用于根据模型误差值,对度量生成初始模型中的参数进行调整,得到度量生成模型。

53、其中,实体关系词包括第一关系实体词;

54、第三获取模块,包括:

55、第三获取单元,用于在知识图谱中,获取与起点实体词具有连接边的第一实体词集合;

56、第四获取单元,用于若第一实体词集合中存在终点实体词,则在知识图谱中,获取用于表征起点实体词以及终点实体词之间的连接边的第一实体关系词;

57、路径组成单元,用于将起点实体词、第一实体关系词以及终点实体词按序组成第一知识路径;

58、终点删除单元,用于将第一实体词集合中的终点实体词进行删除,得到第二实体词集合;

59、第一生成单元,用于遍历第二实体词集合,生成包括第一知识路径的知识路径。

60、其中,第一生成单元,包括:

61、第三确定子单元,用于若在知识图谱中,第二实体词集合不存在具有连接边的实体词,则将第一知识路径确定为知识路径;

62、第四确定子单元,用于若在知识图谱中,第二实体词集合存在具有连接边的实体词,则将第二实体词集合中具有连接边的实体词确定为第三实体词集合;第三实体词集合包括实体词hi,i为正整数,且i小于或等于第三实体词集合中的实体词的总数量;

63、第三获取子单元,用于在知识图谱中,获取与实体词hi具有连接边的第四实体词集合;第四实体词集合不包括起点实体词;

64、第三生成子单元,用于遍历第四实体词集合,生成包括第一知识路径的知识路径。

65、其中,实体关系词还包括第二实体关系词以及第三实体关系词;

66、第三生成子单元,包括:

67、关系获取子单元,用于若第四实体词集合中存在终点实体词,则在知识图谱中,获取用于表征起点实体词以及实体词hi之间的连接边的第二实体关系词,以及用于表征实体词hi以及终点实体词之间的连接边的第三实体关系词;

68、路径生成子单元,用于将起点实体词、第二实体关系词、实体词hi、第三实体关系词以及终点实体词,按序组成第二知识路径;

69、终点删除子单元,用于将第四实体词集合中的终点实体词进行删除,得到第五实体词集合;

70、路径生成子单元,用于遍历第五实体词集合,生成包括第一知识路径以及第二知识路径的知识路径。

71、其中,数据验证装置,还包括:

72、第四获取模块,用于获取问题文本以及用于回答问题文本的回答文本;

73、则文本处理模块,包括:

74、第二生成单元,用于生成包括问题文本、回答文本以及知识路径的文本数据;

75、第三生成单元,用于获取文本识别模型,调用文本识别模型中的编码子模型,生成文本数据的文本语义向量;

76、第四生成单元,用于调用文本识别模型中的分类子模型,生成文本语义向量的类别识别概率;

77、概率处理单元,用于对类别识别概率进行识别处理,得到回答文本的回答质量结果。

78、其中,概率处理单元,包括:

79、第四获取子单元,用于若知识路径的总数量为至少两个,则在至少两个类别识别概率中获取最大类别识别概率;其中,一个知识路径对应一个文本数据;一个文本数据对应一个类别识别概率;

80、概率对比子单元,用于将最大类别识别概率与错误概率阈值进行对比,得到对比结果;

81、第五确定子单元,用于若对比结果指示最大类别识别概率等于或大于错误概率阈值,则将回答错误结果确定为回答文本的回答质量结果;

82、第六确定子单元,用于若对比结果指示最大类别识别概率小于错误概率阈值,则将回答正确结果确定为回答文本的回答质量结果。

83、其中,文本处理模块,还包括:

84、第五获取单元,用于获取具有类别标签的样本文本数据;

85、第五生成单元,用于获取文本识别初始模型,调用文本识别初始模型中的编码初始子模型,生成样本文本数据的文本语义预测向量;

86、第六生成单元,用于调用文本识别初始模型中的分类初始子模型,生成文本语义预测向量的类别预测概率;

87、第四确定单元,用于确定类别预测概率以及类别标签之间的差异信息;

88、参数调整单元,用于根据差异信息,对文本识别初始模型中的参数进行调整,得到文本识别模型。

89、本技术一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;

90、上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本技术实施例中的方法。

91、本技术实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本技术实施例中的方法。

92、本技术实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本技术实施例中的方法。

93、在本技术实施例中,计算机设备可以从回答文本中抽取用于表征回答文本的至少两个提及词;通过用于表征至少两个实体词之间的实体关系的知识图谱,可以获取至少两个提及词分别关联的实体词,作为关联实体词,故可以将处于解耦关系的回答文本与知识图谱进行结合;进一步,计算机设备在至少两个关联实体词中,遍历获取包含作为起点实体词的关联实体词以及作为终点实体词的关联实体词的实体词对;其中,起点实体词与终点实体词不同;通过遍历知识图谱,可以获取用于连接起点实体词以及终点实体词的实体关系词,生成包含起点实体词、实体关系词以及终点实体词的知识路径;进一步,计算机设备根据知识路径,可以对回答文本进行质量预测处理,得到回答文本的回答质量结果,故可以确定回答文本是否正确,即回答文本是否是错误的。上述可知,由于知识路径不仅包括关联实体词,还包括实体关系词,故采用本技术,不仅可以提高回答质量结果的准确性,还可以提高可解释性;通过准确的回答质量结果,可以提高回答文本的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1